Transformer les réseaux en catalyseurs d’activité avec l’hyper-résilience

Pourquoi la confiance dans les réseaux est essentielle pour toutes les organisations

Les pannes de réseau sont une source constante d’inquiétude pour les entreprises. Les temps d’arrêt causés par des pannes non planifiées se traduisent par des pertes financières et peuvent ainsi coûter très cher. Selon Gartner, leur coût total moyen par minute s’élève à environ 5 600 dollars.

Pour tous les types d’entreprise, la résilience du réseau devient de plus en plus importante pour les opérations critiques, ainsi que pour l’utilisation croissante des services Cloud. La disponibilité des données est essentielle pour tout le monde, des services informatiques d’entreprise dans le Cloud aux sites Web fournissant des services publics, en passant par les organismes de santé qui pratiquent des opérations chirurgicales en réalité étendue (XR).

Transformer les réseaux en catalyseurs d'activité avec l’hyper-résilience

En raison de cette dépendance croissante aux performances du réseau, nous avons élaboré un plan quinquennal visant à mettre en place un réseau hyper-résilient et à réduire le risque de menaces susceptibles de paralyser les opérations commerciales. Étant donné que ces dernières proviennent de tous les horizons, notamment de l’erreur humaine, des conditions météorologiques et des coupures de fibre, ainsi que de la vulnérabilité aux bogues et aux cyberattaques, nous pensons que l’hyper-résilience est la voie que tous les fournisseurs de réseaux doivent suivre.

La mise en œuvre de notre plan a commencé il y a trois ans. Nous avons travaillé d’arrache-pied pour réorganiser complètement chaque partie de notre réseau, des couches optiques et IP aux voies menant à nos centres de données mondiaux. L’objectif est de renforcer la confiance dans les performances de notre réseau en augmentant sa portée et sa vitesse.

L’amélioration continue au service de l’hyper-résilience

Notre cheminement vers l’hyper-résilience repose sur une approche basée sur cinq piliers visant à améliorer les performances de tous les aspects du réseau, notamment la gestion des événements, la gestion des incidents, la gestion des changements et la gestion des problèmes. Ces piliers soutiennent la couche supérieure, qui modifie la façon dont les clients utilisent les services réseau, et la couche inférieure, qui nous permet de configurer automatiquement chacun des composants utilisés par nos clients.

Continuos Improvement

Tout cela est sous-tendu par une philosophie d’amélioration continue qui nous permet d’évaluer avec précision le nombre de risques introduits et de trouver des moyens efficaces de les gérer.

Réduire les risques signifie ne pas introduire de problèmes, ce qui arrive souvent lors d’interventions humaines. Pour faciliter la gestion centralisée du réseau et le rendre plus flexible, nous avons introduit une approche réseau définie par logiciel. Cela permet d’améliorer le contrôle et d’utiliser l’automatisation dans les environnements de réseaux physique comme virtuel.

Pour consolider cette approche, de multiples voies de connexion en fibre optique sont prévues dans nos centres de données afin de réduire encore davantage le risque d’interruption de service. Lorsque des câbles ont été intentionnellement sabotés au début de l’année, plusieurs villes françaises ont connu des ralentissements et des coupures d’internet. Comme notre réseau dispose de plusieurs routes pour le trafic de données, nous avons pu le réacheminer, et nos clients ne s’en sont ainsi pas rendu compte.

Une approche proactive et prédictive de la gestion des risques

Notre méthodologie de gestion des risques est à la fois proactive et prédictive. Elle est conçue pour croître et évoluer : rien ne reste jamais statique dans l’évolution des réseaux. En ce qui concerne la gestion des problèmes, nous pouvons désormais résoudre tout problème de manière anticipée, en utilisant une approche axée sur les données. Ces dernières nous montrent les schémas récurrents qui indiquent les points de défaillance possibles. Cela nous permet de résoudre le problème immédiatement plutôt que de le laisser s’aggraver. Nous avons également augmenté le filtrage sur le réseau afin de réduire le risque d’activités malveillantes. Ces mesures préventives réduisent le risque d’un incident plus important plus tard, et nous pouvons faire en sorte que l’impact sur le client soit le plus faible possible.

Automation

L’un de nos principaux objectifs est d’atteindre un niveau d’automatisation de 100 % afin d’éliminer non seulement l’erreur humaine, mais aussi de garantir que toute défaillance puisse être détectée et corrigée dès qu’elle se produit. Avec le logiciel que nous avons créé pour gérer le réseau, nous avons introduit l’automatisation dans la production du code. Cela réduit considérablement les erreurs et, avec des processus CI/CD robustes, nous pouvons éliminer les bogues et les erreurs avant que la mise en production.

Le provisionnement sans intervention est un autre moyen de réduire et d’éliminer les risques. Notre réseau de nouvelle génération peut détecter les nouveaux appareils et déterminer leur rôle dans le réseau, puis les configurer, les installer et les déployer automatiquement. Ce niveau d’automatisation élimine également le casse-tête de la mise à jour des micrologiciels des appareils. Auparavant, il s’agissait d’un processus long et perturbateur. Désormais, nous pouvons les mettre à jour plus facilement, sans aucune interruption du réseau. Nous allons plus loin encore dans ce domaine avec un logiciel conçu pour s’auto-réparer afin de détecter, de réagir et de corriger les problèmes à la volée.

Tirer parti de nouveaux services pour les clients

Grâce à la mise en place d’un réseau hyper-résilient, nous pouvons désormais nous concentrer sur la fourniture d’un meilleur service aux clients et les aider à répondre à leurs besoins spécifiques. Cela signifie également que nous pouvons offrir davantage de services à valeur ajoutée que les clients peuvent utiliser dans le Cloud, comme les réseaux privés, et soutenir toute entreprise cherchant à exploiter l’infrastructure en tant que code (IaS). Nous pouvons ainsi fournir des services beaucoup plus rapidement et plus facilement, et nous pouvons également nous assurer qu’ils sont résilients par défaut.

Même si les menaces ne pourront jamais être totalement éliminées, nous nous efforçons de rendre notre propre réseau aussi résilient que possible et nous considérons que cette démarche doit être poursuivie en continu. En fin de compte, il s’agit de faire en sorte que les clients puissent compter sur leurs réseaux, générer de la valeur et accroître leur agilité. Puisqu’ils ne sont plus un simple produit de base mais un outil commercial précieux, il est essentiel que les réseaux hyper-résilients deviennent la norme pour tous.

Chief Product Officer at OVHcloud | + posts
Romain Guillaume
Head of Network Unit at OVHcloud | + posts
Xavier Martins Rivas
Director of Cloud Networks at OVHcloud | + posts