The blog of blog of blogs

Les aventures d'un ethnologue dans le grand monde

Continuité de service 22 février 2012


.
.
Cinq jours.
Les premiers renforts ont mis cinq jours pour entrer dans la ville de Nouvelle Orléans après l’ouragan Katrina et leur première action ne fut pas de porter secours, mais d’évaluer les besoins pour pouvoir répartir correctement les équipes qui arrivaient derrière.

Durant ces cinq jours du mois de septembre 2008 les administrations et les entreprises qui avaient pris Katrina dans les dents durent pousser à fond leurs solutions de secours, pour celles qui en avaient.
Les autres ne mirent pas longtemps à comprendre que c’était terminé, le business était stoppé et plus les heures passaient plus il semblait certain que ça devenait irréparable. Notez bien que je parle ici des effets de Katrina sur les organisations, j’ai parlé ailleurs des habitants qui n’avaient pas pu évacuer.
Dans les deux cas cependant pour les polices d’assurance américaines ce genre de chose entre dans une catégorie qui dépasse le cas de « force majeure », c’est le paragraphe « Act of God ».

Au-delà des dégâts liés à l’ouragan lui-même, l’absence d’électricité qui était d’abord complète fut rétablie partiellement dans la deuxième semaine. Au lieu d’une coupure totale, c’était maintenant des coupures intermittentes. Une chose que les appareils électroniques n’apprécient pas du tout.
Dès les premiers jours les organisations non équipées avaient vu la totalité de leur système d’information s’éteindre, tandis que les autres avaient du fermer l’informatique non essentielle et concentrer leurs efforts sur les systèmes stratégiques. Nombre de ces systèmes reposaient sur des bases de données, cela ne vous étonnera pas.
La survie de ces systèmes stratégiques dépendait intégralement de leurs systèmes de secours (les backups) pour garantir l’alimentation électrique, l’intégrité des données et la connexion réseau. Pour celles là, la deuxième semaine permit de reprendre un peu de forces.
Pour les autres, la disponibilité intermittente de l’électricité empira les choses car les dépannages de fortune tombaient en rade à chaque nouvelle coupure ce qui rendait plus périlleux et aléatoire le dépannage d’après (procédure PBM !).

Une légende urbaine raconte qu’un hélicoptère UH-60 de la Garde Nationale fut dérouté spécialement pour apporter du carburant qui servirait à alimenter le groupe électrogène du service des hypothèques de la Nouvelle Orléans.
Ce groupe électrogène permettait le fonctionnement de plusieurs serveurs UNIX qui hébergeaient le cadastre de la ville et la base de données qui permet le calcul de la taxe foncière. Le tout était en fonctionnement au troisième étage d’un immeuble inondé jusqu’au deuxième. Si cette base de données était endommagée, plus personne ne serait capable de lever cet impôt avant qu’une armée de géomètres ne soit allé sur le terrain pour redéfinir les limites de propriété… et pour empêcher les attaques de pirates, ces serveurs n’étaient pas reliés au Réseau. Pas du tout. Il n’y avait donc aucune solution de backup.

Mais l’ouragan Katrina n’est qu’un cas d’école bien sûr. Un bon gros cas d’école, certes, mais pas un cas unique.

.

La plupart du temps d’ailleurs il n’est nul besoin d’un semblant de troisième guerre mondiale pour vous faire transpirer un bon coup.
Les problèmes de mauvaise qualité logicielle, de mauvaise configuration réseau ou de microcoupure de courant sont des déclencheurs bien plus habituels de situation de crise.
Ce sont les petits cailloux dans la chaussure qui finissent par vous mettre à genoux si vous n’avez pas de solution de secours.
Après tout, même une maintenance bien planifiée peut mal tourner !

Et peu importe d’ailleurs les causes d’une perturbation dans le fonctionnement des infrastructures. L’important ce sont les conséquences et votre capacité à y faire face.

Si vous êtes une entreprise, un hôpital ou n’importe quelle organisation qui dépend des infrastructures pour fonctionner, alors vous devez vous intéresser à la notion de continuité de service.
La clé réside dans la capacité à limiter l’impact des problèmes mineurs / moyens pour ne pas qu’ils dégénèrent en problèmes majeurs / critiques.
Car qui dit problème majeur dit perte de revenu, perte de client et/ou perte de vies humaines. Bref, le chaos.
Or, seules les organisations dotées d’un plan de continuité éprouvé peuvent technologiquement passer au travers de ces aléas avec un minimum de pertes. La mise en place d’un tel plan devrait (?) vous amener en premier lieu à questionner votre dépendance aux infrastructures. A quel point êtes-vous dépendant du système ? Peut-être est-il temps de penser à injecter de la robustesse dans votre organisation ? L’un des mots-clés utilisé pour qualifier le désastre nucléaire de Fukushima fut « non anticipé ». Cela signifie que l’opérateur TEPCO avait refusé de pratiquer des exercices réellement critiques -le plus grave exercice simulé par le personnel de la centrale nucléaire de Fukushima consistait à gérer une tempête de neige… Quels sont les scenarii les plus graves simulés dans les centrales du Blayais ou de Fessenheim ?
Et dans votre organisation ?
Si vos scénarii de base ne sont pas extrêmes, vous anticiperez les petits accidents. Or ce sont les gros accidents qui vous mettent à genoux.

La mise en place d’un plan de continuité digne de ce nom permet de connaître les coûts d’interruption ou les obligations légales qui ne sont pas négociables, notamment en termes de sécurité.
Bien.
Mais pour votre organisation qu’est-ce que cela signifie ? Qu’est-ce que ça veut dire chez vous une heure d’interruption totale d’activité ? Combien ça coûte et combien ça coûte à remettre en marche ? Et vingt-quatre heures ? En quatre secondes ?
Aucune organisation ne peut répliquer le plan de continuité d’une autre, ce qui implique une forte dose d’adaptation sur-mesure. Pour les solutions informatiques (l’un des éléments d’un plan de continuité digne de ce nom), cette adaptabilité doit faire partie de vos critères de choix lorsque vous retenez des solutions fournies par des prestataires du marché, notamment pour les solutions de back up et redémarrage où un bon vendeur pourrait vous faire croire qu’il vous met à l’abri d’une collision avec la planète Jupiter.

La première phase de l’évaluation de vos besoins sera d’identifier quelles applications informatiques sont absolument critiques pour votre activité.
On ne peut pas tout protéger, la question est de savoir quel est l’ordre de priorité et qu’est-ce que vous accepteriez de perdre pendant une heure, une journée ou une semaine ?
Les applications que vous ne pouvez pas du tout accepter de perdre seront les premières à bénéficier d’un plan de continuité de service. Ce sera en premier lieu le service ERP, l’e-mail et l’accès haut débit à internet.

Planifier les désastres :

Vous allez me dire que les plans de continuité ça coûte des sous et sans garantie que le désastre se produise réellement… et je vous dirai que non. Les désastres ça se produit, ça arrive toujours, faites confiance à Murphy.
Lorsqu’une perturbation majeure menace à la fois vos ventes, la gestion des ventes et la réputation de votre entreprise vous ne pouvez plus vous permettre de parier sur le fait que ça n’arrivera pas… et malheureusement c’est trop tard. En faisant preuve de prudence il est possible de mettre en place au quotidien une organisation robuste dont la raison d’être est de bien fonctionner (c’est bien) et aussi de continuer de fonctionner en cas de crise sur l’infrastructure (c’est très bien).

– Des services déportés d’hébergement de données permettront de garder les données accessibles dans le cas où le site principal d’hébergement serait touché.
– Des applications de restauration gérées en temps réel pour relancer les services de priorité 1 en moins d’une minute (voir plus bas, le RTO).
– Des accès à distance sécurisés permettront de fournir des accès mobiles afin de rétablir les points d’accès au profit de vos clients / utilisateurs.
– Un routage intelligent permettra de maintenir le contact téléphonique ou e-mail vers un ou plusieurs sites de secours.

Réduire le délai de récupération et les coûts liés à l’interruption :

Selon la nature de votre métier, votre implantation géographique, le nombre d’employés et le volume de votre activité le coût d’une interruption peut aller de dizaines de milliers d’euros à plusieurs millions par heure. Le coût moyen d’une heure d’interruption complète au Etats-Unis est estimée à 147.000 US$. L’analyse d’impact et l’évaluation des risques vous permettront d’avoir une vision claire des enjeux dans votre organisation.
Comme pour tout un chacun, personne morale ou physique, votre dépendance à l’infrastructure est grande et si vous ne faites rien le risque de perdre l’ensemble de vos données est total : finances, brevets, factures, commandes en attente, liste des employés, bulletins de paie, comptabilité, etc.
Fixer une limite à ce que vous-vous autorisez à perdre est donc important, on appelle ça le RPO : Recovery Point Objective. Voir plus bas.

Sauvegarde, redondance et reprise d’activité :

En cas de perturbation, le personnel qui gère les secteurs stratégiques de l’activité a besoin d’accéder aux informations et aux ressources opérationnelles, celles qui leur permettront de faire leur travail. Si ces gens-là tombent, ils entraînent toute l’organisation avec eux.
C’est ici que le concept de redondance fait son entrée et, fort heureusement, cela ne veut pas dire que vous devez avoir tout en double.
Les meilleurs Wide Area Networks (WAN) portent en eux une redondance des composants électroniques critiques comme les switches et les routeurs, des protocoles de routage avancés et des accès indépendants au réseau physique.
Tout cela vous permettra d’avoir un accès au réseau même en cas de perturbation majeure sur un des points de ce réseau… et dans l’hypothèse où vous avez aussi de quoi pallier au manque d’électricité…

Assurer la continuité de service :

Votre organisation se doit d’assurer son activité sans interruption. Les occasions de se planter sont assez nombreuses comme ça, nul besoin d’en rajouter !
Dans le meilleur des cas, un bon plan de continuité permettra à vos employés et aux clients / utilisateurs / citoyens de ne pas se rendre compte qu’il y a eu un problème.
Dans le pire des cas (comme Katrina) chacun comprendra que vous avez des problèmes mais vous serez capable d’assurer un fonctionnement en mode dégradé certes, mais vous assurerez un fonctionnement et c’est bien ça qui importe.
Vous aurez sous la main les outils pour faire tourner la boutique malgré tout et dès le retour à la normale vous retrouverez une situation propre. Business as usual.
Sur ce point techniquement, deux critères doivent être retenus, RTO et RPO, chacun d’eux étant compté en secondes, en minutes et en heures.

Objectif de Délai de Continuité (Recovery Time Objective -RTO) :
Le backup démarre à quel moment et en combien de temps permet-il de reprendre un fonctionnement normal pour les activités de priorité 1 ?

Objectif de Point de Restauration (Recovery Point Objective -RPO) :
Quel point dans le passé est utilisé par le backup ? Si vous devez faire une remise à zéro, quelle date dans le passé êtes vous capable de récupérer ?

En moyenne, pour une grande organisation, les activités critiques de priorité n°1 impliquent un RTO de moins de 60 secondes et un RPO de moins de quatre minutes.
Cela signifie que la priorité 2 tolère une remise en route supérieure à 1 minute et plus de 4 minutes de perte de données.

Brancher et tester :

Aucune solution de business recovery ne mérite d’être installée si elle n’est pas testée au préalable, intégralement et en temps réel. Vous menez des exercices d’évacuation de vos locaux deux fois par an si vous exercez en France, mais avez-vous compris que le même type d’exercice doit être mené pour vos données stratégiques ?
Il ne s’agira pas d’ailleurs d’un simple test : ce sera un entraînement pour l’ensemble de l’organisation, une façon de valider des circuits de communication d’urgence, des procédures et des manières saines d’improviser.
L’idée est de retarder et de limiter au maximum les cas où s’appliquerait l’improvisation aveugle telle que décrite dans la procédure PBM.
.
.
Lorsqu’une perturbation majeure surgira (car elle surgira, vous avez bien compris ça, hein ?!) ces différents éléments vous permettront de tenir le choc et de redémarrer au plus vite après le choc. Ne tombez pas dans l’aveuglement des soi-disant règles de sécurité absolument fiables. Quel que soit votre domaine d’activité, le premier gros piège est le mythe de la sûreté de fonctionnement absolue, des procéssus maîtrisés et de la fiabilité indiscutée, indiscutable… et tout compte fait tout à fait insuffisante.

Un délai de 48 heures pour assurer le retour à la normale est un objectif raisonnable, après qu’un « Act of God » comme Katrina ait achevé de vous piétiner.

Très certainement tous vos concurrents n’auront pas cette capacité et dans ce contexte de crise, un bon plan de continuité se révélera donc être un avantage concurrentiel majeur.
.
.
.
.

Publicités
 

One Response to “Continuité de service”

  1. […] la criminalité, la cohabitation entre communautés culturelles, la redistribution des richesses, la résilience face aux catastrophes ou encore la prise en charge des nouveaux habitants ne relèvent pas du « bureau du […]


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s