Plans de Continuité et de Reprise d'Activité Informatique

1 : Gérer le patrimoine informatique

1.2 Exploiter des référentiels, normes et standards adoptés par le prestataire informatique

1.4 Vérifier les conditions de la continuité d'un service informatique

Qu'est-ce que la continuité de service informatique ?

La continuité de service informatique désigne l'ensemble des mesures mises en place pour garantir que les services restent disponibles et fonctionnels, même en cas d'incident ou de perturbation. L'objectif est de minimiser les interruptions et de permettre une reprise rapide des activités.

En pratique, cela inclut :

La surveillance continue des systèmes
La redondance des systèmes et des réseaux
La sauvegarde régulière des données
L'utilisation de sites de secours ou de centres de données secondaires
La mise en place de plans de reprise (PRI) ou de continuité (PCI)

Incidents mineurs vs incidents majeurs

Incident mineur : événement à impact limité, résolu rapidement par le support technique sans perturbations importantes. La tolérance aux pannes et la haute disponibilité permettent d'y faire face.

Incident majeur : événement urgent et à fort impact qui touche l'ensemble ou une grande partie de l'organisation, entraînant l'indisponibilité des services et nuisant à la situation financière.

Exemples de coûts d'incidents majeurs :

Groupe Reckitt : 110 millions d'euros
Saint-Gobain : 250 millions d'euros
Maersk : entre 200 et 300 millions de dollars

Tolérance aux pannes — Le RAID

Le RAID (Redundant Array of Independent Disks) est une technologie permettant de combiner plusieurs disques durs pour améliorer les performances et/ou la tolérance aux pannes.

RAID 0 — Agrégat par bandes

Les données sont réparties sur plusieurs disques
Aucune redondance : si 1 disque tombe en panne, toutes les données sont perdues
Capacité totale : somme de tous les disques
Minimum : 2 disques

Objectif : performances maximales, pas de sécurité

RAID 1 — Miroir

Les données sont dupliquées à l'identique sur 2 disques
Si 1 disque tombe en panne : aucune perte de données
Capacité totale : égale à 1 seul disque (l'autre est le miroir)
Minimum : 2 disques

Objectif : sécurité maximale, pas d'optimisation de l'espace

RAID 5 — Bandes avec parité répartie

Les données et les informations de parité sont réparties sur tous les disques
Tolère la perte de 1 disque sans perte de données
Si 2 disques tombent en panne : toutes les données sont perdues
Capacité totale : (n-1) disques — exemple : 3 disques de 1 To = 2 To utiles
Minimum : 3 disques

Objectif : bon compromis entre performance, espace et sécurité

RAID 6 — Bandes avec double parité

Comme le RAID 5 mais avec deux blocs de parité
Tolère la perte de 2 disques simultanément sans perte de données
Capacité totale : (n-2) disques — exemple : 4 disques de 1 To = 2 To utiles
Minimum : 4 disques

Objectif : sécurité renforcée par rapport au RAID 5

RAID 10 — Miroir + Agrégat (RAID 1+0)

Combinaison du RAID 1 (miroir) et du RAID 0 (bandes)
Les données sont d'abord dupliquées puis réparties
Tolère la perte d'1 disque par paire sans perte de données
Capacité totale : 50% des disques — exemple : 4 disques de 1 To = 2 To utiles
Minimum : 4 disques

Objectif : performances élevées et bonne tolérance aux pannes

Récapitulatif RAID

RAID 0 — Performance, aucune tolérance aux pannes
RAID 1 — Sécurité maximale, espace divisé par 2
RAID 5 — Bon compromis, tolère 1 panne
RAID 6 — Sécurité renforcée, tolère 2 pannes
RAID 10 — Performance + sécurité, nécessite 4 disques minimum

Le Plan de Gestion de Crise (PGC)

Le PGC regroupe l'ensemble des processus et mesures à prendre avant, pendant et après une crise. Il se compose de :

PCA — Plan de Continuité d'Activité
- PCO — Plan de Continuité Opérationnel (mode fonctionnel)
- PCI — Plan de Continuité Informatique (mode informatique)
PRI — Plan de Reprise Informatique (mode informatique)

PCI et PRI

Plan de Continuité Informatique (PCI) Garantit la disponibilité continue des services informatiques même en cas de crise. Il comprend des mesures préventives pour que les systèmes critiques restent opérationnels.

Plan de Reprise Informatique (PRI) Décrit les actions à entreprendre pour restaurer les systèmes après une interruption majeure. Il se concentre sur la récupération des données et des infrastructures essentielles.

RPO et RTO

PDMA / RPO (Perte de Données Maximale Admissible / Recovery Point Objective) Quantifie les données qu'un système peut être amené à perdre suite à un incident. Exprimée en heures ou en minutes, elle correspond à la durée entre l'incident et la date la plus récente des données de remplacement.

Question clé : Combien de données est-il acceptable de perdre ?

DMIA / RTO (Durée Maximale d'Interruption Admissible / Recovery Time Objective) Désigne la durée maximale d'interruption admissible d'un système informatique.

Le RTO se calcule par la somme de :

La durée de détection de l'incident
La durée de prise de décision pour lancer les procédures de secours
La durée de mise en œuvre des procédures (intervention, restauration)
Le temps de contrôle et relance du système

Question clé : En combien de temps le système doit-il être rétabli ?

En résumé :

PCI : RTO = 0 et RPO = 0 (aucune interruption ni perte de données tolérée)
PRI : RTO > 0 et RPO > 0 (une interruption et une perte partielle sont tolérées)

Les phases d'une crise majeure

Mode nominal — fonctionnement normal
Détection et alerte — identification de l'incident
Décision — déclenchement des procédures de secours
Exécution et contrôles — mise en œuvre du PCA / PRI
Système restauré — reprise de l'activité
Contrôles métiers — vérification du retour à la normale
Mode nominal — retour au fonctionnement habituel