1 : Gérer le patrimoine informatique

  • 1.2 Exploiter des référentiels, normes et standards adoptés par le prestataire informatique
  • 1.4 Vérifier les conditions de la continuité d'un service informatique

Qu'est-ce que la continuité de service informatique ?

La continuité de service informatique désigne l'ensemble des mesures mises en place pour garantir que les services restent disponibles et fonctionnels, même en cas d'incident ou de perturbation. L'objectif est de minimiser les interruptions et de permettre une reprise rapide des activités.

En pratique, cela inclut :

  • La surveillance continue des systèmes
  • La redondance des systèmes et des réseaux
  • La sauvegarde régulière des données
  • L'utilisation de sites de secours ou de centres de données secondaires
  • La mise en place de plans de reprise (PRI) ou de continuité (PCI)

Incidents mineurs vs incidents majeurs

Incident mineur : événement à impact limité, résolu rapidement par le support technique sans perturbations importantes. La tolérance aux pannes et la haute disponibilité permettent d'y faire face.

Incident majeur : événement urgent et à fort impact qui touche l'ensemble ou une grande partie de l'organisation, entraînant l'indisponibilité des services et nuisant à la situation financière.

Exemples de coûts d'incidents majeurs :

  • Groupe Reckitt : 110 millions d'euros
  • Saint-Gobain : 250 millions d'euros
  • Maersk : entre 200 et 300 millions de dollars

Tolérance aux pannes — Le RAID

Le RAID (Redundant Array of Independent Disks) est une technologie permettant de combiner plusieurs disques durs pour améliorer les performances et/ou la tolérance aux pannes.

RAID 0 — Agrégat par bandes

  • Les données sont réparties sur plusieurs disques
  • Aucune redondance : si 1 disque tombe en panne, toutes les données sont perdues
  • Capacité totale : somme de tous les disques
  • Minimum : 2 disques

Objectif : performances maximales, pas de sécurité

RAID 1 — Miroir

  • Les données sont dupliquées à l'identique sur 2 disques
  • Si 1 disque tombe en panne : aucune perte de données
  • Capacité totale : égale à 1 seul disque (l'autre est le miroir)
  • Minimum : 2 disques

Objectif : sécurité maximale, pas d'optimisation de l'espace

RAID 5 — Bandes avec parité répartie

  • Les données et les informations de parité sont réparties sur tous les disques
  • Tolère la perte de 1 disque sans perte de données
  • Si 2 disques tombent en panne : toutes les données sont perdues
  • Capacité totale : (n-1) disques — exemple : 3 disques de 1 To = 2 To utiles
  • Minimum : 3 disques

Objectif : bon compromis entre performance, espace et sécurité

RAID 6 — Bandes avec double parité

  • Comme le RAID 5 mais avec deux blocs de parité
  • Tolère la perte de 2 disques simultanément sans perte de données
  • Capacité totale : (n-2) disques — exemple : 4 disques de 1 To = 2 To utiles
  • Minimum : 4 disques

Objectif : sécurité renforcée par rapport au RAID 5

RAID 10 — Miroir + Agrégat (RAID 1+0)

  • Combinaison du RAID 1 (miroir) et du RAID 0 (bandes)
  • Les données sont d'abord dupliquées puis réparties
  • Tolère la perte d'1 disque par paire sans perte de données
  • Capacité totale : 50% des disques — exemple : 4 disques de 1 To = 2 To utiles
  • Minimum : 4 disques

Objectif : performances élevées et bonne tolérance aux pannes

Récapitulatif RAID

  • RAID 0 — Performance, aucune tolérance aux pannes
  • RAID 1 — Sécurité maximale, espace divisé par 2
  • RAID 5 — Bon compromis, tolère 1 panne
  • RAID 6 — Sécurité renforcée, tolère 2 pannes
  • RAID 10 — Performance + sécurité, nécessite 4 disques minimum

Le Plan de Gestion de Crise (PGC)

Le PGC regroupe l'ensemble des processus et mesures à prendre avant, pendant et après une crise. Il se compose de :

  • PCA — Plan de Continuité d'Activité
    • PCO — Plan de Continuité Opérationnel (mode fonctionnel)
    • PCI — Plan de Continuité Informatique (mode informatique)
  • PRI — Plan de Reprise Informatique (mode informatique)

PCI et PRI

Plan de Continuité Informatique (PCI) Garantit la disponibilité continue des services informatiques même en cas de crise. Il comprend des mesures préventives pour que les systèmes critiques restent opérationnels.

Plan de Reprise Informatique (PRI) Décrit les actions à entreprendre pour restaurer les systèmes après une interruption majeure. Il se concentre sur la récupération des données et des infrastructures essentielles.


RPO et RTO

PDMA / RPO (Perte de Données Maximale Admissible / Recovery Point Objective) Quantifie les données qu'un système peut être amené à perdre suite à un incident. Exprimée en heures ou en minutes, elle correspond à la durée entre l'incident et la date la plus récente des données de remplacement.

Question clé : Combien de données est-il acceptable de perdre ?

DMIA / RTO (Durée Maximale d'Interruption Admissible / Recovery Time Objective) Désigne la durée maximale d'interruption admissible d'un système informatique.

Le RTO se calcule par la somme de :

  • La durée de détection de l'incident
  • La durée de prise de décision pour lancer les procédures de secours
  • La durée de mise en œuvre des procédures (intervention, restauration)
  • Le temps de contrôle et relance du système

Question clé : En combien de temps le système doit-il être rétabli ?

En résumé :

  • PCI : RTO = 0 et RPO = 0 (aucune interruption ni perte de données tolérée)
  • PRI : RTO > 0 et RPO > 0 (une interruption et une perte partielle sont tolérées)

Les phases d'une crise majeure

  1. Mode nominal — fonctionnement normal
  2. Détection et alerte — identification de l'incident
  3. Décision — déclenchement des procédures de secours
  4. Exécution et contrôles — mise en œuvre du PCA / PRI
  5. Système restauré — reprise de l'activité
  6. Contrôles métiers — vérification du retour à la normale
  7. Mode nominal — retour au fonctionnement habituel