Disaster Recovery — Plánování obnovy po havárii

Co je Disaster Recovery

Disaster Recovery (DR) je soubor politik, nástrojů a postupů, které umožňují obnovu nebo pokračování kritických technologických systémů a infrastruktury po přírodní nebo člověkem způsobené katastrofě. Na rozdíl od běžného zálohování, které se zaměřuje na ochranu dat, DR řeší komplexní obnovu celého IT prostředí — serverů, sítí, aplikací, databází a procesů — tak, aby firma mohla co nejrychleji obnovit provoz.

DR je součástí širšího konceptu Business Continuity Planning (BCP) — plánování kontinuity podnikání. Zatímco BCP pokrývá všechny aspekty firemního provozu (lidé, procesy, prostory, dodavatelé), DR se specificky zaměřuje na IT systémy a data.

DR není jen pro velké firmy Mnoho malých a středních firem se domnívá, že DR plánování je zbytečný luxus. Statistiky však ukazují, že 60 % malých firem, které zažijí závažnou ztrátu dat, ukončí podnikání do 6 měsíců. I jednoduchý DR plán dramaticky zvyšuje šanci na přežití.

RPO a RTO — klíčové metriky

Dva nejdůležitější parametry disaster recovery plánu jsou RPO a RTO. Správné pochopení a nastavení těchto metrik je základem každého DR plánu.

RPO — Recovery Point Objective

RPO (Recovery Point Objective) definuje maximální přijatelnou dobu, za kterou mohou být data ztracena při havárii. Jinými slovy: kolik dat si můžete dovolit ztratit? Pokud je RPO 4 hodiny, znamená to, že zálohy musí probíhat minimálně každé 4 hodiny. V případě havárie ztratíte maximálně 4 hodiny dat.

RPO = 0 — žádná ztráta dat. Vyžaduje synchronní replikaci. Nejdražší a nejnáročnější.
RPO = 15 minut — téměř real-time ochrana. CDP (Continuous Data Protection) nebo velmi časté snapshoty.
RPO = 1 hodina — přijatelné pro většinu firemních aplikací. Hodinové zálohy nebo replikace.
RPO = 24 hodin — standardní pro méně kritické systémy. Denní zálohy.
RPO = 7 dní — jen pro archivní nebo méně důležitá data. Týdenní zálohy.

RTO — Recovery Time Objective

RTO (Recovery Time Objective) definuje maximální přijatelnou dobu od havárie do plné obnovy provozu. Jinými slovy: jak rychle musíte být zpět v provozu? RTO zahrnuje celý proces — detekci problému, rozhodování, obnovu dat, konfiguraci systémů, testování a předání do provozu.

RTO = 0 — žádný výpadek (zero downtime). Vyžaduje hot standby s automatickým failoverem. Typicky pro kritickou infrastrukturu.
RTO = 1 hodina — rychlá obnova. Předpřipravené DR prostředí, automatizované skripty.
RTO = 4 hodiny — standard pro důležité firemní systémy. Virtualizace a rychlý restore.
RTO = 24 hodin — přijatelné pro podpůrné systémy. Obnova ze zálohy na náhradní hardware.
RTO = 72 hodin — pro nekritické systémy. Manuální obnova, případně nákup náhradního hardware.

Klasifikace systémů podle kritičnosti

Tier	Popis	RPO	RTO	Příklady
Tier 1 — Mission Critical	Bez těchto systémů firma nemůže fungovat	0–15 min	0–1 hod	E-shop, ERP, platební systém
Tier 2 — Business Critical	Důležité pro provoz, krátkodobý výpadek je přijatelný	1–4 hod	4–8 hod	E-mail, CRM, sdílené dokumenty
Tier 3 — Business Operational	Podpůrné systémy, výpadek nelimituje příjmy	24 hod	24–48 hod	Interní wiki, development, testovací prostředí
Tier 4 — Non-Critical	Systémy, které mohou být nedostupné dny nebo týdny	7 dní	72+ hod	Archivní systémy, historická data

Šablona DR plánu

DR plán je dokumentovaný, strukturovaný postup pro obnovu IT systémů po havárii. Dobrý DR plán je dostatečně podrobný, aby ho mohl následovat i člověk, který se s prostředím setkává poprvé, a přitom dostatečně přehledný pro rychlé rozhodování v krizové situaci.

1. Kontaktní informace a eskalační matice

Seznam klíčových osob s jejich rolemi, telefonními čísly, e-maily a záložními kontakty. Definice eskalačního řetězce — kdo rozhoduje o vyhlášení DR situace, kdo koordinuje obnovu, kdo komunikuje se zainteresovanými stranami (management, zákazníci, média).

2. Inventář systémů a závislostí

Kompletní seznam všech IT systémů včetně: názvu a účelu systému, klasifikace kritičnosti (Tier 1–4), RPO/RTO, závislostí na jiných systémech, technických parametrů (OS, databáze, síťová konfigurace), umístění záloh a přístupových údajů, vlastníka systému (business owner) a technického správce.

3. Scénáře havárií

Pro každý realistický scénář havárie definujte konkrétní postup obnovy:

Selhání jednotlivého serveru: Obnova z poslední zálohy na záložní hardware nebo VM
Ransomware útok: Izolace, forenzní analýza, obnova z immutable zálohy
Ztráta datacentra: Aktivace DR lokality, obnova z offsite záloh
Výpadek cloudu: Přechod na záložní poskytovatele nebo lokální provoz
Selhání databáze: Point-in-time recovery z WAL logů nebo replik
Kompromitace účtů: Reset přístupů, obnova z čisté zálohy, bezpečnostní audit

4. Postupy obnovy (runbooky)

Detailní, krok-za-krokem návody pro obnovu každého kritického systému. Runbook by měl obsahovat: předpoklady (co musí být k dispozici), přesné příkazy a postupy, očekávané výstupy a kontrolní body, postup při chybě, ověření úspěšné obnovy.

5. Komunikační plán

Kdo, kdy a jak informuje: vedení firmy, zaměstnance, zákazníky, dodavatele, regulátory (NÚKIB v případě povinných subjektů), média. Šablony komunikačních zpráv pro různé scénáře.

DR strategie

Cold site

Prázdný prostor s připravenou infrastrukturou (elektrická síť, chlazení, síťové připojení), ale bez serverů a dat. V případě havárie se doručí a nainstaluje náhradní hardware a obnoví ze záloh. Nejlevnější varianta, ale s nejdelším RTO (dny až týdny).

Warm site

Záložní lokalita s předinstalovaným hardware, ale bez aktuálních dat. Data se obnovují ze záloh při aktivaci DR plánu. RTO v řádu hodin. Přijatelný kompromis mezi cenou a rychlostí obnovy pro většinu firem.

Hot site

Plně funkční kopie produkčního prostředí se synchronizovanými nebo téměř synchronizovanými daty. Při havárii se přepne provoz na DR lokalitu s minimálním výpadkem (minuty). Nejdražší varianta, ale nutná pro Tier 1 systémy s RPO/RTO blízkým nule.

Cloud DR (DRaaS)

Disaster Recovery as a Service využívá cloudovou infrastrukturu jako DR lokalitu. Zálohy nebo repliky se průběžně ukládají do cloudu (AWS, Azure, Google Cloud) a v případě havárie se virtuální stroje spustí přímo v cloudu. Výhody: žádné investice do hardware, platba za skutečné využití (pay-as-you-go), globální dostupnost. Služby jako Veeam Cloud Connect, Zerto, Azure Site Recovery nebo AWS Elastic Disaster Recovery nabízejí automatizovaný failover.

Cloud DR pro malé firmy Cloud DR demokratizoval disaster recovery — i malá firma s 5 servery si může dovolit DR strategii, která by dříve vyžadovala vlastní záložní datacentrum. S Veeam Cloud Connect a poskytovatelem jako je český Master Internet nebo CZECHIA.COM lze nastavit replikaci do cloudu za jednotky tisíc korun měsíčně.

Business Continuity

Business Continuity Planning (BCP) je nadřazený koncept, který zahrnuje DR, ale jde dále. Zatímco DR řeší technickou obnovu IT systémů, BCP pokrývá celý firemní provoz:

Lidské zdroje: Kdo nahradí klíčové zaměstnance? Mohou zaměstnanci pracovat z domova?
Prostory: Kde bude firma fungovat, pokud přijde o kancelář?
Dodavatelský řetězec: Co když klíčový dodavatel nemůže dodávat?
Finance: Má firma dostatek prostředků na překlenutí výpadku příjmů?
Komunikace: Jak bude firma komunikovat se zaměstnanci, zákazníky, partnery?

Business Impact Analysis (BIA)

BIA je první krok při tvorbě BCP i DR plánu. Jedná se o systematickou analýzu dopadů výpadku jednotlivých firemních procesů a IT systémů. Pro každý proces/systém se stanoví: finanční dopad výpadku za hodinu/den/týden, regulatorní dopady (pokuty, ztráta licencí), reputační dopady, provozní závislosti. Na základě BIA se určí priorita obnovy a přidělí odpovídající RPO/RTO.

Cloud DR v praxi

AWS Elastic Disaster Recovery (AWS DRS)

Služba automaticky replikuje zdrojové servery (fyzické, virtuální, cloudové) do AWS. Při havárii lze spustit servery v AWS během minut. Agentní software na zdrojových serverech průběžně replikuje blokové změny do staging area v AWS. Cena: přibližně 0,028 USD/hod za replikovaný server plus náklady na compute a storage při skutečném failoveru.

Azure Site Recovery

Podobná služba od Microsoftu pro replikaci do Azure. Podporuje VMware, Hyper-V i fyzické servery. Automatizovaný failover s recovery plans, které definují pořadí spuštění serverů a síťovou konfiguraci. Integrace s Azure Backup pro dlouhodobou retenci.

Veeam + Cloud Connect

Veeam Backup & Replication ve spojení s Cloud Connect partnerem umožňuje replikaci záloh nebo VM replik do datacentra poskytovatele. V ČR nabízí Cloud Connect služby několik poskytovatelů. Výhodou je, že firma nemusí spravovat cloudovou infrastrukturu — tu zajišťuje partner.

Testování DR plánu

DR plán, který nebyl otestován, je jen teorie. Testování ověřuje, že plán je realistický, dokumentace je aktuální, lidé znají své role a technické postupy fungují v praxi.

Úrovně testování

Tabletop exercise (stolní cvičení): Klíčoví pracovníci sedí u stolu a procházejí DR scénář verbálně. Nejlevnější a nejrychlejší forma testování. Odhalí mezery v plánu a komunikaci, ale neověří technické postupy.
Walkthrough test: Tým prochází DR plán krok za krokem a ověřuje, že každý krok je proveditelný. Kontroluje se dostupnost záloh, funkčnost nástrojů, platnost přístupových údajů, ale skutečná obnova se neprovádí.
Simulation test: Simulace konkrétního scénáře havárie s technickou obnovou do testovacího prostředí. Měří se skutečné RPO/RTO. Nejblíže skutečné havárii bez ovlivnění produkce.
Full interruption test: Skutečné přepnutí produkčního provozu na DR lokalitu. Nejvěrohodnější test, ale nejrizikovější. Obvykle se provádí mimo pracovní dobu nebo v údržbovém okně.

Frekvence testování

Tabletop exercise: 2x ročně
Walkthrough: 1x ročně
Simulation test: 1x ročně pro Tier 1 systémy, 1x za 2 roky pro Tier 2
Full interruption: 1x za 2–3 roky (pokud je to proveditelné)

Po každé změně aktualizujte DR plán Přidáváte nový server? Měníte zálohovací strategii? Migrujete do cloudu? Každá významná změna v IT infrastruktuře vyžaduje aktualizaci DR plánu. Zastaralý DR plán je v krizové situaci horší než žádný, protože vede k chybným rozhodnutím.

DR a ransomware

Ransomware útoky jsou dnes nejčastějším důvodem aktivace DR plánu. Na rozdíl od technického selhání je ransomware útok záměrný a cílí na zálohy. DR plán pro ransomware scénář musí počítat se specifickými aspekty:

Detekce a izolace: Okamžité odpojení napadených systémů od sítě. Identifikace rozsahu kompromitace.
Forenzní analýza: Určení vektoru útoku, doby kompromitace, rozsahu škod. Nutné pro rozhodnutí, z jak staré zálohy obnovit.
Čistá obnova: Obnova ze zálohy, o které máte jistotu, že nebyla kompromitována. Immutable zálohy jsou klíčové.
Bezpečnostní hardening: Před obnovením přístupu uživatelů zabezpečte systémy — reset hesel, aktualizace patchů, uzavření zneužitých zranitelností.
Regulatorní povinnosti: Nahlášení incidentu NÚKIB (pokud spadáte pod zákon o kybernetické bezpečnosti), notifikace ÚOOÚ dle GDPR (pokud došlo k úniku osobních údajů).

Shrnutí

Disaster Recovery plánování je investice do přežití firmy. Začněte kategorizací systémů podle kritičnosti, definujte RPO/RTO pro každou kategorii, vytvořte dokumentovaný DR plán s podrobnými runbooky a pravidelně jej testujte. Využijte cloudové DR služby pro cenově dostupnou offsite ochranu. Pamatujte: katastrofa nepřijde v pracovní době a nerespektuje vaše plány — připravte se, dokud můžete.

Klíčové zásady disaster recovery:

Dokumentujte vše — v krizové situaci není čas hledat informace
Automatizujte co nejvíce — ruční postupy jsou pomalé a chybové
Testujte pravidelně — netestovaný plán je jen papír
Počítejte s ransomwarem — immutable zálohy a air-gapped kopie
Aktualizujte plán při každé změně infrastruktury
Zajistěte, aby klíčové osoby znaly své role bez nahlížení do dokumentace

Disaster Recovery — plánování obnovy po havárii