Af Kasper Hartvig Hansen, Presales engineer hos ScanNet
En solid business continuity plan er sindssygt vigtig. Altså en plan for, hvordan I sikrer, at jeres forretning kan køre videre, hvis jeres cloud-arkitektur skulle blive ramt af nedbrud, angreb eller nedlukning.
Når du har læst det her, så er du klogere på, hvad der udgør en god business continuity plan og hvilke spørgsmål I med fordel kan stille jer selv for at blive klogere på, hvor robust jeres setup faktisk er.
Vi kommer ind på:
Guiden her tager udgangspunkt i, at I allerede har styr på basal IT-sikkerhed som firewall, patching, antivirus, MFA, komplekse adgangskoder osv.
En business continuity plan (BCP) handler grundlæggende om tre ting:
Tiltag som sikrer jer imod datatab som følge af slettede/overskrevne filer, menneskelige fejl, nedbrud, hackere, utilfredse medarbejdere med videre. Og ikke mindst evnen til at gendanne disse data.
Tiltag som sikrer, at I er i stand til at få jeres forretning online igen. Også når alt, der ikke må gå galt, alligevel går galt. Hvad nu hvis backup’en ikke virker, eller jeres hosting-udbyder ikke er til at få fat i, når alt er nede? DR er jeres beredskabsplan, I kan falde tilbage på, når alt andet fejler.
En af de ting vi ofte møder er antagelser omkring sikkerheden i et givent setup. Og når det kommer til business continuity, er der desværre ingen vej udenom det gamle ordsprog “man skal ikke tro, man skal vide”.
Med en On premise-løsning er det formentlig forholdsvist simpelt. Nogen har bygget miljøet, og bør kunne redegøre for hvordan I er stillet, som minimum i forhold til availability.
Hvad sker der hvis strømmen går? Hvad hvis køleanlægget holder op med at virke? Et defekt bundkort, defekt harddisk osv. Er der serviceaftaler på? Har I de mest gængse reservedele på lager? Kører jeres Virtuelle Maskiner i et cluster, eller ligger de på lokal storage på en enkelt fysisk server?
Private cloud er et rigtig godt udgangspunkt, men øger nødvendigheden af at forstå hvordan tingene er bygget. Hvad I er sikret mod – og hvad I ikke er sikret imod?
En helt almindelig virtuel maskine med 2 CPU, 8 GB RAM og 100 GB harddisk kan leveres på mange måder og til vidt forskellige priser, afhængigt af hvilken arkitektur den er bygget på. Der er ikke noget rigtigt eller forkert, men det er vigtigt at I forstår hvad I har købt, så I kan planlægge efter det.
VPS-servere er for eksempel ofte prisbillige virtuelle maskiner, der er er bygget på relativt billig hardware og med et minimum af indbyggede “availability” tiltag.
Et glimrende valg, hvis man har brug for en server til en hjemmeside, der godt kan tåle at være nede nogle timer, I tilfælde af hardwarefejl, men et katastrofalt valg, hvis man skal drive noget forretningskritisk. Her vil det være bedre med en VM, som kører i et cluster, og som derfor automatisk starter op på anden hardware i løbet af få minutter, hvis f.eks. et bundkort brænder af.
Hvis jeres leverandør siger at I har en “to-center”-løsning, så skal I være sikre på, hvad det helt konkret betyder.
Er det for eksempel en aktiv/aktiv-løsning, hvor et helt datacenter kan gå offline uden at der sker andet end at jeres VM’er genstarter? Er det SAN-replikering til et andet datacenter? Eller mener de blot at backup’en ligger på en anden lokation?
Det vigtige er, at I forstår jeres availability-politik, og hvad den betyder i praksis.
Her er en række ting, I kan spørge jeres hosting-leverandør om:
Listen bliver hurtigt lang – og ovenstående er ikke nødvendigvis en udtømmende liste over spørgsmål.
Det er ikke en kamp mellem amerikansk public cloud og europæisk/dansk private cloud. Det er både og. Det er både private clouds sikkerhed og public clouds skalérbarhed, som tilsammen i et hybrid cloud-setup giver mening for mange virksomehder.
Her kan din opgave godt blive lidt sværere, for det er ofte svært bare at sende en mail med spørgsmål.
Her er det en særligt god ide at være opmærksom på, at public cloud-udbyderne oftest bare “stiller værktøj til rådighed”, men at de betragter det som kundens ansvar at benytte det “korrekt”.
Køber du for eksempel en enkelt VM i Azure, har den en SLA på 99,50%, hvilket ligger markant under markedsstandarden for VM’er i Danmark. Ønsker du en højere SLA, skal du købe to eller flere VM’s i et “Availability Set” og selv bygge et redundant setup i software – for eksempel ved hjælp af et SQL-cluster eller en load balancer foran to webservere.
Begge er gode løsninger, men kræver dels, at I har evnerne til at konfigurere dette korrekt — og at I er opmærksomme på, at netop dët er en forudsætning for, at løsningen betragtes som redundant.
På samme måde er det også kundens eget ansvar at overvåge, at servene er oppe, og at regningen for variable ydelser ikke stikker af.
Public cloud kræver altså mere af jer.
Med den rigtige arkitektur og budget er der basis for at bygge nogle rigtig gode løsninger i en public cloud, men tilsvarende kan manglende omtanke eller forståelse for arkitekturen lede til unødvendigt dyre løsninger med dårlig oppetid.
Uanset om I har den ene eller anden løsning, eller en “hybrid cloud” der kombinerer flere af dem, er det uhyre væsentligt at I selv tager ejerskab over at forstå løsningen og de svagheder den eventuelt har.
Kan du redegøre for hvilke tiltag I har gjort, for at sikre jer ift. Business Continuity (Availability, Backup & Recovery og Disaster Recovery)?
Hvis dit svar på ovenstående inkluderer noget i retning af “Det har vi outsourcet til [indsæt selv leverandør], så det regner jeg med at de har styr på” eller “Det regner jeg med at vores IT-afdeling har styr på”, så skal du i gang med at lege detektiv.
Når du ved hvad I gør, skal du have fundet ud af om det er “godt nok”.
Er der eksterne krav?
Er der nogen trusler — og hvor sandsynlige er de?
Hvad er ledelsens krav og forventninger?
Når først du kender alle jeres “forsvarsværker”, og de krav, som jeres ledelse/bestyrelse stiller, kan du begynde at sammenligne. I første omgang er det en ren skrivebordsøvelse, hvor du kan starte med at udfylde en tabel med de informationer, du er sikker på.
System |
Krav |
Availability |
Backup & Recovery |
Disaster Recovery Plan |
Økonomisystem |
5 års retention, RPO: 2 timer, RTO: 8 timer |
VM’s i vmware cluster. 99,95% SLA, HA tid: 5 min. |
Image backup (1 gang i døgnet, 7 dages retention), agentbackup 1 gang i timen |
Ingen |
E-mail i MS365 |
3 års retention, RPO: 24 timer, RTO: 3 dage |
Azure EU, 99,90% SLA |
Backup hos ScanNet hver 4. time, 5 års retention |
Mailbokse kan gendannes til Exchange hos ScanNet |
Webshop |
Ukendt |
VM i Azure, 99,5% SLA |
Ukendt |
Ukendt |
Filserver |
6 måneders retention, RPO: 1 dag, RTO: 4 timer |
VM’s i vmware cluster. 99,95% SLA, HA tid: 5 min. |
Ugentlig fuld backup, lørdag kl. 10:00 |
Ukendt |
Efterfølgende er opgaven selvfølgelig at få udfyldt de eventuelle ukendte punkter og tjekke, at der sammenhæng mellem de krav der er stilles og de løsninger, som er implementeret. I ovenstående eksempel er backup-planen for filserveren for eksempel mangelfuld i forhold til RPO-kravet.
Senere kan tabellen udbygges med flere kolonner som gendannelsesprioritet, testfrekvens, seneste test, testscenarier, ansvarlig (internt), kontakt ved nedbrud, kendte risici og lignende.
Selv de bedst producerede oste har huller — og det samme gælder for selv de mest robuste business continuity planer Det ser vi gang på gang. For ofte er virkeligheden betydeligt mere kompleks end man forestiller sig.
... eller andre uforudsete ting kan kaste grus i selv den mest velsmurte gendannelses-maskine.
Når først du har lavet skemaet, bør I (det er en fælles opgave) teste de enkelte systemer. Det behøver ikke at være alting på én gang, men start med at vælge ét system (det mest kritiske), og lav en fælles brainstorm over “katastrofescenarier” (ChatGPT er god til brainstorms, bare et lille tip), og vælg så det der virker mest sandsynligt.
Har I en ekstern leverandør på systemet, så tag dem med på råd om, hvordan det gøres bedst, og om hvorvidt det er et realistisk scenarie, I har valgt.
Når I tester, så tænk det som et rollespil, og sørg for at dokumentere processen.
Dokumentationen skal indeholde:
Når I er færdige, kan i nemt konkludere på om testen var en succes, ved at se på om den levede op til alle kendte krav. Efterfølgende kan du for eksempel. bede din direktion/bestyrelse om at vurdere, om de er tilfredse med resultatet.
Levede testen ikke op til alle krav, eller kunne den ikke gennemføres, er det stadig en god test. Så kan du nemlig tage den dialog med ledelsen. Er kravene for høje, eller mangler I systemer, timer eller midler, for at leve op til kravene?
En fejlet test skal selvfølgelig laves om, når man har implementeret foranstaltninger til at sikre at man kan leve op til kravene fra ledelsen. Det er iterativ proces, som godt kan tage lidt tid, særligt i starten, men den er sund, fordi den sikrer at der er helt klare linjer omkring forventningerne fra ledelsen til IT-afdelingen.'
Ingen skal gå rundt med en knude i maven, fordi de frygter et mismatch mellem forventninger og virkelighed.
Problem:
Konsekvens:
Løsningsmuligheder
Virksomheden kører med lokal serverdrift. Alt fungerer. Indtil ...
Problem:
Køleanlægget går pludselig i stå i uge 28. Serverrummet overopheder, og serverne lukker ned. Kølefirmaet er ferieramte og løsningen tager mindst 24 timer. En ukendt mængde hardware er ødelagt af varmen.
Konsekvens:
Løsningsmuligheder:
Problem:
Et kommune-netværk bliver kompromitteret. Krypteret. Backups findes – men de ligger på samme netværk og er også låst.
Konsekvens:
Løsning:
Den øvrige ledelse behøver ikke kende RPO eller forskellen på single- og multi site. Men de skal forstå konsekvensen. Og være med til at definere, hvor længe I kan tåle nedetid på forskellige systemer. Så hvordan sætter du fut under den samtale?
Start for eksempel dialogen sådan her:
Måske får du en tommel op. Så ved du, at alle har afstemt forventningerne til nedetid, og du ikke ender med at stå alene i spotlightet, hvis alt går galt.
Du kan også få et ”nej, så længe kan vi ikke undvære system X”. Nu kan du tænke løsninger og lave en case til ledelsen, som formetlig kræver et par samtaler med jeres cloud-leverandør for at regne helt hjem. Der skal itereres.
Lav én side, der forklarer casen. Gør det visuelt. Brug jeres egne systemer i eksemplerne. Vis et konkret eksempel, som involverer forretningskritiske data, som bliver gjort utilgængelige. For eksempel under et total nedbrud i datacentret eller et hackerangreb på system 1, 2 eller 3 – eller, hvis det utænkelige skulle ske, et total sammenbrud i samarbejdet med amerikanske cloud-udbydere på grund af den geopolitiske situation.
Det kan for eksempel være, at I endnu ikke har en dedikeret disaster recovery, som kan få jer op at køre igen under et total nedbrud. Fortæl, hvad det kræver at få det, og vis, hvordan det ville hjælpe jer i et worst case scenarie.
Så kan ledelsen vurdere, om det er omkostningerne værd.
Det vil typisk koste 10% ekstra på jeres samlede faktura at få en robust disaster recovery-løsning.
Et robust cloud-setup er ikke én ting. Det er samspillet mellem mange.
Det er:
Og det er erkendelsen af, at tingene vil fejle.
Så spørg jer selv:
Hvis svaret er ja, er I godt på vej. Hvis ikke – så er det nu, I skal i gang.
Vil I have sparring? I ScanNet hjælper vi med at drive og designe private cloud-arkitektur, der tager højde for netop jeres virkelighed. For eksempel i kombination med public cloud i et hybrid cloud-setup.