S3, Azure Blob czy Google Cloud Storage? Porównanie magazynów plików dla backupu i archiwizacji

0
105
Rate this post

Z tej publikacji dowiesz się...

Backup vs archiwizacja – różne cele, różne wymagania

Co naprawdę trzeba chronić, a co tylko „odsunąć w czasie”

Pierwsza decyzja nie dotyczy jeszcze wyboru między Amazon S3, Azure Blob Storage i Google Cloud Storage, ale zdefiniowania, które dane trzeba szybko przywrócić po awarii, a które po prostu przechować jak najtaniej i jak najdłużej. To jest granica między backupem operacyjnym a archiwizacją.

Backup operacyjny służy do tego, żeby po incydencie – awarii serwera, ransomware, przypadkowym skasowaniu – móc wrócić do działania w akceptowalnym czasie. Archiwizacja z kolei ma odpowiadać głównie na potrzeby prawne, compliance i analityczne: trzymanie starych dokumentów, logów, nagrań czy dumpów baz danych, do których sięga się sporadycznie albo wcale, ale nie wolno ich wyrzucić.

Jeżeli wrzucisz wszystko do jednej klasy storage „bo tak łatwiej”, przepalisz budżet. Jeśli natomiast spróbujesz wszystkie dane upchnąć w najtańszej klasie archiwalnej, realny problem pojawi się przy pierwszej większej awarii – za wolny i za drogi odczyt sprawi, że backup okaże się prawie bezużyteczny.

Parametry kluczowe dla backupu operacyjnego: RPO, RTO i szybkość przywracania

Dla backupu istotne są parametry RPO i RTO:

  • RPO (Recovery Point Objective) – ile danych możesz maksymalnie stracić (np. 1 godzina zmian w bazie, 24 godziny plików itp.).
  • RTO (Recovery Time Objective) – jak szybko trzeba przywrócić system do działania (minuty, godziny, doba?).

Jeśli RPO wynosi kilka minut lub godzin, potrzebujesz mechanizmów ciągłego lub częstego backupu oraz klasy storage z w miarę tanim i szybkim odczytem: Amazon S3 Standard / Standard-IA, Azure Blob Hot / Cool czy Google Cloud Storage Standard / Nearline. Dla RTO rzędu godzin ważne są:

  • przepustowość łącza między lokalną infrastrukturą a chmurą,
  • brak długich opóźnień przy „odmrażaniu” danych (klasy archiwalne często wymagają rehydratacji),
  • opłaty za odczyt – jeśli przywracasz całe TB, to GET i egress nagle zaczynają boleć.

Do codziennego backupu maszyn wirtualnych, baz danych czy plików dla 10–100 użytkowników zwykle rozsądny jest kompromis: główne kopie trzymane w klasie „ciepłej” (Standard / Hot / Standard GCS), a starsze wersje przenoszone politykami lifecycle do klas tańszych (IA, Cool, Nearline, Coldline).

Parametry kluczowe dla archiwizacji: koszt/GB, dostępność i trwałość

W archiwizacji najczęściej priorytetem jest koszt przechowywania za GB</strong. Czas dostępu ma znaczenie dopiero wtedy, gdy faktycznie coś trzeba odczytać. Dlatego klasy typu Glacier, Azure Archive czy GCS Archive/Coldline mogą być bardzo atrakcyjne, jeśli użyjesz ich z głową.

W tym scenariuszu liczą się głównie:

  • koszt miesięczny / GB w perspektywie kilku lat,
  • minimalny okres przechowywania (np. 30, 90 lub 365 dni – za usunięcie wcześniej płaci się jak za pełen okres),
  • dodatkowe opłaty za odczyt i ewentualne „odmrażanie” danych,
  • trwałość danych (zwykle 11–12 „dziewiątek”, czyli 99,999999999% – wszystkie trzy platformy są tutaj podobne),
  • lokalizacja – czy dane muszą być przechowywane w konkretnym kraju/regionie ze względu na RODO, prawo branżowe, politykę spółki.

Dla firm, które archiwizują dokumenty księgowe na 5–10 lat, logi aplikacyjne czy nagrania rozmów, opóźnienie odczytu rzędu godzin jest akceptowalne. Znacznie ważniejsze, żeby za 3 lata faktura nadal była dostępna, a roczne koszty nie zjadały marży.

Typowe scenariusze firmowe i wpływ na wybór storage

W różnych typach organizacji priorytety są inne, więc inaczej rozkłada się wybór między klasami i dostawcami:

  • Mała firma usługowa – głównie dokumenty biurowe, kilka systemów SaaS, niewiele serwerów. Zwykle wystarczy jedna chmura i prosty backup do klasy „ciepłej” plus archiwizacja maili i dokumentów do warstw archiwalnych.
  • Software house – dużo repozytoriów Git, artefaktów buildów, logów i backupów baz. Backup musi być dobrze zintegrowany z CI/CD, często opłaca się GCS lub S3 z lifecycle, który starsze buildy wrzuca do Nearline/Coldline/Glacier.
  • E‑commerce – ciągła dostępność baz danych, plików produktowych, zdjęć. Tu backup operacyjny jest krytyczny, więc często stosuje się kombinację: szybkie snapshoty w tej samej chmurze plus długoterminowe archiwum w tańszej klasie, czasem nawet u innego dostawcy.
  • Systemy wewnętrzne (ERP, CRM on‑prem) – backup baz i plików użytkowników, często z biur rozproszonych. Tu wygodna bywa integracja z istniejącym ekosystemem (Microsoft 365 → Azure Blob, AWS‑owe środowiska → S3 itd.).

Wybór regionu wpływa na:

  • opóźnienia przy odczycie (ważne przy backupie operacyjnym),
  • koszty transferu między regionami i z chmury do internetu,
  • zgodność z regulacjami (np. dane osobowe w obrębie UE).

Jeśli backup służy głównie do odtworzenia systemów działających w tej samej chmurze, najczęściej opłaca się trzymać kopie w tym samym regionie lub w parze regionów rekomendowanych przez dostawcę (np. replikacja cross‑region w AWS lub GCP). Gdy backup ma zabezpieczać lokalne serwery on‑prem, rozsądnie jest wybrać najbliższy geograficznie region w UE z rozsądnymi cenami egress.

Wspólne fundamenty S3, Azure Blob i Google Cloud Storage

Model obiektowy zamiast klasycznych folderów

Amazon S3, Azure Blob Storage i Google Cloud Storage to tzw. object storage. To nie są klasyczne udziały plikowe SMB/NFS, choć można je tak „udawać” dodatkowymi narzędziami. W środku działają na obiektach z metadanymi, a foldery to jedynie konwencja nazewnicza w kluczach (ścieżkach).

Podstawowe pojęcia, które powtarzają się u wszystkich trzech dostawców:

  • Bucket / Container – logiczny „kosz” na obiekty. W S3 i GCS używa się nazwy bucket, w Azure – container w ramach storage account.
  • Obiekt – plik wraz z metadanymi (nagłówki, tagi, ACL). Nie modyfikuje się go „w miejscu” – zwykle nadpisuje się cały obiekt.
  • Region – fizyczna/lokalna lokalizacja danych (np. eu-central-1, North Europe, europe-west1).
  • Klasa storage – poziom ceny, dostępności i przeznaczenia (standard/hot, chłodne, archiwalne).
  • Wersjonowanie – możliwość przechowywania wielu wersji obiektu, kluczowa przy ochronie przed nadpisaniem lub ransomware.

Z perspektywy backupu i archiwizacji model obiektowy jest wygodny: nie interesuje nas blokowe zapisywanie sektorów, tylko spójne pakiety danych (snapshot, dump, archiwum zip/tar). Duże systemy backupu (Veeam, Commvault, Bacula, restic, Borg) wykorzystują ten model bezpośrednio albo przez dodatkową warstwę.

Trwałość, dostępność i model cenowy – podobieństwa między chmurami

Wszystkie trzy platformy oferują bardzo wysoką trwałość danych (durability) – zwykle rzędu 99,999999999% (tzw. 11 dziewiątek) dla standardowych klas. Osiągają to przez replikację danych wewnątrz regionu (między strefami dostępności) i mechanizmy walidacji integralności. Z punktu widzenia backupu oznacza to, że każda z tych chmur jest „wystarczająco dobra” jako magazyn kopii.

Model cenowy wszędzie opiera się na czterech filarach:

  • przechowywanie danych – zł/GB miesięcznie w zależności od klasy storage,
  • operacje API – różne ceny za PUT/GET/LIST, często liczone w blokach 1000/10 000 żądań,
  • transfer wychodzący (egress) – wyjście z chmury do internetu lub do innego regionu,
  • dodatkowe opłaty za odczyt z warstw archiwalnych – w Glacier, Azure Archive, GCS Archive/Coldline płaci się za odczyt / rehydratację.

Jeśli backup jest pobierany rzadko, a głównie tylko dopisywany, to koszty storage i niewielkiej liczby PUT będą miały dominujące znaczenie. Jeżeli jednak często odtwarzasz pojedyncze pliki, generujesz dużo GET/LIST, a czasem masowe restore, rachunek potrafi zaskoczyć – szczególnie przy warstwach archiwalnych i danych wyciąganych poza chmurę.

Standardowe integracje i narzędzia

Większość rozsądnych narzędzi backupowych ma natywne wsparcie przynajmniej dla S3 i GCS, coraz częściej też dla Azure Blob. Popularne scenariusze:

  • CLI dostawcówaws s3, az storage, gsutil do prostych skryptów i transferów.
  • rclone – jeden z najbardziej uniwersalnych, tani „szwajcarski scyzoryk” do kopiowania danych między wieloma chmurami, serwerami SFTP, dyskami lokalnymi.
  • Narzędzia backupowe – Veeam, Nakivo, Acronis, MSP360, restic, BorgBackup, Duplicati itp. – często pozwalają wprost podać adres endpointu S3 lub konto GCS/Azure Blob.
  • Integracja z bazami danych – np. PostgreSQL, MySQL, SQL Server i inne potrafią wypychać backupy (dump lub snapshot) do magazynów obiektowych.

Dzięki zunifikowanemu API S3 wiele usług zewnętrznych (np. systemy kopii zapasowych, aplikacje SaaS) pozwala wybrać dowolny magazyn S3‑kompatybilny, a nie tylko AWS. To ułatwia budowanie strategii multi‑cloud lub migracji danych między dostawcami.

Ograniczenia techniczne i operacyjne

Choć w praktyce dla backupu i archiwizacji rzadko się je przekracza, warto mieć świadomość kilku limitów:

  • Rozmiar pojedynczego obiektu – każdy dostawca ma górny limit (rzędu setek GB – kilku TB). Przy większych plikach działają mechanizmy multipart upload.
  • Limity requestów – przy masowych operacjach (miliony plików) można „wjechać” w limity per konto/region, co skutkuje spowolnieniem lub błędami throttlingu.
  • Opóźnienia – obiektowy storage ma nieco wyższe opóźnienia niż lokalny dysk czy porządne NFS; do backupu to zwykle OK, ale do trzymania aktywnej bazy danych już nie.
  • Brak blokowych modyfikacji – przy zmianie małego fragmentu dużego pliku często trzeba przesłać cały plik, jeśli nie używa się sprytniejszego narzędzia (np. deduplikacja w restic/Borg).

W codziennej praktyce ma to znaczenie głównie przy projektowaniu struktury backupów. Zamiast tysięcy malutkich plików lepiej generować większe, logiczne „paczki” (np. archiwa dzienne, tygodniowe), a do kontroli wersji i oszczędzania miejsca używać mechanizmów deduplikacji po stronie narzędzia backupowego.

Amazon S3 – plusy, minusy i typowe zastosowania do backupu

Klasy storage S3 z perspektywy budżetu

Amazon S3 oferuje kilka klas przechowywania, które różnią się ceną za GB, dostępnością i limitem minimalnego okresu przechowywania. Dla backupu i archiwizacji kluczowe są:

  • S3 Standard – wysoka dostępność, brak minimalnego okresu przechowywania, stosunkowo wysoka cena za GB, niski koszt odczytu. Świetne do codziennych backupów, które trzeba czasem szybko odtworzyć.
  • S3 Standard‑IA (Infrequent Access) – niższy koszt za GB, ale opłata za odczyt i minimalny okres przechowywania (np. 30 dni). Dobry na starsze kopie, do których sięga się rzadziej.
  • S3 One Zone‑IA – tańsze niż Standard‑IA, ale replikacja tylko w jednej strefie dostępności. Rozsądne jako dodatkowa kopia lub archiwum mniej krytycznych danych.
  • S3 Intelligent‑Tiering – automatycznie przerzuca dane między podwarstwami w zależności od częstotliwości dostępu, pobierając niewielką opłatę za monitorowanie metadanych.
  • S3 Glacier Instant Retrieval / Flexible Retrieval / Deep Archive – klasy archiwalne o bardzo niskim koszcie przechowywania i różnych czasach odzysku (od minut do godzin), z dodatkowymi opłatami za odczyt i rehydratację.

W praktyce często łączy się kilka klas. Świeże kopie z ostatnich dni trzyma się w S3 Standard lub Intelligent‑Tiering (szybkie odzyski, testy odtwarzania), a starsze warstwy polityką lifecycle przerzuca do Standard‑IA lub Glacier. Taki układ pozwala ograniczyć rachunek bez ręcznego przerzucania danych: ustawia się reguły typu „po 30 dniach przenieś do IA, po 180 dniach do Glacier Deep Archive, po 3 latach usuń”.

Najrozsądniejszym punktem startowym dla małej lub średniej firmy jest zwykle S3 Standard + lifecycle do IA/Glacier. Na początku wszystko leci do Standard, bo liczy się prostota i przewidywalne koszty restore. Gdy pojawi się stabilny wolumen danych i wiadomo, jak długo kopie są trzymane, dopiero wtedy opłaca się dopieścić reguły lifecycle i dorzucić klasy archiwalne. Zbyt agresywne pchanie wszystkiego w Glacier od dnia zero kończy się drogimi i wolnymi odtworzeniami przy pierwszym poważniejszym incydencie.

Intelligent‑Tiering ma sens tam, gdzie trudno przewidzieć, które dane będą jeszcze odczytywane. Jeśli backupy bywają wykorzystywane do raportowania, testów lub analizy historycznej, monitorowanie automatyczne może być tańsze niż ręczne decydowanie o klasach storage. Z kolei przy prostym scenariuszu „tworzymy kopie, prawie nigdy po nie nie sięgamy, a potem usuwamy” wystarczą klasy IA + Glacier z jasnymi progami czasowymi.

Niezależnie od klasy storage, warto od razu domknąć strategię: ile kopii trzymasz, gdzie jest druga lokalizacja (drugi region lub inny dostawca) i jak długo trwa odtworzenie kluczowych systemów. Samo wrzucenie backupu do S3, Azure Blob czy GCS bez tej refleksji kończy się tym, że awaria przychodzi w najgorszym możliwym momencie – a wtedy liczy się nie tylko to, że dane są, ale też jak szybko i za jakie pieniądze da się je przywrócić do działania.

Bezpieczeństwo, szyfrowanie i odporność na ransomware w S3

Przy backupie do S3 kwestia bezpieczeństwa sprowadza się głównie do trzech obszarów: kto może te dane odczytać, czy ktoś może je usunąć/zastąpić oraz czy da się udowodnić, że kopia nie została podmieniona. Chodzi nie tylko o ataki z internetu, ale też o błędy administratorów i złośliwe oprogramowanie mające dostęp do kont serwerowych.

Podstawowe funkcje ochronne, które dają największy efekt przy najmniejszym wysiłku:

  • Server‑Side Encryption (SSE‑S3 lub SSE‑KMS) – szyfrowanie danych „w spoczynku” po stronie AWS. Dla większości małych i średnich firm SSE‑S3 jest wystarczające i praktycznie bezobsługowe.
  • Wymuszenie szyfrowania – polityka bucketu odrzucająca obiekty bez szyfrowania. Zamyka furtkę typu „jeden skrypt zapomniał dodać nagłówka”.
  • Versioning – utrzymuje stare wersje obiektów. Jeśli ransomware nadpisze backupy, wcześniejsze wersje wciąż istnieją (o ile nikt ich nie usunie).
  • MFA Delete / Object Lock – blokuje usuwanie i modyfikację obiektów bez dodatkowego uwierzytelnienia lub przez określony czas.
  • Polityki IAM z zasadą „write‑only” – konto backupowe ma prawo wysyłać dane, ale nie ma prawa ich usuwać, listować całej zawartości ani zmieniać polityk.

Największy skok jakościowy daje zestaw: versioning + write‑only + Object Lock (governance/retention). Nawet jeśli ktoś przejmie serwer z agentem backupowym, nadpisze zaszyfrowane pliki lub uruchomi masowe usuwanie, stare wersje nadal pozostają nienaruszone. Trzeba tylko uwzględnić, że takie podejście zwiększa wolumen danych (więcej wersji) i tym samym rachunek – lepiej zaplanować retencję na poziomie narzędzia backupowego i nie trzymać wszystkiego wiecznie.

Dla środowisk o podwyższonych wymaganiach (np. dane medyczne, finansowe) rozsądnym kompromisem jest użycie SSE‑KMS z kluczem zarządzanym przez AWS, ale z kontrolą dostępu do użycia klucza (CloudTrail, ograniczone role). Własne klucze (customer managed) dają więcej kontroli, lecz też więcej obowiązków – kopie zapasowe bez klucza szyfrującego są bezużyteczne, więc trzeba dbać dodatkowo o backup kluczy i procedury odzyskiwania.

Replikacja danych – kiedy Multi‑Region, a kiedy wystarczy inny dostawca

S3 umożliwia Cross‑Region Replication (CRR), czyli automatyczne kopiowanie obiektów między regionami AWS. Z punktu widzenia backupu to wygodny sposób na drugą lokalizację, ale z dwoma haczykami: rośnie koszt storage (drugi region) i pojawia się opłata za transfer między regionami.

Najprostszy, budżetowy wzorzec:

  • podstawowe kopie lądują w jednym regionie S3 (np. tym, w którym są główne systemy),
  • raz dziennie lub kilka razy dziennie uruchamiany jest rclone/restic/Borg kopiujący najważniejsze backupy do innego dostawcy lub chociaż innego regionu S3,
  • druga lokalizacja ma inną tożsamość (inne konto cloud), żeby trudniej było ją „sprzątnąć” jednym kompromitowanym kluczem.

Firmy o wysokich wymaganiach RTO/RPO wybierają często pełne CRR (asynchroniczne, ale automatyczne), natomiast dla wielu SMB sensowniejsze jest tańsze, okresowe kopiowanie skompresowanych i deduplikowanych backupów do innej chmury lub tańszego S3‑kompatybilnego storage poza AWS. Kosztów CRR nie widać od razu, ale przy dużych wolumenach i częstych zmianach potrafią przewyższyć sam koszt przechowywania.

Integracja S3 z narzędziami backupowymi – na co uważać

Większość komercyjnych systemów backupu „zna” S3, ale różnie podchodzi do kwestii wersjonowania, szyfrowania i lifecycle. Kilka pytań, które warto zadać przed wdrożeniem:

  • Czy narzędzie samo szyfruje backupy, czy polega wyłącznie na S3 (SSE‑S3/SSE‑KMS)? W pierwszym przypadku kluczowa staje się ochrona kluczy po stronie aplikacji, w drugim – konfiguracja KMS.
  • Czy aplikacja potrafi współpracować z Intelligent‑Tiering i klasami IA, czy wymaga trzymania wszystkiego w Standard?
  • Jak wygląda scenariusz masowego odtwarzania – czy generuje tysiące małych requestów, czy raczej kilka dużych strumieni (wpływ na koszty API)?
  • Czy narzędzie radzi sobie z odzyskiwaniem danych z Glacier bez ręcznego „rehydratowania” obiektów?

W praktyce często wygodniej jest zdefiniować jeden bucket „backup‑primary” w S3 Standard, a w nim logiczne „foldery” dla poszczególnych systemów i polityk, a archiwizację do Glacier/IA realizować regułami lifecycle. Narzędzie backupowe nie musi nic wiedzieć o klasach storage, a administrator dostaje czytelny podział na konkretne polityki retencji wewnątrz jednego miejsca.

Zbliżenie wnętrza otwartego dysku twardego z widocznymi podzespołami
Źródło: Pexels | Autor: Antonio Moreno Nadal

Azure Blob Storage – kiedy ma przewagę nad S3

Warstwy Hot, Cool i Archive a scenariusze backupowe

Azure Blob Storage dzieli dane na warstwy: Hot, Cool i Archive. Koncepcja jest podobna do S3 Standard/IA/Glacier, ale wygodnie działa w ramach jednego konta storage. Można przenosić dane między warstwami bez zmiany aplikacji – to tylko zmiana atrybutu obiektu.

  • Hot – najwyższa cena za GB, najniższe koszty operacji i najlepsza dostępność. Pasuje do świeżych backupów, często używanych snapshotów, kopii wykorzystywanych do testów i sandboxów.
  • Cool – tańszy storage, droższe operacje, minimalny czas przechowywania (np. 30 dni). Sprawdza się przy tygodniowych/miesięcznych backupach lub kopiach, które trzymasz głównie „na wszelki wypadek” w średnim horyzoncie czasu.
  • Archive – najtańszy za GB, ale obiekty są „zamrożone”; zanim się je odczyta, trzeba je przełączyć do wyższej warstwy, co kosztuje czas i pieniądze.

Dla małej organizacji dobrym startem jest Hot + prosty lifecycle do Cool. Dane lądują w Hot, a po np. 30–60 dniach polityka przerzuca je automatycznie do Cool. Do Archive można zacząć migrować dopiero te zestawy, których naprawdę nie planuje się dotykać przez kilka lat – np. archiwum księgowe czy dane wymagane przez przepisy. Wrzucenie wszystkiego od razu do Archive szybko się mści przy pierwszym większym restore.

Integracja z ekosystemem Microsoft – kopie maszyn wirtualnych i baz danych

Azure Blob ma wyraźną przewagę tam, gdzie infrastruktura stoi w dużej mierze na Windows Server, SQL Server i maszynach w Azure. Backupy maszyn wirtualnych (Azure VM Backup), baz danych (Azure Backup for SQL/VM, Azure Database) i plików z serwerów Windows można skonfigurować niemal „z pudełka” prosto do konta storage.

Przykładowy, szybki do wdrożenia układ:

  • produkcyjne VM w Azure mają włączony Azure Backup z retencją codzienną i tygodniową,
  • konta storage z backupami rozdzielone są na przynajmniej dwa regiony (główne + DR), przy czym region DR może mieć krótszą retencję, by nie przepalać budżetu,
  • kopie SQL Server on‑premise (np. z biura) wysyłane są do tego samego tenant’a, ale na osobne konto storage z inną polityką dostępu i rolami.

Z punktu widzenia administracji jeden panel (Azure Portal) upraszcza zarządzanie, raportowanie i audyt. Przy małym zespole IT ma to często większą wartość niż kilka procent oszczędności na cenie GB w innej chmurze. Mniej narzędzi = mniej miejsc, gdzie można coś źle kliknąć.

Bezpieczeństwo w Azure Blob – role, klucze i prywatne endpointy

Azure oferuje bogaty model kontroli dostępu oparty o Azure AD (RBAC) i klucze dostępu. Dla backupów sensowne minimum to:

  • wyłączenie dostępu anonimowego i publicznego do konta storage,
  • użycie Managed Identities lub kont serwisowych w Azure AD zamiast kluczy statycznych w skryptach,
  • nadanie roli typu Storage Blob Data Contributor dla procesów backupu tylko na konkretnych kontach/pojemnikach, a nie na całej subskrypcji,
  • logowanie dostępu i operacji (Azure Monitor, Log Analytics) z prostymi alertami na nietypowe zachowania – np. masowe kasowanie blobów.

Przy krytycznych backupach dużą korzyścią jest Private Endpoint – dostęp do danych wyłącznie przez prywatne IP wirtualnej sieci, bez wystawiania storage do internetu. W firmach, które i tak mają rozbudowane sieci VPN/ExpressRoute, jest to stosunkowo niewielki dodatek konfiguracyjny, a znacząco zmniejsza przestrzeń ataku.

Azure wspiera też Immutable Blob Storage (retention/immutability), czyli odpowiednik Object Lock z S3. W pojemniku można wymusić, że dane nie mogą być usuwane ani modyfikowane przez ustalony minimalny czas. Dobrze ustawić to tylko dla krytycznych kopii (np. miesięcznych / rocznych), żeby nie blokować codziennych, krótkotrwałych backupów i niepotrzebnie nie zwiększać kosztów.

Kiedy Azure Blob wychodzi taniej niż S3

Różnice w surowej cenie GB między AWS a Azure są zwykle niewielkie i zależą od regionu, ale Azure często wygrywa całkowitym kosztem rozwiązania w środowiskach mocno „microsoftowych”. Kilka powodów:

  • część licencji i usług backupowych jest wliczona w inne subskrypcje (np. plany korporacyjne, Software Assurance),
  • łatwiej ogarnąć szkolenie i utrzymanie, gdy administratorzy znają już Azure AD, portal i PowerShell,
  • backup w ramach tej samej chmury, gdzie stoi produkcja, obniża koszty transferu i upraszcza sieć.

W małych firmach, które i tak płacą za Microsoft 365 / Azure AD, często bardziej opłaca się wykorzystać istniejący ekosystem i Azure Blob jako główny magazyn kopii niż budować osobny świat w AWS tylko dla S3. Wyjątkiem są sytuacje, gdy ktoś ma już duże doświadczenie z AWS lub korzysta masowo z innych usług S3‑kompatybilnych.

Google Cloud Storage – mocne strony w backupie i archiwizacji

Klasy Standard, Nearline, Coldline i Archive

Google Cloud Storage dzieli dane na cztery główne klasy, które można spojrzeć jak na skalę od „często używane” do „głęboka zamrażarka”:

  • Standard – dla danych aktywnie używanych; pasuje do świeżych backupów, testów odtwarzania i replik na potrzeby analityki.
  • Nearline – tańszy storage dla danych odczytywanych rzadziej niż raz na miesiąc; dobry kompromis dla starszych kopii dziennych/tygodniowych.
  • Coldline – dla danych dotykanych jeszcze rzadziej; w praktyce archiwum operacyjne, po które sięga się tylko przy incydentach.
  • Archive – najtańsza warstwa, zoptymalizowana pod długoterminową archiwizację, z dodatkowymi opłatami przy odczycie i minimalnym okresem trzymania danych.

Przewagą GCS jest to, że czas dostępu do Nearline/Coldline/Archive pozostaje relatywnie niski w porównaniu z klasycznym „taśmowym” podejściem – nie trzeba godzin czekać na rehydratację. Przy krytycznym restore różnica między „kilka sekund” a „kilkadziesiąt minut” bywa istotna, zwłaszcza przy wielu małych odtworzeniach.

Z perspektywy prostoty konfiguracji dobrym punktem startowym jest trzymanie ostatnich X dni w Standard, pozostałych kopii w Nearline/Coldline i tylko najstarsze, wymagane przez regulacje (np. 5–10 lat) pchanie do Archive. Google udostępnia Object Lifecycle Management, które na podstawie wieku obiektu, etykiet czy wersji decyduje o zmianie klasy lub usunięciu.

GCS w roli taniej drugiej kopii – multi‑cloud na logikę

GCS dobrze sprawdza się jako druga, tania lokalizacja dla backupów trzymanych pierwotnie w AWS lub Azure. Narzędzia typu rclone, restic czy Borg bez większych problemów obsługują scenariusz:

  • backup główny: S3/Azure Blob w regionie zbliżonym do centrum danych,
  • kopie replikowane: GCS (np. Nearline/Coldline) w innym regionie czy nawet innym kontynencie.

Przenoszenie dużego wolumenu danych między chmurami kosztuje (egress + ingress), ale raz dziennie lub raz na kilka godzin przyrostowe backupy, deduplikowane i kompresowane, zwykle nie generują zabójczych rachunków. Zyskuje się natomiast:

  • ochronę przed awarią całego dostawcy (vendor lock‑in ograniczony),
  • oddzielenie powierzchni ataku – inne konta, inne środowisko, inne uprawnienia,
  • lepszą pozycję negocjacyjną wobec głównego dostawcy, bo backup nie jest przyspawany do jednej platformy,
  • rezerwę na wypadek incydentów bezpieczeństwa w głównym środowisku – np. błędnie skonfigurowane uprawnienia w AWS nie kasują od razu wszystkiego w GCP.

Dla małych i średnich firm sensowny, oszczędny wariant wygląda tak: kopia robocza blisko produkcji (np. S3 lub Azure Blob w tym samym regionie, z krótką retencją), a w GCS długoterminowe zrzuty w Nearline lub Coldline, rotowane rzadziej. Nie trzeba przerzucać całego wolumenu co noc – wystarczy cykliczny pełny snapshot i przyrosty, żeby rachunki za transfer nie wyskoczyły poza budżet.

Technicznie takie multi‑cloudowe kopie da się postawić na dość prostych klockach: jeden agent backupu generuje pliki, drugi proces (np. cron z rclone) przerzuca je dalej do GCS. Ważne jest, by oba strumienie miały osobne dane dostępowe i własne polityki retencji. Jeśli ransomware lub błąd ludzkiego palca uderzy w pierwszy magazyn, replika w GCS ma szansę przetrwać nietknięta.

Bezpieczeństwo i IAM w GCS – rozsądne minimum dla backupów

Model uprawnień w Google Cloud opiera się na IAM z rolami na poziomie projektu, bucketu i obiektu. Do backupów wystarcza zwykle prosty zestaw zasad: osobny projekt tylko na kopie, osobne konta serwisowe dla procesów backupu i odtwarzania, do tego role typu Storage Object Admin lub węższe, zamiast globalnych Owner. Dużo problemów ucina już sam fakt, że ludzie nie używają prywatnych kont Google do operacji na danych firmowych.

Dość łatwo poprawić bezpieczeństwo niewielkim kosztem: wymusić Uniform bucket-level access (jednolite zarządzanie uprawnieniami), włączyć Bucket Lock / retencję obiektów dla wybranych bucketów z kopią WORM i odciąć dostęp z internetu poprzez VPC Service Controls lub odpowiednio ograniczone adresy IP. To nie są funkcje, które wymagają tygodni projektu – większość da się ustawić w kilka godzin wraz z krótkimi testami.

Dla mniej krytycznych zastosowań wystarczy często prosty wariant: bucket tylko na backupy, brak użytkowników interaktywnych, jedno konto serwisowe z kluczem trzymanym w bezpiecznym miejscu, rotacja tego klucza raz na kilka miesięcy i logowanie dostępu do Cloud Logging z alertami na masowe kasowanie. To nie jest idealny model na audyty bankowe, ale dla przeciętnej firmy transportowej czy software house’u daje już rozsądny poziom ochrony przy niewielkim nakładzie pracy.

GCS a koszty – gdzie Google bywa realnie tańszy

Przy długoterminowej archiwizacji GCS potrafi wypaść korzystnie cenowo, szczególnie w klasach Coldline i Archive. Sama stawka za GB to jednak tylko część równania. Trzeba doliczyć opłaty za operacje i odczyty – jeśli backup jest odtwarzany często, Archive może okazać się pułapką. W wielu scenariuszach lepiej zapłacić nieco więcej za Coldline, ale uniknąć wysokich kosztów przy kilku większych restore’ach rocznie.

Dobry, pragmatyczny schemat: świeże dane w Standard, następnie automatyczna migracja do Nearline/Coldline po 30–90 dniach, a dopiero po roku lub dłużej – przejście do Archive dla wybranych zestawów wymaganych przepisami. Takie podejście upraszcza szacunki: wiesz, że zdecydowana większość ruchu dotyczy standardu i Nearline, więc ryzyko nieprzewidywalnych rachunków z powodu intensywnych odczytów z Archive spada prawie do zera.

W mniejszych środowiskach da się też zagrać między regionami Google’a. Przeniesienie archiwów z droższych, „topowych” lokalizacji do tańszych regionów lub klas multi‑regionalnych ma sens dopiero przy większych wolumenach i stabilnym profilu użycia – inaczej koszt reorganizacji, testów i migracji zje planowane oszczędności. Jeśli kopie mają charakter „odkładamy i prawie nie dotykamy”, lepiej poświęcić godzinę na policzenie wariantu Archive vs Coldline w jednym, dobrze dobranym regionie niż tygodnie na kombinacje multi‑regionowe.

Dla administratora, który nie ma czasu na złożone arkusze kalkulacyjne, rozsądny proces wyboru wygląda prosto: policzyć przybliżony wolumen w TB, określić przewidywaną częstotliwość odtwarzania (np. raz w miesiącu test, kilka razy w roku realny restore) i na tej podstawie zestawić 2–3 warianty cenowe w kalkulatorze GCP. Zwykle szybko wychodzi, że ekstremalnie tania stawka za GB w Archive nie jest aż tak atrakcyjna, gdy wliczy się opłaty za odczyt i minimalny czas przechowywania. Coldline często wygrywa jako „złoty środek”: przyzwoita cena i mniejsze ryzyko niespodzianek na fakturze.

Jeśli plan obejmuje jednocześnie S3, Azure Blob i GCS, najbardziej opłaca się zdefiniować jedną, wspólną logikę klas i retencji: np. „gorące” backupy operacyjne w standardowych klasach u głównego dostawcy, a długoterminowe archiwa przesunięte do tańszej warstwy w drugiej lub trzeciej chmurze. Ważniejsze od perfekcyjnej optymalizacji kilku procent na cenie za GB jest to, żeby zasady były zrozumiałe, spisane i łatwe do utrzymania dla zespołu, który ma inne obowiązki niż ciągłe dłubanie w storage’u.

Przy takim podejściu wybór między S3, Azure Blob a Google Cloud Storage przestaje być pojedynkiem „kto ma najtańszy gigabajt”, a staje się kwestią dopasowania do konkretnego środowiska: gdzie stoją systemy produkcyjne, jakie narzędzia backupu są już wdrożone, jak wygląda zespół i jego kompetencje, jak surowe są wymagania regulatorów. Najbezpieczniejsza i najrozsądniejsza finansowo strategia zwykle łączy prosty, dobrze ogarnięty magazyn główny z przemyślaną drugą lokalizacją – tak, by kopie faktycznie dało się szybko odtworzyć, a rachunki nie psuły budżetu przez cały rok.

Jak podejść do liczenia kosztów w praktyce

Cenniki S3, Azure Blob i GCS wyglądają groźnie dopóki nie rozłoży się ich na kilka prostych składowych. Zamiast wchodzić w dziesiątki metryk, na początek wystarczy model:

  • pojemność – ile TB średnio leży w każdej klasie storage,
  • operacje – przybliżona liczba PUT/GET miesięcznie,
  • transfer – egress poza chmurę (do internetu/na on‑prem) i między regionami,
  • retencja minimalna – czy dane w danej klasie „muszą poleżeć” np. 90 dni.

W przypadku backupu i archiwów zwykle dominuje komponent storage w TB, a operacje i transfer dokładają tylko kilka–kilkanaście procent. Wyjątkiem są scenariusze, w których system backupu bardzo agresywnie przepisuje metadane lub robi wiele małych obiektów (np. tysiące plików po kilka kilobajtów dziennie).

Prosty, działający proces liczenia:

  1. Określ aktualny wolumen danych w backupie (np. w TB po kompresji/deduplikacji).
  2. Załóż przyrost miesięczny (np. 5–10%) i retencję (np. 30/90/365 dni).
  3. Rozbij logicznie dane na „gorące” (odtwarzane częściej) i „zimne” (prawie nietykane).
  4. Przypisz każdej grupie klasę storage u wybranego dostawcy.
  5. Przyjmij liczbę restore’ów w skali miesiąca/roku i ich przybliżony wolumen.

Z takimi założeniami kalkulatory AWS, Azure i GCP zaczynają mieć sens – da się porównać nie tylko cenę za GB, ale całkowity koszt scenariusza łącznie z operacjami i odczytami.

Różnice w modelach cenowych – na co uważać

Wszyscy trzej dostawcy mają podobną konstrukcję cennika, ale drobne różnice potrafią mocno zmienić rachunek przy backupie:

  • Warstwy „taśmowe” / głęboko archiwalne – S3 Glacier / Glacier Deep Archive, Azure Blob Archive, GCS Archive. Tu opłaty za odczyt i minimalny czas przechowywania są kluczowe. Jednorazowe większe odtworzenie w roku może kosztować tyle, co kilka miesięcy samego storage’u.
  • Operacje klastra backupowego – niektóre systemy (np. Veeam, Commvault, Rubrik) generują ogromną liczbę małych PUT/GET przy indeksowaniu i weryfikacji danych. U AWS to może wyjść drożej niż u Google’a w tym samym wolumenie, bo stawki za operacje różnią się o rząd wielkości w niektórych klasach.
  • Minimalny czas trzymania danych w klasie – Glacier, Azure Archive czy GCS Archive mają określone minimum (np. 90 lub 365 dni). Usunięcie lub przeniesienie obiektu wcześniej skutkuje dopłatą „jakby i tak leżał” pełny okres.
  • Egress – wyciąganie danych poza chmurę to osobna pozycja. Przy backupach odtwarzanych raz na kilka miesięcy nie jest to dramat, ale przy cotygodniowych testach DR już robi różnicę.

Przy projektowaniu strategii kosztowej lepiej założyć konserwatywny scenariusz odczytów niż liczyć tylko na minimalny wolumen restore’ów. Przy pierwszym większym incydencie i tak trzeba będzie „ściągnąć” więcej danych, niż wyglądało to w slajdach projektowych.

Typowe profile użycia a wybór warstw

Magazyny plików do backupu i archiwizacji da się podzielić na kilka powtarzających się profili. Dla każdego z nich inaczej rozkładają się koszty:

  • Backup operacyjny 7–30 dni – codzienne kopie baz, VM, plików, z których przywraca się coś co kilka dni lub tygodni.
    Tutaj zwykle kończy się w:

    • S3 Standard / Azure Hot / GCS Standard,
    • czasem w tańszych warstwach „cool”/„infrequent access”, jeśli system backupu sensownie grupuje dane.
  • Długoterminowy backup aplikacji – np. comiesięczne pełne kopie trzymane 1–3 lata.
    Najczęstszy wybór:

    • S3 Standard‑IA lub Glacier Instant Retrieval,
    • Azure Cool,
    • GCS Nearline/Coldline.

    Koszt jest głównie funkcją TB, bo restore’ów jest mało.

  • Archiwum regulacyjne – dane „na wszelki wypadek” trzymane 5–10 lat, dotykane raz na kilka lat przy audycie.
    Tu pojawiają się najtańsze warstwy: Glacier Deep Archive, Azure Archive, GCS Archive.

Zamiast na siłę dopasowywać wszystko do jednej warstwy, rozsądniej jest jasno rozdzielić te trzy profile i potraktować je jako osobne koszyki z inną kalkulacją kosztów i inną akceptowalną niedogodnością (czas odzyskiwania, egress, złożoność konfiguracji).

Podłączanie zewnętrznego dysku do laptopa na biurku
Źródło: Pexels | Autor: Andrea Piacquadio

Strategie optymalizacji kosztów między S3, Azure Blob i GCS

Redukowanie kosztów backupu rzadko polega na „polowaniu” na najtańszą stawkę za GB. Zwykle większy efekt dają proste ruchy organizacyjne: porządek w retencji, rozsądne klasy storage i ograniczenie niepotrzebnych operacji.

Uporządkowanie retencji zamiast cięcia gigabajtów

W wielu firmach główny problem to „wieczne” kopie: brak kasowania starych zestawów, niejasne wymagania biznesu („trzymajmy wszystko, bo tak jest bezpieczniej”). Zanim zacznie się przerzucać dane między chmurami, opłaca się spisać:

  • jak długo muszą być dostępne kopie operacyjne (tygodnie/miesiące),
  • jakie zestawy są wymogiem regulacyjnym (lata, czasem dekady),
  • co jest wyłącznie „na wszelki wypadek”, bez realnych podstaw.

Zderzenie tego z realnym kosztem często otwiera oczy. Przykładowo: jeśli roczna kopia bazy leży w S3 Standard, a dostęp do niej był potrzebny raz przez pięć lat, przeniesienie jej do GCS Archive albo Azure Archive przyniesie większą oszczędność niż żmudne negocjacje rabatu rzędu kilku procent na S3.

Automatyczne lifecycle’y zamiast ręcznego przerzucania

AWS, Azure i Google udostępniają mechanizmy polityk cyklu życia obiektów. Nawet bardzo prosty zestaw reguł potrafi zredukować koszty bez dodatkowej pracy administratora:

  • w S3 – Lifecycle rules typu: po 30 dniach z S3 Standard do Standard‑IA, po 90 dniach do Glacier Instant Retrieval, po roku do Glacier Deep Archive;
  • w Azure – Lifecycle Management pozwala zejść z Hot do Cool, a potem do Archive na podstawie wieku obiektu lub braku odczytów;
  • w GCS – Object Lifecycle Management obsługuje przejścia Standard → Nearline → Coldline → Archive według wieku, etykiet i wersji.

Przy sensownie ustawionych regułach zespół nie musi pamiętać o „sprzątaniu” starych backupów. Kluczowe jest jedynie, aby uwzględnić minimalne okresy przechowywania dla klas archiwalnych, żeby automatyka nie generowała kar za zbyt wczesne przeniesienie/usunięcie.

Grubość obiektów – mniej plików, mniej operacji

Systemy backupu potrafią tworzyć ogromne ilości małych obiektów (każdy plik osobno). Dla storage’u chmurowego opłaca się raczej:

  • trzymać większe bloby (np. archiwa 100–500 MB, a nie setki tysięcy plików po kilkadziesiąt kB),
  • lub używać rozwiązań, które same agregują dane przed wysłaniem.

Przykładowo: backup plikowego serwera generuje 5 milionów plików; wysyłanie każdego osobno do S3/Blob/GCS podniesie rachunek za operacje i wydłuży okno backupu. Ten sam zestaw ściśnięty i spakowany do kilkuset większych obiektów zmniejszy liczbę PUT‑ów i GET‑ów o rząd wielkości, co w tanich warstwach storage’u przekłada się na realne pieniądze.

Wspólna „mapa klas” dla multi‑clouda

Jeśli w grze są dwaj lub trzej dostawcy, życie ułatwia wspólna, prosta „mapa” klas storage, np.:

  • HOT – S3 Standard / Azure Hot / GCS Standard,
  • WARM – S3 Standard‑IA / Azure Cool / GCS Nearline lub Coldline,
  • COLD – Glacier / Azure Archive / GCS Archive.

Polityki backupu opisuje się wtedy abstrakcyjnie („3 dni w HOT, 60 dni w WARM, 5 lat w COLD”), a dopiero później mapuje na konkretną platformę. Zmiana dostawcy wymaga wtedy korekty mapowania, a nie całej logiki retencji. Działa to też na plus przy rozmowach z biznesem: łatwiej wyjaśnić różnicę między „backup operacyjny” a „archiwum na lata”, niż między Glacier Instant Retrieval a Coolline.

Praktyczne scenariusze porównawcze

Przybliżone scenariusze pomagają zorientować się, kiedy który magazyn wychodzi rozsądniej, nawet bez wchodzenia w dokładne kwoty.

Scenariusz 1: Mała firma, jeden region, brak ścisłych regulacji

Załóżmy firmę z kilkoma serwerami on‑prem i kilkoma usługami SaaS. Backup robi prostym narzędziem (np. restic albo Borg) w trybie przyrostowym, z pełnym snapshotem raz w tygodniu. Retencja:

  • 30 dni kopii dziennych,
  • 12 kopii miesięcznych,
  • 3–5 kopii rocznych.

Tu najważniejsze jest: żeby backup „po prostu działał” i żeby rachunek za storage nie rósł niekontrolowanie. Prosty, tani w utrzymaniu wariant:

  • główna kopia w S3 Standard lub Azure Hot w regionie bliskim firmie (ze względu na czas backupu/restore),
  • lifecycle: po 30 dniach przejście do Standard‑IA / Cool / Nearline,
  • roczne kopie przesuwane dalej: Glacier / Azure Archive / GCS Archive – tylko wybrane zestawy.

W tym profilu nie ma wielkiego sensu skomplikowany multi‑cloud. Jeśli jednak firma i tak korzysta z dwóch chmur (np. SaaS w GCP i infrastruktura w Azure), można długoterminowe archiwa przerzucić do drugiego dostawcy, ale tylko wtedy, gdy koszty egressu i czas wdrożenia tego nie zjedzą.

Scenariusz 2: Średnia organizacja, wymagania audytowe, VM w Azure

Średnia firma z kilkudziesięcioma VM w Azure, częściowo on‑prem. Polityka zgodności wymaga 7–10 lat przechowywania wybranych danych księgowych i kadrowych. Backup realizowany z użyciem narzędzi natywnych dla Azure oraz jednego centralnego systemu (np. Veeam).

Logiczny układ:

  • „gorące” kopie VM: Azure Blob Hot (lub zarządzane snapshoty) w tym samym regionie, retencja 14–30 dni,
  • długoterminowy backup aplikacji: Blob Cool, retencja 12–24 miesiące,
  • archiwa regulacyjne: Blob Archive z twardą retencją WORM przez 7–10 lat.

Dla ograniczenia ryzyka vendor lock‑in i awarii całego regionu można dodać:

  • replikę wybranych backupów do GCS Coldline lub S3 Glacier w innym regionie/kontynencie.

W takim scenariuszu sensowne jest ograniczenie multi‑clouda do najwęższego, krytycznego zestawu danych, a nie kopiowanie wszystkiego „na wszelki wypadek”. Dzięki temu zarówno opłaty za transfer, jak i złożoność konfiguracji pozostają pod kontrolą.

Scenariusz 3: Duża ilość danych, rzadkie odtworzenia

Przykład: firma analityczna archiwizuje dziesiątki TB logów i zrzutów baz miesięcznie. Dane muszą być dostępne do analiz historycznych przez kilka lat, ale realne odtworzenia całych archiwów zdarzają się sporadycznie, częściej pobierane są wycinki.

W takiej sytuacji:

  • w S3 naturalnym wyborem będzie miks Standard‑IA/Glacier Instant Retrieval + Glacier Deep Archive dla najstarszych danych,
  • w Azure – połączenie Cool i Archive,
  • w GCP – Nearline/Coldline na dane ostatnich 1–2 lat i Archive powyżej tego progu.

GCS często bywa tu atrakcyjny kosztowo ze względu na relatywnie niski czas odzyskiwania z Coldline/Archive oraz prosty model regionów. Różnice w cenach za GB, pomnożone przez dziesiątki TB, są już na tyle duże, że opłaca się poświęcić kilka dni na prototyp i szczegółowe policzenie kosztów w kalkulatorach wszystkich dostawców.

Techniczne niuanse, które wpływają na rachunek

Na papierze S3, Azure Blob i GCS wyglądają podobnie, ale pewne detale mogą wychylić szalę przy backupie i archiwizacji.

Minimalne czasy przechowywania i opłaty za usunięcie

Klasy archiwalne w każdej chmurze mają swój „haczyk”: minimalny czas przechowywania. W S3 Glacier i Glacier Deep Archive, Azure Archive czy GCS Archive przedwczesne usunięcie lub przeniesienie obiektu oznacza dopłatę tak, jakby trzymało się go przez pełny wymagany okres. Przy bardzo agresywnych lifecycle’ach rachunek potrafi zaskoczyć bardziej niż sama stawka za GB.

Z praktyki: jeżeli retencja backupów wynosi 90 dni, nie ma sensu wrzucać ich do warstwy, która wymaga 180 lub 365 dni przechowywania. Lepiej zatrzymać się na klasie „nearline/cool”, zaakceptować nieco wyższą cenę za GB i uniknąć kar. Dobrze skalibrowana retencja powinna mieć prostą zasadę: kopie, które „z definicji” żyją krótko, trzyma się w warstwach o krótkim lub zerowym minimalnym okresie, a dopiero długoterminowe zrzuty przesuwa w prawdziwe archiwum.

Opłaty za listowanie, metadata i żądania API

Przy setkach milionów obiektów istotne stają się nie tylko PUT/GET, ale też operacje typu LIST, HEAD czy sprawdzenia metadanych. Każdy dostawca wycenia je trochę inaczej, a niektóre narzędzia backupowe lub systemy indeksujące potrafią generować lawinę takich żądań. Efekt bywa taki, że sam odczyt indeksu kosztuje więcej niż przechowywanie kilku dodatkowych TB surowych danych.

Najprostszy sposób na trzymanie kosztów w ryzach to ograniczenie „czesania” całego bucketu przy każdej operacji. Tam, gdzie się da, lepiej korzystać z:

  • spójnych prefiksów (np. rok/miesiąc/dzień) zamiast płaskiego namespace,
  • własnych indeksów po stronie aplikacji lub bazy (np. katalog backupów w SQLite/PostgreSQL) zamiast pełnego listowania obiektów,
  • rzadszych, ale lepiej zaplanowanych skanów – np. raz dziennie, a nie przy każdym jobie.

Taki minimalny porządek w strukturze obiektów potrafi zmniejszyć liczbę żądań API o rząd wielkości bez inwestowania w egzotyczne rozwiązania.

Replikacja między regionami i klasami – kiedy ma sens

Cross‑region replication brzmi kusząco jako „backup backupu”, ale przy backupie i archiwizacji bywa, że taniej i prościej jest zbudować niezależną drugą kopię innym narzędziem. Automatyczna replikacja sprawdza się głównie tam, gdzie wymagana jest bardzo mała utrata danych (RPO) i szybka dostępność w innym regionie – czyli raczej przy danych produkcyjnych niż przy długoterminowym archiwum.

Jeżeli celem jest tańsza, ale wolniejsza kopia na czarną godzinę, praktyczniejsze okazuje się:

  • wyłączenie automatycznej replikacji „wszystkiego”,
  • zrobienie drugiej kopii tylko wybranych zestawów (np. miesięcznych snapshotów) do innego regionu lub chmury,
  • użycie tańszych klas typu Glacier/Archive po stronie tego drugiego dostawcy.

Takie podejście zmniejsza zarówno wolumen danych replikowanych na bieżąco, jak i liczbę operacji, a jednocześnie spełnia większość wymagań DR i audytowych. Z punktu widzenia kosztów i czasu wdrożenia daje zwykle lepszy stosunek efektu do wysiłku niż pełna replikacja bucket‑to‑bucket.

Dobór między S3, Azure Blob i Google Cloud Storage nie sprowadza się do jednego „najlepszego” wyboru, lecz do połączenia kilku prostych decyzji: ile naprawdę trzeba trzymać, jak długo, jak często sięga się po stare dane i ile pracy można włożyć w automatyzację. Tam, gdzie liczby są duże, warto zrobić mały pilotaż i policzyć koszty w praktyce; w mniejszych środowiskach zwykle wygrywa ten wariant, który da się wdrożyć w tydzień i bez niespodzianek utrzymać przez kolejne lata.

Najczęściej zadawane pytania (FAQ)

Co wybrać do backupu: Amazon S3, Azure Blob czy Google Cloud Storage?

Do typowego backupu operacyjnego najważniejsze są: szybkość odczytu, koszty pobierania danych i prostota integracji z Twoimi narzędziami do kopii zapasowych. W praktyce każdy z tych trzech dostawców ma odpowiednik „ciepłej” klasy do backupu codziennego: Amazon S3 Standard / Standard-IA, Azure Blob Hot / Cool, Google Cloud Storage Standard / Nearline.

Decyzję najczęściej determinuje to, z czego już korzystasz w infrastrukturze. Jeśli masz serwery w Azure – wygodniej i taniej pod względem ruchu wychodzącego będzie Azure Blob; przy środowisku w AWS naturalnym wyborem jest S3. Google Cloud Storage opłaca się szczególnie, gdy i tak używasz usług GCP (Kubernetes, BigQuery) albo Google jest najbliższym regionem sieciowo.

Jaka jest różnica między backupem a archiwizacją w chmurze?

Backup to kopia roboczych danych służąca do szybkiego odtworzenia systemów po awarii, ransomware czy przypadkowym skasowaniu. Tu liczą się parametry RPO (ile danych możesz stracić) i RTO (jak szybko musisz stanąć na nogi), więc potrzebujesz klas storage z szybkim dostępem i sensownym kosztem odczytu.

Archiwizacja to długoterminowe przechowywanie danych, do których zaglądasz rzadko albo tylko z wymogów prawnych czy compliance (np. logi, stare dokumenty, nagrania). Priorytetem jest koszt za GB i trwałość danych, a długi czas „odmrażania” czy wyższy koszt pojedynczego odczytu nie jest aż takim problemem.

Jakie klasy storage wybrać pod backup, a jakie pod archiwum w S3, Azure i GCP?

Dla backupu operacyjnego stosuje się najczęściej klasy „gorące” i „ciepłe”:

  • Amazon: S3 Standard na świeże kopie, S3 Standard-IA na rzadziej używane.
  • Azure: Blob Hot na bieżący backup, Blob Cool na starsze kopie.
  • Google: Standard na bieżące dane, Nearline na kopie, do których zaglądasz kilka razy w roku.

Do archiwum, gdzie liczy się głównie cena za GB, stosuje się klasy „zimne” i archiwalne: S3 Glacier / Glacier Deep Archive, Azure Blob Archive, Google Coldline / Archive. Dobry, tani układ to trzymanie 30–90 dni backupu w klasie ciepłej, a starsze wersje automatycznie zrzucać politykami lifecycle do tańszych klas archiwalnych.

Jak policzyć RPO i RTO, żeby dobrać odpowiedni storage w chmurze?

RPO określasz, odpowiadając na pytanie: ile czasu zmian możesz stracić bez dramatycznych skutków biznesowych (np. 1 godzina transakcji czy 24 godziny zmian plików). Im mniejszy RPO, tym częstsze kopie (snapshoty, replikacja) i tym bardziej opłaca się storage z tanim zapisem i odczytem.

RTO to akceptowalny czas od awarii do przywrócenia działania. Jeśli mówimy o minutach lub pojedynczych godzinach, backup w klasie archiwalnej (Glacier, Archive) będzie w praktyce zbyt wolny i kłopotliwy przez etap rehydratacji. Przy RTO rzędu kilkunastu godzin lub dni można już agresywnie korzystać z najtańszych klas, bo dłuższy czas odczytu nie zaboli tak mocno.

Jak ograniczyć koszty backupu i archiwizacji w S3, Azure Blob i Google Cloud Storage?

Najprostszy sposób to rozdzielenie klas storage według wieku i „ważności” danych. Świeże kopie (np. do 30 dni) trzymaj w klasie ciepłej, a starsze automatycznie przenoś do tańszych klas IA/Cool/Nearline, a jeszcze starsze do Glacier / Archive. Do tego dochodzi ograniczenie niepotrzebnych odczytów – jeśli za każdym razem testowo przywracasz całe TB z archiwum, rachunek szybko urośnie.

Warto też: skonfigurować wersjonowanie tylko tam, gdzie rzeczywiście pomaga, ustawić automatyczne kasowanie starych kopii, które nie są wymagane prawnie, oraz dobrać region chmury z rozsądną ceną i dobrym łączem z Twoim data center. Czasem tańszy GB w „dalszym” regionie przegrywa, gdy policzysz dłuższy czas przywracania i wyższy koszt egressu.

Czy da się migrować między S3, Azure Blob i Google Cloud Storage bez dużych kosztów?

Migracja między chmurami jest możliwa, ale opłaty za transfer wychodzący (egress) z obecnej chmury potrafią zaboleć bardziej niż sama cena storage’u u nowego dostawcy. Przy dużych wolumenach danych zwykle robi się to etapami: najpierw przenosi „żywe” backupy i kluczowe archiwa, a mniej ważne dane zostawia do naturalnego wygaśnięcia według polityk retencji.

Żeby ograniczyć koszty, można: użyć narzędzi multi-cloud, które wspierają bezpośrednią replikację między chmurami, kompresować i deduplikować dane przed przenoszeniem oraz migrować poza godzinami szczytu, jeśli operator łącza ma różne stawki. Często wychodzi taniej utrzymywać dwa magazyny równolegle przez pewien czas niż „wystrzelić” jednorazowy, ogromny transfer.

Czy do małej firmy wystarczy jedna klasa storage, czy lepiej od razu dzielić na backup i archiwum?

Dla bardzo małych instalacji (kilkadziesiąt–kilkaset GB) sensowne bywa zaczęcie od jednej klasy „ciepłej” – np. S3 Standard-IA, Azure Cool czy GCS Nearline – bo oszczędzasz czas na projektowaniu złożonych polityk, a rachunki i tak są niskie. To wariant „minimum wysiłku”, który pozwala szybko mieć w ogóle sensowny backup.

Gdy dane zaczynają iść w TB lub rośnie liczba systemów, opłaca się rozdzielenie: bieżący backup w klasie ciepłej i archiwum w klasie zimnej. Różnica na miesięcznym rachunku bywa istotna, a konfiguracja lifecycle to jednorazowa praca, która później działa automatycznie.

Poprzedni artykułTinyML – Machine Learning w małej skali
Następny artykułJak Python stał się królem Data Science
Zdzisław Skorupski

Zdzisław Skorupskiekspert od „starych” formatów plików i cyfrowej archeologii. Na Filetypes.pl pokazuje, jak odzyskać dostęp do danych zapisanych w przestarzałych programach, na płytach CD, dyskietkach czy w egzotycznych rozszerzeniach. Od lat pomaga firmom w bezpiecznej migracji archiwów do nowoczesnych formatów, dbając o integralność, poufność i zgodność z obowiązującymi standardami.

Kontakt: zdzisiuuu@filetypes.pl