"Wiaderko internetów". Jak przenieść petabajty do chmury?

Przesłanie kilkudziesięciu lub kilkuset gigabajtów danych do chmury przez zwykłe połączenie internetowe nie powinno stanowić problemu – wystarczy jedynie trochę cierpliwości. Co jeśli jednak wielkość nagromadzonych danych ulegających migracji sięga tera-, a nawet petabajtów, których przesyłanie może trwać… latami? Nikt oczywiście nie może sobie pozwolić tyle czekać. Oto rozwiązania umożliwiające przeniesienie do chmury ogromnych ilości danych w relatywnie krótkim czasie.

Bezpośrednie łącze z chmurą

Pierwszą możliwością jest uruchomienie bezpośredniego połączenia z chmurą obliczeniową poprzez wydzieloną sieć z pominięciem publicznego internetu. Przykładami takich usług mogą być AWS DirectConnect lub Azure ExpressRoute. Bezpośrednia komunikacja zachodząca przez dedykowane łącza pomiędzy użytkownikiem a serwerownią usługodawcy chmurowego cechuje się stabilnością, bezpieczeństwem, niskimi opóźnieniami i niezmienną przepustowością od 1 Gbps do nawet 100 Gbps. Pozwala także zredukować koszt transferu danych, który w niektórych zastosowaniach (np. streaming) może okazywać się niemały. Szczególnie często bezpośrednie połączenia użytkowane są także w przypadku środowisk hybrydowych, łączących zasoby prywatne z chmurą publiczną, czułych na opóźnienia i wymagających pewnej, szybkiej komunikacji.

Czasami jednak i takie możliwości okazują się niewystarczające, a danych jest zwyczajnie zbyt dużo by przesłać je w rozsądnym czasie przez choćby najszybszą, dedykowaną sieć.

Naprawdę pojemny pendrive

Wówczas w grę wchodzą urządzenia służące do migracji danych, tytułowe wiaderka internetów. To nic innego jak dyski zamawiane i dostarczane do naszej serwerowni. Tam podłączamy je do swoich systemów, zgrywamy dane z wykorzystaniem dedykowanego oprogramowania szyfrującego w locie całość przesyłanych informacji, a następnie odsyłamy do dostawcy chmury. Po powrocie dane zgrywane są do wskazanej przez nas usługi, np. storage’u obiektowego Amazon S3. Całość może odbyć się także w odwrotnym kierunku – dane zostaną pobrane z chmury i przekazane użytkownikowi. Możliwe jest nawet zamówienie subskrypcji, by dyski przychodziły co określony czas – przydaje się podczas potrzebny regularnego przesyłania dużych ilości danych generowanych np. przez placówki badawcze.

Oferowane urządzenia do transportu danych różnią się pojemnością i wielkością. Porównajmy je na przykładzie Azure i urządzeń z rodziny Data Box.

Azure Data Box Disk

Azure Data Box Disk to najbardziej podstawowe i najmniej pojemne z urządzeń służących do transferu danych do i z chmury Azure. Ma formę walizki, w której znajdują się dyski – maksymalnie pięć o pojemności 8 TB każdy, co łącznie przekłada się na możliwość transferu do 40 TB danych za jednym razem. Dyski nie różnią się niczym szczególnym od standardowych SSD – podpinamy je poprzez łącze SATA III lub USB 3.1, zgrywamy dane, które zabezpieczane są przez 128-bitowe szyfrowanie AES już podczas transferu, odkładamy do walizki i wysyłamy do Azure.

Azure Data Box

Azure Data Box to już nie pojedyncze dyski, ale cała ich macierz umieszczona w specjalnym urządzeniu przypominającym nieco serwer NAS, które jest w stanie pomieścić imponujące 100 TB danych. Po otrzymaniu przesyłki urządzenie należy podłączyć do sieci LAN poprzez dwa 10-Gigabitowe interfejsy. Dane oczywiście również są szyfrowane, ale z wykorzystaniem trudniejszego do złamania AES 256-bit.

Odpowiednikiem Azure Data Box w ofercie AWS są urządzenia z grupy Snowball umożliwiające transport 50 lub 80 TB danych.

Azure Data Box Heavy

Azure Data Box Heavy to już cały, wyposażony w kółka i ważący ponad 250 kilogramów, kontener. Pomieści w sobie imponujący petabajt danych – to ekwiwalent trwającego 3,4 roku filmu w jakości Full HD lub 1,5 miliona płyt CD, a także całości danych potrzebnych do wyrenderowania filmu Avatar. Słowem – dużo. Urządzenie wyposażono w cztery interfejsy sieciowe 40-Gigabit Ethernet, ale zapełnienie całej oferowanej pojemności może zająć kilka dni lub nawet tygodni, zależnie od przepustowości sieci i wydajności źródłowych macierzy.

A może… ciężarówka?

AWS Snowmobile

Co jeśli danych jest naprawdę, naprawdę dużo? Wówczas przydają się naprawdę wielkogabarytowe urządzenia. Takim jest AWS Snowmobile, ciężarówka zdolna w swoim kontenerze pomieścić… 100 PB danych. Po zamówieniu, przybywa ona do naszej serwerowni, wstępnie skonfigurowana jako magazyn sieciowy. Pracownicy AWS pomagają podłączyć specjalne łącze internetowe o wysokiej przepustowości do naszej sieci LAN. Gdy dane ostatecznie się zgrają, Snowmobile odjeżdża do serwerowni AWS, gdzie dane importowane są do Amazon S3 i stają się dostępne w chmurze. Zadbano oczywiście także o bezpieczeństwo – szyfrowanie AES 256-bit, ochroniarze, GPS, alarmy, całodobowy monitoring wideo, opcjonalna eskorta podczas transferu… Nic dziwnego, tak ogromna ilość danych nie może wpaść w niepowołane ręce.

Skrawek chmury we własnej serwerowni

Azure Stack Edge

Dostawcy chmury obliczeniowej oferują nie tylko dedykowane połączenia i specjalne urządzenia (lub ciężarówki) do transferu danych. Możliwe jest także zainstalowanie chmury w szafie własnej serwerowni, co pozwala na przeniesienie części jej możliwości do naszej sieci, a przez to wykonywanie przetwarzania na miejscu i redukcję wymogów odnośnie transferu sieciowego. Takim rozwiązaniem jest na przykład Azure Stack Edge oferujący m.in. uczenie maszynowe, analizę, przesyłanie i kompresję danych oraz uruchamianie aplikacji. Jego odpowiednikiem w ofercie AWS jest Snowball Compute.

Więcej o działaniu takich rozwiązań dowiesz się z mojego artykułu o działaniu i założeniach nieco bardziej zaawansowanego rozwiązania – Azure Stack Hub.