Hoe kan Snowflake een antwoord bieden op dagdagelijkse uitdagingen

Snowflake heeft een resem aan voordelen en strategische waarden die allemaal bijdragen tot het succes van het cloud data platform. Het laatste jaar is Snowflake niet meer weg te denken uit de markt. Dat is mede te danken aan een ongelofelijk marketingteam, maar vooral ook aan één van de meest succesvolle IPO’s in de geschiedenis van IT. 

Voor we ingaan op de unieke eigenschappen van Snowflake, is het belangrijk om eens dieper in te gaan op de problemen binnen bedrijven waarvoor het cloud data platform een oplossing biedt.

  1. Complexiteit
    Bedrijven zitten veelal op een enorme hoeveelheid aan data afkomstig uit diverse applicaties, van zowel binnen als buiten de organisaties. Deze data zijn meestal niet gestructureerd en er zit geen lijn van communicatie tussen.
    Hoe groter de organisatie, hoe complexer het web aan data wordt. Voor het nemen van operationele beslissingen is het echter enorm belangrijk om een overzicht te hebben van alle data die beschikbaar zijn en hierbij voldoende inzicht te verkrijgen in wat de correlatie is tussen de verschillende systemen en hun data.
  2. Snelheid
    Hoe sneller we de data kunnen integreren, ophalen, analyseren en delen, hoe sneller de time-to-market zal zijn. Deze time-to-market is cruciaal in zowel het kosten- als opbrengstenplaatje. Er wordt bespaard op werkkrachten door ze minder lang te moeten inzetten en opbrengsten kunnen sneller erkend worden. Bedrijven moeten kunnen inspelen op de snel veranderlijke omgeving, en beslissingen kunnen maken binnen een aantal minuten, in plaats van weken. 
  3. Toegang
    Door data toegankelijk te maken in een organisatie, ontstaat er een self service cultuur die ervoor zorgt dat mensen minder afhankelijk zijn van elkaar om tot inzichten te komen. Ze kunnen zelf testen, rapporten maken en dus inzichten verwerven in plaats van te wachten tot persoon x van afdeling y tijd heeft om een dataset te prepareren en vervolgens weer door te geven zodat een rapport gemaakt kan worden.  
  4. Eenvoud
    Business heeft geen nood aan ingewikkelde processen of een enorme hoeveelheid aan knoppen en queries. Ze willen gebruiksvriendelijkheid en eenvoud.
  5. Schaalbaarheid
    Een steeds veranderlijke omgeving zorgt ook voor een verandering in noden en wensen. Dit maakt dat de business case vandaag niet dezelfde is al die van vorig jaar en volgend jaar. Je platform moet er met andere woorden op voorzien zijn om deze aanpassingen steeds feilloos op te nemen. Vaak wordt je genoodzaakt steeds meer hardware/software aan te kopen om te blijven voldoen, wat brengt een enorme kost met zich mee brengt.
 
Deze zeer herkenbare problemen worden opgelost door Snowflake. Een cloud data platform waar snelheid, schaalbaarheid en zero management key features zijn. Dit worden mogelijk gemaakt door volgende eigenschappen: 
 

Ontworpen voor de cloud

Snowflake is het enige data platform dat ontworpen is voor de cloud. Het is niet, zoals alle andere data platformen in de cloud, gebaseerd op een on-premise oplossing. De onderliggende data opslag is ontworpen voor optimale cloud en data warehousing workloads.
 

Unieke architectuur

Snowflake heeft een unieke data warehouse architectuur, waarbij opslag (storage), verwerking (compute) en cloud diensten (cloud services) losgekoppeld zijn en onafhankelijk van elkaar op- en afgeschaald kunnen worden. Snowflake biedt daarmee vrijwel lineaire schaalbaarheid, omdat het geen last heeft van de koppeling tussen ‘storage’ en ‘compute’ die je wel ziet bij andere leveranciers. 
 

Data Sharing

Snowflake maakt het delen van data tussen Snowflake accounts snel, veilig en eenvoudig via Secure Data Sharing. Databases, schema’s en tabellen (tot op recordniveau) kunnen via Shares gedeeld worden met andere accounts. Het ontvangende account hoeft de data dan enkel nog te importeren. Verder is de data altijd gesynchroniseerd. Het volstaat dus om eenmalig een share te maken, waarna de ontvanger steeds toegang heeft tot de meest recente data. Dit alles gebeurt zonder dat de data opslag vergroot. Er zijn dan vervolgens twee opties voor de compute kosten:

 

  • Afnemers hebben een eigen Snowflake account: de externe gebruikers dragen zelf de kosten die worden gemaakt door data op te vragen.
  • Afnemers hebben geen eigen Snowflake account. In dit geval kan je reader accounts aanmaken (vanuit het platform). Een reader account is een read-only Snowflake account waardoor de gedeelde data toegankelijk wordt voor de afnemer. De afnemer kan de data van daaruit dan migreren naar een eigen omgeving. De kosten van reader accounts worden volledig gedragen door het account waaraan ze toebehoren.
 
De voordelen hiervan zijn:
  • Geen tool nodig voor het migreren van de data
  • Steeds up-to-date data
  • Geen onnodige transfers van grote hoeveelheden data
  • Mensen kunnen zelf aan de slag met de data zonder rapporten te laten maken

Geen infrastructuur & zero management

Snowflake wordt As a Service geleverd en is gericht op minimalisatie van onderhoud. Altijd de meest recente versie van het platform, altijd toegang tot de nieuwste functionaliteiten, geen onderhoud van servers, geen optimalisatie van opslag, geen query performantie tuning (indexen, partities, vacuuming…) etc. Alles gebeurt automatisch en resulteert in een FTE-kostenbesparing. Je hebt dus geen nood aan gespecialiseerde DBA profielen.

Snelheid

 

Snowflake is een data warehouse gebouwd voor analytische bewerkingen op grote hoeveelheden data. De time to market voor bedrijven daalt significant en heeft een kostenbesparing en opbrengstverhoging tot gevolg.  Door de snelheid en de gebruiksvriendelijke oplossing die Snowflake aanbiedt, bespaar je op resources.  Bijkomend kan ook de opbrengst sneller erkend worden, vanwege de snellere time to market 

Automatische schaalbare virtual warehouses zorgen ervoor dat de compute kracht aangepast wordt aan de workload. Dedicated virtual warehouses kunnen om rekenkracht toewijzen aan bijvoorbeeld data loading of rapportering. Op die manier kan er voor ieder specifiek doeleinde een virtual warehouse op maat gemaakt worden. Zo kan bijvoorbeeld tegelijkertijd de DWH bevraagd worden, alsook real time data worden voorzien vanuit de bronnen. De splitsing van de virtual warehouses voor verschillende workloads zorgt er dus voor dat er geen vertraging zit op de queries door optimale verdeling van de resources.

Ongelimiteerde en automatische schaalbaarheid

De unieke MPP (=Massively Parallel Processing) architectuur van Snowflake, waarbij storage is gescheiden van compute, zorgt ervoor dat er een ongelimiteerde schaalbaarheid mogelijk is. De hoeveelheid data op het Snowflake account kan blijven groeien, zonder dat dit invloed heeft op de compute (en vice versa). De architectuur is gebouwd om grote hoeveelheden aan data te verwerken, te stockeren, te gebruiken.

In Snowflake kunnen de compute resources zonder onderbreking / downtime schalen terwijl queries (zowel voor ingestie als output) actief zijn. De data moeten dus niet opnieuw worden herverdeeld. Dit alles gebeurt automatisch op basis van automatische detectie binnen Snowflake. Dit betekent dat het platform automatisch kan detecteren wanneer er herschaald moet worden zonder interventie van de beheerder of gebruikers. 

In traditionele MPP data platformen in de cloud, moet de database bij herschaling in de alleen-lezenmodus worden gezet of zelfs worden herstart. De “automatische” herschaling vereist daar dus een manuele interventie.

Automatische compressie en gepatenteerde data storage systeem

Wanneer data wordt ingeladen in Snowflake, wordt een automatische compressie gehanteerd met een ratio tussen 5:1 en 4:1. Zo zal 10 TB overeenkomen met ongeveer 2 tot 2,5 TB aan data in het data warehouse. Hierdoor worden de opslagkosten geoptimaliseerd.

Alle data die in Snowflake wordt ingeladen, ondergaat micro-partitioning. De data wordt met name op een logische manier in zeer kleine stukjes (enkele rijen) opgedeeld. Deze unieke manier van data storage zorgt ervoor dat queries zeer snel verwerkt kunnen worden.

Gestructureerd and semi-gestructureerde data

Door het nieuwe data type van Snowflake, VARIANT, kan zowel semi-gestructureerde data zoals JSON, Avro, parquet en XML in tabellen worden geladen zonder enige transformatie. Snowflake SQL laat het dan weer toe om de gestructureerd en semi-gestructureerde data samen te voegen in één SQL statement.

Pay for what you use

Je betaalt enkel voor de rekenkracht die je gebruikt. Wanneer je geen queries uitvoert, wordt er niets aangerekend voor compute. Facturering per seconde en automatische onderbreking voor niet-actieve warehouses zorgt voor een kostenbesparing en maakt het mogelijk de kosten bij te houden met het werkelijke gebruik..

 

Connectoren met diverse ETL en Dashboarding tools

Snowflake werkt efficiënt samen met diverse ETL tools (bijv. Talend) en Dashboarding tools (Tableau, Power BI, …).

Cloud onafhankelijk

Dit wil zeggen dat een data warehouse in Snowflake op eender welk cloud platform gebouwd kan worden. Dit houdt de migratiekosten laag, waardoor er in de toekomst ook geen lock in bestaat.

Continuïteit

Continuïteit en security is binnen de architectuur van Snowflake zeer belangrijk. Zo worden accounts steeds automatisch volledig verspreid over drie verschillende data centers binnen de regio. Indien één van de data centers uitvalt (wat zeer onwaarschijnlijk is), zijn er nog steeds twee volledige back ups van het account beschikbaar. De eindgebruiker zal er zelfs totaal niets van merken.

Retention van data wordt gegarandeerd via Time Travel en Fail Safe. Time Travel maakt het mogelijk om verwijderde of geupdate data te bevragen (door de gebuiker zelf), tot een maximaal periode van 90 dagen geleden (enterprise edition). Fail Safe is een extra bescherming (bovenop Time Travel) van 7 dagen die Snowflake voor alle accounts ter beschikking stelt. In totaal zal data dus maximaal 97 dagen terug in de tijd nog te herstellen zijn. Dit maakt het maken van periodieke back-ups volledig overbodig.

 

Wil je meer weten over Snowflake en het in actie zien?

DataSense NV
Kempische Steenweg 309 bus 1.01
3500 Hasselt
BE 0674 824 149
+32 11 64 30 16
info@datasense.be

DataSense BV
Pedro de Medinalaan 73
1086 Amsterdam
+31 20 303 05 80
info@datasense.nl