Hadoop + BigQuery és Datastore támogatás

A mai naptól már egyszerűbb Hadoop-unkat a Google felhő alapú szolgáltatásaiból táplálni, ugyanis kiadták a Google BigQuery és a Google Cloud Datastore konnektorokat Hadoop-hoz. A két konnektor a Hadoop InputFormat és OutputFormat implementációja. Ezen kívül a már létező Google Cloud Storage konnektor ott van a sorban, ami pedig a HDFS réteget adja.

Telepítésük egyszerű, mivel deploy-kor elég megadni a bdutil-nak a hozzájuk tartozó env állományt:

  • ./bdutil deploy bigquery_env.sh
  • ./bdutil deploy datastore_env.sh
  • ./bdutil deploy bigquery_env.sh datastore_env.sh

Ezen három konnektor segítségével már egyszerűen tudjuk használni Hadoop vagy más a Hadoop IO rendszerét használó BigData rendszerünket. Miért jó ez nekünk? Ha valaki használ Hadoop-ot, akkor tudja, hogy hasznos és nagyon nagy segítség nagy (és itt most nagyon-nagyon nagyról beszélek) adatokkal való munkához. Ugyan így hasznos a BigQuery, mert gyors (alapvetően nem drága, ha ekkora adatmennyiségről van szó) és megbízható. Eddig ha mindkettőt ki szerettük volna használni, akkor ezt nagyjából csak adatduplikációval tudtunk elérni és kellett valami külső kis programot futtatni, ami a Hadoop kimenetet feltolta nekünk BigQuery-be. Erre már nincs szükség, mert egyszerűen csak megadjuk mint kimenet.

Forrás: Google Cloud Platform Blog

Kapcsolódó cikkek:

Balazs Nadasdi

Developer, Project Manager, Blogger, Dad... or sometihng like these