Dernière mise à jour le : 5 Oct, 2020

Google Cloud Platform : quels outils pour la data ?

Dans cette section, nous traiterons des produits de Google Cloud Platform intéressants pour des applications data. Que ce soit pour des data analysts, data scientists, et data ingénieurs. Cette liste est non exhaustive.

Qu’est-ce que Google Cloud Platform ?

Google Cloud Platform (aussi appelé GCP, ou GCloud) est la plateforme de cloud computing proposée par Google. Ses principaux concurrents d’un point de vue global sont Amazon Web Services (le leader mondial sur le marché), et Microsoft Azure.

Google Cloud platform est en fait une agrégation d’un nombre important d’offres. Certaines étant dédiées au développement d’applications ; plus orientées “DevOps” donc. D’autres dédiées à des applications “Data”

Google Big Query

Google Big Query est l’élément central de la plupart des projets data sur Google Cloud Platform. ll s’agit du “Cloud Data Warehouse” de Google. En gros, une base de donnée scalable, associée à des capacités de requêtage (SQL), et des capacités de calcul et de Machine learning.

Ses principaux concurrents sont Amazon Redshift chez AWS, et Snowflake. Et dans une moindre mesure Microsoft Azure Cosmos DB.

Voir les articles concernant Google BigQuery :

Google App Engine

Il s’agit d’une plate-forme de déploiement d’applications dans le cloud. Nous utiliserons essentiellement Google App Engine pour déployer des applications data en Python.

Avec les deux articles ci-dessous, vous pouvez avoir un exemple de la manière dont on peut utiliser Google App Engine.

  • Etape 1 : créer une application Python qui requête les APIs Google Search console et stocke les données dans Google BigQuery

Google Search Console to BigQuery avec Python

  • Etape 2 : déployer l’application dans Google App Engine, et mettre à jour périodiquement la donnée

Tutoriel : déployer une application Python avec Google App Engine

Google Cloud function

Une alternative à Google App Engine pour déployer une simple fonction dans le cloud. Utile par exemple pour requêter une API de manière périodique. Il s’agit de l’équivalent d’Amazon Lambda chez AWS.

Google Cloud Dataprep

Google Cloud Dataprep est un outil de préparation de données. Il permet à ses utilisateurs d’explorer, de préparer et de nettoyer des sources de données Google Cloud Storage et BigQuery.

C’est un outil très similaire à la fonctionnalité de “flow” de Dataïku par exemple. On peut y créer un flux de nettoyage de données, et de croisements (Join). Et explorer les données. Exemple ci-dessous :

Screenshot 2020 05 15 at 14.43.09 | Google Cloud Platform

Google Cloud Storage

Un système de stockage en ligne de fichiers, accessibles en ligne de commande.

Introduction à Google Cloud storage

Cloud Datalab

Tout simplement un notebook Jupyter dans l’environnement Google Cloud

Suivez l'actualité Data

Newsletter UnNest

Ne manquez aucun contenu : recevez chaque mois la liste des derniers articles publiés.