# Authentification à Google Cloud


In [1]:
from google.colab import auth
auth.authenticate_user()
print('Authenticated')

Authenticated


# Introduction


BigQuery est un entrepôt de données d'entreprise entièrement géré, qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que le machine learning, l'analyse géospatiale et l'informatique décisionnelle. L'architecture sans serveur de BigQuery vous permet d'utiliser des requêtes SQL pour répondre à des questions cruciales pour votre organisation, sans aucune infrastructure à gérer. Le moteur d'analyse distribué et évolutif de BigQuery vous permet d'interroger des téraoctets en quelques secondes et des pétaoctets en quelques minutes.

BigQuery optimise la flexibilité en séparant vos choix de stockage du moteur de calcul qui analyse vos données. Vous pouvez stocker et analyser vos données dans BigQuery, ou utiliser BigQuery pour évaluer leurs données là où elles résident. Les requêtes fédérées vous permettent de lire des données provenant de sources externes, tandis que la diffusion en streaming permet de mettre à jour des données en continu. Des outils puissants tels que BigQuery ML et BI Engine vous permettent d'analyser et de comprendre ces données.

Les interfaces BigQuery incluent l'interface Google Cloud Console et l'outil de ligne de commande BigQuery. Les développeurs et les data scientists peuvent utiliser des bibliothèques clientes dans les langages de programmation familiers, y compris Python, Java, JavaScript et Go, ainsi que l'API REST et l'API RPC de BigQuery, pour transformer et gérer les données. Les pilotes ODBC et JDBC permettent d'interagir avec des applications existantes, y compris des outils et des utilitaires tiers.

En tant qu'analyste de données, ingénieur de données, administrateur d'entrepôt de données ou data scientist, la documentation BigQuery ML vous aide à découvrir, mettre en œuvre et gérer des outils de données pour prendre de meilleures décisions métier.

[Vidéo d'introduction à BigQuery](https://www.youtube.com/watch?v=CFw4peH2UwU&ab_channel=GoogleCloudTech)

BigQuery s'architecture autour d'ensemble de données redondants sur plusieurs centres de donneés Google, qui permettront à l'utilisateur d'avoir toujours accès à sa donnée de n'importe quel terminal ou serveur ayant un accès à Internet. Chaque ensemble de données contient des tables oriéntées colonnes, qui sont le coeur de BigQuery. Ces tables peuvent être soit internes à BigQuery soit de différents formats externes (CSV, JSON, Parquet...). Ces formats externes bénéficieront aussi des moteurs de BigQuery pour accéder efficacement à la donnée.


Plutôt que de plagier inutilement un cours déjà bien construit dans la documentation de BigQuery, nous allons simplement nous servir de certaines parties des tutoriels offerts par Google pour l'autoformation, le tout saupoudré de quelques exercices de TP.

# 1 - Les ensembles de données

Les ensembles de données ou datasets en anglais, sont des conteneurs de niveau supérieur utilisés pour organiser et contrôler l'accès à vos tables et vues. Une table ou une vue doit appartenir à un ensemble de données. 

Dans [cette première partie](https://cloud.google.com/bigquery/docs/datasets-intro), nous introduirons le concept.

Les ensembles de données sont redondants selon des [régions](https://cloud.google.com/bigquery/docs/locations). Ces ensembles de données peuvent [être créés](https://cloud.google.com/bigquery/docs/datasets#console) de bien des manières. Mais dans ce cours, nous utiliserons simplement la console graphique BigQuery accessible à cette [URL](https://console.cloud.google.com).

## Exercice 1
Créez un ensemble de données dans la région eu-west-1 nommé "tables_tp".

## Exercice 2

Donnez accès à votre dataset au compte "dussauttho@gmail.com" en tant qu'éditeur.

Il existe d'autres manières de créer des ensembles de données que par la console et des options bien plus avancées, mais dans le cadre de ce cours, nous nous focaliserons surtout sur l'aspect "utilisateur" de BigQuery, car en tant qu'analyste financier, vous serez amenés bien plus souvent à traiter et analyser de la donnée qu'administrer une plateforme Cloud.

# 2 - Les tables

## 1 - Tables et schémas

Une table BigQuery contient des enregistrements individuels organisés en lignes. Chaque enregistrement est composé de colonnes (également appelées champs).

Chaque table est définie par un schéma qui décrit les noms de colonne, les types de données et d'autres informations. Vous pouvez spécifier le schéma d'une table lors de sa création. Vous pouvez également créer une table sans schéma et indiquer le schéma dans la tâche de requête ou la tâche de chargement. Ces tâches permettent d'insérer des données préliminaires dans le schéma.

BigQuery accepte les types de table suivants :

* Tables natives : tables sauvegardées par le stockage BigQuery natif
* Tables externes : tables sauvegardées par un stockage externe à BigQuery.

Une introduction plus complètes aux tables se trouve [ici](https://cloud.google.com/bigquery/docs/tables-intro).

Pour [créer une table](https://cloud.google.com/bigquery/docs/tables#console), BigQuery fonctionne sur un système similaire aux DataFrames Spark, il viendra inférer automatiquement les types de chacune des colonnes. Cependant, il est possible de spécifier [un schéma](https://cloud.google.com/bigquery/docs/schemas).

### Exercice 3
A partir du fichier [CSV des relevés météos](https://drive.google.com/file/d/1pJUppKbAz9pv4R1GBnXQF2v7txw7A_1F/view?usp=sharing) créez une table externe sans spécifier de schéma, nommée "weather_auto_schema".

### Exercice 4
Remplacer l'ID placeholder dans la cellule de code ci-dessous par le nom de votre projet, et faites une requête SQL simple pour récupérer les données du CSV ici.

In [2]:
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.weather_auto_schema LIMIT 1000

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-2099444,Rain,Light,2020-10-27 21:24:00+00:00,2020-10-27 21:51:00+00:00,US/Central,KDEC,39.8308,-88.8719,Decatur,Macon,IL,62521
1,W-2099445,Rain,Light,2020-10-29 04:54:00+00:00,2020-10-29 13:54:00+00:00,US/Central,KDEC,39.8308,-88.8719,Decatur,Macon,IL,62521
2,W-2099446,Rain,Light,2020-11-10 23:47:00+00:00,2020-11-11 00:54:00+00:00,US/Central,KDEC,39.8308,-88.8719,Decatur,Macon,IL,62521
3,W-2099447,Rain,Light,2020-11-11 01:54:00+00:00,2020-11-11 04:44:00+00:00,US/Central,KDEC,39.8308,-88.8719,Decatur,Macon,IL,62521
4,W-2099448,Fog,Severe,2020-11-12 08:27:00+00:00,2020-11-12 08:47:00+00:00,US/Central,KDEC,39.8308,-88.8719,Decatur,Macon,IL,62521
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,W-2100439,Rain,Moderate,2017-05-23 23:28:00+00:00,2017-05-23 23:53:00+00:00,US/Eastern,KILM,34.2706,-77.9026,Wilmington,New Hanover,NC,28405
996,W-2100440,Rain,Light,2017-05-24 01:53:00+00:00,2017-05-24 03:53:00+00:00,US/Eastern,KILM,34.2706,-77.9026,Wilmington,New Hanover,NC,28405
997,W-2100441,Rain,Light,2017-05-24 07:53:00+00:00,2017-05-24 08:07:00+00:00,US/Eastern,KILM,34.2706,-77.9026,Wilmington,New Hanover,NC,28405
998,W-2100442,Rain,Light,2017-05-24 11:53:00+00:00,2017-05-24 12:06:00+00:00,US/Eastern,KILM,34.2706,-77.9026,Wilmington,New Hanover,NC,28405


### Exercice 5
Créez un schéma JSON adéquat pour le CSV des relevés météos, et copiez-collez le dans la cellule de code ci-dessous.

In [3]:
schema_ex5 = [
 {
   "description": "Id de l'event",
   "name": "EventId",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Type de temps",
   "name": "Type",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Sévérité du temps",
   "name": "Severity",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Heure de départ",
   "name": "StartTime_UTC_",
   "type": "TIMESTAMP",
   "mode": "Nullable"
 },
 {
   "description": "Heure de fin",
   "name": "EndTime_UTC_",
   "type": "TIMESTAMP",
   "mode": "Nullable"
 },
 {
   "description": "Zone géographique",
   "name": "TimeZone",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Code de l'aéroport",
   "name": "AirportCode",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Latitude",
   "name": "LocationLat",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "Longitude",
   "name": "LocationLng",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "Ville",
   "name": "City",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Comté",
   "name": "County",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Etat",
   "name": "State",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Code postal",
   "name": "ZipCode",
   "type": "INTEGER",
   "mode": "Nullable"
 }
]

### Exercice 6
A partir de ce schéma JSON, créez une seconde table, native cette fois, en spécifiant ce schéma, nommée "weather_data". Puis, à l'image de l'exercice 4, faites une requête SQL simple pour récupérer les données ici.

In [4]:
# Ne pas oublier d'ignorer la première ligne dans l'importation, qui correspond aux noms des colonnes
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.weather_data LIMIT 1000

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-127441,Precipitation,UNK,2016-04-21 23:53:00+00:00,2016-04-22 00:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
1,W-128103,Precipitation,UNK,2017-06-18 07:46:00+00:00,2017-06-18 08:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
2,W-128180,Precipitation,UNK,2017-08-05 22:53:00+00:00,2017-08-05 23:49:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
3,W-128224,Precipitation,UNK,2017-08-17 05:53:00+00:00,2017-08-17 06:17:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
4,W-128274,Precipitation,UNK,2017-09-20 09:53:00+00:00,2017-09-20 10:01:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,W-128762,Rain,Light,2018-08-31 03:53:00+00:00,2018-08-31 04:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
996,W-128763,Rain,Light,2018-08-31 08:22:00+00:00,2018-08-31 09:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
997,W-128764,Rain,Light,2018-09-01 04:53:00+00:00,2018-09-01 05:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
998,W-128765,Rain,Light,2018-09-02 14:37:00+00:00,2018-09-02 16:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429


## 2 - Champs répétés et imbriqués

Comme en Spark, il est possible que des données possèdent des champs sous forme de listes ou de dictionnaires, qu'on nomme respectivement [champs répétés et champs imbriqués](https://cloud.google.com/bigquery/docs/nested-repeated).

### Exercices 7 et 8

Créez une table "exo7_notes_eleves" qui contiendra les champs suivants :    


*   Un champ imbriqué nommé "eleve" avec un sous-champ "nom", "prenom", "adresse" sous forme de strings.
*   Un champ répété nommé "note" qui contiendra des notes sous forme de nombres rééls.

Copiez-collez le schéma JSON dans le bloc ci-dessous.

Pour les données, créez un fichier JSON multilignes pour y intégrer les données, comme dans [cette documentation](https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-json#loading_nested_and_repeated_json_data)




In [5]:
[
 {
   "description": "Informations de l'élève",
   "name": "eleve",
   "type": "RECORD",
   "mode": "Nullable",
   "fields": [
              {
                  "name": "nom",
                  "type": "STRING",
                  "mode": "NULLABLE"
              },
              {
                  "name": "prenom",
                  "type": "STRING",
                  "mode": "NULLABLE"
              },
              {
                  "name": "adresse",
                  "type": "STRING",
                  "mode": "NULLABLE"
              }
            ]
 },
 {
   "description": "Notes",
   "name": "notes",
   "type": "RECORD",
   "mode": "REPEATED",
   "fields": [
              {
                  "name": "note",
                  "type": "FLOAT",
                  "mode": "NULLABLE"
              }
            ]
 }
]

[{'description': "Informations de l'élève",
  'fields': [{'mode': 'NULLABLE', 'name': 'nom', 'type': 'STRING'},
   {'mode': 'NULLABLE', 'name': 'prenom', 'type': 'STRING'},
   {'mode': 'NULLABLE', 'name': 'adresse', 'type': 'STRING'}],
  'mode': 'Nullable',
  'name': 'eleve',
  'type': 'RECORD'},
 {'description': 'Notes',
  'fields': [{'mode': 'NULLABLE', 'name': 'note', 'type': 'FLOAT'}],
  'mode': 'REPEATED',
  'name': 'notes',
  'type': 'RECORD'}]

### Exercice 9
Sélectionnez toutes les données de la table des exercices 7 et 8 ci-dessous.

In [6]:
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.exo7_notes_eleves

Unnamed: 0,eleve,notes
0,"{'nom': 'Dupont', 'prenom': 'Jean', 'adresse':...","[{'note': 12.0}, {'note': 13.0}, {'note': 14.0}]"
1,"{'nom': 'Dubosc', 'prenom': 'Pierre', 'adresse...","[{'note': 15.0}, {'note': 16.0}, {'note': 17.0}]"
2,"{'nom': 'Pierre', 'prenom': 'Jacques', 'adress...","[{'note': 18.0}, {'note': 19.0}, {'note': 20.0}]"
3,"{'nom': 'Larue', 'prenom': 'Charles', 'adresse...","[{'note': 10.0}, {'note': 11.0}, {'note': 12.0}]"


## 3 - Tables partitionnées et clustering

Pour optimiser l'accès aux données, BigQuery propose des options de [partionnement](https://cloud.google.com/bigquery/docs/creating-partitioned-tables) des tables, qui permettent de ne pas avoir à interroger l'intégralité d'une table lorsqu'une requête SQL est effectuée dessus.

Une table partitonnée le sera suivant un indice ordonné, le plus souvent une date et exigera (en pratique ce n'est pas obligatoire mais vivement conseillé), une clause "WHERE" à la requête, pour interroger un nombre limité de partitions.

De la même manière, pour faciliter l'accès à la donnée, il est possible de donner à BigQuery des paramètres de [clustering](https://cloud.google.com/bigquery/docs/clustered-tables) qui permettront de "trier" l'accès à la donnée suivant jusqu'à quatre variables, afin de les requêter de manière plus optimisée.

Notez que là où le partitionnement réduira la quantité de données analysées lors d'une requête drastiquement, selon la finesse du partitionnement, le clustering quant à lui, ne donnera qu'une indication au moteur de BigQuery pour optimiser le calcul mais n'impactera pas le volume de données. En pratique, le clustering ne fera pas de gain significatif de performances si le volume à traiter est inférieur au Go.

### Exercice 10

Créez une table partitionnée vide nommée "weather_part" reprenant le schéma créé plus haut, et partionnée par mois selon la date de début. Définissez le clustering suivant, dans l'ordre, la ville, le comté puis la date de début.

# 3 - Accéder à la donnée en Python via Pandas

L'une des méthodes les plus simples d'accéder en lecture ou en écriture à de la donnée stockée sur BigQuery via Python est d'utiliser [l'API BigQuery de Pandas](https://cloud.google.com/bigquery/docs/pandas-gbq-migration), notamment via les méthodes [`read_gbq`](https://pandas.pydata.org/docs/reference/api/pandas.read_gbq.html) et [`to_gbq`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_gbq.html).

### Exercice 11

Lisez le fichier `/content/sample_data/california_housing_train.csv` avec Pandas et exportez le vers une table BigQuery.

In [7]:
import pandas as pd
data = pd.read_csv("/content/sample_data/california_housing_train.csv").sample(frac=10, replace=True)
data

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
7802,-118.39,34.07,45.0,3143.0,553.0,1153.0,564.0,5.7762,500001.0
5670,-118.18,33.85,30.0,2548.0,717.0,2086.0,700.0,0.7007,134400.0
11418,-121.23,37.95,36.0,811.0,168.0,514.0,152.0,2.6250,89200.0
12787,-121.80,37.34,25.0,1642.0,297.0,1146.0,279.0,5.2088,231400.0
5288,-118.14,33.91,32.0,1981.0,472.0,1371.0,431.0,3.1204,204200.0
...,...,...,...,...,...,...,...,...,...
15098,-122.26,38.16,23.0,2840.0,491.0,1586.0,466.0,4.0337,130400.0
7798,-118.39,34.09,27.0,4312.0,1214.0,1634.0,1097.0,3.6207,362500.0
12855,-121.82,37.37,41.0,1558.0,281.0,970.0,304.0,4.4167,215200.0
6880,-118.30,33.83,33.0,2716.0,660.0,1807.0,661.0,3.5473,226300.0


In [8]:
schema = [
 {
   "description": "",
   "name": "longitude",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "latitude",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "housing_median_age",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "total_rooms",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "total_bedrooms",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "population",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "households",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "median_income",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "median_house_value",
   "type": "FLOAT",
   "mode": "Nullable"
 }
]
data.to_gbq("tables_tp_labat.california_housing_train", project_id="big-data-fintech-labat", if_exists="replace", table_schema = schema)

1it [00:25, 25.74s/it]


### Exercice 12
Récupérez le contenu de la table ainsi créée via la fonction `read_gbq`.

In [9]:
query = "SELECT * FROM tables_tp_labat.california_housing_train"
data_recuperee = pd.read_gbq(query, project_id="big-data-fintech-labat")
data_recuperee

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
1,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
2,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
3,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
4,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
...,...,...,...,...,...,...,...,...,...
169995,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169996,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169997,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169998,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0


### Exercice 13
Récupérez une Pandas Series qui correspondra à la différence entre le revenu median d'une municipalité avec le revenu médian californien, via un appel à la table BigQuery.

In [10]:
# Afin de pouvoir vérifier les résultats de la requête suivante, on effectue d'abord les calculs de différence en numpy
# Dans la cellule suivante, il y a l'exécution demandée
import numpy
query = "SELECT median_income FROM tables_tp_labat.california_housing_train"
data_recuperee_diff = pd.read_gbq(query, project_id="big-data-fintech-labat").to_numpy()
print("Donnée récupérée : ", data_recuperee_diff)
mediane = numpy.median(data_recuperee_diff)
print("Médiane : ", mediane)
res = data_recuperee_diff-mediane
print("Résultat  : ",res)
print("max :", numpy.amax(res))
print("somme", numpy.sum(res))

Donnée récupérée :  [[2.375 ]
 [2.375 ]
 [2.375 ]
 ...
 [2.7367]
 [2.7367]
 [2.7367]]
Médiane :  3.55
Résultat  :  [[-1.175 ]
 [-1.175 ]
 [-1.175 ]
 ...
 [-0.8133]
 [-0.8133]
 [-0.8133]]
max : 11.450099999999999
somme 57507.55820000001


In [12]:
query_diff = """SELECT vals.median_income - PERCENTILE_CONT(vals.median_income, 0.5) OVER() 
FROM tables_tp_labat.california_housing_train AS vals
"""
data_recuperee_diff = pd.read_gbq(query_diff, project_id="big-data-fintech-labat")
print("Résultat : ",data_recuperee_diff)
print("max :", data_recuperee_diff.max())
total = data_recuperee_diff.sum()
print("somme : ", total)

Résultat :              f0_
0       -3.0501
1       -2.8540
2       -2.8475
3       -2.7271
4       -2.7212
...         ...
169995   7.7676
169996   7.9037
169997   8.5433
169998   9.8170
169999  11.3509

[170000 rows x 1 columns]
max : f0_    11.4501
dtype: float64
somme :  f0_    57507.5582
dtype: float64


L'option `if_exists` définie à `append` de la fonction `to_gbq` permet d'éviter de supprimer et recréer une table sur BigQuery, mais utilisera la très coûteuse opération "INSERT" de BigQuery qui permet d'insérer de nouvelles lignes à une table existante.

# 4 - Accéder à BigQuery via l'API Python officielle

Si Pandas permet de simplifier les interactions avec BigQuery en utilisant une bibilothèque unique pour manipuler des jeux de données, Google fournit une manière plus officielle d'interagir avec BigQuery en Python. Cette bibliothèque Python est incluse dans le SDK Python de la suite Google Cloud.

Le package BigQuery s'importe alors de cette manière :

In [13]:
from google.cloud import bigquery

Ces documentations sur [les schémas](https://cloud.google.com/bigquery/docs/schemas#manually_specifying_schemas) et [la création de tables](https://cloud.google.com/bigquery/docs/tables#python) décrivent comment créer une table en Python via la bibliothèque officielle. Ce [paragraphe](https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv#loading_csv_data_into_a_table) explique aussi comment charger un CSV dans une table avec cette API.

De manière analogue à la fonction `load_table_from_uri` dans l'exemple de la documentation Google qui permet de lire un fichier provenant du service de stockage Google Cloud Storage, vous pouvez faire usage de la fonction [`load_table_from_file`](https://googleapis.dev/python/bigquery/latest/generated/google.cloud.bigquery.client.Client.html#google.cloud.bigquery.client.Client.load_table_from_file) qui permet de charger un fichier local.

In [14]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [15]:
# Laissez ce chemin d'accès en commentaires et écrivez en un nouveau en dessous
csv_weather_path = "/content/drive/MyDrive/Cours BigData Fintech/Datasets/WeatherEvents_Jan2016-Dec2020.csv"
csv_weather_path = "/content/drive/MyDrive/WeatherEvents_Jan2016-Dec2020.csv"


### Exercice 14
Créez une table vide similaire à l'exercice 10, sans le partitionnement, avec le contenu du fichier CSV weather_events.

De manière analogue à `load_table_from_uri` ou `load_table_from_file`, exportrez un DataFrame Pandas vers une table via la fonction [`load_table_from_dataframe`](https://cloud.google.com/bigquery/docs/samples/bigquery-load-table-dataframe).

In [16]:
# Construct a BigQuery client object.
client = bigquery.Client(project="big-data-fintech-labat")

In [17]:
import pandas as pd
import datetime
dataframe = pd.read_csv(csv_weather_path)
dataframe = dataframe.astype({'EventId':'string', 'Type':'string', 'Severity':'string', 'StartTime(UTC)':'string', 'EndTime(UTC)':'string'})
dataframe = dataframe.astype({'TimeZone':'string', 'AirportCode':'string', 'City':'string', 'County':'string', 'State':'string'})

dataframe['StartTime(UTC)'] = pd.to_datetime(dataframe['StartTime(UTC)'].astype(str), format='%Y-%m-%d %H:%M:%S')
dataframe['EndTime(UTC)'] = pd.to_datetime(dataframe['EndTime(UTC)'].astype(str), format='%Y-%m-%d %H:%M:%S')

dataframe = dataframe.rename({'StartTime(UTC)': 'StartTime_UTC_', 'EndTime(UTC)': 'EndTime_UTC_'}, axis='columns')
dataframe.dtypes

EventId                   string
Type                      string
Severity                  string
StartTime_UTC_    datetime64[ns]
EndTime_UTC_      datetime64[ns]
TimeZone                  string
AirportCode               string
LocationLat              float64
LocationLng              float64
City                      string
County                    string
State                     string
ZipCode                  float64
dtype: object

In [18]:
table_id = "tables_tp_labat.weather_non_partitionnee"

job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("EventId", "STRING"),
        bigquery.SchemaField("Type", "STRING"),
        bigquery.SchemaField("Severity", "STRING"),
        bigquery.SchemaField("StartTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("EndTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("TimeZone", "STRING"),
        bigquery.SchemaField("AirportCode", "STRING"),
        bigquery.SchemaField("LocationLat", "FLOAT"),
        bigquery.SchemaField("LocationLng", "FLOAT"),
        bigquery.SchemaField("City", "STRING"),
        bigquery.SchemaField("County", "STRING"),
        bigquery.SchemaField("State", "STRING"),
        bigquery.SchemaField("ZipCode", "INTEGER"),
    ],
    write_disposition='WRITE_APPEND'
)


#with open(csv_weather_path, 'rb') as mon_fichier:
load_job = client.load_table_from_dataframe(
  dataframe,
  table_id,
  job_config=job_config
)

load_job.result()  # Wait for the job to complete.

table = client.get_table(table_id)
print("Loaded {} rows to table {}".format(table.num_rows, table_id))

Loaded 12548412 rows to table tables_tp_labat.weather_non_partitionnee


### Exercice 15
Récupérez les données du mois de décembre 2018 et de janvier 2019 puis aggrégez-les dans un DataFrame unique. Exportez le tout dans une table BigQuery nommée "weather_data_dec_2018_jan_2019"

In [19]:
query = """
    SELECT *
    FROM tables_tp_labat.weather_non_partitionnee
    WHERE StartTime_UTC_ BETWEEN '2018-12-01' AND '2019-01-31'
    ORDER BY StartTime_UTC_
"""

dataframe_ex15 = (
    client.query(query)
    .result()
    .to_dataframe()
)

dataframe_ex15

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-3043737,Rain,Light,2018-12-01 00:00:00+00:00,2018-12-01 00:53:00+00:00,US/Central,KHSV,34.6439,-86.7861,Madison,Madison,AL,35756.0
1,W-6206197,Rain,Light,2018-12-01 00:00:00+00:00,2018-12-01 00:53:00+00:00,US/Central,K3A1,34.2687,-86.8580,Vinemont,Cullman,AL,35179.0
2,W-6128221,Fog,Severe,2018-12-01 00:00:00+00:00,2018-12-01 09:40:00+00:00,US/Mountain,KBPP,46.1870,-103.4281,Bowman,Bowman,ND,58623.0
3,W-6085181,Fog,Severe,2018-12-01 00:00:00+00:00,2018-12-01 09:40:00+00:00,US/Mountain,KY22,45.9167,-102.1667,Lemmon,Perkins,SD,57638.0
4,W-3043737,Rain,Light,2018-12-01 00:00:00+00:00,2018-12-01 00:53:00+00:00,US/Central,KHSV,34.6439,-86.7861,Madison,Madison,AL,35756.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
503313,W-5042929,Fog,Severe,2019-01-30 23:59:00+00:00,2019-01-31 00:17:00+00:00,US/Eastern,KHIE,44.3659,-71.5522,Whitefield,Coos,NH,3598.0
503314,W-4019504,Cold,Severe,2019-01-31 00:00:00+00:00,2019-01-31 01:00:00+00:00,US/Eastern,KEDJ,40.3723,-83.8192,Bellefontaine,Logan,OH,43311.0
503315,W-4790448,Fog,Moderate,2019-01-31 00:00:00+00:00,2019-01-31 00:53:00+00:00,US/Pacific,KSFF,47.6828,-117.3226,Spokane,Spokane,WA,99212.0
503316,W-4019504,Cold,Severe,2019-01-31 00:00:00+00:00,2019-01-31 01:00:00+00:00,US/Eastern,KEDJ,40.3723,-83.8192,Bellefontaine,Logan,OH,43311.0


In [20]:
table_id = "tables_tp_labat.weather_data_dec_2018_jan_2019"

job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("EventId", "STRING"),
        bigquery.SchemaField("Type", "STRING"),
        bigquery.SchemaField("Severity", "STRING"),
        bigquery.SchemaField("StartTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("EndTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("TimeZone", "STRING"),
        bigquery.SchemaField("AirportCode", "STRING"),
        bigquery.SchemaField("LocationLat", "FLOAT"),
        bigquery.SchemaField("LocationLng", "FLOAT"),
        bigquery.SchemaField("City", "STRING"),
        bigquery.SchemaField("County", "STRING"),
        bigquery.SchemaField("State", "STRING"),
        bigquery.SchemaField("ZipCode", "INTEGER"),
    ],
    write_disposition='WRITE_APPEND'
)

load_job = client.load_table_from_dataframe(
  dataframe_ex15,
  table_id,
  job_config=job_config
)

load_job.result()  # Wait for the job to complete.

table = client.get_table(table_id)
print("Loaded {} rows to table {}".format(table.num_rows, table_id))

Loaded 754977 rows to table tables_tp_labat.weather_data_dec_2018_jan_2019


### Exercice 16
En tirant profit des [fonctions de date](https://cloud.google.com/bigquery/docs/reference/standard-sql/datetime_functions) et des [expressions conditionnelles](https://cloud.google.com/bigquery/docs/reference/standard-sql/conditional_expressions) de BigQuery, écrasez les résultats de la table de l'exercice 15, en rajoutant une colonne "saison" :     
* "Winter" si la StartTime(UTC) est entre le 21 décembre et le 20 mars
* "Spring" si la StartTime(UTC) est entre le 21 mars et le 20 juin
* "Summer" si la StartTime(UTC) est entre le 21 juin et le 22 septembre
* "Fall" si la StartTime(UTC) est entre le 23 septembre et le 20 décembre

In [21]:
query_ex16 = """
    SELECT *,
      CASE
          WHEN (EXTRACT(MONTH FROM StartTime_UTC_) = 1)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 2)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 3 AND EXTRACT(DAY FROM StartTime_UTC_) <= 20)
          THEN 'Winter'
          WHEN (EXTRACT(MONTH FROM StartTime_UTC_) = 3 AND EXTRACT(DAY FROM StartTime_UTC_) >= 21)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 4)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 5)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 6 AND EXTRACT(DAY FROM StartTime_UTC_) <= 20)
          THEN 'Spring'
          WHEN (EXTRACT(MONTH FROM StartTime_UTC_) = 6 AND EXTRACT(DAY FROM StartTime_UTC_) >= 21)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 7)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 8)
              OR (EXTRACT(MONTH FROM StartTime_UTC_) = 9 AND EXTRACT(DAY FROM StartTime_UTC_) <= 22)
          THEN 'Summer'
          ELSE 'Fall'
        END
        AS saison
    FROM `big-data-fintech-labat.tables_tp_labat.weather_non_partitionnee`
    WHERE StartTime_UTC_ BETWEEN '2018-12-01' AND '2019-01-31'
"""

dataframe_ex16 = (
    client.query(query_ex16)
    .result()
    .to_dataframe()
)

dataframe_ex16

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode,saison
0,W-4770950,Hail,Other,2018-12-24 16:08:00+00:00,2018-12-24 16:17:00+00:00,US/Eastern,KDOV,39.1295,-75.4660,Dover AFB,Kent,DE,19902.0,Fall
1,W-4771010,Hail,Other,2019-01-09 19:53:00+00:00,2019-01-09 20:00:00+00:00,US/Eastern,KDOV,39.1295,-75.4660,Dover AFB,Kent,DE,19902.0,Winter
2,W-5091621,Hail,Other,2018-12-16 13:27:00+00:00,2018-12-16 13:51:00+00:00,US/Eastern,KPVD,41.7225,-71.4325,Warwick,Kent,RI,2886.0,Fall
3,W-51694,Fog,Severe,2018-12-02 18:01:00+00:00,2018-12-02 18:16:00+00:00,US/Eastern,KWST,41.3509,-71.8054,Westerly,Washington,RI,2891.0,Fall
4,W-51696,Fog,Severe,2018-12-02 19:45:00+00:00,2018-12-03 02:53:00+00:00,US/Eastern,KWST,41.3509,-71.8054,Westerly,Washington,RI,2891.0,Fall
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
503313,W-6273520,Storm,Severe,2019-01-27 05:10:00+00:00,2019-01-27 05:35:00+00:00,US/Mountain,KARL,41.6000,-106.2100,Rock River,Carbon,WY,82083.0,Winter
503314,W-6273521,Storm,Severe,2019-01-27 13:30:00+00:00,2019-01-27 16:10:00+00:00,US/Mountain,KARL,41.6000,-106.2100,Rock River,Carbon,WY,82083.0,Winter
503315,W-6273522,Storm,Severe,2019-01-27 19:50:00+00:00,2019-01-27 20:15:00+00:00,US/Mountain,KARL,41.6000,-106.2100,Rock River,Carbon,WY,82083.0,Winter
503316,W-6273523,Storm,Severe,2019-01-27 21:35:00+00:00,2019-01-27 22:15:00+00:00,US/Mountain,KARL,41.6000,-106.2100,Rock River,Carbon,WY,82083.0,Winter


In [22]:
table_id = "tables_tp_labat.weather_data_dec_2018_jan_2019"

job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("EventId", "STRING"),
        bigquery.SchemaField("Type", "STRING"),
        bigquery.SchemaField("Severity", "STRING"),
        bigquery.SchemaField("StartTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("EndTime_UTC_", "TIMESTAMP"),
        bigquery.SchemaField("TimeZone", "STRING"),
        bigquery.SchemaField("AirportCode", "STRING"),
        bigquery.SchemaField("LocationLat", "FLOAT"),
        bigquery.SchemaField("LocationLng", "FLOAT"),
        bigquery.SchemaField("City", "STRING"),
        bigquery.SchemaField("County", "STRING"),
        bigquery.SchemaField("State", "STRING"),
        bigquery.SchemaField("ZipCode", "INTEGER"),
        bigquery.SchemaField("saison", "STRING"),
    ],
    write_disposition='WRITE_TRUNCATE'
)

load_job = client.load_table_from_dataframe(
  dataframe_ex16,
  table_id,
  job_config=job_config
)

load_job.result()  # Wait for the job to complete.

table = client.get_table(table_id)
print("Loaded {} rows to table {}".format(table.num_rows, table_id))

Loaded 503318 rows to table tables_tp_labat.weather_data_dec_2018_jan_2019


## Exercice 17 

Créez une nouvelle table "california_official_api" où vous exporterez le CSV california_housing_train vers BigQuery, en utilisant l'API Python officielle.

In [23]:
table_id = "tables_tp_labat.california_official_api"

job_config = bigquery.LoadJobConfig(
    schema=[
        bigquery.SchemaField("longitude", "FLOAT"),
        bigquery.SchemaField("latitude", "FLOAT"),
        bigquery.SchemaField("housing_median_age", "FLOAT"),
        bigquery.SchemaField("total_rooms", "FLOAT"),
        bigquery.SchemaField("total_bedrooms", "FLOAT"),
        bigquery.SchemaField("population", "FLOAT"),
        bigquery.SchemaField("households", "FLOAT"),
        bigquery.SchemaField("median_income", "FLOAT"),
        bigquery.SchemaField("median_house_value", "FLOAT"),
    ],
    skip_leading_rows=1,
    # The source format defaults to CSV, so the line below is optional.
    source_format=bigquery.SourceFormat.CSV,
    write_disposition='WRITE_APPEND'
)

#uri = "gs://cloud-samples-data/bigquery/us-states/us-states.csv"

with open("/content/sample_data/california_housing_train.csv", 'rb') as mon_fichier:
  load_job = client.load_table_from_file(
      mon_fichier,
      table_id,
      job_config=job_config
  )

#load_job = client.load_table_from_uri(
#    uri, table_id, job_config=job_config
#)  # Make an API request.

load_job.result()  # Waits for the job to complete.

destination_table = client.get_table(table_id)  # Make an API request.
print("Loaded {} rows.".format(destination_table.num_rows))

Loaded 51000 rows.


Contrairement à la fonction `read_gbq` de Pandas qui lit exécute une requête SQL adressée à BigQuery et stocke le résultat dans un DataFrame, BigQuery tentera toujours de minimiser l'usage de la machine client et maximisera l'usage de la donnée, côté serveur.

Pour cela, BigQuery utilise un principe de [requêtes interactives](https://cloud.google.com/bigquery/docs/running-queries#python). En Python, lorsque vous exécuterez une requête, la bibliothèque BigQuery vous retournera un générateur de lignes. En "coulisses", ce générateur n'est en réalité qu'une suite de requêtes HTTP préparées qui permettront de récupérer, ligne par ligne, le résultat de la requête.

Si vous souhaitez récupérer une requête par lot, afin d'accélerer le traitement de la requête et accéder à une partie de la donnée dès lors qu'elle est prête, Google BigQuery permet d'exécuter des requêtes [asynchrones](https://cloud.google.com/bigquery/docs/running-queries#batch). En programmation asynchrone, une tâche est lancée mais le reste de l'exécution de l'algorithme continue avant que celle-ci soit terminée. Ainsi, comme montré dans l'exemple, il faut vérifier le statut de la requête avant de pouvoir accéder au contenu de son résultat.



## Exercice 18

Lisez le contenu, ligne par ligne de la table créée dans l'exercice 17, où la latitude est inférieure à 34 et où la population est inférieure à 1000 (milliers d'habitants).

In [24]:
query = """
    SELECT *
    FROM tables_tp_labat.california_official_api
    WHERE latitude < 34 AND population < 1000
    LIMIT 20
"""
query_job = client.query(query)  # Make an API request.

print("The query data:")
for row in query_job:
    # Row values can be accessed by field name or index.
    chaine = ""
    # Parcours des colonnes de chaque row
    for i in range(len(row)):
      chaine += query_job._query_results._properties['schema']['fields'][i]['name'] + " : " + str(row[i]) + " ; "
    print(chaine)

The query data:
longitude : -115.8 ; latitude : 33.26 ; housing_median_age : 2.0 ; total_rooms : 96.0 ; total_bedrooms : 18.0 ; population : 30.0 ; households : 16.0 ; median_income : 5.3374 ; median_house_value : 47500.0 ; 
longitude : -117.65 ; latitude : 33.58 ; housing_median_age : 2.0 ; total_rooms : 2411.0 ; total_bedrooms : 354.0 ; population : 703.0 ; households : 217.0 ; median_income : 7.8061 ; median_house_value : 331400.0 ; 
longitude : -117.7 ; latitude : 33.56 ; housing_median_age : 2.0 ; total_rooms : 2112.0 ; total_bedrooms : 305.0 ; population : 703.0 ; households : 261.0 ; median_income : 6.9343 ; median_house_value : 298500.0 ; 
longitude : -116.26 ; latitude : 33.65 ; housing_median_age : 3.0 ; total_rooms : 7437.0 ; total_bedrooms : 1222.0 ; population : 574.0 ; households : 302.0 ; median_income : 10.2948 ; median_house_value : 382400.0 ; 
longitude : -117.59 ; latitude : 33.61 ; housing_median_age : 3.0 ; total_rooms : 2993.0 ; total_bedrooms : 429.0 ; population

## Exercice 19

Réalisez le même exercice que l'exercice 18, en utilisant le principe des requêtes par lot.


In [25]:
job_config = bigquery.QueryJobConfig(
    # Run at batch priority, which won't count toward concurrent rate limit.
    priority=bigquery.QueryPriority.BATCH
)

sql = """
    SELECT *
    FROM tables_tp_labat.california_official_api
    WHERE latitude < 34 AND population < 1000
    LIMIT 20
"""

# Start the query, passing in the extra configuration.
query_job = client.query(sql, job_config=job_config)  # Make an API request.

while(query_job.state != "DONE"):
  # Check on the progress by getting the job's updated state. Once the state
  # is `DONE`, the results are ready.
  query_job = client.get_job(
      query_job.job_id, location=query_job.location
  )  # Make an API request.

print("Job {} is currently in state {}".format(query_job.job_id, query_job.state))

print("The query data:")
for row in query_job:
    # Row values can be accessed by field name or index.
    chaine = ""
    # Parcours des colonnes de chaque row
    for i in range(len(row)):
      chaine += query_job._query_results._properties['schema']['fields'][i]['name'] + " : " + str(row[i]) + " ; "
    print(chaine)

Job 79680ce3-ada1-4522-b309-7caab2f1bd87 is currently in state DONE
The query data:
longitude : -115.8 ; latitude : 33.26 ; housing_median_age : 2.0 ; total_rooms : 96.0 ; total_bedrooms : 18.0 ; population : 30.0 ; households : 16.0 ; median_income : 5.3374 ; median_house_value : 47500.0 ; 
longitude : -117.65 ; latitude : 33.58 ; housing_median_age : 2.0 ; total_rooms : 2411.0 ; total_bedrooms : 354.0 ; population : 703.0 ; households : 217.0 ; median_income : 7.8061 ; median_house_value : 331400.0 ; 
longitude : -117.7 ; latitude : 33.56 ; housing_median_age : 2.0 ; total_rooms : 2112.0 ; total_bedrooms : 305.0 ; population : 703.0 ; households : 261.0 ; median_income : 6.9343 ; median_house_value : 298500.0 ; 
longitude : -116.26 ; latitude : 33.65 ; housing_median_age : 3.0 ; total_rooms : 7437.0 ; total_bedrooms : 1222.0 ; population : 574.0 ; households : 302.0 ; median_income : 10.2948 ; median_house_value : 382400.0 ; 
longitude : -117.59 ; latitude : 33.61 ; housing_median_ag