# Authentification à Google Cloud


In [None]:
from google.colab import auth
auth.authenticate_user()
print('Authenticated')

Authenticated


# Introduction


BigQuery est un entrepôt de données d'entreprise entièrement géré, qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que le machine learning, l'analyse géospatiale et l'informatique décisionnelle. L'architecture sans serveur de BigQuery vous permet d'utiliser des requêtes SQL pour répondre à des questions cruciales pour votre organisation, sans aucune infrastructure à gérer. Le moteur d'analyse distribué et évolutif de BigQuery vous permet d'interroger des téraoctets en quelques secondes et des pétaoctets en quelques minutes.

BigQuery optimise la flexibilité en séparant vos choix de stockage du moteur de calcul qui analyse vos données. Vous pouvez stocker et analyser vos données dans BigQuery, ou utiliser BigQuery pour évaluer leurs données là où elles résident. Les requêtes fédérées vous permettent de lire des données provenant de sources externes, tandis que la diffusion en streaming permet de mettre à jour des données en continu. Des outils puissants tels que BigQuery ML et BI Engine vous permettent d'analyser et de comprendre ces données.

Les interfaces BigQuery incluent l'interface Google Cloud Console et l'outil de ligne de commande BigQuery. Les développeurs et les data scientists peuvent utiliser des bibliothèques clientes dans les langages de programmation familiers, y compris Python, Java, JavaScript et Go, ainsi que l'API REST et l'API RPC de BigQuery, pour transformer et gérer les données. Les pilotes ODBC et JDBC permettent d'interagir avec des applications existantes, y compris des outils et des utilitaires tiers.

En tant qu'analyste de données, ingénieur de données, administrateur d'entrepôt de données ou data scientist, la documentation BigQuery ML vous aide à découvrir, mettre en œuvre et gérer des outils de données pour prendre de meilleures décisions métier.

[Vidéo d'introduction à BigQuery](https://www.youtube.com/watch?v=CFw4peH2UwU&ab_channel=GoogleCloudTech)

BigQuery s'architecture autour d'ensemble de données redondants sur plusieurs centres de donneés Google, qui permettront à l'utilisateur d'avoir toujours accès à sa donnée de n'importe quel terminal ou serveur ayant un accès à Internet. Chaque ensemble de données contient des tables oriéntées colonnes, qui sont le coeur de BigQuery. Ces tables peuvent être soit internes à BigQuery soit de différents formats externes (CSV, JSON, Parquet...). Ces formats externes bénéficieront aussi des moteurs de BigQuery pour accéder efficacement à la donnée.


Plutôt que de plagier inutilement un cours déjà bien construit dans la documentation de BigQuery, nous allons simplement nous servir de certaines parties des tutoriels offerts par Google pour l'autoformation, le tout saupoudré de quelques exercices de TP.

# 1 - Les ensembles de données

Les ensembles de données ou datasets en anglais, sont des conteneurs de niveau supérieur utilisés pour organiser et contrôler l'accès à vos tables et vues. Une table ou une vue doit appartenir à un ensemble de données. 

Dans [cette première partie](https://cloud.google.com/bigquery/docs/datasets-intro), nous introduirons le concept.

Les ensembles de données sont redondants selon des [régions](https://cloud.google.com/bigquery/docs/locations). Ces ensembles de données peuvent [être créés](https://cloud.google.com/bigquery/docs/datasets#console) de bien des manières. Mais dans ce cours, nous utiliserons simplement la console graphique BigQuery accessible à cette [URL](https://console.cloud.google.com).

## Exercice 1
Créez un ensemble de données dans la région eu-west-1 nommé "tables_tp".

## Exercice 2

Donnez accès à votre dataset au compte "dussauttho@gmail.com" en tant qu'éditeur.

Il existe d'autres manières de créer des ensembles de données que par la console et des options bien plus avancées, mais dans le cadre de ce cours, nous nous focaliserons surtout sur l'aspect "utilisateur" de BigQuery, car en tant qu'analyste financier, vous serez amenés bien plus souvent à traiter et analyser de la donnée qu'administrer une plateforme Cloud.

# 2 - Les tables

## 1 - Tables et schémas

Une table BigQuery contient des enregistrements individuels organisés en lignes. Chaque enregistrement est composé de colonnes (également appelées champs).

Chaque table est définie par un schéma qui décrit les noms de colonne, les types de données et d'autres informations. Vous pouvez spécifier le schéma d'une table lors de sa création. Vous pouvez également créer une table sans schéma et indiquer le schéma dans la tâche de requête ou la tâche de chargement. Ces tâches permettent d'insérer des données préliminaires dans le schéma.

BigQuery accepte les types de table suivants :

* Tables natives : tables sauvegardées par le stockage BigQuery natif
* Tables externes : tables sauvegardées par un stockage externe à BigQuery.

Une introduction plus complètes aux tables se trouve [ici](https://cloud.google.com/bigquery/docs/tables-intro).

Pour [créer une table](https://cloud.google.com/bigquery/docs/tables#console), BigQuery fonctionne sur un système similaire aux DataFrames Spark, il viendra inférer automatiquement les types de chacune des colonnes. Cependant, il est possible de spécifier [un schéma](https://cloud.google.com/bigquery/docs/schemas).

### Exercice 3
A partir du fichier [CSV des relevés météos](https://drive.google.com/file/d/1pJUppKbAz9pv4R1GBnXQF2v7txw7A_1F/view?usp=sharing) créez une table externe sans spécifier de schéma, nommée "weather_auto_schema".

### Exercice 4
Remplacer l'ID placeholder dans la cellule de code ci-dessous par le nom de votre projet, et faites une requête SQL simple pour récupérer les données du CSV ici.

In [None]:
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.weather_auto_schema LIMIT 1000

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-1,Snow,Light,2016-01-06 23:14:00+00:00,2016-01-07 00:34:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
1,W-2,Snow,Light,2016-01-07 04:14:00+00:00,2016-01-07 04:54:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
2,W-3,Snow,Light,2016-01-07 05:54:00+00:00,2016-01-07 15:34:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
3,W-4,Snow,Light,2016-01-08 05:34:00+00:00,2016-01-08 05:54:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
4,W-5,Snow,Light,2016-01-08 13:54:00+00:00,2016-01-08 15:54:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,W-996,Snow,Light,2018-02-19 20:12:00+00:00,2018-02-19 21:12:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
996,W-997,Rain,Light,2018-02-19 21:12:00+00:00,2018-02-19 21:36:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
997,W-998,Snow,Light,2018-02-19 21:36:00+00:00,2018-02-19 23:12:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149
998,W-999,Snow,Light,2018-02-19 23:36:00+00:00,2018-02-20 00:13:00+00:00,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149


### Exercice 5
Créez un schéma JSON adéquat pour le CSV des relevés météos, et copiez-collez le dans la cellule de code ci-dessous.

In [None]:
[
 {
   "description": "Id de l'event",
   "name": "EventId",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Type de temps",
   "name": "Type",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Sévérité du temps",
   "name": "Severity",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Heure de départ",
   "name": "StartTime_UTC_",
   "type": "TIMESTAMP",
   "mode": "Nullable"
 },
 {
   "description": "Heure de fin",
   "name": "EndTime_UTC_",
   "type": "TIMESTAMP",
   "mode": "Nullable"
 },
 {
   "description": "Zone géographique",
   "name": "TimeZone",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Code de l'aéroport",
   "name": "AirportCode",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Latitude",
   "name": "LocationLat",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "Longitude",
   "name": "LocationLng",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "Ville",
   "name": "City",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Comté",
   "name": "County",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Etat",
   "name": "State",
   "type": "STRING",
   "mode": "Nullable"
 },
 {
   "description": "Code postal",
   "name": "ZipCode",
   "type": "INTEGER",
   "mode": "Nullable"
 }
]

[{'description': "Id de l'event",
  'mode': 'Nullable',
  'name': 'EventId',
  'type': 'STRING'},
 {'description': 'Type de temps',
  'mode': 'Nullable',
  'name': 'Type',
  'type': 'STRING'},
 {'description': 'Sévérité du temps',
  'mode': 'Nullable',
  'name': 'Severity',
  'type': 'STRING'},
 {'description': 'Heure de départ',
  'mode': 'Nullable',
  'name': 'StartTime_UTC_',
  'type': 'TIMESTAMP'},
 {'description': 'Heure de fin',
  'mode': 'Nullable',
  'name': 'EndTime_UTC_',
  'type': 'TIMESTAMP'},
 {'description': 'Zone géographique',
  'mode': 'Nullable',
  'name': 'TimeZone',
  'type': 'STRING'},
 {'description': "Code de l'aéroport",
  'mode': 'Nullable',
  'name': 'AirportCode',
  'type': 'STRING'},
 {'description': 'Latitude',
  'mode': 'Nullable',
  'name': 'LocationLat',
  'type': 'FLOAT'},
 {'description': 'Longitude',
  'mode': 'Nullable',
  'name': 'LocationLng',
  'type': 'FLOAT'},
 {'description': 'Ville',
  'mode': 'Nullable',
  'name': 'City',
  'type': 'STRING'},

### Exercice 6
A partir de ce schéma JSON, créez une seconde table, native cette fois, en spécifiant ce schéma, nommée "weather_data". Puis, à l'image de l'exercice 4, faites une requête SQL simple pour récupérer les données ici.

In [None]:
# Ne pas oublier d'ignorer la première ligne dans l'importation, qui correspond aux noms des colonnes
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.weather_data LIMIT 1000

Unnamed: 0,EventId,Type,Severity,StartTime_UTC_,EndTime_UTC_,TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-127441,Precipitation,UNK,2016-04-21 23:53:00+00:00,2016-04-22 00:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
1,W-128103,Precipitation,UNK,2017-06-18 07:46:00+00:00,2017-06-18 08:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
2,W-128180,Precipitation,UNK,2017-08-05 22:53:00+00:00,2017-08-05 23:49:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
3,W-128224,Precipitation,UNK,2017-08-17 05:53:00+00:00,2017-08-17 06:17:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
4,W-128274,Precipitation,UNK,2017-09-20 09:53:00+00:00,2017-09-20 10:01:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,W-128762,Rain,Light,2018-08-31 03:53:00+00:00,2018-08-31 04:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
996,W-128763,Rain,Light,2018-08-31 08:22:00+00:00,2018-08-31 09:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
997,W-128764,Rain,Light,2018-09-01 04:53:00+00:00,2018-09-01 05:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429
998,W-128765,Rain,Light,2018-09-02 14:37:00+00:00,2018-09-02 16:53:00+00:00,US/Central,KMIC,45.0625,-93.3508,Minneapolis,Hennepin,MN,55429


## 2 - Champs répétés et imbriqués

Comme en Spark, il est possible que des données possèdent des champs sous forme de listes ou de dictionnaires, qu'on nomme respectivement [champs répétés et champs imbriqués](https://cloud.google.com/bigquery/docs/nested-repeated).

### Exercices 7 et 8

Créez une table "exo7_notes_eleves" qui contiendra les champs suivants :    


*   Un champ imbriqué nommé "eleve" avec un sous-champ "nom", "prenom", "adresse" sous forme de strings.
*   Un champ répété nommé "note" qui contiendra des notes sous forme de nombres rééls.

Copiez-collez le schéma JSON dans le bloc ci-dessous.

Pour les données, créez un fichier JSON multilignes pour y intégrer les données, comme dans [cette documentation](https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-json#loading_nested_and_repeated_json_data)
Envoyer un message aux participants


In [None]:
[
 {
   "description": "Informations de l'élève",
   "name": "eleve",
   "type": "RECORD",
   "mode": "Nullable",
   "fields": [
              {
                  "name": "nom",
                  "type": "STRING",
                  "mode": "NULLABLE"
              },
              {
                  "name": "prenom",
                  "type": "STRING",
                  "mode": "NULLABLE"
              },
              {
                  "name": "adresse",
                  "type": "STRING",
                  "mode": "NULLABLE"
              }
            ]
 },
 {
   "description": "Notes",
   "name": "notes",
   "type": "RECORD",
   "mode": "REPEATED",
   "fields": [
              {
                  "name": "note",
                  "type": "FLOAT",
                  "mode": "NULLABLE"
              }
            ]
 }
]

[{'description': "Informations de l'élève",
  'fields': [{'mode': 'NULLABLE', 'name': 'nom', 'type': 'STRING'},
   {'mode': 'NULLABLE', 'name': 'prenom', 'type': 'STRING'},
   {'mode': 'NULLABLE', 'name': 'adresse', 'type': 'STRING'}],
  'mode': 'Nullable',
  'name': 'eleve',
  'type': 'RECORD'},
 {'description': 'Notes',
  'fields': [{'mode': 'NULLABLE', 'name': 'note', 'type': 'FLOAT'}],
  'mode': 'REPEATED',
  'name': 'notes',
  'type': 'RECORD'}]

### Exercice 9
Sélectionnez toutes les données de la table des exercices 7 et 8 ci-dessous.

In [None]:
%%bigquery --project big-data-fintech-labat
SELECT * FROM big-data-fintech-labat.tables_tp_labat.exo7_notes_eleves

Unnamed: 0,eleve,notes
0,"{'nom': 'Dupont', 'prenom': 'Jean', 'adresse':...","[{'note': 12.0}, {'note': 13.0}, {'note': 14.0}]"
1,"{'nom': 'Dubosc', 'prenom': 'Pierre', 'adresse...","[{'note': 15.0}, {'note': 16.0}, {'note': 17.0}]"
2,"{'nom': 'Pierre', 'prenom': 'Jacques', 'adress...","[{'note': 18.0}, {'note': 19.0}, {'note': 20.0}]"
3,"{'nom': 'Larue', 'prenom': 'Charles', 'adresse...","[{'note': 10.0}, {'note': 11.0}, {'note': 12.0}]"


## 3 - Tables partitionnées et clustering

Pour optimiser l'accès aux données, BigQuery propose des options de [partionnement](https://cloud.google.com/bigquery/docs/creating-partitioned-tables) des tables, qui permettent de ne pas avoir à interroger l'intégralité d'une table lorsqu'une requête SQL est effectuée dessus.

Une table partitonnée le sera suivant un indice ordonné, le plus souvent une date et exigera (en pratique ce n'est pas obligatoire mais vivement conseillé), une clause "WHERE" à la requête, pour interroger un nombre limité de partitions.

De la même manière, pour faciliter l'accès à la donnée, il est possible de donner à BigQuery des paramètres de [clustering](https://cloud.google.com/bigquery/docs/clustered-tables) qui permettront de "trier" l'accès à la donnée suivant jusqu'à quatre variables, afin de les requêter de manière plus optimisée.

Notez que là où le partitionnement réduira la quantité de données analysées lors d'une requête drastiquement, selon la finesse du partitionnement, le clustering quant à lui, ne donnera qu'une indication au moteur de BigQuery pour optimiser le calcul mais n'impactera pas le volume de données. En pratique, le clustering ne fera pas de gain significatif de performances si le volume à traiter est inférieur au Go.

### Exercice 10

Créez une table partitionnée vide nommée "weather_part" reprenant le schéma créé plus haut, et partitionnée par mois selon la date de début. Définissez le clustering suivant, dans l'ordre, la ville, le comté puis la date de début.

# 3 - Accéder à la donnée en Python via Pandas

L'une des méthodes les plus simples d'accéder en lecture ou en écriture à de la donnée stockée sur BigQuery via Python est d'utiliser [l'API BigQuery de Pandas](https://cloud.google.com/bigquery/docs/pandas-gbq-migration), notamment via les méthodes [`read_gbq`](https://pandas.pydata.org/docs/reference/api/pandas.read_gbq.html) et [`to_gbq`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_gbq.html).

### Exercice 11

Lisez le fichier `/content/sample_data/california_housing_train.csv` avec Pandas et exportez le vers une table BigQuery.

In [None]:
import pandas as pd
data = pd.read_csv("/content/sample_data/california_housing_train.csv").sample(frac=10, replace=True)
data

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
16114,-122.46,37.76,52.0,1817.0,449.0,948.0,380.0,3.9300,390000.0
9411,-119.22,34.15,32.0,3152.0,596.0,3490.0,526.0,2.7250,450000.0
15763,-122.41,37.80,52.0,2618.0,611.0,1328.0,559.0,4.1607,350000.0
8064,-118.42,34.02,22.0,3292.0,1134.0,1655.0,898.0,3.1746,348800.0
5567,-118.17,33.88,42.0,1645.0,371.0,1161.0,351.0,3.0893,162700.0
...,...,...,...,...,...,...,...,...,...
8738,-118.59,34.23,14.0,4407.0,1209.0,2676.0,1128.0,3.4091,168800.0
3198,-117.85,34.07,32.0,761.0,101.0,295.0,95.0,11.1077,500001.0
15025,-122.25,38.10,52.0,2315.0,556.0,1113.0,486.0,2.5042,147900.0
4723,-118.08,33.96,35.0,2104.0,399.0,1659.0,387.0,4.0096,165000.0


In [None]:
schema = [
 {
   "description": "",
   "name": "longitude",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "latitude",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "housing_median_age",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "total_rooms",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "total_bedrooms",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "population",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "households",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "median_income",
   "type": "FLOAT",
   "mode": "Nullable"
 },
 {
   "description": "",
   "name": "median_house_value",
   "type": "FLOAT",
   "mode": "Nullable"
 }
]
data.to_gbq("tables_tp_labat.california_housing_train", project_id="big-data-fintech-labat", if_exists="replace", table_schema = schema)

1it [00:19, 19.95s/it]


### Exercice 12
Récupérez le contenu de la table ainsi créée via la fonction `read_gbq`.

In [None]:
query = "SELECT * FROM tables_tp_labat.california_housing_train"
data_recuperee = pd.read_gbq(query, project_id="big-data-fintech-labat")
data_recuperee

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
1,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
2,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
3,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
4,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.3750,137500.0
...,...,...,...,...,...,...,...,...,...
169995,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169996,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169997,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0
169998,-121.65,36.69,21.0,7884.0,2011.0,4907.0,1919.0,2.7367,160300.0


### Exercice 13
Récupérez une Pandas Series qui correspondra à la différence entre le revenu median d'une municipalité avec le revenu médian californien, via un appel à la table BigQuery.

In [None]:
import numpy
query = "SELECT median_income FROM tables_tp_labat.california_housing_train"
data_recuperee_diff = pd.read_gbq(query, project_id="big-data-fintech-labat").to_numpy()
print(data_recuperee_diff)
mediane = numpy.median(data_recuperee_diff)
print("médiane : ", mediane)
res = data_recuperee_diff-mediane
print(res)
print("max :", numpy.amax(res))
print("somme", numpy.sum(res))

[[2.375 ]
 [2.375 ]
 [2.375 ]
 ...
 [2.7367]
 [2.7367]
 [2.7367]]
médiane :  3.5446
[[-1.1696]
 [-1.1696]
 [-1.1696]
 ...
 [-0.8079]
 [-0.8079]
 [-0.8079]]
max : 11.4555
somme 57350.61929999999


In [None]:
# TO DO
#query_diff = """WITH vals AS (SELECT median_income FROM tables_tp_labat.california_housing_train)
query_diff = """SELECT vals.median_income - PERCENTILE_CONT(vals.median_income, 0.5) OVER() 
FROM tables_tp_labat.california_housing_train AS vals
"""
data_recuperee_diff = pd.read_gbq(query_diff, project_id="big-data-fintech-labat")
print(data_recuperee_diff)
total = data_recuperee_diff.sum()
print(total)

            f0_
0       -3.0447
1       -3.0086
2       -2.7434
3       -2.6903
4       -2.6805
...         ...
169995   9.8467
169996   9.9214
169997  10.2647
169998  10.8773
169999  11.4555

[170000 rows x 1 columns]
f0_    57350.6193
dtype: float64


L'option `if_exists` définie à `append` de la fonction `to_gbq` permet d'éviter de supprimer et recréer une table sur BigQuery, mais utilisera la très coûteuse opération "INSERT" de BigQuery qui permet d'insérer de nouvelles lignes à une table existante.

### Exercice 14
Insérez dans la table partitionnée vide créée dans l'exercice 10, le contenu du fichier CSV weather_events, sans la supprimer. La table partitionnée devrait désormais avoir des données.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: ignored

In [None]:
# Laissez ce chemin d'accès en commentaires et écrivez en un nouveau en dessous
csv_weather_path = "/content/drive/MyDrive/Cours BigData Fintech/Datasets/WeatherEvents_Jan2016-Dec2020.csv"

In [None]:
# TODO Exercice 14

### Exercice 15
En tirant profit du partitionnement de la table créée à l'exercice 10, récupérez les données du mois de décembre 2018 et de janvier 2019 puis aggrégez-les dans un DataFrame unique. Exportez le tout dans une table BigQuery nommée "weather_data_dec_2018_jan_2019"

In [None]:
# TODO Exercice 15

### Exercice 16
En tirant profit des [fonctions de date](https://cloud.google.com/bigquery/docs/reference/standard-sql/datetime_functions) et des [expressions conditionnelles](https://cloud.google.com/bigquery/docs/reference/standard-sql/conditional_expressions) de BigQuery, écrasez les résultats de la table de l'exercice 15, en rajoutant une colonne "saison" :     
* "Winter" si la StartTime(UTC) est entre le 21 décembre et le 20 mars
* "Spring" si la StartTime(UTC) est entre le 21 mars et le 20 juin
* "Summer" si la StartTime(UTC) est entre le 21 juin et le 22 septembre
* "Fall" si la StartTime(UTC) est entre le 23 septembre et le 20 décembre

In [None]:
# TODO Exercice 16