# Premiers pas avec SQL et BigQuery
D√©couvrir le **workflow de gestion** de grands ensembles de donn√©es avec **BigQuery** et **SQL**.

## Introduction
Le Structured Query Language, ou SQL, est le langage de programmation utilis√© avec les bases de donn√©es, et c'est une comp√©tence importante pour tout data scientist. Dans ce cours, vous allez d√©velopper vos comp√©tences en SQL en utilisant BigQuery, un service web qui vous permet d'appliquer SQL √† d'√©normes ensembles de donn√©es.

Dans cette le√ßon, vous apprendrez les bases de l'acc√®s et de l'examen des ensembles de donn√©es **BigQuery**. Une fois que vous ma√Ætriserez ces bases, nous reviendrons pour d√©velopper vos comp√©tences en **SQL**.

---

### Vos premi√®res commandes BigQuery
Pour utiliser BigQuery, nous allons importer le package Python suivant :

In [2]:
from google.cloud import bigquery

La premi√®re √©tape du **workflow** est de cr√©er un objet **Client**. Comme vous le verrez bient√¥t, cet objet Client jouera un r√¥le central dans la r√©cup√©ration des informations depuis les ensembles de donn√©es BigQuery.

In [6]:
client = bigquery.Client(project="cours-kaggle-ago")



---

## Utiliser l'int√©gration des ensembles de donn√©es publics BigQuery de Kaggle
Nous allons travailler avec un ensemble de donn√©es contenant des publications sur Hacker News, un site web ax√© sur l'informatique et les actualit√©s en cybers√©curit√©.

Dans BigQuery, chaque ensemble de donn√©es est contenu dans un projet correspondant. Dans ce cas, notre ensemble de donn√©es **hacker_news** est contenu dans le projet **bigquery-public-data**. Pour y acc√©der :

- Nous commen√ßons par construire une **r√©f√©rence** √† l'ensemble de donn√©es avec la m√©thode dataset().
- Ensuite, nous utilisons la m√©thode **get_dataset()**, avec la r√©f√©rence que nous venons de cr√©er, pour r√©cup√©rer l'ensemble de donn√©es.

In [9]:
# Construire une r√©f√©rence √† l'ensemble de donn√©es "hacker_news"
dataset_ref = client.dataset("hacker_news", project="bigquery-public-data")

# Requ√™te API - r√©cup√©rer l'ensemble de donn√©es
dataset = client.get_dataset(dataset_ref)


Chaque ensemble de donn√©es est simplement une **collection de tables**. Vous pouvez voir un ensemble de donn√©es comme un fichier de feuille de calcul contenant plusieurs tables, toutes compos√©es de lignes et de colonnes.

Nous utilisons la m√©thode **list_tables()** pour lister les tables contenues dans l'ensemble de donn√©es.

In [12]:
# Lister toutes les tables dans l'ensemble de donn√©es "hacker_news"
tables = list(client.list_tables(dataset))

# Afficher les noms de toutes les tables dans l'ensemble de donn√©es (il y en a quatre !)
for table in tables:  
    print(table.table_id)


full


De la m√™me mani√®re que nous avons r√©cup√©r√© un ensemble de donn√©es, nous pouvons r√©cup√©rer une table. Dans le code ci-dessous, nous r√©cup√©rons la table full de l'ensemble de donn√©es **hacker_news**.

In [15]:
# Construire une r√©f√©rence √† la table "full"
table_ref = dataset_ref.table("full")

# Requ√™te API - r√©cup√©rer la table
table = client.get_table(table_ref)


Dans la prochaine section, vous explorerez le contenu de cette table plus en d√©tail. Pour l‚Äôinstant, prenez le temps d‚Äôutiliser l‚Äôimage ci-dessous pour consolider ce que vous avez appris jusqu‚Äôici.

---

## Sch√©ma d‚Äôune table
La structure d‚Äôune table est appel√©e son **sch√©ma**. Il est essentiel de comprendre le sch√©ma d‚Äôune table pour extraire efficacement les donn√©es dont nous avons besoin.

Dans cet exemple, nous allons examiner la table **full** que nous avons r√©cup√©r√©e pr√©c√©demment.

In [19]:
# Afficher les informations sur toutes les colonnes de la table "full" dans l'ensemble de donn√©es "hacker_news"
table.schema

[SchemaField('title', 'STRING', 'NULLABLE', None, 'Story title', (), None),
 SchemaField('url', 'STRING', 'NULLABLE', None, 'Story url', (), None),
 SchemaField('text', 'STRING', 'NULLABLE', None, 'Story or comment text', (), None),
 SchemaField('dead', 'BOOLEAN', 'NULLABLE', None, 'Is dead?', (), None),
 SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None),
 SchemaField('score', 'INTEGER', 'NULLABLE', None, 'Story score', (), None),
 SchemaField('time', 'INTEGER', 'NULLABLE', None, 'Unix time', (), None),
 SchemaField('timestamp', 'TIMESTAMP', 'NULLABLE', None, 'Timestamp for the unix time', (), None),
 SchemaField('type', 'STRING', 'NULLABLE', None, 'type of details (comment comment_ranking poll story job pollopt)', (), None),
 SchemaField('id', 'INTEGER', 'NULLABLE', None, "The item's unique id.", (), None),
 SchemaField('parent', 'INTEGER', 'NULLABLE', None, 'Parent comment ID', (), None),
 SchemaField('descendants', 'INTEGER', 'NULLABLE', N

Chaque SchemaField nous donne des informations sur une colonne sp√©cifique (aussi appel√©e champ). Les informations sont :

- Le **nom de la colonne**
- Le **type de donn√©es** stock√©es dans la colonne
- Le **mode de la colonne** ('NULLABLE' signifie que la colonne accepte les valeurs NULL, ce qui est le mode par d√©faut)
- Une **description des donn√©es** contenues dans la colonne

### Points cl√©s √† retenir :
- **NULLABLE** signifie que la colonne peut contenir des valeurs nulles.
- Les types de donn√©es incluent **STRING** (texte), **INTEGER** (nombre entier), **BOOLEAN** (valeur vraie/fausse) et **TIMESTAMP** (date/heure).
- La table stocke des histoires, des commentaires, des votes et d'autres √©l√©ments associ√©s √† Hacker News.

Prenons le premier champ en exemple :

In [22]:
from google.cloud import bigquery

schema_field = bigquery.SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None)
print(schema_field)


SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None)


---

## les cinq premi√®res lignes de la table "full"
Nous pouvons utiliser la m√©thode **list_rows()** pour v√©rifier les cinq premi√®res lignes de la table full et voir si ces descriptions sont correctes. Cette m√©thode retourne un objet **BigQuery RowIterator**, qui peut √™tre rapidement converti en DataFrame Pandas avec **to_dataframe()**.

In [25]:
# Pr√©visualiser les cinq premi√®res lignes de la table "full"
client.list_rows(table, max_results=5).to_dataframe()

Unnamed: 0,title,url,text,dead,by,score,time,timestamp,type,id,parent,descendants,ranking,deleted
0,,,,,,,1437490774,2015-07-21 14:59:34+00:00,story,9922674,,,,
1,,,,,,,1437490875,2015-07-21 15:01:15+00:00,story,9922688,,,,
2,,,,,,,1260670998,2009-12-13 02:23:18+00:00,story,992273,,,,
3,,,,,,,1437492814,2015-07-21 15:33:34+00:00,story,9922924,,,,
4,,,,,,,1437492927,2015-07-21 15:35:27+00:00,story,9922942,,,,


On peut aussi afficher uniquement **les cinq premi√®res valeurs** d'une colonne sp√©cifique, comme **by** (nom de l‚Äôauteur) :

In [29]:
# Pr√©visualiser les cinq premi√®res valeurs de la colonne "by" dans la table "full"
client.list_rows(table, selected_fields=table.schema[:1], max_results=5).to_dataframe()

Unnamed: 0,title
0,
1,
2,
3,
4,


**selected_fields=table.schema[:1]**
- table.schema contient la liste des colonnes (sch√©ma) de la table.
- table.schema[:1] s√©lectionne uniquement la premi√®re colonne du sch√©ma (g√©n√©ralement by si elle est en premi√®re position).

# ou

In [32]:
selected_fields = [field for field in table.schema if field.name == "by"]
client.list_rows(table, selected_fields=selected_fields, max_results=5).to_dataframe()

Unnamed: 0,by
0,
1,
2,
3,
4,


---

### Avertissement  

Avant de passer √† l'exercice de codage, voici un rapide avertissement pour ceux qui ont d√©j√† des notions en SQL :  

Chaque utilisateur de Kaggle peut analyser jusqu'√† **5 To de donn√©es** tous les **30 jours gratuitement**. Une fois cette limite atteinte, vous devrez attendre son r√©initialisation.  

Les commandes que vous avez vues jusqu'√† pr√©sent n'utiliseront qu'une infime fraction de cette limite. Cependant, certains ensembles de donn√©es BigQuery sont immenses. Donc, si vous connaissez d√©j√† SQL, attendez avant d'ex√©cuter des requ√™tes **SELECT** jusqu'√† ce que vous sachiez comment g√©rer efficacement votre quota.  

Si vous faites partie de la majorit√© des personnes lisant ceci et que vous ne savez pas encore √©crire ces requ√™tes, vous **n'avez pas besoin de vous inqui√©ter** de cet avertissement.  

### √Ä vous de jouer !  
Entra√Ænez-vous avec les commandes que vous avez vues pour explorer la structure d‚Äôun ensemble de donn√©es sur **les crimes dans la ville de Chicago**.









---

# EXERCICE : Les crimes √† Chicago 
Le premier test de vos nouvelles comp√©tences en exploration de donn√©es utilise un ensemble de donn√©es d√©crivant les crimes dans la ville de Chicago.


In [37]:
from google.cloud import bigquery

# Cr√©er un objet "Client"
client = bigquery.Client()

# Construire une r√©f√©rence vers le dataset "chicago_crime"
dataset_ref_exo = client.dataset("chicago_crime", project="bigquery-public-data")

# Requ√™te API - r√©cup√©rer le dataset
dataset_exo = client.get_dataset(dataset_ref_exo)




### 1. Compter le nombre de tables
L'objectif de compter le nombre de tables pr√©sentes dans le dataset Chicago Crime et d'enregistrer ce nombre dans la variable num_tables.

In [53]:
# Lister toutes les tables dans le dataset "chicago_crime"
tables_exo = list(client.list_tables(dataset_exo))

# Compter le nombre de tables
num_tables = len(tables_exo)  # Stocker la r√©ponse

# Afficher le r√©sultat
print(f"Nombre de tables dans le dataset : {num_tables}")

Nombre de tables dans le dataset : 1


### 2. Explorer le sch√©ma de table
D√©terminer le nombre de colonnes de type **TIMESTAMP** dans la table des crimes : 

In [55]:
# R√©f√©rencer la table "crime"
table_ref_exo = dataset_ref_exo.table("crime")

# Requ√™te API - r√©cup√©rer la table
table_exo = client.get_table(table_ref_exo)

# Examiner le sch√©ma de la table
schema = table_exo.schema

In [57]:
table_exo.schema

[SchemaField('unique_key', 'INTEGER', 'REQUIRED', None, None, (), None),
 SchemaField('case_number', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('date', 'TIMESTAMP', 'NULLABLE', None, None, (), None),
 SchemaField('block', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('iucr', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('primary_type', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('description', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('location_description', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('arrest', 'BOOLEAN', 'NULLABLE', None, None, (), None),
 SchemaField('domestic', 'BOOLEAN', 'NULLABLE', None, None, (), None),
 SchemaField('beat', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('district', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('ward', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('community_area', 'INTEGER', 'NULLABLE', None, None, (), None),
 

In [59]:
# Compter les colonnes de type TIMESTAMP
num_timestamp_fields = sum(1 for field in schema if field.field_type == "TIMESTAMP")

# Afficher le r√©sultat
print(f"Nombre de colonnes de type TIMESTAMP : {num_timestamp_fields}")

Nombre de colonnes de type TIMESTAMP : 2


### 3) Cr√©er une carte des crimes
Si tu voulais cr√©er une carte avec un point √† l'emplacement de chaque crime, quels sont les deux noms de colonnes que tu devrais extraire de la table crime pour pouvoir les tracer sur une carte ?

In [62]:
# √âcris le code ici pour explorer les donn√©es et trouver la r√©ponse
fields_for_plotting = ["latitude", "longitude"]  

In [66]:
# Afficher la structure des colonnes de la table crime
schema = client.get_table(dataset_ref_exo.table("crime")).schema
for column in schema:
    print(column.name, column.field_type)


unique_key INTEGER
case_number STRING
date TIMESTAMP
block STRING
iucr STRING
primary_type STRING
description STRING
location_description STRING
arrest BOOLEAN
domestic BOOLEAN
beat INTEGER
district INTEGER
ward INTEGER
community_area INTEGER
fbi_code STRING
x_coordinate FLOAT
y_coordinate FLOAT
year INTEGER
updated_on TIMESTAMP
latitude FLOAT
longitude FLOAT
location STRING


---

In [71]:
!pip install folium pandas google-cloud-bigquery

Defaulting to user installation because normal site-packages is not writeable
Collecting folium
  Downloading folium-0.19.4-py2.py3-none-any.whl.metadata (3.8 kB)
Collecting branca>=0.6.0 (from folium)
  Downloading branca-0.8.1-py3-none-any.whl.metadata (1.5 kB)
Downloading folium-0.19.4-py2.py3-none-any.whl (110 kB)
Downloading branca-0.8.1-py3-none-any.whl (26 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.8.1 folium-0.19.4


In [73]:
import folium
import pandas as pd
from google.cloud import bigquery


---


A faire apr√®s !

Pour cr√©er une **carte des crimes** √† partir du dataset de Chicago, tu peux utiliser **Folium**, une biblioth√®que Python qui permet de tracer des cartes interactives. Voici un guide √©tape par √©tape :  

---

### **1Ô∏è‚É£ Installer les biblioth√®ques n√©cessaires (si ce n'est pas encore fait)**  
Dans un notebook Jupyter, ex√©cute cette commande :  

```python
!pip install folium pandas google-cloud-bigquery
```

---

### **2Ô∏è‚É£ Importer les biblioth√®ques**  

```python
import folium
import pandas as pd
from google.cloud import bigquery
```

---

### **3Ô∏è‚É£ R√©cup√©rer les donn√©es des crimes avec latitude et longitude**  

On va ex√©cuter une **requ√™te SQL** pour extraire **uniquement** les crimes avec des coordonn√©es GPS.

```python
# Cr√©er un client BigQuery
client = bigquery.Client()

# √âcrire la requ√™te SQL pour r√©cup√©rer les crimes avec latitude et longitude
query = """
SELECT latitude, longitude
FROM `bigquery-public-data.chicago_crime.crime`
WHERE latitude IS NOT NULL AND longitude IS NOT NULL
LIMIT 1000
"""  # On limite √† 1000 pour √©viter de surcharger la carte

# Ex√©cuter la requ√™te et stocker le r√©sultat dans un DataFrame Pandas
crime_data = client.query(query).to_dataframe()
```

---

### **4Ô∏è‚É£ Cr√©er et afficher la carte des crimes**  

```python
# D√©finir un point central pour la carte (Chicago)
chicago_location = [41.8781, -87.6298]
crime_map = folium.Map(location=chicago_location, zoom_start=11)

# Ajouter les points des crimes sur la carte
for index, row in crime_data.iterrows():
    folium.CircleMarker(
        location=[row["latitude"], row["longitude"]],
        radius=3,  # Taille du point
        color="red",
        fill=True,
        fill_color="red",
        fill_opacity=0.6
    ).add_to(crime_map)

# Afficher la carte
crime_map
```

---

### **Explication du code :**
1. **On r√©cup√®re les donn√©es des crimes avec latitude et longitude** via une requ√™te SQL.  
2. **On initialise une carte centr√©e sur Chicago** avec `folium.Map()`.  
3. **On ajoute un marqueur rouge pour chaque crime** avec `folium.CircleMarker()`.  
4. **On affiche la carte** dans le notebook.  

---

üîç **R√©sultat :** Tu verras une carte interactive avec des points rouges repr√©sentant chaque crime √† Chicago. üöîüìç