# Premiers pas avec SQL et BigQuery
Découvrir le **workflow de gestion** de grands ensembles de données avec **BigQuery** et **SQL**.

## Introduction
Le Structured Query Language, ou SQL, est le langage de programmation utilisé avec les bases de données, et c'est une compétence importante pour tout data scientist. Dans ce cours, vous allez développer vos compétences en SQL en utilisant BigQuery, un service web qui vous permet d'appliquer SQL à d'énormes ensembles de données.

Dans cette leçon, vous apprendrez les bases de l'accès et de l'examen des ensembles de données **BigQuery**. Une fois que vous maîtriserez ces bases, nous reviendrons pour développer vos compétences en **SQL**.

---

### Vos premières commandes BigQuery
Pour utiliser BigQuery, nous allons importer le package Python suivant :

In [2]:
from google.cloud import bigquery

La première étape du **workflow** est de créer un objet **Client**. Comme vous le verrez bientôt, cet objet Client jouera un rôle central dans la récupération des informations depuis les ensembles de données BigQuery.

In [6]:
client = bigquery.Client(project="cours-kaggle-ago")



---

## Utiliser l'intégration des ensembles de données publics BigQuery de Kaggle
Nous allons travailler avec un ensemble de données contenant des publications sur Hacker News, un site web axé sur l'informatique et les actualités en cybersécurité.

Dans BigQuery, chaque ensemble de données est contenu dans un projet correspondant. Dans ce cas, notre ensemble de données **hacker_news** est contenu dans le projet **bigquery-public-data**. Pour y accéder :

- Nous commençons par construire une **référence** à l'ensemble de données avec la méthode dataset().
- Ensuite, nous utilisons la méthode **get_dataset()**, avec la référence que nous venons de créer, pour récupérer l'ensemble de données.

In [9]:
# Construire une référence à l'ensemble de données "hacker_news"
dataset_ref = client.dataset("hacker_news", project="bigquery-public-data")

# Requête API - récupérer l'ensemble de données
dataset = client.get_dataset(dataset_ref)


Chaque ensemble de données est simplement une **collection de tables**. Vous pouvez voir un ensemble de données comme un fichier de feuille de calcul contenant plusieurs tables, toutes composées de lignes et de colonnes.

Nous utilisons la méthode **list_tables()** pour lister les tables contenues dans l'ensemble de données.

In [12]:
# Lister toutes les tables dans l'ensemble de données "hacker_news"
tables = list(client.list_tables(dataset))

# Afficher les noms de toutes les tables dans l'ensemble de données (il y en a quatre !)
for table in tables:  
    print(table.table_id)


full


De la même manière que nous avons récupéré un ensemble de données, nous pouvons récupérer une table. Dans le code ci-dessous, nous récupérons la table full de l'ensemble de données **hacker_news**.

In [15]:
# Construire une référence à la table "full"
table_ref = dataset_ref.table("full")

# Requête API - récupérer la table
table = client.get_table(table_ref)


Dans la prochaine section, vous explorerez le contenu de cette table plus en détail. Pour l’instant, prenez le temps d’utiliser l’image ci-dessous pour consolider ce que vous avez appris jusqu’ici.

---

## Schéma d’une table
La structure d’une table est appelée son **schéma**. Il est essentiel de comprendre le schéma d’une table pour extraire efficacement les données dont nous avons besoin.

Dans cet exemple, nous allons examiner la table **full** que nous avons récupérée précédemment.

In [19]:
# Afficher les informations sur toutes les colonnes de la table "full" dans l'ensemble de données "hacker_news"
table.schema

[SchemaField('title', 'STRING', 'NULLABLE', None, 'Story title', (), None),
 SchemaField('url', 'STRING', 'NULLABLE', None, 'Story url', (), None),
 SchemaField('text', 'STRING', 'NULLABLE', None, 'Story or comment text', (), None),
 SchemaField('dead', 'BOOLEAN', 'NULLABLE', None, 'Is dead?', (), None),
 SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None),
 SchemaField('score', 'INTEGER', 'NULLABLE', None, 'Story score', (), None),
 SchemaField('time', 'INTEGER', 'NULLABLE', None, 'Unix time', (), None),
 SchemaField('timestamp', 'TIMESTAMP', 'NULLABLE', None, 'Timestamp for the unix time', (), None),
 SchemaField('type', 'STRING', 'NULLABLE', None, 'type of details (comment comment_ranking poll story job pollopt)', (), None),
 SchemaField('id', 'INTEGER', 'NULLABLE', None, "The item's unique id.", (), None),
 SchemaField('parent', 'INTEGER', 'NULLABLE', None, 'Parent comment ID', (), None),
 SchemaField('descendants', 'INTEGER', 'NULLABLE', N

Chaque SchemaField nous donne des informations sur une colonne spécifique (aussi appelée champ). Les informations sont :

- Le **nom de la colonne**
- Le **type de données** stockées dans la colonne
- Le **mode de la colonne** ('NULLABLE' signifie que la colonne accepte les valeurs NULL, ce qui est le mode par défaut)
- Une **description des données** contenues dans la colonne

### Points clés à retenir :
- **NULLABLE** signifie que la colonne peut contenir des valeurs nulles.
- Les types de données incluent **STRING** (texte), **INTEGER** (nombre entier), **BOOLEAN** (valeur vraie/fausse) et **TIMESTAMP** (date/heure).
- La table stocke des histoires, des commentaires, des votes et d'autres éléments associés à Hacker News.

Prenons le premier champ en exemple :

In [22]:
from google.cloud import bigquery

schema_field = bigquery.SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None)
print(schema_field)


SchemaField('by', 'STRING', 'NULLABLE', None, "The username of the item's author.", (), None)


---

## les cinq premières lignes de la table "full"
Nous pouvons utiliser la méthode **list_rows()** pour vérifier les cinq premières lignes de la table full et voir si ces descriptions sont correctes. Cette méthode retourne un objet **BigQuery RowIterator**, qui peut être rapidement converti en DataFrame Pandas avec **to_dataframe()**.

In [25]:
# Prévisualiser les cinq premières lignes de la table "full"
client.list_rows(table, max_results=5).to_dataframe()

Unnamed: 0,title,url,text,dead,by,score,time,timestamp,type,id,parent,descendants,ranking,deleted
0,,,,,,,1437490774,2015-07-21 14:59:34+00:00,story,9922674,,,,
1,,,,,,,1437490875,2015-07-21 15:01:15+00:00,story,9922688,,,,
2,,,,,,,1260670998,2009-12-13 02:23:18+00:00,story,992273,,,,
3,,,,,,,1437492814,2015-07-21 15:33:34+00:00,story,9922924,,,,
4,,,,,,,1437492927,2015-07-21 15:35:27+00:00,story,9922942,,,,


On peut aussi afficher uniquement **les cinq premières valeurs** d'une colonne spécifique, comme **by** (nom de l’auteur) :

In [29]:
# Prévisualiser les cinq premières valeurs de la colonne "by" dans la table "full"
client.list_rows(table, selected_fields=table.schema[:1], max_results=5).to_dataframe()

Unnamed: 0,title
0,
1,
2,
3,
4,


**selected_fields=table.schema[:1]**
- table.schema contient la liste des colonnes (schéma) de la table.
- table.schema[:1] sélectionne uniquement la première colonne du schéma (généralement by si elle est en première position).

# ou

In [32]:
selected_fields = [field for field in table.schema if field.name == "by"]
client.list_rows(table, selected_fields=selected_fields, max_results=5).to_dataframe()

Unnamed: 0,by
0,
1,
2,
3,
4,


---

### Avertissement  

Avant de passer à l'exercice de codage, voici un rapide avertissement pour ceux qui ont déjà des notions en SQL :  

Chaque utilisateur de Kaggle peut analyser jusqu'à **5 To de données** tous les **30 jours gratuitement**. Une fois cette limite atteinte, vous devrez attendre son réinitialisation.  

Les commandes que vous avez vues jusqu'à présent n'utiliseront qu'une infime fraction de cette limite. Cependant, certains ensembles de données BigQuery sont immenses. Donc, si vous connaissez déjà SQL, attendez avant d'exécuter des requêtes **SELECT** jusqu'à ce que vous sachiez comment gérer efficacement votre quota.  

Si vous faites partie de la majorité des personnes lisant ceci et que vous ne savez pas encore écrire ces requêtes, vous **n'avez pas besoin de vous inquiéter** de cet avertissement.  

### À vous de jouer !  
Entraînez-vous avec les commandes que vous avez vues pour explorer la structure d’un ensemble de données sur **les crimes dans la ville de Chicago**.









---

# EXERCICE : Les crimes à Chicago 
Le premier test de vos nouvelles compétences en exploration de données utilise un ensemble de données décrivant les crimes dans la ville de Chicago.


In [37]:
from google.cloud import bigquery

# Créer un objet "Client"
client = bigquery.Client()

# Construire une référence vers le dataset "chicago_crime"
dataset_ref_exo = client.dataset("chicago_crime", project="bigquery-public-data")

# Requête API - récupérer le dataset
dataset_exo = client.get_dataset(dataset_ref_exo)




### 1. Compter le nombre de tables
L'objectif de compter le nombre de tables présentes dans le dataset Chicago Crime et d'enregistrer ce nombre dans la variable num_tables.

In [53]:
# Lister toutes les tables dans le dataset "chicago_crime"
tables_exo = list(client.list_tables(dataset_exo))

# Compter le nombre de tables
num_tables = len(tables_exo)  # Stocker la réponse

# Afficher le résultat
print(f"Nombre de tables dans le dataset : {num_tables}")

Nombre de tables dans le dataset : 1


### 2. Explorer le schéma de table
Déterminer le nombre de colonnes de type **TIMESTAMP** dans la table des crimes : 

In [55]:
# Référencer la table "crime"
table_ref_exo = dataset_ref_exo.table("crime")

# Requête API - récupérer la table
table_exo = client.get_table(table_ref_exo)

# Examiner le schéma de la table
schema = table_exo.schema

In [57]:
table_exo.schema

[SchemaField('unique_key', 'INTEGER', 'REQUIRED', None, None, (), None),
 SchemaField('case_number', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('date', 'TIMESTAMP', 'NULLABLE', None, None, (), None),
 SchemaField('block', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('iucr', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('primary_type', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('description', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('location_description', 'STRING', 'NULLABLE', None, None, (), None),
 SchemaField('arrest', 'BOOLEAN', 'NULLABLE', None, None, (), None),
 SchemaField('domestic', 'BOOLEAN', 'NULLABLE', None, None, (), None),
 SchemaField('beat', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('district', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('ward', 'INTEGER', 'NULLABLE', None, None, (), None),
 SchemaField('community_area', 'INTEGER', 'NULLABLE', None, None, (), None),
 

In [59]:
# Compter les colonnes de type TIMESTAMP
num_timestamp_fields = sum(1 for field in schema if field.field_type == "TIMESTAMP")

# Afficher le résultat
print(f"Nombre de colonnes de type TIMESTAMP : {num_timestamp_fields}")

Nombre de colonnes de type TIMESTAMP : 2


### 3) Créer une carte des crimes
Si tu voulais créer une carte avec un point à l'emplacement de chaque crime, quels sont les deux noms de colonnes que tu devrais extraire de la table crime pour pouvoir les tracer sur une carte ?

In [62]:
# Écris le code ici pour explorer les données et trouver la réponse
fields_for_plotting = ["latitude", "longitude"]  

In [66]:
# Afficher la structure des colonnes de la table crime
schema = client.get_table(dataset_ref_exo.table("crime")).schema
for column in schema:
    print(column.name, column.field_type)


unique_key INTEGER
case_number STRING
date TIMESTAMP
block STRING
iucr STRING
primary_type STRING
description STRING
location_description STRING
arrest BOOLEAN
domestic BOOLEAN
beat INTEGER
district INTEGER
ward INTEGER
community_area INTEGER
fbi_code STRING
x_coordinate FLOAT
y_coordinate FLOAT
year INTEGER
updated_on TIMESTAMP
latitude FLOAT
longitude FLOAT
location STRING


---

In [71]:
!pip install folium pandas google-cloud-bigquery

Defaulting to user installation because normal site-packages is not writeable
Collecting folium
  Downloading folium-0.19.4-py2.py3-none-any.whl.metadata (3.8 kB)
Collecting branca>=0.6.0 (from folium)
  Downloading branca-0.8.1-py3-none-any.whl.metadata (1.5 kB)
Downloading folium-0.19.4-py2.py3-none-any.whl (110 kB)
Downloading branca-0.8.1-py3-none-any.whl (26 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.8.1 folium-0.19.4


In [73]:
import folium
import pandas as pd
from google.cloud import bigquery


---


A faire après !

Pour créer une **carte des crimes** à partir du dataset de Chicago, tu peux utiliser **Folium**, une bibliothèque Python qui permet de tracer des cartes interactives. Voici un guide étape par étape :  

---

### **1️⃣ Installer les bibliothèques nécessaires (si ce n'est pas encore fait)**  
Dans un notebook Jupyter, exécute cette commande :  

```python
!pip install folium pandas google-cloud-bigquery
```

---

### **2️⃣ Importer les bibliothèques**  

```python
import folium
import pandas as pd
from google.cloud import bigquery
```

---

### **3️⃣ Récupérer les données des crimes avec latitude et longitude**  

On va exécuter une **requête SQL** pour extraire **uniquement** les crimes avec des coordonnées GPS.

```python
# Créer un client BigQuery
client = bigquery.Client()

# Écrire la requête SQL pour récupérer les crimes avec latitude et longitude
query = """
SELECT latitude, longitude
FROM `bigquery-public-data.chicago_crime.crime`
WHERE latitude IS NOT NULL AND longitude IS NOT NULL
LIMIT 1000
"""  # On limite à 1000 pour éviter de surcharger la carte

# Exécuter la requête et stocker le résultat dans un DataFrame Pandas
crime_data = client.query(query).to_dataframe()
```

---

### **4️⃣ Créer et afficher la carte des crimes**  

```python
# Définir un point central pour la carte (Chicago)
chicago_location = [41.8781, -87.6298]
crime_map = folium.Map(location=chicago_location, zoom_start=11)

# Ajouter les points des crimes sur la carte
for index, row in crime_data.iterrows():
    folium.CircleMarker(
        location=[row["latitude"], row["longitude"]],
        radius=3,  # Taille du point
        color="red",
        fill=True,
        fill_color="red",
        fill_opacity=0.6
    ).add_to(crime_map)

# Afficher la carte
crime_map
```

---

### **Explication du code :**
1. **On récupère les données des crimes avec latitude et longitude** via une requête SQL.  
2. **On initialise une carte centrée sur Chicago** avec `folium.Map()`.  
3. **On ajoute un marqueur rouge pour chaque crime** avec `folium.CircleMarker()`.  
4. **On affiche la carte** dans le notebook.  

---

🔍 **Résultat :** Tu verras une carte interactive avec des points rouges représentant chaque crime à Chicago. 🚔📍