# Notebook 3 : Analyse pour la Construction de la Couche Gold

## Objectif

Ce notebook vous guide dans l'**analyse des donn√©es de la couche silver** pour pr√©parer la construction de la couche **gold** (analytics/BI).

La couche gold contient des donn√©es transform√©es, nettoy√©es et optimis√©es pour l'analyse m√©tier et la cr√©ation de rapports/dashboards.

## Pr√©requis

Avant d'ex√©cuter ce notebook, assurez-vous d'avoir :

1. **Ex√©cut√© le notebook `2_[LOAD]_load_to_bigquery.ipynb`** pour avoir toutes les tables dans BigQuery (dataset `silver`)
2. **Fichier `.env` configur√©** avec les variables d'environnement n√©cessaires
3. **Service Account** avec les permissions BigQuery (`BigQuery Data Viewer`, `BigQuery Job User`)
4. **Packages Python install√©s** : `google-cloud-bigquery`, `pandas`, `db-dtypes`, etc.

## Structure du Notebook

Ce notebook contient **4 t√¢ches principales** √† r√©aliser :

1. **T√¢che 1 : Analyser la Granularit√©** - Comprendre le niveau de d√©tail de chaque table
2. **T√¢che 2 : Identifier les Transformations** - D√©terminer les transformations n√©cessaires pour la couche gold
3. **T√¢che 3 : Identifier les Cl√©s de Jointure** - Mapper les relations entre les tables
4. **T√¢che 4 : Autres Analyses** - Qualit√© des donn√©es, agr√©gations possibles, etc.

## R√©sultats Attendus

√Ä la fin de ce notebook, vous devriez avoir :
- Une compr√©hension claire de la structure et de la granularit√© de chaque table
- Une liste des transformations √† appliquer pour cr√©er la couche gold
- Un sch√©ma de jointures document√©
- Des recommandations pour l'optimisation et l'agr√©gation des donn√©es


## Configuration et Connexion √† BigQuery

Cette section configure l'environnement et √©tablit la connexion avec BigQuery pour explorer les donn√©es de la couche silver.


In [None]:
# Standard library imports
import os
from pathlib import Path

# Third-party imports
import pandas as pd
from dotenv import load_dotenv
from google.cloud import bigquery
from google.oauth2 import service_account

# Configuration
load_dotenv()

ROOT = Path.cwd().parent
PROJECT_ID = os.getenv("PROJECT_ID")
SA_PATH = ROOT / os.getenv("GOOGLE_APPLICATION_CREDENTIALS")
DATASET_ID = "silver"

# Authentification
creds = service_account.Credentials.from_service_account_file(SA_PATH)
bq_client = bigquery.Client(project=PROJECT_ID, credentials=creds)

print(f"[OK] - Connect√© au projet: {PROJECT_ID}")
print(f"[OK] - Dataset: {DATASET_ID}")


---

## T√¢che 1 : Analyser la Granularit√© de Chaque Table

### Objectif

La **granularit√©** d'une table correspond au niveau de d√©tail des donn√©es qu'elle contient. Comprendre la granularit√© est essentiel pour :
- D√©terminer comment agr√©ger les donn√©es
- Identifier les duplications potentielles
- Comprendre le niveau de d√©tail n√©cessaire pour les analyses m√©tier

### Instructions

Pour chaque table du dataset `silver`, vous devez :

1. **Lister les colonnes** et leurs types
2. **Identifier les cl√©s primaires** ou les colonnes qui identifient de mani√®re unique une ligne
3. **D√©terminer la granularit√©** : √† quel niveau de d√©tail sont les donn√©es ?
   - Exemple : `fact_validations` pourrait √™tre au niveau **jour √ó gare √ó type de titre**
4. **Compter les lignes** et estimer la taille des donn√©es
5. **Identifier les colonnes de dimension** (r√©f√©rences vers d'autres tables)

### Exemple de Format de R√©ponse

```
Table: dim_gare
- Granularit√©: 1 ligne = 1 gare
- Cl√© primaire: id_gares
- Nombre de lignes: 1234
- Colonnes de dimension: aucune (table de dimension)
```


### √Ä Compl√©ter : Analyse de Granularit√©

**Tables de Dimension :**

1. `dim_gare`
2. `dim_ligne`
3. `dim_arret`
4. `dim_vacances_scolaires`
5. `dim_transporteur`

**Tables de Fait :**

6. `fact_validations_*` (toutes les tables de validation)

**Votre t√¢che :** Ex√©cutez des requ√™tes SQL pour analyser chaque table et remplir le tableau ci-dessous.


In [None]:
# Exemple : Analyser la table dim_gare
query = f"""
SELECT 
    COUNT(*) as nb_lignes,
    COUNT(DISTINCT id_gares) as nb_gares_uniques,
    COUNT(*) - COUNT(id_gares) as nb_id_null
FROM `{PROJECT_ID}.{DATASET_ID}.dim_gare`
"""

df = bq_client.query(query).to_dataframe()
print("=== Analyse de dim_gare ===")
display(df)

# Afficher le sch√©ma
table = bq_client.get_table(f"{PROJECT_ID}.{DATASET_ID}.dim_gare")
print("\n=== Sch√©ma ===")
for field in table.schema:
    print(f"  - {field.name}: {field.field_type} ({field.mode})")


In [None]:
# TODO : R√©p√©tez cette analyse pour toutes les tables
# Cr√©ez un DataFrame pour documenter vos r√©sultats

granularite_analysis = []

# Exemple pour dim_gare
granularite_analysis.append({
    "table": "dim_gare",
    "type": "dimension",
    "granularite": "1 ligne = 1 gare",
    "cle_primaire": "id_gares",
    "nb_lignes": 0,  # √Ä compl√©ter
    "colonnes_dimension": "aucune"
})

# TODO : Ajoutez les autres tables
# - dim_ligne
# - dim_arret
# - dim_vacances_scolaires
# - dim_transporteur
# - fact_validations_* (analyser au moins une table de validation)

df_granularite = pd.DataFrame(granularite_analysis)
display(df_granularite)


---

## T√¢che 2 : Identifier les Transformations N√©cessaires

### Objectif

Identifier les **transformations** √† appliquer aux donn√©es de la couche silver pour cr√©er la couche gold optimis√©e pour l'analyse.

### Types de Transformations Possibles

1. **Nettoyage des donn√©es**
   - Suppression des doublons
   - Gestion des valeurs NULL
   - Normalisation des formats (dates, textes)

2. **Enrichissement**
   - Ajout de colonnes calcul√©es
   - Jointures avec les tables de dimension
   - Ajout de cat√©gories/segments

3. **Agr√©gation**
   - Regroupement par dimensions (jour, gare, ligne, etc.)
   - Calcul de m√©triques (somme, moyenne, comptage)
   - Cr√©ation de tables pr√©-agr√©g√©es

4. **Normalisation**
   - Uniformisation des formats de dates
   - Standardisation des noms de colonnes
   - Conversion de types de donn√©es

5. **D√©duplication**
   - Identification et suppression des doublons
   - Consolidation de donn√©es dupliqu√©es

### Instructions

Pour chaque table, identifiez :
1. **Les probl√®mes de qualit√©** √† corriger
2. **Les transformations n√©cessaires** avec des exemples concrets
3. **Les colonnes √† ajouter** (calcul√©es ou issues de jointures)
4. **Les agr√©gations possibles** pour optimiser les requ√™tes


In [None]:
# Exemple 1 : V√©rifier les doublons dans fact_validations
query = f"""
SELECT 
    JOUR,
    ID_ZDC,
    CATEGORIE_TITRE,
    COUNT(*) as nb_occurrences
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt`
GROUP BY JOUR, ID_ZDC, CATEGORIE_TITRE
HAVING COUNT(*) > 1
LIMIT 10
"""

df_duplicates = bq_client.query(query).to_dataframe()
print("=== Exemple : Recherche de doublons ===")
display(df_duplicates)


In [None]:
# Exemple 2 : V√©rifier les valeurs NULL
query = f"""
SELECT 
    COUNT(*) as total_lignes,
    COUNT(JOUR) as jour_not_null,
    COUNT(ID_ZDC) as id_zdc_not_null,
    COUNT(NB_VALD) as nb_vald_not_null,
    COUNT(*) - COUNT(JOUR) as jour_null,
    COUNT(*) - COUNT(ID_ZDC) as id_zdc_null,
    COUNT(*) - COUNT(NB_VALD) as nb_vald_null
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt`
"""

df_nulls = bq_client.query(query).to_dataframe()
print("=== Exemple : Analyse des valeurs NULL ===")
display(df_nulls)


In [None]:
# TODO : Documentez les transformations n√©cessaires

transformations = []

# Exemple pour fact_validations
transformations.append({
    "table_source": "fact_validations_*",
    "probleme": "Format de date en STRING (DD/MM/YYYY)",
    "transformation": "Convertir JOUR en DATE avec PARSE_DATE('%d/%m/%Y', JOUR)",
    "exemple_sql": "SELECT PARSE_DATE('%d/%m/%Y', JOUR) as date_validation FROM ...",
    "priorite": "Haute"
})

transformations.append({
    "table_source": "fact_validations_*",
    "probleme": "Colonnes ID_ZDC, lda, ID_REFA_LDA non normalis√©es",
    "transformation": "Unifier les noms de colonnes (toutes ‚Üí id_zdc)",
    "exemple_sql": "SELECT COALESCE(ID_ZDC, lda, ID_REFA_LDA) as id_zdc FROM ...",
    "priorite": "Haute"
})

# TODO : Ajoutez d'autres transformations identifi√©es
# - Conversion de types (STRING ‚Üí INTEGER pour NB_VALD)
# - Normalisation des noms de colonnes
# - Ajout de colonnes calcul√©es (jour_semaine, est_vacances, etc.)
# - Unification des tables fact_validations_*

df_transformations = pd.DataFrame(transformations)
display(df_transformations)


---

## T√¢che 3 : Identifier les Cl√©s de Jointure Possibles

### Objectif

Identifier toutes les **relations possibles** entre les tables pour pouvoir cr√©er des jointures dans la couche gold.

### Instructions

Pour chaque paire de tables, identifiez :

1. **Les colonnes de jointure** (cl√©s √©trang√®res)
2. **Le type de relation** (1-1, 1-N, N-N)
3. **La cardinalit√©** (combien de lignes de la table A correspondent √† combien de lignes de la table B)
4. **V√©rifier l'int√©grit√© r√©f√©rentielle** (toutes les cl√©s √©trang√®res existent-elles dans la table de dimension ?)

### Exemples de Relations √† Identifier

- `fact_validations` ‚Üî `dim_gare` : via `ID_ZDC` ou `id_gares`
- `fact_validations` ‚Üî `dim_ligne` : via `CODE_STIF_TRNS` ou `idrefliga`
- `fact_validations` ‚Üî `dim_arret` : via `CODE_STIF_ARRET`
- `dim_gare` ‚Üî `dim_ligne` : via `idrefliga`
- `dim_ligne` ‚Üî `dim_transporteur` : via un code transporteur
- `fact_validations` ‚Üî `dim_vacances_scolaires` : via la date
- `fact_validations` ‚Üî `dim_jours_feries` : via la date (si la table existe)


In [None]:
# Exemple 1 : V√©rifier la jointure fact_validations ‚Üî dim_gare
query = f"""
SELECT 
    COUNT(DISTINCT v.ID_ZDC) as nb_id_zdc_distincts_fact,
    COUNT(DISTINCT g.id_gares) as nb_id_gares_distincts_dim,
    COUNT(DISTINCT v.ID_ZDC) - COUNT(DISTINCT g.id_gares) as difference
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt` v
LEFT JOIN `{PROJECT_ID}.{DATASET_ID}.dim_gare` g
    ON CAST(v.ID_ZDC AS INT64) = g.id_gares
"""

df_join_check = bq_client.query(query).to_dataframe()
print("=== Exemple : V√©rification de la jointure fact_validations ‚Üî dim_gare ===")
display(df_join_check)


In [None]:
# Exemple 2 : Identifier les cl√©s orphelines (cl√©s √©trang√®res sans correspondance)
query = f"""
SELECT 
    v.ID_ZDC,
    COUNT(*) as nb_occurrences
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt` v
LEFT JOIN `{PROJECT_ID}.{DATASET_ID}.dim_gare` g
    ON CAST(v.ID_ZDC AS INT64) = g.id_gares
WHERE g.id_gares IS NULL
GROUP BY v.ID_ZDC
ORDER BY nb_occurrences DESC
LIMIT 10
"""

df_orphans = bq_client.query(query).to_dataframe()
print("=== Exemple : Cl√©s orphelines (sans correspondance dans dim_gare) ===")
display(df_orphans)


In [None]:
# TODO : Documentez toutes les relations identifi√©es

jointures = []

# Exemple 1
jointures.append({
    "table_source": "fact_validations",
    "table_cible": "dim_gare",
    "colonne_source": "ID_ZDC",
    "colonne_cible": "id_gares",
    "type_relation": "N-1",
    "description": "Plusieurs validations peuvent √™tre associ√©es √† une m√™me gare",
    "integrite": "√Ä v√©rifier"
})

# Exemple 2
jointures.append({
    "table_source": "fact_validations",
    "table_cible": "dim_ligne",
    "colonne_source": "CODE_STIF_TRNS",
    "colonne_cible": "√Ä identifier",
    "type_relation": "N-1",
    "description": "Plusieurs validations peuvent √™tre associ√©es √† une m√™me ligne",
    "integrite": "√Ä v√©rifier"
})

# TODO : Ajoutez toutes les autres relations identifi√©es
# - fact_validations ‚Üî dim_arret
# - fact_validations ‚Üî dim_vacances_scolaires (via date)
# - fact_validations ‚Üî dim_jours_feries (via date, si existe)
# - dim_gare ‚Üî dim_ligne
# - dim_ligne ‚Üî dim_transporteur
# - etc.

df_jointures = pd.DataFrame(jointures)
display(df_jointures)


---

## T√¢che 4 : Autres Analyses et Recommandations

### Objectif

Effectuer des analyses compl√©mentaires pour optimiser la construction de la couche gold.

### T√¢ches Sugg√©r√©es

#### 4.1 - Analyse de la Qualit√© des Donn√©es

- **Compl√©tude** : Pourcentage de valeurs non NULL par colonne
- **Coh√©rence** : V√©rifier les valeurs aberrantes (ex: dates futures, nombres n√©gatifs)
- **Unicit√©** : Identifier les colonnes qui devraient √™tre uniques mais ne le sont pas
- **Validit√©** : V√©rifier que les valeurs respectent les contraintes m√©tier

#### 4.2 - Analyse des Agr√©gations Possibles

Identifier les **niveaux d'agr√©gation** utiles pour les analyses :
- Par jour, semaine, mois, ann√©e
- Par gare, ligne, arr√™t, transporteur
- Par type de titre (cat√©gorie)
- Combinaisons de ces dimensions

#### 4.3 - Analyse de Performance

- **Volume de donn√©es** : Taille des tables, nombre de lignes
- **Fr√©quence d'utilisation** : Quelles tables seront les plus sollicit√©es ?
- **Optimisations possibles** : Partitionnement, clustering, tables mat√©rialis√©es

#### 4.4 - Identification des M√©triques M√©tier

Identifier les **KPIs** (Key Performance Indicators) √† calculer :
- Nombre total de validations par p√©riode
- Taux de croissance des validations
- R√©partition par type de titre
- Top 10 des gares les plus fr√©quent√©es
- Comparaison jour ouvrable vs jour f√©ri√© vs vacances

#### 4.5 - Proposition de Sch√©ma Gold

Proposer une **structure de tables** pour la couche gold :
- Tables de fait agr√©g√©es (ex: `fact_validations_daily`)
- Tables de dimension enrichies (ex: `dim_gare_enriched`)
- Tables de m√©triques pr√©-calcul√©es (ex: `metrics_affluence_weekly`)
- Vues pour faciliter les requ√™tes courantes


In [None]:
# Exemple : Analyse de compl√©tude des donn√©es
query = f"""
SELECT 
    'fact_validations_2023_s2_nb_fer_txt' as table_name,
    COUNT(*) as total_lignes,
    ROUND(100.0 * COUNT(JOUR) / COUNT(*), 2) as pct_jour_not_null,
    ROUND(100.0 * COUNT(ID_ZDC) / COUNT(*), 2) as pct_id_zdc_not_null,
    ROUND(100.0 * COUNT(NB_VALD) / COUNT(*), 2) as pct_nb_vald_not_null,
    ROUND(100.0 * COUNT(CATEGORIE_TITRE) / COUNT(*), 2) as pct_categorie_not_null
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt`
"""

df_quality = bq_client.query(query).to_dataframe()
print("=== Exemple : Analyse de compl√©tude ===")
display(df_quality)


In [None]:
# Exemple : Identifier les niveaux d'agr√©gation possibles
query = f"""
SELECT 
    COUNT(DISTINCT JOUR) as nb_jours_distincts,
    COUNT(DISTINCT ID_ZDC) as nb_gares_distincts,
    COUNT(DISTINCT CODE_STIF_TRNS) as nb_lignes_distincts,
    COUNT(DISTINCT CATEGORIE_TITRE) as nb_categories_distincts,
    COUNT(*) as total_validations
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt`
"""

df_aggregations = bq_client.query(query).to_dataframe()
print("=== Exemple : Dimensions disponibles pour agr√©gation ===")
display(df_aggregations)

print("\n=== Niveaux d'agr√©gation possibles ===")
print("- Par jour : ~", df_aggregations['nb_jours_distincts'].iloc[0], "combinaisons")
print("- Par jour √ó gare : ~", df_aggregations['nb_jours_distincts'].iloc[0] * df_aggregations['nb_gares_distincts'].iloc[0], "combinaisons")
print("- Par jour √ó gare √ó cat√©gorie : ~", df_aggregations['nb_jours_distincts'].iloc[0] * df_aggregations['nb_gares_distincts'].iloc[0] * df_aggregations['nb_categories_distincts'].iloc[0], "combinaisons")


In [None]:
# Exemple : Calculer des m√©triques m√©tier
query = f"""
SELECT 
    PARSE_DATE('%d/%m/%Y', JOUR) as date_validation,
    COUNT(DISTINCT ID_ZDC) as nb_gares,
    SUM(CAST(NB_VALD AS INT64)) as total_validations,
    AVG(CAST(NB_VALD AS FLOAT64)) as moyenne_validations_par_ligne
FROM `{PROJECT_ID}.{DATASET_ID}.fact_validations_2023_s2_nb_fer_txt`
WHERE JOUR IS NOT NULL AND NB_VALD IS NOT NULL
GROUP BY date_validation
ORDER BY date_validation
LIMIT 10
"""

df_metrics = bq_client.query(query).to_dataframe()
print("=== Exemple : M√©triques m√©tier (validations par jour) ===")
display(df_metrics)


### √Ä Compl√©ter : Recommandations pour la Couche Gold

**Votre t√¢che :** Remplissez ce tableau avec vos recommandations bas√©es sur vos analyses.


In [None]:
# TODO : Documentez vos recommandations

recommandations = []

# Exemple 1
recommandations.append({
    "categorie": "Transformation",
    "recommandation": "Unifier toutes les tables fact_validations_* en une seule table",
    "justification": "Faciliter les requ√™tes et analyses cross-ann√©es",
    "priorite": "Haute"
})

# Exemple 2
recommandations.append({
    "categorie": "Agr√©gation",
    "recommandation": "Cr√©er une table fact_validations_daily agr√©g√©e par jour √ó gare √ó cat√©gorie",
    "justification": "R√©duire le volume de donn√©es et acc√©l√©rer les requ√™tes d'analyse",
    "priorite": "Moyenne"
})

# Exemple 3
recommandations.append({
    "categorie": "Enrichissement",
    "recommandation": "Ajouter des colonnes calcul√©es : jour_semaine, est_vacances, est_ferie",
    "justification": "Faciliter les analyses comparatives (weekend vs semaine, vacances vs p√©riode scolaire)",
    "priorite": "Haute"
})

# TODO : Ajoutez vos propres recommandations
# - Optimisations de performance (partitionnement, clustering)
# - Nettoyage de donn√©es
# - Cr√©ation de vues
# - Tables de m√©triques pr√©-calcul√©es
# - etc.

df_recommandations = pd.DataFrame(recommandations)
display(df_recommandations)


---

## Conclusion et Prochaines √âtapes

### R√©sum√© de Votre Travail

√Ä la fin de ce notebook, vous devriez avoir produit :

1. ‚úÖ **Analyse de granularit√©** : Documentation compl√®te de chaque table
2. ‚úÖ **Liste des transformations** : Transformations n√©cessaires avec exemples SQL
3. ‚úÖ **Sch√©ma de jointures** : Toutes les relations identifi√©es entre les tables
4. ‚úÖ **Recommandations** : Propositions pour optimiser la couche gold

### Prochaines √âtapes

Une fois ces analyses termin√©es, vous pourrez :

1. **Cr√©er le notebook de transformation** (`4_[TRANSFORM]_build_gold.ipynb`)
2. **Impl√©menter les transformations identifi√©es**
3. **Cr√©er les tables de la couche gold** dans BigQuery
4. **Valider la qualit√© des donn√©es** transform√©es
5. **Cr√©er des vues** pour faciliter les requ√™tes d'analyse

### Ressources Utiles

- [Documentation BigQuery SQL](https://cloud.google.com/bigquery/docs/reference/standard-sql/query-syntax)
- [Fonctions de date BigQuery](https://cloud.google.com/bigquery/docs/reference/standard-sql/date_functions)
- [Fonctions d'agr√©gation BigQuery](https://cloud.google.com/bigquery/docs/reference/standard-sql/aggregate_functions)
- [Partitionnement et clustering BigQuery](https://cloud.google.com/bigquery/docs/partitioned-tables)

---

**Bon travail ! üöÄ**
