# Notebook exploration

Ce notebook a pour objectif d'explorer de mani√®re superficielle les diff√©rents datasets. 


### 1. Importer les diff√©rents modules

Cette premi√®re √©tape consiste √† charger les librairies n√©cessaires afin d'explorer 
les datasets.

In [1]:
# Cellule 1 : Import et configuration du chemin
import sys
import os
from pathlib import Path

# On remonte d'un cran pour que le notebook voit la racine du projet
root_path = Path(os.getcwd()).parent
if str(root_path) not in sys.path:
    sys.path.append(str(root_path))

import duckdb
import pandas as pd
from sirene_pipeline.config import settings

# V√©rification que la config est bien charg√©e
print(f"Environnement actuel : {settings.current_env}")
print(f"Dossier Bronze : {settings.bronze_dir}")

Environnement actuel : production
Dossier Bronze : data/bronze


### 2. Inspection g√©n√©rale

La cellule ci-dessous affiche les diff√©rentes colonnes des datasets. L'objectif est 
de s√©lectionner celle que l'on va conserver.

In [3]:
con = duckdb.connect()

# On boucle sur les datasets d√©finis dans ta config pour voir les colonnes de chacun
for dataset_name, config in settings.datasets.items():
    parquet_path = Path(root_path) / "data" / "bronze" / config.filename
    
    print(f"\n--- COLUMNS FOR: {dataset_name} ({config.filename}) ---")
    
    # La commande DESCRIBE donne le nom, le type et si la colonne peut √™tre nulle
    columns_info = con.execute(f"DESCRIBE SELECT * FROM read_parquet('{parquet_path}')").df()
    
    # On affiche tout proprement
    with pd.option_context('display.max_rows', None):
        display(columns_info[['column_name', 'column_type']])


--- COLUMNS FOR: etablissements (stock_etablissement.parquet) ---


Unnamed: 0,column_name,column_type
0,siren,VARCHAR
1,nic,BIGINT
2,siret,VARCHAR
3,statutDiffusionEtablissement,VARCHAR
4,dateCreationEtablissement,DATE
5,trancheEffectifsEtablissement,VARCHAR
6,anneeEffectifsEtablissement,BIGINT
7,activitePrincipaleRegistreMetiersEtablissement,VARCHAR
8,dateDernierTraitementEtablissement,TIMESTAMP
9,etablissementSiege,BOOLEAN



--- COLUMNS FOR: unites_legales (stock_unite_legale.parquet) ---


Unnamed: 0,column_name,column_type
0,siren,VARCHAR
1,statutDiffusionUniteLegale,VARCHAR
2,unitePurgeeUniteLegale,BOOLEAN
3,dateCreationUniteLegale,DATE
4,sigleUniteLegale,VARCHAR
5,sexeUniteLegale,VARCHAR
6,prenom1UniteLegale,VARCHAR
7,prenom2UniteLegale,VARCHAR
8,prenom3UniteLegale,VARCHAR
9,prenom4UniteLegale,VARCHAR


**VERDICT:** Apr√®s exploration du dataset Bronze, nous avons identifi√© les colonnes cl√©s pour l'analyse m√©tier et la visualisation. Ces colonnes seront extraites et nettoy√©es lors du job **Silver**.

---

#### üèõÔ∏è Etablissements (StockEtablissement)
*Focus : Localisation, activit√© locale et identification des points de vente.*

> **Selected Columns:**
> ```python
> [
>     "siret", "siren", "etatAdministratifEtablissement", 
>     "dateCreationEtablissement", "codePostalEtablissement", 
>     "libelleCommuneEtablissement", "activitePrincipaleEtablissement", 
>     "trancheEffectifsEtablissement", "etablissementSiege", 
>     "enseigne1Etablissement"
> ]
> ```

---

#### ‚öñÔ∏è Unit√©s L√©gales (StockUniteLegale)
*Focus : Identit√© juridique, taille de l'entreprise et sant√© globale.*

> **Selected Columns:**
> ```python
> [
>     "siren", "denominationUniteLegale", "nomUniteLegale", 
>     "prenom1UniteLegale", "categorieEntreprise", 
>     "categorieJuridiqueUniteLegale", "activitePrincipaleUniteLegale", 
>     "etatAdministratifUniteLegale", "dateCreationUniteLegale", 
>     "economieSocialeSolidaireUniteLegale"
> ]
> ```

---

##### üíæ Mise √† jour du `settings.toml`
Les colonnes ont √©t√© report√©es dans la configuration sous les sections `[silver.etablissements]` et `[silver.unites_legales]`.    