In [3]:
import pandas as pd
from google.cloud import storage
import io
import os

def process_laposte_insee_csv():
    """
    Traite le fichier CSV LaPoste INSEE depuis Google Cloud Storage
    - Supprime les colonnes 'Ligne_5' et 'Libell√©_d_acheminement'
    - Supprime les doublons bas√©s sur Code_commune_INSEE + Code_postal
    """

    # Configuration du bucket et du fichier
    bucket_name = "mspr-data-ia-raw"
    file_path = "LaPoste_INSEE_CP.csv"

    try:
        # On enregistre le path de l'objet (dans un bucket S3)
        bucket_path = 'gs://mspr-data-ia-raw/LaPoste_INSEE_CP.csv'

        # On initie un dataframe avec Pandas
        df = pd.read_csv(bucket_path, sep=';', encoding='latin1')

        # Nettoyage des noms de colonnes (suppression du # en d√©but)
        df.columns = df.columns.str.replace('^#', '', regex=True)
        print(f"Donn√©es charg√©es: {len(df)} lignes, {len(df.columns)} colonnes")
        print("Colonnes pr√©sentes:", list(df.columns))

        # Filtrage: codes postaux format 77XXX / 91XXX / 95XXX / ...
        # Liste des codes d√©partements de l‚Äô√éle-de-France (SAUF PARIS)
        codes_idf = ['77', '78', '91', '92', '93', '94', '95']

        # Dans la colonne 'Code_commune_INSEE' on remplit les valeur N/A puis on converti en string
        df = df[
            (df['Code_commune_INSEE'].str.len() == 5) &
            (df['Code_commune_INSEE'].str[:2].isin(codes_idf))
        ]

        # Affichage de quelques lignes pour v√©rification
        print("\nAper√ßu des donn√©es (Seine-et-Marne uniquement):")
        display(df.head())

        # Suppression des colonnes sp√©cifi√©es
        columns_to_drop = ['Ligne_5', 'Libell√©_d_acheminement']
        existing_columns_to_drop = [col for col in columns_to_drop if col in df.columns]

        if existing_columns_to_drop:
            df = df.drop(columns=existing_columns_to_drop)
            print(f"\nColonnes supprim√©es: {existing_columns_to_drop}")
        else:
            print("\nAucune colonne √† supprimer trouv√©e")

        # V√©rification des doublons avant nettoyage
        initial_count = len(df)
        duplicates_mask = df.duplicated(subset=['Code_commune_INSEE', 'Code_postal'], keep=False)
        duplicates_count = duplicates_mask.sum()

        if duplicates_count > 0:
            print(f"\nDoublons d√©tect√©s: {duplicates_count} lignes avec m√™me Code_commune_INSEE + Code_postal")
            print("Exemples de doublons:")
            display(df[duplicates_mask].head(10))

        # Suppression des doublons (garde la premi√®re occurrence)
        df_cleaned = df.drop_duplicates(subset=['Code_commune_INSEE', 'Code_postal'], keep='first')

        removed_count = initial_count - len(df_cleaned)
        print(f"\nNettoyage termin√©:")
        print(f"- Lignes initiales: {initial_count}")
        print(f"- Lignes supprim√©es (doublons): {removed_count}")
        print(f"- Lignes finales: {len(df_cleaned)}")

        # Affichage des statistiques finales
        print(f"\nDataFrame final:")
        print(f"- Colonnes: {list(df_cleaned.columns)}")
        print(f"- Dimensions: {df_cleaned.shape}")

        # Aper√ßu des donn√©es nettoy√©es
        print("\nAper√ßu des donn√©es nettoy√©es:")
        display(df_cleaned.head(10))

        # V√©rification finale - pas de doublons restants
        final_duplicates = df_cleaned.duplicated(subset=['Code_commune_INSEE', 'Code_postal']).sum()
        print(f"\nV√©rification finale: {final_duplicates} doublons restants")

        return df_cleaned

    except Exception as e:
        print(f"Erreur lors du traitement: {str(e)}")
        return None

def save_cleaned_data(df, output_path=None):
    """
    Sauvegarde les donn√©es nettoy√©es
    """
    if df is None:
        print("Aucune donn√©e √† sauvegarder")
        return

    if output_path is None:
        output_path = "LaPoste_INSEE_CP_cleaned.csv"

    df.to_csv(output_path, index=False)
    print(f"Donn√©es sauvegard√©es dans: {output_path}")

# Exemple d'utilisation
if __name__ == "__main__":
    # Traitement du fichier
    df_cleaned = process_laposte_insee_csv()

    # Sauvegarde optionnelle
    if df_cleaned is not None:
        save_cleaned_data(df_cleaned)

        # Statistiques additionnelles
        print(f"\nStatistiques des codes postaux:")
        print(f"- Codes postaux uniques: {df_cleaned['Code_postal'].nunique()}")
        print(f"- Communes uniques: {df_cleaned['Code_commune_INSEE'].nunique()}")

        # V√©rification de la coh√©rence
        multi_cp_communes = df_cleaned.groupby('Code_commune_INSEE')['Code_postal'].nunique()
        communes_multi_cp = multi_cp_communes[multi_cp_communes > 1]

        if len(communes_multi_cp) > 0:
            print(f"\nCommunes avec plusieurs codes postaux: {len(communes_multi_cp)}")
            print("Exemples:")
            for insee, cp_count in communes_multi_cp.head().items():
                commune_data = df_cleaned[df_cleaned['Code_commune_INSEE'] == insee]
                print(f"  {insee} ({commune_data['Nom_de_la_commune'].iloc[0]}): {cp_count} codes postaux")

Donn√©es charg√©es: 39192 lignes, 5 colonnes
Colonnes pr√©sentes: ['Code_commune_INSEE', 'Nom_de_la_commune', 'Code_postal', 'Libell√©_d_acheminement', 'Ligne_5']

Aper√ßu des donn√©es (Seine-et-Marne uniquement):


Unnamed: 0,Code_commune_INSEE,Nom_de_la_commune,Code_postal,Libell√©_d_acheminement,Ligne_5
33394,77001,ACHERES LA FORET,77760,ACHERES LA FORET,
33395,77002,AMILLIS,77120,AMILLIS,
33396,77003,AMPONVILLE,77760,AMPONVILLE,
33397,77004,ANDREZEL,77390,ANDREZEL,
33398,77005,ANNET SUR MARNE,77410,ANNET SUR MARNE,



Colonnes supprim√©es: ['Ligne_5', 'Libell√©_d_acheminement']

Doublons d√©tect√©s: 158 lignes avec m√™me Code_commune_INSEE + Code_postal
Exemples de doublons:


Unnamed: 0,Code_commune_INSEE,Nom_de_la_commune,Code_postal
33403,77010,AUBEPIERRE OZOUER LE REPOS,77720
33404,77010,AUBEPIERRE OZOUER LE REPOS,77720
33413,77020,BANNOST VILLEGAGNON,77970
33414,77020,BANNOST VILLEGAGNON,77970
33420,77026,BEAUCHERY ST MARTIN,77560
33421,77026,BEAUCHERY ST MARTIN,77560
33425,77031,BERNAY VILBERT,77540
33426,77031,BERNAY VILBERT,77540
33454,77059,BUSSY ST MARTIN,77600
33455,77059,BUSSY ST MARTIN,77600



Nettoyage termin√©:
- Lignes initiales: 1361
- Lignes supprim√©es (doublons): 85
- Lignes finales: 1276

DataFrame final:
- Colonnes: ['Code_commune_INSEE', 'Nom_de_la_commune', 'Code_postal']
- Dimensions: (1276, 3)

Aper√ßu des donn√©es nettoy√©es:


Unnamed: 0,Code_commune_INSEE,Nom_de_la_commune,Code_postal
33394,77001,ACHERES LA FORET,77760
33395,77002,AMILLIS,77120
33396,77003,AMPONVILLE,77760
33397,77004,ANDREZEL,77390
33398,77005,ANNET SUR MARNE,77410
33399,77006,ARBONNE LA FORET,77630
33400,77007,ARGENTIERES,77390
33401,77008,ARMENTIERES EN BRIE,77440
33402,77009,ARVILLE,77890
33403,77010,AUBEPIERRE OZOUER LE REPOS,77720



V√©rification finale: 0 doublons restants
Donn√©es sauvegard√©es dans: LaPoste_INSEE_CP_cleaned.csv

Statistiques des codes postaux:
- Codes postaux uniques: 507
- Communes uniques: 1265

Communes avec plusieurs codes postaux: 10
Exemples:
  78551 (ST GERMAIN EN LAYE): 2 codes postaux
  91228 (EVRY COURCOURONNES): 2 codes postaux
  91479 (PARAY VIEILLE POSTE): 2 codes postaux
  92048 (MEUDON): 2 codes postaux
  93066 (ST DENIS): 3 codes postaux


In [4]:
from pandas_gbq import to_gbq

def export_to_bigquery_pandas_gbq(df, project_id, dataset_id, table_id):
    """
    Exporte un DataFrame vers BigQuery avec pandas-gbq

    Args:
        df: DataFrame √† exporter
        project_id: ID du projet GCP
        dataset_id: ID du dataset BigQuery
        table_id: ID de la table BigQuery
    """

    # Configuration de la destination
    destination_table = f"{dataset_id}.{table_id}"

    try:
        # Export vers BigQuery
        to_gbq(
            df,
            destination_table=destination_table,
            project_id=project_id,
            if_exists='replace',  # Options: 'fail', 'replace', 'append'
            progress_bar=True,
            auth_local_webserver=False
        )

        print(f"‚úÖ DataFrame export√© avec succ√®s vers {project_id}.{destination_table}")
        print(f"üìä Nombre de lignes export√©es : {len(df)}")
        print(f"üìã Nombre de colonnes : {len(df.columns)}")

    except Exception as e:
        print(f"‚ùå Erreur lors de l'export : {str(e)}")

df = df_cleaned
project_id = "mspr-data-ia"
dataset_id = "idf_silver_cleaned"
table_id = "dim_commune"
export_to_bigquery_pandas_gbq(df, project_id, dataset_id, table_id)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 8738.13it/s]

‚úÖ DataFrame export√© avec succ√®s vers mspr-data-ia.idf_silver_cleaned.dim_commune
üìä Nombre de lignes export√©es : 1276
üìã Nombre de colonnes : 3



