In [None]:
import pandas as pd
import numpy as np

In [None]:
# Options d'affichage
pd.set_option('display.max_columns', None)

# Chargement ultra-rapide
df = pd.read_parquet("sas_sarl_filtered.parquet")

# V√©rification rapide
print(f"Dimensions du dataset : {df.shape}")
df.head()

In [None]:
df.info(verbose=True)

In [None]:
print("Number of rows : {}".format(df.shape[0]))
print()

print("Basics statistics: ")
df_desc = df.describe(include="all")
display(df_desc)
print()

---

In [None]:
df.shape

#### Traitement des valeurs nulles

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

#### Suppression des colonnes inutiles

In [None]:
# Liste des colonnes √† supprimer
colonnes_a_drop = [
    "Libell√© cedex de l'√©tablissement",
    "Numero de voie de l'√©tablissement 2",
    "Distribution sp√©ciale de l'√©tablissement",
    "Libell√© du pays de l'√©tablissement √©tranger.1",
    "Pr√©nom usuel de la personne physique",
    "Pr√©nom de la personne physique 3",
    "Indice de r√©p√©tition de l'√©tablissement 2",
    "Compl√©ment d'adresse de l'√©tablissement 2",
    "Code cedex de l'√©tablissement",
    "Code pays de l'√©tablissement",
    "Libell√© cedex de l'√©tablissement 2",
    "Code cedex de l'√©tablissement 2",
    "Code de la commune de l'√©tablissement 2",
    "Distribution sp√©ciale de l'√©tablissement 2",
    "Libell√© de la commune de l'√©tablissement √©tranger 2",
    "Libell√© de la commune de l'√©tablissement 2",
    "Code postal de l'√©tablissement 2",
    "Libell√© de la voie de l'√©tablissement 2",
    "Type de voie de l'√©tablissement 2",
    "Pseudonyme de la personne physique",
    "Pr√©nom de la personne physique 1",
    "Civilit√© de la personne physique",
    "Pr√©nom de la personne physique 4",
    "Caract√®re employeur de l'unit√© l√©gale",
    "Premi√®re ligne de l'adressage",
    "Nom de la personne physique",
    "Nom d'usage de la personne physique",
    "Pr√©nom de la personne physique 2",
    "Unit√© l√©gale purg√©e",
    "Libell√© de la commune de l'√©tablissement √† l'√©tranger",
    "Code du pays de l'√©tablissement √©tranger",
    "Identifiant association de l'unit√© l√©gale",
    "Libell√© du pays de l'√©tablissement √©tranger",
    "D√©nomination usuelle de l'unit√© l√©gale 3",
    "Enseigne de l'√©tablissement 3",
    "D√©nomination usuelle de l'unit√© l√©gale 2",
    "Enseigne de l'√©tablissement 2",
    "Soci√©t√© √† mission unit√© l√©gale",
    "Indice de r√©p√©tition de l'√©tablissement",
    "D√©nomination usuelle de l'unit√© l√©gale 1",
    "Sigle de l'unit√© l√©gale",
    "Enseigne de l'√©tablissement 1",
    "Compl√©ment d'adresse de l'√©tablissement",
    "Ann√©e de la tranche d'effectif de l'√©tablissement",
    "D√©nomination usuelle de l'√©tablissement",
    "Activit√© principale de l'√©tablissement",
    "Ann√©e de la tranche de l'effectif de l'unit√© l√©gale",
    "Etablissement si√®ge",
    "Statut de diffusion de l'√©tablissement",
    "Statut de diffusion de l'unit√© l√©gale",
    "Tranche de l'effectif de l'√©tablissement",
    "Tranche de l'effectif de l'√©tablissement triable",
    "Num√©ro de voie de l'√©tablissement",
    "Type de voie de l'√©tablissement",
    "Libell√© de la voie de l'√©tablissement",
    
]

# Supprimer les colonnes
df = df.drop(columns=colonnes_a_drop)

In [None]:
df.shape

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

---

#### Traitement des Nan restants

##### 1. ESS

In [None]:
df['Economie sociale et solidaire unit√© l√©gale'].value_counts()

In [None]:
# Remplir les NaN par 'N' (Non) apr√®s v√©rification sur Pappers

df['Economie sociale et solidaire unit√© l√©gale'] = df['Economie sociale et solidaire unit√© l√©gale'].replace('', 'N')

print("V√©rification finale ESS :")
print(df['Economie sociale et solidaire unit√© l√©gale'].value_counts())

In [None]:
# On remplace toutes les cha√Ænes vides par des vrais NaN
df = df.replace('', np.nan)

print(df.isna().mean() * 100)

##### 2. Les dates de fermeture

In [None]:
df["Date de fermeture de l'unit√© l√©gale"] = pd.to_datetime(
    df["Date de fermeture de l'unit√© l√©gale"], errors="coerce"
)
df["Date de fermeture de l'√©tablissement"] = pd.to_datetime(
    df["Date de fermeture de l'√©tablissement"], errors="coerce"
)

In [None]:
# üîπ Filtrer uniquement pour l'affichage, sans toucher au df original
df_dates_valide = df[
    df["Date de fermeture de l'unit√© l√©gale"].notna() &
    df["Date de fermeture de l'√©tablissement"].notna()
].copy()

# üîπ Ajouter la colonne de correspondance
df_dates_valide["fermeture_correspond"] = (
    df_dates_valide["Date de fermeture de l'unit√© l√©gale"] ==
    df_dates_valide["Date de fermeture de l'√©tablissement"]
)

# üîπ Afficher un aper√ßu
df_dates_valide[["Date de fermeture de l'unit√© l√©gale",
                 "Date de fermeture de l'√©tablissement",
                 "fermeture_correspond"]].head(10)

In [None]:
# üîπ Calculer la part de True / False
part_fermeture = df_dates_valide["fermeture_correspond"].value_counts(normalize=True) * 100

# üîπ Afficher
print(part_fermeture)

In [None]:
# üîπ Cr√©er une colonne "Date_fermeture_finale" avec la date la plus tardive des 2
df["Date_fermeture_finale"] = df[["Date de fermeture de l'√©tablissement", 
                                  "Date de fermeture de l'unit√© l√©gale"]].max(axis=1)


In [None]:
df[["Date de fermeture de l'√©tablissement",
    "Date de fermeture de l'unit√© l√©gale",
    "Date_fermeture_finale"]].head(10)


In [None]:
# üîπ Taux de NaN dans la colonne finale
taux_nan = df["Date_fermeture_finale"].isna().mean() * 100

print(f"Taux de NaN dans Date_fermeture_finale : {taux_nan:.2f}%")

##### Application de cette colonne au dataset

In [None]:
# üîπ Cr√©er la colonne finale
df["Date_fermeture_finale"] = df[["Date de fermeture de l'√©tablissement",
                                  "Date de fermeture de l'unit√© l√©gale"]].max(axis=1)

# üîπ Supprimer les deux anciennes colonnes
df.drop(columns=["Date de fermeture de l'√©tablissement",
                 "Date de fermeture de l'unit√© l√©gale"], inplace=True)


In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
# Nombre total de NaN dans la colonne finale
nb_nan = df["Date_fermeture_finale"].isna().sum()

print(f"Nombre de NaN dans Date_fermeture_finale : {nb_nan}")

In [None]:
# üîπ Afficher les lignes o√π Date_fermeture_finale est NaN
df_fermeture_manquante = df[df["Date_fermeture_finale"].isna()]

# Affichage des 10 premi√®res lignes pour v√©rification
df_fermeture_manquante.head(5)


In [None]:
# üîπ Supprimer les lignes o√π Date_fermeture_finale est NaN
df = df.dropna(subset=["Date_fermeture_finale"])

# V√©rification
print(f"Nombre de lignes apr√®s suppression : {len(df)}")


---

##### Nan restants

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

---

In [None]:
# Suppression des colonnes avec des Nan r√©siduels
cols_nan = [

    "G√©olocalisation de l'√©tablissement",
    "Code EPCI de l'√©tablissement",
    "Libell√© de l'EPCI de l'√©tablissement",
    "Code de l'arrondissement de l'√©tablissement",
    "Adresse de l'√©tablissement",
    "D√©partement de l'√©tablissement",
    "R√©gion de l'√©tablissement",
    "Code du d√©partement de l'√©tablissement",
    "Code de la r√©gion de l'√©tablissement",
    "Code postal de l'√©tablissement",
    "Code commune de l'√©tablissement",
    "Commune de l'√©tablissement",
    "Caract√®re employeur de l'√©tablissement",
    "D√©nomination de l'unit√© l√©gale"
]

df_clean = df.dropna(subset=cols_nan)

In [None]:
df_clean.isna().mean().sort_values(ascending=False)


In [None]:
print("Avant :", df.shape)
print("Apr√®s :", df_clean.shape)


### Fin de traitement des Nan

---

#### V√©rification des colonnes en doublon

In [None]:
df_clean.head(5)

---

In [None]:
correspondance = df_clean["NIC"] == df_clean["NIC du si√®ge de l'unit√© l√©gale"]
correspondance.sum()

In [None]:
df_clean.drop(columns=["NIC", "NIC du si√®ge de l'unit√© l√©gale"], inplace=True)
df_clean = df_clean.reset_index(drop=True)
df_clean.shape

In [None]:
df_clean.head(5)

#### Traitement des colonnes inutiles

In [None]:
df_clean = df_clean.drop(columns=["Tranche de l'effectif de l'unit√© l√©gale triable", 
                      "Cat√©gorie de l'entreprise", 
                      "Ann√©e de la cat√©gorie de l'entreprise", 
                      "Classe de l'√©tablissement",
                      "Section de l'unit√© l√©gale",
                      "Sous-section de l'unit√© l√©gale",
                      "Division de l'unit√© l√©gale",
                      "Groupe de l'unit√© l√©gale",
                      "Classe de l'unit√© l√©gale",
                      "Nombre de periodes de l'√©tablissement",
                      "Nomenclature de l'activit√© principale de l'unit√© l√©gale",
                      "Nomenclature principale de l'√©tablissement",
                      "Code de l'arrondissement de l'√©tablissement",])
df_clean.head()

---

In [None]:
df_clean.shape

#### Traitement de l'√©tat actif ou cess√©

In [None]:
df_clean['Etat administratif de l\'√©tablissement'].value_counts()

In [None]:
df_clean['Etat administratif de l\'unit√© l√©gale'].value_counts()

In [None]:
df_clean.drop(columns=["Etat administratif de l'√©tablissement"], inplace=True)
df_clean.shape

In [None]:
df_clean[df_clean["Etat administratif de l'unit√© l√©gale"] == "Active"].head()


#### Apr√®s v√©rification, les structures sont bien inactives. On drope.


In [None]:
df_clean = df_clean.drop(columns=["Etat administratif de l'unit√© l√©gale"])


In [None]:
df_clean.head(5)

In [None]:
df_clean.shape

In [None]:
df_clean.columns.to_list()

---

#### Traitement des SIREN et SIRET si√®ges

In [None]:
# V√©rification de l'unicit√© des SIREN et SIRET
df_clean['SIREN'].value_counts().sum()==df_clean['SIRET'].value_counts().sum()

In [None]:
correspondances = df_clean["SIRET"] == df_clean["SIRET du si√®ge de l'unit√© l√©gale"]

# Affiche le nombre de True / False
print(correspondances.value_counts())

In [None]:
df_clean.drop(columns=["SIRET du si√®ge de l'unit√© l√©gale"], inplace=True)
df_clean.shape

In [None]:
df_clean.dtypes

In [None]:
df_clean.head(5)

In [None]:
# Traitement pour la R√©gion
df_clean["Code de la r√©gion de l'√©tablissement"] = (
    df_clean["Code de la r√©gion de l'√©tablissement"]
    .astype(str)
    .str.replace('.0', '', regex=False)
)

# Traitement pour l'EPCI
df_clean["Code EPCI de l'√©tablissement"] = (
    df_clean["Code EPCI de l'√©tablissement"]
    .astype(str)
    .str.replace('.0', '', regex=False)
)

In [None]:
df_clean.dtypes

---

#### Traitement des dates aberrantes

In [None]:
# Seuil de date raisonnable, ici 2026
seuil_date = '2026-01-23'

# Nombre de lignes avec des dates trop √©lev√©es
nb_lignes_aberrantes = df_clean[df_clean['Date_fermeture_finale'] > seuil_date].shape[0]

print(f"Nombre de lignes avec des dates aberrantes : {nb_lignes_aberrantes}")


In [None]:
# On drop les lignes o√π la date de fermeture finale d√©passe le seuil
df_clean = df_clean[df_clean['Date_fermeture_finale'] <= seuil_date].copy()

# V√©rification rapide
print(f"Nouvelle taille du dataset : {df_clean.shape}")


---

#### Export en Parquet

In [None]:
# df_clean["Date de cr√©ation de l'unit√© l√©gale"] = pd.to_datetime(df_clean["Date de cr√©ation de l'unit√© l√©gale"], errors='coerce')

# df_clean.to_parquet("dataset_clean.parquet", index=False)