In [None]:
import pandas as pd

In [None]:
# MODIFICATION : Ajoute le dictionnaire de types ici
types_fixes = {
    "Code postal de l'√©tablissement": str,
    "Code du d√©partement de l'√©tablissement": str,
    "SIREN": str,
    "Code commune de l'√©tablissement": str
}

df = pd.read_csv("data.csv", dtype=types_fixes, sep=";", low_memory=False)
pd.set_option('display.max_columns', None)
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

---

#### V√©rification des SIREN, NIC pour valider les drop

In [None]:
# On s'assure que les colonnes sont comparables (en string sans le .0)
siret_str = df["SIRET"].astype(str).str.replace(r'\.0$', '', regex=True).str.zfill(14)
siege_str = df["SIRET du si√®ge de l'unit√© l√©gale"].astype(str).str.replace(r'\.0$', '', regex=True).str.zfill(14)

# 1. V√©rification de la concordance SIRET ‚Üî SIRET du si√®ge

siret_ok = (siret_str == siege_str)

# 2. V√©rification de la coh√©rence SIREN ‚Üî SIRET
siren_nunique = df["SIREN"].nunique()
siret_nunique = df["SIRET"].nunique()

# R√©sum√©
print(f"Nombre de SIREN uniques : {siren_nunique}")
print(f"Nombre de SIRET uniques : {siret_nunique}")
print("Coh√©rence SIREN / SIRET (SIREN <= SIRET) :", siren_nunique <= siret_nunique)

# Optionnel : combien d'√©tablissements sont des si√®ges ?
print(f"Nombre de si√®ges identifi√©s : {siret_ok.sum()}")

In [None]:
# On cr√©e un masque bool√©en s√©curis√©

is_siege = (
    df["SIRET"].astype(str).str.replace(r'\.0$', '', regex=True) == 
    df["SIRET du si√®ge de l'unit√© l√©gale"].astype(str).str.replace(r'\.0$', '', regex=True)
)

sieges_par_siren = (
    df[is_siege]
    .groupby("SIREN")
    .size()
)

print("Tous les SIREN ont un seul si√®ge :", (sieges_par_siren == 1).all())


---

#### Drop des colonnes inutiles selon l'√©tudes des soci√©t√©s ferm√©es

In [None]:
# Liste des colonnes √† supprimer
colonnes_a_drop = [
    
    "Libell√© cedex de l'√©tablissement",
    "Numero de voie de l'√©tablissement 2",
    "Distribution sp√©ciale de l'√©tablissement",
    "Libell√© du pays de l'√©tablissement √©tranger.1",
    "Pr√©nom usuel de la personne physique",
    "Pr√©nom de la personne physique 3",
    "Indice de r√©p√©tition de l'√©tablissement 2",
    "Compl√©ment d'adresse de l'√©tablissement 2",
    "Code cedex de l'√©tablissement",
    "Code pays de l'√©tablissement",
    "Libell√© cedex de l'√©tablissement 2",
    "Code cedex de l'√©tablissement 2",
    "Code de la commune de l'√©tablissement 2",
    "Distribution sp√©ciale de l'√©tablissement 2",
    "Libell√© de la commune de l'√©tablissement √©tranger 2",
    "Libell√© de la commune de l'√©tablissement 2",
    "Code postal de l'√©tablissement 2",
    "Libell√© de la voie de l'√©tablissement 2",
    "Type de voie de l'√©tablissement 2",
    "Pseudonyme de la personne physique",
    "Pr√©nom de la personne physique 1",
    "Civilit√© de la personne physique",
    "Pr√©nom de la personne physique 4",
    "Caract√®re employeur de l'unit√© l√©gale",
    "Premi√®re ligne de l'adressage",
    "Nom de la personne physique",
    "Nom d'usage de la personne physique",
    "Pr√©nom de la personne physique 2",
    "Unit√© l√©gale purg√©e",
    "Libell√© de la commune de l'√©tablissement √† l'√©tranger",
    "Code du pays de l'√©tablissement √©tranger",
    "Identifiant association de l'unit√© l√©gale",
    "Libell√© du pays de l'√©tablissement √©tranger",
    "D√©nomination usuelle de l'unit√© l√©gale 3",
    "Enseigne de l'√©tablissement 3",
    "D√©nomination usuelle de l'unit√© l√©gale 2",
    "Enseigne de l'√©tablissement 2",
    "Soci√©t√© √† mission unit√© l√©gale",
    "Indice de r√©p√©tition de l'√©tablissement",
    "D√©nomination usuelle de l'unit√© l√©gale 1",
    "Sigle de l'unit√© l√©gale",
    "Enseigne de l'√©tablissement 1",
    "Compl√©ment d'adresse de l'√©tablissement",
    "Ann√©e de la tranche d'effectif de l'√©tablissement",
    "D√©nomination usuelle de l'√©tablissement",
    "Activit√© principale de l'√©tablissement",
    "Ann√©e de la tranche de l'effectif de l'unit√© l√©gale",
    "Etablissement si√®ge",
    "Statut de diffusion de l'√©tablissement",
    "Statut de diffusion de l'unit√© l√©gale",
    "Tranche de l'effectif de l'√©tablissement",
    "Tranche de l'effectif de l'√©tablissement triable",
    "Num√©ro de voie de l'√©tablissement",
    "Type de voie de l'√©tablissement",
    "Libell√© de la voie de l'√©tablissement",
    "NIC",
    "SIRET",
    "NIC du si√®ge de l'unit√© l√©gale",
    "Activit√© principale de l'√©tablissement.1",

    "Commune de l'√©tablissement",
    "Caract√®re employeur de l'√©tablissement",
    "Date du dernier traitement de l'unit√© l√©gale",
    "Nombre de p√©riodes de l'unit√© l√©gale",
    "Etat administratif de l'√©tablissement",

    "Code EPCI de l'√©tablissement",
    "Libell√© de l'EPCI de l'√©tablissement",
    "D√©partement de l'√©tablissement",
    "R√©gion de l'√©tablissement",
    "Section de l'√©tablissement",
    "Sous-section de l'√©tablissement",
    "Division de l'√©tablissement",
    "Groupe de l'√©tablissement",
    "Adresse de l'√©tablissement",
    "SIRET du si√®ge de l'unit√© l√©gale",
    "Date de fermeture de l'√©tablissement",   


    "Tranche de l'effectif de l'unit√© l√©gale triable", 
    "Cat√©gorie de l'entreprise", 
    "Ann√©e de la cat√©gorie de l'entreprise", 
    "Classe de l'√©tablissement",
    "Section de l'unit√© l√©gale",
    "Sous-section de l'unit√© l√©gale",
    "Division de l'unit√© l√©gale",
    "Groupe de l'unit√© l√©gale",
    "Classe de l'unit√© l√©gale",
    "Nombre de periodes de l'√©tablissement",
    "Nomenclature de l'activit√© principale de l'unit√© l√©gale",
    "Nomenclature principale de l'√©tablissement",
    "Code de l'arrondissement de l'√©tablissement",
    
]

# Supprimer les colonnes
df = df.drop(columns=colonnes_a_drop)

# V√©rification de la nouvelle taille du dataset
print(f"Dimensions apr√®s nettoyage : {df.shape}")

In [None]:
df.head()

In [None]:
df.columns.to_list()

---

#### Filtrage des SAS et SARL

In [None]:
# üîπ √âtape 1 : filtrer uniquement SAS et SARL exacte
sas_sarl_values = [
    "SAS, soci√©t√© par actions simplifi√©e",
    "Soci√©t√© √† responsabilit√© limit√©e (sans autre indication)"
]

df_filtered = df[df["Nature juridique de l'unit√© l√©gale"].isin(sas_sarl_values)]
# üîπ √âtape 2 : v√©rification rapide

print("Formes juridiques retenues :")
print(df_filtered["Nature juridique de l'unit√© l√©gale"].value_counts())

In [None]:
df_filtered.shape

---

#### Examen des valeurs pour d√©cisions √† prendre

In [None]:
df_filtered.head()

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df_filtered.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

In [None]:
df_filtered['Economie sociale et solidaire unit√© l√©gale'].value_counts()

##### Remplacement des Nan dans l'ESS par des N

In [None]:
df_filtered['Economie sociale et solidaire unit√© l√©gale'] = (
    df_filtered['Economie sociale et solidaire unit√© l√©gale']
    .fillna("N")
)


In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df_filtered.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

In [None]:
df_filtered['Date de fermeture de l\'unit√© l√©gale'].value_counts()

In [None]:
df_filtered = df_filtered[df_filtered["Date de fermeture de l'unit√© l√©gale"].isna()]


In [None]:
# Incr√©mation d'un Nan pour la Date de fermeture : les soci√©t√©s sont ouvertes
df_filtered["Date de fermeture de l'unit√© l√©gale"].value_counts(dropna=False)


---

#### Remplacement de la date de fermeture par le 31 d√©cembre 2025 en pr√©vision du calcul de l'√¢ge des soci√©t√©s.

In [None]:
df_filtered["Date de fermeture de l'unit√© l√©gale"] = "2025-12-31"


In [None]:
df_filtered.head()

#### Nan restants √† traiter dans le second notebook

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df_filtered.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

In [None]:
df_filtered.shape

---

In [None]:
df_filtered.dtypes

In [None]:
# 1. On r√®gle le cas du Code R√©gion (84.0 -> "84")
df_filtered["Code de la r√©gion de l'√©tablissement"] = (
    df_filtered["Code de la r√©gion de l'√©tablissement"]
    .astype(str)
    .str.replace(r'\.0$', '', regex=True)
)

# 2. Conversion en datetime (pour que le format Parquet les reconnaisse)

cols_dates = [
    "Date de cr√©ation de l'√©tablissement", 
    "Date de cr√©ation de l'unit√© l√©gale", 
    "Date de fermeture de l'unit√© l√©gale"
]

for col in cols_dates:
    df_filtered[col] = pd.to_datetime(df_filtered[col], errors='coerce')

df_filtered.dtypes

In [None]:
df_filtered.head()

##### Export Parquet

In [None]:
# # 3. Exportation finale en Parquet
# df_filtered.to_parquet("sas_sarl_ouvertes.parquet", index=False)