In [None]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import requests

In [None]:
df = pd.read_parquet("sas_sarl_ouvertes.parquet")
pd.set_option('display.max_columns', None)
df.head()

In [None]:
df.dtypes

---

##### Traitement des colonnes Dates en datetime

In [None]:
# # Liste des colonnes qui contiennent des dates
# date_cols = [
#     "Date de cr√©ation de l'√©tablissement",
#     "Date de la derni√®re mise √† jour de l'√©tablissement",
#     "Date du d√©but de la p√©riode de l'√©tablissement",
#     "Date de cr√©ation de l'unit√© l√©gale",
#     "Date de d√©but de l'unit√© l√©gale",
#     "Date de fermeture de l'unit√© l√©gale"
# ]

# # Conversion en datetime
# for col in date_cols:
#     df[col] = pd.to_datetime(df[col], errors="coerce")

# # V√©rifier
# df[date_cols].info()


In [None]:
# üîπ Cr√©er la colonne finale
df["Date_fermeture_finale"] = df[["Date de fermeture de l'unit√© l√©gale"]].max(axis=1)

# üîπ Supprimer l'ancienne colonne
df.drop(columns=["Date de fermeture de l'unit√© l√©gale"], inplace=True)

In [None]:
df.head()

---

#### Calul des tranches d'effectif

In [None]:
df["Tranche de l'effectif de l'unit√© l√©gale"].unique()

In [None]:
# Nettoyage des espaces √©ventuels
df["Tranche de l'effectif de l'unit√© l√©gale"] = df["Tranche de l'effectif de l'unit√© l√©gale"].str.strip()

# Mapping complet des tranches d'effectif √† des valeurs num√©riques
mapping = {
    "0 salari√©": 0,
    "Etablissement non employeur": 0,
    "1 ou 2 salari√©s": 1,
    "3 √† 5 salari√©s": 3,
    "6 √† 9 salari√©s": 6,
    "10 √† 19 salari√©s": 10,
    "20 √† 49 salari√©s": 20,
    "50 √† 99 salari√©s": 50,
    "100 √† 199 salari√©s": 100,
    "200 √† 249 salari√©s": 200,
    "250 √† 499 salari√©s": 250,
    "500 √† 999 salari√©s": 500,
    "1 000 √† 1 999 salari√©s": 1000
}

# Conversion avec map
df['Tranche_effectif_num'] = df["Tranche de l'effectif de l'unit√© l√©gale"].map(mapping).astype('Int64')

# V√©rification : quelles valeurs n'ont pas √©t√© mapp√©es
valeurs_non_mappees = df[df['Tranche_effectif_num'].isna()]["Tranche de l'effectif de l'unit√© l√©gale"].unique()
if len(valeurs_non_mappees) > 0:
    print("‚ö†Ô∏è Certaines valeurs n'ont pas √©t√© mapp√©es :", valeurs_non_mappees)
else:
    print("‚úÖ Toutes les valeurs ont √©t√© mapp√©es correctement.")

# V√©rification finale
df[["Tranche de l'effectif de l'unit√© l√©gale", "Tranche_effectif_num"]].head(10)


In [None]:
# dropper la colonne originale
df=df.drop(columns=['Tranche de l\'effectif de l\'unit√© l√©gale'])

In [None]:
df['Tranche_effectif_num'].value_counts()

##### Sortie des effectifs de plus de 49 salari√©s

In [None]:
df_filtered = df[df["Tranche_effectif_num"] < 50].copy()
df_filtered.shape

In [None]:
# V√©rification
df_filtered['Tranche_effectif_num'].value_counts()

---

##### Calcul de l'√¢ge estim√© avec arr√™t d'existence au 31/12/25 pour uniformisation

In [None]:
# Colonnes de d√©marrage
cols_dates = [
    "Date de cr√©ation de l'unit√© l√©gale",
    "Date de d√©but de l'unit√© l√©gale",
    "Date de cr√©ation de l'√©tablissement",
    "Date du d√©but de la p√©riode de l'√©tablissement"
]

# Param√®tres
borne_min = pd.Timestamp("1990-01-01") 
date_aberrante = pd.Timestamp("1900-01-01")
date_ref = pd.Timestamp("2025-12-31")

# --- √âtape 1 : nettoyage des dates aberrantes ---
for col in cols_dates:
    df_filtered[col] = pd.to_datetime(df_filtered[col], errors="coerce")
    df_filtered.loc[df_filtered[col] == date_aberrante, col] = pd.NaT
    df_filtered.loc[df_filtered[col] < borne_min, col] = pd.NaT

# --- √âtape 2 : calcul des √¢ges en ann√©es ---
df_filtered["age_unite_legale"] = (date_ref - df_filtered["Date de cr√©ation de l'unit√© l√©gale"]).dt.days / 365.25
df_filtered["age_debut_unite"] = (date_ref - df_filtered["Date de d√©but de l'unit√© l√©gale"]).dt.days / 365.25
df_filtered["age_etablissement"] = (date_ref - df_filtered["Date de cr√©ation de l'√©tablissement"]).dt.days / 365.25

# --- √âtape 3 : estimation unique de l'anciennet√© ---

df_filtered["age_estime"] = df_filtered[["age_unite_legale", "age_debut_unite", "age_etablissement"]].max(axis=1)

# --- √âtape 3b : convertir en entier ---
df_filtered["age_estime"] = df_filtered["age_estime"].round(0).astype("Int64")

# --- √âtape 4 : indicateur de fiabilit√© ---
df_filtered["age_estime_incertain"] = df_filtered[cols_dates].isna().all(axis=1).astype(int)

# --- √âtape 5 : suppression des colonnes brutes pour un dataset compact ---
df_filtered = df_filtered.drop(columns=cols_dates + ["age_unite_legale", "age_debut_unite", "age_etablissement"])

# --- V√©rification rapide ---
df_filtered[["age_estime", "age_estime_incertain"]].head()

In [None]:
df_filtered['age_estime_incertain'].value_counts()

In [None]:
df_filtered=df_filtered.drop(columns=['age_estime_incertain'])
df_filtered.head()

#### Visu de la distribution des √¢ges

In [None]:
# visu de la distribution
fig = px.box(
    df_filtered,
    y="age_estime",
    title="Boxplot de l'age des soci√©t√©s"
)

fig.show()

##### Plafonnement aux outliers

In [None]:
# Supprimer les soci√©t√©s de plus de 28 ans
df_filtered =df_filtered[(df_filtered['age_estime'] < 36)].copy()
df_filtered.head()

#### Visu de la r√©partition des √¢ges et effectifs

In [None]:
# Comptage du nombre de soci√©t√©s par √¢ge
age_counts = df_filtered["age_estime"].value_counts().sort_index().reset_index()
age_counts.columns = ["age", "nombre_societes"]

# Barplot interactif
fig = px.bar(
    age_counts,
    x="age",
    y="nombre_societes",
    title="R√©partition du nombre de soci√©t√©s existantes par √¢ge",
    labels={"age": "√Çge (ann√©es)", "nombre_societes": "Nombre de soci√©t√©s"},
    text="nombre_societes",
    height=500,
    width=1200
)

# Affichage du nombre sur les barres
fig.update_traces(textposition="outside")

# Affichage
fig.show()

In [None]:
# Grouper par √¢ge et tranche d'effectif
df_counts = (
    df_filtered.groupby(['age_estime', 'Tranche_effectif_num'])
      .size()
      .reset_index(name='nombre_societes')
)

# Ordre croissant des tranches d'effectif
effectif_order = sorted(df_counts["Tranche_effectif_num"].unique())

# Scatter interactif avec √©chelle de couleurs adapt√©e
fig = px.scatter(
    df_counts,
    x='age_estime',
    y='Tranche_effectif_num',
    size='nombre_societes',
    color='nombre_societes',              
    color_continuous_scale='Viridis',       
    hover_data=['nombre_societes'],
    title="Nombre de soci√©t√©s existantes par √¢ge et tranche d'effectif",
    labels={
        'age_estime': "√Çge estim√© (ann√©es)",
        'Tranche_effectif_num': "Tranche d'effectif",
        'nombre_societes': "Nombre de soci√©t√©s"
    },
    size_max=40,
    height=600,
    width=1200
)

fig.update_yaxes(type='category', categoryorder='array', categoryarray=effectif_order)

fig.show()

---

#### Traitement de l'existence des structures

In [None]:
df_filtered["Etat administratif de l\'unit√© l√©gale"].value_counts()

In [None]:
df_fermee = df_filtered[df_filtered["Etat administratif de l'unit√© l√©gale"] == "Cess√©e"]
df_fermee

In [None]:
# Structure inactive, dropp√©e

df_filtered = df_filtered[df_filtered["Etat administratif de l'unit√© l√©gale"] != "Cess√©e"]

In [None]:
# V√©rification finale
df_filtered["Etat administratif de l\'unit√© l√©gale"].value_counts()

In [None]:
# Drop de la colonne
df_filtered = df_filtered.drop(columns=["Etat administratif de l'unit√© l√©gale"])
df_filtered.head()

---

##### Traitement du Code postal

In [None]:
df_filtered.dtypes

In [None]:
# Correction du cha√Ænage et fermeture de la parenth√®se
df_filtered["Date de la derni√®re mise √† jour de l'√©tablissement"] = (
    pd.to_datetime(
        df_filtered["Date de la derni√®re mise √† jour de l'√©tablissement"],
        errors="coerce",
        utc=True       
    )
    .dt.tz_convert(None)
    .dt.normalize()      
)

# Affichage des premi√®res lignes
print(df_filtered.head())

---

In [None]:
df_filtered["Date de la derni√®re mise √† jour de l\'√©tablissement"].value_counts(ascending=True)

##### Les dates de derni√®re mise √† jour ne sont pas aberrante, pas de drops de lignes, mais drop de la colonne devenue inutile.

In [None]:
df_filtered.drop(
    columns=["Date de la derni√®re mise √† jour de l'√©tablissement"],
    inplace=True
)
df_filtered.head()

---

#### Visu de la r√©partition selon la cat√©gorie juridique

In [None]:
df_filtered.columns.to_list()

In [None]:
# Comptage par nature juridique
counts = df_filtered["Nature juridique de l'unit√© l√©gale"].value_counts()

# Pie chart
plt.figure()
plt.pie(
    counts,
    labels=counts.index,
    autopct="%1.1f%%",
    startangle=90
)
plt.title("R√©partition selon la nature juridique")
plt.axis("equal")
plt.show()

##### Drop de la colonne cat√©gorielle de la cat√©gorie, la colonne num√©rique √©tant conserv√©e et √©vitant les doublons

In [None]:
df_filtered.drop(
    columns=["Nature juridique de l'unit√© l√©gale"],
    inplace=True
)
df_filtered.head()

---

#### Traitement de la g√©olocalisation

In [None]:
df_map = df_filtered.copy()

coords = df_map["G√©olocalisation de l'√©tablissement"].str.split(",", expand=True)
df_map["latitude"] = coords[0].astype(float)
df_map["longitude"] = coords[1].astype(float)

df_map=df_map.drop(columns=['G√©olocalisation de l\'√©tablissement'])

df_map.head()

---

##### Heatmap des soci√©t√©s ouvertes

In [None]:
df_dep = (
    df_map.groupby("Code du d√©partement de l'√©tablissement")
      .size()
      .reset_index(name="nb_etablissements")
)
df_dep.head()


In [None]:
# 1Ô∏è‚É£ Charger le GeoJSON des d√©partements depuis le web
url = "https://france-geojson.gregoiredavid.fr/repo/departements.geojson"
r = requests.get(url)
geojson_dep = r.json()

# 2Ô∏è‚É£ Pr√©parer les donn√©es : compter les √©tablissements par d√©partement
df_dep = df.groupby("Code du d√©partement de l'√©tablissement").size().reset_index(name="nb_etablissements")

# 3Ô∏è‚É£ S'assurer que les codes sont bien au format 2 caract√®res
df_dep["Code du d√©partement de l'√©tablissement"] = df_dep["Code du d√©partement de l'√©tablissement"].astype(str).str.zfill(2)

# 4Ô∏è‚É£ Cr√©er la carte choropl√®the
fig = px.choropleth(
    df_dep,
    geojson=geojson_dep,
    locations="Code du d√©partement de l'√©tablissement",
    featureidkey="properties.code",
    color="nb_etablissements",
    color_continuous_scale="Reds",
    scope="europe",
    labels={"nb_etablissements": "Nombre d'√©tablissements"},
    title="R√©partition des √©tablissements par d√©partement",
    width=800,
)

# 5Ô∏è‚É£ Ajuster l'affichage
fig.update_geos(fitbounds="locations", visible=False)
fig.update_layout(margin={"r":0, "t":40, "l":0, "b":0})

fig.show()

---

##### Visu des activit√©s

In [None]:
ape_counts=df_map["Activit√© principale de l'unit√© l√©gale"].value_counts()
ape_percent = ape_counts / ape_counts.sum() * 100

ape_percent.head(30)

In [None]:
top_30 = ape_counts.sort_values(ascending=False).head(30)

plt.figure(figsize=(10,8))
plt.barh(top_30.index[::-1], top_30.values[::-1], color='skyblue')
plt.xlabel("Nombre d'√©tablissements")
plt.ylabel("Code APE")
plt.title("Top 30 des codes APE les plus fr√©quents des soci√©t√©s ouvertes")
plt.tight_layout()
plt.show()

##### Import des codes APE officiels pour analyse des secteurs

In [None]:
ape=pd.read_csv('codes_ape.csv')
ape.head()

In [None]:
# --- √âtape 1 : cr√©er une colonne "ape_section" avec les 2 premiers chiffres ---

df_map["Activit√© principale de l'unit√© l√©gale"] = df_map["Activit√© principale de l'unit√© l√©gale"].astype(str)

# On prend les 2 premiers chiffres du code APE
df_map["ape_section"] = df_map["Activit√© principale de l'unit√© l√©gale"].str[:2]

# --- √âtape 2 : pr√©parer le mapping avec ton fichier ape ---

ape["code_ape"] = ape["code_ape"].astype(str)

# On ne garde que les sections de 2 caract√®res pour le mapping
ape_sections = ape[ape["code_ape"].str.len() == 2][["code_ape", "libelle_ape"]]

# --- √âtape 3 : fusionner pour ajouter le libell√© de la section ---
df_map = df_map.merge(ape_sections, how="left", left_on="ape_section", right_on="code_ape")

# On peut renommer la colonne si n√©cessaire
df_map = df_map.rename(columns={"libelle_ape": "libelle_section_ape"})

# --- V√©rification ---
df_map[["Activit√© principale de l'unit√© l√©gale", "ape_section", "libelle_section_ape"]].head(10)

In [None]:
print(df_map["libelle_section_ape"].isna().sum())

##### Nouveaux visus selon regroupement par secteur d'activit√©

In [None]:
# --- √âtape 1 : compter le nombre d'entreprises par section APE ---
section_counts = df_map.groupby("ape_section") \
                   .size() \
                   .reset_index(name="nombre_entreprises")

# --- √âtape 2 : r√©cup√©rer le libell√© correspondant pour chaque section ---

libelles = df_map.groupby("ape_section")["libelle_section_ape"].first().reset_index()
section_counts = section_counts.merge(libelles, on="ape_section")

# --- √âtape 3 : trier par ordre d√©croissant et prendre les 20 premi√®res ---
section_counts = section_counts.sort_values("nombre_entreprises", ascending=False).head(20)

# --- √âtape 4 bis : visualiser avec un barplot interactif avec les plus grandes valeurs en haut ---
fig = px.bar(
    section_counts,
    y="libelle_section_ape",
    x="nombre_entreprises",
    title="Top 20 des sections APE par nombre d'entreprises ouvertes",
    labels={"libelle_section_ape": "Secteur d'activit√©", "nombre_entreprises": "Nombre d'entreprises"},
    text="nombre_entreprises",
    height=600,
    width=1600,
    category_orders={"libelle_section_ape": section_counts.sort_values("nombre_entreprises", ascending=False)["libelle_section_ape"].tolist()}
)

# Pour rendre le texte lisible
fig.update_traces(textposition="outside")

# Ajustement des marges pour les labels longs
fig.update_layout(xaxis_tickangle=-45, margin=dict(l=200))

fig.show()

##### Selon age et effectif

In [None]:
# --- √âtape 1 : filtrer uniquement les 30 sections les plus nombreuses ---
top_sections = section_counts['ape_section'].tolist()
df_top = df_map[df_map['ape_section'].isin(top_sections)]

# --- √âtape 2 : calculer l'√¢ge moyen par section ---
age_moyenne = df_top.groupby(['ape_section', 'libelle_section_ape'])['age_estime'].mean().reset_index()
age_moyenne = age_moyenne.rename(columns={'age_estime': 'age_moyen'})

# --- √âtape 3 : fusionner avec le nombre d'entreprises pour le graphique ---
age_moyenne = age_moyenne.merge(section_counts[['ape_section', 'nombre_entreprises']], on='ape_section')

# --- √âtape 4 : barplot interactif avec palette rouge ‚Üí vert ‚Üí bleu ---
fig = px.bar(
    age_moyenne,
    y='libelle_section_ape',
    x='nombre_entreprises',
    color='age_moyen',                      
    text='age_moyen',
    title="Top 20 sections APE soci√©t√©s ouvertes : nombre d'entreprises et √¢ge moyen",
    labels={
        'libelle_section_ape': "Secteur d'activit√©",
        'nombre_entreprises': "Nombre d'entreprises",
        'age_moyen': "√Çge moyen (ann√©es)"
    },
    height=600,
    width=1500,
    category_orders={"libelle_section_ape": age_moyenne.sort_values("nombre_entreprises", ascending=False)["libelle_section_ape"].tolist()},
    color_continuous_scale=['red','green','blue']
)

# Rendre le texte lisible
fig.update_traces(texttemplate='%{text:.1f}', textposition='outside')

# Ajuster les marges pour les labels longs
fig.update_layout(xaxis_tickangle=-45, margin=dict(l=200))

fig.show()

#### Exploration dur√©e moyenne selon les 20 secteurs les plus repr√©sent√©s

In [None]:
# --- √âtape 1 : calculer la moyenne du nombre de p√©riodes par section ---
moyennes_age = df_map.groupby("ape_section")["age_estime"] \
                      .mean() \
                      .round(2) \
                      .reset_index(name="moyenne_age")

# --- √âtape 2 : ne garder que les 20 sections les plus fr√©quentes ---
top20_sections = section_counts["ape_section"]
moyennes_top20 = moyennes_age[moyennes_age["ape_section"].isin(top20_sections)]

# --- √âtape 3 : ajouter le libell√© pour plus de lisibilit√© ---
moyennes_top20 = moyennes_top20.merge(
    section_counts[["ape_section", "libelle_section_ape"]],
    on="ape_section"
)

# --- √âtape 4 : afficher le r√©sultat tri√© par moyenne d√©croissante ---
moyennes_top20 = moyennes_top20.sort_values("moyenne_age", ascending=False)
moyennes_top20

In [None]:
# --- On trie les donn√©es par moyenne d√©croissante ---
moyennes_top20_sorted = moyennes_top20.sort_values("moyenne_age", ascending=False)

# --- Graphique ---
fig = px.bar(
    moyennes_top20_sorted,
    y="libelle_section_ape",
    x="moyenne_age",
    title="Moyenne du nombre d'ann√©es par secteur (Top 20)",
    labels={
        "libelle_section_ape": "Secteur d'activit√©",
        "moyenne_age": "Moyenne du nombre d'ann√©es"
    },
    text="moyenne_age",
    height=600,
    width=1700,
    category_orders={"libelle_section_ape": moyennes_top20_sorted["libelle_section_ape"].tolist()}
)

# Texte √† l'ext√©rieur et ajustement des marges
fig.update_traces(textposition="outside")
fig.update_layout(
    xaxis_tickangle=-45,
    margin=dict(l=200),
    xaxis=dict(range=[8, 17])
)

fig.show()

---

In [None]:
df_map.head()

In [None]:
df_map=df_map.drop(columns=['ape_section'])

df_map.head()

---

In [None]:
df_map.shape

---

#### Rajout d'une colonne "statut" = 0 pour d√©finir la non-fermeture

In [None]:
df_map['fermeture']=0
df_map.head()

---

##### Traitement des Nan restants

In [None]:
# Calculer le pourcentage de NaN par colonne
nan_percent = df_map.isna().mean() * 100

# S√©lectionner seulement les colonnes avec au moins un NaN
nan_columns = nan_percent[nan_percent > 0].sort_values(ascending=False)

# Afficher
print(nan_columns)

In [None]:
df_map = df_map.dropna()


In [None]:
df_map.head()

In [None]:
df_map.shape

In [None]:
df_map.dtypes

---

In [None]:
# Derni√®re v√©rification des codes de d√©partement
print(df_map["Code du d√©partement de l'√©tablissement"].unique())

##### Export en parquet

In [None]:
# df_map.to_parquet("dataset_open_final.parquet", index=False)