In [1]:
# 📦 Imports nécessaires
import pandas as pd

In [2]:
# 📂 Chargement des données
df = pd.read_csv("output/jobs_infos.csv")

In [4]:
# 🧼 Nettoyage basique des TJM
df["TJM_min"] = df["TJM"].str.extract(r'(\d+)\s*€')
df["TJM_max"] = df["TJM"].str.extract(r'(\d+)[^0-9]+(\d+)').iloc[:,1]
df["TJM_min"] = pd.to_numeric(df["TJM_min"], errors="coerce")
df["TJM_max"] = pd.to_numeric(df["TJM_max"], errors="coerce")
df["TJM_moyen"] = df[["TJM_min", "TJM_max"]].mean(axis=1)

# 🧼 Nettoyage des durées
df["DURATION_clean"] = df["DURATION"].str.extract(r'(\d+)').astype(float)

# 📊 Statistiques générales
print("📌 Nombre total d'offres :", len(df))
print("\n📌 TJM moyen (hors NaN) :", round(df["TJM_moyen"].mean(), 2), "€")

# 📌 Durée moyenne (en mois)
print("\n📌 Durée moyenne (en mois) :", round(df["DURATION_clean"].mean(), 2))

# 📌 Répartition par expérience
print("\n📌 Répartition des niveaux d'expérience :")
print(df["EXPERIENCE"].value_counts())

# 📌 Répartition géographique
print("\n📌 Répartition géographique :")
print(df["LOCATION"].value_counts())

# 📌 Aperçu des offres triées par TJM
print("\n📌 Top offres par TJM moyen :")
print(df[["TITLE", "TJM_moyen"]].sort_values(by="TJM_moyen", ascending=False))

# 📌 Missions sans TJM ou durée renseignée
print("\n📌 Offres sans TJM ou durée renseignée :")
print(df[df["TJM_moyen"].isna() | df["DURATION_clean"].isna()][["TITLE", "TJM", "DURATION"]])

📌 Nombre total d'offres : 16

📌 TJM moyen (hors NaN) : 510.0 €

📌 Durée moyenne (en mois) : 8.36

📌 Répartition des niveaux d'expérience :
EXPERIENCE
5 à 10 ans d’expérience    10
> 10 ans d’expérience       3
2 à 5 ans d’expérience      2
< 2 ans d’expérience        1
Name: count, dtype: int64

📌 Répartition géographique :
LOCATION
Paris, France                          3
Paris, Île-de-France                   2
France                                 2
Saint-Herblain, Pays de la Loire       2
Montpellier, Occitanie                 1
Lille, Hauts-de-France                 1
Provence-Alpes-Côte d'Azur, France     1
Grand Est, France                      1
Toulouse, Occitanie                    1
Bagneux, Île-de-France                 1
Gémenos, Provence-Alpes-Côte d'Azur    1
Name: count, dtype: int64

📌 Top offres par TJM moyen :
                                                TITLE  TJM_moyen
3   Lead Architect: Initiative and Team Leadership...      850.0
6                   Digital 