In [1]:
import s3fs
import pandas as pd

In [2]:
# Information d'accès au cloud MinIO (Bucket de William)
fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": "https://minio.lab.sspcloud.fr"})
MY_BUCKET = "williamolivier"

In [None]:
# Vérification du contenu
fs.ls(f"{MY_BUCKET}/diffusion")

In [None]:
# Récupération des tableaux
FILE_PATH_S3_DCB = f"{MY_BUCKET}/diffusion/df_dossier_complet_brut.csv"
with fs.open(FILE_PATH_S3_DCB, "rb") as file:
    df_dossier_complet_brut = pd.read_csv(file)

# Récupération des tableaux
FILE_PATH_S3_MDCB = f"{MY_BUCKET}/diffusion/df_meta_dossier_complet_brut.csv"
with fs.open(FILE_PATH_S3_MDCB, "rb") as file:
    df_meta_dossier_complet_brut = pd.read_csv(file)

# Récupération des tableaux
FILE_PATH_S3_MB = f"{MY_BUCKET}/diffusion/df_mobpro_brut.csv"
with fs.open(FILE_PATH_S3_MB, "rb") as file:
    df_mobpro_brut = pd.read_csv(file)

# Récupération des tableaux
FILE_PATH_S3_MMB = f"{MY_BUCKET}/diffusion/df_meta_mobpro_brut.csv"
with fs.open(FILE_PATH_S3_MMB, "rb") as file:
    df_meta_mobpro_brut = pd.read_csv(file)

In [None]:
df_mobpro_brut.sample()

In [None]:
## Noms des colonnes de la matrice : 
## COMMUNE Département et commune du lieu de résidence
## ARM Arrondissement municipal de résidence (Paris, Lyon et Marseille)
#D CFLT Commune frontalière du lieu de travail
## DCLT Département, commune et arrondissement municipal (Paris, Lyon, Marseille) du lieu de travail
## AGEREVQ Âge quinquennal en années révolues
## CS1 Catégorie socioprofessionnelle en 8 postes
## DEROU Nombre de deux-roues à moteur du ménage (DOM)
## DIPL_15 Diplôme le plus élevé
## EMPL Condition d'emploi
## ILTUU Indicateur urbain du lieu de travail
## ILT Indicateur du lieu de travail
## IMMI Situation quant à l'immigration
## INATC Indicateur de nationalité condensé (Français/Étranger)
## INEEM Nombre d'élèves, étudiants ou stagiaires âgés de 14 ans ou plus du ménage
## INPOM Nombre de personnes actives ayant un emploi du ménage
## INPSM Nombre de personnes scolarisées du ménage
## IPONDI Poids de l'individu
## LPRM Lien à la personne de référence du ménage
## METRODOM Indicateur Métropole ou DOM du lieu de résidence
## MOCO Mode de cohabitation
## NA5 Activité économique regroupée en 5 postes
## NPERR Nombre de personnes du ménage (regroupé)
## REGION Région du lieu de résidence
## REGLT Région du lieu de travail
## SEXE Sexe
## STAT Statut professionnel
## STOCD Statut d'occupation détaillé du logement
## TP Temps de travail
## TRANS Mode de transport principal le plus souvent utilisé pour aller travailler
## TYPL Type de logement
## TYPMR Type de ménage regroupé (en 9 postes)
## VOIT Nombre de voitures du ménage

In [6]:
# Homogénéisation des codes insee (tous en chaîne de caractère)
df_mobpro_brut["COMMUNE"] = df_mobpro_brut["COMMUNE"].astype(str).str.zfill(5)
df_mobpro_brut["DCLT"] = df_mobpro_brut["DCLT"].astype(str).str.zfill(5)

La fonction ci-dessous permet d'obtenir un premier tableau regroupant ceratines informations par commune :
- Nombre de personnes du ménage (regroupé) (NPER)
- Nombre de personnes scolarisées du ménage (INPSM)
- Nombre de personnes actives ayant un emploi du ménage (INPOM)
- Nombre d'élèves, étudiants ou stagiaires âgés de 14 ans ou plus du ménage (INEEM)
- Indicateur du lieu de travail (ILT)
(1 Dans la commune de résidence actuelle
2 Dans une autre commune du département de résidence
3 Dans un autre département de la région de résidence
4 Hors de la région de résidence actuelle : en métropole
5 Hors de la région de résidence actuelle : dans un DOM
6 Hors de la région de résidence actuelle : dans une COM
7 A l'étranger)
Pas forcément le meilleur indicateur de pollution potentiellement engendrée pour se rendre au travail. Pour un frontalier qui se rend au travail à l'étranger, il sera catégorie 7 alors que son lieu de travail peut se trouver à quelques centaines de mètres de chez lui.

In [7]:
# Conversion des colonnes en numérique
df_mobpro_brut['NPERR'] = pd.to_numeric(df_mobpro_brut['NPERR'], errors='coerce')
df_mobpro_brut['INPSM'] = pd.to_numeric(df_mobpro_brut['INPSM'], errors='coerce')
df_mobpro_brut['INPOM'] = pd.to_numeric(df_mobpro_brut['INPOM'], errors='coerce')
df_mobpro_brut['INEEM'] = pd.to_numeric(df_mobpro_brut['INEEM'], errors='coerce')

# Création des agrégations de base : les données ne seront plus par ménage mais par ville
mobpro_villes = df_mobpro_brut.groupby('COMMUNE').agg({
    'NPERR': 'sum',
    'INPSM': 'sum',
    'INPOM': 'sum',
    'INEEM': 'sum'})

# Créons d'abord un DataFrame temporaire pour chaque valeur d'ILT
for i in range(1, 8):
    # Grouper par COMMUNE et compter les occurrences où ILT == str(i)
    temp_count = df_mobpro_brut[df_mobpro_brut['ILT'] == i].groupby('COMMUNE').size()
    # Ajouter cette série au DataFrame principal
    mobpro_villes[f'ILT_{i}'] = temp_count

# Remplir les valeurs manquantes (NaN) par 0
mobpro_villes = mobpro_villes.fillna(0)

# Réinitialisation de l'index
mobpro_villes = mobpro_villes.reset_index()


In [None]:
mobpro_villes

In [None]:
# Création d'une table croisée dynamique pour compter les déplacements
matrice_flux = pd.crosstab(df_mobpro_brut['COMMUNE'], df_mobpro_brut['DCLT'])

# Conversion en DataFrame pour plus de clarté
matrice_flux = pd.DataFrame(matrice_flux)

# matrice_flux = matrice_flux.reset_index() si jamais on veut réinitialiser l'index pour avoir COMMUNE comme colonne

print("Dimensions de la matrice :", matrice_flux.shape)

In [None]:
matrice_flux

In [11]:
def flux(ville_a,ville_b):
    ## Prends en arg deux codes insee en chaîne de caractère et renvoie le nombre de commute entre ces deux villes
    flux = matrice_flux.loc[ville_a, ville_b]
    print(f"Nombre de personnes se déplaçant de {ville_a} vers {ville_b} : {flux}")


In [None]:
flux('78220', '75108')

In [None]:
Problème:
Pour COMMUNE (commune de résidence) on a uniquement 75056 pour Paris (idem pour Lyon et Marseille sûrement)
Pour DCLT (commune de travail) on a un découpage en arrondissement avec les codes 75101,... pour Paris (idem pour Lyon et Marseille sûrement)
