# Contexte

## Projet final Jedha bootcamp data Analyste fullstack 

Analyse des effets des transitions professionnelles en 2022 sur les métiers en tension:
            - Analyse de la tension sur les métiers (historique des données de 2011 à 2022)
            - Analyse des reconversions : volume, répartition, secteurs....
            - Focus sur les demandeurs d'emploi : secteurs concernés par les retours à l'emploi et la génération de nouveaux demandeurs 
            d'emploi
            - carte d'identité du profil type de la personne en reconversion


## source des données: 

https://dares.travail-emploi.gouv.fr/donnees/transitions-professionnelles

https://dares.travail-emploi.gouv.fr/publication/les-tensions-sur-le-marche-du-travail-en-2022

https://www.dares.travail-emploi.gouv.fr/donnees/la-nomenclature-des-familles-professionnelles-2009


## DARES

La Dares est un service statistique ministériel qui produit ses données en toute indépendance, sous le contrôle de l’Autorité de la statistique publique.

Créée en 1993, la Dares poursuit 2 missions principales:
            - Éclairer le débat public en publiant des données  ou des analyses accessibles à toutes et tous.
            - Accompagner le ministère en charge du Travail et plus largement les pouvoirs publics lorsqu’une réforme se prépare.

 ## Nettoyage fichier DARES transition professionnelle pour création table de fait

 Sur base Dares_mmo_sortants_FAP225


In [2]:
#!pip install pandas

In [3]:
import pandas as pd

import os

In [None]:
# Lecture et compilation des 225 fichiers .parquet pour obtenir la granularité la plus fine possible d'analyse


dossier_parent = 'sources_brutes/Dares_mmo_sortants_FAP225/mmo_sortants_FAP225'

dataframes = []


for dossier in os.listdir(dossier_parent):
    chemin_dossier = os.path.join(dossier_parent, dossier)
    if os.path.isdir(chemin_dossier):
        fichier_parquet = os.path.join(chemin_dossier, 'part-0.parquet')
        if os.path.exists(fichier_parquet):
            
            df = pd.read_parquet(fichier_parquet)
            dataframes.append(df)


df = pd.concat(dataframes, ignore_index=True)


print(f"Nombre total de lignes : {len(df)}")


Nombre total de lignes : 3125264


In [5]:
df.describe(include='all')

Unnamed: 0,FAP_FIN,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_DEPART,i_public_DEPART,i_nature_DEPART,REG_DEPART,trage_DEPART,i_naissance_DEPART,tr_eff_etab_DEPART,secteur_DEPART,eff,eff_tot_DEPART,pct_DEPART
count,3125264,3125264,3125264,3125264.0,3125264.0,3125264.0,3125264.0,3125264,3125264.0,3125264,3125264,3125264.0,3125264.0,3125264.0
unique,220,216,220,,,,,5,,4,19,,,
top,UUUUU,Agents administratifs divers,Demandeurs d'emploi,,,,,15-29 ans,,de 1 à 9 salariés,V,,,
freq,272537,83905,272537,,,,,1012835,,1041562,1026151,,,
mean,,,,1.442876,0.1233781,0.4828686,49.10764,,0.2328786,,,8.455315,247976.3,0.0043029
std,,,,0.4967262,0.3288707,0.6472239,29.31534,,0.4226656,,,77.87211,261211.6,0.04294175
min,,,,1.0,0.0,0.0,1.0,,0.0,,,1.0,153.0,0.0
25%,,,,1.0,0.0,0.0,27.0,,0.0,,,1.0,76750.0,0.0
50%,,,,1.0,0.0,0.0,44.0,,0.0,,,1.0,151961.0,0.0
75%,,,,2.0,0.0,1.0,76.0,,0.0,,,3.0,318834.0,0.0


In [6]:
list(df.columns)

['FAP_FIN',
 'intitule_FAP_DEPART',
 'intitule_FAP_FIN',
 'Sexe_DEPART',
 'i_public_DEPART',
 'i_nature_DEPART',
 'REG_DEPART',
 'trage_DEPART',
 'i_naissance_DEPART',
 'tr_eff_etab_DEPART',
 'secteur_DEPART',
 'eff',
 'eff_tot_DEPART',
 'pct_DEPART']

## Remplacement des valeurs encodées par leur correspondance

In [7]:
# Sexe_DEPART remplacement des valeurs binaires 1 et 2 pour le genre en texte 

df['Sexe_DEPART'] =df['Sexe_DEPART'].apply (lambda x:
                                      "Femme" if x==2
                                      else "Homme" if x==1
                                      else "Non spécifié" )

df['Sexe_DEPART'].unique()


array(['Homme', 'Femme'], dtype=object)

In [None]:


#  'REG_DEPART' : rajout d'une colonne libellé selon le code mentionné


df[ 'Lib_région'] =df['REG_DEPART'].apply (lambda x:
                                        'Guadeloupe' if x==1
                                        else 'Martinique ' if x==2
                                        else 'Guyane' if x==3
                                        else 'La Réunion' if x==4
                                        else 'Île-de-France' if x==11
                                        else 'Centre-Val de Loire' if x==24
                                        else 'Bourgogne-Franche-Comté' if x==27
                                        else 'Normandie' if x==28
                                        else 'Hauts-de-France' if x==32
                                        else 'Grand Est' if x==44
                                        else 'Pays de la Loire' if x==52
                                        else 'Bretagne' if x==53
                                        else 'Nouvelle-Aquitaine' if x==75
                                        else 'Occitanie' if x==76
                                        else 'Auvergne-Rhône-Alpes' if x==84
                                        else "Provence-Alpes-Côte d'Azur" if x==93
                                        else 'Corse' if x==94
                                        else 'Etranger' if x==99
                                        else 'non spécifié'
                                        )

df['Lib_région'].unique()

array(['Guadeloupe', 'Martinique ', 'Guyane', 'La Réunion',
       'Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse',
       'Etranger'], dtype=object)

In [9]:
len(df)

3125264

In [None]:
# Retrait des DOM TOM + catégorie Etranger pour effectuer le focus uniquement sur Métropole

region_a_retraiter = ['Guadeloupe','Martinique ','Guyane','La Réunion','Etranger']

df = df[~df['Lib_région'].isin(region_a_retraiter)]   

df['Lib_région'].unique()


array(['Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse'],
      dtype=object)

In [11]:
# Nombre de lignes aprés modification = 

print(f"Aprés retrait des régions hors métropole de Dataframe comporte {len(df)} lignes")

Aprés retrait des régions hors métropole de Dataframe comporte 2953886 lignes


In [12]:
# 'i_public_DEPART' remplacement des valeurs binaires 0 et 1 pour le secteur en texte 

df['i_public_DEPART'] =df['i_public_DEPART'].apply (lambda x:
                                      "Secteur privé" if x==0
                                      else "secteur public" if x==1
                                      else "Non spécifié" )

df['i_public_DEPART'].unique()

array(['Secteur privé', 'secteur public'], dtype=object)

In [13]:
df['i_nature_DEPART'].unique()

array([0, 1, 2], dtype=int32)

In [14]:
# 'i_nature_DEPART' remplacement par des valeurs texte

df['i_nature_DEPART'] =df['i_nature_DEPART'].apply (lambda x:
                                      "CDI" if x==0
                                      else "CDD" if x==1
                                      else "Intérimaire" if x==2
                                      else "Non spécifié" )

df['i_nature_DEPART'].unique()

array(['CDI', 'CDD', 'Intérimaire'], dtype=object)

In [15]:
# 'i_naissance_DEPART' remplacement par des valeurs texte

df['i_naissance_DEPART'] =df['i_naissance_DEPART'].apply (lambda x:
                                      "Né en France" if x==0
                                      else "Né à l'étranger" if x==1
                                      else "Non spécifié" )

df['i_naissance_DEPART'].unique()

array(['Né en France', "Né à l'étranger"], dtype=object)

In [None]:
# Intégration du code Famille 2022 à partir des libellés (dans les fichiers sortants, seuls les libellés sont mentionnés pour le départ)


df['Code_FAP_DEPART'] =df['intitule_FAP_DEPART'].apply (lambda x:
                                      'A0Z00' if x== 'Agriculteurs indépendants'
                                        else 'A0Z01' if x== 'Éleveurs indépendants'
                                        else 'A0Z02' if x== 'Bûcherons, sylviculteurs indépendants'
                                        else 'A0Z40' if x== 'Agriculteurs salariés'
                                        else 'A0Z41' if x== 'Éleveurs salariés'
                                        else 'A0Z42' if x== 'Bûcherons, sylviculteurs salariés et agents forestiers'
                                        else 'A0Z43' if x== "Conducteurs d'engins agricoles ou forestiers"
                                        else 'A1Z00' if x== 'Maraîchers, horticulteurs indépendants'
                                        else 'A1Z01' if x== 'Viticulteurs, arboriculteurs indépendants'
                                        else 'A1Z40' if x== 'Maraîchers, horticulteurs salariés'
                                        else 'A1Z41' if x== 'Jardiniers salariés'
                                        else 'A1Z42' if x== 'Viticulteurs, arboriculteurs salariés'
                                        else 'A2Z70' if x== "Techniciens et agents d'encadrement d'exploitations agricoles"
                                        else 'A2Z90' if x== "Ingénieurs, cadres techniques de l'agriculture"
                                        else 'A3Z00' if x== 'Marins, pêcheurs, aquaculteurs indépendants'
                                        else 'A3Z40' if x== 'Pêcheurs, aquaculteurs salariés'
                                        else 'A3Z41' if x== 'Marins salariés'
                                        else 'A3Z90' if x== "Cadres et maîtres d'équipage de la marine"
                                        else 'B0Z20' if x== "Ouvriers non qualifiés des travaux publics, du béton et de l'extraction"
                                        else 'B0Z21' if x== 'Ouvriers non qualifiés du gros œuvre du bâtiment'
                                        else 'B1Z40' if x== "Ouvriers qualifiés des travaux publics, du béton et de l'extraction"
                                        else 'B2Z40' if x== 'Maçons'
                                        else 'B2Z41' if x== 'Professionnels du travail de la pierre et des matériaux associés'
                                        else 'B2Z42' if x== 'Charpentiers (métal)'
                                        else 'B2Z43' if x== 'Charpentiers (bois)'
                                        else 'B2Z44' if x== 'Couvreurs'
                                        else 'B3Z20' if x== 'Ouvriers non qualifiés du second œuvre du bâtiment'
                                        else 'B4Z41' if x== 'Plombiers, chauffagistes'
                                        else 'B4Z42' if x== "Menuisiers et ouvriers de l'agencement et de l'isolation"
                                        else 'B4Z43' if x== 'Électriciens du bâtiment'
                                        else 'B4Z44' if x== 'Ouvriers qualifiés de la peinture et de la finition du bâtiment'
                                        else 'B5Z40' if x== "Conducteurs d'engins du bâtiment et des travaux publics"
                                        else 'B6Z70' if x== 'Géomètres'
                                        else 'B6Z71' if x== "Techniciens et chargés d'études du bâtiment et des travaux publics"
                                        else 'B6Z72' if x== 'Dessinateurs en bâtiment et en travaux publics'
                                        else 'B6Z73' if x== 'Chefs de chantier, conducteurs de travaux (non cadres)'
                                        else 'B7Z90' if x== 'Architectes'
                                        else 'B7Z91' if x== 'Ingénieurs du bâtiment et des travaux publics, chefs de chantier et conducteurs de travaux (cadres)'
                                        else 'C0Z20' if x== "Ouvriers non qualifiés de l'électricité et de l'électronique"
                                        else 'C1Z40' if x== "Ouvriers qualifiés de l'électricité et de l'électronique"
                                        else 'C2Z70' if x== 'Techniciens en électricité et en électronique'
                                        else 'C2Z71' if x== 'Dessinateurs en électricité et en électronique'
                                        else 'C2Z80' if x== 'Agents de maîtrise et assimilés en fabrication de matériel électrique, électronique'
                                        else 'D0Z20' if x== 'Ouvriers non qualifiés travaillant par enlèvement ou formage de métal'
                                        else 'D1Z40' if x== 'Régleurs'
                                        else 'D1Z41' if x== 'Ouvriers qualifiés travaillant par enlèvement de métal'
                                        else 'D2Z40' if x== 'Chaudronniers, tôliers, traceurs, serruriers, métalliers, forgerons'
                                        else 'D2Z41' if x== 'Tuyauteurs'
                                        else 'D2Z42' if x== 'Soudeurs'
                                        else 'D3Z20' if x== 'Ouvriers non qualifiés métallerie, serrurerie, montage'
                                        else 'D4Z40' if x== 'Monteurs, ajusteurs et autres ouvriers qualifiés de la mécanique'
                                        else 'D4Z41' if x== 'Agents qualifiés de traitement thermique et de surface'
                                        else 'D6Z70' if x== 'Techniciens en mécanique et travail des métaux'
                                        else 'D6Z71' if x== 'Dessinateurs en mécanique et travail des métaux'
                                        else 'D6Z80' if x== 'Agents de maîtrise et assimilés en fabrication mécanique'
                                        else 'E0Z20' if x== 'Ouvriers non qualifiés des industries chimiques et plastiques'
                                        else 'E0Z21' if x== 'Ouvriers non qualifiés des industries agro-alimentaires'
                                        else 'E0Z22' if x== 'Ouvriers non qualifiés en métallurgie, verre, céramique et matériaux de construction'
                                        else 'E0Z23' if x== 'Ouvriers non qualifiés du papier-carton et du bois'
                                        else 'E0Z24' if x== 'Autres ouvriers non qualifiés de type industriel'
                                        else 'E1Z40' if x== "Pilotes d'installation lourde des industries de transformation"
                                        else 'E1Z41' if x== 'Autres ouvriers qualifiés des industries chimiques et plastiques'
                                        else 'E1Z42' if x== 'Autres ouvriers qualifiés des industries agro-alimentaires (hors transformation des viandes)'
                                        else 'E1Z43' if x== 'Autres ouvriers qualifiés en verre, céramique, métallurgie, matériaux de construction et énergie '
                                        else 'E1Z44' if x== 'Ouvriers qualifiés des industries lourdes du bois et de la fabrication de papier-carton'
                                        else 'E1Z46' if x== 'Agents qualifiés de laboratoire'
                                        else 'E1Z47' if x== 'Autres ouvriers qualifiés de type industriel'
                                        else 'E2Z70' if x== 'Techniciens des industries de process'
                                        else 'E2Z80' if x== 'Agents de maîtrise et assimilés des industries de process'
                                        else 'F0Z20' if x== 'Ouvriers non qualifiés du textile et du cuir'
                                        else 'F1Z40' if x== 'Ouvriers qualifiés du travail industriel du textile et du cuir'
                                        else 'F1Z41' if x== 'Ouvriers qualifiés du travail artisanal du textile et du cuir'
                                        else 'F2Z20' if x== "Ouvriers non qualifiés du travail du bois et de l'ameublement"
                                        else 'F3Z40' if x== "Artisans du travail du bois et de l'ameublement ***"
                                        else 'F3Z41' if x== "Ouvriers qualifiés du travail du bois et de l'ameublement"
                                        else 'F4Z20' if x== "Ouvriers non qualifiés de l'imprimerie, de la presse et de l'édition"
                                        else 'F4Z41' if x== "Ouvriers qualifiés de l'impression et du façonnage des industries graphiques"
                                        else 'F5Z70' if x== 'Techniciens et agents de maîtrise des matériaux souples, du bois et des industries graphiques'
                                        else 'G0A40' if x== 'Ouvriers qualifiés de la maintenance en mécanique'
                                        else 'G0A41' if x== 'Ouvriers qualifiés de la maintenance en électricité et en électronique'
                                        else 'G0A42' if x== 'Mainteniciens en biens électrodomestiques'
                                        else 'G0A43' if x== "Ouvriers qualifiés polyvalents d'entretien du bâtiment"
                                        else 'G0B40' if x== 'Carrossiers automobiles'
                                        else 'G0B41' if x== 'Mécaniciens et électroniciens de véhicules'
                                        else 'G1Z70' if x== "Techniciens et agents de maîtrise de la maintenance et de l'environnement"
                                        else 'G1Z71' if x== 'Techniciens experts'
                                        else 'G1Z80' if x== 'Agents de maîtrise en entretien'
                                        else 'H0Z90' if x== 'Ingénieurs et cadres de fabrication et de la production'
                                        else 'H0Z91' if x== "Cadres techniques de la maintenance et de l'environnement"
                                        else 'H0Z92' if x== 'Ingénieurs des méthodes de production, du contrôle qualité'
                                        else 'J0Z20' if x== "Ouvriers non qualifiés de l'emballage et manutentionnaires"
                                        else 'J1Z40' if x== 'Ouvriers qualifiés du magasinage et de la manutention'
                                        else 'J1Z80' if x== 'Responsables magasinage'
                                        else 'J3Z40' if x== 'Conducteurs de véhicules légers'
                                        else 'J3Z41' if x== 'Conducteurs de transport en commun sur route'
                                        else 'J3Z42' if x== 'Conducteurs et livreurs sur courte distance'
                                        else 'J3Z43' if x== 'Conducteurs routiers'
                                        else 'J3Z44' if x== "Conducteurs sur rails et d'engins de traction"
                                        else 'J4Z40' if x== "Agents d'exploitation des transports"
                                        else 'J4Z60' if x== 'Contrôleurs des transports'
                                        else 'J4Z80' if x== 'Responsables logistiques (non cadres)'
                                        else 'J5Z60' if x== "Agents et hôtesses d'accompagnement"
                                        else 'J5Z61' if x== 'Agents administratifs des transports'
                                        else 'J5Z62' if x== 'Employés des transports et du tourisme'
                                        else 'J5Z80' if x== 'Techniciens des transports et du tourisme'
                                        else 'J6Z90' if x== 'Cadres des transports'
                                        else 'J6Z91' if x== "Personnels navigants de l'aviation"
                                        else 'J6Z92' if x== "Ingénieurs et cadres de la logistique, du planning et de l'ordonnancement"
                                        else 'K0Z20' if x== 'Ouvriers non qualifiés divers de type artisanal'
                                        else 'K0Z40' if x== 'Artisans et ouvriers qualifiés divers de type artisanal'
                                        else 'L0Z60' if x== 'Secrétaires bureautiques et assimilés'
                                        else 'L1Z60' if x== 'Employés de la comptabilité'
                                        else 'L2Z60' if x== "Agents d'accueil et d'information"
                                        else 'L2Z61' if x== 'Agents administratifs divers'
                                        else 'L3Z80' if x== 'Secrétaires de direction'
                                        else 'L4Z80' if x== 'Techniciens des services administratifs'
                                        else 'L4Z81' if x== 'Techniciens des services comptables et financiers'
                                        else 'L5Z90' if x== 'Cadres administratifs, comptables et financiers (hors juristes)'
                                        else 'L5Z91' if x== 'Juristes'
                                        else 'L5Z92' if x== 'Cadres des ressources humaines et du recrutement'
                                        else 'L6Z00' if x== 'Dirigeants de petites et moyennes entreprises'
                                        else 'L6Z90' if x== 'Cadres dirigeants des grandes entreprises'
                                        else 'M0Z60' if x== 'Employés et opérateurs en informatique'
                                        else 'M1Z80' if x== "Techniciens d'étude et de développement en informatique"
                                        else 'M1Z81' if x== "Techniciens de production, d'exploitation, d'installation, et de maintenance, support et services aux"
                                        else 'M2Z90' if x== "Ingénieurs et cadres d'étude, recherche et développement en informatique, chefs de projets informatiqu"
                                        else 'M2Z91' if x== "Ingénieurs et cadres d'administration, maintenance en informatique"
                                        else 'M2Z92' if x== 'Ingénieurs et cadres des télécommunications'
                                        else 'N0Z90' if x== "Ingénieurs et cadres d'étude, recherche et développement (industrie)"
                                        else 'N0Z91' if x== 'Chercheurs (sauf industrie et enseignement supérieur)'
                                        else 'P0Z60' if x== 'Agents des impôts et des douanes'
                                        else 'P0Z61' if x== 'Employés des services au public'
                                        else 'P0Z62' if x== 'Employés de la Poste et des télécommunications'
                                        else 'P1Z80' if x== 'Contrôleurs des impôts et des douanes'
                                        else 'P1Z81' if x== 'Autres cadres B de la fonction publique'
                                        else 'P1Z82' if x== 'Professions intermédiaires de la Poste et des télécommunications'
                                        else 'P2Z90' if x== 'Cadres A de la fonction publique (hors spécialités juridiques) et assimilés'
                                        else 'P2Z91' if x== 'Cadres de la Poste et des télécommunications'
                                        else 'P2Z92' if x== "Cadres de l'armée et de la gendarmerie"
                                        else 'P3Z90' if x== 'Professionnels du droit'
                                        else 'P3Z91' if x== 'Magistrats'
                                        else 'P4Z60' if x== "Agents de sécurité et de l'ordre public"
                                        else 'P4Z61' if x== 'Agents de polices municipales'
                                        else 'P4Z80' if x== "Cadres intermédiaires de la police et de l'armée"
                                        else 'Q0Z60' if x== 'Employés de la banque et des assurances'
                                        else 'Q1Z80' if x== 'Techniciens de la banque'
                                        else 'Q1Z81' if x== 'Techniciens des assurances'
                                        else 'Q2Z90' if x== 'Cadres de la banque'
                                        else 'Q2Z91' if x== 'Cadres des assurances'
                                        else 'R0Z60' if x== 'Employés de libre service'
                                        else 'R0Z61' if x== 'Caissiers'
                                        else 'R1Z60' if x== 'Vendeurs en produits alimentaires'
                                        else 'R1Z61' if x== 'Vendeurs en ameublement, équipement du foyer, bricolage'
                                        else 'R1Z62' if x== 'Vendeurs en habillement et accessoires, articles de luxe, de sport, de loisirs et culturels'
                                        else 'R1Z63' if x== 'Vendeurs en gros de matériel et équipements'
                                        else 'R1Z66' if x== 'Vendeurs généralistes'
                                        else 'R1Z67' if x== 'Télévendeurs'
                                        else 'R2Z80' if x== 'Attachés commerciaux'
                                        else 'R2Z83' if x== 'Représentants auprès des particuliers'
                                        else 'R3Z80' if x== 'Maîtrise des magasins'
                                        else 'R3Z81' if x== 'Intermédiaires du commerce***'
                                        else 'R3Z82' if x== 'Professions intermédiaires commerciales'
                                        else 'R4Z90' if x== 'Cadres commerciaux, acheteurs et cadres de la mercatique'
                                        else 'R4Z91' if x== 'Ingénieurs et cadres technico-commerciaux'
                                        else 'R4Z92' if x== 'Cadres des magasins'
                                        else 'R4Z93' if x== 'Agents immobiliers, syndics'
                                        else 'S0Z20' if x== "Apprentis et ouvriers non qualifiés de l'alimentation (hors industries agro-alimentaires)"
                                        else 'S0Z40' if x== 'Bouchers'
                                        else 'S0Z41' if x== 'Charcutiers, traiteurs'
                                        else 'S0Z42' if x== 'Boulangers, pâtissiers'
                                        else 'S1Z20' if x== 'Aides de cuisine, apprentis de cuisine et employés polyvalents de la restauration'
                                        else 'S1Z40' if x== 'Cuisiniers'
                                        else 'S1Z80' if x== 'Chefs cuisiniers'
                                        else 'S2Z60' if x== "Employés de l'hôtellerie"
                                        else 'S2Z61' if x== 'Serveurs de cafés restaurants'
                                        else 'S2Z80' if x== "Maîtres d'hôtel"
                                        else 'S2Z81' if x== "Maîtrise de l'hôtellerie"
                                        else 'S3Z00' if x== "Patrons d'hôtels, cafés, restaurants"
                                        else 'S3Z90' if x== "Cadres de l'hôtellerie et de la restauration"
                                        else 'T0Z60' if x== 'Coiffeurs, esthéticiens'
                                        else 'T1Z60' if x== 'Employés de maison et personnels de ménage'
                                        else 'T2A60' if x== 'Aides à domicile et aides ménagères'
                                        else 'T2B60' if x== 'Assistantes maternelles'
                                        else 'T3Z60' if x== 'Concierges'
                                        else 'T3Z61' if x== 'Agents de sécurité et de surveillance'
                                        else 'T4Z60' if x== "Agents d'entretien de locaux"
                                        else 'T4Z61' if x== 'Agents de services hospitaliers'
                                        else 'T4Z62' if x== "Ouvriers de l'assainissement et du traitement des déchets"
                                        else 'T6Z61' if x== 'Employés des services divers'
                                        else 'U0Z80' if x== 'Assistants de communication'
                                        else 'U0Z81' if x== 'Interprètes'
                                        else 'U0Z90' if x== 'Cadres de la communication'
                                        else 'U0Z91' if x== 'Cadres et techniciens de la documentation'
                                        else 'U0Z92' if x== "Journalistes et cadres de l'édition"
                                        else 'U1Z80' if x== 'Professionnels des spectacles'
                                        else 'U1Z81' if x== 'Photographes'
                                        else 'U1Z82' if x== 'Graphistes, dessinateurs, stylistes, décorateurs et créateurs de supports de communication visuelle'
                                        else 'U1Z91' if x== 'Artistes (musique, danse, spectacles)'
                                        else 'U1Z92' if x== 'Écrivains'
                                        else 'U1Z93' if x== 'Artistes plasticiens'
                                        else 'V0Z60' if x== 'Aides-soignants'
                                        else 'V1Z80' if x== 'Infirmiers'
                                        else 'V1Z81' if x== 'Sages-femmes'
                                        else 'V2Z90' if x== 'Médecins'
                                        else 'V2Z91' if x== 'Dentistes'
                                        else 'V2Z92' if x== 'Vétérinaires'
                                        else 'V2Z93' if x== 'Pharmaciens'
                                        else 'V3Z70' if x== 'Techniciens médicaux et préparateurs'
                                        else 'V3Z71' if x== "Spécialistes de l'appareillage médical"
                                        else 'V3Z80' if x== 'Autres professionnels para-médicaux'
                                        else 'V3Z90' if x== 'Psychologues, psychothérapeutes'
                                        else 'V4Z80' if x== "Professionnels de l'orientation"
                                        else 'V4Z83' if x== 'Educateurs spécialisés'
                                        else 'V4Z85' if x== "Professionnels de l'action sociale"
                                        else 'V5Z00' if x== "Exploitants d'équipements sportifs et culturels"
                                        else 'V5Z81' if x== "Professionnels de l'animation socioculturelle"
                                        else 'V5Z82' if x== 'Sportifs et animateurs sportifs'
                                        else 'V5Z84' if x== "Surveillants d'établissements scolaires"
                                        else 'W0Z80' if x== 'Professeurs des écoles'
                                        else 'W0Z90' if x== 'Professeurs du secondaire'
                                        else 'W0Z91' if x== "Directeurs d'établissement scolaire et inspecteurs"
                                        else 'W0Z92' if x== 'Professeurs du supérieur'
                                        else 'W1Z80' if x== 'Formateurs'
                                        else 'X0Z00' if x== 'Professionnels de la politique'
                                        else 'X0Z01' if x== 'Clergé'
                                        else 'ZZZZZ' if x== 'Non renseigné'
                                        else 'XXXXX' if x== 'Autres situations, personnes nées en France'
                                        else 'XX000' if x== "Autres situations, personnes nées à l'étranger"
                                        else 'VVVVV' if x== 'Retraités'
                                        else 'UUUUU' if x== "Demandeurs d'emploi"
                                        else "non spécifié"
                                        )

df['Code_FAP_DEPART'].unique()

array(['A0Z40', 'A0Z41', 'A0Z42', 'A0Z43', 'A1Z40', 'A1Z41', 'A1Z42',
       'A2Z70', 'A2Z90', 'A3Z40', 'A3Z41', 'A3Z90', 'B0Z20', 'B0Z21',
       'B1Z40', 'B2Z40', 'B2Z41', 'B2Z42', 'B2Z43', 'B2Z44', 'B3Z20',
       'B4Z41', 'B4Z42', 'B4Z43', 'B4Z44', 'B5Z40', 'B6Z70', 'B6Z71',
       'B6Z72', 'B6Z73', 'B7Z90', 'B7Z91', 'C0Z20', 'C1Z40', 'C2Z70',
       'C2Z71', 'C2Z80', 'D0Z20', 'D1Z40', 'D1Z41', 'D2Z40', 'D2Z41',
       'D2Z42', 'D3Z20', 'D4Z40', 'D4Z41', 'D6Z70', 'D6Z71', 'D6Z80',
       'E0Z20', 'E0Z21', 'E0Z22', 'E0Z23', 'E0Z24', 'E1Z40', 'E1Z41',
       'E1Z42', 'E1Z43', 'E1Z44', 'E1Z46', 'E1Z47', 'E2Z70', 'E2Z80',
       'F0Z20', 'F1Z40', 'F1Z41', 'F2Z20', 'F3Z41', 'F4Z20', 'F4Z41',
       'F5Z70', 'G0A40', 'G0A41', 'G0A42', 'G0A43', 'G0B40', 'G0B41',
       'G1Z70', 'G1Z71', 'G1Z80', 'H0Z90', 'H0Z91', 'H0Z92', 'J0Z20',
       'J1Z40', 'J1Z80', 'J3Z40', 'J3Z41', 'J3Z42', 'J3Z43', 'J3Z44',
       'J4Z40', 'J4Z60', 'J4Z80', 'J5Z60', 'J5Z61', 'J5Z62', 'J5Z80',
       'J6Z90', 'J6Z

In [17]:
df_fap =df['Code_FAP_DEPART'].unique()
len(df_fap)

216

In [18]:
df.head()

Unnamed: 0,FAP_FIN,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_DEPART,i_public_DEPART,i_nature_DEPART,REG_DEPART,trage_DEPART,i_naissance_DEPART,tr_eff_etab_DEPART,secteur_DEPART,eff,eff_tot_DEPART,pct_DEPART,Lib_région,Code_FAP_DEPART
282,A0Z40,Agriculteurs salariés,Agriculteurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,66,110073,0.1,Île-de-France,A0Z40
283,A1Z40,Agriculteurs salariés,"Maraîchers, horticulteurs salariés",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,5,110073,0.0,Île-de-France,A0Z40
284,A0Z43,Agriculteurs salariés,Conducteurs d'engins agricoles ou forestiers,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,1,110073,0.0,Île-de-France,A0Z40
285,A0Z41,Agriculteurs salariés,Éleveurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,2,110073,0.0,Île-de-France,A0Z40
286,XXXXX,Agriculteurs salariés,"Autres situations, personnes nées en France",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,3,110073,0.0,Île-de-France,A0Z40


#-----------------------------------------------------------------

In [19]:
df.columns

Index(['FAP_FIN', 'intitule_FAP_DEPART', 'intitule_FAP_FIN', 'Sexe_DEPART',
       'i_public_DEPART', 'i_nature_DEPART', 'REG_DEPART', 'trage_DEPART',
       'i_naissance_DEPART', 'tr_eff_etab_DEPART', 'secteur_DEPART', 'eff',
       'eff_tot_DEPART', 'pct_DEPART', 'Lib_région', 'Code_FAP_DEPART'],
      dtype='object')

In [None]:
#Renommage des colonnes

df = df.rename(columns= 
{'FAP_FIN':"fap225_23",
 'intitule_FAP_DEPART':"intitule_fap225_22",
  "eff_tot_DEPART":"Effectif_total_fap_22",
  'intitule_FAP_FIN':"intitule_fap225_23", 
  'Sexe_DEPART':'Sexe',
  'i_public_DEPART':'statut_employeur', 
  'i_nature_DEPART':'Nature_contrat', 
  'REG_DEPART':"région", 
  'trage_DEPART':'Age',
  'i_naissance_DEPART':'Lieu_naissance', 
  'tr_eff_etab_DEPART':'effectif_etablissement', 
  'secteur_DEPART':'activité_economique', 
  "eff":"Effectif",
  'eff_tot_DEPART':'Effectif_tot_22', 
  'pct_DEPART':"part_flux_agrégé",
   'Code_FAP_DEPART':"fap225_22"})

df.head()

Unnamed: 0,fap225_23,intitule_fap225_22,intitule_fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,Effectif_tot_22,part_flux_agrégé,Lib_région,fap225_22
282,A0Z40,Agriculteurs salariés,Agriculteurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,66,110073,0.1,Île-de-France,A0Z40
283,A1Z40,Agriculteurs salariés,"Maraîchers, horticulteurs salariés",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,5,110073,0.0,Île-de-France,A0Z40
284,A0Z43,Agriculteurs salariés,Conducteurs d'engins agricoles ou forestiers,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,1,110073,0.0,Île-de-France,A0Z40
285,A0Z41,Agriculteurs salariés,Éleveurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,2,110073,0.0,Île-de-France,A0Z40
286,XXXXX,Agriculteurs salariés,"Autres situations, personnes nées en France",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,3,110073,0.0,Île-de-France,A0Z40


In [21]:
# ajout de la granularité Macro pour les familles professionnelles

df_famille = pd.read_excel("dim_professions.xlsx")

df_famille.head()

Unnamed: 0,code_fap225,intitule_fap225,code_fap87,intitule_fap87,code_fap22,intitule_fap22
0,A0Z00,Agriculteurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A0Z01,Éleveurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,A0Z02,"Bûcherons, sylviculteurs indépendants",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,A0Z41,Éleveurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [22]:
df_famille.columns

Index(['code_fap225', 'intitule_fap225', 'code_fap87', 'intitule_fap87 ',
       'code_fap22', 'intitule_fap22'],
      dtype='object')

In [23]:
df_famille_22 = df_famille.rename(columns=
                {'code_fap225':'fap225_22',
                 'intitule_fap225':'intitule_fap225_22',
                  'code_fap87':'fap87_22', 
                  'intitule_fap87 ':'intitule_fap87_22',
                  'code_fap22':'fap22_22', 
                  'intitule_fap22':'intitule_fap22_22'})

df_famille_22.head()

Unnamed: 0,fap225_22,intitule_fap225_22,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22
0,A0Z00,Agriculteurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A0Z01,Éleveurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,A0Z02,"Bûcherons, sylviculteurs indépendants",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,A0Z41,Éleveurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [None]:
# Fusion avec DataFrame principal


df = pd.merge(
    df,
    df_famille_22,
    left_on='fap225_22',      
    right_on='fap225_22', 
    how='left'                 

df.head()

Unnamed: 0,fap225_23,intitule_fap225_22_x,intitule_fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,...,Effectif,Effectif_tot_22,part_flux_agrégé,Lib_région,fap225_22,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22
0,A0Z40,Agriculteurs salariés,Agriculteurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,66,110073,0.1,Île-de-France,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A1Z40,Agriculteurs salariés,"Maraîchers, horticulteurs salariés",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,5,110073,0.0,Île-de-France,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,A0Z43,Agriculteurs salariés,Conducteurs d'engins agricoles ou forestiers,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,1,110073,0.0,Île-de-France,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z41,Agriculteurs salariés,Éleveurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,2,110073,0.0,Île-de-France,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,XXXXX,Agriculteurs salariés,"Autres situations, personnes nées en France",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,3,110073,0.0,Île-de-France,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [25]:
df_famille_23 = df_famille.rename(columns=
                {'code_fap225':'fap225_23',
                 'intitule_fap225':'intitule_fap225_23',
                  'code_fap87':'fap87_23', 
                  'intitule_fap87 ':'intitule_fap87_23',
                  'code_fap22':'fap22_23', 
                  'intitule_fap22':'intitule_fap22_23'})

df_famille_23.head()

Unnamed: 0,fap225_23,intitule_fap225_23,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
0,A0Z00,Agriculteurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A0Z01,Éleveurs indépendants,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,A0Z02,"Bûcherons, sylviculteurs indépendants",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,A0Z41,Éleveurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [None]:
# Fusion avec DataFrame principal


df = pd.merge(
    df,
    df_famille_23,
    left_on='fap225_23',      
    right_on='fap225_23',  
    how='left'                  
)

df.head()

Unnamed: 0,fap225_23,intitule_fap225_22_x,intitule_fap225_23_x,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
0,A0Z40,Agriculteurs salariés,Agriculteurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A1Z40,Agriculteurs salariés,"Maraîchers, horticulteurs salariés",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche","Maraîchers, horticulteurs salariés",A1Z,"Maraîchers, jardiniers, viticulteurs",A,"Agriculture, marine, pêche"
2,A0Z43,Agriculteurs salariés,Conducteurs d'engins agricoles ou forestiers,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Conducteurs d'engins agricoles ou forestiers,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z41,Agriculteurs salariés,Éleveurs salariés,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Éleveurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,XXXXX,Agriculteurs salariés,"Autres situations, personnes nées en France",Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche","Autres situations, personnes nées en France",XXXXX,"Autres situations, personnes nées en France",XXXXX,"Autres situations, personnes nées en France"


In [27]:
df.columns

Index(['fap225_23', 'intitule_fap225_22_x', 'intitule_fap225_23_x', 'Sexe',
       'statut_employeur', 'Nature_contrat', 'région', 'Age', 'Lieu_naissance',
       'effectif_etablissement', 'activité_economique', 'Effectif',
       'Effectif_tot_22', 'part_flux_agrégé', 'Lib_région', 'fap225_22',
       'intitule_fap225_22_y', 'fap87_22', 'intitule_fap87_22', 'fap22_22',
       'intitule_fap22_22', 'intitule_fap225_23_y', 'fap87_23',
       'intitule_fap87_23', 'fap22_23', 'intitule_fap22_23'],
      dtype='object')

In [28]:
#retrait des colonnes en doublon suite à la fusion entre DataFrame principal et DataFrames familles pro 22 et 23
#retrait de la colonne 'part_flux_agrégé' inutile par soucis d'économie de ressources de calculs

colonnes_doublon= ['intitule_fap225_22_x', 'intitule_fap225_23_x','part_flux_agrégé']

df = df.drop(df[colonnes_doublon], axis=1, inplace=False, errors='raise')

df.columns

Index(['fap225_23', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région',
       'Age', 'Lieu_naissance', 'effectif_etablissement',
       'activité_economique', 'Effectif', 'Effectif_tot_22', 'Lib_région',
       'fap225_22', 'intitule_fap225_22_y', 'fap87_22', 'intitule_fap87_22',
       'fap22_22', 'intitule_fap22_22', 'intitule_fap225_23_y', 'fap87_23',
       'intitule_fap87_23', 'fap22_23', 'intitule_fap22_23'],
      dtype='object')

In [29]:
df.head()

Unnamed: 0,fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
0,A0Z40,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,66,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,A1Z40,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,5,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche","Maraîchers, horticulteurs salariés",A1Z,"Maraîchers, jardiniers, viticulteurs",A,"Agriculture, marine, pêche"
2,A0Z43,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,1,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Conducteurs d'engins agricoles ou forestiers,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,A0Z41,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,2,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Éleveurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,XXXXX,Homme,Secteur privé,CDI,11,15-29 ans,Né en France,de 1 à 9 salariés,A,3,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche","Autres situations, personnes nées en France",XXXXX,"Autres situations, personnes nées en France",XXXXX,"Autres situations, personnes nées en France"


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2953886 entries, 0 to 2953885
Data columns (total 23 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   fap225_23               object
 1   Sexe                    object
 2   statut_employeur        object
 3   Nature_contrat          object
 4   région                  int32 
 5   Age                     object
 6   Lieu_naissance          object
 7   effectif_etablissement  object
 8   activité_economique     object
 9   Effectif                int32 
 10  Effectif_tot_22         int32 
 11  Lib_région              object
 12  fap225_22               object
 13  intitule_fap225_22_y    object
 14  fap87_22                object
 15  intitule_fap87_22       object
 16  fap22_22                object
 17  intitule_fap22_22       object
 18  intitule_fap225_23_y    object
 19  fap87_23                object
 20  intitule_fap87_23       object
 21  fap22_23                object
 22  intitule_fap22_23 

In [30]:
col_a_convertir = ["Effectif",'Effectif_tot_22']

df[col_a_convertir] = df[col_a_convertir].astype(int)

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2953886 entries, 0 to 2953885
Data columns (total 22 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   fap225_23               object
 1   Sexe                    object
 2   statut_employeur        object
 3   Nature_contrat          object
 4   région                  object
 5   Age                     object
 6   Lieu_naissance          object
 7   effectif_etablissement  object
 8   activité_economique     object
 9   Effectif                int64 
 10  Effectif_tot_22         int64 
 11  fap225_22               object
 12  intitule_fap225_22_y    object
 13  fap87_22                object
 14  intitule_fap87_22       object
 15  fap22_22                object
 16  intitule_fap22_22       object
 17  intitule_fap225_23_y    object
 18  fap87_23                object
 19  intitule_fap87_23       object
 20  fap22_23                object
 21  intitule_fap22_23       object
dtypes: int64(2), objec

In [30]:
df.columns

Index(['fap225_23', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région',
       'Age', 'Lieu_naissance', 'effectif_etablissement',
       'activité_economique', 'Effectif', 'Effectif_tot_22', 'Lib_région',
       'fap225_22', 'intitule_fap225_22_y', 'fap87_22', 'intitule_fap87_22',
       'fap22_22', 'intitule_fap22_22', 'intitule_fap225_23_y', 'fap87_23',
       'intitule_fap87_23', 'fap22_23', 'intitule_fap22_23'],
      dtype='object')

In [31]:
df.describe(include="all")

Unnamed: 0,fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
count,2953886,2953886,2953886,2953886,2953886.0,2953886,2953886,2953886,2953886,2953886.0,...,2953886,2953886,2953886,2953886,2953886,2953886,2953886,2953886,2953886,2953886
unique,220,2,2,3,,5,2,4,19,,...,216,88,88,22,22,220,92,92,26,26
top,UUUUU,Homme,Secteur privé,CDI,,15-29 ans,Né en France,de 1 à 9 salariés,V,,...,Agents administratifs divers,R1Z,Vendeurs,R,Commerce,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,L,"Gestion, administration des entreprises"
freq,252182,1643494,2595361,1777471,,965759,2266138,973904,969695,,...,79548,129736,129736,347656,347656,252182,252182,252182,297649,297649
mean,,,,,50.73197,,,,,8.691148,...,,,,,,,,,,
std,,,,,27.88629,,,,,79.88556,...,,,,,,,,,,
min,,,,,11.0,,,,,1.0,...,,,,,,,,,,
25%,,,,,27.0,,,,,1.0,...,,,,,,,,,,
50%,,,,,52.0,,,,,1.0,...,,,,,,,,,,
75%,,,,,76.0,,,,,3.0,...,,,,,,,,,,


In [34]:
len(df['fap225_23'].unique())

220

In [35]:
len(df['fap225_22'].unique())

216

In [37]:


# création d'un DataFrame pour la catégorie demandeurs d'emploi 2023 (pour analyse focus chômage - cf création des dimensions)
'UUUUU'

df_ch23 = df[df['fap225_23'] == 'UUUUU']

df_ch23.head()

Unnamed: 0,fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
5,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,A,4,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
26,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,N,16,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
34,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,V,2,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
52,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,N,4,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
72,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 50 à 249 salariés,N,2,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi


In [None]:

df_ch23["intitule_fap225_23"].unique()

array(["Demandeurs d'emploi"], dtype=object)

In [None]:

# suite au premières analyses et visualisations: 
# retrait des lignes comportant les valeurs 'ZZZZZ' : 'Non renseigné'
#                                'XXXXX' : 'Autres situations, personnes nées en France'
#                               'XX000' : "Autres situations, personnes nées à l'étranger"
#                                 'VVVVV' : 'Retraités'
#                                'UUUUU' : "Demandeurs d'emploi"

#La catégorie "Demandeurs d'emploi" fera l'objet d'une analyse à part

#permet de réduire la taille de la BDD et de gagner en performance

Familles_a_retraiter = ['ZZZZZ','XXXXX','XX000','VVVVV','UUUUU']

df = df[~df['fap225_23'].isin(Familles_a_retraiter)]     

df = df[~df['fap225_22'].isin(Familles_a_retraiter)] 


len(df)



2435764

In [38]:

len(df['fap225_23'].unique())

215

In [39]:


len(df['fap225_22'].unique())

215

In [33]:
df.columns

Index(['fap225_23', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région',
       'Age', 'Lieu_naissance', 'effectif_etablissement',
       'activité_economique', 'Effectif', 'Effectif_tot_22', 'Lib_région',
       'fap225_22', 'intitule_fap225_22_y', 'fap87_22', 'intitule_fap87_22',
       'fap22_22', 'intitule_fap22_22', 'intitule_fap225_23_y', 'fap87_23',
       'intitule_fap87_23', 'fap22_23', 'intitule_fap22_23'],
      dtype='object')

In [None]:
# sélection des colonnes les plus pertinentes à conserver à des fin d'analyse

col_a_conserver=['fap225_23', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région','Age', 'Lieu_naissance', 'effectif_etablissement',
'Effectif','Lib_région',
       'fap225_22', 'intitule_fap225_22', 'intitule_fap87_22',
        'intitule_fap22_22', 'intitule_fap225_23',
       'intitule_fap87_23',  'intitule_fap22_23']

faits_transition = df[col_a_conserver]

faits_transition.columns

Index(['fap225_23', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région',
       'Age', 'Lieu_naissance', 'effectif_etablissement', 'Effectif',
       'Lib_région', 'fap225_22', 'intitule_fap225_22', 'intitule_fap87_22',
       'intitule_fap22_22', 'intitule_fap225_23', 'intitule_fap87_23',
       'intitule_fap22_23'],
      dtype='object')

In [35]:
faits_transition = df

faits_transition.to_csv('faits_transition2.csv', index=False)

print("le fichier a été généré")

le fichier a été généré


# Création des tables de dimension

In [42]:
# création de la table de dim_rome  (Répertoire Opérationnel des Métiers et des Emplois)

dim_rome = pd.read_excel("tables_code_rome.xlsx")

dim_rome.head()

Unnamed: 0,code_ROME,intitule_ROME,code_fap225
0,A1416,"Polyculture, élevage",A0Z40
1,A1403,Aide d'élevage agricole et aquacole,A0Z41
2,A1407,Élevage bovin ou équin,A0Z41
3,A1408,Élevage d'animaux sauvages ou de compagnie,A0Z41
4,A1409,Élevage de lapins et volailles,A0Z41


In [43]:
dim_rome.to_csv('dim_rome.csv', index=False)

print("le fichier a été généré")

le fichier a été généré


In [44]:
# création de la table de Dim_tension

dim_tension = pd.read_excel("tensions_par_famille_pro_2022.xlsx")


dim_tension.head()

Unnamed: 0,Année,Code_FAP_225,Code_region,Lib_region,Emploi_moyen_(2015-2019),Tension,Tension_volumétrie_insuffisantes,Intensité_d_embauches,Lien_formation_emploi,Manque_de_main_d_oeuvre_disponible,...,Conditions_de_travail_contraignantes,Inadéquation_géographique,Tension_discret,Intensité_d_embauches_discret,Lien_formation_emploi_discret,Manque_de_main_d_oeuvre_disponible_discret,Non_durabilité_de_l_emploi_discret,Conditions_de_travail_contraignantes_discret,Inadéquation_géographique_discret,Croisement_où_volumétrie_suffisante_
0,2011,A0Z40,1,Guadeloupe,539.119176,-0.404255,-0.404255,1.151023,-0.199432,-4.948079,...,0.436598,1.098667,2,5,3,1,5,4,5,FAP225 - REG
1,2011,A0Z40,2,Martinique,1238.852345,-0.381998,-0.381998,0.261506,-0.199432,-1.971911,...,0.436598,1.098667,2,4,3,1,5,4,5,FAP225 - REG
2,2011,A0Z40,3,Guyane,134.638561,-0.453775,-0.453775,0.912062,-0.199432,-4.552228,...,0.436598,1.098667,2,5,3,1,5,4,5,FAP225 - REG
3,2011,A0Z40,4,La Réunion,996.65055,-0.272039,-0.272039,0.72797,-0.199432,-1.421629,...,0.436598,1.098667,2,5,3,1,5,4,5,FAP225 - REG
4,2011,A0Z40,5,Île-de-France,1894.349109,-0.194989,-0.194989,0.384998,-0.199432,1.148003,...,0.436598,1.098667,3,4,3,5,4,4,5,FAP225 - REG


In [None]:
# la colonne 'Lib_region' n'est pas correcte et ne respecte pas le mapping prévu dans le dictionnaire des variables ==> correction des valeurs

dim_tension['Code_region'] =dim_tension['Lib_region'].apply (lambda x:
                                      1 if x=='Guadeloupe'
                                        else 2 if x == 'Martinique'
                                        else 3 if x == 'Guyane'
                                        else 4 if x == 'La Réunion'
                                        else 11 if x == 'Île-de-France'
                                        else 24 if x == 'Centre-Val de Loire'
                                        else 27 if x == 'Bourgogne-Franche-Comté'
                                        else 28 if x == 'Normandie'
                                        else 32 if x == 'Hauts-de-France'
                                        else 44 if x == 'Grand Est'
                                        else 52 if x == 'Pays de la Loire'
                                        else 53 if x == 'Bretagne'
                                        else 75 if x == 'Nouvelle-Aquitaine'
                                        else 76 if x == 'Occitanie'
                                        else 84 if x == 'Auvergne-Rhône-Alpes'
                                        else 93 if x == "Provence-Alpes-Côte d'Azur"
                                        else 94 if x == 'Corse'
                                        else 99 if x == 'Etranger'
                                        else 'non spécifié')


dim_tension['Code_region'].unique()

array([ 1,  2,  3,  4, 11, 24, 27, 28, 32, 44, 52, 53, 75, 76, 84, 93, 94])

In [48]:
#ajout des dimensions familles 

df_tension = pd.merge(
    dim_tension,
    df_famille,
    left_on='Code_FAP_225',      
    right_on='code_fap225',  
    how='left'                  
)

df_tension.head()


Unnamed: 0,Année,Code_FAP_225,Code_region,Lib_region,Emploi_moyen_(2015-2019),Tension,Tension_volumétrie_insuffisantes,Intensité_d_embauches,Lien_formation_emploi,Manque_de_main_d_oeuvre_disponible,...,Non_durabilité_de_l_emploi_discret,Conditions_de_travail_contraignantes_discret,Inadéquation_géographique_discret,Croisement_où_volumétrie_suffisante_,code_fap225,intitule_fap225,code_fap87,intitule_fap87,code_fap22,intitule_fap22
0,2011,A0Z40,1,Guadeloupe,539.119176,-0.404255,-0.404255,1.151023,-0.199432,-4.948079,...,5,4,5,FAP225 - REG,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,2011,A0Z40,2,Martinique,1238.852345,-0.381998,-0.381998,0.261506,-0.199432,-1.971911,...,5,4,5,FAP225 - REG,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,2011,A0Z40,3,Guyane,134.638561,-0.453775,-0.453775,0.912062,-0.199432,-4.552228,...,5,4,5,FAP225 - REG,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,2011,A0Z40,4,La Réunion,996.65055,-0.272039,-0.272039,0.72797,-0.199432,-1.421629,...,5,4,5,FAP225 - REG,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,2011,A0Z40,11,Île-de-France,1894.349109,-0.194989,-0.194989,0.384998,-0.199432,1.148003,...,4,4,5,FAP225 - REG,A0Z40,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [49]:
df_tension["Lib_region"].unique()

array(['Guadeloupe', 'Martinique', 'Guyane', 'La Réunion',
       'Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse'],
      dtype=object)

In [50]:
# retrait des régions hors métropoles

regions_a_retraiter = ['Guadeloupe','Martinique','Guyane','La Réunion']

df_tension = df_tension[~df_tension["Lib_region"].isin(regions_a_retraiter)]     # pour rappel le ~ inverse le filtre pour afficher ce qui n'est pas dans la variable

df_tension["Lib_region"].unique()



array(['Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse'],
      dtype=object)

In [53]:
len(df_tension['Code_region'].unique())

13

In [54]:
df_tension.columns

Index(['Année', 'Code_FAP_225', 'Code_region', 'Lib_region',
       'Emploi_moyen_(2015-2019)', 'Tension',
       'Tension_volumétrie_insuffisantes', 'Intensité_d_embauches',
       'Lien_formation_emploi', 'Manque_de_main_d_oeuvre_disponible',
       'Non_durabilite_de_l_emploi', 'Conditions_de_travail_contraignantes',
       'Inadéquation_géographique', 'Tension_discret',
       'Intensité_d_embauches_discret', 'Lien_formation_emploi_discret',
       'Manque_de_main_d_oeuvre_disponible_discret',
       'Non_durabilité_de_l_emploi_discret',
       'Conditions_de_travail_contraignantes_discret',
       'Inadéquation_géographique_discret',
       'Croisement_où_volumétrie_suffisante_', 'code_fap225',
       'intitule_fap225', 'code_fap87', 'intitule_fap87 ', 'code_fap22',
       'intitule_fap22'],
      dtype='object')

In [None]:
# Sélection des colonnes à conserver

df_tension = df_tension[['Année', 'Code_FAP_225',
       'intitule_fap225', 'intitule_fap87 ',
       'intitule_fap22','Code_region','Lib_region','Tension_discret',
       'Intensité_d_embauches_discret', 'Lien_formation_emploi_discret',
       'Manque_de_main_d_oeuvre_disponible_discret',
       'Non_durabilité_de_l_emploi_discret',
       'Conditions_de_travail_contraignantes_discret',
       'Inadéquation_géographique_discret']]

df_tension.head()

Unnamed: 0,Année,Code_FAP_225,intitule_fap225,intitule_fap87,intitule_fap22,Code_region,Lib_region,Tension_discret,Intensité_d_embauches_discret,Lien_formation_emploi_discret,Manque_de_main_d_oeuvre_disponible_discret,Non_durabilité_de_l_emploi_discret,Conditions_de_travail_contraignantes_discret,Inadéquation_géographique_discret
4,2011,A0Z40,Agriculteurs salariés,"Agriculteurs, éleveurs, sylviculteurs, bûcherons","Agriculture, marine, pêche",11,Île-de-France,3,4,3,5,4,4,5
5,2011,A0Z40,Agriculteurs salariés,"Agriculteurs, éleveurs, sylviculteurs, bûcherons","Agriculture, marine, pêche",24,Centre-Val de Loire,3,5,3,4,5,4,5
6,2011,A0Z40,Agriculteurs salariés,"Agriculteurs, éleveurs, sylviculteurs, bûcherons","Agriculture, marine, pêche",27,Bourgogne-Franche-Comté,2,5,3,4,4,4,5
7,2011,A0Z40,Agriculteurs salariés,"Agriculteurs, éleveurs, sylviculteurs, bûcherons","Agriculture, marine, pêche",28,Normandie,2,4,3,4,5,4,5
8,2011,A0Z40,Agriculteurs salariés,"Agriculteurs, éleveurs, sylviculteurs, bûcherons","Agriculture, marine, pêche",32,Hauts-de-France,1,5,3,4,5,4,5


In [56]:
df_tension.describe(include="all")

Unnamed: 0,Année,Code_FAP_225,intitule_fap225,intitule_fap87,intitule_fap22,Code_region,Lib_region,Tension_discret,Intensité_d_embauches_discret,Lien_formation_emploi_discret,Manque_de_main_d_oeuvre_disponible_discret,Non_durabilité_de_l_emploi_discret,Conditions_de_travail_contraignantes_discret,Inadéquation_géographique_discret
count,29016.0,29016,29016,29016,29016,29016.0,29016,29016.0,29016.0,29016.0,29016.0,29016.0,29016.0,29016.0
unique,,186,186,77,18,,13,6.0,6.0,5.0,6.0,6.0,6.0,6.0
top,,A0Z40,Agriculteurs salariés,Ouvriers qualifiés des industries de process,"Bâtiment, travaux publics",,Île-de-France,5.0,5.0,1.0,5.0,1.0,1.0,1.0
freq,,156,156,1092,3120,,2232,9686.0,8613.0,8434.0,5907.0,5705.0,5361.0,6268.0
mean,2016.5,,,,,53.307692,,,,,,,,
std,3.452112,,,,,27.292015,,,,,,,,
min,2011.0,,,,,11.0,,,,,,,,
25%,2013.75,,,,,28.0,,,,,,,,
50%,2016.5,,,,,52.0,,,,,,,,
75%,2019.25,,,,,76.0,,,,,,,,


In [57]:
colonnes_a_traiter = ['Tension_discret',
       'Intensité_d_embauches_discret', 'Lien_formation_emploi_discret',
       'Manque_de_main_d_oeuvre_disponible_discret',
       'Non_durabilité_de_l_emploi_discret',
       'Conditions_de_travail_contraignantes_discret',
       'Inadéquation_géographique_discret']

# Remplacer "n.d." par 0 dans les colonnes spécifiées
df_tension[colonnes_a_traiter] = df_tension[colonnes_a_traiter].replace("n.d.", 0)


  df_tension[colonnes_a_traiter] = df_tension[colonnes_a_traiter].replace("n.d.", 0)


In [58]:
df_tension.describe(include="all")

Unnamed: 0,Année,Code_FAP_225,intitule_fap225,intitule_fap87,intitule_fap22,Code_region,Lib_region,Tension_discret,Intensité_d_embauches_discret,Lien_formation_emploi_discret,Manque_de_main_d_oeuvre_disponible_discret,Non_durabilité_de_l_emploi_discret,Conditions_de_travail_contraignantes_discret,Inadéquation_géographique_discret
count,29016.0,29016,29016,29016,29016,29016.0,29016,29016.0,29016.0,29016.0,29016.0,29016.0,29016.0,29016.0
unique,,186,186,77,18,,13,,,,,,,
top,,A0Z40,Agriculteurs salariés,Ouvriers qualifiés des industries de process,"Bâtiment, travaux publics",,Île-de-France,,,,,,,
freq,,156,156,1092,3120,,2232,,,,,,,
mean,2016.5,,,,,53.307692,,2.973015,2.752929,2.634374,2.637338,2.475152,2.558106,2.528502
std,3.452112,,,,,27.292015,,1.868906,1.844252,1.862276,1.749156,1.691247,1.698141,1.756899
min,2011.0,,,,,11.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2013.75,,,,,28.0,,1.0,1.0,1.0,1.0,1.0,1.0,1.0
50%,2016.5,,,,,52.0,,3.0,3.0,3.0,3.0,2.0,3.0,2.0
75%,2019.25,,,,,76.0,,5.0,5.0,4.0,4.0,4.0,4.0,4.0


In [59]:
df_tension['Tension_discret'].unique()

array([3, 2, 1, 4, 5, 0])

In [60]:
df_tension

df_tension.to_csv('dim_tension.csv', index=False)

## creation de dimension Demandeurs d'emploi 2022 et Demandeurs d'emploi 2023 pour analyse focus sur ces individus

In [None]:
# Création et enrichissement fichier Demandeurs d'emploi 2022 (MMO_entrants_FAP225)


dossier_parent = 'sources_brutes/Dares_mmo_entrants_FAP225/mmo_entrants_FAP225'

dataframes = []


for dossier in os.listdir(dossier_parent):
    chemin_dossier = os.path.join(dossier_parent, dossier)
    if os.path.isdir(chemin_dossier):       
        fichier_parquet = os.path.join(chemin_dossier, 'part-0.parquet')
        if os.path.exists(fichier_parquet):            
            df = pd.read_parquet(fichier_parquet)
            dataframes.append(df)

df_entrant = pd.concat(dataframes, ignore_index=True)

print(f"Nombre total de lignes : {len(df_entrant)}")

Nombre total de lignes : 3151130


In [56]:
df_entrant.head()

Unnamed: 0,FAP_DEPART,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_FIN,i_public_FIN,i_nature_FIN,REG_FIN,trage_FIN,i_naissance_FIN,tr_eff_etab_FIN,secteur_FIN,eff,eff_tot_FIN,pct_FIN
0,A0Z40,Agriculteurs salariés,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,A,7,110742,0.0
1,XXXXX,"Autres situations, personnes nées en France",Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,A,1,110742,0.0
2,WWWWW,Jeunes sortants d'études initiales,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,A,1,110742,0.0
3,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,N,1,110742,0.0
4,A0Z40,Agriculteurs salariés,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,N,1,110742,0.0


In [57]:
df_ch22 = df_entrant[df_entrant["FAP_DEPART"] == 'UUUUU']

df_ch22["FAP_DEPART"].unique()

array(['UUUUU'], dtype=object)

In [58]:
df_ch22.head()

Unnamed: 0,FAP_DEPART,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_FIN,i_public_FIN,i_nature_FIN,REG_FIN,trage_FIN,i_naissance_FIN,tr_eff_etab_FIN,secteur_FIN,eff,eff_tot_FIN,pct_FIN
3,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 1 à 9 salariés,N,1,110742,0.0
6,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 10 à 49 salariés,A,1,110742,0.0
11,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,15-29 ans,0,de 50 à 249 salariés,V,1,110742,0.0
16,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,30-39 ans,0,de 1 à 9 salariés,N,1,110742,0.0
19,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,1,0,0,1,30-39 ans,0,de 10 à 49 salariés,A,2,110742,0.0


In [59]:
len(df_ch22)

255662

In [60]:
list(df_ch22.columns)

['FAP_DEPART',
 'intitule_FAP_DEPART',
 'intitule_FAP_FIN',
 'Sexe_FIN',
 'i_public_FIN',
 'i_nature_FIN',
 'REG_FIN',
 'trage_FIN',
 'i_naissance_FIN',
 'tr_eff_etab_FIN',
 'secteur_FIN',
 'eff',
 'eff_tot_FIN',
 'pct_FIN']

In [61]:
# Sexe_FIN remplacement des valeurs binaires 1 et 2 pour le genre en texte 

df_ch22['Sexe_FIN'] =df_ch22['Sexe_FIN'].apply (lambda x:
                                      "Femme" if x==2
                                      else "Homme" if x==1
                                      else "Non spécifié" )

df_ch22['Sexe_FIN'].unique()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ch22['Sexe_FIN'] =df_ch22['Sexe_FIN'].apply (lambda x:


array(['Homme', 'Femme'], dtype=object)

In [62]:
df_ch22['REG_FIN'].unique()

array([ 1,  2,  3,  4, 11, 24, 27, 28, 32, 44, 52, 53, 75, 76, 84, 93, 94,
       99], dtype=int32)

In [63]:
#  'REG_FIN' : remplacement des valeurs  en texte 


df_ch22['REG_FIN'] =df_ch22['REG_FIN'].apply (lambda x:
                                        'Guadeloupe' if x==1
                                        else 'Martinique ' if x==2
                                        else 'Guyane' if x==3
                                        else 'La Réunion' if x==4
                                        else 'Île-de-France' if x==11
                                        else 'Centre-Val de Loire' if x==24
                                        else 'Bourgogne-Franche-Comté' if x==27
                                        else 'Normandie' if x==28
                                        else 'Hauts-de-France' if x==32
                                        else 'Grand Est' if x==44
                                        else 'Pays de la Loire' if x==52
                                        else 'Bretagne' if x==53
                                        else 'Nouvelle-Aquitaine' if x==75
                                        else 'Occitanie' if x==76
                                        else 'Auvergne-Rhône-Alpes' if x==84
                                        else "Provence-Alpes-Côte d'Azur" if x==93
                                        else 'Corse' if x==94
                                        else 'Etranger' if x==99
                                        else 'non spécifié'
                                        )


df_ch22['REG_FIN'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ch22['REG_FIN'] =df_ch22['REG_FIN'].apply (lambda x:


array(['Guadeloupe', 'Martinique ', 'Guyane', 'La Réunion',
       'Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse',
       'Etranger'], dtype=object)

In [64]:
# Retrait des DOM TOM + catégorie Etranger pour effectuer le focus uniquement sur Métropole

region_a_retraiter = ['Guadeloupe','Martinique ','Guyane','La Réunion','Etranger']

df_ch22 = df_ch22[~df_ch22['REG_FIN'].isin(region_a_retraiter)]     # pour rappel le ~ inverse le filtre pour afficher ce qui n'est pas dans la variable

df_ch22['REG_FIN'].unique()

array(['Île-de-France', 'Centre-Val de Loire', 'Bourgogne-Franche-Comté',
       'Normandie', 'Hauts-de-France', 'Grand Est', 'Pays de la Loire',
       'Bretagne', 'Nouvelle-Aquitaine', 'Occitanie',
       'Auvergne-Rhône-Alpes', "Provence-Alpes-Côte d'Azur", 'Corse'],
      dtype=object)

In [65]:
# 'i_public_FIN' remplacement des valeurs binaires 0 et 1 pour le secteur en texte 

df_ch22['i_public_FIN'] =df_ch22['i_public_FIN'].apply (lambda x:
                                      "Secteur privé" if x==0
                                      else "secteur public" if x==1
                                      else "Non spécifié" )

df_ch22['i_public_FIN'].unique()

array(['Secteur privé', 'secteur public'], dtype=object)

In [66]:
# 'i_nature_FIN' remplacement par des valeurs texte

df_ch22['i_nature_FIN'] =df_ch22['i_nature_FIN'].apply (lambda x:
                                      "CDI" if x==0
                                      else "CDD" if x==1
                                      else "Intérimaire" if x==2
                                      else "Non spécifié" )

df_ch22['i_nature_FIN'].unique()

array(['CDI', 'CDD', 'Intérimaire'], dtype=object)

In [67]:
# 'i_naissance_FIN' remplacement par des valeurs texte

df_ch22['i_naissance_FIN'] =df_ch22['i_naissance_FIN'].apply (lambda x:
                                      "Né en France" if x==0
                                      else "Né à l'étranger" if x==1
                                      else "Non spécifié" )

df_ch22['i_naissance_FIN'].unique()

array(['Né en France', "Né à l'étranger"], dtype=object)

In [68]:
df_ch22.head()

Unnamed: 0,FAP_DEPART,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_FIN,i_public_FIN,i_nature_FIN,REG_FIN,trage_FIN,i_naissance_FIN,tr_eff_etab_FIN,secteur_FIN,eff,eff_tot_FIN,pct_FIN
272,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,250 salariés ou plus,N,1,110742,0.0
277,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,A,2,110742,0.0
314,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,N,4,110742,0.0
317,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,V,1,110742,0.0
328,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,A,1,110742,0.0


In [69]:
# Intégration du code Famille 2023 à partir des libellés


df_ch22['Code_FAP_FIN'] =df_ch22['intitule_FAP_FIN'].apply (lambda x:
                                      'A0Z00' if x== 'Agriculteurs indépendants'
                                        else 'A0Z01' if x== 'Éleveurs indépendants'
                                        else 'A0Z02' if x== 'Bûcherons, sylviculteurs indépendants'
                                        else 'A0Z40' if x== 'Agriculteurs salariés'
                                        else 'A0Z41' if x== 'Éleveurs salariés'
                                        else 'A0Z42' if x== 'Bûcherons, sylviculteurs salariés et agents forestiers'
                                        else 'A0Z43' if x== "Conducteurs d'engins agricoles ou forestiers"
                                        else 'A1Z00' if x== 'Maraîchers, horticulteurs indépendants'
                                        else 'A1Z01' if x== 'Viticulteurs, arboriculteurs indépendants'
                                        else 'A1Z40' if x== 'Maraîchers, horticulteurs salariés'
                                        else 'A1Z41' if x== 'Jardiniers salariés'
                                        else 'A1Z42' if x== 'Viticulteurs, arboriculteurs salariés'
                                        else 'A2Z70' if x== "Techniciens et agents d'encadrement d'exploitations agricoles"
                                        else 'A2Z90' if x== "Ingénieurs, cadres techniques de l'agriculture"
                                        else 'A3Z00' if x== 'Marins, pêcheurs, aquaculteurs indépendants'
                                        else 'A3Z40' if x== 'Pêcheurs, aquaculteurs salariés'
                                        else 'A3Z41' if x== 'Marins salariés'
                                        else 'A3Z90' if x== "Cadres et maîtres d'équipage de la marine"
                                        else 'B0Z20' if x== "Ouvriers non qualifiés des travaux publics, du béton et de l'extraction"
                                        else 'B0Z21' if x== 'Ouvriers non qualifiés du gros œuvre du bâtiment'
                                        else 'B1Z40' if x== "Ouvriers qualifiés des travaux publics, du béton et de l'extraction"
                                        else 'B2Z40' if x== 'Maçons'
                                        else 'B2Z41' if x== 'Professionnels du travail de la pierre et des matériaux associés'
                                        else 'B2Z42' if x== 'Charpentiers (métal)'
                                        else 'B2Z43' if x== 'Charpentiers (bois)'
                                        else 'B2Z44' if x== 'Couvreurs'
                                        else 'B3Z20' if x== 'Ouvriers non qualifiés du second œuvre du bâtiment'
                                        else 'B4Z41' if x== 'Plombiers, chauffagistes'
                                        else 'B4Z42' if x== "Menuisiers et ouvriers de l'agencement et de l'isolation"
                                        else 'B4Z43' if x== 'Électriciens du bâtiment'
                                        else 'B4Z44' if x== 'Ouvriers qualifiés de la peinture et de la finition du bâtiment'
                                        else 'B5Z40' if x== "Conducteurs d'engins du bâtiment et des travaux publics"
                                        else 'B6Z70' if x== 'Géomètres'
                                        else 'B6Z71' if x== "Techniciens et chargés d'études du bâtiment et des travaux publics"
                                        else 'B6Z72' if x== 'Dessinateurs en bâtiment et en travaux publics'
                                        else 'B6Z73' if x== 'Chefs de chantier, conducteurs de travaux (non cadres)'
                                        else 'B7Z90' if x== 'Architectes'
                                        else 'B7Z91' if x== 'Ingénieurs du bâtiment et des travaux publics, chefs de chantier et conducteurs de travaux (cadres)'
                                        else 'C0Z20' if x== "Ouvriers non qualifiés de l'électricité et de l'électronique"
                                        else 'C1Z40' if x== "Ouvriers qualifiés de l'électricité et de l'électronique"
                                        else 'C2Z70' if x== 'Techniciens en électricité et en électronique'
                                        else 'C2Z71' if x== 'Dessinateurs en électricité et en électronique'
                                        else 'C2Z80' if x== 'Agents de maîtrise et assimilés en fabrication de matériel électrique, électronique'
                                        else 'D0Z20' if x== 'Ouvriers non qualifiés travaillant par enlèvement ou formage de métal'
                                        else 'D1Z40' if x== 'Régleurs'
                                        else 'D1Z41' if x== 'Ouvriers qualifiés travaillant par enlèvement de métal'
                                        else 'D2Z40' if x== 'Chaudronniers, tôliers, traceurs, serruriers, métalliers, forgerons'
                                        else 'D2Z41' if x== 'Tuyauteurs'
                                        else 'D2Z42' if x== 'Soudeurs'
                                        else 'D3Z20' if x== 'Ouvriers non qualifiés métallerie, serrurerie, montage'
                                        else 'D4Z40' if x== 'Monteurs, ajusteurs et autres ouvriers qualifiés de la mécanique'
                                        else 'D4Z41' if x== 'Agents qualifiés de traitement thermique et de surface'
                                        else 'D6Z70' if x== 'Techniciens en mécanique et travail des métaux'
                                        else 'D6Z71' if x== 'Dessinateurs en mécanique et travail des métaux'
                                        else 'D6Z80' if x== 'Agents de maîtrise et assimilés en fabrication mécanique'
                                        else 'E0Z20' if x== 'Ouvriers non qualifiés des industries chimiques et plastiques'
                                        else 'E0Z21' if x== 'Ouvriers non qualifiés des industries agro-alimentaires'
                                        else 'E0Z22' if x== 'Ouvriers non qualifiés en métallurgie, verre, céramique et matériaux de construction'
                                        else 'E0Z23' if x== 'Ouvriers non qualifiés du papier-carton et du bois'
                                        else 'E0Z24' if x== 'Autres ouvriers non qualifiés de type industriel'
                                        else 'E1Z40' if x== "Pilotes d'installation lourde des industries de transformation"
                                        else 'E1Z41' if x== 'Autres ouvriers qualifiés des industries chimiques et plastiques'
                                        else 'E1Z42' if x== 'Autres ouvriers qualifiés des industries agro-alimentaires (hors transformation des viandes)'
                                        else 'E1Z43' if x== 'Autres ouvriers qualifiés en verre, céramique, métallurgie, matériaux de construction et énergie '
                                        else 'E1Z44' if x== 'Ouvriers qualifiés des industries lourdes du bois et de la fabrication de papier-carton'
                                        else 'E1Z46' if x== 'Agents qualifiés de laboratoire'
                                        else 'E1Z47' if x== 'Autres ouvriers qualifiés de type industriel'
                                        else 'E2Z70' if x== 'Techniciens des industries de process'
                                        else 'E2Z80' if x== 'Agents de maîtrise et assimilés des industries de process'
                                        else 'F0Z20' if x== 'Ouvriers non qualifiés du textile et du cuir'
                                        else 'F1Z40' if x== 'Ouvriers qualifiés du travail industriel du textile et du cuir'
                                        else 'F1Z41' if x== 'Ouvriers qualifiés du travail artisanal du textile et du cuir'
                                        else 'F2Z20' if x== "Ouvriers non qualifiés du travail du bois et de l'ameublement"
                                        else 'F3Z40' if x== "Artisans du travail du bois et de l'ameublement ***"
                                        else 'F3Z41' if x== "Ouvriers qualifiés du travail du bois et de l'ameublement"
                                        else 'F4Z20' if x== "Ouvriers non qualifiés de l'imprimerie, de la presse et de l'édition"
                                        else 'F4Z41' if x== "Ouvriers qualifiés de l'impression et du façonnage des industries graphiques"
                                        else 'F5Z70' if x== 'Techniciens et agents de maîtrise des matériaux souples, du bois et des industries graphiques'
                                        else 'G0A40' if x== 'Ouvriers qualifiés de la maintenance en mécanique'
                                        else 'G0A41' if x== 'Ouvriers qualifiés de la maintenance en électricité et en électronique'
                                        else 'G0A42' if x== 'Mainteniciens en biens électrodomestiques'
                                        else 'G0A43' if x== "Ouvriers qualifiés polyvalents d'entretien du bâtiment"
                                        else 'G0B40' if x== 'Carrossiers automobiles'
                                        else 'G0B41' if x== 'Mécaniciens et électroniciens de véhicules'
                                        else 'G1Z70' if x== "Techniciens et agents de maîtrise de la maintenance et de l'environnement"
                                        else 'G1Z71' if x== 'Techniciens experts'
                                        else 'G1Z80' if x== 'Agents de maîtrise en entretien'
                                        else 'H0Z90' if x== 'Ingénieurs et cadres de fabrication et de la production'
                                        else 'H0Z91' if x== "Cadres techniques de la maintenance et de l'environnement"
                                        else 'H0Z92' if x== 'Ingénieurs des méthodes de production, du contrôle qualité'
                                        else 'J0Z20' if x== "Ouvriers non qualifiés de l'emballage et manutentionnaires"
                                        else 'J1Z40' if x== 'Ouvriers qualifiés du magasinage et de la manutention'
                                        else 'J1Z80' if x== 'Responsables magasinage'
                                        else 'J3Z40' if x== 'Conducteurs de véhicules légers'
                                        else 'J3Z41' if x== 'Conducteurs de transport en commun sur route'
                                        else 'J3Z42' if x== 'Conducteurs et livreurs sur courte distance'
                                        else 'J3Z43' if x== 'Conducteurs routiers'
                                        else 'J3Z44' if x== "Conducteurs sur rails et d'engins de traction"
                                        else 'J4Z40' if x== "Agents d'exploitation des transports"
                                        else 'J4Z60' if x== 'Contrôleurs des transports'
                                        else 'J4Z80' if x== 'Responsables logistiques (non cadres)'
                                        else 'J5Z60' if x== "Agents et hôtesses d'accompagnement"
                                        else 'J5Z61' if x== 'Agents administratifs des transports'
                                        else 'J5Z62' if x== 'Employés des transports et du tourisme'
                                        else 'J5Z80' if x== 'Techniciens des transports et du tourisme'
                                        else 'J6Z90' if x== 'Cadres des transports'
                                        else 'J6Z91' if x== "Personnels navigants de l'aviation"
                                        else 'J6Z92' if x== "Ingénieurs et cadres de la logistique, du planning et de l'ordonnancement"
                                        else 'K0Z20' if x== 'Ouvriers non qualifiés divers de type artisanal'
                                        else 'K0Z40' if x== 'Artisans et ouvriers qualifiés divers de type artisanal'
                                        else 'L0Z60' if x== 'Secrétaires bureautiques et assimilés'
                                        else 'L1Z60' if x== 'Employés de la comptabilité'
                                        else 'L2Z60' if x== "Agents d'accueil et d'information"
                                        else 'L2Z61' if x== 'Agents administratifs divers'
                                        else 'L3Z80' if x== 'Secrétaires de direction'
                                        else 'L4Z80' if x== 'Techniciens des services administratifs'
                                        else 'L4Z81' if x== 'Techniciens des services comptables et financiers'
                                        else 'L5Z90' if x== 'Cadres administratifs, comptables et financiers (hors juristes)'
                                        else 'L5Z91' if x== 'Juristes'
                                        else 'L5Z92' if x== 'Cadres des ressources humaines et du recrutement'
                                        else 'L6Z00' if x== 'Dirigeants de petites et moyennes entreprises'
                                        else 'L6Z90' if x== 'Cadres dirigeants des grandes entreprises'
                                        else 'M0Z60' if x== 'Employés et opérateurs en informatique'
                                        else 'M1Z80' if x== "Techniciens d'étude et de développement en informatique"
                                        else 'M1Z81' if x== "Techniciens de production, d'exploitation, d'installation, et de maintenance, support et services aux"
                                        else 'M2Z90' if x== "Ingénieurs et cadres d'étude, recherche et développement en informatique, chefs de projets informatiqu"
                                        else 'M2Z91' if x== "Ingénieurs et cadres d'administration, maintenance en informatique"
                                        else 'M2Z92' if x== 'Ingénieurs et cadres des télécommunications'
                                        else 'N0Z90' if x== "Ingénieurs et cadres d'étude, recherche et développement (industrie)"
                                        else 'N0Z91' if x== 'Chercheurs (sauf industrie et enseignement supérieur)'
                                        else 'P0Z60' if x== 'Agents des impôts et des douanes'
                                        else 'P0Z61' if x== 'Employés des services au public'
                                        else 'P0Z62' if x== 'Employés de la Poste et des télécommunications'
                                        else 'P1Z80' if x== 'Contrôleurs des impôts et des douanes'
                                        else 'P1Z81' if x== 'Autres cadres B de la fonction publique'
                                        else 'P1Z82' if x== 'Professions intermédiaires de la Poste et des télécommunications'
                                        else 'P2Z90' if x== 'Cadres A de la fonction publique (hors spécialités juridiques) et assimilés'
                                        else 'P2Z91' if x== 'Cadres de la Poste et des télécommunications'
                                        else 'P2Z92' if x== "Cadres de l'armée et de la gendarmerie"
                                        else 'P3Z90' if x== 'Professionnels du droit'
                                        else 'P3Z91' if x== 'Magistrats'
                                        else 'P4Z60' if x== "Agents de sécurité et de l'ordre public"
                                        else 'P4Z61' if x== 'Agents de polices municipales'
                                        else 'P4Z80' if x== "Cadres intermédiaires de la police et de l'armée"
                                        else 'Q0Z60' if x== 'Employés de la banque et des assurances'
                                        else 'Q1Z80' if x== 'Techniciens de la banque'
                                        else 'Q1Z81' if x== 'Techniciens des assurances'
                                        else 'Q2Z90' if x== 'Cadres de la banque'
                                        else 'Q2Z91' if x== 'Cadres des assurances'
                                        else 'R0Z60' if x== 'Employés de libre service'
                                        else 'R0Z61' if x== 'Caissiers'
                                        else 'R1Z60' if x== 'Vendeurs en produits alimentaires'
                                        else 'R1Z61' if x== 'Vendeurs en ameublement, équipement du foyer, bricolage'
                                        else 'R1Z62' if x== 'Vendeurs en habillement et accessoires, articles de luxe, de sport, de loisirs et culturels'
                                        else 'R1Z63' if x== 'Vendeurs en gros de matériel et équipements'
                                        else 'R1Z66' if x== 'Vendeurs généralistes'
                                        else 'R1Z67' if x== 'Télévendeurs'
                                        else 'R2Z80' if x== 'Attachés commerciaux'
                                        else 'R2Z83' if x== 'Représentants auprès des particuliers'
                                        else 'R3Z80' if x== 'Maîtrise des magasins'
                                        else 'R3Z81' if x== 'Intermédiaires du commerce***'
                                        else 'R3Z82' if x== 'Professions intermédiaires commerciales'
                                        else 'R4Z90' if x== 'Cadres commerciaux, acheteurs et cadres de la mercatique'
                                        else 'R4Z91' if x== 'Ingénieurs et cadres technico-commerciaux'
                                        else 'R4Z92' if x== 'Cadres des magasins'
                                        else 'R4Z93' if x== 'Agents immobiliers, syndics'
                                        else 'S0Z20' if x== "Apprentis et ouvriers non qualifiés de l'alimentation (hors industries agro-alimentaires)"
                                        else 'S0Z40' if x== 'Bouchers'
                                        else 'S0Z41' if x== 'Charcutiers, traiteurs'
                                        else 'S0Z42' if x== 'Boulangers, pâtissiers'
                                        else 'S1Z20' if x== 'Aides de cuisine, apprentis de cuisine et employés polyvalents de la restauration'
                                        else 'S1Z40' if x== 'Cuisiniers'
                                        else 'S1Z80' if x== 'Chefs cuisiniers'
                                        else 'S2Z60' if x== "Employés de l'hôtellerie"
                                        else 'S2Z61' if x== 'Serveurs de cafés restaurants'
                                        else 'S2Z80' if x== "Maîtres d'hôtel"
                                        else 'S2Z81' if x== "Maîtrise de l'hôtellerie"
                                        else 'S3Z00' if x== "Patrons d'hôtels, cafés, restaurants"
                                        else 'S3Z90' if x== "Cadres de l'hôtellerie et de la restauration"
                                        else 'T0Z60' if x== 'Coiffeurs, esthéticiens'
                                        else 'T1Z60' if x== 'Employés de maison et personnels de ménage'
                                        else 'T2A60' if x== 'Aides à domicile et aides ménagères'
                                        else 'T2B60' if x== 'Assistantes maternelles'
                                        else 'T3Z60' if x== 'Concierges'
                                        else 'T3Z61' if x== 'Agents de sécurité et de surveillance'
                                        else 'T4Z60' if x== "Agents d'entretien de locaux"
                                        else 'T4Z61' if x== 'Agents de services hospitaliers'
                                        else 'T4Z62' if x== "Ouvriers de l'assainissement et du traitement des déchets"
                                        else 'T6Z61' if x== 'Employés des services divers'
                                        else 'U0Z80' if x== 'Assistants de communication'
                                        else 'U0Z81' if x== 'Interprètes'
                                        else 'U0Z90' if x== 'Cadres de la communication'
                                        else 'U0Z91' if x== 'Cadres et techniciens de la documentation'
                                        else 'U0Z92' if x== "Journalistes et cadres de l'édition"
                                        else 'U1Z80' if x== 'Professionnels des spectacles'
                                        else 'U1Z81' if x== 'Photographes'
                                        else 'U1Z82' if x== 'Graphistes, dessinateurs, stylistes, décorateurs et créateurs de supports de communication visuelle'
                                        else 'U1Z91' if x== 'Artistes (musique, danse, spectacles)'
                                        else 'U1Z92' if x== 'Écrivains'
                                        else 'U1Z93' if x== 'Artistes plasticiens'
                                        else 'V0Z60' if x== 'Aides-soignants'
                                        else 'V1Z80' if x== 'Infirmiers'
                                        else 'V1Z81' if x== 'Sages-femmes'
                                        else 'V2Z90' if x== 'Médecins'
                                        else 'V2Z91' if x== 'Dentistes'
                                        else 'V2Z92' if x== 'Vétérinaires'
                                        else 'V2Z93' if x== 'Pharmaciens'
                                        else 'V3Z70' if x== 'Techniciens médicaux et préparateurs'
                                        else 'V3Z71' if x== "Spécialistes de l'appareillage médical"
                                        else 'V3Z80' if x== 'Autres professionnels para-médicaux'
                                        else 'V3Z90' if x== 'Psychologues, psychothérapeutes'
                                        else 'V4Z80' if x== "Professionnels de l'orientation"
                                        else 'V4Z83' if x== 'Educateurs spécialisés'
                                        else 'V4Z85' if x== "Professionnels de l'action sociale"
                                        else 'V5Z00' if x== "Exploitants d'équipements sportifs et culturels"
                                        else 'V5Z81' if x== "Professionnels de l'animation socioculturelle"
                                        else 'V5Z82' if x== 'Sportifs et animateurs sportifs'
                                        else 'V5Z84' if x== "Surveillants d'établissements scolaires"
                                        else 'W0Z80' if x== 'Professeurs des écoles'
                                        else 'W0Z90' if x== 'Professeurs du secondaire'
                                        else 'W0Z91' if x== "Directeurs d'établissement scolaire et inspecteurs"
                                        else 'W0Z92' if x== 'Professeurs du supérieur'
                                        else 'W1Z80' if x== 'Formateurs'
                                        else 'X0Z00' if x== 'Professionnels de la politique'
                                        else 'X0Z01' if x== 'Clergé'
                                        else 'ZZZZZ' if x== 'Non renseigné'
                                        else 'XXXXX' if x== 'Autres situations, personnes nées en France'
                                        else 'XX000' if x== "Autres situations, personnes nées à l'étranger"
                                        else 'VVVVV' if x== 'Retraités'
                                        else 'UUUUU' if x== "Demandeurs d'emploi"
                                        else "non spécifié"
                                        )

len(df_ch22['Code_FAP_FIN'].unique())

216

In [70]:
df_ch22.head()

Unnamed: 0,FAP_DEPART,intitule_FAP_DEPART,intitule_FAP_FIN,Sexe_FIN,i_public_FIN,i_nature_FIN,REG_FIN,trage_FIN,i_naissance_FIN,tr_eff_etab_FIN,secteur_FIN,eff,eff_tot_FIN,pct_FIN,Code_FAP_FIN
272,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,250 salariés ou plus,N,1,110742,0.0,A0Z40
277,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,A,2,110742,0.0,A0Z40
314,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,N,4,110742,0.0,A0Z40
317,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,V,1,110742,0.0,A0Z40
328,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,A,1,110742,0.0,A0Z40


In [71]:
list(df.columns)

['FAP_DEPART',
 'intitule_FAP_DEPART',
 'intitule_FAP_FIN',
 'Sexe_FIN',
 'i_public_FIN',
 'i_nature_FIN',
 'REG_FIN',
 'trage_FIN',
 'i_naissance_FIN',
 'tr_eff_etab_FIN',
 'secteur_FIN',
 'eff',
 'eff_tot_FIN',
 'pct_FIN']

In [72]:
df_ch22 = df_ch22.rename(columns= 
{'Code_FAP_FIN':"fap225_23",
 'intitule_FAP_DEPART':"intitule_fap225_22",
  'intitule_FAP_FIN':"intitule_fap225_23", 
  'Sexe_FIN':'Sexe',
  'i_public_FIN':'statut_employeur', 
  'i_nature_FIN':'Nature_contrat', 
  'REG_FIN':"région", 
  'trage_FIN':'Age',
  'i_naissance_FIN':'Lieu_naissance', 
  'tr_eff_etab_FIN':'effectif_etablissement', 
  'secteur_FIN':'activité_economique', 
  "eff":"Effectif",
  'eff_tot_FIN':'Effectif_tot_23', 
  'pct_DEPART':"part_flux_agrégé",
   'FAP_DEPART':"fap225_22"})

df_ch22.head()

Unnamed: 0,fap225_22,intitule_fap225_22,intitule_fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,Effectif_tot_23,pct_FIN,fap225_23
272,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,250 salariés ou plus,N,1,110742,0.0,A0Z40
277,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,A,2,110742,0.0,A0Z40
314,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,N,4,110742,0.0,A0Z40
317,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,V,1,110742,0.0,A0Z40
328,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,A,1,110742,0.0,A0Z40


In [None]:
#Integration granularité famille 22 et 23

df_ch22 = pd.merge(
    df_ch22,
    df_famille_22,
    left_on='fap225_22',      
    right_on='fap225_22',  
    how='left'                 
)

df_ch22 = pd.merge(
    df_ch22,
    df_famille_23,
    left_on='fap225_23',      
    right_on='fap225_23',  
    how='left'                 
)

df_ch22.head()

Unnamed: 0,fap225_22,intitule_fap225_22_x,intitule_fap225_23_x,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
0,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,250 salariés ou plus,...,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
1,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,...,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
2,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,...,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
3,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,...,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"
4,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,...,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche"


In [74]:
#retrait des colonnes en doublon suite à la fusion entre DataFrame principal et DataFrames familles pro 22 et 23


colonnes_doublon= ['intitule_fap225_22_x', 'intitule_fap225_23_x']

df_ch22 = df_ch22.drop(df_ch22[colonnes_doublon], axis=1, inplace=False, errors='raise')

df_ch22.columns

Index(['fap225_22', 'Sexe', 'statut_employeur', 'Nature_contrat', 'région',
       'Age', 'Lieu_naissance', 'effectif_etablissement',
       'activité_economique', 'Effectif', 'Effectif_tot_23', 'pct_FIN',
       'fap225_23', 'intitule_fap225_22_y', 'fap87_22', 'intitule_fap87_22',
       'fap22_22', 'intitule_fap22_22', 'intitule_fap225_23_y', 'fap87_23',
       'intitule_fap87_23', 'fap22_23', 'intitule_fap22_23'],
      dtype='object')

In [75]:
# demandeurs d'emploi 2023 (reprise du DF créé précédemment)

df_ch23.head()



Unnamed: 0,fap225_23,Sexe,statut_employeur,Nature_contrat,région,Age,Lieu_naissance,effectif_etablissement,activité_economique,Effectif,...,intitule_fap225_22_y,fap87_22,intitule_fap87_22,fap22_22,intitule_fap22_22,intitule_fap225_23_y,fap87_23,intitule_fap87_23,fap22_23,intitule_fap22_23
5,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,A,4,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
26,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,N,16,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
34,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 1 à 9 salariés,V,2,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
52,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 10 à 49 salariés,N,4,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi
72,UUUUU,Homme,Secteur privé,CDI,Île-de-France,15-29 ans,Né en France,de 50 à 249 salariés,N,2,...,Agriculteurs salariés,A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A,"Agriculture, marine, pêche",Demandeurs d'emploi,UUUUU,Demandeurs d'emploi,UUUUU,Demandeurs d'emploi


In [76]:
df_ch22.to_csv('df_ch22.csv', index=False)

df_ch23.to_csv('df_ch23.csv', index=False)

print("les fichiers ont été générés")

les fichiers ont été générés


# Creation de la BDD en local sur le serveur localhost\SQLEXPRESS

grâce à l'import Wizard, intégration des fichiers csv en tant que tables

# Branchement de power BI à la BDD

obtenir les données choisir SQL Server   ==> direct Query 

Permet d'interroger a BDD sans charger les données
