In [2]:
# Import Libraries
import pandas as pd
import os
from pathlib import Path

In [5]:
# Get the project's root directory
base_folder = Path().resolve()  # Gets the current working directory
main_folder = base_folder.parent

# Specify the folder containing the CSV files
folder_path = main_folder / "data" / "1- Raw Data" / "STMT"
output_file = main_folder / "data" / "2- Formatted Data" / "full_stmt_dataset.csv"  # Final output file

In [6]:
# List all CSV files in the folder
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# Initialize an empty list to store DataFrames
dataframes = []

# Loop through each CSV file
for file in csv_files:
    # Extract the month from the filename (assuming format: "Month ...")
    month = file.split(" ")[0]  # Get the first word in the filename, which is the month
    
    # Read the CSV file into a DataFrame with error handling
    file_path = os.path.join(folder_path, file)
    try:
        df = pd.read_csv(file_path, skiprows=3, delimiter=',', encoding='utf-8', skip_blank_lines=True)
        
        # Add a new column for the month (in French)
        df.insert(0, 'Mois', month)  # Use 'Mois' as the column name
        
        # Append the DataFrame to the list
        dataframes.append(df)
    except Exception as e:
        print(f"Error reading {file}: {e}")

# Combine all DataFrames into one
combined_df = pd.concat(dataframes, ignore_index=True)

# Clean column names by stripping whitespace and removing special characters
combined_df.columns = combined_df.columns.str.strip().str.replace(r'\s+', ' ', regex=True)

# Rename specific columns for easier processing
if 'Mois,Commune de plus de 5000 hab.' in combined_df.columns:
    combined_df.rename(columns={'Mois,Commune de plus de 5000 hab.': 'Mois_Commune'}, inplace=True)

# Split 'Mois_Commune' into two separate columns: 'Mois' and 'Commune de plus de 5000 hab'
if 'Mois_Commune' in combined_df.columns:
    combined_df[['Mois', 'Commune de plus de 5000 hab']] = combined_df['Mois_Commune'].str.split(',', n=1, expand=True)
    combined_df.drop(columns=['Mois_Commune'], inplace=True)

# Clean the "Total" column by removing trailing commas and converting to numeric
if 'Total' in combined_df.columns:
    combined_df['Total'] = combined_df['Total'].str.rstrip(',').str.strip()


In [7]:
df.head()

Unnamed: 0,Mois,Commune de plus de 5000 hab.;A1101 : Conduite d'engins d'exploitation agricole et forestière;A1201 : Bûcheronnage et élagage;A1202 : Entretien des espaces naturels;A1203 : Entretien des espaces verts;A1204 : Protection du patrimoine naturel;A1205 : Sylviculture;A1301 : Conseil et assistance technique en agriculture;A1302 : Contrôle et diagnostic technique en agriculture;A1303 : Ingénierie en agriculture et environnement naturel;A1401 : Aide agricole de production fruitière ou viticole;A1402 : Aide agricole de production légumière ou végétale;A1403 : Aide d'élevage agricole et aquacole;A1404 : Aquaculture;A1405 : Arboriculture et viticulture;A1406 : Cadre pont à la pêche;A1407 : Élevage bovin ou équin;A1408 : Élevage d'animaux sauvages ou de compagnie;A1409 : Élevage de lapins et volailles;A1410 : Élevage ovin ou caprin;A1411 : Élevage porcin;A1412 : Fabrication et affinage de fromages;A1413 : Fermentation de boissons alcoolisées;A1414 : Horticulture et maraîchage;A1415 : Matelot à la pêche;A1416 : Polyculture,élevage;A1417 : Saliculture;A1501 : Auxiliaire de soins aux animaux;A1502 : Podologie animale;A1503 : Toilettage des animaux;A1504 : Vétérinaire;B1101 : Création en arts plastiques;B1201 : Réalisation d'objets décoratifs et utilitaires en céramique et matériaux de synthèse;B1301 : Décorateur-étalagiste;B1302 : Décoration d'objets d'art et artisanaux;B1303 : Gravure - ciselure;B1401 : Réalisation d'objets en lianes,fibres et brins végétaux;B1402 : Reliure et restauration de livres et archives;B1501 : Fabrication et réparation d'instruments de musique;B1601 : Métallerie d'art;B1602 : Réalisation d'objets artistiques et fonctionnels en verre;B1603 : Réalisation d'ouvrages en bijouterie,joaillerie et orfèvrerie;B1604 : Réparation - montage en systèmes horlogers;B1701 : Conservation et reconstitution d'espèces animales;B1801 : Réalisation d'articles de chapellerie;B1802 : Réalisation d'articles en cuir et matériaux souples (hors vêtement);B1803 : Réalisation de vêtements sur mesure ou en petite série;B1804 : Réalisation d'ouvrages d'art en fils;B1805 : Stylisme;B1806 : Tapisserie - décoration en ameublement;C1101 : Conception - développement produits d'assurances;C1102 : Conseil clientèle en assurances;C1103 : Courtage en assurances;C1104 : Direction d'exploitation en assurances;C1105 : Études actuarielles en assurances;C1106 : Expertise risques en assurances;C1107 : Indemnisations en assurances;C1108 : Management de groupe et de service en assurances;C1109 : Rédaction et gestion en assurances;C1110 : Souscription d'assurances;C1201 : Accueil et services bancaires;C1202 : Analyse de crédits et risques bancaires;C1203 : Chargé d'affaires bancaires et financières;C1204 : Conception et expertise produits bancaires et financiers;C1205 : Conseil en gestion de patrimoine financier;C1206 : Gestion de clientèle bancaire;C1207 : Management en exploitation bancaire;C1301 : Front office marchés financiers;C1302 : Gestion back et middle-office marchés financiers;C1303 : Gestion de portefeuilles sur les marchés financiers;C1401 : Gestionnaire administratif banque et assurance;C1501 : Gérance immobilière;C1502 : Gestion locative immobilière;C1503 : Management de projet immobilier;C1504 : Transaction immobilière;D1101 : Boucherie;D1102 : Boulangerie - viennoiserie;D1103 : Charcuterie - traiteur;D1104 : Pâtisserie,confiserie,chocolaterie et glacerie;D1105 : Poissonnerie;D1106 : Vente en alimentation;D1107 : Vente en gros de produits frais;D1201 : Achat vente d'objets d'art,anciens ou d'occasion;D1202 : Coiffure;D1203 : Hydrothérapie;D1204 : Location de véhicules ou de matériel de loisirs;D1205 : Nettoyage d'articles textiles ou cuirs;D1206 : Réparation d'articles en cuir et matériaux souples;D1207 : Retouches en habillement;D1208 : Soins esthétiques et corporels;D1209 : Vente de végétaux;D1210 : Vente en animalerie;D1211 : Vente en articles de sport et loisirs;D1212 : Vente en décoration et équipement du foyer;D1213 : Vente en gros de matériel et équipements;D1214 : Vente en habillement et accessoires de la personne;D1301 : Responsable de magasin de détail;D1401 : Assistanat commercial;D1402 : Commercial auprès de grands comptes et entreprises;D1403 : Commercial auprès de particuliers;D1404 : Commercial en véhicules;D1405 : Conseil en information médicale;D1406 : Responsable de la force de vente;D1407 : Technico-commercial;D1408 : Téléconseil et télévente;D1501 : Animation de vente;D1502 : Chef de rayon produits alimentaires;D1503 : Chef de rayon produits non alimentaires;D1504 : Direction de magasin de grande distribution;D1505 : Hôte de caisse;D1506 : Marchandiseur;D1507 : Mise en rayon libre-service;D1508 : Responsable de caisses;D1509 : Responsable de département en grande distribution;E1101 : Animation de site multimédia;E1102 : Auteur écrivain;E1103 : Communication;E1104 : Conception de contenus multimédias;E1105 : Coordination d'édition;E1106 : Journalisme et information média;E1107 : Organisation d'événementiel;E1108 : Traduction,interprétariat;E1201 : Photographie;E1202 : Production en laboratoire cinématographique;E1203 : Production en laboratoire photographique;E1204 : Projection cinéma;E1205 : Réalisation de contenus multimédias;E1301 : Conduite de machines d'impression;E1302 : Conduite de machines de façonnage routage;E1303 : Encadrement des industries graphiques;E1304 : Façonnage et routage;E1305 : Préparation et correction en édition et presse;E1306 : Prépresse;E1307 : Reprographie;E1308 : Technicien des industries graphiques;E1401 : Développement et promotion publicitaire;E1402 : Élaboration de plan média;F1101 : Architecture du BTP;F1102 : Conception - aménagement d'espaces intérieurs;F1103 : Contrôle et diagnostic technique du bâtiment;F1104 : Dessin BTP;F1105 : Études géologiques;F1106 : Ingénierie et études du BTP;F1107 : Mesures topographiques;F1108 : Métré de la construction;F1201 : Conduite de travaux du BTP;F1202 : Direction de chantier du BTP;F1203 : Direction et ingénierie d'exploitation de gisements et de carrières;F1204 : Sécurité et protection santé du BTP;F1301 : Conduite de grue;F1302 : Conduite d'engins de terrassement et de carrière;F1401 : Extraction liquide et gazeuse;F1402 : Extraction solide;F1501 : Montage de structures et de charpentes bois;F1502 : Montage de structures métalliques;F1503 : Réalisation - installation d'ossatures bois;F1601 : Application et décoration en plâtre,stuc et staff;F1602 : Électricité bâtiment;F1603 : Installation d'équipements sanitaires et thermiques;F1604 : Montage d'agencements;F1605 : Montage réseaux électriques et télécoms;F1606 : Peinture en bâtiment;F1607 : Pose de fermetures menuisées;F1608 : Pose de revêtements rigides;F1609 : Pose de revêtements souples;F1610 : Pose et restauration de couvertures;F1611 : Réalisation et restauration de façades;F1612 : Taille et décoration de pierres;F1613 : Travaux d'étanchéité et d'isolation;F1701 : Construction en béton;F1702 : Construction de routes et voies;F1703 : Maçonnerie;F1704 : Manoeuvre du gros œuvre et des travaux publics;F1705 : Pose de canalisations;F1706 : Préfabrication en béton industriel;G1101 : Accueil touristique;G1102 : Promotion du tourisme local;G1201 : Accompagnement de voyages,...,mélange,…);H3401 : Conduite de traitement d'abrasion de surface;H3402 : Conduite de traitement par dépôt de surface;H3403 : Conduite de traitement thermique;H3404 : Peinture industrielle;I1101 : Direction et ingénierie en entretien infrastructure et bâti;I1102 : Management et ingénierie de maintenance industrielle;I1103 : Supervision d'entretien et gestion de véhicules;I1201 : Entretien d'affichage et mobilier urbain;I1202 : Entretien et surveillance du tracé routier;I1203 : Maintenance des bâtiments et des locaux;I1301 : Installation et maintenance d'ascenseurs;I1302 : Installation et maintenance d'automatismes;I1303 : Installation et maintenance de distributeurs automatiques;I1304 : Installation et maintenance d'équipements industriels et d'exploitation;I1305 : Installation et maintenance électronique;I1306 : Installation et maintenance en froid,conditionnement d'air;I1307 : Installation et maintenance télécoms et courants faibles;I1308 : Maintenance d'installation de chauffage;I1309 : Maintenance électrique;I1310 : Maintenance mécanique industrielle;I1401 : Maintenance informatique et bureautique;I1402 : Réparation de biens électrodomestiques;I1501 : Intervention en grande hauteur;I1502 : Intervention en milieu subaquatique;I1503 : Intervention en milieux et produits nocifs;I1601 : Installation et maintenance en nautisme;I1602 : Maintenance d'aéronefs;I1603 : Maintenance d'engins de chantier,de levage,manutention et agricoles;I1604 : Mécanique automobile;I1605 : Mécanique de marine;I1606 : Réparation de carrosserie;I1607 : Réparation de cycles,motocycles et motoculteurs de loisirs;J1101 : Médecin de prévention;J1102 : Médecin praticien;J1103 : Praticien dentaire;J1104 : Sage-femme;J1201 : Biologiste médical;J1202 : Pharmacien;J1301 : Agent des services hospitaliers;J1302 : Analyses médicales;J1303 : Assistance médico-technique;J1304 : Auxiliaire de puériculture;J1305 : Conduite de véhicules sanitaires;J1306 : Imagerie médicale;J1307 : Préparateur en pharmacie;J1401 : Audioprothèses;J1402 : Diététique;J1403 : Ergothérapie;J1404 : Kinésithérapie;J1405 : Optique - lunetterie;J1406 : Orthophonie;J1407 : Orthoptique;J1408 : Ostéopathie et chiropraxie;J1409 : Pédicurie et podologie;J1410 : Prothèses dentaires;J1411 : Prothèses et orthèses;J1412 : Rééducation en psychomotricité;J1501 : Aide-soignant;J1502 : Coordination de services médicaux ou paramédicaux;J1503 : Infirmier anesthésiste;J1504 : Infirmier de bloc opératoire;J1505 : Infirmier de prévention;J1506 : Infirmier de soins généraux;J1507 : Infirmier en puériculture;K1101 : Accompagnement et médiation familiale;K1102 : Aide aux bénéficiaires d'une mesure de protection juridique;K1103 : Développement personnel et bien-être de la personne;K1104 : Psychologue;K1201 : Action sociale;K1202 : Éducation de jeunes enfants;K1203 : Encadrement technique en insertion professionnelle;K1204 : Facilitation de la vie sociale;K1205 : Information et médiation sociale;K1206 : Intervention socioculturelle;K1207 : Intervention socioéducative;K1301 : Accompagnement médico-social;K1302 : Assistance auprès d'adultes;K1303 : Assistance auprès d'enfants;K1304 : Services domestiques;K1305 : Intervention sociale et familiale;K1401 : Conception et pilotage de la politique des pouvoirs publics;K1402 : Conseil en Santé Publique;K1403 : Management de structure de santé,sociale ou pénitentiaire;K1404 : Mise en œuvre et pilotage de la politique des pouvoirs publics;K1405 : Représentation de l'Etat sur le territoire national ou international;K1501 : Application des règles financières publiques;K1502 : Contrôle et inspection des Affaires Sociales;K1503 : Contrôle et inspection des impôts;K1504 : Contrôle et inspection du Trésor Public;K1505 : Protection des consommateurs et contrôle des échanges commerciaux;K1601 : Gestion de l'information et de la documentation;K1602 : Gestion de patrimoine culturel;K1701 : Combattant de la défense;K1702 : Direction de la sécurité civile et des secours;K1703 : Direction opérationnelle de la défense;K1704 : Responsable de sécurité publique;K1705 : Sécurité civile et secours;K1706 : Sécurité publique;K1707 : Surveillance municipale;K1801 : Conseiller en emploi et insertion socioprofessionnelle;K1802 : Développement local;K1901 : Auxiliaire de justice;K1902 : Collaborateur juridique;K1903 : Défense et conseil juridique;K1904 : Magistrature;K2101 : Conseil en formation;K2102 : Coordination pédagogique;K2103 : Direction d'établissement et d'enseignement;K2104 : Éducation et surveillance au sein d'établissements d'enseignement;K2105 : Enseignement artistique;K2106 : Enseignement des écoles;K2107 : Enseignement général du second degré;K2108 : Enseignement supérieur;K2109 : Enseignement technique et professionnel;K2110 : Formation en conduite de véhicules;K2111 : Formation professionnelle;K2112 : Orientation scolaire et professionnelle;K2201 : Blanchisserie industrielle;K2202 : Lavage de vitres;K2203 : Management et inspection en propreté de locaux;K2204 : Nettoyage de locaux;K2301 : Distribution et assainissement d'eau;K2302 : Management et inspection en environnement urbain;K2303 : Nettoyage des espaces urbains;K2304 : Revalorisation de produits industriels;K2305 : Salubrité et traitement de nuisibles;K2306 : Supervision d'exploitation éco-industrielle;K2401 : Recherche en sciences de l'homme et de la société;K2402 : Recherche en sciences de l'univers,de la matière et du vivant;K2501 : Gardiennage de locaux;K2502 : Management de sécurité privée;K2503 : Sécurité et surveillance privées;K2601 : Conduite d'opérations funéraires;K2602 : Conseil en services funéraires;K2603 : Thanatopraxie;L1101 : Animation musicale et scénique;L1102 : Mannequin - modèle;L1103 : Présentation de spectacles ou d'émissions;L1201 : Artiste de la danse;L1202 : Artiste de la musique et du chant;L1203 : Artiste dramatique;L1204 : Artiste du cirque et des arts visuels;L1301 : Mise en scène de spectacles vivants;L1302 : Production et administration spectacle,cinéma et audiovisuel;L1303 : Promotion d'artistes et de spectacles;L1304 : Réalisation cinématographique et audiovisuelle;L1401 : Sportif professionnel;L1501 : Coiffure et maquillage spectacle;L1502 : Costume et Habillage spectacle;L1503 : Décor et accessoires spectacle;L1504 : Éclairage spectacle;L1505 : Image cinématographique et télévisuelle;L1506 : Machinerie spectacle;L1507 : Montage et post-production;L1508 : Prise de son et sonorisation;L1509 : Régie générale;L1510 : Films d'animation et effets spéciaux;M1101 : Achats;M1102 : Direction des achats;M1201 : Analyse et ingénierie financière;M1202 : Audit et contrôle comptables et financiers;M1203 : Comptabilité;M1204 : Contrôle de gestion;M1205 : Direction administrative et financière;M1206 : Management de groupe ou de service comptable;M1207 : Trésorerie et financement;M1301 : Direction de grande entreprise ou d'établissement public;M1302 : Direction de petite ou moyenne entreprise;M1401 : Agent d'enquêtes;M1402 : Conseil en organisation et management d'entreprise;M1403 : Études et prospectives socio-économiques;M1404 : Responsable d'enquêtes;M1501 : Assistanat en ressources humaines;M1502 : Développement des ressources humaines;M1503 : Management des ressources humaines;M1601 : Accueil et renseignements;M1602 : Agent administratif;M1603 : Agent de distribution;M1604 : Assistanat de direction;M1605 : Assistanat technique et administratif;M1606 : Saisie de données;M1607 : Secrétariat;M1608 : Secrétariat comptable;M1609 : Secrétariat et assistanat médical ou médico-social;M1701 : Administration des ventes;M1702 : Analyse de tendance;M1703 : Chef de produit;M1704 : Management relation clientèle;M1705 : Marketing;M1706 : Promotion des ventes;M1707 : Stratégie commerciale;M1801 : Administration de systèmes d'information;M1802 : Conseil et maîtrise d'ouvrage en systèmes d'information;M1803 : Direction des systèmes d'information;M1804 : Études et développement de réseaux de télécoms;M1805 : Études et développement informatique;M1806 : Expertise et support technique en systèmes d'information;M1807 : Exploitation de systèmes de communication et de commandement;M1808 : Information géographique;M1809 : Information météorologique;M1810 : Production et exploitation de systèmes d'information;N1101 : Conduite d'engins de déplacement des charges;N1102 : Déménagement;N1103 : Magasinage et préparation de commandes;N1104 : Manœuvre et conduite d'engins lourds de manutention;N1105 : Manutention manuelle de charges;N1201 : Affrètement transport;N1202 : Gestion des opérations de circulation internationale des marchandises;N1301 : Conception et organisation de la chaîne logistique;N1302 : Responsable de site logistique;N1303 : Technicien logistique;N2101 : Navigation commerciale aérienne;N2102 : Pilotage et navigation technique aérienne;N2201 : Agent d'escale aéroportuaire;N2202 : Contrôle de la navigation aérienne;N2203 : Exploitation des pistes aéroportuaires;N2204 : Préparation des vols;N2205 : Responsable d'escale et exploitation aéroportuaire;N3101 : Encadrement de la navigation maritime;N3102 : Marin de la navigation maritime;N3103 : Navigation fluviale;N3201 : Exploitation des opérations portuaires et du transport maritime;N3202 : Exploitation du transport fluvial;N3203 : Manutention portuaire;N4101 : Conduite de transport de marchandises sur longue distance;N4102 : Conduite de transport de particuliers;N4103 : Conduite de transport en commun sur route;N4104 : Courses et livraisons express;N4105 : Conduite et livraison par tournées sur courte distance;N4201 : Responsable d'exploitation des transports routiers de marchandises;N4202 : Responsable d'exploitation des transports routiers de personnes;N4203 : Technicien d'exploitation des transports routiers de marchandises;N4204 : Technicien d'exploitation des transports routiers de personnes;N4301 : Conduite sur rails;N4302 : Contrôle des transports en commun;N4401 : Circulation du réseau ferré;N4402 : Exploitation et manoeuvre des remontées mécaniques;N4403 : Manœuvre du réseau ferré;ZZZZZ : Autre RomeV3,non renseigné;Total
0,Juillet,Abbeville 80100; 0; 0; 10; 90; 0; 0; 0;...,,,,,,,,,...,,,,,,,,,,
1,Juillet,Ablon-sur-Seine 94480; 0; 0; 0; 0; 0; 0;...,,,,,,,,,...,,,,,,,,,,
2,Juillet,Achères 78260; 0; 0; 0; 20; 0; 0; 0; 0...,,,,,,,,,...,,,,,,,,,,
3,Juillet,Achicourt 62217; 0; 0; 0; 10; 0; 0; 0; ...,,,,,,,,,...,,,,,,,,,,
4,Juillet,Acigné 35690; 0; 0; 0; 0; 0; 0; 0; 0; ...,,,,,,,,,...,,,,,,,,,,


In [None]:
import pandas as pd

# Define file paths
input_file_path = "data/1- Raw Data/STMT/full_stmt_dataset.csv"
output_file_path = "data/1- Raw Data/STMT/full_stmt_dataset_cleaned.csv"

# Load the CSV file
df = pd.read_csv(input_file_path)

# Split the "Commune de plus de 5000 hab" column into two new columns
df[['Commune de plus de 5000 hab', 'Postal Code']] = df['Commune de plus de 5000 hab'].str.rsplit(' ', n=1, expand=True)

# Save the updated DataFrame to a new CSV file
df.to_csv(output_file_path, index=False)

print(f"File has been updated and saved to: {output_file_path}")


In [None]:
# Save the final cleaned dataset to a CSV file
combined_df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Final cleaned dataset saved at: {output_file}")