In [26]:
import pandas as pd
import os


In [10]:
# import des données socio-économiques-démographiques


# Chemin des fichiers
data_dir = "C:/Users/Admin.local/Documents/Projet_final_data/Piketty_data"

# Fichiers correspondants
files = {
    "revenus": "Revenus_csv/revcommunes.csv",
    "csp": "CSP_csv/cspcommunes.csv",
    "diplomes": "Diplomes_csv/diplomescommunes.csv",
    "etrangers": "Nationalites_csv/etrangerscommunes.csv",
    "proprietaires": "Proprietaires_csv/proprietairescommunes.csv"
}


In [27]:

# Mise à jour des variables finales sélectionnées
final_columns = {
    "revenus": ["codecommune", "revmoy2022", "revmoyfoy2022", "revratio2022"],
    "csp": ["codecommune", "pchom2022", "pouvr2022", "pcadr2022"],  # Suppression des percentiles
    "diplomes": ["codecommune", "pbac2022", "psup2022"],  # Remplacement des percentiles par des proportions
    "etrangers": ["codecommune", "petranger2022"],
    "proprietaires": ["codecommune", "ppropri2022"]  # Correction ici : perpropri2022 remplacé par ppropri2022
}

# Charger et sélectionner uniquement les variables utiles
dfs = {}

# Spécifiez les types de données pour les colonnes concernées
dtype_options = {
    "revenus": {"codecommune": str, "revmoy2022": float, "revmoyfoy2022": float, "revratio2022": float},
    "csp": {"codecommune": str, "pchom2022": float, "pouvr2022": float, "pcadr2022": float},
    "diplomes": {"codecommune": str, "pbac2022": float, "psup2022": float},
    "etrangers": {"codecommune": str, "petranger2022": float},
    "proprietaires": {"codecommune": str, "ppropri2022": float}
}

for key, file in files.items():
    path = os.path.join(data_dir, file)
    df = pd.read_csv(path, sep=",", dtype=dtype_options[key], low_memory=False)

    # Vérifier si les colonnes existent dans le dataset
    cols_to_keep = [col for col in final_columns[key] if col in df.columns]
    df_selected = df[cols_to_keep]
    
    dfs[key] = df_selected

# Fusion des datasets
df_final = dfs["revenus"]
for key in ["csp", "diplomes", "etrangers", "proprietaires"]:
    df_final = df_final.merge(dfs[key], on="codecommune", how="left")

In [28]:
df_final.shape

(36661, 11)

In [29]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36661 entries, 0 to 36660
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   codecommune    36661 non-null  object 
 1   revmoy2022     34746 non-null  float64
 2   revmoyfoy2022  34747 non-null  float64
 3   revratio2022   36661 non-null  float64
 4   pchom2022      35065 non-null  float64
 5   pouvr2022      35065 non-null  float64
 6   pcadr2022      35065 non-null  float64
 7   pbac2022       35222 non-null  float64
 8   psup2022       35222 non-null  float64
 9   petranger2022  34807 non-null  float64
 10  ppropri2022    36545 non-null  float64
dtypes: float64(10), object(1)
memory usage: 3.1+ MB


In [30]:
df_final.to_csv("df_final.csv", index=False)

In [32]:


# Chemin des fichiers
data_dir = "C:/Users/Admin.local/Documents/Projet_final_data/Piketty_data"
file_votes = os.path.join(data_dir, "pres2022_csv/pres2022comm.csv")

# Spécifiez les types de données pour les colonnes concernées
dtype_votes = {
    "codecommune": str,
    "exprimes": float,
    "voteG": float,
    "voteCG": float,
    "voteC": float,
    "voteCD": float,
    "voteD": float,
    "voteTG": float,
    "voteTD": float,
    "voteGCG": float,
    "voteDCD": float,
    "pvoixT2MACRON": float,
    "pvoixT2MLEPEN": float,
    "pabs": float,
    "pblancsnuls": float,
    "pabsT2": float,
    "pblancsnulsT2": float
}

# Charger les résultats de la présidentielle 2022
df_votes = pd.read_csv(file_votes, sep=",", dtype=dtype_votes, low_memory=False)

# Charger les résultats de la présidentielle 2022 avec les regroupements politiques
columns_votes = [
    "codecommune", "exprimes", "voteG", "voteCG", "voteC", "voteCD", "voteD", "voteTG", "voteTD",
    "voteGCG", "voteDCD", "pvoixT2MACRON", "pvoixT2MLEPEN", "pabs", "pblancsnuls", "pabsT2", "pblancsnulsT2"
]
df_votes = df_votes[columns_votes]

# Fusion avec le dataset principal
df_final = df_final.merge(df_votes, on="codecommune", how="left")

In [33]:
df_final.shape

(36661, 43)

In [34]:
df_final.to_csv("df_final.csv", index=False)

In [35]:
df_final.columns

Index(['codecommune', 'revmoy2022', 'revmoyfoy2022', 'revratio2022',
       'pchom2022', 'pouvr2022', 'pcadr2022', 'pbac2022', 'psup2022',
       'petranger2022', 'ppropri2022', 'exprimes_x', 'voteG_x', 'voteCG_x',
       'voteC_x', 'voteCD_x', 'voteD_x', 'voteTG_x', 'voteTD_x', 'voteGCG_x',
       'voteDCD_x', 'pvoixT2MACRON_x', 'pvoixT2MLEPEN_x', 'pabs_x',
       'pblancsnuls_x', 'pabsT2_x', 'pblancsnulsT2_x', 'exprimes_y', 'voteG_y',
       'voteCG_y', 'voteC_y', 'voteCD_y', 'voteD_y', 'voteTG_y', 'voteTD_y',
       'voteGCG_y', 'voteDCD_y', 'pvoixT2MACRON_y', 'pvoixT2MLEPEN_y',
       'pabs_y', 'pblancsnuls_y', 'pabsT2_y', 'pblancsnulsT2_y'],
      dtype='object')