### Sommaire

* [Chapitre 1. Premières explorations des sets de données](#chapter1)
    * [Section 1.1. Contexte et objectifs du projet](#section_1_1)
    * [Section 1.2. Importation des librairies](#section_1_2)
    * [Section 1.3. Importation des données](#section_1_3)
        * [Section 1.3.1. Importation des fichiers .csv de GoogleDrive](#section_1_3_1)
        * [Section 1.3.2. Transformation fichiers .csv en fichiers .parquet](#section_1_3_2)
        * [Section 1.3.3. Lecture des fichiers .parquet générés localement sur JUPYTER](#section_1_3_3)
        * [Section 1.3.4. Affichage des DataFrames](#section_1_3_4)
     * [Section 1.4. Exploration préliminaire des variables du jeu de données](#section_1_4)
        * [Section 1.4.1. Analyse des types et des colonnes, et forme des DataFrames ](#section_1_4_1)
        * [Section 1.4.2. Analyse des doublons dans chaque DataFrame](#section_1_4_2)
        * [Section 1.4.3. Résumé de la qualité des données](#section_1_4_3)
     * [Section 1.5. Fusion de jeux de données](#section_1_5)
* [Chapitre 2. Exploration et Analyse de données avec DataViz](#chapter2)
    * [Section 2.1. Analyses Statistiques](#section_2_1)
        * [Section 2.1.1. Tests de Pearson entre les variables tailles des entreprises et salaires moyens ](#section_2_1_1)
        * [Section 2.1.2. Test de Spearman entre le salaire médian et le nombre d'entreprises de petite taille](#section_2_1_2)
        * [Section 2.1.3. Test ANOVA](#section_2_1_3)
    * [Section 2.2. Représentation graphiques](#section_2_2)
        * [Section 2.2.1. Représentations graphiques des salaires médians par région](#section_2_2_1)
        * [Section 2.2.2. Représentations graphiques de la distribution des salaires des femmes et des hommes de plus de 50 ans dans l'industrie en France](#section_2_2_2) 
        * [Section 2.2.3. Représentation graphique des salaires des femmes de plus de 50 ans par région](#section_2_2_3)
        * [Section 2.2.4. Corrélation entre les tailles d'entreprise et les salaires moyens (heatmap)](#section_2_2_4)
        * [Section 2.2.5. Représentation graphique du nombre d'enterprises par région](#section_2_2_5)
        * [Section 2.2.6. Représentation graphique du type d'entreprises par Chef lieu des régions françaises](#section_2_2_6)
    * [Section 2.3](#section_2_3)
    * [Section 2.4](#section_2_4)
    * [Section 2.5](#section_2_5)
 
* [Chapitre 3. Nettoyage de données et Pre-procession](#chapter3)
    * [Section 3.1](#section_3_1)
    * [Section 3.2](#section_3_2)
    * 
* [Chapitre 4. ](#chapter4)
    * [Section 4.1](#section_4_1)
    * [Section 4.2](#section_4_2)


### Chapitre 1. Premières explorations des sets de données <a class="anchor" id="chapter1"></a>

#### Section 1.1. Contexte et objectifs du projet <a class="anchor" id="section_1_1"></a>

**Contexte :** L'INSEE, Institut national de la statistique et des études économiques, est l'organisme officiel français chargé de recueillir une variété de données sur le territoire français. Ces données, qu'elles soient démographiques (telles que les naissances, les décès, la densité de la population...) ou économiques (comme les salaires, le nombre d'entreprises par secteur d'activité ou par taille...), offrent une vision complète de la société française. 
Elles constituent ainsi une ressource précieuse pour analyser et comprendre les dynamiques sociales, économiques et territoriales du pays.

**Objectifs :** Cette étude vise à comparer les inégalités en France selon plusieurs dimensions. Tout d'abord, nous nous pencherons sur les disparités entre les entreprises, en examinant leur localisation géographique et leur taille. 
Ensuite, nous nous intéresserons aux inégalités au sein de la population, en analysant les variations de salaires en fonction de différents critères tels que la catégorie d’emploi et la localisation géographique. 
Enfin, nous concentrerons notre attention sur une grande ville en particulier, afin d'étudier de manière approfondie les inégalités qui peuvent exister à l'échelle locale.


#### Section 1.2. Importation des librairies <a class="anchor" id="section_1_2"></a>

In [1]:
import sys
sys.path.append('../src')

# standards librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import FuncFormatter

#librairies for csv to parquet (needs "pyarrow" package in Anaconda)
import pyarrow as pa
import pyarrow.parquet as pq

# Import modules from the appended path
from fi_functions import *

# Set display options to show all columns
pd.set_option('display.max_columns', None)


import warnings
warnings.filterwarnings('ignore')

ImportError: DLL load failed while importing lib: La procédure spécifiée est introuvable.

#### Section 1.3. Importation des données <a class="anchor" id="section_1_3"></a>

##### Section 1.3.1. Importation des fichiers .csv de GoogleDrive <a class="anchor" id="section_1_3_1"></a> 

In [None]:
# To KEEP - Direct Import From JUPYTER directory
#df_entreprises = pd.read_csv('../data/base_etablissement_par_tranche_effectif.csv') 
#df_salary = pd.read_csv('../data/net_salary_per_town_categories_update2021.csv', sep = ';')
#df_name_geographic = pd.read_csv('../data/name_geographic_information.csv', na_values = '-') 
#df_population = pd.read_csv('../data/population.csv', dtype={'CODGEO': object} )

In [None]:
# read .csv form Google Drive
file_id_entreprise = '1HT3JTOTiwqWkU0dLUSutLF5glxdVKpE4' # .csv file
file_id_salary = '1NLw8ymnnzLONUM1IVrYsH_A7DsqT84df' # .csv file
file_id_name_geographic = '1rgltgPmoDDzNT-YWYRvc11isdgmSmeAG' # .csv file
file_id_population = '1LsrModG7yNKY_UI75UAXyb_4ixeUUxJj' # .csv file

# Construct the direct download link
download_link_entreprise = f'https://drive.google.com/uc?export=download&id={file_id_entreprise}'
download_link_salary = f'https://drive.google.com/uc?export=download&id={file_id_salary}'
download_link_name_geographic = f'https://drive.google.com/uc?export=download&id={file_id_name_geographic}'
#download_link_population = f'https://drive.google.com/uc?export=download&confirm=1&id={file_id_population}'

##### Section 1.3.2 Transformation fichiers .csv en fichiers .parquet <a class="anchor" id="section_1_3_2"></a> 

In [None]:
## Executed once to convert csv -> parquet
#df_population = pd.read_csv('../data/population.csv', dtype={'CODGEO': object})  # OK  : from .csv file in jupyter before .parquet migration and deletion .csv file

#df_population.astype({'CODGEO': str}).to_parquet("../data/population.parquet.gzip", index=False, engine="pyarrow",compression='gzip')

##### Section 1.3.3 Lecture des fichiers .parquet générés localement sur JUPYTER <a class="anchor" id="section_1_3_3"></a> 

In [None]:
df_entreprises=pd.read_csv(download_link_entreprise, dtype={'CODGEO': object})     # OK  : from .csv file in google drive
df_salary = pd.read_csv(download_link_salary, sep = ';')   # OK  : from .csv file in google drive
df_name_geographic=pd.read_csv(download_link_name_geographic, dtype={0: 'object'})   # OK  : from .csv file in google drive
df_population=pd.read_parquet('../data/population.parquet.gzip')  # OK  : from .csv file in Jupyter


##### Section 1.3.4 Affichage des DataFrames <a class="anchor" id="section_1_3_4"></a> 

In [None]:
#DISPLAY Dataframes
display(df_entreprises.head())  
display(df_salary.head())  
display(df_name_geographic.head()) 
display(df_population.head())  

#### Section 1.4. Exploration préliminaire des variables du jeu de données <a class="anchor" id="section_1_4"></a> 

##### Section 1.4.1. Analyse des types et des colonnes, et forme des DataFrames <a class="anchor" id="section_1_4_1"></a> 

In [None]:
# Review data types and columns info and shape

print(df_entreprises.info())
print(df_salary.info())
print(df_name_geographic.info())
print(df_population.info())

In [None]:
# Shape for each DataFrame 

print("Shape of DF:")
print("entreprise:",df_entreprises.shape)
print("salary:",df_salary.shape)
print("name_geographic:",df_name_geographic.shape)
print("population:",df_population.shape)

##### Section 1.4.2. Analyse des doublons dans chaque DataFrame<a class="anchor" id="section_1_4_2"></a> 

In [None]:
# Number of duplicates for each DataFrame

print('Number of duplicates :')
print('entreprises :', df_entreprises.duplicated().sum())
print('salary :', df_salary.duplicated().sum())
print('name_geographic :', df_name_geographic.duplicated().sum(), ', name_geographic by com_code_insee :', df_name_geographic.duplicated(subset=['code_insee']).sum())
print('population :', df_population.duplicated().sum())

##### Section 1.4.3. Résumé de la qualité des données<a class="anchor" id="section_1_4_3"></a>  

In [None]:
summary(df_entreprises)
summary(df_salary)
summary(df_population)
summary_short(df_name_geographic)

**Conclusion pour df_name_geographic :** 
- Les noms des colonnes en français, tandis que ceux des autres DataFrames sont en anglais. Il est donc nécessaire de les renommer pour une cohérence.
- La colonne "code_insee" semble correspondre à "CODGEO", mais il y a un '0' au debut, par example, '1024' au lieu de '01024'.
- Les colonnes "latitude", "longitude", "éloignement" présentent respectivement 2929, 2841 et 2962 valeurs manquantes (NaN).
- La colonne "longitude" devrait normalement être de type float64. Cependant, nous n'avons pas pu modifier le type en raison de problèmes avec les données. Par exemple :
  
    - L'utilisation de ',' au lieu de '.' pour la notation décimale : **'5,83'**
    - La présence de '-' : ceux-ci doivent être remplacés par des valeurs NaN.

**Conclusion pour df_salary :** 
-  Il y a de nombreuses catégories de salariés, mais on peut voir qu'elles sont divisées selon les catégories suivantes : catégorie d'emploi, sexe et âge. Ça peut faciliter analyse. 
- La colonne "CODGEO" semble correspondre à "CODGEO", mais il y a un '0' au debut, par example, '1024' au lieu de '01024'.

**Conclusion pour df_entreprises :**  
- Il y a beaucoup de zeros dans la DF pour les colonnes suivantes :
    - 'E14TS6', 'E14TS10', 'E14TS20', 'E14TS50', 'E14TS100', 'E14TS200',
       'E14TS500'
- Pour améliorer cela, nous pouvons créer de nouvelles colonnes qui catégorisent les données en fonction de tailles d'entreprises plus vastes :
    - Micro entreprise: 0 <= taille < 10 personnes
    - Petit entreprise: 10 <= taille < 50 personnes
    - Moyenne entreprise :  50 <= taille < 200 personnes
    - Grande Entreprise : taille >= 200 personnes

#### Section 1.5. Fusion de jeux de données <a class="anchor" id="section_1_5"></a> 

In [None]:
# read a new datasets that was found on INSEE, .csv from Google Drive
file_id_entreprise = '1tP5j1NU6cT5kiEypf7ejQKrxNCrD4Cov' # .csv file
file_id_name_geographic = '1swb4GyKND6sx6bY2cJk3cu4v7NosS938' # .csv file

# Construct the direct download link
download_link_entreprise = f'https://drive.google.com/uc?export=download&id={file_id_entreprise}'
download_link_name_geographic = f'https://drive.google.com/uc?export=download&id={file_id_name_geographic}'

df_entreprises24=pd.read_csv(download_link_entreprise, dtype={'CODGEO': object})     # OK  : from .csv file in google drive
df_name_geographic_final=pd.read_csv(download_link_name_geographic, dtype={0: 'object', 5: 'object', 7: 'object', 14: 'object'})   # OK  : from .csv file in google drive

In [None]:
# The CSV import may have removed leading "0"s from the INSEE CODE, this function adds them back
add_leading_zeros(df_name_geographic_final,'COM_code_insee', 5)

display(df_name_geographic_final.head())

In [None]:
# Verification of duplicates by code_insee in df_name_geographic
df_name_geographic_final[df_name_geographic_final.duplicated(subset = ['COM_code_insee'])]

In [None]:
# Remove duplicates as the rows are identical
df_name_geographic_final=df_name_geographic_final.drop_duplicates(subset=["COM_code_insee"], keep="first")

In [None]:
# MERGE START

In [None]:
# MERGE Entreprise & df_name_geographic_final

In [None]:
# The CSV import may have removed leading "0"s from the CODGEO, this function adds them back
add_leading_zeros(df_entreprises24,'CODGEO', 5)
df_entreprises24=df_entreprises24.drop(['ET_BE', 'ET_BE_0sal', 'ET_BE_1_4', 'ET_BE_5_9',
       'ET_BE_10_19', 'ET_BE_20_49', 'ET_BE_50_99', 'ET_BE_100_199',
       'ET_BE_200_499', 'ET_BE_500P', '||'], axis=1)

display(df_entreprises24.head())

In [None]:
# Merge the 'df_entreprises24' DataFrame with the 'df_name_geographic_final' DataFrame based on the 'CODGEO' and 'COM_code_insee' columns
df_merge1=df_entreprises24.merge(df_name_geographic_final,left_on='CODGEO',right_on='COM_code_insee')

display(df_merge1.head())

In [None]:
# Add leading zeros to the 'CODGEO' column in the 'df_salary' DataFram
add_leading_zeros(df_salary, 'CODGEO', 5)

# Merge the 'df_merge1' DataFrame with the 'df_salary' DataFrame based on the 'CODGEO' column
df_merge2=df_merge1.merge(df_salary,left_on='CODGEO',right_on='CODGEO')
display(df_merge2.head())

In [None]:
# Merge the 'df_merge2' DataFrame with the 'df_population' DataFrame based on the 'CODGEO' column
df_merge3=df_merge2.merge(df_population,left_on='CODGEO',right_on='CODGEO')
display(df_merge3.head())

In [None]:
## Used once to export final merged file

# Specify the file path where you want to save the CSV file
#file_path = 'df_merge.csv'
# Save the DataFrame to a CSV file
#df_merge3.to_csv(file_path, index=False)  # Set index=False to avoid saving row numbers as a column

In [None]:
display(df_merge3.info())
print("Duplicates in merge: ", df_merge3.duplicated().sum())

### Chapitre 2. Exploration et Analyse de données avec DataViz <a class="anchor" id="chapter2"></a>

#### Section 2.1. Analyses Statistiques <a class="anchor" id="section_2_1"></a>

##### Section 2.1.1 Tests de Pearson entre les variables tailles des entreprises et salaires moyens  <a class="anchor" id="section_2_1_1"></a>

Le test de corrélation de Pearson nous permet d'évaluer la relation entre deux variables quantitatives. Dans notre analyse, nous l'avons utilisé pour explorer la relation entre le salaire médian (SNHM20) et deux mesures de la taille des entreprises : le nombre d'entreprises de grande taille (nb_large_entreprises) et le nombre d'entreprises de petite taille (nb_micro_entreprises).


**Test 1. SNHM20 (salaire médian) et nb_large_entreprises (nombre d'entreprises de grande taille)**


**Hypothèses :**

- H0 : Il n'y a pas de corrélation entre les variables.
- H1 : Il y a une corrélation entre les variables.

Si la valeur p < α, il existe une corrélation entre le salaire médian et le nombre d'entreprises de grande taille. Ce coefficient α indique l'intensité de la corrélation.

In [None]:
from scipy.stats import pearsonr

# Perform Pearson correlation test
test_pearson_lg = pearsonr(x = df_merge3["SNHM20"], y = df_merge3["nb_large_entreprises"]) 

print("p-value: ", test_pearson_lg[1])
print("coefficient: ", test_pearson_lg[0])

**Conclusions** 

Les résultats montrent un coefficient de corrélation de 0.0238 avec une valeur p extrêmement faible de 2.14e-159. 

La valeur p < 0.05, nous rejetons H0 et acceptons H1. Il existe une corrélation positive de faible intensité entre le salaire médian et le nombre d'entreprises de grande taille


**Test 2. SNHM20 (salaire médian) et nb_micro_entreprises (nombre d'entreprises de petite taille)**

**Hypothèses :**

- H0 : Il n'y a pas de corrélation entre les variables.
- H1 : Il y a une corrélation entre les variables.

Si la valeur p > α* : il n'y a pas de corrélation entre le salaire médian et le nombre d'entreprises de petite taille.
<p>*Ce coefficient α montre l'intensité de la corrélation.</p>

In [None]:
from scipy.stats import pearsonr

# Perform Pearson correlation test
test_pearson_mc = pearsonr(x = df_merge3["SNHM20"], y = df_merge3["nb_micro_entreprises"]) 

print("p-value: ", test_pearson_mc[1])
print("coefficient: ", test_pearson_mc[0])


**Conclusions :**
Le test de corrélation de Pearson entre ces deux variables montrent un coefficient de corrélation de -0.00918 avec une valeur p de 2.97e-25. 

La valeur p < 0.05, nous rejetons H0 et acceptons H1 : il y a une corrélation négative de faible intensité entre le salaire médian et le nombre d'entreprises de petite taille.

Etant donné le faible coefficient de corrélation, on peux se demander s'il n'y a pas une correlation non-linéaire. De plus, nous voyons sur le graphique ci-dessous qu'il semble y avoir une relation mais que celle-ci n'est pas linéaire. 

Nous pouvons vérifier cette analyse de corrélation avec un test de Spearman.

In [None]:
# Plot a scatter plot to visualize the relationship between median salary (SNHM20) 
# and the number of small enterprises (nb_micro_entreprises)

sns.scatterplot(x='SNHM20', y='nb_micro_entreprises', data = df_merge3);

##### Section 2.1.2 Test de Spearman entre le salaire médian et le nombre d'entreprises de petite taille <a class="anchor" id="section_2_1_2"></a>

**Hypothèses :**

- H0 : Il n'y a pas de corrélation entre les variables.
- H1 : Il y a une corrélation entre les variables.

Si la valeur p > α* : il n'y a pas de corrélation entre le salaire médian et le nombre d'entreprises de petite taille.
<p>*Ce coefficient α montre l'intensité de la corrélation.</p>

In [None]:
from scipy import stats

x = df_merge3['SNHM20']
y = df_merge3['nb_micro_entreprises']

# Computing the Spearman correlation coefficient

spearman_corr, spearman_p_value = stats.spearmanr(x, y)

print('Spearman correlation coefficient:', spearman_corr)
print('p-value:', spearman_p_value)

**Conclusions :**

Après avoir calculé le coefficient de corrélation de Spearman entre le salaire médian et le nombre d'entreprises de petite taille, nous avons obtenu un coefficient de -0.0555 avec une p de 0.0.

Cela confirme une corrélation négative faible entre ces deux variables. Comparativement, avec le test de corrélation de Pearson, nous avions obtenu un coefficient de corrélation de -0.00918, également indiquant une corrélation négative, mais moins forte.

La valeur p < 0.05, nous rejetons H0 et acceptons H1. 
Il existe une corrélation entre le salaire médian et le nombre d'entreprises de grande taille.

##### Section 2.1.3 Test ANOVA <a class="anchor" id="section_2_1_3"></a>

Test ANOVA entre les régions (REG_nom) et le salaire médian (SNHM20)

**Hypothesis :** 

- H0 : Aucune influence significative entre les régions et le salaire médian
- H1 : Influence significative entre les régions et le salaire médian

In [None]:
## Test
import statsmodels.api 
result = statsmodels.formula.api.ols('SNHM20 ~ REG_nom', data=df_merge3).fit()
table = statsmodels.api.stats.anova_lm(result)
display(table)

print("p-value (PR(>F)) < 5%  - we reject H0 and accept H1")

Il existe une influence significative entre les régions et le salaire médian.

#### Section 2.2. Représentations graphiques <a class="anchor" id="section_2_2"></a>

##### Section 2.2.1 Représentations graphiques des salaires médians par région <a class="anchor" id="section_2_2_1"></a>

In [None]:
#Barplot
plt.figure(figsize=(20, 20))
sns.catplot(x = 'SNHM20', y = 'REG_nom', kind = 'bar', data = df_merge3);
plt.show();

**Conclusion :** 
- La région où le salaire médian dans l'industrie est le plus élevé est l'Ile de France.
- La région où le salaire médian dans l'industrie est le plus faible est La Réunion.
- On constate une relative égalité dans les autres regions. 

In [None]:
#Box plot (visibilité des valeurs aberrantes)
plt.figure(figsize=(30, 15));
sns.boxplot(x = 'REG_nom', y ='SNHM20', data = df_merge3)
plt.title('Median salary per Region')
plt.show()

**Conclusions :**

Dispersion : plus la boîte est longue, plus la dispersion des salaires moyens est grande dans une région, c'est le cas de l'Ile de France. (A l'inverse de la Bourgogne Franche-Comté, de la Corse ou de la Guyane).

Valeurs aberrantes : Les points situés à l'extérieur des « moustaches » du boxplot représentent les valeurs aberrantes, c'est-à-dire les salaires moyens qui sont considérablement plus élevés ou plus bas que la norme dans une région. 

C'est le cas pour un grand nombre de régions dont l'IDF qui détient la palme. La conclusion est inverse pour les DOM-TOM, la Corse et le Centre Val de Loire.

##### Section 2.2.2 Représentations graphiques de la distribution des salaires des femmes et des hommes de plus de 50 ans dans l'industrie en France <a class="anchor" id="section_2_2_2"></a>

In [None]:
fig, ax = plt.subplots(figsize=(8, 5))

# Plot the distribution of women's salaries
sns.histplot(df_merge3['SNHMF5020'], kde=True, color='orange', label='Femme',alpha=0.6, ax=ax)

# Plot the distribution of men's salaries on the same Axes object
sns.histplot(df_merge3['SNHM5020'], kde=True, color='green', label='Homme', alpha=0.6, ax=ax)

plt.legend(title='Sex')
plt.title('Répartition des salaires des femmes et des hommes de plus de 50 ans dans l\'industrie en France')

plt.xlabel('Salaire')

La courbe KDE est inclinée vers la gauche, cela peut indiquer une concentration autour des salaires les plus bas. La concentration est plus importante aux alentours des 12€/h.
<p> La courbe KDE est inclinée vers la gauche, cela peut indiquer une concentration autour des salaires les plus bas. La concentration est plus importante aux alentours des 15€/h. Les salaires même faibles sont supérieurs chez les hommes que chez les femmes.</p>

##### Section 2.2.3 Représentation graphique des salaires des femmes de plus de 50 ans par région <a class="anchor" id="section_2_2_3"></a>

In [None]:
plt.figure(figsize=(30, 10));
sns.catplot(x = "REG_ChefLieu", y = "SNHMF5020", data = df_merge3, kind = "violin", 
            split = True, height=8, aspect=2, fontsize=10, labelpad=20, rotation=90);
plt.show();

Disparité : si un violon est plus large et plus plat que les autres, cela peut indiquer une plus grande disparité des salaires dans ce chef-lieu. 
Le cas de l'Ile de France est l'antinomie de cette conjecture (un violon plus étroit et plus élevé indique une concentration plus élevée de salaires autour d'une valeur moyenne). Rennes et Nantes sont des régions où les salaires sont plus disparates vs. l'Ile de France.

Médiane : la ligne médiane à l'intérieur du violon représente la médiane des salaires. 
C'est la valeur centrale de la distribution des salaires pour ce groupe spécifique de femmes dans ce chef-lieu.

Paris et Marseille ont des valeurs médianes plus élevées que les autres villes <=> les salaires des femmes sont en moyenne plus élevées dans ces villes a contrario de Lille ou Saint Denis de la Réunion par exemple


##### Section 2.2.3 Représentation graphique des salaires des hommes de plus de 50 ans par région <a class="anchor" id="section_2_2_3"></a>

In [None]:
plt.figure(figsize=(30, 10));
sns.catplot(x = "REG_ChefLieu", y = "SNHMH5020", data = df_merge3, kind = "violin", 
            split = True,height=8, aspect=2, fontsize=10, labelpad=20, rotation=90);
plt.show();

Les interprétations sont sensiblement les mêmes que pour l'analyse des salaires des femmes de plus de 50 ans.
La différence notable est le niveau de salaire nettement plus élevé chez les hommes que chez les femmes, c'est très visible en terme de concentration (surtout en IDF)

##### Section 2.2.4 Corrélation entre les tailles d'entreprise et les salaires moyens (heatmap) <a class="anchor" id="section_2_2_4"></a>

In [None]:
# Correlation between companies size and avarage salaries
selected_columns = ['Total_Salaries', 'nb_auto_entrepreneur','nb_micro_entreprises', 'nb_small_entreprises', 
                    'nb_medium_entreprises', 'nb_large_entreprises', 'SNHM20', 'NB']
selected_df = df_merge3[selected_columns]

correlation_matrix = selected_df.corr()

plt.figure(figsize=(10, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation between companies size and avarage salaries')
plt.show()

On note assez peu de corrélations entre les salaires médians et les tailles d'entreprises.

##### Section 2.2.5 Représentation graphique du nombre d'employés par région <a class="anchor" id="section_2_2_5"></a>

In [None]:
# Aggregate the data by REG_nom and sum the number of enterprises
reg_name_enterprises = df_merge3.groupby('REG_nom')['Total_Salaries'].sum().reset_index()

# Sort DataFrame by the 'Total_Salaries' column
reg_name_enterprises_sorted = reg_name_enterprises.sort_values(by='Total_Salaries', ascending=False)
#display(reg_name_enterprises_sorted)

In [None]:
# Plotting the bar plot
plt.figure(figsize=(12, 6))
sns.barplot(x='REG_nom', y='Total_Salaries', data=reg_name_enterprises_sorted, palette='viridis' )
plt.title('Total Number of Enterprises by Region Name')
plt.xlabel('Region Name')
plt.ylabel('Total Number of Enterprises')
plt.xticks(rotation=45, ha='right')

# Customize the y-axis ticks to show whole numbers
plt.gca().yaxis.set_major_formatter(FuncFormatter(lambda x, _: '{:,.0f}'.format(x)))

plt.show();


La région qui compte le plus grand nombre de salariés dans l'industrie (près de 4 millions) est Auvergne-Rhône-Alpes.

##### Section 2.2.6 Représentation graphique du type d'entreprises par Chef lieu des régions françaises <a class="anchor" id="section_2_2_6"></a>

In [None]:
# Aggregate the data by regional capital and sum the counts of each type of enterprise
region_enterprise_counts = df_merge3.groupby('REG_ChefLieu')[['nb_auto_entrepreneur','nb_micro_entreprises', 'nb_small_entreprises', 'nb_medium_entreprises', 'nb_large_entreprises']].sum().reset_index()

region_enterprise_counts_sorted = region_enterprise_counts.sort_values(by = 'nb_micro_entreprises', ascending = False)

In [None]:
region_enterprise_counts_sorted.plot(x='REG_ChefLieu', kind='bar', stacked=True, figsize=(12, 6))
plt.title('Number of Enterprises by Regional Capital')
plt.xlabel('Regional Capital')
plt.ylabel('Number of Enterprises')
plt.xticks(rotation=45, ha='right')

# Customize the y-axis ticks to show whole numbers
plt.gca().yaxis.set_major_formatter(FuncFormatter(lambda x, _: '{:,.0f}'.format(x)))

La représentation des micro-entreprises dans l'industrie est majoritaire dans toutes les grandes villes françaises. Lyon est N°1 comme évoqué dans la représentation graphique précédente.

##### Section 2.2.7 Corrélation entre les la distance des Grandes Villes et les salaires moyens (heatmap) <a class="anchor" id="section_2_2_7"></a>

In [None]:
# Correlation between Average Salaries & distances from Paris/ChefLieux
selected_columns = ['DIST_COM_PARIS','DIST_COM_CL_REG','DIST_COM_CL_DEPT','SNHM20']
selected_df = df_merge3[selected_columns]

correlation_matrix = selected_df.corr()[["SNHM20"]]

plt.figure(figsize=(5, 5))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation between average salaries & Sexe or Distance From Paris or ChefLieux Dept/Reg')
plt.show()

Etonnamment on ne voit pas d'impact de la distance des grandes villes sur le salaire moyen

##### Section 2.2.8 Corrélation entre la distance du Chef Lieu de Région et le mode de cohabitation (displot) <a class="anchor" id="section_2_2_8"></a>

In [None]:
#Analysis of influence between Distance From ChefLieu_REG and Cohabitation Mode

sns.displot(data=df_merge3, x="DIST_COM_CL_REG", hue="MOCO", multiple="stack", height=5, aspect=2)


La distance par rapport au chef lieu de région ne semble pas avoir de réelle influence sur le mode de cohabitation.

### Chapitre 3. Nettoyage de données et Pre-procession  <a class="anchor" id="chapter3"></a>

#### Section 3.1. df_final_merge data preparation <a class="anchor" id="section_3_1"></a>
#### Section 3.2. Calcul des disparités salariales <a class="anchor" id="section_3_2"></a>

In [None]:
#  Allow to plot all columns of a data set
pd.set_option('display.max_columns', None)

## Read long strings in pandas dataframe
pd.options.display.max_colwidth = 1000

# Allow to display maximum 100 rows of a data set
pd.set_option('display.max_rows', 100)

In [None]:
# read a new datasets about dimploma that was found on INSEE, .csv from Google Drive
file_id_diploma = '11-KEM4rJ2PqxsTn-BxW1pOfJobx6jjuv' # .csv file

# Construct the direct download link
download_link_diploma = f'https://drive.google.com/uc?export=download&id={file_id_diploma}'

df_diploma=pd.read_csv(download_link_diploma, sep=';')     # OK  : from .csv file in google drive
df_diploma.head()

In [None]:
df_final_merge = df_merge3.copy()

# Drop column 'NIVGEO' because it has only one unique value, and 'LIBGEO' - dublicate of com_name
df_final_merge = df_final_merge.drop(columns=['NIVGEO', 'LIBGEO'])

In [None]:
df_final_merge.columns

In [None]:
# Renaming the columns
new_column_names = {
    'SNHM20': 'mean_net_salary_hour_overall',
    'SNHMC20': 'mean_net_salary_hour_executives',
    'SNHMP20': 'mean_net_salary_hour_avg_executive',
    'SNHME20': 'mean_net_salary_hour_employee',
    'SNHMO20': 'mean_net_salary_hour_worker',
    'SNHMF20': 'mean_net_salary_hour_female',
    'SNHMFC20': 'mean_net_salary_hour_female_executives',
    'SNHMFP20': 'mean_net_salary_hour_avg_female_executive',
    'SNHMFE20': 'mean_net_salary_hour_female_employee',
    'SNHMFO20': 'mean_net_salary_hour_female_worker',
    'SNHMH20': 'mean_net_salary_hour_male',
    'SNHMHC20': 'mean_net_salary_hour_male_executives',
    'SNHMHP20': 'mean_net_salary_hour_avg_male_executive',
    'SNHMHE20': 'mean_net_salary_hour_male_employee',
    'SNHMHO20': 'mean_net_salary_hour_male_worker',
    'SNHM1820': 'mean_net_salary_hour_18_25',
    'SNHM2620': 'mean_net_salary_hour_26_50',
    'SNHM5020': 'mean_net_salary_hour_over_50',
    'SNHMF1820': 'mean_net_salary_hour_female_18_25',
    'SNHMF2620': 'mean_net_salary_hour_female_26_50',
    'SNHMF5020': 'mean_net_salary_hour_female_over_50',
    'SNHMH1820': 'mean_net_salary_hour_male_18_25',
    'SNHMH2620': 'mean_net_salary_hour_male_26_50',
    'SNHMH5020': 'mean_net_salary_hour_male_over_50',
    'DEPT_nom': 'DEPT_name',
    'COM_nom' : 'COM_name', 
    'Capitale' : 'capital', 
    'Capitale_latitude' : 'capital_latitude',
    'Capitale_longitude':'capitale_longitude',
    'SEXE' : 'sex'
}


df_final_merge = df_final_merge.rename(columns=new_column_names)

In [None]:
summary(df_final_merge)

In [None]:
# Drop specified columns
df = df_final_merge.drop(columns=['MOCO', 'AGEQ80_17', 'sex', 'NB'])  

# Drop duplicate rows
df = df.drop_duplicates()

df_final_merge2 = df.copy()
df_final_merge2.shape

#### Section 3.2. Calcul des disparités salariales <a class="anchor" id="section_3_2"></a>

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

## Step 1: Calculating salary disparity metrics
# Calculating the gender wage gap among executives
df_final_merge2['exec_gender_wage_gap'] = df_final_merge2['mean_net_salary_hour_male_executives'] - df_final_merge2['mean_net_salary_hour_female_executives']

# Calculating age-related wage gaps within gender for the oldest and youngest cohorts
df_final_merge2['age_gap_male'] = df_final_merge2['mean_net_salary_hour_male_over_50'] - df_final_merge2['mean_net_salary_hour_male_18_25']
df_final_merge2['age_gap_female'] = df_final_merge2['mean_net_salary_hour_female_over_50'] - df_final_merge2['mean_net_salary_hour_female_18_25']

# Calculating the overall gender wage gap
df_final_merge2['overall_gender_wage_gap'] = df_final_merge2['mean_net_salary_hour_male'] - df_final_merge2['mean_net_salary_hour_female']

# Calculating gender wage gaps within specific age groups
df_final_merge2['gender_gap_18_25'] = df_final_merge2['mean_net_salary_hour_male_18_25'] - df_final_merge2['mean_net_salary_hour_female_18_25']
df_final_merge2['gender_gap_over_50'] = df_final_merge2['mean_net_salary_hour_male_over_50'] - df_final_merge2['mean_net_salary_hour_female_over_50']




#### Section 3.3. Agrégation des données par Régions, Départements <a class="anchor" id="section_3_3"></a>

In [None]:
## Step 2: Aggregate metrics including Total_Salaries and disparity metrics by region
region_analysis = df_final_merge2.groupby('REG_code').agg({
    'Total_Salaries': 'sum', 
    'exec_gender_wage_gap': 'mean',
    'age_gap_male': 'mean',
    'age_gap_female': 'mean',
    'overall_gender_wage_gap': 'mean',
    'gender_gap_18_25': 'mean',
    'gender_gap_over_50': 'mean',
    'REG_ChefLieu_latitude': 'first',
    'REG_ChefLieu_longitude': 'first',
    'REG_nom': 'first',
    'DEPT_ChefLieu' : 'first',
    'DEPT_ChefLieu_latitude': 'first',
    'DEPT_ChefLieu_longitude': 'first',
}).reset_index()

region_analysis.head()

department_analysis = df_final_merge2.groupby('DEPT_code').agg({
    'Total_Salaries': 'sum', 
    'exec_gender_wage_gap': 'mean',
    'age_gap_male': 'mean',
    'age_gap_female': 'mean',
    'overall_gender_wage_gap': 'mean',
    'gender_gap_18_25': 'mean',
    'gender_gap_over_50': 'mean',
    'REG_ChefLieu_latitude': 'first',
    'REG_ChefLieu_longitude': 'first',
    'REG_nom': 'first',
    'DEPT_name' : 'first', 
    'DEPT_ChefLieu' : 'first',
    'DEPT_ChefLieu_latitude': 'first',
    'DEPT_ChefLieu_longitude': 'first',
}).reset_index()

department_analysis.head()

#### Section 3.3. Normalisation des données avant clustering <a class="anchor" id="section_3_3"></a> 

In [None]:
# Normalisation des données avec StandardScaler

features_combined = ['Total_Salaries', 'exec_gender_wage_gap', 'age_gap_male', 'age_gap_female', 
                     'overall_gender_wage_gap', 'gender_gap_18_25', 'gender_gap_over_50']
scaler = StandardScaler()

# Normalisation df X_scaled_region
X_scaled_region = scaler.fit_transform(region_analysis[features_combined])
X_scaled_region_df = pd.DataFrame(X_scaled_region, columns = features_combined)
X_scaled_region_df.head()

# Normalisation df X_scaled_department
X_scaled_department = scaler.fit_transform(department_analysis[features_combined])
X_scaled_department_df = pd.DataFrame(X_scaled_department, columns = features_combined)
X_scaled_department_df.head()


### Chapitre 4. <a class="anchor" id="chapter4"></a>

#### Section 4.1.  <a class="anchor" id="section_4_1"></a>

In [None]:
summary(df_entreprises)
summary(df_salary)
summary(df_population)
