# Répertoire des bilans sociaux de grandes entreprises - focus sur les salariés en situation de handicap

Objectif : extraire et mettre en forme les données de bilan social des entreprises autre qu'EDF liées aux salariés et à ceux en situation d'handicap 

Méthodologie : explorer les données mises en forme d'EDF fournies puis extraire et mettre en forme de la même manière des données d'autres entreprises

## TODO

|N° Mission|N° Tâche|Statut |Description tâche|
|-|-|-|-|
|2|1|Done                   |Téléchargement et exploration sommaire des données EDF|
|-|-|-|-|
|2|2|Done                   |Etablissement de l'environnement de travail|
|-|-|-|-|
|2|3|En cours               |Choix des librairies / outils et premiers tests|
|2|3.1|En cours             |Test de docling pour extraire les tableaux de données des pdf|
|-|-|-|-|
|2|4|Done                   |Téléchargement et exploration sommaire des données d'autres entreprises|
|2|4.1|Done                 |Liste d'autres entreprises et liens vers leurs données|
|2|4.2|Done                 |Téléchargement des données (fichiers pdf/csv)|
|-|-|-|-|
|2|5|A faire                |Automatisation du téléchargement des données|
|-|-|-|-|
|2|6|A faire                |Evaluer la possibilité d'utiliser un outils d'extraction depuis pdf pour extraire les données|
|-|-|-|-|
|2|7|A faire                |Evaluer la possibilité d'utiliser un LLM pour extraire les données|


## Exploration des données EDF

Source :  
- https://defis.data.gouv.fr/datasets/66e380b07889d3b365709382
- https://defis.data.gouv.fr/datasets/66e380b07889d3b365709384

In [14]:
import pandas as pd
import numpy as np

path_salaries_all = '../data/raw/bilan-social-d-edf-sa-effectifs-et-repartition-par-age-statut-et-sexe.csv'
path_salaries_handi = '../data/raw/bilan-social-d-edf-sa-salaries-en-situation-de-handicap.csv'

# Données salariés
df_all = pd.read_csv(path_salaries_all, sep=';')
columns_df_all_to_keep = ['Année', 'Perimètre juridique', 'Perimètre spatial',
       'Indicateur', 'Type de contrat',
      'Collège',  'Sous-catégorie collège', 'Genre', 
       'Plage M3E',  'Nationalité',  'Ancienneté',  "Tranche d'âge", 'Valeur',
       'Unité', 'Chapitre du bilan social']
df_all = df_all.loc[:,columns_df_all_to_keep]
display(df_all.head(2))

# Données salariés en situation de handicap
df_handi = pd.read_csv(path_salaries_handi, sep=';')
columns_df_handi_to_keep = ['Année', 'Perimètre juridique', 'Perimètre spatial',
            'Indicateur',  'Type de contrat', 'Collège',  'Genre',
       'Valeur', 'Unité', 'Chapitre du bilan social']
df_handi=df_handi.loc[:,columns_df_handi_to_keep]
display(df_handi.head(2))

Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Sous-catégorie collège,Genre,Plage M3E,Nationalité,Ancienneté,Tranche d'âge,Valeur,Unité,Chapitre du bilan social
0,2023,EDF SA,France,Effectif,Non statutaires CDI,Cadre,,Homme,,,,Moins de 25 ans,9.0,nombre,§1.1.6
1,2023,EDF SA,France,Effectif,Non statutaires CDD,Cadre,,Femme,,,,Moins de 25 ans,19.0,nombre,§1.1.6


Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Genre,Valeur,Unité,Chapitre du bilan social
0,2023,EDF SA,France,Salariés en situation de handicap,Statutaires,Cadre,Femme,343.0,nombre,§1.7.1
1,2023,EDF SA,France,Salariés en situation de handicap,Non Statutaires CDI,Maîtrise,Homme,0.0,nombre,§1.7.1


In [15]:
display(df_all.describe(include='all'))
display(df_handi.describe(include='all'))

Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Sous-catégorie collège,Genre,Plage M3E,Nationalité,Ancienneté,Tranche d'âge,Valeur,Unité,Chapitre du bilan social
count,2322.0,2322,2322,2322,2322,2154,264,2322,168,252,672,756,2322.0,2322,2322
unique,,1,1,3,3,3,8,2,10,2,8,6,,1,7
top,,EDF SA,France,Effectif,Statutaires,Cadre,Cadres,Homme,Sans plage,Française,De 5 à moins de 10 ans,Moins de 25 ans,,nombre,§1.1.6
freq,,2322,2322,2112,992,756,42,1161,42,126,84,126,,2322,756
mean,2019.997416,,,,,,,,,,,,969.076227,,
std,1.999352,,,,,,,,,,,,2472.662894,,
min,2017.0,,,,,,,,,,,,0.0,,
25%,2018.0,,,,,,,,,,,,2.0,,
50%,2020.0,,,,,,,,,,,,52.0,,
75%,2022.0,,,,,,,,,,,,772.75,,


Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Genre,Valeur,Unité,Chapitre du bilan social
count,189.0,189,189,189,189,189,126,189.0,189,189
unique,,1,1,2,3,3,2,,1,2
top,,EDF SA,France,Salariés en situation de handicap,Statutaires,Cadre,Femme,,nombre,§1.7.1
freq,,189,189,126,63,63,63,,189,126
mean,2020.0,,,,,,,92.513228,,
std,2.005312,,,,,,,187.431934,,
min,2017.0,,,,,,,0.0,,
25%,2018.0,,,,,,,0.0,,
50%,2020.0,,,,,,,3.0,,
75%,2022.0,,,,,,,58.0,,


## Liste entreprises extérieures et bilan sociaux associés

Au vu de la nature unique de chaque fichier / entreprise, la méthode d'extraction des données peut soit (1) être semi-automatisée avec une extraction de données par fichier relativement ciblée (2) être totalement automatisée en utilisant un LLM ou autre modèle de langage pour extraire l'information. 

Les entreprises ciblées étaient données dans les ressources, ou inspirées des plus grosses entreprises françaises de 2018 + celles de taille similaire à EDF en 2018 (https://fr.wikipedia.org/wiki/Liste_des_plus_grandes_entreprises_fran%C3%A7aises).

### Bilan sociaux

|Entreprise|Type données|Lien|Info handicap |
|----------|------------|----|------------|
|CNP Assurances |**pdf texte**| https://www.cnp.fr/cnp/content/download/11474/file/CNP-Assurances-Bilan-social-2023.pdf | Oui |
|ENGIE          |**pdf texte**|https://www.engie.com/sites/default/files/assets/documents/2023-03/ENGIE%20SA_Bilan%20social%202021_VD.pdf | Oui |
|INSA Strasbourg|**pdf**|https://www.insa-strasbourg.fr/wp-content/uploads/INSA_bilan_soc_20_V2_21.pdf | Non? |

### Déclaration de Performance Extra-Financière (DPEF) 

Dans ces déclarations les chiffres et données ont été pré-traités et un fichier par an avec seulement l'année et l'année n-1.

|Entreprise|Type données|Lien|Commentaire|
|----------|------------|----|-----------|
|Décathlon|**html vers pdfs texte**| https://engagements.decathlon.fr/les-rapports-developpement-durable-decathlon-annuels | tableaux en annexe dispo par pays - p92 pour handicap|
|Carrefour|**pdf texte**|https://www.carrefour.com/sites/default/files/2024-05/DPEF%202023%20Groupe%20Carrefour.pdf| tableau évolution 2022-23 p58|
|Carrefour|**pdf texte**|https://www.carrefour.com/sites/default/files/2023-04/DPEF_Carrefour_2022.pdf| pour 2021-22 p131|
|Auchan|**html vers pdf texte**|https://www.auchan-retail.com/fr/rapport-financier-annuel-et-declaration-de-performance-extra-financiere-2022/| tableau évolution 2020-2023 p98|

### Données autres

|Entreprise|Type données|Lien|Info handicap |
|----------|------------|----|------------|
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/agents-situation-handicap/table/?sort=date | Spécifique handicap / an |
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/nombre-total-agents-effectifs/table/?sort=date | Spécifique par collège / an |
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/repartition-genre-effectif/information/ | Spécifique par genre / an |
|Orange|**pdf texte ou orange data book**|https://gallery.orange.com/rse/?v=ffca4aaa-5c3b-44e4-ba7b-2760163650ea#beecontext=viewShareContext&l=row&st=417c9e1e-3eae-44b2-bce6-c1a6dadc179f|il faut regarder dans chaque document|



## Extraction des données des entreprises extérieures après téléchargement des fichiers associés

- Test de la librairie Docling https://github.com/DS4SD/docling
- Liste des fichiers : 

In [16]:
import glob

glob.glob('../data/raw/*/*')

['../data/raw/Carrefour/DPEF 2023 Groupe Carrefour.pdf',
 '../data/raw/Carrefour/DPEF_Carrefour_2022.pdf',
 '../data/raw/INSA/INSA_bilan_soc_20_V2_21.pdf',
 '../data/raw/Orange/Bilan Social 2021 Orange SA.pdf',
 '../data/raw/Orange/Orange DataBook 2022.xlsx',
 '../data/raw/EDF/bilan-social-d-edf-sa-effectifs-et-repartition-par-age-statut-et-sexe.csv',
 '../data/raw/EDF/bilan-social-d-edf-sa-salaries-en-situation-de-handicap.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023.pdf',
 '../data/raw/Auchan/auchan_2022.pdf',
 '../data/raw/Decathlon/2021_FR_Déclaration_de_Performance_Extra_Financière_2021.pdf',
 '../data/raw/Decathlon/2022_Decathlon_Déclaration_de_Performance_Extra_Financière_2022.pdf',
 '../data/raw/Decathlon/2023_Decathlon_Déclaration_de_Performance_Extra_Financière_2023 .pdf',
 '../data/raw/SNCF/nombre-total-agents-effectifs.csv',
 '../data/raw/SNCF/repartition-genre-effectif.csv',
 '../data/raw/SNCF/agents-situation-handicap.csv',
 '../data/raw/ENGIE/ENGIE SA_Bilan s