# Répertoire des bilans sociaux de grandes entreprises - focus sur les salariés en situation de handicap

Objectif : extraire et mettre en forme les données de bilan social des entreprises autre qu'EDF liées aux salariés et à ceux en situation d'handicap 

Méthodologie : explorer les données mises en forme d'EDF fournies puis extraire et mettre en forme de la même manière des données d'autres entreprises

## TODO

|N° Mission|N° Tâche|Statut |Description tâche|
|-|-|-|-|
|2|1|Done                   |Téléchargement et exploration sommaire des données EDF|
|-|-|-|-|
|2|2|Done                   |Etablissement de l'environnement de travail|
|-|-|-|-|
|2|3|En cours               |Choix des librairies / outils et premiers tests|
|2|3.1|Done                 |Test de docling pour extraire les tableaux de données des pdf|
|2|3.2|Done                 |Test de LangChain pour extraire les informations des csv|
|-|-|-|-|
|2|4|Done                   |Téléchargement et exploration sommaire des données d'autres entreprises|
|2|4.1|Done                 |Liste d'autres entreprises et liens vers leurs données|
|2|4.2|Done                 |Téléchargement des données (fichiers pdf/csv)|
|-|-|-|-|
|2|5|A faire                |Automatisation du téléchargement des données|
|-|-|-|-|
|2|6|En cours               |Evaluer la possibilité d'utiliser un outils d'extraction depuis pdf pour extraire les données|
|2|6.1|Done                 |Extraction des tableaux des fichiers pdf en csv|
|2|6.2|A faire              |Extraction des informations tableaux + autour des fichiers pdf en markdown|
|-|-|-|-|
|2|7|En cours               |Evaluer la possibilité d'utiliser un LLM pour extraire les données|
|2|1.1|Done                 |Installation et set-up de LangChain et d'un premier modèle|
|2|1.2|Done                 |Test du modèle de Ollama Qwen2.5|
|2|1.3|En cours             |Modification du prompt pour obtenir les informations recherchées depuis les fichiers csv|



## Exploration des données EDF

Source :  
- https://defis.data.gouv.fr/datasets/66e380b07889d3b365709382
- https://defis.data.gouv.fr/datasets/66e380b07889d3b365709384

In [14]:
import pandas as pd
import numpy as np

path_salaries_all = '../data/raw/bilan-social-d-edf-sa-effectifs-et-repartition-par-age-statut-et-sexe.csv'
path_salaries_handi = '../data/raw/bilan-social-d-edf-sa-salaries-en-situation-de-handicap.csv'

# Données salariés
df_all = pd.read_csv(path_salaries_all, sep=';')
columns_df_all_to_keep = ['Année', 'Perimètre juridique', 'Perimètre spatial',
       'Indicateur', 'Type de contrat',
      'Collège',  'Sous-catégorie collège', 'Genre', 
       'Plage M3E',  'Nationalité',  'Ancienneté',  "Tranche d'âge", 'Valeur',
       'Unité', 'Chapitre du bilan social']
df_all = df_all.loc[:,columns_df_all_to_keep]
display(df_all.head(2))

# Données salariés en situation de handicap
df_handi = pd.read_csv(path_salaries_handi, sep=';')
columns_df_handi_to_keep = ['Année', 'Perimètre juridique', 'Perimètre spatial',
            'Indicateur',  'Type de contrat', 'Collège',  'Genre',
       'Valeur', 'Unité', 'Chapitre du bilan social']
df_handi=df_handi.loc[:,columns_df_handi_to_keep]
display(df_handi.head(2))

Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Sous-catégorie collège,Genre,Plage M3E,Nationalité,Ancienneté,Tranche d'âge,Valeur,Unité,Chapitre du bilan social
0,2023,EDF SA,France,Effectif,Non statutaires CDI,Cadre,,Homme,,,,Moins de 25 ans,9.0,nombre,§1.1.6
1,2023,EDF SA,France,Effectif,Non statutaires CDD,Cadre,,Femme,,,,Moins de 25 ans,19.0,nombre,§1.1.6


Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Genre,Valeur,Unité,Chapitre du bilan social
0,2023,EDF SA,France,Salariés en situation de handicap,Statutaires,Cadre,Femme,343.0,nombre,§1.7.1
1,2023,EDF SA,France,Salariés en situation de handicap,Non Statutaires CDI,Maîtrise,Homme,0.0,nombre,§1.7.1


In [15]:
display(df_all.describe(include='all'))
display(df_handi.describe(include='all'))

Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Sous-catégorie collège,Genre,Plage M3E,Nationalité,Ancienneté,Tranche d'âge,Valeur,Unité,Chapitre du bilan social
count,2322.0,2322,2322,2322,2322,2154,264,2322,168,252,672,756,2322.0,2322,2322
unique,,1,1,3,3,3,8,2,10,2,8,6,,1,7
top,,EDF SA,France,Effectif,Statutaires,Cadre,Cadres,Homme,Sans plage,Française,De 5 à moins de 10 ans,Moins de 25 ans,,nombre,§1.1.6
freq,,2322,2322,2112,992,756,42,1161,42,126,84,126,,2322,756
mean,2019.997416,,,,,,,,,,,,969.076227,,
std,1.999352,,,,,,,,,,,,2472.662894,,
min,2017.0,,,,,,,,,,,,0.0,,
25%,2018.0,,,,,,,,,,,,2.0,,
50%,2020.0,,,,,,,,,,,,52.0,,
75%,2022.0,,,,,,,,,,,,772.75,,


Unnamed: 0,Année,Perimètre juridique,Perimètre spatial,Indicateur,Type de contrat,Collège,Genre,Valeur,Unité,Chapitre du bilan social
count,189.0,189,189,189,189,189,126,189.0,189,189
unique,,1,1,2,3,3,2,,1,2
top,,EDF SA,France,Salariés en situation de handicap,Statutaires,Cadre,Femme,,nombre,§1.7.1
freq,,189,189,126,63,63,63,,189,126
mean,2020.0,,,,,,,92.513228,,
std,2.005312,,,,,,,187.431934,,
min,2017.0,,,,,,,0.0,,
25%,2018.0,,,,,,,0.0,,
50%,2020.0,,,,,,,3.0,,
75%,2022.0,,,,,,,58.0,,


## Liste entreprises extérieures et bilan sociaux associés

Au vu de la nature unique de chaque fichier / entreprise, la méthode d'extraction des données peut soit (1) être semi-automatisée avec une extraction de données par fichier relativement ciblée (2) être totalement automatisée en utilisant un LLM ou autre modèle de langage pour extraire l'information. 

Les entreprises ciblées étaient données dans les ressources, ou inspirées des plus grosses entreprises françaises de 2018 + celles de taille similaire à EDF en 2018 (https://fr.wikipedia.org/wiki/Liste_des_plus_grandes_entreprises_fran%C3%A7aises).

### Bilan sociaux

|Entreprise|Type données|Lien|Info handicap |
|----------|------------|----|------------|
|CNP Assurances |**pdf texte**| https://www.cnp.fr/cnp/content/download/11474/file/CNP-Assurances-Bilan-social-2023.pdf | Oui |
|ENGIE          |**pdf texte**|https://www.engie.com/sites/default/files/assets/documents/2023-03/ENGIE%20SA_Bilan%20social%202021_VD.pdf | Oui |
|INSA Strasbourg|**pdf**|https://www.insa-strasbourg.fr/wp-content/uploads/INSA_bilan_soc_20_V2_21.pdf | Non? |

### Déclaration de Performance Extra-Financière (DPEF) 

Dans ces déclarations les chiffres et données ont été pré-traités et un fichier par an avec seulement l'année et l'année n-1.

|Entreprise|Type données|Lien|Commentaire|
|----------|------------|----|-----------|
|Décathlon|**html vers pdfs texte**| https://engagements.decathlon.fr/les-rapports-developpement-durable-decathlon-annuels | tableaux en annexe dispo par pays - p92 pour handicap|
|Carrefour|**pdf texte**|https://www.carrefour.com/sites/default/files/2024-05/DPEF%202023%20Groupe%20Carrefour.pdf| tableau évolution 2022-23 p58|
|Carrefour|**pdf texte**|https://www.carrefour.com/sites/default/files/2023-04/DPEF_Carrefour_2022.pdf| pour 2021-22 p131|
|Auchan|**html vers pdf texte**|https://www.auchan-retail.com/fr/rapport-financier-annuel-et-declaration-de-performance-extra-financiere-2022/| tableau évolution 2020-2023 p98|

### Données autres

|Entreprise|Type données|Lien|Info handicap |
|----------|------------|----|------------|
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/agents-situation-handicap/table/?sort=date | Spécifique handicap / an |
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/nombre-total-agents-effectifs/table/?sort=date | Spécifique par collège / an |
|SNCF|accessible API | https://ressources.data.sncf.com/explore/dataset/repartition-genre-effectif/information/ | Spécifique par genre / an |
|Orange|**pdf texte ou orange data book**|https://gallery.orange.com/rse/?v=ffca4aaa-5c3b-44e4-ba7b-2760163650ea#beecontext=viewShareContext&l=row&st=417c9e1e-3eae-44b2-bce6-c1a6dadc179f|il faut regarder dans chaque document|



## Extraction des données tabulaires des entreprises extérieures après téléchargement des fichiers associés

- Test de la librairie Docling https://github.com/DS4SD/docling
- Liste des fichiers : 

In [17]:
import glob

glob.glob('../data/raw/*/*')

['../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p.pdf',
 '../data/raw/Carrefour/DPEF 2023 Groupe Carrefour.pdf',
 '../data/raw/Carrefour/DPEF_Carrefour_2022_3p.pdf',
 '../data/raw/Carrefour/DPEF_Carrefour_2022.pdf',
 '../data/raw/INSA/INSA_bilan_soc_20_V2_21.pdf',
 '../data/raw/Orange/Bilan Social 2021 Orange SA.pdf',
 '../data/raw/Orange/Orange DataBook 2022.xlsx',
 '../data/raw/EDF/bilan-social-d-edf-sa-effectifs-et-repartition-par-age-statut-et-sexe.csv',
 '../data/raw/EDF/bilan-social-d-edf-sa-salaries-en-situation-de-handicap.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023.pdf',
 '../data/raw/Auchan/auchan_2022.pdf',
 '../data/raw/Decathlon/2021_FR_Déclaration_de_Performance_Extra_Financière_2021.pdf',
 '../data/raw/Decathlon/2022_Decathlon_Déclaration_de_Performance_Extra_Financière_2022.pdf',
 '../data/raw/Decathlon/2023_Decathlon_Déclaration_de_Performance_Extra_Financière_2023 .pdf',
 '../data/raw/SNCF/nombre-total-agents-effectifs.csv',
 '../data/raw/SNCF/reparti

### Docling avec un fichier -> markdown

In [18]:
from docling.document_converter import DocumentConverter

source = "../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p.pdf"  # document per local path or URL
converter = DocumentConverter()
result2 = converter.convert(source)
print(result2.document.export_to_markdown())  

Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

## Coalitions et partenariats

Comité ONU France

L'Autre Cercle

<!-- image -->

## Contribution aux objectifs de développement durable

<!-- image -->

<!-- image -->

<!-- image -->

Arborus créateur du label GEEIS (gender Equality European & International standard)

OIT (Organisation Internationale du Travail)

<!-- image -->

<!-- image -->

<!-- image -->

## SYNTHÈSE DE NOS OBJECTIFS ET DE NOS RÉSULTATS

| Thématiques                                                         | Objectifs                                                                                                                                | Résultat 2023                                                       | Résultat 2022                                                       | Évolution                                                           | Cible                                                               |
|---------------------------------------------------------------------|-----------------------

### Docling avec un fichier -> tables dans des fichiers .csv

In [12]:
from docling.backend.pypdfium2_backend import PyPdfiumDocumentBackend
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.document_converter import DocumentConverter, PdfFormatOption

In [23]:
input_doc_path =  "../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p.pdf" 

pipeline_options = PdfPipelineOptions()
pipeline_options.do_ocr = False
pipeline_options.do_table_structure = True
pipeline_options.table_structure_options.do_cell_matching = False

doc_converter = DocumentConverter(
        format_options={
            InputFormat.PDF: PdfFormatOption(
                pipeline_options=pipeline_options, backend=PyPdfiumDocumentBackend
            )
        }
    )

conv_result = doc_converter.convert(input_doc_path)



Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

In [24]:
import pandas as pd 
import re 

# Export tables
for table_ix, table in enumerate(conv_result.document.tables):
    table_df: pd.DataFrame = table.export_to_dataframe()
    print(f"## Table {table_ix}")
    print(table_df.to_markdown())
    # Save the table as csv
    element_csv_filename = f"{re.sub(r'\.pdf', '', input_doc_path)}-table-{table_ix+1}.csv"
    table_df.to_csv(element_csv_filename)



## Table 0
|    | Thématiques                                                        | Objectifs                                                                                                                                  | Résultat  2023                                                     | Résultat  2022                                                     | Évolution                                                          | Cible                                                              |
|---:|:-------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------|:-------------------------------------------------------------------|:-------------------------------------------------------------------|:-------------------------------------------------------------------|
|  

### Docling avec plusieurs fichiers -> tables en csv

In [27]:
from docling.backend.pypdfium2_backend import PyPdfiumDocumentBackend
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.document_converter import DocumentConverter, PdfFormatOption
import pandas as pd 
import re 

pipeline_options = PdfPipelineOptions()
pipeline_options.do_ocr = False
pipeline_options.do_table_structure = True
pipeline_options.table_structure_options.do_cell_matching = False

list_input_doc_path = ["../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p.pdf", "../data/raw/Carrefour/DPEF_Carrefour_2022_3p.pdf",
                        "../data/raw/Auchan/auchan_2022_6p.pdf", "../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p.pdf"
                        ]

for input_doc_path in list_input_doc_path:
    # Set up doc converter
    doc_converter = DocumentConverter(
        format_options={
            InputFormat.PDF: PdfFormatOption(
                pipeline_options=pipeline_options, backend=PyPdfiumDocumentBackend)
                        }
    )

    # Convert pdf
    conv_result = doc_converter.convert(input_doc_path)

    # Export tables
    for table_ix, table in enumerate(conv_result.document.tables):
        table_df: pd.DataFrame = table.export_to_dataframe()
        # Save the table as csv
        element_csv_filename = f"{re.sub(r'\.pdf', '', input_doc_path)}-table-{table_ix+1}.csv"
        table_df.to_csv(element_csv_filename)
    

Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

Fetching 9 files:   0%|          | 0/9 [00:00<?, ?it/s]

## Extraction des informations des fichiers csv avec LLM

- Test de Langchain + Ollama
- Liste des fichiers contenant les tables : 


In [30]:
import glob 

glob.glob(r'../data/raw/*/*.csv')

['../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p-table-3.csv',
 '../data/raw/Carrefour/DPEF_Carrefour_2022_3p-table-1.csv',
 '../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p-table-1.csv',
 '../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p-table-2.csv',
 '../data/raw/Carrefour/DPEF_Carrefour_2022_3p-table-3.csv',
 '../data/raw/Carrefour/DPEF_Carrefour_2022_3p-table-2.csv',
 '../data/raw/EDF/bilan-social-d-edf-sa-effectifs-et-repartition-par-age-statut-et-sexe.csv',
 '../data/raw/EDF/bilan-social-d-edf-sa-salaries-en-situation-de-handicap.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-3.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-2.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-5.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-6.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-4.csv',
 '../data/raw/CNP/CNP-Assurances-Bilan-social-2023_3p-table-7.csv',
 '../data/raw/CNP/CNP-Assurance

In [19]:
import pandas as pd

input_path_csv = '../data/raw/Carrefour/DPEF 2023 Groupe Carrefour_3p-table-3.csv'
input_path_csv = '../data/raw/Auchan/auchan_2022_6p-table-5.csv'

data = pd.read_csv(input_path_csv)
display(data.head(2))

Unnamed: 0.1,Unnamed: 0,Indicateu,Périmètre,2020,2021,2022,Objectif,Commentaire
0,0,Le développement des collaborateurs,Le développement des collaborateurs,Le développement des collaborateurs,Le développement des collaborateurs,Le développement des collaborateurs,Le développement des collaborateurs,Le développement des collaborateurs
1,1,Taux de promotion interne,ELO,"29,3 %","35,3 %","29,6 %",,


### Langchain + ollama

- installation ollama 
- lancer serveur ollama puis y accéder depuis notebook (pas besoin)
- utiliser langchain pour récupérer les infos des csv avec ollama

In [11]:
from langchain_ollama import OllamaLLM

model = OllamaLLM(model="qwen2.5")
model.invoke("Come up with 10 names for a song about parrots")

'Sure! Here are ten unique and catchy names for a song about parrots:\n\n1. "Parrot Paradise"\n2. "Feathered Voices"\n3. "Chirp Chirp Jubilee"\n4. "Sunshine Samba"\n5. "Rainbow Wing Tango"\n6. "Tropical Tunes"\n7. "Vocal Vanguards"\n8. "Bright Feather Blues"\n9. "Soulful Squeaks"\n10. "Feathered Harmony"\n\nEach of these names captures a different aspect or feeling associated with parrots, from the vibrant colors to their playful chirping and harmonious sounds.'

In [12]:
from langchain_core.messages import HumanMessage, SystemMessage

messages = [
    SystemMessage(content="Translate the following from English into Italian"),
    HumanMessage(content="hi!"),
]

model.invoke(messages)

'Ciao!'

In [22]:
messages = [
    SystemMessage(content="Extrait le nombre et le pourcentage de personnes handicapées entre 2020 et 2023 à partir du tableau de données suivant, et écris en français"),
    HumanMessage(content=data),
]

model.invoke(messages)

"Il semble que vous ayez fourni une structure de tableau, mais les données réelles manquent. Pour pouvoir extraire le nombre et le pourcentage de personnes handicapées entre 2020 et 2023, j'ai besoin des informations spécifiques pour chaque année. Pourriez-vous fournir les données complètes du tableau ? Par exemple :\n\n```\n['Unnamed: 0', 'Indicateur', 'Période', '2020', '2021', '2022', 'Objectif', 'Commentaire']\n0, Nombre de personnes handicapées, Année, 5000, 5500, 6000, 7000, Remarques...\n```\n\nAvec ces informations, je pourrai calculer les pourcentages et rédiger le rapport en français."

In [23]:
import pandas as pd
def extract_metadata(df):
    metadata = {}

    # Number of columns
    metadata['Number of Columns'] = df.shape[1]

    # Column names
    metadata['Schema'] = df.columns.tolist()

    # Data types of each column
    metadata['Data Types'] = str(df.dtypes)

    # Summary statistics
    metadata['Sample'] = df.head(1).to_dict(orient="records")

    return metadata
metadata = extract_metadata(data)

In [24]:
metadata

{'Number of Columns': 8,
 'Schema': ['Unnamed: 0',
  'Indicateu',
  'Périmètre',
  '2020',
  '2021',
  '2022',
  'Objectif',
  'Commentaire'],
 'Data Types': 'Unnamed: 0      int64\nIndicateu      object\nPérimètre      object\n2020           object\n2021           object\n2022           object\nObjectif       object\nCommentaire    object\ndtype: object',
 'Sample': [{'Unnamed: 0': 0,
   'Indicateu': 'Le développement des collaborateurs',
   'Périmètre': 'Le développement des collaborateurs',
   '2020': 'Le développement des collaborateurs',
   '2021': 'Le développement des collaborateurs',
   '2022': 'Le développement des collaborateurs',
   'Objectif': 'Le développement des collaborateurs',
   'Commentaire': 'Le développement des collaborateurs'}]}

In [25]:
#### Exemple template prompt

prompt_template = '''
Assistant is an AI model that takes in metadata from a dataset 
and suggests charts to use to visualise that data.

New Input: Suggest 2 charts to visualise data from a dataset with the following metadata. 


SCHEMA:

-------- 

{schema}

DATA TYPES: 

-------- 

{data_types}

SAMPLE: 

-------- 

{sample}

'''.format(schema = metadata["Schema"], data_types = metadata["Data Types"], sample=metadata["Sample"])

model.invoke(prompt_template)

'Based on the metadata provided, it seems like you have a dataset with repetitive entries for each year and consistent values across different years. This could be due to data entry errors or specific definitions that are constant over time. Given this nature of the data, it is challenging to suggest meaningful visualizations directly from these columns.\n\nHowever, if we were to consider some potential scenarios where we might want to visualize changes over time or compare different aspects:\n\n1. **Bar Chart**:\n   - **Use**: To compare values across years for a specific `Indicateu` (e.g., "Le développement des collaborateurs").\n   - **Explanation**: A bar chart can effectively show how the value of an indicator changes from 2020 to 2022. You could plot the values in columns like \'2020\', \'2021\', and \'2022\' on the y-axis against years on the x-axis for a particular `Indicateu`.\n\n2. **Scatter Plot**:\n   - **Use**: To visualize relationships between different indicators or per

In [None]:
#### Exemple template prompt

prompt_template = '''
L'assistant est un modèle d'IA qui prend en entrée des données tabulaires 
et recherche les informations liées aux salariés d'une entreprise par année : 
leur nombre ou effectif ainsi le nombre et le pourcentage de personnes en situation de handicap, pour remplir un tableau final.

DONNEES TABULAIRES :

-------- 

{donnees_tabulaires}

TABLEAU FINAL: 

-------- 

{tableau_final}



'''.format(donnees_tabulaires = data, tableau_final = data_out)

model.invoke(prompt_template)

# To delete

In [13]:
from langchain.prompts import PromptTemplate

# Create a prompt template
prompt_template = PromptTemplate(
    input_variables=["data"],
    template="Based on the following data, summarize the information: {data}"
)


In [16]:
filtered_data = data.iloc[0]

query = prompt_template.format(data=filtered_data.to_string())
response = model.call(query)
print(response)

AttributeError: 'OllamaLLM' object has no attribute 'call'