# Projet Création pipelines - ETL

# **Énoncé : Pipeline ETL (Extract, Transform, Load)**

*Contexte :*
Vous travaillez en tant que data engineer dans une entreprise qui collecte des données à partir de différentes sources hétérogènes telles que des fichiers CSV, des bases de données relationnelles et des API externes. L'entreprise souhaite consolider ces données dans un entrepôt de données centralisé afin de pouvoir effectuer des analyses avancées et générer des rapports informatifs pour prendre des décisions stratégiques.

*Objectif du projet :*
Votre mission est de concevoir et mettre en œuvre un pipeline ETL complet pour extraire des données de diverses sources, les transformer en fonction des besoins spécifiques de l'entreprise, puis les charger de manière efficace dans un entrepôt de données. Le pipeline doit être robuste, évolutif et capable de gérer les mises à jour fréquentes des données sources.


*Tâches à accomplir :*

1. **Identification des Sources de Données :**
   - Identifiez au moins trois sources de données différentes, telles que des fichiers CSV, une base de données relationnelle et une API externe, à partir desquelles vous allez extraire des données.
   

2. **Extraction des Données :**
   - Mettez en place des mécanismes d'extraction pour récupérer les données de chaque source. Utilisez des outils tels que pandas pour les fichiers CSV, SQLAlchemy pour la base de données, et requests pour l'API externe.
   

3. **Transformation des Données :**
   - Définissez les règles de transformation nécessaires pour standardiser, nettoyer et enrichir les données extraites. Utilisez des bibliothèques Python telles que pandas pour effectuer ces transformations.
   

4. **Gestion des Erreurs :**
   - Implémentez des mécanismes de gestion des erreurs pour traiter les éventuelles anomalies lors de l'extraction et de la transformation des données. Assurez-vous que le pipeline peut récupérer et reprendre le traitement après une défaillance.
   

5. **Chargement dans l'Entrepôt de Données :**
   - Choisissez une base de données ou un entrepôt de données pour stocker les données transformées. Utilisez des technologies telles que SQLite, MySQL, ou même un entrepôt de données cloud comme Amazon Redshift ou Google BigQuery.


6. **Automatisation du Pipeline :**
   - Automatisez l'exécution du pipeline de bout en bout en utilisant des outils tels que Apache Airflow ou cron jobs pour garantir des mises à jour régulières des données.
   

7. **Documentation :**
   - Fournissez une documentation détaillée du pipeline, y compris les schémas de données, les règles de transformation, les dépendances et les procédures d'exploitation.
   

*Critères de réussite :*
Le pipeline doit être capable d'extraire, transformer et charger les données de manière fiable, en assurant la qualité et l'intégrité des données tout au long du processus. Il doit également être facilement configurable pour permettre l'ajout de nouvelles sources de données à l'avenir.

## API 

Il existe de nombreuses sources d'API externes qui fournissent des données pour une variété de cas d'utilisation. Voici quelques endroits où vous pouvez trouver des API pour récupérer des données :

1. **Programmes de développeurs publics :**
   - De nombreuses entreprises et plateformes proposent des API publiques auxquelles les développeurs peuvent accéder. Par exemple, Twitter, GitHub, Google Maps, OpenWeatherMap, etc.

2. **Marchés d'API :**
   - Des marchés d'API tels que RapidAPI, ProgrammableWeb, ou Mashape (maintenant RapidAPI) regroupent de nombreuses API différentes dans différents domaines. Vous pouvez rechercher des API en fonction de votre domaine d'intérêt.

3. **Plateformes gouvernementales :**
   - Les gouvernements publient souvent des données publiques via des API. Par exemple, Data.gov pour les États-Unis ou données.gouv.fr pour la France.

4. **Services Web populaires :**
   - De nombreux services en ligne, tels que YouTube, Reddit, ou Spotify, proposent des API permettant d'accéder à leurs données.

5. **Fournisseurs de services cloud :**
   - Les fournisseurs de services cloud tels qu'AWS, Google Cloud, et Azure proposent également des API pour accéder à divers services cloud.

6. **Réseaux sociaux :**
   - Les grandes plateformes de médias sociaux, telles que Facebook, Instagram, et LinkedIn, offrent également des API pour récupérer des données.

7. **Sources financières :**
   - Des services tels que Alpha Vantage, Yahoo Finance, ou Intrinio fournissent des API pour accéder à des données financières.

8. **API spécifiques au secteur :**
   - Certains secteurs ont des sources de données spécifiques, par exemple, l'API de l'Organisation mondiale de la santé (OMS) pour les données de santé mondiale.

Lorsque vous utilisez des API, assurez-vous de respecter les conditions d'utilisation spécifiées par le fournisseur. Certains fournisseurs peuvent nécessiter une clé API pour accéder à leurs services, tandis que d'autres peuvent fournir un accès public sans authentification. Lisez attentivement la documentation de l'API pour comprendre comment l'utiliser correctement.

En outre, si vous avez des besoins spécifiques pour votre projet, n'hésitez pas à demander à l'équipe ou aux parties prenantes de votre entreprise s'ils ont des sources de données spécifiques qu'ils aimeraient intégrer dans le pipeline ETL.

# 0. Import des bibliotèques

In [1]:
##Librairie 
import requests
import pandas as pd
import numpy as np
import re
import json
import missingno as msno
import matplotlib.pyplot as plt

from flask import Flask, jsonify, request

from datetime import datetime, timedelta
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from airflow.operators.bash_operator import BashOperator

import requests
import pandas as pd
import json
from flask import Flask, jsonify, request

from datetime import datetime, timedelta
from airflow import DAG
from airflow.operators.python import PythonOperator
from airflow.operators.bash import BashOperator

from wordcloud import WordCloud, STOPWORDS
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

import seaborn as sns
from collections import defaultdict, Counter
##from nlpk_module import normalize_corpus, remove_stopwords,tok
from wordcloud import WordCloud, STOPWORDS
import nltk
from nltk.corpus import stopwords
import string
import time
import lxml
import html5lib
from bs4 import BeautifulSoup
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer



Lien API DATA.Gov : https://api.gouv.fr/les-api/api_data_gouv

https://acceslibre.beta.gouv.fr/api/
https://api.gouv.fr/documentation/api-acces-libre

# 0. Initialisation des variables

In [2]:
default_args = {
    'owner': 'Cedric Randrianarivelo',
    'start_date': datetime(2023, 1, 1),
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
}

dag = DAG(
    'mon_projet',
    default_args=default_args,
    schedule='@daily',  # Planifiez l'exécution quotidienne
)

# 1. Récupération des données

### Lien 
url = 'https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l%27ademe/data-files'

## 1.1 Appel de l'API pour récupérer les données de l'ADEME

In [3]:
### Chargement dans la requete sur le site de l'ademe
url = "https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l%27ademe/data-files"

### Appel de l'API
response = requests.get(url)

if response.status_code == 200:
    data_ = response.json()
    print("Pas de problème lors de la requète",response.status_code)
    # Traitement des données ici
else:
    print('Erreur lors de la requête à l\'API. Code de statut :', response.status_code)
    
    """
    200 : Ok
    403 : Forbidden
    203 : No content
    404 : Error
    """


Pas de problème lors de la requète 200


## 1.2 Visualisation des données 

In [4]:
data_

[{'name': 'Les aides financieres ADEME.xlsx',
  'key': 'original',
  'title': "Fichier d'origine",
  'mimetype': 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet',
  'size': 5854597,
  'updatedAt': '2024-01-31T08:00:28.660Z',
  'url': "https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l'ademe/data-files/Les aides financieres ADEME.xlsx"},
 {'name': 'Les aides financieres ADEME.csv',
  'key': 'normalized',
  'title': 'Export CSV',
  'mimetype': 'text/csv',
  'size': 4771738,
  'updatedAt': '2024-01-31T08:00:57.272Z',
  'url': "https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l'ademe/data-files/Les aides financieres ADEME.csv"},
 {'name': 'Les aides financieres ADEME-full.csv',
  'key': 'full',
  'title': 'Fichier enrichi CSV',
  'mimetype': 'text/csv',
  'size': 10386076,
  'updatedAt': '2024-01-31T08:01:32.792Z',
  'url': "https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l'ademe/data-files/Les aide

## 1.3 Lecture des données 

In [5]:
## Récupération de l'URL nécessaire.
from urllib.parse import quote

dico = data_[2]
url_csv = dico ["url"]

# Encoder l'URL pour traiter les espaces
url_encodée = quote(url_csv, safe=':/')
url_encodée

'https://data.ademe.fr/data-fair/api/v1/datasets/les-aides-financieres-de-l%27ademe/data-files/Les%20aides%20financieres%20ADEME-full.csv'

In [6]:
# Charger le fichier CSV dans un DataFrame pandas
data = pd.read_csv(url_encodée, sep=',', header=0, encoding="utf-8",low_memory=False)
data.head(3)

Unnamed: 0,Nom de l attribuant,idAttribuant,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,...,pourcentageSubvention,_siret_infos.activitePrincipaleEtablissementNAFRev2Libelle,_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv4,_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv3,_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv2,_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv1,_siret_infos._siret_coords.y_latitude,_siret_infos._siret_coords.x_longitude,_siret_infos._infos_commune.code_departement,_siret_infos._infos_commune.nom_departement
0,ADEME,38529030900454,2021-05-05,21BRD0090,MEGO ! - MEGO,82815370000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,Récupération de déchets triés,Récupération de déchets triés,Récupération,"Collecte, traitement et élimination des déchet...",Production et distribution d'eau ; assainissem...,48.480103,-4.495638,29,Finistère
1,ADEME,38529030900454,2021-04-30,21BRD0169,LACTEUS,49972560000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,"Analyses, essais et inspections techniques",Activités de contrôle et analyses techniques,Activités de contrôle et analyses techniques,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.365581,-1.232074,35,Ille-et-Vilaine
2,ADEME,38529030900454,2021-05-07,21BRD0202,ATIS,50537110000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,"Ingénierie, études techniques",Activités d'ingénierie,Activités d'architecture et d'ingénierie,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.389667,-4.47502,29,Finistère


## 1.4 Renommage des colonnes

In [7]:
# Crée un dictionnaire de correspondance entre anciens et nouveaux noms de colonnes
nouveaux_noms = {
                    'ï»¿Nom de l attribuant' : 'Attribuant',  
                    'dateConvention':'dateConvention',
                   '_siret_infos.activitePrincipaleEtablissementNAFRev2Libelle' : 'Activité Principale Libelle',
                   '_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv4': 'Activité Principale Libelle 4',
                   '_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv3': 'Activité Principale Libelle 3',
                   '_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv2': 'Activité Principale Libelle 2',
                   '_siret_infos.activitePrincipaleEtablissementNAFRev2LibelleNiv1': 'Activité Principale Libelle 1',
                   '_siret_infos._siret_coords.y_latitude' : 'y_latitude',
                   '_siret_infos._siret_coords.x_longitude': 'x_longitude',
                   '_siret_infos._infos_commune.code_departement' :'code_departement' ,
                   '_siret_infos._infos_commune.nom_departement' : 'nom_departement'

                }

# Utilise la méthode rename pour renommer les colonnes
data.rename(columns=nouveaux_noms, inplace=True)
data.head(3)

Unnamed: 0,Nom de l attribuant,idAttribuant,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,...,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement
0,ADEME,38529030900454,2021-05-05,21BRD0090,MEGO ! - MEGO,82815370000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,Récupération de déchets triés,Récupération de déchets triés,Récupération,"Collecte, traitement et élimination des déchet...",Production et distribution d'eau ; assainissem...,48.480103,-4.495638,29,Finistère
1,ADEME,38529030900454,2021-04-30,21BRD0169,LACTEUS,49972560000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,"Analyses, essais et inspections techniques",Activités de contrôle et analyses techniques,Activités de contrôle et analyses techniques,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.365581,-1.232074,35,Ille-et-Vilaine
2,ADEME,38529030900454,2021-05-07,21BRD0202,ATIS,50537110000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,...,1.0,"Ingénierie, études techniques",Activités d'ingénierie,Activités d'architecture et d'ingénierie,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.389667,-4.47502,29,Finistère


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21521 entries, 0 to 21520
Data columns (total 22 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Nom de l attribuant            21521 non-null  object 
 1   idAttribuant                   21521 non-null  int64  
 2   dateConvention                 21521 non-null  object 
 3   referenceDecision              21521 non-null  object 
 4   nomBeneficiaire                21521 non-null  object 
 5   idBeneficiaire                 21330 non-null  float64
 6   objet                          21521 non-null  object 
 7   montant                        21521 non-null  float64
 8   nature                         21521 non-null  object 
 9   conditionsVersement            21521 non-null  object 
 10  datesPeriodeVersement          21521 non-null  object 
 11  notificationUE                 2625 non-null   float64
 12  pourcentageSubvention          21521 non-null 

In [9]:
def taux_remplissage(data):
    """
    Voir les valeurs manquantes  et le taux de remplissage des données 
    """
    var_dict = {} ## Création d'un dictionnaire permettant de stocker les 
    
    for col in data.columns:
        var_dict[col] = []
        var_dict[col].append(round((data[col].notna().sum()/data.shape[0])*100,2))
        var_dict[col].append(data[col].isna().sum())
        
    return pd.DataFrame.from_dict(data=var_dict, orient="index", columns = ["% du dataset complet", "Nombre de valeurs manquantes"]).sort_values(by="% du dataset complet", ascending=False)

In [10]:
pd.set_option('display.max_columns', None)
taux_remplissage(data).head(60)

Unnamed: 0,% du dataset complet,Nombre de valeurs manquantes
Nom de l attribuant,100.0,0
montant,100.0,0
pourcentageSubvention,100.0,0
idAttribuant,100.0,0
datesPeriodeVersement,100.0,0
nature,100.0,0
conditionsVersement,100.0,0
objet,100.0,0
nomBeneficiaire,100.0,0
referenceDecision,100.0,0


# 2. Transformation des données

### Etapes de traitement des données
- Enlever les colonnes avec trop de variables NAN
- Sélection des variables
- Filtrer les variables avec trop peu de données.
- Traitement de valeurs manquantes et nulles
- Traitements des valeurs catégorielels

## 2.1 Retrait des colonnes "unique"

In [11]:
def count_unique_words_by_column(data):
    unique_words_counts = {}
    
    for col in data.columns:
        # Concaténer toutes les valeurs de la colonne en une seule chaîne
        concatenated_text = ' '.join(data[col].astype(str))
        
        # Diviser la chaîne en mots uniques
        unique_words = set(concatenated_text.split())
        
        # Compter le nombre de mots uniques
        unique_words_counts[col] = len(unique_words)
    
    return unique_words_counts

# Utiliser la fonction pour compter les mots uniques par colonne
resultats = count_unique_words_by_column(data)

In [12]:
resultats

{'Nom de l attribuant': 1,
 'idAttribuant': 1,
 'dateConvention': 795,
 'referenceDecision': 19374,
 'nomBeneficiaire': 16045,
 'idBeneficiaire': 15360,
 'objet': 29205,
 'montant': 13472,
 'nature': 3,
 'conditionsVersement': 2,
 'datesPeriodeVersement': 11014,
 'notificationUE': 2,
 'pourcentageSubvention': 5,
 'Activité Principale Libelle': 1032,
 'Activité Principale Libelle 4': 892,
 'Activité Principale Libelle 3': 541,
 'Activité Principale Libelle 2': 220,
 'Activité Principale Libelle 1': 58,
 'y_latitude': 14359,
 'x_longitude': 14359,
 'code_departement': 102,
 'nom_departement': 105}

On retire les colonnes avec des valeurs unique 'Nom de l attribuant' et 'idAttribuant'

In [13]:
# Garde une copy du dataset original
data_orignal = data.copy()
data_ = data.copy()

# Utilise la méthode drop pour enlever les colonnes spécifiées
colonnes_a_enlever = ['Nom de l attribuant', 'idAttribuant']

data = data_.drop(columns=colonnes_a_enlever)
data.head(2)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement
0,2021-05-05,21BRD0090,MEGO ! - MEGO,82815370000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,2021-05-11_2023-01-05,,1.0,Récupération de déchets triés,Récupération de déchets triés,Récupération,"Collecte, traitement et élimination des déchet...",Production et distribution d'eau ; assainissem...,48.480103,-4.495638,29,Finistère
1,2021-04-30,21BRD0169,LACTEUS,49972560000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,2021-05-07_2022-09-30,,1.0,"Analyses, essais et inspections techniques",Activités de contrôle et analyses techniques,Activités de contrôle et analyses techniques,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.365581,-1.232074,35,Ille-et-Vilaine


## 2.2 Traitement valeurs manquantes et null

In [14]:
# Sélectionner les colonnes catégorielles
colonnes_categorielles = data.select_dtypes(include=['object'])

# Afficher les noms des colonnes catégorielles
noms_colonnes_categorielles = colonnes_categorielles.columns.tolist()
print("Colonnes catégorielles : n/")
print(noms_colonnes_categorielles)

Colonnes catégorielles : n/
['dateConvention', 'referenceDecision', 'nomBeneficiaire', 'objet', 'nature', 'conditionsVersement', 'datesPeriodeVersement', 'Activité Principale Libelle', 'Activité Principale Libelle 4', 'Activité Principale Libelle 3', 'Activité Principale Libelle 2', 'Activité Principale Libelle 1', 'code_departement', 'nom_departement']


In [15]:
data[noms_colonnes_categorielles] = data[noms_colonnes_categorielles].fillna("Autres")

In [16]:
data.head(2)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement
0,2021-05-05,21BRD0090,MEGO ! - MEGO,82815370000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,2021-05-11_2023-01-05,,1.0,Récupération de déchets triés,Récupération de déchets triés,Récupération,"Collecte, traitement et élimination des déchet...",Production et distribution d'eau ; assainissem...,48.480103,-4.495638,29,Finistère
1,2021-04-30,21BRD0169,LACTEUS,49972560000000.0,TREMPLIN pour la transition écologique des PME,5000.0,aide en numéraire,Echelonné,2021-05-07_2022-09-30,,1.0,"Analyses, essais et inspections techniques",Activités de contrôle et analyses techniques,Activités de contrôle et analyses techniques,Activités d'architecture et d'ingénierie ; act...,"Activités spécialisées, scientifiques et techn...",48.365581,-1.232074,35,Ille-et-Vilaine


In [17]:
taux_remplissage(data).head(60)

Unnamed: 0,% du dataset complet,Nombre de valeurs manquantes
dateConvention,100.0,0
referenceDecision,100.0,0
code_departement,100.0,0
Activité Principale Libelle 1,100.0,0
Activité Principale Libelle 2,100.0,0
Activité Principale Libelle 3,100.0,0
Activité Principale Libelle 4,100.0,0
Activité Principale Libelle,100.0,0
pourcentageSubvention,100.0,0
datesPeriodeVersement,100.0,0


In [18]:
### Remplacement des valeurs manquante par 0
data["notificationUE"] = data["notificationUE"].fillna(0)
data["idBeneficiaire"] = data["idBeneficiaire"].fillna(0)
data = data.dropna()

In [19]:
taux_remplissage(data).head(60)

Unnamed: 0,% du dataset complet,Nombre de valeurs manquantes
dateConvention,100.0,0
referenceDecision,100.0,0
code_departement,100.0,0
x_longitude,100.0,0
y_latitude,100.0,0
Activité Principale Libelle 1,100.0,0
Activité Principale Libelle 2,100.0,0
Activité Principale Libelle 3,100.0,0
Activité Principale Libelle 4,100.0,0
Activité Principale Libelle,100.0,0


## 2.3 Traitement des dates 

In [20]:
data__ =data.copy()

In [21]:
colonnes_temps = ['dateConvention','datesPeriodeVersement']
data [colonnes_temps]

Unnamed: 0,dateConvention,datesPeriodeVersement
0,2021-05-05,2021-05-11_2023-01-05
1,2021-04-30,2021-05-07_2022-09-30
2,2021-05-07,2021-05-14_2022-10-07
3,2021-05-11,2021-05-17_2022-10-10
4,2021-07-28,2021-08-12_2023-01-21
...,...,...
21516,2023-07-12,2023-08-01_2025-01-12
21517,2020-10-13,2020-11-26_2022-02-15
21518,2020-11-12,2022-07-12
21519,2021-09-27,2021-09-30_2022-09-28


In [22]:
# Divise la colonne "Periode" en deux colonnes distinctes
data[['DateDebut Versement', 'DateFin Versement']] = data['datesPeriodeVersement'].str.split('_', expand=True)
data['DateFin Versement'] = data['DateFin Versement'].fillna(data['DateDebut Versement'])

In [23]:
data[['DateDebut Versement', 'DateFin Versement',"datesPeriodeVersement"]]

Unnamed: 0,DateDebut Versement,DateFin Versement,datesPeriodeVersement
0,2021-05-11,2023-01-05,2021-05-11_2023-01-05
1,2021-05-07,2022-09-30,2021-05-07_2022-09-30
2,2021-05-14,2022-10-07,2021-05-14_2022-10-07
3,2021-05-17,2022-10-10,2021-05-17_2022-10-10
4,2021-08-12,2023-01-21,2021-08-12_2023-01-21
...,...,...,...
21516,2023-08-01,2025-01-12,2023-08-01_2025-01-12
21517,2020-11-26,2022-02-15,2020-11-26_2022-02-15
21518,2022-07-12,2022-07-12,2022-07-12
21519,2021-09-30,2022-09-28,2021-09-30_2022-09-28


In [24]:
# Convertit les nouvelles colonnes en objets datetime
data['DateDebut Versement'] = pd.to_datetime(data['DateDebut Versement'], format='%Y-%m-%d', errors='coerce')
data['DateFin Versement' ] = pd.to_datetime(data['DateFin Versement'], format='%Y-%m-%d', errors='coerce')

# Utilise .loc[] pour éviter le SettingWithCopyWarning
data.loc[:, 'DateDebut Versement'] = pd.to_datetime(data['DateDebut Versement'])
data.loc[:, 'DateFin Versement' ] = pd.to_datetime(data['DateFin Versement'])

In [25]:
data[['DateDebut Versement', 'DateFin Versement']] 

Unnamed: 0,DateDebut Versement,DateFin Versement
0,2021-05-11,2023-01-05
1,2021-05-07,2022-09-30
2,2021-05-14,2022-10-07
3,2021-05-17,2022-10-10
4,2021-08-12,2023-01-21
...,...,...
21516,2023-08-01,2025-01-12
21517,2020-11-26,2022-02-15
21518,2022-07-12,2022-07-12
21519,2021-09-30,2022-09-28


In [26]:
# Calculer la différence en jours et créer une nouvelle colonne
data['Nombre Jours versement'] = (data['DateFin Versement'] - data['DateDebut Versement']).dt.days+1
data['Nombre Jours versement']

0        605.0
1        512.0
2        512.0
3        512.0
4        528.0
         ...  
21516    531.0
21517    447.0
21518      1.0
21519    364.0
21520      1.0
Name: Nombre Jours versement, Length: 21125, dtype: float64

## 2.4 Traitement des valeurs catégorielles 

In [27]:
# Sélectionner les colonnes catégorielles
colonnes_categorielles = data.select_dtypes(include=['object'])

# Afficher les noms des colonnes catégorielles
noms_colonnes_categorielles = colonnes_categorielles.columns.tolist()
print("Colonnes catégorielles :")
print(noms_colonnes_categorielles)

Colonnes catégorielles :
['dateConvention', 'referenceDecision', 'nomBeneficiaire', 'objet', 'nature', 'conditionsVersement', 'datesPeriodeVersement', 'Activité Principale Libelle', 'Activité Principale Libelle 4', 'Activité Principale Libelle 3', 'Activité Principale Libelle 2', 'Activité Principale Libelle 1', 'code_departement', 'nom_departement']


In [28]:
# Convertir toutes les valeurs en minuscules
data[noms_colonnes_categorielles] = data[noms_colonnes_categorielles].applymap(lambda x: x.lower() if isinstance(x, str) else x)

# Afficher le DataFrame résultant
data[noms_colonnes_categorielles].head(1)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,objet,nature,conditionsVersement,datesPeriodeVersement,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,code_departement,nom_departement
0,2021-05-05,21brd0090,mego ! - mego,tremplin pour la transition écologique des pme,aide en numéraire,echelonné,2021-05-11_2023-01-05,récupération de déchets triés,récupération de déchets triés,récupération,"collecte, traitement et élimination des déchet...",production et distribution d'eau ; assainissem...,29,finistère


#### 2.5.1  Colonnes objects - Activités

In [29]:
data___ = data.copy()
data___ 

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement
0,2021-05-05,21brd0090,mego ! - mego,8.281537e+13,tremplin pour la transition écologique des pme,5000.00,aide en numéraire,echelonné,2021-05-11_2023-01-05,0.0,1.00,récupération de déchets triés,récupération de déchets triés,récupération,"collecte, traitement et élimination des déchet...",production et distribution d'eau ; assainissem...,48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0
1,2021-04-30,21brd0169,lacteus,4.997256e+13,tremplin pour la transition écologique des pme,5000.00,aide en numéraire,echelonné,2021-05-07_2022-09-30,0.0,1.00,"analyses, essais et inspections techniques",activités de contrôle et analyses techniques,activités de contrôle et analyses techniques,activités d'architecture et d'ingénierie ; act...,"activités spécialisées, scientifiques et techn...",48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0
2,2021-05-07,21brd0202,atis,5.053711e+13,tremplin pour la transition écologique des pme,5000.00,aide en numéraire,echelonné,2021-05-14_2022-10-07,0.0,1.00,"ingénierie, études techniques",activités d'ingénierie,activités d'architecture et d'ingénierie,activités d'architecture et d'ingénierie ; act...,"activités spécialisées, scientifiques et techn...",48.389667,-4.475020,29,finistère,2021-05-14,2022-10-07,512.0
3,2021-05-11,21brd0209,societe bretonne de peinture,4.415847e+13,tremplin pour la transition écologique des pme,5000.00,aide en numéraire,echelonné,2021-05-17_2022-10-10,0.0,1.00,travaux de peinture et vitrerie,travaux de peinture et vitrerie,travaux de finition,travaux de construction spécialisés,construction,48.425768,-4.486593,29,finistère,2021-05-17,2022-10-10,512.0
4,2021-07-28,21brd0278,camping ar kleguer,4.449722e+13,tremplin pour la transition écologique des pme,5000.00,aide en numéraire,echelonné,2021-08-12_2023-01-21,0.0,1.00,terrains de camping et parcs pour caravanes ou...,terrains de camping et parcs pour caravanes ou...,terrains de camping et parcs pour caravanes ou...,hébergement,hébergement et restauration,48.690850,-3.967743,29,finistère,2021-08-12,2023-01-21,528.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21516,2023-07-12,23rad0592,acm,7.539710e+13,tremplin_premiers pas écoconception - acm (42),5000.00,aide en numéraire,echelonné,2023-08-01_2025-01-12,1.0,1.00,commerce de gros (commerce interentreprises) d...,commerce de gros d'autres machines et équipements,commerce de gros d'autres équipements industriels,"commerce de gros, à l'exception des automobile...",commerce ; réparation d'automobiles et de moto...,45.421793,4.369785,42,loire,2023-08-01,2025-01-12,531.0
21517,2020-10-13,19noc0345,capik,5.106239e+13,biodechets : investissement dans une unité de ...,217696.78,aide en numéraire,echelonné,2020-11-26_2022-02-15,0.0,0.88,collecte et traitement des eaux usées,collecte et traitement des eaux usées,collecte et traitement des eaux usées,collecte et traitement des eaux usées,production et distribution d'eau ; assainissem...,49.862313,1.430204,76,seine-maritime,2020-11-26,2022-02-15,447.0
21518,2020-11-12,20gec0047,insa - institut national des sciences applique...,1.967277e+13,envirobat grand est - energivie.pro - 3 etp (d...,144897.08,aide en numéraire,unique,2022-07-12,0.0,0.89,enseignement supérieur,enseignement supérieur,enseignement supérieur et post-secondaire non ...,enseignement,enseignement,48.582377,7.764111,67,bas-rhin,2022-07-12,2022-07-12,1.0
21519,2021-09-27,21ged0061,nouvelle societe gerbois,8.000388e+13,création d'une chaufferie bois à sapois (88),257760.00,aide en numéraire,echelonné,2021-09-30_2022-09-28,0.0,0.58,fabrication d'emballages en bois,fabrication d'emballages en bois,"fabrication d'articles en bois, liège, vanneri...",travail du bois et fabrication d'articles en b...,industrie manufacturière,48.014655,6.738315,88,vosges,2021-09-30,2022-09-28,364.0


In [30]:
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cedri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cedri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [31]:
colonne_remoove = [
                    "objet",
                    "Activité Principale Libelle",
                    "Activité Principale Libelle 4",
                    "Activité Principale Libelle 3",
                    "Activité Principale Libelle 2",
                    "Activité Principale Libelle 1"
]

In [32]:
# Liste de stopwords personnalisés
custom_stop_words = {
                        'au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle', 'en',
                        'et', 'eux', 'il', 'je', 'la', 'le', 'leur', 'lui', 'ma', 'mais', 'me',
                        'même', 'mes', 'moi', 'mon', 'ne', 'nos', 'notre', 'nous', 'on', 'ou',
                        'par', 'pas', 'pour', 'qu', 'que', 'qui', 'sa', 'se', 'ses', 'son', 'sur',
                        'ta', 'te', 'tes', 'toi', 'ton', 'tu', 'un', 'une', 'vos', 'votre', 'vous',
                        'c', 'd', 'j', 'l', 'à', 'm', 'n', 's', 't', 'y', 'été', 'étée', 'étées',
                        'étés', 'étant', 'étante', 'étants', 'étantes', 'suis', 'es', 'est', 'sommes',
                        'êtes', 'sont', 'serai', 'seras', 'sera', 'serons', 'serez', 'seront', 'serais',
                        'serait', 'serions', 'seriez', 'seraient', 'étais', 'était', 'étions', 'étiez',
                        'étaient', 'fus', 'fut', 'fûmes', 'fûtes', 'furent', 'sois', 'soit', 'soyons',
                        'soyez', 'soient', 'fusse', 'fusses', 'fût', 'fussions', 'fussiez', 'fussent',
                        'pour',"d'","l'",'0','1','2','3','4','5','6','7','8','9'
                    }


In [33]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cedri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cedri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [34]:
# Charger les stopwords en français depuis NLTK
stop_words = set(stopwords.words('french'))

# Étendre la liste de stopwords avec les mots personnalisés
stop_words.update(custom_stop_words)

In [35]:
# Fonction pour enlever les stopwords d'une phrase tout en excluant les chiffres
def remove_stopwords_and_digits(sentence):
    
    if isinstance(sentence, str):  # Vérifier si la valeur est une chaîne
        words = word_tokenize(sentence)
        filtered_words = [word for word in words if word.lower() not in stop_words and not word.isdigit()]
        return ' '.join(filtered_words)
    else:
        return sentence

# Appliquer la fonction remove_stopwords_and_digits à chaque colonne
for col in colonne_remoove :
    data[col] = data[col].apply(remove_stopwords_and_digits)

In [36]:
data[colonne_remoove]

Unnamed: 0,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,tremplin transition écologique pme,récupération déchets triés,récupération déchets triés,récupération,"collecte , traitement élimination déchets ; ré...",production distribution d'eau ; assainissement...
1,tremplin transition écologique pme,"analyses , essais inspections techniques",activités contrôle analyses techniques,activités contrôle analyses techniques,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques"
2,tremplin transition écologique pme,"ingénierie , études techniques",activités d'ingénierie,activités d'architecture d'ingénierie,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques"
3,tremplin transition écologique pme,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction
4,tremplin transition écologique pme,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration
...,...,...,...,...,...,...
21516,tremplin_premiers écoconception - acm ( ),commerce gros ( commerce interentreprises ) fo...,commerce gros d'autres machines équipements,commerce gros d'autres équipements industriels,"commerce gros , l'exception automobiles motocy...",commerce ; réparation d'automobiles motocycles
21517,biodechets : investissement unité déconditionn...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution d'eau ; assainissement...
21518,envirobat grand - energivie.pro - etp ( 10/03/...,enseignement supérieur,enseignement supérieur,enseignement supérieur post-secondaire non sup...,enseignement,enseignement
21519,création d'une chaufferie bois sapois ( ),fabrication d'emballages bois,fabrication d'emballages bois,"fabrication d'articles bois , liège , vannerie...",travail bois fabrication d'articles bois liège...,industrie manufacturière


In [37]:
resultats = count_unique_words_by_column(data[colonne_remoove])
resultats

{'objet': 21808,
 'Activité Principale Libelle': 925,
 'Activité Principale Libelle 4': 798,
 'Activité Principale Libelle 3': 488,
 'Activité Principale Libelle 2': 194,
 'Activité Principale Libelle 1': 54}

In [38]:
def text_cleaning(text):
    """
    Remove figures, punctuation, words shorter than two letters (excepted C or R) in a lowered text. 
    
    Args:
        text(String): Row text to clean
        
    Returns:
       res(string): Cleaned text
    """
    import re
    
    pattern = re.compile(r'[^\w]|[\d_]')
    
    try: 
        res = re.sub(pattern," ", text).lower()
    except TypeError:
        return text
    
    res = res.split(" ")
    res = list(filter(lambda x: len(x)>3 , res))
    res = " ".join(res)
    return res

In [39]:
data

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement
0,2021-05-05,21brd0090,mego ! - mego,8.281537e+13,tremplin transition écologique pme,5000.00,aide en numéraire,echelonné,2021-05-11_2023-01-05,0.0,1.00,récupération déchets triés,récupération déchets triés,récupération,"collecte , traitement élimination déchets ; ré...",production distribution d'eau ; assainissement...,48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0
1,2021-04-30,21brd0169,lacteus,4.997256e+13,tremplin transition écologique pme,5000.00,aide en numéraire,echelonné,2021-05-07_2022-09-30,0.0,1.00,"analyses , essais inspections techniques",activités contrôle analyses techniques,activités contrôle analyses techniques,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques",48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0
2,2021-05-07,21brd0202,atis,5.053711e+13,tremplin transition écologique pme,5000.00,aide en numéraire,echelonné,2021-05-14_2022-10-07,0.0,1.00,"ingénierie , études techniques",activités d'ingénierie,activités d'architecture d'ingénierie,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques",48.389667,-4.475020,29,finistère,2021-05-14,2022-10-07,512.0
3,2021-05-11,21brd0209,societe bretonne de peinture,4.415847e+13,tremplin transition écologique pme,5000.00,aide en numéraire,echelonné,2021-05-17_2022-10-10,0.0,1.00,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction,48.425768,-4.486593,29,finistère,2021-05-17,2022-10-10,512.0
4,2021-07-28,21brd0278,camping ar kleguer,4.449722e+13,tremplin transition écologique pme,5000.00,aide en numéraire,echelonné,2021-08-12_2023-01-21,0.0,1.00,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration,48.690850,-3.967743,29,finistère,2021-08-12,2023-01-21,528.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21516,2023-07-12,23rad0592,acm,7.539710e+13,tremplin_premiers écoconception - acm ( ),5000.00,aide en numéraire,echelonné,2023-08-01_2025-01-12,1.0,1.00,commerce gros ( commerce interentreprises ) fo...,commerce gros d'autres machines équipements,commerce gros d'autres équipements industriels,"commerce gros , l'exception automobiles motocy...",commerce ; réparation d'automobiles motocycles,45.421793,4.369785,42,loire,2023-08-01,2025-01-12,531.0
21517,2020-10-13,19noc0345,capik,5.106239e+13,biodechets : investissement unité déconditionn...,217696.78,aide en numéraire,echelonné,2020-11-26_2022-02-15,0.0,0.88,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution d'eau ; assainissement...,49.862313,1.430204,76,seine-maritime,2020-11-26,2022-02-15,447.0
21518,2020-11-12,20gec0047,insa - institut national des sciences applique...,1.967277e+13,envirobat grand - energivie.pro - etp ( 10/03/...,144897.08,aide en numéraire,unique,2022-07-12,0.0,0.89,enseignement supérieur,enseignement supérieur,enseignement supérieur post-secondaire non sup...,enseignement,enseignement,48.582377,7.764111,67,bas-rhin,2022-07-12,2022-07-12,1.0
21519,2021-09-27,21ged0061,nouvelle societe gerbois,8.000388e+13,création d'une chaufferie bois sapois ( ),257760.00,aide en numéraire,echelonné,2021-09-30_2022-09-28,0.0,0.58,fabrication d'emballages bois,fabrication d'emballages bois,"fabrication d'articles bois , liège , vannerie...",travail bois fabrication d'articles bois liège...,industrie manufacturière,48.014655,6.738315,88,vosges,2021-09-30,2022-09-28,364.0


In [41]:
data[colonne_remoove]

Unnamed: 0,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,tremplin transition écologique pme,récupération déchets triés,récupération déchets triés,récupération,"collecte , traitement élimination déchets ; ré...",production distribution d'eau ; assainissement...
1,tremplin transition écologique pme,"analyses , essais inspections techniques",activités contrôle analyses techniques,activités contrôle analyses techniques,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques"
2,tremplin transition écologique pme,"ingénierie , études techniques",activités d'ingénierie,activités d'architecture d'ingénierie,activités d'architecture d'ingénierie ; activi...,"activités spécialisées , scientifiques techniques"
3,tremplin transition écologique pme,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction
4,tremplin transition écologique pme,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration
...,...,...,...,...,...,...
21516,tremplin_premiers écoconception - acm ( ),commerce gros ( commerce interentreprises ) fo...,commerce gros d'autres machines équipements,commerce gros d'autres équipements industriels,"commerce gros , l'exception automobiles motocy...",commerce ; réparation d'automobiles motocycles
21517,biodechets : investissement unité déconditionn...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution d'eau ; assainissement...
21518,envirobat grand - energivie.pro - etp ( 10/03/...,enseignement supérieur,enseignement supérieur,enseignement supérieur post-secondaire non sup...,enseignement,enseignement
21519,création d'une chaufferie bois sapois ( ),fabrication d'emballages bois,fabrication d'emballages bois,"fabrication d'articles bois , liège , vannerie...",travail bois fabrication d'articles bois liège...,industrie manufacturière


In [None]:
string.punctuation

In [44]:
for col in colonne_remoove :
    data[col] = [text_cleaning(text).strip() for text in data[col]]

In [46]:
data[colonne_remoove]

Unnamed: 0,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...
1,tremplin transition écologique,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques
2,tremplin transition écologique,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques
3,tremplin transition écologique,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction
4,tremplin transition écologique,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration
...,...,...,...,...,...,...
21516,tremplin premiers écoconception,commerce gros commerce interentreprises fourni...,commerce gros autres machines équipements,commerce gros autres équipements industriels,commerce gros exception automobiles motocycles,commerce réparation automobiles motocycles
21517,biodechets investissement unité déconditionnem...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution assainissement gestion...
21518,envirobat grand energivie,enseignement supérieur,enseignement supérieur,enseignement supérieur post secondaire supérieur,enseignement,enseignement
21519,création chaufferie bois sapois,fabrication emballages bois,fabrication emballages bois,fabrication articles bois liège vannerie spart...,travail bois fabrication articles bois liège e...,industrie manufacturière


In [47]:
data___ = data.copy()
data___ .head(4)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement
0,2021-05-05,21brd0090,mego ! - mego,82815370000000.0,tremplin transition écologique,5000.0,aide en numéraire,echelonné,2021-05-11_2023-01-05,0.0,1.0,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...,48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0
1,2021-04-30,21brd0169,lacteus,49972560000000.0,tremplin transition écologique,5000.0,aide en numéraire,echelonné,2021-05-07_2022-09-30,0.0,1.0,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0
2,2021-05-07,21brd0202,atis,50537110000000.0,tremplin transition écologique,5000.0,aide en numéraire,echelonné,2021-05-14_2022-10-07,0.0,1.0,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,48.389667,-4.47502,29,finistère,2021-05-14,2022-10-07,512.0
3,2021-05-11,21brd0209,societe bretonne de peinture,44158470000000.0,tremplin transition écologique,5000.0,aide en numéraire,echelonné,2021-05-17_2022-10-10,0.0,1.0,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction,48.425768,-4.486593,29,finistère,2021-05-17,2022-10-10,512.0


In [48]:
nltk.download('punkt')  # Assurez-vous de télécharger les données nécessaires pour NLTK

# Fonction pour tokenizer une phrase
def tokenize_text(sentence):
    return word_tokenize(sentence)

# Appliquer la fonction tokenize_text à la colonne 'Texte'

for col in colonne_remoove :
    data[col] = data[col].apply(tokenize_text)


data[colonne_remoove]

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cedri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,"[tremplin, transition, écologique]","[récupération, déchets, triés]","[récupération, déchets, triés]",[récupération],"[collecte, traitement, élimination, déchets, r...","[production, distribution, assainissement, ges..."
1,"[tremplin, transition, écologique]","[analyses, essais, inspections, techniques]","[activités, contrôle, analyses, techniques]","[activités, contrôle, analyses, techniques]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
2,"[tremplin, transition, écologique]","[ingénierie, études, techniques]","[activités, ingénierie]","[activités, architecture, ingénierie]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
3,"[tremplin, transition, écologique]","[travaux, peinture, vitrerie]","[travaux, peinture, vitrerie]","[travaux, finition]","[travaux, construction, spécialisés]",[construction]
4,"[tremplin, transition, écologique]","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...",[hébergement],"[hébergement, restauration]"
...,...,...,...,...,...,...
21516,"[tremplin, premiers, écoconception]","[commerce, gros, commerce, interentreprises, f...","[commerce, gros, autres, machines, équipements]","[commerce, gros, autres, équipements, industri...","[commerce, gros, exception, automobiles, motoc...","[commerce, réparation, automobiles, motocycles]"
21517,"[biodechets, investissement, unité, déconditio...","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[production, distribution, assainissement, ges..."
21518,"[envirobat, grand, energivie]","[enseignement, supérieur]","[enseignement, supérieur]","[enseignement, supérieur, post, secondaire, su...",[enseignement],[enseignement]
21519,"[création, chaufferie, bois, sapois]","[fabrication, emballages, bois]","[fabrication, emballages, bois]","[fabrication, articles, bois, liège, vannerie,...","[travail, bois, fabrication, articles, bois, l...","[industrie, manufacturière]"


In [49]:
# Fonction pour lemmatiser une phrase en français
def lemmatize_text_fr(sentence):
    if isinstance(sentence, str):  # Vérifier si la valeur est une chaîne
        tokens = word_tokenize(sentence)
        stemmer = SnowballStemmer('french')  # Sélectionner le lemmatizer français
        lemmatized_tokens = [stemmer.stem(token) for token in tokens]
        return ' '.join(lemmatized_tokens)
    else:
        return sentence
for col in colonne_remoove :
    data[col] = data[col].apply(lemmatize_text_fr)


data[colonne_remoove]



Unnamed: 0,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,"[tremplin, transition, écologique]","[récupération, déchets, triés]","[récupération, déchets, triés]",[récupération],"[collecte, traitement, élimination, déchets, r...","[production, distribution, assainissement, ges..."
1,"[tremplin, transition, écologique]","[analyses, essais, inspections, techniques]","[activités, contrôle, analyses, techniques]","[activités, contrôle, analyses, techniques]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
2,"[tremplin, transition, écologique]","[ingénierie, études, techniques]","[activités, ingénierie]","[activités, architecture, ingénierie]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
3,"[tremplin, transition, écologique]","[travaux, peinture, vitrerie]","[travaux, peinture, vitrerie]","[travaux, finition]","[travaux, construction, spécialisés]",[construction]
4,"[tremplin, transition, écologique]","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...",[hébergement],"[hébergement, restauration]"
...,...,...,...,...,...,...
21516,"[tremplin, premiers, écoconception]","[commerce, gros, commerce, interentreprises, f...","[commerce, gros, autres, machines, équipements]","[commerce, gros, autres, équipements, industri...","[commerce, gros, exception, automobiles, motoc...","[commerce, réparation, automobiles, motocycles]"
21517,"[biodechets, investissement, unité, déconditio...","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[production, distribution, assainissement, ges..."
21518,"[envirobat, grand, energivie]","[enseignement, supérieur]","[enseignement, supérieur]","[enseignement, supérieur, post, secondaire, su...",[enseignement],[enseignement]
21519,"[création, chaufferie, bois, sapois]","[fabrication, emballages, bois]","[fabrication, emballages, bois]","[fabrication, articles, bois, liège, vannerie,...","[travail, bois, fabrication, articles, bois, l...","[industrie, manufacturière]"


In [71]:
data['objet'][1]

'transition tremplin écologique'

In [50]:
# Fonction pour effectuer la reverse tokenize
def reverse_tokenize(tokens):
    return ' '.join(tokens)

colonne_nm = []

# Appliquer la reverse tokenize aux colonnes spécifiques et créer les nouvelles colonnes 'nm'
for col_name in colonne_remoove:
    new_col_name = col_name + ' nm'
    data[new_col_name] = data[col_name].apply(reverse_tokenize)
    colonne_nm.append(new_col_name)

# Afficher le DataFrame résultant
data[colonne_nm+colonne_remoove]

Unnamed: 0,objet nm,Activité Principale Libelle nm,Activité Principale Libelle 4 nm,Activité Principale Libelle 3 nm,Activité Principale Libelle 2 nm,Activité Principale Libelle 1 nm,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1
0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...,"[tremplin, transition, écologique]","[récupération, déchets, triés]","[récupération, déchets, triés]",[récupération],"[collecte, traitement, élimination, déchets, r...","[production, distribution, assainissement, ges..."
1,tremplin transition écologique,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,"[tremplin, transition, écologique]","[analyses, essais, inspections, techniques]","[activités, contrôle, analyses, techniques]","[activités, contrôle, analyses, techniques]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
2,tremplin transition écologique,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,"[tremplin, transition, écologique]","[ingénierie, études, techniques]","[activités, ingénierie]","[activités, architecture, ingénierie]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn..."
3,tremplin transition écologique,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction,"[tremplin, transition, écologique]","[travaux, peinture, vitrerie]","[travaux, peinture, vitrerie]","[travaux, finition]","[travaux, construction, spécialisés]",[construction]
4,tremplin transition écologique,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration,"[tremplin, transition, écologique]","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...",[hébergement],"[hébergement, restauration]"
...,...,...,...,...,...,...,...,...,...,...,...,...
21516,tremplin premiers écoconception,commerce gros commerce interentreprises fourni...,commerce gros autres machines équipements,commerce gros autres équipements industriels,commerce gros exception automobiles motocycles,commerce réparation automobiles motocycles,"[tremplin, premiers, écoconception]","[commerce, gros, commerce, interentreprises, f...","[commerce, gros, autres, machines, équipements]","[commerce, gros, autres, équipements, industri...","[commerce, gros, exception, automobiles, motoc...","[commerce, réparation, automobiles, motocycles]"
21517,biodechets investissement unité déconditionnem...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution assainissement gestion...,"[biodechets, investissement, unité, déconditio...","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[production, distribution, assainissement, ges..."
21518,envirobat grand energivie,enseignement supérieur,enseignement supérieur,enseignement supérieur post secondaire supérieur,enseignement,enseignement,"[envirobat, grand, energivie]","[enseignement, supérieur]","[enseignement, supérieur]","[enseignement, supérieur, post, secondaire, su...",[enseignement],[enseignement]
21519,création chaufferie bois sapois,fabrication emballages bois,fabrication emballages bois,fabrication articles bois liège vannerie spart...,travail bois fabrication articles bois liège e...,industrie manufacturière,"[création, chaufferie, bois, sapois]","[fabrication, emballages, bois]","[fabrication, emballages, bois]","[fabrication, articles, bois, liège, vannerie,...","[travail, bois, fabrication, articles, bois, l...","[industrie, manufacturière]"


In [51]:
##Regroupement des activites
data["Activité"] = ""
for col in colonne_nm : 
    data["Activité"] = data["Activité"] + " " + data [col]

In [52]:
data

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement,objet nm,Activité Principale Libelle nm,Activité Principale Libelle 4 nm,Activité Principale Libelle 3 nm,Activité Principale Libelle 2 nm,Activité Principale Libelle 1 nm,Activité
0,2021-05-05,21brd0090,mego ! - mego,8.281537e+13,"[tremplin, transition, écologique]",5000.00,aide en numéraire,echelonné,2021-05-11_2023-01-05,0.0,1.00,"[récupération, déchets, triés]","[récupération, déchets, triés]",[récupération],"[collecte, traitement, élimination, déchets, r...","[production, distribution, assainissement, ges...",48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...,tremplin transition écologique récupération d...
1,2021-04-30,21brd0169,lacteus,4.997256e+13,"[tremplin, transition, écologique]",5000.00,aide en numéraire,echelonné,2021-05-07_2022-09-30,0.0,1.00,"[analyses, essais, inspections, techniques]","[activités, contrôle, analyses, techniques]","[activités, contrôle, analyses, techniques]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn...",48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0,tremplin transition écologique,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,tremplin transition écologique analyses essai...
2,2021-05-07,21brd0202,atis,5.053711e+13,"[tremplin, transition, écologique]",5000.00,aide en numéraire,echelonné,2021-05-14_2022-10-07,0.0,1.00,"[ingénierie, études, techniques]","[activités, ingénierie]","[activités, architecture, ingénierie]","[activités, architecture, ingénierie, activité...","[activités, spécialisées, scientifiques, techn...",48.389667,-4.475020,29,finistère,2021-05-14,2022-10-07,512.0,tremplin transition écologique,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,tremplin transition écologique ingénierie étu...
3,2021-05-11,21brd0209,societe bretonne de peinture,4.415847e+13,"[tremplin, transition, écologique]",5000.00,aide en numéraire,echelonné,2021-05-17_2022-10-10,0.0,1.00,"[travaux, peinture, vitrerie]","[travaux, peinture, vitrerie]","[travaux, finition]","[travaux, construction, spécialisés]",[construction],48.425768,-4.486593,29,finistère,2021-05-17,2022-10-10,512.0,tremplin transition écologique,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction,tremplin transition écologique travaux peintu...
4,2021-07-28,21brd0278,camping ar kleguer,4.449722e+13,"[tremplin, transition, écologique]",5000.00,aide en numéraire,echelonné,2021-08-12_2023-01-21,0.0,1.00,"[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...","[terrains, camping, parcs, caravanes, véhicule...",[hébergement],"[hébergement, restauration]",48.690850,-3.967743,29,finistère,2021-08-12,2023-01-21,528.0,tremplin transition écologique,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration,tremplin transition écologique terrains campi...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21516,2023-07-12,23rad0592,acm,7.539710e+13,"[tremplin, premiers, écoconception]",5000.00,aide en numéraire,echelonné,2023-08-01_2025-01-12,1.0,1.00,"[commerce, gros, commerce, interentreprises, f...","[commerce, gros, autres, machines, équipements]","[commerce, gros, autres, équipements, industri...","[commerce, gros, exception, automobiles, motoc...","[commerce, réparation, automobiles, motocycles]",45.421793,4.369785,42,loire,2023-08-01,2025-01-12,531.0,tremplin premiers écoconception,commerce gros commerce interentreprises fourni...,commerce gros autres machines équipements,commerce gros autres équipements industriels,commerce gros exception automobiles motocycles,commerce réparation automobiles motocycles,tremplin premiers écoconception commerce gros...
21517,2020-10-13,19noc0345,capik,5.106239e+13,"[biodechets, investissement, unité, déconditio...",217696.78,aide en numéraire,echelonné,2020-11-26_2022-02-15,0.0,0.88,"[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[collecte, traitement, eaux, usées]","[production, distribution, assainissement, ges...",49.862313,1.430204,76,seine-maritime,2020-11-26,2022-02-15,447.0,biodechets investissement unité déconditionnem...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution assainissement gestion...,biodechets investissement unité déconditionne...
21518,2020-11-12,20gec0047,insa - institut national des sciences applique...,1.967277e+13,"[envirobat, grand, energivie]",144897.08,aide en numéraire,unique,2022-07-12,0.0,0.89,"[enseignement, supérieur]","[enseignement, supérieur]","[enseignement, supérieur, post, secondaire, su...",[enseignement],[enseignement],48.582377,7.764111,67,bas-rhin,2022-07-12,2022-07-12,1.0,envirobat grand energivie,enseignement supérieur,enseignement supérieur,enseignement supérieur post secondaire supérieur,enseignement,enseignement,envirobat grand energivie enseignement supéri...
21519,2021-09-27,21ged0061,nouvelle societe gerbois,8.000388e+13,"[création, chaufferie, bois, sapois]",257760.00,aide en numéraire,echelonné,2021-09-30_2022-09-28,0.0,0.58,"[fabrication, emballages, bois]","[fabrication, emballages, bois]","[fabrication, articles, bois, liège, vannerie,...","[travail, bois, fabrication, articles, bois, l...","[industrie, manufacturière]",48.014655,6.738315,88,vosges,2021-09-30,2022-09-28,364.0,création chaufferie bois sapois,fabrication emballages bois,fabrication emballages bois,fabrication articles bois liège vannerie spart...,travail bois fabrication articles bois liège e...,industrie manufacturière,création chaufferie bois sapois fabrication e...


In [53]:
# Appliquez TF-IDF pour extraire des mots-clés
vectorizer = TfidfVectorizer(max_features=80)  # Choisissez le nombre maximum de mots-clés à extraire
keywords_matrix = vectorizer.fit_transform(data["Activité"])
# Obtenez les noms des mots-clés extraits
keywords = vectorizer.get_feature_names_out()

In [54]:
keywords

array(['action', 'activités', 'adhésion', 'administration',
       'associatives', 'automobiles', 'autre', 'autres', 'biens', 'bois',
       'chaleur', 'collecte', 'commerce', 'conditionné', 'conseil',
       'construction', 'courte', 'dangereux', 'distribution', 'durée',
       'déchets', 'défense', 'détail', 'développement', 'enseignement',
       'etude', 'exception', 'fabrication', 'faisabilité', 'fonctionnant',
       'gestion', 'gros', 'générale', 'hébergement', 'hôtels',
       'industrie', 'ingénierie', 'installation', 'location', 'magasin',
       'manufacturière', 'motocycles', 'naturelles', 'obligatoire',
       'organisations', 'physiques', 'production', 'produits', 'projet',
       'publique', 'recherche', 'restauration', 'récupération',
       'réparation', 'sciences', 'scientifiques', 'services', 'similaire',
       'sièges', 'sociale', 'sociaux', 'spécialisé', 'spécialisées',
       'supérieur', 'sécurité', 'techniques', 'touristique', 'traitement',
       'transition',

In [55]:
liste_kw_retirer = [
                        'autre', 
                        'autres',
                        'adhésion',
                        'action', 
                        'activités',
                        'conditionné',
                        'courte',
                        'durée',
                        'gros',
                        'similaire',
                        'faisabilité',
                        'détail',
                        'générale',
                        'élimination',
                        'dangereux',
                        'biens',
                        'exception',
                        'fonctionnant',
                        'obligatoire',
                        'projet',
                        'volontaire',
                        'supérieur',
                        'faisabilité',
                        'exception',
                        'générale'
                        ]

In [56]:
# Retirer les mots de liste2 de liste1

resultat = [mot for mot in keywords if mot not in liste_kw_retirer]

In [57]:
data[colonne_nm]

Unnamed: 0,objet nm,Activité Principale Libelle nm,Activité Principale Libelle 4 nm,Activité Principale Libelle 3 nm,Activité Principale Libelle 2 nm,Activité Principale Libelle 1 nm
0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...
1,tremplin transition écologique,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques
2,tremplin transition écologique,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques
3,tremplin transition écologique,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction
4,tremplin transition écologique,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration
...,...,...,...,...,...,...
21516,tremplin premiers écoconception,commerce gros commerce interentreprises fourni...,commerce gros autres machines équipements,commerce gros autres équipements industriels,commerce gros exception automobiles motocycles,commerce réparation automobiles motocycles
21517,biodechets investissement unité déconditionnem...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution assainissement gestion...
21518,envirobat grand energivie,enseignement supérieur,enseignement supérieur,enseignement supérieur post secondaire supérieur,enseignement,enseignement
21519,création chaufferie bois sapois,fabrication emballages bois,fabrication emballages bois,fabrication articles bois liège vannerie spart...,travail bois fabrication articles bois liège e...,industrie manufacturière


In [58]:
dico_replace = {'sociaux': 'sociale', 
                'produits': 'production',
                'sciences':'scientifiques',
                'économique':'économiques',
                'spécialisé':'spécialisées'}

In [59]:
# Fonction pour extraire les mots-clés de la colonne 'Activité'
def extract_keywords(sentence):
    keywords_found = [word for word in resultat if word in sentence]
    return keywords_found if keywords_found else ['autre']

In [60]:
colonne_act_nm = []

# Appliquer la reverse tokenize aux colonnes spécifiques et créer les nouvelles colonnes 'nm'
for col_name in colonne_nm:
    new_col_name = col_name + ' kw'
    data[new_col_name] = data[col_name].replace({'sociaux': 'sociale', 'produits': 'production','sciences':'scientifiques','économique':'économiques'}, regex=True)
    data[new_col_name] = data[new_col_name].apply(extract_keywords)
    colonne_act_nm.append(new_col_name)

# Créer une nouvelle colonne 'Activité Mots_Clés'
data['Activité'] = data['Activité'].replace(dico_replace, regex=True)
data['Activité Mots_Clés'] = data['Activité'].apply(extract_keywords)

# Afficher le DataFrame résultant
data[colonne_nm+colonne_act_nm]


Unnamed: 0,objet nm,Activité Principale Libelle nm,Activité Principale Libelle 4 nm,Activité Principale Libelle 3 nm,Activité Principale Libelle 2 nm,Activité Principale Libelle 1 nm,objet nm kw,Activité Principale Libelle nm kw,Activité Principale Libelle 4 nm kw,Activité Principale Libelle 3 nm kw,Activité Principale Libelle 2 nm kw,Activité Principale Libelle 1 nm kw
0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...,"[transition, tremplin, écologique]","[déchets, récupération]","[déchets, récupération]",[récupération],"[collecte, déchets, récupération, traitement]","[distribution, déchets, gestion, production]"
1,tremplin transition écologique,analyses essais inspections techniques,activités contrôle analyses techniques,activités contrôle analyses techniques,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,"[transition, tremplin, écologique]",[techniques],[techniques],[techniques],"[ingénierie, techniques]","[scientifiques, spécialisé, spécialisées, tech..."
2,tremplin transition écologique,ingénierie études techniques,activités ingénierie,activités architecture ingénierie,activités architecture ingénierie activités co...,activités spécialisées scientifiques techniques,"[transition, tremplin, écologique]","[ingénierie, techniques]",[ingénierie],[ingénierie],"[ingénierie, techniques]","[scientifiques, spécialisé, spécialisées, tech..."
3,tremplin transition écologique,travaux peinture vitrerie,travaux peinture vitrerie,travaux finition,travaux construction spécialisés,construction,"[transition, tremplin, écologique]",[travaux],[travaux],[travaux],"[construction, spécialisé, travaux]",[construction]
4,tremplin transition écologique,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,terrains camping parcs caravanes véhicules loi...,hébergement,hébergement restauration,"[transition, tremplin, écologique]",[véhicules],[véhicules],[véhicules],[hébergement],"[hébergement, restauration]"
...,...,...,...,...,...,...,...,...,...,...,...,...
21516,tremplin premiers écoconception,commerce gros commerce interentreprises fourni...,commerce gros autres machines équipements,commerce gros autres équipements industriels,commerce gros exception automobiles motocycles,commerce réparation automobiles motocycles,[tremplin],"[commerce, services, équipements]","[commerce, équipements]","[commerce, industrie, équipements]","[automobiles, commerce, motocycles]","[automobiles, commerce, motocycles, réparation]"
21517,biodechets investissement unité déconditionnem...,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,collecte traitement eaux usées,production distribution assainissement gestion...,[déchets],"[collecte, traitement]","[collecte, traitement]","[collecte, traitement]","[collecte, traitement]","[distribution, déchets, gestion, production]"
21518,envirobat grand energivie,enseignement supérieur,enseignement supérieur,enseignement supérieur post secondaire supérieur,enseignement,enseignement,[autre],[enseignement],[enseignement],[enseignement],[enseignement],[enseignement]
21519,création chaufferie bois sapois,fabrication emballages bois,fabrication emballages bois,fabrication articles bois liège vannerie spart...,travail bois fabrication articles bois liège e...,industrie manufacturière,[bois],"[bois, fabrication]","[bois, fabrication]","[bois, fabrication]","[bois, fabrication]","[industrie, manufacturière]"


In [61]:
colonne_act_nm.append("Activité Mots_Clés")

In [62]:
# Appliquer la reverse tokenize aux colonnes spécifiques et créer les nouvelles colonnes 'nm'
for col_name in colonne_act_nm :

    data[col_name] = data[col_name].apply(reverse_tokenize)

# Afficher le DataFrame résultant
data[colonne_act_nm]

Unnamed: 0,objet nm kw,Activité Principale Libelle nm kw,Activité Principale Libelle 4 nm kw,Activité Principale Libelle 3 nm kw,Activité Principale Libelle 2 nm kw,Activité Principale Libelle 1 nm kw,Activité Mots_Clés
0,transition tremplin écologique,déchets récupération,déchets récupération,récupération,collecte déchets récupération traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...
1,transition tremplin écologique,techniques,techniques,techniques,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...
2,transition tremplin écologique,ingénierie techniques,ingénierie,ingénierie,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...
3,transition tremplin écologique,travaux,travaux,travaux,construction spécialisé travaux,construction,construction spécialisé spécialisées transitio...
4,transition tremplin écologique,véhicules,véhicules,véhicules,hébergement,hébergement restauration,hébergement restauration transition tremplin v...
...,...,...,...,...,...,...,...
21516,tremplin,commerce services équipements,commerce équipements,commerce industrie équipements,automobiles commerce motocycles,automobiles commerce motocycles réparation,automobiles commerce industrie motocycles répa...
21517,déchets,collecte traitement,collecte traitement,collecte traitement,collecte traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...
21518,autre,enseignement,enseignement,enseignement,enseignement,enseignement,enseignement
21519,bois,bois fabrication,bois fabrication,bois fabrication,bois fabrication,industrie manufacturière,bois fabrication industrie manufacturière


In [63]:
data.columns

Index(['dateConvention', 'referenceDecision', 'nomBeneficiaire',
       'idBeneficiaire', 'objet', 'montant', 'nature', 'conditionsVersement',
       'datesPeriodeVersement', 'notificationUE', 'pourcentageSubvention',
       'Activité Principale Libelle', 'Activité Principale Libelle 4',
       'Activité Principale Libelle 3', 'Activité Principale Libelle 2',
       'Activité Principale Libelle 1', 'y_latitude', 'x_longitude',
       'code_departement', 'nom_departement', 'DateDebut Versement',
       'DateFin Versement', 'Nombre Jours versement', 'objet nm',
       'Activité Principale Libelle nm', 'Activité Principale Libelle 4 nm',
       'Activité Principale Libelle 3 nm', 'Activité Principale Libelle 2 nm',
       'Activité Principale Libelle 1 nm', 'Activité', 'objet nm kw',
       'Activité Principale Libelle nm kw',
       'Activité Principale Libelle 4 nm kw',
       'Activité Principale Libelle 3 nm kw',
       'Activité Principale Libelle 2 nm kw',
       'Activité Principal

In [64]:
data.head(1)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,objet,montant,nature,conditionsVersement,datesPeriodeVersement,notificationUE,pourcentageSubvention,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement,objet nm,Activité Principale Libelle nm,Activité Principale Libelle 4 nm,Activité Principale Libelle 3 nm,Activité Principale Libelle 2 nm,Activité Principale Libelle 1 nm,Activité,objet nm kw,Activité Principale Libelle nm kw,Activité Principale Libelle 4 nm kw,Activité Principale Libelle 3 nm kw,Activité Principale Libelle 2 nm kw,Activité Principale Libelle 1 nm kw,Activité Mots_Clés
0,2021-05-05,21brd0090,mego ! - mego,82815370000000.0,"[tremplin, transition, écologique]",5000.0,aide en numéraire,echelonné,2021-05-11_2023-01-05,0.0,1.0,"[récupération, déchets, triés]","[récupération, déchets, triés]",[récupération],"[collecte, traitement, élimination, déchets, r...","[production, distribution, assainissement, ges...",48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0,tremplin transition écologique,récupération déchets triés,récupération déchets triés,récupération,collecte traitement élimination déchets récupé...,production distribution assainissement gestion...,tremplin transition écologique récupération d...,transition tremplin écologique,déchets récupération,déchets récupération,récupération,collecte déchets récupération traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...


In [65]:
colonne_finale = ['dateConvention', 'referenceDecision', 'nomBeneficiaire',
       'idBeneficiaire', 'montant', 'nature', 'conditionsVersement', 'notificationUE', 'pourcentageSubvention',
        'y_latitude', 'x_longitude',
       'code_departement', 'nom_departement', 'DateDebut Versement',
       'DateFin Versement', 'Nombre Jours versement','Activité', 'objet nm kw',
       'Activité Principale Libelle nm kw',
       'Activité Principale Libelle 4 nm kw',
       'Activité Principale Libelle 3 nm kw',
       'Activité Principale Libelle 2 nm kw',
       'Activité Principale Libelle 1 nm kw', 'Activité Mots_Clés']

In [66]:
data = data[colonne_finale]

In [67]:
data[colonne_finale]

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,montant,nature,conditionsVersement,notificationUE,pourcentageSubvention,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement,Activité,objet nm kw,Activité Principale Libelle nm kw,Activité Principale Libelle 4 nm kw,Activité Principale Libelle 3 nm kw,Activité Principale Libelle 2 nm kw,Activité Principale Libelle 1 nm kw,Activité Mots_Clés
0,2021-05-05,21brd0090,mego ! - mego,8.281537e+13,5000.00,aide en numéraire,echelonné,0.0,1.00,48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0,tremplin transition écologique récupération d...,transition tremplin écologique,déchets récupération,déchets récupération,récupération,collecte déchets récupération traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...
1,2021-04-30,21brd0169,lacteus,4.997256e+13,5000.00,aide en numéraire,echelonné,0.0,1.00,48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0,tremplin transition écologique analyses essai...,transition tremplin écologique,techniques,techniques,techniques,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...
2,2021-05-07,21brd0202,atis,5.053711e+13,5000.00,aide en numéraire,echelonné,0.0,1.00,48.389667,-4.475020,29,finistère,2021-05-14,2022-10-07,512.0,tremplin transition écologique ingénierie étu...,transition tremplin écologique,ingénierie techniques,ingénierie,ingénierie,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...
3,2021-05-11,21brd0209,societe bretonne de peinture,4.415847e+13,5000.00,aide en numéraire,echelonné,0.0,1.00,48.425768,-4.486593,29,finistère,2021-05-17,2022-10-10,512.0,tremplin transition écologique travaux peintu...,transition tremplin écologique,travaux,travaux,travaux,construction spécialisé travaux,construction,construction spécialisé spécialisées transitio...
4,2021-07-28,21brd0278,camping ar kleguer,4.449722e+13,5000.00,aide en numéraire,echelonné,0.0,1.00,48.690850,-3.967743,29,finistère,2021-08-12,2023-01-21,528.0,tremplin transition écologique terrains campi...,transition tremplin écologique,véhicules,véhicules,véhicules,hébergement,hébergement restauration,hébergement restauration transition tremplin v...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21516,2023-07-12,23rad0592,acm,7.539710e+13,5000.00,aide en numéraire,echelonné,1.0,1.00,45.421793,4.369785,42,loire,2023-08-01,2025-01-12,531.0,tremplin premiers écoconception commerce gros...,tremplin,commerce services équipements,commerce équipements,commerce industrie équipements,automobiles commerce motocycles,automobiles commerce motocycles réparation,automobiles commerce industrie motocycles répa...
21517,2020-10-13,19noc0345,capik,5.106239e+13,217696.78,aide en numéraire,echelonné,0.0,0.88,49.862313,1.430204,76,seine-maritime,2020-11-26,2022-02-15,447.0,biodechets investissement unité déconditionne...,déchets,collecte traitement,collecte traitement,collecte traitement,collecte traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...
21518,2020-11-12,20gec0047,insa - institut national des sciences applique...,1.967277e+13,144897.08,aide en numéraire,unique,0.0,0.89,48.582377,7.764111,67,bas-rhin,2022-07-12,2022-07-12,1.0,envirobat grand energivie enseignement supéri...,autre,enseignement,enseignement,enseignement,enseignement,enseignement,enseignement
21519,2021-09-27,21ged0061,nouvelle societe gerbois,8.000388e+13,257760.00,aide en numéraire,echelonné,0.0,0.58,48.014655,6.738315,88,vosges,2021-09-30,2022-09-28,364.0,création chaufferie bois sapois fabrication e...,bois,bois fabrication,bois fabrication,bois fabrication,bois fabrication,industrie manufacturière,bois fabrication industrie manufacturière


In [68]:
resultats = count_unique_words_by_column(data[colonne_act_nm])
resultats

{'objet nm kw': 53,
 'Activité Principale Libelle nm kw': 49,
 'Activité Principale Libelle 4 nm kw': 50,
 'Activité Principale Libelle 3 nm kw': 50,
 'Activité Principale Libelle 2 nm kw': 43,
 'Activité Principale Libelle 1 nm kw': 25,
 'Activité Mots_Clés': 56}

In [69]:
# Crée un dictionnaire de correspondance entre anciens et nouveaux noms de colonnes
nouveaux_noms = { 
    
                   "objet nm kw" : "objet",
                   'Activité Principale Libelle nm kw' : 'Activité Principale Libelle',
                   'Activité Principale Libelle 4 nm kw': 'Activité Principale Libelle 4',
                   'Activité Principale Libelle 3 nm kw': 'Activité Principale Libelle 3',
                   'Activité Principale Libelle 2 nm kw': 'Activité Principale Libelle 2',
                   'Activité Principale Libelle 1 nm kw': 'Activité Principale Libelle 1',
                }

# Utilise la méthode rename pour renommer les colonnes
data.rename(columns=nouveaux_noms, inplace=True)
data.head(3)

Unnamed: 0,dateConvention,referenceDecision,nomBeneficiaire,idBeneficiaire,montant,nature,conditionsVersement,notificationUE,pourcentageSubvention,y_latitude,x_longitude,code_departement,nom_departement,DateDebut Versement,DateFin Versement,Nombre Jours versement,Activité,objet,Activité Principale Libelle,Activité Principale Libelle 4,Activité Principale Libelle 3,Activité Principale Libelle 2,Activité Principale Libelle 1,Activité Mots_Clés
0,2021-05-05,21brd0090,mego ! - mego,82815370000000.0,5000.0,aide en numéraire,echelonné,0.0,1.0,48.480103,-4.495638,29,finistère,2021-05-11,2023-01-05,605.0,tremplin transition écologique récupération d...,transition tremplin écologique,déchets récupération,déchets récupération,récupération,collecte déchets récupération traitement,distribution déchets gestion production,collecte distribution déchets gestion producti...
1,2021-04-30,21brd0169,lacteus,49972560000000.0,5000.0,aide en numéraire,echelonné,0.0,1.0,48.365581,-1.232074,35,ille-et-vilaine,2021-05-07,2022-09-30,512.0,tremplin transition écologique analyses essai...,transition tremplin écologique,techniques,techniques,techniques,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...
2,2021-05-07,21brd0202,atis,50537110000000.0,5000.0,aide en numéraire,echelonné,0.0,1.0,48.389667,-4.47502,29,finistère,2021-05-14,2022-10-07,512.0,tremplin transition écologique ingénierie étu...,transition tremplin écologique,ingénierie techniques,ingénierie,ingénierie,ingénierie techniques,scientifiques spécialisé spécialisées techniques,ingénierie scientifiques spécialisé spécialisé...


# 3. Chargement des données transformées

## 3.1   Sauvegarde des données en excell.

In [None]:
data.info()

In [None]:
data.to_csv('data_clean_ademe.csv', index=False)
data.to_excel("data_clean_ademe.xlsx")  

## 3.2 Sauvegarde données dans le Cloud

HeroKu
AWS
Google GCP
Azure webapp 

PythonAnywhere

# 3. Implémentation du DAG

In [None]:
Debut du DAG

In [None]:

extract_transform_task = PythonOperator(
    task_id='extract_transform',
    python_callable=extract_transform_data,
    provide_context=True,
    dag=dag,
)

clean_and_store_task = PythonOperator(
    task_id='clean_and_store',
    python_callable=clean_and_store_data,
    provide_context=True,
    dag=dag,
)

end_task = DummyOperator(
    task_id='end_task',
    dag=dag,
)

extract_transform_task >> clean_and_store_task >> end_task