# Phase de Nettoyage des données

Les différentes données récupérées ont tout d'abord besoin d'être nettoyées pour les besoins du projet. Si les données fournies par l'EUDA sont déjà très propres et ne nécéssiteront qu'un léger travail de tri, voire éventuellement quelques merge utiles sur certaines tables, ce n'est pas le cas des données scrapées à partir de pages Wikipedia qui vont nous demander un travail de nettoyage plus approfondi.

## Nettoyage des données scrapées depuis Wikipedia

On commence par générer notre dataframe à partir du scraping des données de [l'article Wikipedia sur la légalisation du Cannabis par Pays](https://fr.wikipedia.org/wiki/L%C3%A9gislation_sur_le_cannabis). Le code détaillé et commenté se trouve dans le fichier `scraping.py`, on se contente ici d'appeler nos fonctions.


In [2]:
from Data.scraping import scraping as s

url = "https://fr.wikipedia.org/wiki/L%C3%A9gislation_sur_le_cannabis"

table = s.scrape_first_table(url)
data, header = s.table_to_list(table)
legal_pays = s.make_pandas(data, header)

legal_pays.head()

Unnamed: 0,Possession,Vente,Transport,Culture,Notes
Albanie,Illégale,Illégale,Illégal,Illégale,[13]
Algérie,Illégale,Illégale,Illégal,Illégale,Des autorisations pour usages médicaux et de r...
Allemagne,Légale jusqu'à 25 grammes,Légale pour les associations agréés,Légale,Légale jusqu'à trois plants par personnes,Article détaillé : Cannabis en Allemagne. Il e...
Arabie saoudite,Illégale,,,,Article détaillé : Cannabis en Arabie saoudite.
Argentine,Illégale,Illégale,Illégal,Illégale sauf à des fins médicinales depuis le...,Article détaillé : Cannabis en Argentine.


On remarque alors que notre Dataframe contient plusieurs éléments qui nécéssitent d'être nettoyés, modifiés, voire supprimés. Dans l'ordre on peut citer:

1. **Supprimer la dernier colonne concernant les "Notes"**, qui peuvent nous être utile à des fins d'interprétation, ou encore pour aider à la classification ou à l'interprétation plus tard, mais qui en l'état seront inutiles à la statistique descriptive ou à la construction de modèles plus tard.

2. **Eliminer de notre dataframe les pays non-européens**, puisque les données de l'EUDA ne s'intéresse qu'au cas européeen, et que c'est là le coeur de notre sujet.

3. Enfin, il nous faudra **regrouper les différentes états des variables sous un format clair** En l'état, on dispose pour chaque pays d'une description parfois unique et idividuelle de la législation dans le pays donné. L'idéal serait de ne garder qu'une variable binaire: Légal/Illégal. Cependant la réalité est plus complexe dans certains pays, et il nous faudra alors faire des choix, et les justifier, pour essayer de ne garder qu'un nombre limité d'état pour chaque variable.

## Suppression de la colonne des Notes

Cela n'est pas bien compliqué, on utilise simplement les outils de la librairie Pandas:

In [7]:
import pandas as pd

legal_pays_clean = legal_pays.drop(columns = "Notes")

legal_pays_clean.head()

Unnamed: 0,Possession,Vente,Transport,Culture
Albanie,Illégale,Illégale,Illégal,Illégale
Algérie,Illégale,Illégale,Illégal,Illégale
Allemagne,Légale jusqu'à 25 grammes,Légale pour les associations agréés,Légale,Légale jusqu'à trois plants par personnes
Arabie saoudite,Illégale,,,
Argentine,Illégale,Illégale,Illégal,Illégale sauf à des fins médicinales depuis le...


## Nettoyage de la base

Nous centrons notre analyse sur le cannabis. La plupart des tables sont déjà organisées et triées par type de drogue, mais pour celles qui ne le sont pas, il s'agit de sélectionner uniquement les valeurs correspondant à cette drogue. 

In [None]:
import pandas as pd

df = pd.read_csv('~/work/Projet_Python_2A/Data/EUDA/edr2024-gps-current-table-1.csv')

dfcurrent = df[df['Substance'] == 'Cannabis']

df1 = pd.read_csv('~/work/Projet_Python_2A/Data/EUDA/edr2024-gps-trends-table-1.csv')

dftrends = df1[df1['Substance'] == 'Cannabis']