## Nettoyage des données avec Pandas
Avant toute analyse de données, le nettoyage des données est fort important. En effet, des données dans un mauvais format ou contenant des erreurs peuvent affecter la procédure d'analyse et les résultats finaux.

Dans cet atelier, nous allons utiliser des données publiques concernant des compagnies et leurs valeurs de marché au cours du temps. Voici une description :

* Les données de base pour les compagnies ressemblent à (voir le fichier `compagnies_raw.csv`) :
```
;company_ID;company_Name;country;sector_GICS;sector_GICS_name;economc_sector;cyclic_ind
0;001078;Abbott Laboratories;USA;35;Health Care;CONSOMMATION;False
1;001300;Honeywell International Inc;USA;20;Industrials;INDUSTRIELLES;True
2;001447;American Express Co;USA;40;Financials;SENSIBLE AUX TAUX;False
3;001602;Amgen Inc;USA;35;Health Care;CONSOMMATION;False
...
```
Les données tabulaires sont séparées par des point-virgules (`;`), ce qui n'est pas très courant pour un fichier CSV (Comma Separated Values). De même, étant donné que chaque compagnie a un identifiant unique, la première colonne anonyme, soit l'index générique de la table, est superflue.

* De même, les valeurs de marché selon le temps ressemblent à (voir le fichier `valeurs_raw.csv`) :
```
;year;month;day;company_ID;company_Name;Market_Cap_USD;Total_Return_USD;...
0;2015;4;30;001078;Abbott Laboratories;70046,75876000001;0,007122814590977855;...
...
```
L'ensemble des colonnes sont :
 * (anonyme)
 * year
 * month
 * day
 * company_ID
 * **company_Name**
 * Market_Cap_USD
 * Total_Return_USD
 * BETA_60M_ACWI
 * volatility_60_days
 * Assets_to_Equity
 * Net_debt_to_EBITDA
 * Fixed_Assets_to_Assets
 * Cash_to_assets
 * ROA_2y
 * ROE_2y
 * 2y_avg_12M_earnings
 * FX_RATE_TO_USD
 * leverage_category

 Les données tabulaires sont aussi séparées par des point-virgules (`;`). De plus, les valeurs décimales utilisent des virgules (`,`) au lieu de points (`.`). Or, Python utilise le point pour séparer les valeurs entières des décimales. La colonne `company_Name` est redondante, car seul l'identifiant `company_ID` est nécessaire pour retrouver les informations d'une compagnie. Enfin, la colonne anonyme sera renommée pour identifier uniquement chaque rangée.

Bref, la première étape consiste à charger le module Pandas :

In [None]:
import pandas as pd

### Charger le fichier des compagnies et nettoyer les données

In [None]:
compagnies = pd.read_csv("../data/compagnies_raw.csv", sep=';')
compagnies.head()

In [None]:
compagnies.drop(columns='Unnamed: 0', inplace=True)
compagnies.head()

In [None]:
compagnies.to_csv("../data/compagnies.csv", index=False)

### Charger les valeurs de marché et nettoyer les données

In [None]:
valeurs = pd.read_csv("../data/valeurs_raw.csv", sep=';')
valeurs.head()

In [None]:
valeurs.dtypes

In [None]:
valeurs = pd.read_csv("../data/valeurs_raw.csv", sep=';', decimal=',')
valeurs.dtypes

In [None]:
valeurs.head()

In [None]:
valeurs.drop(columns = 'company_Name', inplace=True)
valeurs.columns

In [None]:
valeurs.rename(columns={'Unnamed: 0':'record_id'}, inplace=True)
valeurs.head()

In [None]:
valeurs.to_csv("../data/valeurs.csv", index=False)