## 2 Preparation des donnees
En fonction du type du probleme et les objectifs a atteindre, la preparation des donn´ees comporte g´en´eralement
les taches suivantes : 
 * Fusion des ensembles et/ou enregistrements de donn´ees
 * S´election d’un sous-ensemble de donn´ees
* calcul de nouveaux attributs
* Tri des donn´ees en vue de la mod´elisation
* Suppression ou remplacement des blancs ou des valeurs manquantes
* Fractionnement en sous-ensembles d’apprentissage et de test
Dans le cadre de ce projet, nous vous demandons en particulier de :
* V´erifier s’il y a des valeurs manquantes dans les donn´ees.
* V´erifier si les valeurs des diff´erents attributs sont comparables
 
Remarque. Vous pouvez toujours proposer d’autres traitements mais il faudra expliquer a chaque fois. Pour 
bien maˆıtriser cette phase, je vous invite a consulter le lien suivant :  Data Preparation with pandas
https://www.datacamp.com/tutorial/data-preparation-with-pandas

# Imports 

In [1]:
import pandas as pd

# Chargement des données

In [2]:
raw_data_x = pd.read_csv("data/Data_X.csv", index_col='ID')
raw_dataNew_x = pd.read_csv("data/DataNew_X.csv", index_col='ID')
raw_data_y = pd.read_csv("data/Data_Y.csv", index_col='ID')

# Selection du sous-ensemble de données

In [3]:
data_xy = pd.merge(raw_data_x, raw_data_y, on='ID')

In [4]:
data_xy.shape

(1494, 35)

Notre ensemble de données est composé de 1494 lignes et de 35 colonnes.

# Verification des valeurs manquantes

In [5]:
data_xy.isna().sum().sum()

1002

Il y a 1002 valeurs manquantes.

## Verification des variables

In [7]:
missing_values_cols = data_xy.isna().sum()
missing_values_cols = missing_values_cols[missing_values_cols != 0]
missing_values_cols

DE_FR_EXCHANGE     25
FR_DE_EXCHANGE     25
DE_NET_EXPORT     124
FR_NET_EXPORT      70
DE_NET_IMPORT     124
FR_NET_IMPORT      70
DE_RAIN            94
FR_RAIN            94
DE_WIND            94
FR_WIND            94
DE_TEMP            94
FR_TEMP            94
dtype: int64

On observe que 12 variables possédent des valeurs manquantes.
Au plus il manque 8% (na/total = 124/1494) valeurs pour une variable.
De plus, on observe des groupes de variables mesuré ensemble, c'est-a-dire, si une de ces variables est manquantes les autres variables du meme groupe seront manquantes aussi.<br> On observe les groupes suivant :
- `DE_FR_EXCHANGE` et `FR_DE_EXCHANGE` : Si l'echange entre la France et l'Allemangne n'est pas mesuré ces deux variables seront manquantes.
- `X_NET_IMPORT` et `X_NET_EXPORT` : Il se peut que pour certain jour les mesures de l'import et l'export ne soit pas disponibles pour un pays en particulier.
-  `FR_RAIN`, `FR_WIND`, `FR_TEMP`, `DE_RAIN`, `DE_WIND`, `DE_TEMP` :  Il se peut que pour certain jour les mesures météorologiques ne soit pas disponibles pour les deux pays.

## Vérification des lignes

In [31]:
missing_values_rows = data_xy.isna().sum(axis=1)
missing_values_rows = missing_values_rows[missing_values_rows != 0]
print(f"Nous avons {len(missing_values_rows)} lignes contenant des valeurs manquantes")

Nous avons 218 lignes contenant des valeurs manquantes


In [9]:
min_missing_values_row = missing_values_rows.min()
max_missing_values_row = missing_values_rows.max()
print("Minimum de valeurs manquantes par ligne : ", min_missing_values_row)
print("Maximum de valeurs manquantes par ligne : ", max_missing_values_row)

Minimum de valeurs manquantes par ligne :  2
Maximum de valeurs manquantes par ligne :  6


### Regardons les variables manquantes dans une ligne contenant un minimum de valeurs manquantes

In [24]:
min_idx = missing_values_rows.idxmin()
min_missing_variables = data_xy.loc[min_idx].isna()
min_missing_variables = min_missing_variables[min_missing_variables == True]
min_missing_variables

DE_NET_EXPORT    True
DE_NET_IMPORT    True
Name: 1054, dtype: bool

En regardant une ligne contenant un minimum (non nulle) de valeurs manquantes, on observe le groupe `DE_NET_EXPORT` et `DE_NET_IMPORT`.

### Regardons les variables manquantes dans une ligne contenant un minimum de valeurs manquantes

In [39]:
max_idx = missing_values_rows.nlargest(2).index
max_missing_variables = data_xy.loc[max_idx[1]].isna()
max_missing_variables = max_missing_variables[max_missing_variables == True]
max_missing_variables

DE_RAIN    True
FR_RAIN    True
DE_WIND    True
FR_WIND    True
DE_TEMP    True
FR_TEMP    True
Name: 1715, dtype: bool

En regardant une ligne contenant un minimum (non nulle) de valeurs manquantes, on observe le groupe des mesures météoroliques pour les deux pays.

<br>
On observe des variables manquantes dans 

# Verification de la comparabilité 

# Calcul de nouveaux attributs

# Factionnement en sous-ensembles d'apprentissage et de test

In [None]:
df['E_renouvelable'] = df['FR_SOLAR'] + df['FR_HYDRO'] + df['FR_WINDPOW'] + df['FR_NUCLEAR']

In [None]:
df['E_renouvelable2'] = df['FR_CONSUMPTION'] - df['FR_RESIDUAL_LOAD']

In [None]:
df['E_renouvelable'].mean()

In [None]:
df['E_renouvelable2'].mean()

In [None]:
data_xy.describe()