
<h1>Projet Certification : <br>Traitement csv fournisseur</h1>

In [1]:
import os
import pandas as pd

<h2>A) Importation des données de consommations</h2>

In [2]:
# Je crée un dataframe et j'ouvre le CSV que j'ai récupéré via le site de mon fournisseur
df = pd.read_csv('C:/Users/x/Documents/Projet simplon/Certification Data/Code/fournisseur/releves/conso_250619to060719.csv', sep = ';')

In [3]:
# Je vérifie le df
df

Unnamed: 0,Énergie,Date,Consommation
0,Électricité,25/06/2019 00:00:00,0.72 kWh
1,Électricité,25/06/2019 00:30:00,0.711 kWh
2,Électricité,25/06/2019 01:00:00,0.712 kWh
3,Électricité,25/06/2019 01:30:00,0.709 kWh
4,Électricité,25/06/2019 02:00:00,0.711 kWh
5,Électricité,25/06/2019 02:30:00,0.508 kWh
6,Électricité,25/06/2019 03:00:00,0.068 kWh
7,Électricité,25/06/2019 03:30:00,0.067 kWh
8,Électricité,25/06/2019 04:00:00,0.066 kWh
9,Électricité,25/06/2019 04:30:00,0.065 kWh


In [4]:
# Je vérifie le nom des colonnes:
df.columns

Index(['Énergie', 'Date', 'Consommation'], dtype='object')

<h2>B) Nettoyage des données</h2>

<h3>1) Suppression de la colonne inutile</h3>

In [5]:
# Je supprime la colonne 'Énergie' car inutile:
del df['Énergie']

In [6]:
# Je vérifie que la colonne a bien été supprimée:
df.shape

(529, 2)

<h3>2) J'enlève les unités dans 'Consommation'</h3>

In [7]:
# Dans la colonne 'Consommation', je remplace l'unité KWh par rien
df['Consommation'] = (df['Consommation'].str.replace("kWh", "")) 

In [8]:
# Je vérifie un extrait du dataframe, pour voir si les unités on bien été supprimées
df.head()

Unnamed: 0,Date,Consommation
0,25/06/2019 00:00:00,0.72
1,25/06/2019 00:30:00,0.711
2,25/06/2019 01:00:00,0.712
3,25/06/2019 01:30:00,0.709
4,25/06/2019 02:00:00,0.711


<h2>C) Pré-traitement des données : <br>Obtenir des plages de 1 heure (au lieu de 30 minutes) pour correspondre à la table ProductionFiliere</h2>

<h3>1) Création d'une copie du dataframe pour faire les tests</h3>

In [9]:
df_copy = df

In [10]:
# Je vérifie les noms des colonnes
df_copy.columns

Index(['Date', 'Consommation'], dtype='object')

In [11]:
# Je vérifie le type des colonnes
df_copy.dtypes

Date            object
Consommation    object
dtype: object

In [12]:
# Je vérifie un extrait du dataframe
df_copy.head()

Unnamed: 0,Date,Consommation
0,25/06/2019 00:00:00,0.72
1,25/06/2019 00:30:00,0.711
2,25/06/2019 01:00:00,0.712
3,25/06/2019 01:30:00,0.709
4,25/06/2019 02:00:00,0.711


<h3>2) Transformer le type de consommation en float (au lieu d'object)</h3>

In [13]:
# Création de la colonne 'val' qui reprend les valeurs de la colonne 'Consommation' à laquelle on transforme en type float
df_copy['val'] = df_copy['Consommation'].astype(float)

In [14]:
# Je vérifie un extrait du nouveau dataframe
df_copy.head()

Unnamed: 0,Date,Consommation,val
0,25/06/2019 00:00:00,0.72,0.72
1,25/06/2019 00:30:00,0.711,0.711
2,25/06/2019 01:00:00,0.712,0.712
3,25/06/2019 01:30:00,0.709,0.709
4,25/06/2019 02:00:00,0.711,0.711


In [15]:
# Je vérifie le type des colonnes
df_copy.dtypes

Date             object
Consommation     object
val             float64
dtype: object

<h3>3) Transformer le type de 'Date' en datetime (au lieu d'object)</h3>

In [16]:
# Je crée une colonne 'DateTime' qui correspond à la colonne 'Date' transformé en type datetime
df_copy['DateTime'] = pd.to_datetime(df_copy['Date'])

In [17]:
# Je vérifie un extrait du dataframe de test:
df_copy.head()

Unnamed: 0,Date,Consommation,val,DateTime
0,25/06/2019 00:00:00,0.72,0.72,2019-06-25 00:00:00
1,25/06/2019 00:30:00,0.711,0.711,2019-06-25 00:30:00
2,25/06/2019 01:00:00,0.712,0.712,2019-06-25 01:00:00
3,25/06/2019 01:30:00,0.709,0.709,2019-06-25 01:30:00
4,25/06/2019 02:00:00,0.711,0.711,2019-06-25 02:00:00


In [18]:
# Je vérifie le type des colonnes
df_copy.dtypes

Date                    object
Consommation            object
val                    float64
DateTime        datetime64[ns]
dtype: object

Remarquez que le type de la colonne 'DateTime' est datetime64[ns] où ns signifie nanoseconde

<h2>D) Fusionner les lignes de 'val' par deux pour avoir des plages de 1 heure</h2>

**Méthodologie**
<ul>
    <li>D'abord, je vérifie que la colonne 'val'ne comporte pas de valeurs manquantes</li>
    <li>Ensuite, je crée une colonne 'val_2' qui correspond à la colonne 'val' mais décalée d'1 ligne avec la méthode *.shift()*.</li>
    <li>Puis, je crée une colonne 'val_3' qui correspond à l'addition des colonnes 'val' et 'val_2'.</li>
    <li>Enfin, je crée une colonne 'consumption_hour' qui correspond uniquement aux lignes qui m'intéressent. Pour cela, j'utilise l'index et ne prend qu'1 ligne sur 2.</li>
</ul>

<h3>1) Vérification pas de valeurs manquantes dans la colonne 'val'</h3>

In [19]:
# Je vérifie qu'il n'y a pas de NA dans ma variable
df_copy.val.isna().sum()

0

<h3>2) Création de 'val_2', en utilisant .shift()</h3>

In [20]:
df_copy["val_2"] = df_copy.val.shift(-1)

In [21]:
# Je vérifie un extrait et sélectionne uniquement les colonnes qui m'intéressent
df_copy.loc[:, "val": "val_2"].head()

Unnamed: 0,val,DateTime,val_2
0,0.72,2019-06-25 00:00:00,0.711
1,0.711,2019-06-25 00:30:00,0.712
2,0.712,2019-06-25 01:00:00,0.709
3,0.709,2019-06-25 01:30:00,0.711
4,0.711,2019-06-25 02:00:00,0.508


***Utilisation de la méthode .loc***
<br>(ATTENTION A EXPLICITER)
<p>"Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum."</p>

<h3>3) Création de 'val_3'</h3>

In [22]:
# J'additionne les colonnes 'val' et 'val_2'
df_copy["val_3"] = df_copy.loc[:, "val"] + df_copy.loc[:, "val_2"]

In [23]:
# Je vérifie un extrait du dataframe
df_copy.head()

Unnamed: 0,Date,Consommation,val,DateTime,val_2,val_3
0,25/06/2019 00:00:00,0.72,0.72,2019-06-25 00:00:00,0.711,1.431
1,25/06/2019 00:30:00,0.711,0.711,2019-06-25 00:30:00,0.712,1.423
2,25/06/2019 01:00:00,0.712,0.712,2019-06-25 01:00:00,0.709,1.421
3,25/06/2019 01:30:00,0.709,0.709,2019-06-25 01:30:00,0.711,1.42
4,25/06/2019 02:00:00,0.711,0.711,2019-06-25 02:00:00,0.508,1.219


<h3>4) Création de la colonne 'consumption_hour'</h3>

In [24]:
# Je vérifie le shape du dataframe
df_copy.shape

(529, 6)

In [25]:
# Je crée une variable index qui prend tout la longueur da dataframe avec un pas de deux [::2]
index = df_copy.index[::2]

In [26]:
# Je vérifie ma variable index
index

RangeIndex(start=0, stop=529, step=2)

In [27]:
# Je crée ma colonne 'consumption_hour' qui correspond à 'val_3' à laquelle j'applique ma variable index
df_copy['consumption_hour'] = df_copy.iloc[ index,:].val_3

In [28]:
# Je vérifie un extrait de mon nouveau dataframe
df_copy.head()

Unnamed: 0,Date,Consommation,val,DateTime,val_2,val_3,consumption_hour
0,25/06/2019 00:00:00,0.72,0.72,2019-06-25 00:00:00,0.711,1.431,1.431
1,25/06/2019 00:30:00,0.711,0.711,2019-06-25 00:30:00,0.712,1.423,
2,25/06/2019 01:00:00,0.712,0.712,2019-06-25 01:00:00,0.709,1.421,1.421
3,25/06/2019 01:30:00,0.709,0.709,2019-06-25 01:30:00,0.711,1.42,
4,25/06/2019 02:00:00,0.711,0.711,2019-06-25 02:00:00,0.508,1.219,1.219


<h2>E) Nettoyage pour un dataframe final</h2>

**Méthodologie**
<ul>
    <li>D'abord, je crée un nouveau dataframe 'MaConso', qui reprend uniquement les colonnes 'consumption_hour' et 'date_hour' et cela pour les créneaux dont j'ai besoin</li>
    <li>Ensuite, j'effectue un reset de l'index</li>
    <li>Enfin, je change l'ordre des colonnes</li>
</ul>

<h3>1) Création du dataframe MaConso</h3>

In [29]:
# Je crée une nouvelle colonne 'date_hour' qui reprend les valeurs de la colonne 'DateTime'
df_copy['date_hour'] = df_copy['DateTime']

In [30]:
MaConso = df_copy.loc[:,"consumption_hour" : "date_hour"].dropna(how = 'any')

In [31]:
# Je vérifie le shape de MaConso qui est 2 fois moins long que le df_copy
MaConso.shape

(264, 2)

In [32]:
df_copy.shape

(529, 8)

<h3>2) Reset de l'index</h3>

In [33]:
# Je vérifie un extrait du df
MaConso.head()

Unnamed: 0,consumption_hour,date_hour
0,1.431,2019-06-25 00:00:00
2,1.421,2019-06-25 01:00:00
4,1.219,2019-06-25 02:00:00
6,0.135,2019-06-25 03:00:00
8,0.131,2019-06-25 04:00:00


In [34]:
#reset de l'index
MaConso = MaConso.reset_index()

In [35]:
# Je vérifie un extrait du df
MaConso.head()

Unnamed: 0,index,consumption_hour,date_hour
0,0,1.431,2019-06-25 00:00:00
1,2,1.421,2019-06-25 01:00:00
2,4,1.219,2019-06-25 02:00:00
3,6,0.135,2019-06-25 03:00:00
4,8,0.131,2019-06-25 04:00:00


In [36]:
MaConso.columns

Index(['index', 'consumption_hour', 'date_hour'], dtype='object')

In [37]:
MaConso.shape

(264, 3)

In [38]:
# Je supprime la colonne index
del MaConso['index']

In [39]:
# Je vérifie un extrait du df
MaConso.head()

Unnamed: 0,consumption_hour,date_hour
0,1.431,2019-06-25 00:00:00
1,1.421,2019-06-25 01:00:00
2,1.219,2019-06-25 02:00:00
3,0.135,2019-06-25 03:00:00
4,0.131,2019-06-25 04:00:00


In [40]:
MaConso.shape

(264, 2)

<h3>3) Changer l'ordre les colonnes</h3>

In [41]:
MaConso = MaConso[['date_hour', 'consumption_hour']]

In [42]:
# Je vérifie un extrait
MaConso.tail()

Unnamed: 0,date_hour,consumption_hour
259,2019-05-07 19:00:00,0.131
260,2019-05-07 20:00:00,0.72
261,2019-05-07 21:00:00,0.446
262,2019-05-07 22:00:00,0.476
263,2019-05-07 23:00:00,0.361


In [43]:
# Je vérifie qu'il n'y a pas de valeurs manquantes dans mon dataframe
MaConso.isna().sum()

date_hour           0
consumption_hour    0
dtype: int64

<h2>F) Exportation sur le fichier MaConsoDraft.csv</h2>

In [44]:
# J'exporte dans le csv temporaire en append
MaConso.to_csv('C:/Users/x/Documents/Projet simplon/Certification Data/Code/fournisseur/MaConsoDraft.csv', index = False, mode = "a")