# Factures d'énergie
L'objectif de cet exercice est de transformer un fichier CSV complexe en fichier CSV exploitable par une entreprise.

In [26]:
import pandas as pd
df = pd.read_csv("Invoice_20201220.csv", sep='|')
df


Unnamed: 0,SITE_NAME,INVOICE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR
0,12345_GEO (0001BB),1300082549,01/01/2018,31/01/2018,2 447,31646
1,12345_GEO (0001BB),1300082549,01/02/2018,28/02/2018,2 211,28682
2,12345_GEO (0001BB),1300082549,01/03/2018,31/03/2018,2 450,31732
3,12345_GEO (0001BB),1300082549,01/04/2018,30/04/2018,2 431,31500
4,12345_GEO (0001BB),1300082549,01/05/2018,31/05/2018,2 574,33337
...,...,...,...,...,...,...
51427,19767_GEO (0632KO),FV1/055100030,30/08/2019,31/12/2019,3 028,39718
51428,19767_GEO (0632KO),055100058,01/01/2020,31/03/2020,2 163,28357
51429,19767_GEO (0632KO),055100113,01/04/2020,30/06/2020,2 160,31255
51430,19767_GEO (0632KO),055100168,01/07/2020,30/09/2020,2 230,29407


---

## QUESTION 1 
_Le nom d'une antenne a un format bien précis : il est toujours composé de 4 chiffres et de deux lettres. On te demande de retirer tout autre caractère de la colonne "SITE_NAME"._


J'observe que le nom de l'antenne est situé entre parenthèses à la fin de la colonne SITE_NAME. Pour ne garder que lui, j'utilise la fonction slice me permettant de ne conserver que les 6 derniers caractères, sans la parenthèse finale.

In [27]:
name = df['SITE_NAME']
df['SITE_NAME'] = name.str[-7:-1]

df

Unnamed: 0,SITE_NAME,INVOICE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR
0,0001BB,1300082549,01/01/2018,31/01/2018,2 447,31646
1,0001BB,1300082549,01/02/2018,28/02/2018,2 211,28682
2,0001BB,1300082549,01/03/2018,31/03/2018,2 450,31732
3,0001BB,1300082549,01/04/2018,30/04/2018,2 431,31500
4,0001BB,1300082549,01/05/2018,31/05/2018,2 574,33337
...,...,...,...,...,...,...
51427,0632KO,FV1/055100030,30/08/2019,31/12/2019,3 028,39718
51428,0632KO,055100058,01/01/2020,31/03/2020,2 163,28357
51429,0632KO,055100113,01/04/2020,30/06/2020,2 160,31255
51430,0632KO,055100168,01/07/2020,30/09/2020,2 230,29407


## QUESTION 2
_On te demande de supprimer la colonne "INVOICE_NAME" qui n'apporte rien aux équipes._

J'utilise la fonction .drop en précisant le nom de la colonne.
Autre graphie possible : df.drop(['INVOICE_NAME'], axis=1)

In [28]:
df = df.drop(columns=['INVOICE_NAME'])
df

Unnamed: 0,SITE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR
0,0001BB,01/01/2018,31/01/2018,2 447,31646
1,0001BB,01/02/2018,28/02/2018,2 211,28682
2,0001BB,01/03/2018,31/03/2018,2 450,31732
3,0001BB,01/04/2018,30/04/2018,2 431,31500
4,0001BB,01/05/2018,31/05/2018,2 574,33337
...,...,...,...,...,...
51427,0632KO,30/08/2019,31/12/2019,3 028,39718
51428,0632KO,01/01/2020,31/03/2020,2 163,28357
51429,0632KO,01/04/2020,30/06/2020,2 160,31255
51430,0632KO,01/07/2020,30/09/2020,2 230,29407


## QUESTION 3
_Il y a des antennes pour lesquelles on a des factures mensuelles tandis que pour d'autres, on les reçoit moins régulièrement (trimestre, semestre, année). Ajoute une colonne à ton tableau qui calcule le nombre de jours entre le début de la période de facturation et la fin de la période de facturation._

- Première étape : transformer les strings des colonnes BEGIN et END en dates grâce à .apply(pd.to_datetime)
- Deuxième étape : faire la soustraction entre les deux colonnes. dt.days permet d'obtenir le nombre de jours

In [29]:
df[['END','BEGIN']] = df[['END','BEGIN']].apply(pd.to_datetime)
df['NB_OF_DAYS'] = (df['END'] - df['BEGIN']).dt.days
df

Unnamed: 0,SITE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR,NB_OF_DAYS
0,0001BB,2018-01-01,2018-01-31,2 447,31646,30
1,0001BB,2018-01-02,2018-02-28,2 211,28682,57
2,0001BB,2018-01-03,2018-03-31,2 450,31732,87
3,0001BB,2018-01-04,2018-04-30,2 431,31500,116
4,0001BB,2018-01-05,2018-05-31,2 574,33337,146
...,...,...,...,...,...,...
51427,0632KO,2019-08-30,2019-12-31,3 028,39718,123
51428,0632KO,2020-01-01,2020-03-31,2 163,28357,90
51429,0632KO,2020-01-04,2020-06-30,2 160,31255,178
51430,0632KO,2020-01-07,2020-09-30,2 230,29407,267


## QUESTION 4
_A partir de cette nouvelle colonne, crée une autre colonne qui nous donne la consommation journalière moyenne de la période._
La moyenne est simple à calculer mais je dois d'abord supprimer l'espace dans les KWH.

In [30]:
df['KWH_PERIOD'] = pd.to_numeric(df['KWH_PERIOD'].str.replace(' ', ''))
df['DAILY_MEAN'] = df['KWH_PERIOD'] / df['NB_OF_DAYS']
df


Unnamed: 0,SITE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR,NB_OF_DAYS,DAILY_MEAN
0,0001BB,2018-01-01,2018-01-31,2447,31646,30,81.566667
1,0001BB,2018-01-02,2018-02-28,2211,28682,57,38.789474
2,0001BB,2018-01-03,2018-03-31,2450,31732,87,28.160920
3,0001BB,2018-01-04,2018-04-30,2431,31500,116,20.956897
4,0001BB,2018-01-05,2018-05-31,2574,33337,146,17.630137
...,...,...,...,...,...,...,...
51427,0632KO,2019-08-30,2019-12-31,3028,39718,123,24.617886
51428,0632KO,2020-01-01,2020-03-31,2163,28357,90,24.033333
51429,0632KO,2020-01-04,2020-06-30,2160,31255,178,12.134831
51430,0632KO,2020-01-07,2020-09-30,2230,29407,267,8.352060


## QUESTION 5
_Merci d'ajouter également une colonne qui donne, pour chaque antenne, le nombre de factures dont on dispose au total. Pas grave si l'information se répète à chaque ligne pour une même antenne._

Je crée une colonne, je regroupe par nom de site et j'y ajoute le compte avec .transform('count')

In [31]:
df['NB_OF_INVOICES'] = df.groupby(['SITE_NAME'])['SITE_NAME'].transform('count')
df


Unnamed: 0,SITE_NAME,BEGIN,END,KWH_PERIOD,PERIOD_EUR,NB_OF_DAYS,DAILY_MEAN,NB_OF_INVOICES
0,0001BB,2018-01-01,2018-01-31,2447,31646,30,81.566667,35
1,0001BB,2018-01-02,2018-02-28,2211,28682,57,38.789474,35
2,0001BB,2018-01-03,2018-03-31,2450,31732,87,28.160920,35
3,0001BB,2018-01-04,2018-04-30,2431,31500,116,20.956897,35
4,0001BB,2018-01-05,2018-05-31,2574,33337,146,17.630137,35
...,...,...,...,...,...,...,...,...
51427,0632KO,2019-08-30,2019-12-31,3028,39718,123,24.617886,4
51428,0632KO,2020-01-01,2020-03-31,2163,28357,90,24.033333,4
51429,0632KO,2020-01-04,2020-06-30,2160,31255,178,12.134831,4
51430,0632KO,2020-01-07,2020-09-30,2230,29407,267,8.352060,4


J'exporte au format CSV

In [32]:
df.to_csv('facture.csv',index = False)