# Projets : Analysons des factures d'énergie 🌠🌠

## Analysons des factures d'énergie 🌠🌠
### 1. Introduction

Un des cas d'usage fréquents de l'analyse de données est ce qu'on appelle la détection d'anomalies. Il s'agit en fait de checker, à travers des gros jeux de donnnées, s'il n'y a pas des éléments de la chaîne de production qui dysfonctionnent.

Le contrôle de la facturation est un cas d'école intéressant. Comme la consommation d'énergie n'est pas facilement interprétable par un humain, il peut être utile de vérifier les factures émises par les fournisseurs d'énergie afin de repérer d'éventuelles erreurs et, le cas échéant, permettre à l'entreprise d'économiser de l'argent 💰💰

### 2. Le projet

### 2.1. La mission

L'opérateur de télécommunications national en Slovaquie fait appel à vous pour contrôler ses factures d'électricité. Il vous explique que les réseaux mobiles (et plus directement, les antennes) sont très consommateurs d'énergie. C'est pourquoi, en tant qu'opérateur, il doit dépenser chaque année de très fortes sommes dans l'électricité.

En revanche, il a le sentiment (et certains de ses salariés lui ont confirmé cela) qu'il y a des erreurs dans les factures et que certaines sommes ne sont pas justifiées. Mais il y a un nombre de factures colossal et son service de comptabilité n'a pas les compétences nécessaires pour traiter autant de données.

Il vous demande donc de récupérer ici le fichier qui regroupe toutes les factures pour l'ensemble des antennes de l'opérateur. Et de le nettoyer pour que les équipes terrain puissent l'utiliser régulièrement, dès qu'un besoin de vérification sera remonté.

Finalement, ton objectif est de transformer le fichier qu'a récupéré la direction en un fichier exploitable. Pour les équipes de comptabilité, "exploitable" signifie qu'ils n'ont qu'à rechercher le nom d'une antenne en particulier, et ils peuvent obtenir l'historique de sa consommation d'énergie pour vérifier s'il y a des anomalies. Pour que cet historique soit intéressant, ils ont besoin d'avoir la consommation moyenne journalière (comme ça par ex, ils peuvent comparer un mois de Février qui fait 28 jours avec un mois de janvier qui fait 31 jours, sans se dire que la diminution vient de la différence de jours dans un mois).

### 2.2. Les tâches

1) Le nom d'une antenne a un format bien précis : il est toujours composé de 4 chiffres et de deux lettres. On te demande de retirer tout autre caractère de la colonne "SITE_NAME".

2) On te demande de supprimer la colonne "INVOICE_NAME" qui n'apporte rien aux équipes.

3) Il y a des antennes pour lesquelles on a des factures mensuelles tandis que pour d'autres, on les reçoit moins régulièrement (trimestre, semestre, année). Ajoute une colonne à ton tableau qui calcule le nombre de jours entre le début de la période de facturation et la fin de la période de facturation.

4) A partir de cette nouvelle colonne, crée une autre colonne qui nous donne la consommation journalière moyenne de la période.

5) Merci d'ajouter également une colonne qui donne, pour chaque antenne, le nombre de factures dont on dispose au total. Pas grave si l'information se répète à chaque ligne pour une même antenne.

6) Et information bonus si tu y arrives : les équipes aimeraient beaucoup avoir une liste de toutes les antennes avec, pour chaque antenne, le coefficient de variation de la consommation. Cela permettra d'avoir une idée, pour chaque antenne, de la dispersion de sa consommation d'énergie.

7) Enfin, tu dois exporter ces deux fichiers obtenus pour pouvoir l'envoyer aux équipes de l'opérateur et leur demander si c'est bien cela qu'ils attendaient de toi.

3. Rendu attendu

    Un fichier .ipynb qui contient l'ensemble de tes analyses.
    Le fichier csv final, beaucoup plus clean et exploitable par les équipes de comptabilité. Et si tu as réussi cette étape, l'autre fichier csv qui donne la liste des coefficients de variation.



In [16]:
import re
import pandas as pd
import numpy as np
import csv

In [10]:
# "|" en ";"
with open('Projet_1/Invoice_20201220.csv', 'r') as file:
    file_csv = file.read().replace('|', ';')
    with open('Projet_1/Invoice_20201220_v1.csv', 'w') as f:
        f.write(file_csv)

1) Le nom d'une antenne a un format bien précis : il est toujours composé de 4 chiffres et de deux lettres. On te demande de retirer tout autre caractère de la colonne "SITE_NAME".

In [43]:
def df_clean_col_site_name(name):
        # une string en array
        name = str(name).split(" ")
        # là on ne prend que (1563BB)
        name = name[1]
        # puis on retire autour toute parenthèse
        name = re.sub("[()]", "", name)
        return name

with open('Projet_1/Invoice_20201220_v1.csv', 'r') as file:
    df = pd.read_csv(file, sep=';')
    # modifier 'SITE_NAME' avec fonction df_clean_col_site_name pour chaque valeur
    df['SITE_NAME'] = df['SITE_NAME'].apply(df_clean_col_site_name)
    print(df['SITE_NAME'])

0        0001BB
1        0001BB
2        0001BB
3        0001BB
4        0001BB
          ...  
51427    0632KO
51428    0632KO
51429    0632KO
51430    0632KO
51431    1203KO
Name: SITE_NAME, Length: 51432, dtype: object


2) On te demande de supprimer la colonne "INVOICE_NAME" qui n'apporte rien aux équipes.

In [44]:
remove_col = ['INVOICE_NAME']
df.drop(remove_col, axis=1, inplace= True)
print(df)

      SITE_NAME   INVOICE_NAME       BEGIN         END KWH_PERIOD PERIOD_EUR
0        0001BB     1300082549  01/01/2018  31/01/2018      2 447     316,46
1        0001BB     1300082549  01/02/2018  28/02/2018      2 211     286,82
2        0001BB     1300082549  01/03/2018  31/03/2018      2 450     317,32
3        0001BB     1300082549  01/04/2018  30/04/2018      2 431     315,00
4        0001BB     1300082549  01/05/2018  31/05/2018      2 574     333,37
...         ...            ...         ...         ...        ...        ...
51427    0632KO  FV1/055100030  30/08/2019  31/12/2019      3 028     397,18
51428    0632KO      055100058  01/01/2020  31/03/2020      2 163     283,57
51429    0632KO      055100113  01/04/2020  30/06/2020      2 160     312,55
51430    0632KO      055100168  01/07/2020  30/09/2020      2 230     294,07
51431    1203KO     7220278453  27/09/2019  31/12/2019      4 745     681,96

[51432 rows x 6 columns]
      SITE_NAME       BEGIN         END KWH_PERIOD

3) Il y a des antennes pour lesquelles on a des factures mensuelles tandis que pour d'autres, on les reçoit moins régulièrement (trimestre, semestre, année). Ajoute une colonne à ton tableau qui calcule le nombre de jours entre le début de la période de facturation et la fin de la période de facturation.

In [78]:
from dateutil.parser import parse
from datetime import datetime
from datetime import date

def change_str_date(beg ,end):
    in_date_beg = datetime.strptime(beg, '%d/%m/%Y')
    in_date_end = datetime.strptime(end, '%d/%m/%Y')
    number = in_date_end - in_date_beg
    return(number.days)

df_period = df.loc[:, ('BEGIN', 'END')]

df_period['DAYS'] = df_period.apply(lambda x: change_str_date(x.BEGIN, x.END), axis=1)
print(df_period)

            BEGIN         END  DAYS
0      01/01/2018  31/01/2018    30
1      01/02/2018  28/02/2018    27
2      01/03/2018  31/03/2018    30
3      01/04/2018  30/04/2018    29
4      01/05/2018  31/05/2018    30
...           ...         ...   ...
51427  30/08/2019  31/12/2019   123
51428  01/01/2020  31/03/2020    90
51429  01/04/2020  30/06/2020    90
51430  01/07/2020  30/09/2020    91
51431  27/09/2019  31/12/2019    95

[51432 rows x 3 columns]


4) A partir de cette nouvelle colonne, crée une autre colonne qui nous donne la consommation journalière moyenne de la période.

In [86]:
def period_mean(days, kwh):
    if int(days) != 0:
        mean = int(kwh) / int(days)
    else:
        mean = 0
    return mean

df_period['KWH_PERIOD'] = df['KWH_PERIOD'].str.replace(" ", "").astype(int)
print(df_period)


df_period['PERIOD_CONS'] = df_period.apply(lambda x: period_mean(x.DAYS, x.KWH_PERIOD), axis=1)

print(df_period)



            BEGIN         END  DAYS  KWH_PERIOD  PERIOD_CONS
0      01/01/2018  31/01/2018    30        2447    81.566667
1      01/02/2018  28/02/2018    27        2211    81.888889
2      01/03/2018  31/03/2018    30        2450    81.666667
3      01/04/2018  30/04/2018    29        2431    83.827586
4      01/05/2018  31/05/2018    30        2574    85.800000
...           ...         ...   ...         ...          ...
51427  30/08/2019  31/12/2019   123        3028    24.617886
51428  01/01/2020  31/03/2020    90        2163    24.033333
51429  01/04/2020  30/06/2020    90        2160    24.000000
51430  01/07/2020  30/09/2020    91        2230    24.505495
51431  27/09/2019  31/12/2019    95        4745    49.947368

[51432 rows x 5 columns]
            BEGIN         END  DAYS  KWH_PERIOD  PERIOD_CONS
0      01/01/2018  31/01/2018    30        2447    81.566667
1      01/02/2018  28/02/2018    27        2211    81.888889
2      01/03/2018  31/03/2018    30        2450    81.66666

In [89]:
print(df_period.loc[(df_period['PERIOD_CONS'] == 0) & (df_period['DAYS'] == 0 )])

            BEGIN         END  DAYS  KWH_PERIOD  PERIOD_CONS
12117  01/09/2020  01/09/2020     0        1903          0.0
48646  01/01/2020  01/01/2020     0        1163          0.0


5) Merci d'ajouter également une colonne qui donne, pour chaque antenne, le nombre de factures dont on dispose au total. Pas grave si l'information se répète à chaque ligne pour une même antenne.

In [99]:
df['FACT_NBR'] = df.groupby('SITE_NAME')['SITE_NAME'].transform('count')
print(df)

      SITE_NAME       BEGIN         END KWH_PERIOD PERIOD_EUR      period  \
0        0001BB  01/01/2018  31/01/2018      2 447     316,46  31/01/2018   
1        0001BB  01/02/2018  28/02/2018      2 211     286,82  28/02/2018   
2        0001BB  01/03/2018  31/03/2018      2 450     317,32  31/03/2018   
3        0001BB  01/04/2018  30/04/2018      2 431     315,00  30/04/2018   
4        0001BB  01/05/2018  31/05/2018      2 574     333,37  31/05/2018   
...         ...         ...         ...        ...        ...         ...   
51427    0632KO  30/08/2019  31/12/2019      3 028     397,18  31/12/2019   
51428    0632KO  01/01/2020  31/03/2020      2 163     283,57  31/03/2020   
51429    0632KO  01/04/2020  30/06/2020      2 160     312,55  30/06/2020   
51430    0632KO  01/07/2020  30/09/2020      2 230     294,07  30/09/2020   
51431    1203KO  27/09/2019  31/12/2019      4 745     681,96  31/12/2019   

       FACT_NBR  
0            35  
1            35  
2            35  
3  

6) Et information bonus si tu y arrives : les équipes aimeraient beaucoup avoir une liste de toutes les antennes avec, pour chaque antenne, le coefficient de variation de la consommation. Cela permettra d'avoir une idée, pour chaque antenne, de la dispersion de sa consommation d'énergie.

7) Enfin, tu dois exporter ces deux fichiers obtenus pour pouvoir l'envoyer aux équipes de l'opérateur et leur demander si c'est bien cela qu'ils attendaient de toi.

In [None]:
# DataFrame convertie
dt.to_csv("Invoice_20201220_end.csv", index=False)

# Analysons la qualité de l'air 💨💨

## Analysons la qualité de l'air 💨💨

### 1. Introduction

Après ta mission chez l'opérateur de télécoms, tu as voulu changer d'univers et rejoindre le monde des ONGs. Tu as trouvé un poste chez OpenAQ, une organisation à but non lucratif qui permet aux communautés du monde entier de purifier leur air en harmonisant, en partageant et en utilisant des données ouvertes sur la qualité de l'air.

Ils te préviennent tout de suite que l'enjeu principal n'est pas forcément de collecter les données mais surtout de réussir à les harmoniser. C'est en mettant l'ensemble des données collectées au même format qu'on peut ensuite réaliser des comparaisons intéressantes 🌎

### 2. Le projet

OpenAQ souhaiterait mettre en ligne sur son site un fichier qui permet de comparer des mesures de l'air récentes, relevées sur un jour donné, partout dans le monde. Pour cela, on te demande de nettoyer les données dont on dispose pour l'instant.

Tu as reçu un mail de ton manager qui te dit : "Télécharge le jeu de données disponible sur la plateforme Opendatasoft (ici si le lien n'est plus à jour). Et renvoie-moi d'ici la fin de la journée un fichier csv qui ne comporte aucune erreur, ni information non exploitable. Merci et bon courage."

Comme le message est un peu lapidaire, on va te donner quelques informations supplémentaires. Regarde sur l'onglet Informations du jeu de données, deux disclaimers sont énoncés :

- Some records contain encoding issues on specific characters; those issues are present in the raw API data and were not corrected.
- Some dates are set in the future: those issues also come from the original data and were not corrected 🥴

Cela te donne une idée de ce qu'il va falloir nettoyer en premier lieu !

Si tu souhaites plus de précision dans les consignes, voici les étapes qu'on te conseille de suivre pour arriver à tes fins :

1 - Supprimer les données qui ne concernent pas la journée du 06-08-2021.
2 - Supprimer les données qui sont illisibles et pour lesquelles on ne comprend pas la ville concernée.
3 - Pour chaque polluant, vérifier qu'on n'a qu'une seule mesure utilisée. Autrement, supprimer les données qui correspondent à la mesure minoritaire ou moins cohérente.
4 - Regarder s'il y a des valeurs aberrantes ou des problèmes par rapport à notre objectif final (pouvoir comparer des mesures sur un maximum de pays) et noter ces aspects dans un fichier texte.

### 3. Rendu attendu

- Le fichier csv qui ne comporte aucune erreur ni information non exploitable.
- Un fichier txt qui précise les limites du fichier final.

In [1]:
import pandas as pd
import numpy as np
import csv

In [2]:
with open('Projet_2/openaq_1.csv', 'r', encoding='ascii', errors='ignore') as file:
    df_air = pd.read_csv(file, sep=';')
    print(df_air)

      Country Code                     City              Location  \
0               DE             Manfred Lotz  Cottbus, W.-Klz-Str.   
1               ES         Castelln/Castell               ES1969A   
2               ES         Valencia/Valncia               ES1885A   
3               ES         Alicante/Alacant               ES2008A   
4               ES         Alicante/Alacant               ES1968A   
...            ...                      ...                   ...   
40446           US               BERNALILLO     WESTSIDE - 9 Mile   
40447           US                Asheville           Skyland DRR   
40448           US              San Antonio  San Antonio IH35 C10   
40449           US  Cleveland-Elyria-Mentor   Cleveland Near Road   
40450           US  Seattle-Tacoma-Bellevue        Auburn M St SE   

                     Coordinates Pollutant  Source Name Unit  Value  \
0             51.75413,14.325549     PM2.5  EEA Germany  g/m   21.7   
1      39.8236111095,-0.24444

1 - Supprimer les données qui ne concernent pas la journée du 06-08-2021.

In [3]:
from datetime import datetime
from datetime import date
from datetime import timezone

def convert(date):
    if date[0: 10] == "2021-08-06":
        return "2021-08-06"
    else:
        return ""
    
# DONOVAN
#df_air['Last Updated']=pd.to_datetime(df_air['Last Updated'], utc=True).dt.tz_convert(None)
#df_air = df_air.loc[(df_air['Last Updated'] >= '2021-08-06 00:00:00') & (df_air['Last Updated'] < '2021-08-07 00:00:00')]

#df_date = df_air['Last Updated'].apply(convert)
df_air['Last Updated'] = df_air['Last Updated'].apply(convert)
#no_date = df_air[(df_air['Last Updated'].str.contains("2021-08-06"))]

#no_date = df_air[df_air.stack().str.contains('|'.join("2021-08-06")).any(level=0)]
df_air = df_air[(df_air['Last Updated'] == "2021-08-06")]
print(df_air)


      Country Code              City                       Location  \
2               ES  Valencia/Valncia                        ES1885A   
3               ES  Alicante/Alacant                        ES2008A   
4               ES  Alicante/Alacant                        ES1968A   
5               ES  Valencia/Valncia                        ES1911A   
6               ES  Valencia/Valncia                        ES1185A   
...            ...               ...                            ...   
40408           TH           Bangkok              Din Dang, Bangkok   
40409           TH      Samut Prakan        City Hall, Samut Prakan   
40410           TH      Samut Prakan        City Hall, Samut Prakan   
40411           TH      Chachoengsao  Municipality Office Tungsadao   
40412           TH      Chachoengsao  Municipality Office Tungsadao   

                     Coordinates Pollutant Source Name Unit    Value  \
2      39.4802777695,-0.33638888       SO2   EEA Spain  g/m    5.000   
3  

Voir l'ouverture du fichier en ascii pour le '2 - Supprimer les données qui sont illisibles et pour lesquelles on ne comprend pas la ville concernée.'

In [4]:
# des lignes seulement type String
df_air =  df_air.loc[df_air['City'].apply(type) == str]

# aucun chiffre
df_air = df_air[~df_air['City'].str.contains('0|1|2|3|4|5|6|7|8|9')]

df_air = df_air.dropna()

print(df_air)

      Country Code              City                       Location  \
2               ES  Valencia/Valncia                        ES1885A   
3               ES  Alicante/Alacant                        ES2008A   
4               ES  Alicante/Alacant                        ES1968A   
5               ES  Valencia/Valncia                        ES1911A   
6               ES  Valencia/Valncia                        ES1185A   
...            ...               ...                            ...   
40408           TH           Bangkok              Din Dang, Bangkok   
40409           TH      Samut Prakan        City Hall, Samut Prakan   
40410           TH      Samut Prakan        City Hall, Samut Prakan   
40411           TH      Chachoengsao  Municipality Office Tungsadao   
40412           TH      Chachoengsao  Municipality Office Tungsadao   

                     Coordinates Pollutant Source Name Unit    Value  \
2      39.4802777695,-0.33638888       SO2   EEA Spain  g/m    5.000   
3  

3 - Pour chaque polluant, vérifier qu'on n'a qu'une seule mesure utilisée. Autrement, supprimer les données qui correspondent à la mesure minoritaire ou moins cohérente.

In [5]:
def gm_count(unit):
    unit = unit[df_air['Unit'].str.contains('g/m')]
    return unit.count()

def ppm_count(unit):
    unit = unit[df_air['Unit'].str.contains('ppm')]
    return unit.count()

def µgm3_count(unit):
    unit = unit[df_air['Unit'].str.contains('µg/m³')]
    return unit.count()

def best_unit(element):
    e0 = gm_count(element)[0]
    e1 = ppm_count(element)[0]
    e2 = µgm3_count(element)[0]
    if e0 > e1 & e0 > e2:
        return "gm"
    elif e1 > e0 & e1 > e2:
        return "ppm"
    else:
        return "µg/m³"

# où sont les mesures majoritaires pour chaque polluant?
elements = df_air[['Pollutant', 'Unit', 'Value']]
so2 = elements[df_air['Pollutant'].str.contains('SO2')]
pm25 = elements[df_air['Pollutant'].str.contains('PM2.5')]
o3 = elements[df_air['Pollutant'].str.contains('O3')]
pm10 = elements[df_air['Pollutant'].str.contains('PM10')]
no2 = elements[df_air['Pollutant'].str.contains('NO2')]


print(best_unit(so2))

# unitée qui est majoritaire on garde

gm


  
  
  # Remove the CWD from sys.path while we load stuff.


In [6]:
df_air.to_csv("openaq_half.csv", index=False)