<a href="https://colab.research.google.com/github/vinc-r/projet-carburant/blob/master/explo_donn%C3%A9es_Vincent_Rosset_1%262.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Études des pompes à essence en France
Étude réalisée par Vincent Rosset, commencée le 12/03/2020

Vincent.Rosset@polytech-lille.net

---




*sources : [https://www.prix-carburants.gouv.fr/rubrique/opendata/](https://www.prix-carburants.gouv.fr/rubrique/opendata/)*

Le site gouvernemental des prix des carburants met à disposition de manière libre et gratuite (Open data) les données relatives aux prix des carburants. Ces données sont référencées sur la plate-forme des données publiques de l’État (www.data.gouv.fr) et sont fournies sous la "[Licence ouverte / Open licence](https://wiki.data.gouv.fr/wiki/Licence_Ouverte_/_Open_Licence)".



## Première feuille : Conversion des xml en csv

La première feuille lit l'ensemble des XML représentant les données étudiés de manière hierarchique et sauvegarde ces données avec le format CSV.
La décompression de ces fichiers est réalisée manuellement.

### Préambule

#### Fonctions utilitaires

Fonctions utilitaires personnalisées

In [0]:
# Timer property decorator
# to get execution time of a function 
def timer(func):
    def f(*args, **kwargs):
        before = time()
        rv = func(*args, **kwargs)
        after = time()
        print('\n\t\t\t>>>',func.__name__,'execution time:', 
              round(after - before, 4),'secs. <<<')
        return rv
    f.__name__ = func.__name__
    return f

In [0]:
def set_logging_level(log, log_level="INFO"):
    if log_level == "DEBUG":
        log.basicConfig(level=log.DEBUG)
    elif log_level == "INFO":
        log.basicConfig(level=log.INFO)
    elif log_level == "WARNING":
        log.basicConfig(level=log.WARNING)
    elif log_level == "ERROR":
        log.basicConfig(level=log.ERROR)
    elif log_level == "CRITICAL":
        log.basicConfig(level=log.CRITICAL)
    else:
        log.basicConfig(level=log.NOTSET)
    log.info(" > log ready")
    log.debug(" > log level debug")

In [0]:
def save_file(file_name):
    bucket = client.get_bucket(BUCKET_PERSONAL)
    blob = bucket.blob(file_name)
    blob.upload_from_filename("/tmp/" + file_name)
    log.info(" > File : " + file_name + " > SAVED")

In [0]:
def download_datasets(year, bucket):
    blob_pathname = "PrixCarburants_annuel_" + str(year) + ".zip"
    blob = bucket.blob(blob_pathname)
    return ZipFile(BytesIO(blob.download_as_string()))

In [0]:
def generator_zip_file(client):
    bucket = client.bucket(BUCKET_DATASETS)
    for year in range(START_YEAR,END_YEAR+1):
        zip_ref = download_datasets(year, bucket)    
        [xml_filename] = zip_ref.namelist()
        yield (zip_ref.open(xml_filename),year)
        zip_ref.close()

In [0]:
def open_csv(csv_name, fnames):
    f = open(csv_name, 'w', encoding='utf-8')
    file_csv = csv.DictWriter(f, fieldnames=fnames)
    file_csv.writeheader()
    log.info(" > File : " + f.name + " > OPEN")
    return file_csv, f

#### Variables globales

In [0]:
# Start year
START_YEAR = 2007

# End year
END_YEAR = 2019

PATH_TO_CSV_FILES = "/tmp/"

# choose log level
# Niveau : "DEBUG", "INFO", "WARNING", "ERROR", "CRITICAL"
# Attention avant de choisir le niveau DEBUG
#       cela génère de très importantes sorties
LOG_LEVEL = "INFO" 

BUCKET_DATASETS = "essence-dataset-eda"
BUCKET_PERSONAL = "eda-essence-vincent"

import json
SERVICE_ACCOUNT = json.loads(r"""{
  "type": "service_account",
  "project_id": "datascience-265115",
  "private_key_id": "dadc858decd39ed88a7f1349d9a48730621ad5bb",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvAIBADANBgkqhkiG9w0BAQEFAASCBKYwggSiAgEAAoIBAQClHzUNP77q+mm7\nuz+Glk9xyj3KPSt4tlBTtTyZOPSCgrzFqNsGSMXMDy3cEtpK236yz+enNHDzu6mB\nFP0ZOhIH9YQpEwpfWxGWcv3CuQ0pzB+8Jz6WsGFDY7z4PneYOZKLZsvmlOheVe5T\nTO+ll86FDgr0ZfdoDTWZY4tQnHBXehu9Pay9UfGJhXKngfz8CAizwx4gb5yPlroV\n4xtkGYsdr7DWNYEpfnUwRClCvk95cogjbnQG0Ozxq5KMxBuazarov2oE4c0/VbFo\nJmAEFMsLOXQacXxcso7ui0cM9VPF/SiD5x3y9WPZsCKT8K6e46eliDi1BC+wo/KR\npiFCGk+RAgMBAAECggEABKxj0SCOH+KvQirYLxAbRsRTeCE/1Rps3tek8828vuJi\nIyKGs3B1F7PQx5cpgj+g4AD6JJ17emyD7UU5riB6gOrqHwr8ysreLjDKPZwE8ztF\npSrDrtpmYFTG9Qw4kJCFlSg3SmsJwhzCwm0NpdVMeS/W78ighluEWjdq6qDI3bLp\neAKfxBL1A0LVSmemVVn0CazhZYig7qqvHdhKRhI35dwGyvvH6pCWUEykVR0/Kd06\nXrBfASSVbggQZPdJDCLYB4jbQObMjZcamIsfHf5QZyzE6lLrQH54wKGgPvpAMFNx\nA/Z3gQMyrVrn1orAto+qZi01KNS8MhKIBSoOGDekeQKBgQDlEpeB9b4ixUItbJs2\n6UO0z7ziv9aEdWmPoxI401lqdO+GkDGYaCzTKDqC1NiAn7nGZ9BPbrGTOcSXy6To\ncLzZn9OwdDbHaslwwaC6FAquMRg+Q89HzoVNtZn458YtTcwcQdPgDLyrZWoaIFgs\nLXqfNcotl7IQHsARJXE6UXdSiQKBgQC4iCrHQssw/Fo+JCeOVRzGodcf31xslAcA\nChw1GaCuhw0Ng2eEk+lcw4CVVPU1xuFjFWFa8+ywZJgQBZHRuDOKNPERUvfeY/4S\nXFf6SIQzdBiJlU54vyQhCJXRhV0WEdXyENdDAjpZu/pf0nN4Ga8mX3n0rotGZVT0\nHSpk/v3yyQKBgBC8Tv1bqsx3hOI0sRJN8HhhRPd79Hww58lqrIYiSsIQUP+PwU/V\nLJEwuzWbv0WGZdgs9XcYKzkKW2aLpjylH+b2Wkzl8KqZDqaCPu/ZTv5y78Z8xcQF\nPo/y2JDqvfvJV0QpOwV/aLlM63eFLWvs1qyTDXZPQt8SoA2goqkUEpehAoGAKjIo\n5gul/vuVfyQxT2CzBdC4Knee4M0wlJe7P4Eutvn2yCJGJ5DTCf1Ch+M3dyaVH10i\nN/QTKXq3MuKzJ2uhjXbxsO5x846V6IjpLTgr0sA3ZC6aFQ5QKqWV7KU8VfGaJJIp\nRw9ZXG+ZnxO2h74HyRSIBKVs/5noRTHuIc4VL9ECgYBr+2UMWe8IAX5FP+MFVucX\nofLkeJt4atpPWy+JghWm2iHDWak/NUPjGqQKIzY/HIkHG68ZBpp3g7JCPvJF6qRt\nCeOjRQno5K43DNHKTh2VDxEoa/OFKnZn//qig4QLpidSXyJDi2eIzYE+mR5//COX\n9jIJQNLZJFokGOs9iU0GVA==\n-----END PRIVATE KEY-----\n",
  "client_email": "eda-essence-vincent@datascience-265115.iam.gserviceaccount.com",
  "client_id": "104043091346409516515",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/eda-essence-vincent%40datascience-265115.iam.gserviceaccount.com"
}""")

from google.oauth2 import service_account
from google.cloud.storage import client
credentials = service_account.Credentials.from_service_account_info(
    SERVICE_ACCOUNT,
    scopes=["https://www.googleapis.com/auth/cloud-platform"],
)

client = client.Client(
    credentials=credentials,
    project=credentials.project_id,
)

#### Import packages

In [0]:
import csv
from time import time
import io
from io import BytesIO, StringIO
from zipfile import ZipFile
import xml.sax
import os
import pandas as pd
import numpy as np

import logging as log
set_logging_level(log, log_level=LOG_LEVEL)

INFO:root: > log ready


### Lecture des fichiers zippés à partir de Google Storage

Création d'une classe à laquelle on apprend comment le jeu de données doit être lu.

In [0]:
class StreamHandler(xml.sax.handler.ContentHandler):

    def __init__(self, year, pdv_csv, prix_csv, 
                 ouverture_csv, services_csv, 
                 fermeture_csv, rupture_csv):
        # csv d'écriture
        self.pdv_csv = pdv_csv
        self.prix_csv = prix_csv
        self.ouverture_csv = ouverture_csv
        self.services_csv = services_csv
        self.fermeture_csv = fermeture_csv
        self.rupture_csv = rupture_csv
        # dictionnaire de stockage des info pdv
        self.found = {
            "pdv" : {}, "adresse" : "", "ville" : "", "ouverture" : {},
            "jour" : {}, "horaire" : {}, "service" : "",
            "prix" : {}, "fermeture" : {}, "rupture" : {}
        }
        # tag actuel ouvert
        self.actual_tag = None
        # année en cours
        self.year = year
        log.info(" > StreamHandler __init__ > DONE")

    def startElement(self, name, attrs):
        """
        Appelé à chaque tag ouvrant, par exemple <coucou>. 
        Les attributs du tag sont disponibles sous forme de dictionnaire.
        Ils sont stockés ensuite selon le nom du tag.
        """
        # si le tag est reconnu => traitement
        if name in self.found.keys():
            # si le tag attend des attribus => stockage des attribus
            if type(self.found[name]) == dict:
                log.debug(" > start tag > " + name + \
                          " : " + str(dict(attrs.items())))
                self.found[name] = dict(attrs.items())
            else:
                log.debug(" > start tag > " + name)
            # MAJ tag actuel ouvert
            self.actual_tag = name

    def characters(self, content):
        """
        Appelé à chaque texte entre les tags, par exemple pour 
        <coucou>ICI</coucou>AUSSI<tralala/> la méthode sera appelé 
        pour ICI puis pour AUSSI
        """
        # concatenation de tous les eléments de text
        # pour éviter les séparations indésirées des caratères spéciaux
        if self.actual_tag is not None and \
        type(self.found[self.actual_tag]) == str:
            self.found[self.actual_tag] += content
            log.debug(" > content : " + self.found[self.actual_tag])
        
    def endElement(self, name):
        """
        Appelé à chaque tag fermant, par exemple </coucou>
        """
        # écriture des jours de services
        if name == "service":
            d = {"id_pdv" : self.found["pdv"]["id"],
                 "year" : self.year,
                 "service" : self.found[name]}
            log.debug(" > write service row : " + str(d))
            self.services_csv.writerow(d)
            self.found[name] = ""

        # écriture des jours de fermeture
        # format des jours d'ouverture pour années 2007 à 2017 inclu
        elif name == "ouverture" and len(self.found[name]) > 0:
            for day in ["Lundi", "Mardi", "Mercredi", 
                        "Jeudi", "Vendredi", "Samedi", "Dimanche"]:
                if day not in self.found[name]:
                    d = {"id_pdv" : self.found["pdv"]["id"],
                         "year" : self.year,
                         "debut" : self.found[name]["debut"],
                         "fin" : self.found[name]["fin"],
                         "jour" : day}
                    log.debug(" > write day on row : " + str(d))
                    self.ouverture_csv.writerow(d)

        # nouveau format des ouverture à partir de 2018
        # jour off non pris en compte car sans taf horaire
        elif name == "horaire":
            d = {"id_pdv" : self.found["pdv"]["id"],
                "year" : self.year,
                "debut" : self.found[name]["ouverture"],
                "fin" : self.found[name]["fermeture"],
                "jour" : self.found["jour"]["nom"]}
            log.debug(" > write day on row : " + str(d))
            self.ouverture_csv.writerow(d)
            self.found[name] = {}

        elif name == "jour":
            # Uniquement RAZ du dictionnaire
            # info déjà écrite avec horaire
            # non RAZ avec horaire car il peut y avoir plusieurs horaire / jour
            self.found[name] = {}

        # type d'écriture identique sur les fichiers suivant
        # => simplification code par boucle
        # écriture des prix, fermeture, rupture
        for f, n in ([self.prix_csv, "prix"],
                     [self.fermeture_csv, "fermeture"],
                     [self.rupture_csv, "rupture"]):
            if name == n and len(self.found[name]) > 0:
                self.found[n].update({
                    "id_pdv" : self.found["pdv"]["id"],
                    "year" : self.year})
                log.debug(" > write " + n + " row : " + str(self.found[n]))
                f.writerow(self.found[n])
                self.found[n] = {}

        # si c'est une balise pdv qui est fermée,
        # RAZ dictionnaire et écriture pdv
        if name == "pdv":
            log.debug(" > write pdv row : " + str(self.found["ouverture"]))
            self.found["pdv"].update({
                "year" : self.year,
                "adresse": self.found["adresse"],
                "ville" : self.found["ville"]
            })
            log.debug(" > write pdv row : " + str(self.found["pdv"]))
            self.pdv_csv.writerow(self.found["pdv"])
            # RAZ du dictionnaire de stockage
            self.found = {
                "pdv" : {}, "adresse" : "", "ville" : "", "ouverture" : {},
                "jour" : {}, "horaire" : {}, "service" : "",
                "prix" : {}, "fermeture" : {}, "rupture" : {}
            }
            log.debug(" > RAZ found elements")
        # RAZ du tag
        self.actual_tag = None

Fonction principale :
1.   Ouverture des cvs
2.   création du parser et du handler
3.   parcours des xml sur toutes les années
4.   écriture ligne par ligne dans les csv
5.   fermeture des csv



La propriété *@timer* permet d'afficher la durée d'exécution de la fonction.

In [0]:
@timer
def export_xml_to_csv(client):

    # création dossier tmp où seront stockés les csv
    if not os.path.exists(PATH_TO_CSV_FILES):
        os.makedirs(PATH_TO_CSV_FILES)
        log.info(" > Folder : " + PATH_TO_CSV_FILES + " > CREATED")

    # ouverture des csv
    pdv_csv, pdv_f = open_csv(PATH_TO_CSV_FILES + "pdv.csv", 
                            ['id', 'year', 'latitude', 'longitude', 'cp', 
                            'pop', 'adresse', 'ville'])

    prix_csv, prix_f = open_csv(PATH_TO_CSV_FILES + "prix.csv", 
                                ['id_pdv', 'year', 'nom', 
                                 'id', 'maj', 'valeur'])

    ouverture_csv, ouverture_f = open_csv(PATH_TO_CSV_FILES + "ouverture.csv", 
                                          ['id_pdv', 'year', 
                                           'jour', 'debut', 'fin'])

    services_csv, services_f = open_csv(PATH_TO_CSV_FILES + "services.csv", 
                                        ['id_pdv', 'year', 'service'])

    fermeture_csv, fermeture_f = open_csv(PATH_TO_CSV_FILES + "fermeture.csv",
                                        ['id_pdv', 'year', 
                                        'type', "debut", "fin"])

    rupture_csv, rupture_f = open_csv(PATH_TO_CSV_FILES + "rupture.csv",
                                    ['id_pdv', 'year', 
                                    'id', "nom", "debut", "fin"])

    parser = xml.sax.make_parser()
    handler = StreamHandler(START_YEAR, pdv_csv, prix_csv, ouverture_csv,
                            services_csv, fermeture_csv, rupture_csv)
    log.info(" > Handler > READY")
    parser.setContentHandler(handler)
    log.info(" > Parser > READY")

    for file,year in generator_zip_file(client):
        log.info(" > Year : " + str(year) + " > file found : " + str(file))
        # MAJ year sur handler
        handler.year = year
        # lecture xml
        my_xml = StringIO(file.read().decode("utf-8"))
        # perser xml
        parser.parse(my_xml)
        # fermer fichier de lecture
        file.close()
        log.info(" > Year : " + str(year) + " > DONE")

    # fermeture de tous les fichiers d'écriture
    for f in [pdv_f, prix_f, ouverture_f, services_f, fermeture_f, rupture_f]:
        f.close()
        log.info(" > File : " + f.name + " > CLOSED")

Appel fonction principale

In [0]:
export_xml_to_csv(client)

INFO:root: > File : /tmp/pdv.csv > OPEN
INFO:root: > File : /tmp/prix.csv > OPEN
INFO:root: > File : /tmp/ouverture.csv > OPEN
INFO:root: > File : /tmp/services.csv > OPEN
INFO:root: > File : /tmp/fermeture.csv > OPEN
INFO:root: > File : /tmp/rupture.csv > OPEN
INFO:root: > StreamHandler __init__ > DONE
INFO:root: > Handler > READY
INFO:root: > Parser > READY
INFO:root: > Year : 2007 > file found : <zipfile.ZipExtFile name='PrixCarburants_annuel_2007.xml' mode='r' compress_type=deflate>
INFO:root: > Year : 2007 > DONE
INFO:root: > Year : 2008 > file found : <zipfile.ZipExtFile name='PrixCarburants_annuel_2008.xml' mode='r' compress_type=deflate>
INFO:root: > Year : 2008 > DONE
INFO:root: > Year : 2009 > file found : <zipfile.ZipExtFile name='PrixCarburants_annuel_2009.xml' mode='r' compress_type=deflate>
INFO:root: > Year : 2009 > DONE
INFO:root: > Year : 2010 > file found : <zipfile.ZipExtFile name='PrixCarburants_annuel_2010.xml' mode='r' compress_type=deflate>
INFO:root: > Year : 20


			>>> export_xml_to_csv execution time: 606.5188 secs. <<<


Vérification des volumétries

In [0]:
!ls -al /tmp

total 1605948
drwxrwxrwt 1 root root       4096 Mar 19 12:43 .
drwxr-xr-x 1 root root       4096 Mar 19 12:40 ..
-rw-r--r-- 1 root root     400537 Mar 19 12:53 fermeture.csv
-rw-r--r-- 1 root root   30336725 Mar 19 12:53 ouverture.csv
-rw-r--r-- 1 root root   10634597 Mar 19 12:53 pdv.csv
-rw-r--r-- 1 root root 1561849571 Mar 19 12:53 prix.csv
-rw-r--r-- 1 root root   10959466 Mar 19 12:53 rupture.csv
-rw-r--r-- 1 root root   30275469 Mar 19 12:53 services.csv


## Seconde feuille: Typage des données

### Lecture des fichiers avec le meilleur typage

Pour chaque fichier, nous réalisons une première lecture en brut des données, sans chercher à améliorer le typage. Cela permet ensuite de rechercher pour chaque varable lue le meilleur typage et le gain.

La comparaiosn entre avant et après le typage sera alors plus flagrante.

#### Fichier pdv

##### Première lecture

In [0]:
df_pdv = pd.read_csv("/tmp/pdv.csv")
df_pdv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140980 entries, 0 to 140979
Data columns (total 8 columns):
id           140980 non-null int64
year         140980 non-null int64
latitude     139904 non-null float64
longitude    139927 non-null float64
cp           140980 non-null object
pop          140980 non-null object
adresse      140978 non-null object
ville        140977 non-null object
dtypes: float64(2), int64(2), object(4)
memory usage: 8.6+ MB


  interactivity=interactivity, compiler=compiler, result=result)


##### Deuxième lecture

In [0]:
df_pdv = pd.read_csv("/tmp/pdv.csv", 
                     dtype={'id': np.int32, 
                            'year': np.int16, 
                            'cp': 'category', 
                            'pop': 'category', 
                            'adresse': 'category', 
                            'ville': 'category'})
df_pdv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140980 entries, 0 to 140979
Data columns (total 8 columns):
id           140980 non-null int32
year         140980 non-null int16
latitude     139904 non-null float64
longitude    139927 non-null float64
cp           140980 non-null category
pop          140980 non-null category
adresse      140978 non-null category
ville        140977 non-null category
dtypes: category(4), float64(2), int16(1), int32(1)
memory usage: 5.2 MB


##### Sauvergarde sur GCS

In [0]:
df_pdv.to_pickle("/tmp/df_pdv")
log.info(" > Package : df_pdv > CREATED")
save_file("df_pdv")
del df_pdv
log.info(" > DataFrame : df_pdv > DELETED")

INFO:root: > Package : df_pdv > CREATED
INFO:root: > File : df_pdv > SAVED
INFO:root: > DataFrame : df_pdv > DELETED


#### Fichier prix

##### Première lecture

In [0]:
df_prix = pd.read_csv("/tmp/prix.csv")
df_prix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31942222 entries, 0 to 31942221
Data columns (total 6 columns):
id_pdv    int64
year      int64
nom       object
id        int64
maj       object
valeur    int64
dtypes: int64(4), object(2)
memory usage: 1.4+ GB


##### Deuxième lecture

In [0]:
df_prix = pd.read_csv("/tmp/prix.csv", 
                      dtype={'id_pdv': np.int32, 
                             'year': np.int16, 
                             'nom': 'category', 
                             'id': np.int8, 
                             'adresse': 'category', 
                             'valeur': np.float64},
                      parse_dates=['maj'])
df_prix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31942222 entries, 0 to 31942221
Data columns (total 6 columns):
id_pdv    int32
year      int16
nom       category
id        int8
maj       datetime64[ns]
valeur    float64
dtypes: category(1), datetime64[ns](1), float64(1), int16(1), int32(1), int8(1)
memory usage: 731.1 MB


##### Sauvegarde sur GCS

In [0]:
df_prix.to_pickle("/tmp/df_prix")
log.info(" > Package : df_prix > CREATED")
save_file("df_prix")
del df_prix
log.info(" > DataFrame : df_prix > DELETED")

INFO:root: > Package : df_prix > CREATED
INFO:root: > File : df_prix > SAVED
INFO:root: > DataFrame : df_prix > DELETED


#### Fichier ouverture

##### Première lecture

In [0]:
df_ouverture = pd.read_csv("/tmp/ouverture.csv")
df_ouverture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 837384 entries, 0 to 837383
Data columns (total 5 columns):
id_pdv    837384 non-null int64
year      837384 non-null int64
jour      837384 non-null object
debut     837384 non-null object
fin       837384 non-null object
dtypes: int64(2), object(3)
memory usage: 31.9+ MB


##### Deuxième lecture

In [0]:
def convert_string_col_to_hour(pd_series_col):
    name = pd_series_col.name
    pd_series_col = pd_series_col.str.replace('.',':')
    # certains pdv ont des secondes indiquées => non pris en compte
    hours = (pd_series_col.str.split(":", expand=True)[0]).astype(int)
    minutes = (pd_series_col.str.split(":", expand=True)[1]).astype(int) / 60
    return pd.Series(hours + minutes, name=name, dtype=np.float32)

In [0]:
df_ouverture = pd.read_csv("/tmp/ouverture.csv", 
                           dtype={'id_pdv': np.int32, 
                                  'year': np.int16, 
                                  'jour': 'category'})
df_ouverture['debut'] = convert_string_col_to_hour(df_ouverture['debut'])
df_ouverture['fin'] = convert_string_col_to_hour(df_ouverture['fin'])
df_ouverture.info()

INFO:numexpr.utils:NumExpr defaulting to 4 threads.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 837384 entries, 0 to 837383
Data columns (total 5 columns):
id_pdv    837384 non-null int32
year      837384 non-null int16
jour      837384 non-null category
debut     837384 non-null float32
fin       837384 non-null float32
dtypes: category(1), float32(2), int16(1), int32(1)
memory usage: 12.0 MB


##### Sauvegarde sur GCS

In [0]:
df_ouverture.to_pickle("/tmp/df_ouverture")
log.info(" > Package : df_ouverture > CREATED")
save_file("df_ouverture")
del df_ouverture
log.info(" > DataFrame : df_ouverture > DELETED")

INFO:root: > Package : df_ouverture > CREATED
INFO:root: > File : df_ouverture > SAVED
INFO:root: > DataFrame : df_ouverture > DELETED


#### Fichier services

##### Première lecture

In [0]:
df_services = pd.read_csv("/tmp/services.csv")
df_services.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 839898 entries, 0 to 839897
Data columns (total 3 columns):
id_pdv     839898 non-null int64
year       839898 non-null int64
service    839898 non-null object
dtypes: int64(2), object(1)
memory usage: 19.2+ MB


##### Deuxième lecture

In [0]:
df_services = pd.read_csv("/tmp/services.csv", 
                          dtype={'id_pdv': np.int32, 
                                 'year': np.int16, 
                                 'service': 'category'})
df_services.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 839898 entries, 0 to 839897
Data columns (total 3 columns):
id_pdv     839898 non-null int32
year       839898 non-null int16
service    839898 non-null category
dtypes: category(1), int16(1), int32(1)
memory usage: 5.6 MB


##### Sauvegarde sur GCS

In [0]:
df_services.to_pickle("/tmp/df_services")
log.info(" > Package : df_services > CREATED")
save_file("df_services")
del df_services
log.info(" > DataFrame : df_services > DELETED")

INFO:root: > Package : df_services > CREATED
INFO:root: > File : df_services > SAVED
INFO:root: > DataFrame : df_services > DELETED


#### Fichier fermeture

##### Première lecture

In [0]:
df_fermeture = pd.read_csv("/tmp/fermeture.csv")
df_fermeture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8851 entries, 0 to 8850
Data columns (total 5 columns):
id_pdv    8851 non-null int64
year      8851 non-null int64
type      8851 non-null object
debut     8851 non-null object
fin       3051 non-null object
dtypes: int64(2), object(3)
memory usage: 345.9+ KB


##### Deuxième lecture

In [0]:
df_fermeture = pd.read_csv("/tmp/fermeture.csv", 
                            dtype={'id_pdv': np.int32, 
                                    'year': np.int16, 
                                    'type': 'category'},
                            parse_dates=['debut', 'fin'])
df_fermeture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8851 entries, 0 to 8850
Data columns (total 5 columns):
id_pdv    8851 non-null int32
year      8851 non-null int16
type      8851 non-null category
debut     8851 non-null datetime64[ns]
fin       3051 non-null datetime64[ns]
dtypes: category(1), datetime64[ns](2), int16(1), int32(1)
memory usage: 198.9 KB


##### Sauvegarde sur GCS

In [0]:
df_fermeture.to_pickle("/tmp/df_fermeture")
log.info(" > Package : df_fermeture > CREATED")
save_file("df_fermeture")
del df_fermeture
log.info(" > DataFrame : df_fermeture > DELETED")

INFO:root: > Package : df_fermeture > CREATED
INFO:root: > File : df_fermeture > SAVED
INFO:root: > DataFrame : df_fermeture > DELETED


#### Fichier rupture

##### Première lecture

In [0]:
df_rupture = pd.read_csv("/tmp/rupture.csv")
df_rupture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211267 entries, 0 to 211266
Data columns (total 6 columns):
id_pdv    211267 non-null int64
year      211267 non-null int64
id        211267 non-null int64
nom       211267 non-null object
debut     211267 non-null object
fin       100608 non-null object
dtypes: int64(3), object(3)
memory usage: 9.7+ MB


##### Deuxième lecture

In [0]:
df_rupture = pd.read_csv("/tmp/rupture.csv", 
                        dtype={'id_pdv': np.int32, 
                               'year': np.int16, 
                               'id' : 'category',
                               'nom' : 'category'},
                        parse_dates=['debut', 'fin'])
# erreur de saisie dans colonne debut
# => parse_dates n'a pas fonctionné car impossible de convertir en datetime
# correction manuelle des 3 erreurs bloquant la conversion en date_time
df_rupture.replace(["0216-03-02T00:03:00", "0016-12-29T00:00:00", 
                        "0216-03-02T00:00:00"],
                   ["2016-03-02T00:03:00", "2016-12-29T00:00:00", 
                        "2016-03-02T00:00:00"],
                   inplace=True)
df_rupture["debut"] = pd.to_datetime(df_rupture["debut"])
df_rupture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211267 entries, 0 to 211266
Data columns (total 6 columns):
id_pdv    211267 non-null int32
year      211267 non-null int16
id        211267 non-null category
nom       211267 non-null category
debut     211267 non-null datetime64[ns]
fin       100608 non-null datetime64[ns]
dtypes: category(2), datetime64[ns](2), int16(1), int32(1)
memory usage: 4.8 MB


##### Sauvegarde sur GCS

In [0]:
df_rupture.to_pickle("/tmp/df_rupture")
log.info(" > Package : df_rupture > CREATED")
save_file("df_rupture")
del df_rupture
log.info(" > DataFrame : df_rupture > DELETED")

INFO:root: > Package : df_rupture > CREATED
INFO:root: > File : df_rupture > SAVED
INFO:root: > DataFrame : df_rupture > DELETED




---


# FIN FEUILLE 1 et 2
[LIEN VERS FEUILLE 3](https://colab.research.google.com/drive/1GK7TAh_qdGoGLDlZE_dv5bYF4B0S0hG0)

---

