# Analyse des jeux de données du verre
Ce document analyse les jeux de données fournies par la CACPL sur la collecte hebdomadaire du verre disponible [ici](<../../data/collecte verre CACPL>)

Il ya 3 jeux de données :
* Données Verre 2017-2018- 2019 janv à nov : données sur la collecte du verre pour 2017 et 2018, et de janvier à novembre 2019
* Verre PAV  décembre 2019 : données sur la collecte du verre de décembre 2019
* Verre PAV 2020 : données sur la collecte du verre pour 2020 (janvier à septembre)



## Importation des librairies

In [1]:
import pandas as pd

## Lecture des fichiers

In [2]:
data171819 = pd.read_excel("../../data/collecte verre CACPL/Données Verre 2017-2018- 2019 janv à nov.xlsx", skiprows=[0,1], usecols="B:L")
data19 = pd.read_excel("../../data/collecte verre CACPL/Verre PAV  décembre 2019.xlsx", skiprows=[0,1,2], usecols="B:F")
data20 = pd.read_excel("../../data/collecte verre CACPL/Verre PAV 2020.xlsx", skiprows=[0,1,2], usecols="B:F")

## Aperçu des fichiers
Les données de 2017 à 2019 contiennent 9 variables :
* Collecte : type de collecteur 
* Contenant :
* Adresse : adresse du collecteur
* Ville : ville du collecteur
* Année : année de la collecte
* MOIS : mois de la collecte
* SEMAINE : semaine de la collecte
* date : date de la collecte
* heure : heure de la collecte
* Taux : 
* Poids Kg : poids de la collecte en kg pour ce collecteur

Les données de 2019 et celles de 2020 contiennent 5 variables :
* Prestation : identifiant de la prestattion (collecte)
* Date de réalisation : date de la collecte
* Lieu de Collecte : adresse du collecteur
* Matériel : type de collecteur avec son volume en m<sup>3</sup>
* Poids : poids de la collecte en tonne pour ce collecteur


In [3]:
data171819.head()

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg
0,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:32:09,2,500
1,PAV,CNT005V,RUE DES MOULIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:38:41,2,420
2,PAV,CNT165V,AVENUE DU REPOS,LE CANNET,2017,Janvier,1,2017-01-05,06:44:56,1,210
3,PAV,CNT115V,RUE DES ORANGERS,LE CANNET,2017,Janvier,1,2017-01-05,06:48:51,2,450
4,PAV,CNT150V,BOULEVARD D'OLIVETUM,LE CANNET,2017,Janvier,1,2017-01-05,06:54:58,3,730


In [4]:
data19.head()

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
0,12001054939,2020-01-02,CAPL-CNT-VOIE JULIA,COLONNE K 3 m3,0.436
1,12001054940,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,COLONNE K 3 m3,0.436
2,12001054941,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,COLONNE K 3 m3,0.436
3,12001054942,2020-01-02,CAPL-CAN-MERLETTE,"COLONNE K 2,5 m3",0.545
4,12001054943,2020-01-02,CAPL-CAN-RIOU/HLM,COLONNE K 4 m3,0.5814


In [5]:
data20.head()

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
0,12001054939,2020-01-02,CAPL-CNT-VOIE JULIA,COLONNE K 3 m3,0.436
1,12001054940,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,COLONNE K 3 m3,0.436
2,12001054941,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,COLONNE K 3 m3,0.436
3,12001054942,2020-01-02,CAPL-CAN-MERLETTE,"COLONNE K 2,5 m3",0.545
4,12001054943,2020-01-02,CAPL-CAN-RIOU/HLM,COLONNE K 4 m3,0.5814


## Remarque
On note que les deux jeux de données data19 et data20 sont identiques (et data19 sera par conséquent ignoré)

La période de décembre étant manquante, elle ne sera pas considérée par la suite

In [6]:
data19.equals(data20)

True

## Dimension du jeu de données

In [7]:
print("Le jeu de données data171819 recense", data171819.shape[0], "collectes avec", data171819.shape[1], "variables")
print("Le jeu de données data20 recense", data20.shape[0], "collectes avec", data20.shape[1], "variables")

Le jeu de données data171819 recense 24760 collectes avec 11 variables
Le jeu de données data20 recense 5476 collectes avec 5 variables


## Valeurs manquantes
Les deux jeux de données sont complets


In [8]:
data171819.isna().sum()

Collecte     0
Contenant    0
Adresse      0
Ville        0
Année        0
MOIS         0
SEMAINE      0
date         0
heure        0
Taux         0
Poids Kg     0
dtype: int64

In [9]:
data20.isna().sum()

Prestation             0
Date de réalisation    0
Lieu de Collecte       0
Matériel               0
Poids                  0
dtype: int64

## Décompte des doublons
Un doublon est présent pour la collecte de l'hôtel Miramar à Théoule-sur-Mer à la date du 9 avril 2019

In [10]:
data171819.duplicated().sum()

1

In [11]:
data171819[data171819.duplicated()]

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg
20410,PAV,THE025V,HOTEL MIRAMAR,THÉOULE-SUR-MER,2019,Avril,15,2019-04-09,08:38:35,1,300


Il y a 90 doublons les collectes de 2020

In [12]:
data20.duplicated(subset=data20.columns[1:]).sum()

90

In [13]:
# Activation de l'affichage de toutes les lignes d'un DataFrame
pd.set_option('display.max_rows', None)

In [14]:
data20[data20.duplicated(subset=data20.columns[1:])]

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
54,12001058278,2020-01-03,CAPL-CNT-MONT JOLI/STADE,COLONNE ENTERREE 4 m3,0.8975
119,12001240931,2020-01-06,CAPL-CAN-JAURES/MARCHE GAMBETTA,COLONNE ENTERREE K 4 m3,1.3432
155,12001241943,2020-01-08,CAPL-MAN-BON PUITS/CIMETIERE,COLONNE 4 m3,0.58
214,12001307326,2020-01-13,CAPL-CAN-RIOU/RONDPOINT,COLONNE ENTERREE K 4 m3,0.6453
256,12001331179,2020-01-14,CAPL-MAN-BON PUITS/CIMETIERE,COLONNE 4 m3,0.3065
309,12001345782,2020-01-16,CAPL-MOU-NOTRE DAME DE VIE/RENAULT,COLONNE ENTERREE 4 m3,0.2676
376,12001460953,2020-01-21,CAPL-THE-AV COTE D'AZUR/SNACK,COLONNE 3 m3,0.585
390,12001460969,2020-01-21,CAPL-MAN-BON PUITS/CIMETIERE,COLONNE 4 m3,0.2962
393,12001460971,2020-01-21,CAPL-MAN-BON PUITS/CIMETIERE,COLONNE 4 m3,0.2962
452,12001494419,2020-01-23,CAPL-CNT-MONT JOLI/STADE,COLONNE ENTERREE 4 m3,1.04


In [15]:
# Réinitialisation de l'affichage des lignes
pd.reset_option('display.max_rows')

In [16]:
# Exemple de doublon
data20[(data20["Date de réalisation"] == "2020-01-03") & (data20["Lieu de Collecte"] == "CAPL-CNT-MONT JOLI/STADE")]


Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
53,12001058279,2020-01-03,CAPL-CNT-MONT JOLI/STADE,COLONNE ENTERREE 4 m3,0.8975
54,12001058278,2020-01-03,CAPL-CNT-MONT JOLI/STADE,COLONNE ENTERREE 4 m3,0.8975


## Suppression des doublons

In [17]:
data171819

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg
0,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:32:09,2,500
1,PAV,CNT005V,RUE DES MOULIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:38:41,2,420
2,PAV,CNT165V,AVENUE DU REPOS,LE CANNET,2017,Janvier,1,2017-01-05,06:44:56,1,210
3,PAV,CNT115V,RUE DES ORANGERS,LE CANNET,2017,Janvier,1,2017-01-05,06:48:51,2,450
4,PAV,CNT150V,BOULEVARD D'OLIVETUM,LE CANNET,2017,Janvier,1,2017-01-05,06:54:58,3,730
...,...,...,...,...,...,...,...,...,...,...,...
24755,PAV,CAN013V,ALLEE DE LA LIBERTE,CANNES,2019,Novembre,47,2019-11-22,09:04:01,1,250
24756,PAV,CAN017V,AVENUE LAUGIER,CANNES,2019,Novembre,47,2019-11-22,09:10:11,2,450
24757,PAV,CAN152V,AVENUE ISOLA BELLA,CANNES,2019,Novembre,47,2019-11-22,07:10:00,4,970
24758,PAV,CAN159V,55 AVENUE DU ROI ALBERT 1ER,CANNES,2019,Novembre,47,2019-11-22,08:13:47,1,230


In [18]:
data171819.drop_duplicates(inplace=True)
data171819

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg
0,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:32:09,2,500
1,PAV,CNT005V,RUE DES MOULIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:38:41,2,420
2,PAV,CNT165V,AVENUE DU REPOS,LE CANNET,2017,Janvier,1,2017-01-05,06:44:56,1,210
3,PAV,CNT115V,RUE DES ORANGERS,LE CANNET,2017,Janvier,1,2017-01-05,06:48:51,2,450
4,PAV,CNT150V,BOULEVARD D'OLIVETUM,LE CANNET,2017,Janvier,1,2017-01-05,06:54:58,3,730
...,...,...,...,...,...,...,...,...,...,...,...
24755,PAV,CAN013V,ALLEE DE LA LIBERTE,CANNES,2019,Novembre,47,2019-11-22,09:04:01,1,250
24756,PAV,CAN017V,AVENUE LAUGIER,CANNES,2019,Novembre,47,2019-11-22,09:10:11,2,450
24757,PAV,CAN152V,AVENUE ISOLA BELLA,CANNES,2019,Novembre,47,2019-11-22,07:10:00,4,970
24758,PAV,CAN159V,55 AVENUE DU ROI ALBERT 1ER,CANNES,2019,Novembre,47,2019-11-22,08:13:47,1,230


In [19]:
data20

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
0,12001054939,2020-01-02,CAPL-CNT-VOIE JULIA,COLONNE K 3 m3,0.4360
1,12001054940,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,COLONNE K 3 m3,0.4360
2,12001054941,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,COLONNE K 3 m3,0.4360
3,12001054942,2020-01-02,CAPL-CAN-MERLETTE,"COLONNE K 2,5 m3",0.5450
4,12001054943,2020-01-02,CAPL-CAN-RIOU/HLM,COLONNE K 4 m3,0.5814
...,...,...,...,...,...
5471,12009697556,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,COLONNE K 3 m3,0.1800
5472,12009697557,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,COLONNE ENTERREE K 4 m3,0.2400
5473,12009697554,2020-09-30,CAPL-CAN-BALZAC/LECLERC,COLONNE K 3 m3,0.3600
5474,12009697559,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,COLONNE K 3 m3,0.1800


In [20]:
data20.drop_duplicates(subset=data20.columns[1:], inplace=True)
data20

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
0,12001054939,2020-01-02,CAPL-CNT-VOIE JULIA,COLONNE K 3 m3,0.4360
1,12001054940,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,COLONNE K 3 m3,0.4360
2,12001054941,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,COLONNE K 3 m3,0.4360
3,12001054942,2020-01-02,CAPL-CAN-MERLETTE,"COLONNE K 2,5 m3",0.5450
4,12001054943,2020-01-02,CAPL-CAN-RIOU/HLM,COLONNE K 4 m3,0.5814
...,...,...,...,...,...
5471,12009697556,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,COLONNE K 3 m3,0.1800
5472,12009697557,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,COLONNE ENTERREE K 4 m3,0.2400
5473,12009697554,2020-09-30,CAPL-CAN-BALZAC/LECLERC,COLONNE K 3 m3,0.3600
5474,12009697559,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,COLONNE K 3 m3,0.1800


## Notes générales

Il n'y a que des PAV comme type de collecteurs de 2017 à 2019

In [21]:
data171819["Collecte"].value_counts()

PAV    24759
Name: Collecte, dtype: int64

La collecte semble équivalente au fil des années même si une baisse est à noter

Ces impressions restent à confirmer sachant que les collectes de décembre 2019 sont manquantes et celles d'octobre à décembre 2020 à venir

In [22]:
data171819["Année"].value_counts()

2018    8935
2017    8902
2019    6922
Name: Année, dtype: int64

In [23]:
data20["Date de réalisation"].dt.year.value_counts()

2020    5386
Name: Date de réalisation, dtype: int64

Sur l'ensemble de la période 2017-2019, les collectes sont plus fréquentes en été (surtout Juillet et Août) et bien moins en Novembre et Février

La mois de décembre est difficilement interprétable (du fait de l'absence de décembre 2019) et ne permet pas d'étendre l'interprétation sur l'apprente baisse des collectes pour l'hiver 

In [24]:
data171819["MOIS"].value_counts()

Mai          2427
Août         2342
Juillet      2308
Janvier      2230
Octobre      2200
Septembre    2069
Juin         2063
Mars         2050
Avril        2001
Février      1900
Novembre     1758
Décembre     1411
Name: MOIS, dtype: int64

Sous réserve des mois à venir, les observations sont similaires à l'exception du mois de Mai (justifié probablement par la situation vis-à-vis du COVID)

In [25]:
data20["Date de réalisation"].dt.month.value_counts()

7    702
8    675
9    673
1    613
3    569
6    562
2    552
5    520
4    520
Name: Date de réalisation, dtype: int64

De nombreuses collectes n'ont certainement pas l'heure précisée (vu le nombre d'occurences pour l'heure par défaut 00:00:00)

In [26]:
data171819["heure"].value_counts()

00:00:00    1487
10:41:00      24
07:12:00      22
07:10:00      21
07:22:00      21
            ... 
08:06:18       1
06:43:09       1
08:42:41       1
09:25:03       1
11:11:51       1
Name: heure, Length: 13519, dtype: int64

Le nombre de collectes est bien plus important à Cannes que dans les autres villes de l'agglomération et bien moins à Théoule-sur-Mer

In [27]:
data171819["Ville"].value_counts()

CANNES                  14451
MANDELIEU-LA-NAPOULE     4027
LE CANNET                3539
MOUGINS                  2122
THÉOULE-SUR-MER           620
Name: Ville, dtype: int64

Cannes détient beaucoup plus de collecteurs de verre (et effectue bien plus de collectes) que les autres villes de l'agglomération sur toute la péridoe 2017-2020

In [28]:
data171819["Contenant"].value_counts()

CAN013V     516
CAN026V     503
CAN027V     400
CAN089V     385
CAN137V     362
           ... 
CNT310V       1
CAN102V       1
CNT335V       1
CAN173V       1
CAN157 V      1
Name: Contenant, Length: 287, dtype: int64

In [29]:
dictVilles = { "CAN": "Cannes", "CNT": "Le Cannet", "MAN": "Mandelieu-la-Napoule", "MOU": "Mougins", "THE": "Théoule-sur-Mer"}

In [30]:
nbContenantsVille = [0] * len(dictVilles)
nbContenantsDifferentsVille = [0] * len(dictVilles)

for contenant, value in data171819["Contenant"].value_counts().items():
    for j, abbr in enumerate(dictVilles.keys()):
        if abbr in contenant:
            nbContenantsVille[j] += value
            nbContenantsDifferentsVille[j] += 1

for i, abbr in enumerate(dictVilles.keys()):
    print(dictVilles[abbr] + " présente " + str(nbContenantsVille[i]) + " collectes avec " + str(nbContenantsDifferentsVille[i]) + " collecteurs différents")

# Pour obtenir seulement le nombre de collectes par ville
#data171819["Ville"].value_counts()

Cannes présente 14451 collectes avec 159 collecteurs différents
Le Cannet présente 3539 collectes avec 50 collecteurs différents
Mandelieu-la-Napoule présente 4027 collectes avec 50 collecteurs différents
Mougins présente 2122 collectes avec 20 collecteurs différents
Théoule-sur-Mer présente 620 collectes avec 8 collecteurs différents


In [31]:
nbContenantsVille = [0] * len(dictVilles)
nbContenantsDifferentsVille = [0] * len(dictVilles)

for contenant, value in data20["Lieu de Collecte"].value_counts().items():
    for j, abbr in enumerate(dictVilles.keys()):
        prefixe = "CAPL-" + abbr # Pour éviter le cas où l'abbréviation de la ville (de 3 lettres) est dans l'adresse
        if prefixe in contenant:
            nbContenantsVille[j] += value
            nbContenantsDifferentsVille[j] += 1

for i, abbr in enumerate(dictVilles.keys()):
    print(dictVilles[abbr] + " présente " + str(nbContenantsVille[i]) + " collectes avec " + str(nbContenantsDifferentsVille[i]) + " collecteurs différents")

Cannes présente 2947 collectes avec 155 collecteurs différents
Le Cannet présente 885 collectes avec 45 collecteurs différents
Mandelieu-la-Napoule présente 875 collectes avec 46 collecteurs différents
Mougins présente 533 collectes avec 19 collecteurs différents
Théoule-sur-Mer présente 146 collectes avec 8 collecteurs différents


# Base de données cliiink
![cliiink.png](../../bdd/cliiink.png)

# Nettoyage des jeux de données

## Détection d'éventuelles anomalies

In [32]:
# Pour voir les vrais noms des colonnes (avec les espaces)
for col in data171819.columns: 
    print(col) 

Collecte
Contenant
Adresse
Ville
Année
MOIS
SEMAINE
date 
heure
Taux
Poids Kg


Vérification pour data171819 que Année et MOIS correspondent bien à date

In [33]:
#data171819[(data171819["date "].dt.year == data171819["Année"]) & (data171819["date "].dt.month == data171819["MOIS"])]
data171819[data171819["date "].dt.year != data171819["Année"]]

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg


In [34]:
#data171819[data171819["date "].dt.year == data171819["Année"]]
moisFrancais = ["Janvier", "Février", "Mars", "Avril", "Mai", "Juin", "Juillet", "Août", "Septembre", "Octobre", "Novembre", "Décembre"]

for i in data171819.index:
    if (moisFrancais.index(data171819.loc[i, "MOIS"])+1 != data171819["date "].dt.month.loc[i]):
        print("---")
        print(i)
        print(moisFrancais.index(data171819.loc[i, "MOIS"])+1)
        print(data171819["date "].dt.month.iloc[i])


---
19884
4
5
---
19885
4
5
---
19891
4
5
---
19892
4
5
---
19972
4
5
---
19974
4
5
---
19975
4
5
---
19977
4
5
---
19981
4
5
---
19989
4
5
---
20034
4
5
---
20035
4
5
---
20038
4
5
---
20039
4
5
---
20040
4
5
---
20079
4
5
---
20081
4
5
---
20084
4
5
---
20085
4
5
---
20086
4
5
---
20087
4
5
---
20141
4
5
---
20142
4
5
---
20143
4
5
---
20146
4
5
---
20153
4
5
---
20154
4
5


In [35]:
# Exemple 
# la semaine commence en avril et finit en mai d'où la différence
# Seule la date stricte sera considérée
data171819.loc[[19884]]

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg
19884,PAV,CAN034V,AVENUE FRANCIS TONNER,CANNES,2019,Avril,18,2019-05-02,07:55:24,2,520


In [36]:
data171819.Adresse.nunique()

240

# Ajout des correspondances entre collecteurs de verre dans la BDD et le jeu de données

In [37]:
dataCollecteurVerre = pd.DataFrame(columns = ["adresse", "ville", "globalid"])
dataCollecteurVerre["adresse"] = data171819["Adresse"].unique()
for i in dataCollecteurVerre.index:
    dataCollecteurVerre.loc[i, "ville"] = data171819[dataCollecteurVerre.loc[i, "adresse"] == data171819["Adresse"]].iloc[0]["Ville"]
dataCollecteurVerre

Unnamed: 0,adresse,ville,globalid
0,CHEMIN DES BREGUIERES,LE CANNET,
1,RUE DES MOULIERES,LE CANNET,
2,AVENUE DU REPOS,LE CANNET,
3,RUE DES ORANGERS,LE CANNET,
4,BOULEVARD D'OLIVETUM,LE CANNET,
...,...,...,...
235,RUE BIR HAKEIM,LE CANNET,
236,AVENUE VICTORIA,LE CANNET,
237,RUE GEORGES POMPIDOU,LE CANNET,
238,AVENUE FELIX FAURE,CANNES,


In [38]:
from sqlalchemy import create_engine
import json

fichierConfig = "../../bdd/config.json"

with open(fichierConfig) as fichier:
    config = json.load(fichier)["mysql"]
    
engine = create_engine('mysql+' + config["connector"] + '://' + config["user"] + ":" + config["password"] + "@" + config["host"] + ":" + config["port"] + "/" + config["bdd"], echo=True)

dfCollecteursVerre = pd.read_sql_query("SELECT objectid, adresse, adresseComplement, codeInsee, globalid FROM collecteur JOIN tri ON collecteur.idTri = tri.id WHERE tri.type = 'verre';", engine)

dfCollecteursVerre

2020-11-24 23:27:40,608 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'sql_mode'
2020-11-24 23:27:40,609 INFO sqlalchemy.engine.base.Engine {}
2020-11-24 23:27:40,612 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'lower_case_table_names'
2020-11-24 23:27:40,613 INFO sqlalchemy.engine.base.Engine {}
2020-11-24 23:27:40,617 INFO sqlalchemy.engine.base.Engine SELECT DATABASE()
2020-11-24 23:27:40,617 INFO sqlalchemy.engine.base.Engine {}
2020-11-24 23:27:40,619 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS CHAR(60)) AS anon_1
2020-11-24 23:27:40,620 INFO sqlalchemy.engine.base.Engine {}
2020-11-24 23:27:40,622 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS CHAR(60)) AS anon_1
2020-11-24 23:27:40,623 INFO sqlalchemy.engine.base.Engine {}
2020-11-24 23:27:40,625 INFO sqlalchemy.engine.base.Engine SELECT objectid, adresse, adresseComplement, codeInsee, globalid FROM collecteur JOIN tri ON collecteur.idTri = tri.id WHERE tri

Unnamed: 0,objectid,adresse,adresseComplement,codeInsee,globalid
0,660,Parking vallon de l autelgy,,06138,{8C8A3146-8C8C-42B1-A448-EE103992E272}
1,661,Rue massena,,06029,{2066B095-8486-432C-8663-0B36B4C81159}
2,662,37 avenue miramar,,06138,{85771445-84A5-4946-BD65-E9F2CB95A7CA}
3,663,Parking jean aulas,,06079,{BB3F959C-2915-455B-8665-C1958EC20BEE}
4,664,16 avenue du treyas,Parking face restaurant matipi,06138,{7BDBEF7C-741B-4EA2-83F8-B8C3222377DC}
...,...,...,...,...,...
242,902,Chemin de la plaine,,06085,{EE3BB45D-3EE0-48BB-ABA0-B380B1668D64}
243,903,Chemin du refuge,,06085,{D082FBD8-B8B8-4808-B18B-F9FEA9EC7A4D}
244,904,Avenue lamartine,,06085,{1C052AE4-0F18-4195-902C-21DFA6CBCFE0}
245,905,Chemin du coudouron,,06085,{E1DCE667-FD92-4D22-8120-5179FA802B78}


In [39]:
for i in dataCollecteurVerre.index:
    for j in dfCollecteursVerre.index:
        if dataCollecteurVerre.loc[i, "adresse"].lower() in  dfCollecteursVerre.loc[j, "adresse"].lower():
            dataCollecteurVerre.loc[i, "globalid"] = dfCollecteursVerre.loc[j, "globalid"]
            break

pd.set_option('display.max_rows', None)
dataCollecteurVerre

Unnamed: 0,adresse,ville,globalid
0,CHEMIN DES BREGUIERES,LE CANNET,
1,RUE DES MOULIERES,LE CANNET,
2,AVENUE DU REPOS,LE CANNET,{1B522953-3C4B-4576-AA43-8F55B7D244FF}
3,RUE DES ORANGERS,LE CANNET,{5F7D0829-9D85-4974-A808-EA2FC10898A0}
4,BOULEVARD D'OLIVETUM,LE CANNET,
5,AVENUE THIERS,LE CANNET,{C684BEBE-6E02-4711-BD83-97CA18921587}
6,CHEMIN DE GAVARY,LE CANNET,{0528846E-354E-46A0-A941-89E23E812E38}
7,AVENUE LACOUR,LE CANNET,{1ECBE717-5B9D-45B2-8FF0-FA34AAC74E84}
8,RESTAURANT,LE CANNET,
9,BOULEVARD SADI CARNOT,LE CANNET,


In [40]:
# Identification à la main des collecteurs par rapport aux adresses partielles
dataCollecteurVerre["globalid"] = ["{96405317-A1A8-4339-BBAF-94650179420F}",
 "{98E96757-9AFC-478F-A11A-39CC56433E56}",
 '{1B522953-3C4B-4576-AA43-8F55B7D244FF}',
 '{5F7D0829-9D85-4974-A808-EA2FC10898A0}',
 "{DF9FB992-80F3-4231-B49C-420DD03A7B32}",
 '{C684BEBE-6E02-4711-BD83-97CA18921587}',
 '{0528846E-354E-46A0-A941-89E23E812E38}',
 '{1ECBE717-5B9D-45B2-8FF0-FA34AAC74E84}',
 None,
 None,
 '{AC290C63-7627-46E8-8D9F-C2D699565324}',
 "{17F63825-A388-47DD-B917-6FB09FF0D93F}",
 "{623C649B-5178-4C7A-9FF0-0C7F6350E697}",
 '{18FBB315-C898-4566-BED4-C3AE1132747E}',
 "{6A1F143D-B0ED-4BA0-852E-DA87DDDB81AA}",
 '{57EAECC4-1EC0-4138-91BD-EFB3CDC07104}',
 None,
 None,
 None,
 None,
 '{95531C1F-3C2D-49EB-83A7-C13C33DDD18C}',
 None,
 None,
 None,
 '{AF180A6D-556E-4361-8F67-F075A5A99461}',
 "{857D052C-F5AA-4CB1-9D9A-A8254FB4A869}",
 None,
 '{794F5B1F-9499-4B0B-B1A9-B432A79E7FFA}',
 None,
 None,
 '{5B8C4DB7-7A05-4023-925B-BDC21717CF5F}',
 None,
 '{35C38FE5-53D7-4C67-84FE-093278149E73}',
 None,
 '{6DFBC25B-2B5A-43BC-B335-FD82F5A7367C}',
 None,
 None,
 '{2893EAC1-3E91-4991-8D79-9721E04E29F6}',
 None,
 '{611C4F93-63E4-400B-AC94-5E18D5BFC215}',
 None,
 None,
 '{2553CF7D-A8F6-43A1-9716-46150904739A}',
 '{4994F5D7-DDDE-4982-AB34-2651F1B39A8D}',
 '{D82FB384-193D-4175-BBC7-FBF767B81706}',
 '{447BB0AB-9A59-4F46-8660-5066B9D32B47}',
 None,
 None,
 None,
 None,
 None,
 '{86E2348D-C1FA-4F6E-B5E4-9DBA4997B2E7}',
 None,
 None,
 None,
 None,
 None,
 '{E1D75A70-538A-4D54-8AA0-A9C66CE98B64}',
 None,
 "{9CABA1B7-11ED-48F9-87EA-2CEFDCBECA9C}",
 None,
 None,
 None,
 None,
 '{957A8C1B-044D-4302-AA77-3B29B40B983F}',
 '{641E59B8-35B8-4652-A299-1A24C896D86E}',
 None,
 '{245AD3FA-BFE4-4520-B164-84F0D080A231}',
 None,
 None,
 '{26D8EE05-7FF3-4554-9371-C4F959ACE4C1}',
 '{471CA15A-B82C-4344-84DD-32A4562F6DDA}',
 None,
 None,
 '{DDA78DC1-F178-4F3D-BC26-4F918D8527FC}',
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 '{EE3BB45D-3EE0-48BB-ABA0-B380B1668D64}',
 '{0378EE97-249E-4D88-AC58-BAE3B29B6549}',
 '{49967CED-F997-4F6E-912E-6F67E6FDBD06}',
 None,
 '{E82AD6BA-DEF2-4E60-97B7-339EC843B02F}',
 '{40E66CBA-23DE-42F8-97FA-2BB62FC69AAF}',
 '{2D66EECA-B0D2-4433-9DF1-3848F6E4C0B8}',
 '{D082FBD8-B8B8-4808-B18B-F9FEA9EC7A4D}',
 None,
 '{E198FC0D-D178-47A1-8220-4BA0FBE5DC98}',
 '{1374E7BC-43EE-4D07-980B-79B9A770F9E0}',
 "{EE57E796-B764-4F17-AEE5-9DE98A27595B}",
 None,
 None,
 None,
 None,
 None,
 None,
 '{15D6D1E2-A26B-48CA-B66B-D92924F2CB58}',
 None,
 None,
 "{1B25A481-FA71-4110-B3A3-80E990577707}",
 None,
 "{123ECF2D-3BD2-46CA-8E6C-7107CB031694}",
 None,
 None,
 None,
 None,
 '{4EEF9396-6E30-458F-9720-7F96E07A5495}',
 None,
 None,
 "{13422586-12A7-4648-A89C-5FD30B8CF394}",
 '{2066B095-8486-432C-8663-0B36B4C81159}',
 None,
 None,
 '{1CD8ADFB-11C9-471E-BA45-AC5B8EDFBCCE}',
 '{94AB067C-9BC3-4A6F-BFF6-61B20F8DE0B8}',
 '{228A7CA2-8116-4471-8C11-E40994255C56}',
 None,
 None,
 None,
 None,
 '{6AB007CF-5B5F-4D4B-AB83-09E4DB36AB65}',
 '{D3D723CF-D370-4923-914A-2D8A020E56A4}',
 None,
 "{73F10645-C3A9-48AA-A648-78FCE437AC52}",
 '{87081FAC-7D3D-4EDD-A7B1-7A543E59A6E6}',
 "{63444290-0A33-47A1-8ED3-2081E4C244BB}", #Doute
 "{65160453-0E8B-4A21-BBF9-F1CD54D73F4F}",
 None,
 None,
 None,
 None,
 None,
 '{00DA4896-5F99-4482-8BB9-5B0409B10D22}',
 None,
 None,
 '{4945379B-BCAC-4C43-AE7E-5288176F67AB}',
 None,
 '{4F3418ED-35CB-4362-A3E3-F28E7929C5AF}',
 '{00DA4896-5F99-4482-8BB9-5B0409B10D22}',
 '{B77CBB4D-9BD4-452E-A992-4C23A98886A0}',
 '{8BCEA9BC-563B-475F-8725-2BA728AF55AA}',
 None,
 None,
 '{0666E598-3357-41DD-B23D-30204991D68F}',
 '{78E8BDA1-A912-411C-9B2C-84568C3D886B}',
 None,
 None,
 None,
 '{15D053B0-465F-4C64-A878-93EA2FB6B1E2}',
 None,
 '{A32F116F-542D-4709-B4B0-07E2E3394DF8}',
 None,
 None,
 '{7BA25EC8-7338-4049-B5D4-A1CEF519BD44}',
 "{2116CF38-F1DB-44C4-8D5E-31F345D2F182}",
 "{4D65582D-7F57-4E3F-9E53-50941AB9734A}",
 "{909437DD-6156-49A1-9D07-79FF642C2F27}",
 "{63D92ABB-A0B8-4179-B954-D378360AE4AA}",
 "{21B94E6A-D71C-434C-9D7B-18A4E2DC4B9F}",
 '{52F421C7-2F8D-49FA-A2E1-5BD27C2481C3}',
 "{20AFD7BF-26B1-4C20-B219-FE5A40D6E99E}", #Doute
 "{777561A0-A251-4DF9-A5C3-19B023832CCF}",
 "{44EB09E9-AB65-4ACC-8685-BB111FCE8242}",
 None,
 None,
 None,
 '{5960D78D-A1CC-4D52-B8F9-60FBDE4D4316}',
 '{2B888EBC-34ED-4332-B555-94F26762975E}',
 '{34FD9A1B-D90D-42D9-9A0F-55262C1EF7FC}',
 '{4655CA3B-1812-4F2D-8421-13C6DA8D948D}',
 '{B25C8F92-6E04-4C9D-A4B2-4E53D6DC0DE2}',
 '{593D59A1-511D-4A36-8FFB-D94597FC1296}',
 None,
 None,
 "{682A0076-6AE0-4AFD-9074-0F862BB77D7E}",
 None,
 '{682A0076-6AE0-4AFD-9074-0F862BB77D7E}',
 "{CDAFDEDE-23D0-44E8-B56E-28AFDC6F85E9}",
 '{311F1BF6-2C8D-4AC3-8BE4-4FBF9D94C5D0}',
 None,
 '{48C20876-208C-4B5A-9344-6EB03940C8CC}',
 '{1299EC66-09F9-4A34-80C4-A21AE7EBD5DE}',
 None,
 '{F2FE87E3-56EF-4F7D-B598-F7A8A463D2A0}',
 '{1E21AA51-085C-469B-9469-6D27AF5A917F}',
 '{A5399E79-CACE-45EE-8BD7-14B1B712C1DC}',
 '{D71E4D12-82A5-475B-AE3A-3165971D0008}',
 '{91114210-92D6-4B48-81FF-2576EB07F36A}',
 "{CD866B4A-3ABF-43BD-93C0-416B74CBB01E}",
 "{C3C73BE8-A400-4E96-B4F2-8D09741A2318}",
 "{B2C31F25-3266-494E-B453-601CF23C9FA6}",
 "{EBB4D959-0680-4F19-9191-49B86598BB14}",
 "{5BBDE398-325F-4EC2-82E8-7FF2B27C6FD0}",
 "{A9B94D9F-7008-47D0-BF75-C630BE399516}",
 '{66DDB397-36D1-4B7A-A93D-C871C21F29C3}',
 '{B2CF3041-DBE7-495C-9BEC-AAF84243F201}',
 None,
 '{FCC3E490-A08F-470C-AA06-A1CF11FDBC66}',
 '{421D7096-5F63-475D-B6D7-56C72D82A607}',
 None,
 '{D046CCE1-8F9A-4DA1-9250-FC4C79FC2991}',
 '{274DDD55-6209-48BC-ADD3-DD1EBBC69D05}',
 '{DF2BA8D1-F205-44DE-AE56-C0A308D52BA5}',
 "{7F60A630-74F1-420E-8ED4-2A1D261B760A}",
 "{67C17E81-EE01-45E7-8A2A-781C462BFFEF}",
 None,
 '{932DAD2E-FBC6-41C0-B9EC-9B5A247CE592}',
 "{7811EAEB-E487-430E-AFF0-AF92C68ED45B}",
 "{23FDB93F-DAF3-4D80-8AF1-6BA0A1048E0C}",
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 "{53A950D2-7678-4A82-8286-B8EBCFF7C5B8}",
 None,
 "{D54617C8-638F-4D12-A15C-9A733959CA6F}",
 '{4165D80B-CD0E-4B31-94B8-C69E54C0C59E}',
 "{D38A9E22-746B-4E54-A938-8B1D86B0C63E}",
 None,
 None,
 "{ADDA617C-F1F7-4EB1-96F0-2290E54FCA24}",
 "{0A29DE42-2D62-4903-8A4B-0223B3748DB9}"]

In [41]:
dataCollecteurVerre

Unnamed: 0,adresse,ville,globalid
0,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F}
1,RUE DES MOULIERES,LE CANNET,{98E96757-9AFC-478F-A11A-39CC56433E56}
2,AVENUE DU REPOS,LE CANNET,{1B522953-3C4B-4576-AA43-8F55B7D244FF}
3,RUE DES ORANGERS,LE CANNET,{5F7D0829-9D85-4974-A808-EA2FC10898A0}
4,BOULEVARD D'OLIVETUM,LE CANNET,{DF9FB992-80F3-4231-B49C-420DD03A7B32}
5,AVENUE THIERS,LE CANNET,{C684BEBE-6E02-4711-BD83-97CA18921587}
6,CHEMIN DE GAVARY,LE CANNET,{0528846E-354E-46A0-A941-89E23E812E38}
7,AVENUE LACOUR,LE CANNET,{1ECBE717-5B9D-45B2-8FF0-FA34AAC74E84}
8,RESTAURANT,LE CANNET,
9,BOULEVARD SADI CARNOT,LE CANNET,


In [42]:
pd.reset_option('display.max_rows')

In [43]:
# Pour noter les éventuels doublons dans la saisie manuelle
dataCollecteurVerre.globalid.value_counts()

{00DA4896-5F99-4482-8BB9-5B0409B10D22}    2
{682A0076-6AE0-4AFD-9074-0F862BB77D7E}    2
{0666E598-3357-41DD-B23D-30204991D68F}    1
{A5399E79-CACE-45EE-8BD7-14B1B712C1DC}    1
{7F60A630-74F1-420E-8ED4-2A1D261B760A}    1
                                         ..
{857D052C-F5AA-4CB1-9D9A-A8254FB4A869}    1
{D82FB384-193D-4175-BBC7-FBF767B81706}    1
{35C38FE5-53D7-4C67-84FE-093278149E73}    1
{DF2BA8D1-F205-44DE-AE56-C0A308D52BA5}    1
{98E96757-9AFC-478F-A11A-39CC56433E56}    1
Name: globalid, Length: 120, dtype: int64

In [44]:
for i in dataCollecteurVerre.index:
    for j in dfCollecteursVerre.index:
        if dataCollecteurVerre.loc[i, "globalid"] == dfCollecteursVerre.loc[j, "globalid"]:
            dataCollecteurVerre.loc[i, "objectid"] = dfCollecteursVerre.loc[j, "objectid"]
            break

dataCollecteurVerre = dataCollecteurVerre[dataCollecteurVerre['objectid'].notna()]
dataCollecteurVerre.objectid = dataCollecteurVerre.objectid.astype(int)

dataCollecteurVerre

Unnamed: 0,adresse,ville,globalid,objectid
0,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
1,RUE DES MOULIERES,LE CANNET,{98E96757-9AFC-478F-A11A-39CC56433E56},859
2,AVENUE DU REPOS,LE CANNET,{1B522953-3C4B-4576-AA43-8F55B7D244FF},858
3,RUE DES ORANGERS,LE CANNET,{5F7D0829-9D85-4974-A808-EA2FC10898A0},854
4,BOULEVARD D'OLIVETUM,LE CANNET,{DF9FB992-80F3-4231-B49C-420DD03A7B32},856
...,...,...,...,...
233,BOULEVARD ALBERT 1er,LE CANNET,{D54617C8-638F-4D12-A15C-9A733959CA6F},835
234,ROUTE DES BREGUIERES,LE CANNET,{4165D80B-CD0E-4B31-94B8-C69E54C0C59E},861
235,RUE BIR HAKEIM,LE CANNET,{D38A9E22-746B-4E54-A938-8B1D86B0C63E},877
238,AVENUE FELIX FAURE,CANNES,{ADDA617C-F1F7-4EB1-96F0-2290E54FCA24},679


In [45]:
data171819 = data171819.merge(dataCollecteurVerre, left_on="Adresse", right_on="adresse")
data171819

Unnamed: 0,Collecte,Contenant,Adresse,Ville,Année,MOIS,SEMAINE,date,heure,Taux,Poids Kg,adresse,ville,globalid,objectid
0,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,1,2017-01-05,06:32:09,2,500,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
1,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,2,2017-01-12,10:59:12,1,330,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
2,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Janvier,4,2017-01-26,06:29:37,2,490,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
3,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Février,5,2017-02-02,06:16:45,2,510,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
4,PAV,CNT135V,CHEMIN DES BREGUIERES,LE CANNET,2017,Février,7,2017-02-16,06:19:02,2,610,CHEMIN DES BREGUIERES,LE CANNET,{96405317-A1A8-4339-BBAF-94650179420F},860
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13281,PAV,CAN175V,AVENUE FELIX FAURE,CANNES,2019,Octobre,42,2019-10-18,08:20:10,1,350,AVENUE FELIX FAURE,CANNES,{ADDA617C-F1F7-4EB1-96F0-2290E54FCA24},679
13282,PAV,CAN175V,AVENUE FELIX FAURE,CANNES,2019,Octobre,42,2019-10-14,00:00:00,3,990,AVENUE FELIX FAURE,CANNES,{ADDA617C-F1F7-4EB1-96F0-2290E54FCA24},679
13283,PAV,CAN175V,AVENUE FELIX FAURE,CANNES,2019,Octobre,44,2019-10-28,07:38:34,2,740,AVENUE FELIX FAURE,CANNES,{ADDA617C-F1F7-4EB1-96F0-2290E54FCA24},679
13284,PAV,CNT350V,DECHETTERIE DU CANNET,LE CANNET,2019,Septembre,37,2019-09-10,00:00:00,4,1210,DECHETTERIE DU CANNET,LE CANNET,{0A29DE42-2D62-4903-8A4B-0223B3748DB9},876


In [46]:
data20

Unnamed: 0,Prestation,Date de réalisation,Lieu de Collecte,Matériel,Poids
0,12001054939,2020-01-02,CAPL-CNT-VOIE JULIA,COLONNE K 3 m3,0.4360
1,12001054940,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,COLONNE K 3 m3,0.4360
2,12001054941,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,COLONNE K 3 m3,0.4360
3,12001054942,2020-01-02,CAPL-CAN-MERLETTE,"COLONNE K 2,5 m3",0.5450
4,12001054943,2020-01-02,CAPL-CAN-RIOU/HLM,COLONNE K 4 m3,0.5814
...,...,...,...,...,...
5471,12009697556,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,COLONNE K 3 m3,0.1800
5472,12009697557,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,COLONNE ENTERREE K 4 m3,0.2400
5473,12009697554,2020-09-30,CAPL-CAN-BALZAC/LECLERC,COLONNE K 3 m3,0.3600
5474,12009697559,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,COLONNE K 3 m3,0.1800


In [47]:
dataCollecteurVerre2 = pd.DataFrame(columns = ["adresse", "ville", "globalid"])
dataCollecteurVerre2["adresse"] = data20["Lieu de Collecte"].unique()
for i in dataCollecteurVerre2.index:
    dataCollecteurVerre2.loc[i, "ville"] = dictVilles[dataCollecteurVerre2.loc[i, "adresse"][5:8]]

pd.set_option('display.max_rows', None)
dataCollecteurVerre2

Unnamed: 0,adresse,ville,globalid
0,CAPL-CNT-VOIE JULIA,Le Cannet,
1,CAPL-CNT-BREGUIERES/FONT GALLOU,Le Cannet,
2,CAPL-CNT-AV ECOLES/ROTHMANS,Le Cannet,
3,CAPL-CAN-MERLETTE,Cannes,
4,CAPL-CAN-RIOU/HLM,Cannes,
5,CAPL-CNT-POMPIDOU/RIVES DU LAC,Le Cannet,
6,CAPL-CNT-HAKEIM/MAL JUIN,Le Cannet,
7,CAPL-CAN-IMP L'AUBAREDE/FACE RESID,Cannes,
8,CAPL-CNT-ALBERT 1ER/PINS,Le Cannet,
9,CAPL-CAN-79 TASSIGNY/LA GRAZIELA,Cannes,


In [48]:
# Identification à la main des collecteurs par rapport aux adresses partielles
"""
dataCollecteurVerre2["globalid"] = [
    ,
    "{E1DCE667-FD92-4D22-8120-5179FA802B78}"
]
"""

'\ndataCollecteurVerre2["globalid"] = [\n    ,\n    "{E1DCE667-FD92-4D22-8120-5179FA802B78}"\n]\n'

In [49]:
pd.reset_option('display.max_rows')

# Mise en forme des données


## Suppression des colonnes inutiles

In [50]:
data171819.drop(columns=["Collecte", "Contenant", "Adresse", "Ville", "Année", "MOIS", "SEMAINE", "heure", "Taux", "adresse", "ville", "globalid"], inplace=True)
data171819

Unnamed: 0,date,Poids Kg,objectid
0,2017-01-05,500,860
1,2017-01-12,330,860
2,2017-01-26,490,860
3,2017-02-02,510,860
4,2017-02-16,610,860
...,...,...,...
13281,2019-10-18,350,679
13282,2019-10-14,990,679
13283,2019-10-28,740,679
13284,2019-09-10,1210,876


In [51]:
data20.drop(columns=["Prestation","Matériel"], inplace=True)
data20

Unnamed: 0,Date de réalisation,Lieu de Collecte,Poids
0,2020-01-02,CAPL-CNT-VOIE JULIA,0.4360
1,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,0.4360
2,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,0.4360
3,2020-01-02,CAPL-CAN-MERLETTE,0.5450
4,2020-01-02,CAPL-CAN-RIOU/HLM,0.5814
...,...,...,...
5471,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,0.1800
5472,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,0.2400
5473,2020-09-30,CAPL-CAN-BALZAC/LECLERC,0.3600
5474,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,0.1800


## Conversions de types

### Poids

In [52]:
# Exemple avant conversion
data20

Unnamed: 0,Date de réalisation,Lieu de Collecte,Poids
0,2020-01-02,CAPL-CNT-VOIE JULIA,0.4360
1,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,0.4360
2,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,0.4360
3,2020-01-02,CAPL-CAN-MERLETTE,0.5450
4,2020-01-02,CAPL-CAN-RIOU/HLM,0.5814
...,...,...,...
5471,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,0.1800
5472,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,0.2400
5473,2020-09-30,CAPL-CAN-BALZAC/LECLERC,0.3600
5474,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,0.1800


In [53]:
data20.Poids = (data20.Poids * 1000).astype(int)

In [54]:
# Exemple après conversion
data20

Unnamed: 0,Date de réalisation,Lieu de Collecte,Poids
0,2020-01-02,CAPL-CNT-VOIE JULIA,436
1,2020-01-02,CAPL-CNT-BREGUIERES/FONT GALLOU,436
2,2020-01-02,CAPL-CNT-AV ECOLES/ROTHMANS,436
3,2020-01-02,CAPL-CAN-MERLETTE,545
4,2020-01-02,CAPL-CAN-RIOU/HLM,581
...,...,...,...
5471,2020-09-30,CAPL-CAN-GOURGUETTES/RONDPOINT,180
5472,2020-09-30,CAPL-CAN-GOURGUETTES/ARRET BUS,240
5473,2020-09-30,CAPL-CAN-BALZAC/LECLERC,360
5474,2020-09-30,CAPL-CAN-JOURDAN/ENTREE ANAS,180


## Ajout de l'identifiant

In [55]:
data171819["id"] = data171819.index + 1
data171819

Unnamed: 0,date,Poids Kg,objectid,id
0,2017-01-05,500,860,1
1,2017-01-12,330,860,2
2,2017-01-26,490,860,3
3,2017-02-02,510,860,4
4,2017-02-16,610,860,5
...,...,...,...,...
13281,2019-10-18,350,679,13282
13282,2019-10-14,990,679,13283
13283,2019-10-28,740,679,13284
13284,2019-09-10,1210,876,13285


## Reordonnancement des colonnes

In [56]:
data171819 = data171819[["id", "objectid", "date ", "Poids Kg"]]
data171819

Unnamed: 0,id,objectid,date,Poids Kg
0,1,860,2017-01-05,500
1,2,860,2017-01-12,330
2,3,860,2017-01-26,490
3,4,860,2017-02-02,510
4,5,860,2017-02-16,610
...,...,...,...,...
13281,13282,679,2019-10-18,350
13282,13283,679,2019-10-14,990
13283,13284,679,2019-10-28,740
13284,13285,876,2019-09-10,1210


## Renommage des colonnes

In [57]:
data171819.rename(columns={"objectid": "objectidCollecteur", "date ":"date", "Poids Kg":"poids"}, inplace=True)
data171819

Unnamed: 0,id,objectidCollecteur,date,poids
0,1,860,2017-01-05,500
1,2,860,2017-01-12,330
2,3,860,2017-01-26,490
3,4,860,2017-02-02,510
4,5,860,2017-02-16,610
...,...,...,...,...
13281,13282,679,2019-10-18,350
13282,13283,679,2019-10-14,990
13283,13284,679,2019-10-28,740
13284,13285,876,2019-09-10,1210


# Création des DataFrames

# Intégration des DataFrames dans MySQL


In [134]:
data171819.to_sql('collecte', con=engine, index = False, if_exists = 'append')

2020-10-23 10:38:52,546 INFO sqlalchemy.engine.base.Engine DESCRIBE `collecte`
2020-10-23 10:38:52,547 INFO sqlalchemy.engine.base.Engine {}
2020-10-23 10:38:52,557 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-23 10:38:52,623 INFO sqlalchemy.engine.base.Engine INSERT INTO collecte (id, `objectidCollecteur`, date, poids) VALUES (%(id)s, %(objectidCollecteur)s, %(date)s, %(poids)s)
2020-10-23 10:38:52,624 INFO sqlalchemy.engine.base.Engine ({'id': 1, 'objectidCollecteur': 860, 'date': datetime.datetime(2017, 1, 5, 0, 0), 'poids': 500}, {'id': 2, 'objectidCollecteur': 860, 'date': datetime.datetime(2017, 1, 12, 0, 0), 'poids': 330}, {'id': 3, 'objectidCollecteur': 860, 'date': datetime.datetime(2017, 1, 26, 0, 0), 'poids': 490}, {'id': 4, 'objectidCollecteur': 860, 'date': datetime.datetime(2017, 2, 2, 0, 0), 'poids': 510}, {'id': 5, 'objectidCollecteur': 860, 'date': datetime.datetime(2017, 2, 16, 0, 0), 'poids': 610}, {'id': 6, 'objectidCollecteur': 860, 'date': datetime.