# Analyse des jeux de données data_sig_collecte
Ce document analyse les jeux de données fournies par la CACPL disponible [ici](../../data/data_sig_collecte)

Il ya 6 jeux de données :
* col_decheterie : inventaire de déchèteries
* col_om_pt : inventaire des collecteurs d'ordures ménagères
* col_papier_pt : inventaire des collecteurs de papier
* col_tri_pt : inventaire des collecteurs d'emballages et papiers
* col_verre_pt : inventaire des collecteurs de verre
* col_vetement_pt : inventaire des collecteurs de vêtements



## Importation des librairies

In [1]:
import pandas as pd

## Lecture des fichiers

In [2]:
dataDecheterie = pd.read_csv("../../data/data_sig_collecte/col_decheterie.csv", encoding="ISO-8859-1", sep=";")
dataOM = pd.read_csv("../../data/data_sig_collecte/col_om_pt.csv", encoding="ISO-8859-1", sep=";")
dataPapier = pd.read_csv("../../data/data_sig_collecte/col_papier_pt.csv", encoding="ISO-8859-1", sep=";")
dataTri = pd.read_csv("../../data/data_sig_collecte/col_tri_pt.csv", encoding="ISO-8859-1", sep=";")
dataVerre = pd.read_csv("../../data/data_sig_collecte/col_verre_pt.csv", encoding="ISO-8859-1", sep=";")
dataVetement = pd.read_csv("../../data/data_sig_collecte/col_vetement_pt.csv", encoding="ISO-8859-1", sep=";")

## Jeu de données des déchèterie
### Aperçu du fichier
Il contient 28 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* adresse : adresse de la déchèterie
* adresse_comp : complément de l'adresse de la déchèterie
* code_insee : code INSEE de la ville (différent du code départemental)
* veget : indicateur du traitement des végétations par la déchèterie
* bois : indicateur du traitement du bois par la déchèterie
* metal : indicateur du traitement du métal par la déchèterie
* grav_prop : indicateur du traitement des gravats propres par la déchèterie
* grav_sal : indicateur du traitement des gravats sales par la déchèterie
* carton : indicateur du traitement du carton par la déchèterie
* d3e : indicateur du traitement des D3E (Déchets d'Equipements Electriques et Electroniques) par la déchèterie
* dech_men_spe : indicateur du traitement des déchets ménagers spéciaux par la déchèterie
* neon : indicateur du traitement des néons par la déchèterie
* batterie : indicateur du traitement des batteries par la déchèterie
* pile : indicateur du traitement des piles par la déchèterie
* gaz : indicateur du traitement du gaz par la déchèterie
* extincteur : indicateur du traitement des extincteurs par la déchèterie
* huil_veget_mineral : indicateur du traitement des huiles végétales et minérales par la déchèterie
* date_instal : date d'installation de la déchèterie
* observations : observations éventuelles
* creation : pseudo de la personne qui a enregistré la déchèteries dans la BDD
* date_creation : date et temps de l'enregistrement de la déchèterie dans la BDD
* modification : peudo de la personne qui a modifié en dernier la déchèteries dans la BDD
* date_modification : date et temps de la dernière modification de la déchèterie dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* _x : longitude de la déchèterie
* _y : latitude de la déchèterie


In [3]:
dataDecheterie.head()

Unnamed: 0,objectid,id,adresse,adresse_comp,code_insee,veget,bois,metal,grav_prop,grav_sal,...,huil_veget_mineral,date_instal,observations,creation,date_creation,modification,date_modification,globalid,_x,_y
0,801,,Impasse de l aubarede,,6030,Oui,Oui,Oui,Oui,Oui,...,Oui,,,chpayet,20200723135923,chpayet,20200723135923,{F24B4AF3-17BF-4215-B07F-044AA37EA4E5},6.983613,43.566849
1,1201,,Chemin du coudouron,,6085,Oui,Oui,Oui,Oui,Non,...,Oui,,,chpayet,20200727125141,chpayet,20200727125459,{26CF70EB-23DD-4399-ACBA-98434B6BFC1A},6.964639,43.581638
2,1601,,Déchèterie des tourades,,6029,Oui,Oui,Oui,Oui,Oui,...,Oui,,,chpayet,20200731130159,chpayet,20200731130332,{83866245-B862-4D22-B436-D5B1A64F5441},6.95432,43.556717


### Dimension du jeu de données

In [4]:
 print("Le jeu de données recense", dataDecheterie.shape[0], "déchèteries avec", dataDecheterie.shape[1], "variables")

Le jeu de données recense 3 déchèteries avec 28 variables


### Valeurs manquantes
Le jeu de données est complet

Aucune des déchèteries ne possède de valeur pour les colonnes id, adresse_comp, date_instal et observations


In [5]:
dataDecheterie.isna().sum()

objectid              0
id                    3
adresse               0
adresse_comp          3
code_insee            0
veget                 0
bois                  0
metal                 0
grav_prop             0
grav_sal              0
carton                0
d3e                   0
dech_men_spe          0
neon                  0
batterie              0
pile                  0
gaz                   0
extincteur            0
huil_veget_mineral    0
date_instal           3
observations          3
creation              0
date_creation         0
modification          0
date_modification     0
globalid              0
_x                    0
_y                    0
dtype: int64

### Décompte des doublons

In [6]:
dataDecheterie.duplicated().sum()

0

### Notes générales
Les 3 déchèteries traitent les végétations, le bois, le métal, les gravats propres, le carton, les déchets d’équipements électriques et électroniques, les néons, les batteries, les piles, le gaz, les extincteurs et les huiles végétales et minérales

Seule la déchèterie de Mougins ne traite pas les gravats sales et les déchets ménagers spéciaux

In [7]:
cols = ["veget", "bois", "metal", "grav_prop", "grav_sal", "carton", "d3e", "dech_men_spe", "neon", "batterie", "pile", "gaz", "extincteur", "huil_veget_mineral"]
for col in cols:
    print(dataDecheterie[col].value_counts())

Oui    3
Name: veget, dtype: int64
Oui    3
Name: bois, dtype: int64
Oui    3
Name: metal, dtype: int64
Oui    3
Name: grav_prop, dtype: int64
Oui    2
Non    1
Name: grav_sal, dtype: int64
Oui    3
Name: carton, dtype: int64
Oui    3
Name: d3e, dtype: int64
Oui    2
Non    1
Name: dech_men_spe, dtype: int64
Oui    3
Name: neon, dtype: int64
Oui    3
Name: batterie, dtype: int64
Oui    3
Name: pile, dtype: int64
Oui    3
Name: gaz, dtype: int64
Oui    3
Name: extincteur, dtype: int64
Oui    3
Name: huil_veget_mineral, dtype: int64


In [8]:
dataDecheterie[dataDecheterie.grav_sal == "Non"]

Unnamed: 0,objectid,id,adresse,adresse_comp,code_insee,veget,bois,metal,grav_prop,grav_sal,...,huil_veget_mineral,date_instal,observations,creation,date_creation,modification,date_modification,globalid,_x,_y
1,1201,,Chemin du coudouron,,6085,Oui,Oui,Oui,Oui,Non,...,Oui,,,chpayet,20200727125141,chpayet,20200727125459,{26CF70EB-23DD-4399-ACBA-98434B6BFC1A},6.964639,43.581638


In [9]:
dataDecheterie[dataDecheterie.dech_men_spe == "Non"]

Unnamed: 0,objectid,id,adresse,adresse_comp,code_insee,veget,bois,metal,grav_prop,grav_sal,...,huil_veget_mineral,date_instal,observations,creation,date_creation,modification,date_modification,globalid,_x,_y
1,1201,,Chemin du coudouron,,6085,Oui,Oui,Oui,Oui,Non,...,Oui,,,chpayet,20200727125141,chpayet,20200727125459,{26CF70EB-23DD-4399-ACBA-98434B6BFC1A},6.964639,43.581638


## Jeu de données des collecteurs d'ordures ménagères
### Aperçu du fichier
Il contient 19 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* type : type de collecteur
* volume : volume du collecteur (en L ou en m<sup>3</sup>)
* quantite : quantité de collecteurs
* marque : marque du collecteur
* date_instal : date d'installation du collecteur
* adresse : adresse du collecteur
* adresse_comp : complément de l'adresse du collecteur
* code_insee : code INSEE de la ville (différent du code départemental)
* observations : observations éventuelles
* creation : pseudo de la personne qui a enregistré le collecteur dans la BDD
* date_creation : date et temps de l'enregistrement du collecteur dans la BDD
* modification : peudo de la personne qui a modifié en dernier le collecteur dans la BDD
* date_modification : date et temps de la dernière modification du collecteur dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* etat : 
* _x : longitude du collecteur
* _y : latitude du collecteur

In [10]:
dataOM.head()

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,2002,,Bac aérien avec cache bac,660 L,1,Plastic Omnium,,Gare tsm,,6138.0,,chpayet,20191204083917,chpayet,20191204083917,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},,6.937009,43.513302
1,3202,,Bac aérien avec cache bac,660 L,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,6138.0,,chpayet,20200102131948,chpayet,20200102131948,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},,6.941518,43.49054
2,2003,,Bac aérien sans cache bac,660 L,1,Plastic Omnium,,Prince des iles,,6138.0,,chpayet,20191204084630,chpayet,20191204084630,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},,6.937398,43.509171
3,2004,,Bac aérien sans cache bac,660 L,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,6138.0,,chpayet,20191204085306,chpayet,20191204085306,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},,6.938353,43.508087
4,2005,,Bac aérien sans cache bac,660 L,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,6138.0,,chpayet,20191204090036,chpayet,20191204090036,{53D62EB0-B046-4D5D-B636-94646AC984AA},,6.940556,43.507687


### Dimension du jeu de données

In [11]:
 print("Le jeu de données recense", dataOM.shape[0], "collecteurs avec", dataOM.shape[1], "variables")

Le jeu de données recense 386 collecteurs avec 19 variables


### Valeurs manquantes
Le jeu de données n'est pas complet.

Aucun des collecteurs ne possède de valeur pour date_instal et etat.

La plupart des collecteurs n'a pas d'id ni de complément d'adresse, ni d'observation (ce qui n'est pas gênant)

Il manque un code INSEE (06029 pour 22 Corniche paradis)

Il manque les noms de marque pour certains collecteurs : 2 lignes n'ont pas de marque définie

Un collecteur n'a pas d'adresse

D'autres manques sont précisés dans la partie Notes générales

In [12]:
dataOM.isna().sum()

objectid               0
id                   345
type                   0
volume                 0
quantite               0
marque                 2
date_instal          386
adresse                1
adresse_comp         366
code_insee             1
observations         384
creation               0
date_creation          0
modification           0
date_modification      0
globalid               0
etat                 386
_x                     0
_y                     0
dtype: int64

In [13]:
dataOM[dataOM.code_insee.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
253,9633,,Bac aérien sans cache bac,660 L,1,Contenur,,22 Corniche paradis,,,,chpayet,20200507091717,chpayet,20200507091717,{33D295CF-CBD3-4049-83A8-02E0BDAB0078},,7.035603,43.564667


In [14]:
dataOM[dataOM.marque.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
23,2414,,Bac aérien avec cache bac,660 L,1,,,16 avenue du trayas,,6138.0,,chpayet,20191206094728,chpayet,20191206094728,{83E9E79C-30B9-4810-A497-57A622270EFA},,6.929938,43.484035
141,4016,,Bac aérien sans cache bac,660 L,6,,,Avenue Robert Schuman,,6079.0,,chpayet,20200109143551,chpayet,20200109143813,{80EA24D1-D67F-4A79-B041-87DE1A7F696F},,6.917853,43.538933


In [15]:
dataOM[dataOM.adresse.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
65,3204,,Bac aérien sans cache bac,660 L,1,Plastic Omnium,,,,6138.0,,chpayet,20200102132612,chpayet,20200102132612,{7E0F84F0-A1FC-4B0C-9E96-67BC6C993BD1},,6.94299,43.489315


### Décompte des doublons

In [16]:
dataOM.duplicated().sum()

0

### Notes générales

Un type de collecteur n'est pas précisé (bac aérien vu que le volume est précisé en L)

In [17]:
dataOM.type.value_counts()

Bac aérien sans cache bac    192
Bac aérien avec cache bac    133
PAV cuve enterrée             35
PAV enterré ascenseur         17
PAV cuve semi-enterrée         6
PAV cuve compactrice           2
                               1
Name: type, dtype: int64

In [18]:
dataOM[dataOM.type == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
128,8021,,,340 L,1,Contenur,,Impasse saint claude,,6030.0,,chpayet,20200310085858,chpayet,20200310085858,{5F8A550E-7D06-4523-B2DE-75CAC4A8EDC3},,7.019745,43.571297


4 collecteurs n'ont pas le volume précisé (il est peut-être possible de retrouver le volume par comparaison des photographies)

In [19]:
dataOM.volume.value_counts()

660 L      283
3 m3        34
750 L       21
4 m3        17
340 L       15
240 L        6
5 m3         5
             4
< 240 L      1
Name: volume, dtype: int64

In [20]:
dataOM[dataOM.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
108,5619,,PAV cuve enterrée,,1,Contenur,,2 avenue isola bella,,6029.0,,chpayet,20200205091249,chpayet,20200205091249,{F761890A-0194-4B2A-833D-60D6F61CEA5B},,7.024379,43.55584
232,8421,,PAV cuve enterrée,,2,,,Rue Amador lopez,,6029.0,,chpayet,20200417075039,chpayet,20200417075039,{98218ED9-38E5-4525-89A3-77BCBB533F9C},,6.963249,43.556019
242,8425,,PAV enterré ascenseur,,1,Ecollect,,146 avenue Michel jourdan,,6029.0,,chpayet,20200417082139,chpayet,20200417082139,{D8F695AF-59DF-4EB7-AE63-7F0856CA882B},,6.968542,43.558376
336,16049,,PAV cuve enterrée,,1,Contenur,,Avenue pierre semard,,6029.0,,chpayet,20200819085514,chpayet,20200819085514,{0556B869-083B-40CD-9576-36BC6DC523E0},,6.977401,43.548309


40 collecteurs ont la marque " " (soit 40 sans marque à ajouter aux 2 détectés précédemment)

In [21]:
dataOM.marque.value_counts()

Contenur          259
Plastic Omnium     58
                   40
Ecollect           14
Citec              13
Name: marque, dtype: int64

In [22]:
dataOM[dataOM.marque == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
20,2412,"660009218,6601801328,c110",Bac aérien avec cache bac,660 L,3,,,16 avenue du trayas,,6138.0,,chpayet,20191206094139,chpayet,20191206094139,{85FCBB7E-829C-4A12-8C9F-26864FFA595C},,6.929891,43.484089
24,2415,,Bac aérien avec cache bac,< 240 L,1,,,16 avenue du trayas,,6138.0,,chpayet,20191206094909,chpayet,20191206094909,{26C0D5E8-5A31-4B7E-B802-F1CDFBCF5270},,6.929922,43.484051
53,2822,,Bac aérien sans cache bac,750 L,1,,,37 avenue saint Hubert,,6138.0,,chpayet,20191211095910,chpayet,20191211095910,{10C27FF7-E7E5-4F12-88DC-56A85F5796CF},,6.94324,43.503384
103,5617,,Bac aérien avec cache bac,750 L,3,,,1 rue Marcel berthelot,Sur le parking,6029.0,,chpayet,20200205090258,chpayet,20200205090258,{193D1690-9CC5-4FD4-A0B1-005525BD8B54},,7.022876,43.556847
113,5622,,Bac aérien avec cache bac,660 L,2,,,1 boulevard de lorraine,,6029.0,,chpayet,20200205094631,chpayet,20200205094631,{7A4C34AE-540E-4B41-B3BD-56D96BDB4A4D},,7.025346,43.55381
130,18449,,Bac aérien sans cache bac,660 L,1,,,60 boulevard Paul doumer,,6030.0,,chpayet,20200901090811,chpayet,20200901090811,{615ED45F-7E3D-49F3-879A-8BCD30DCCF94},,7.009606,43.570232
133,6038,,PAV cuve enterrée,5 m3,1,,,Square Frédéric mistral,,6029.0,,chpayet,20200210094150,chpayet,20200210094150,{E755A6D9-6C1B-441B-BD49-E6E31C782E7E},,7.007435,43.548866
134,6039,,PAV cuve enterrée,4 m3,1,,,Square Frédéric mistral,,6029.0,Accès avec clef,chpayet,20200210094932,chpayet,20200210094932,{CFB0FE37-3521-40FC-B55B-1C5F4BF9ADBC},,7.006215,43.548965
136,4017,,Bac aérien sans cache bac,750 L,2,,,Avenue Robert Schuman,,6079.0,,chpayet,20200109143702,chpayet,20200109143725,{0C31F0A3-54AA-46F5-9B7D-6AD3A6839AEC},,6.917846,43.538963
139,6043,,Bac aérien sans cache bac,660 L,2,,,Impasse mouraillle,,6029.0,,chpayet,20200210102055,chpayet,20200210102055,{6F1313A5-B78E-44DB-AD9F-2431DB6E7A4F},,7.008286,43.556664


Plusieurs collecteurs partagent la même adresse

In [23]:
dataOM.adresse.value_counts()

Port canto                        6
Avenue van loo                    6
Avenue corniche d or              4
Avenue montier                    4
Boulevard de l esquillon          3
                                 ..
12 rue Guy de maupassant          1
25 rue de cannes                  1
Chemin de la bastiere             1
71 boulevard de la république     1
Allée des pins                    1
Name: adresse, Length: 317, dtype: int64

Ces collecteurs sont nombreux à Cannes ainsi qu'à Théoule-sur-Mer

In [24]:
dataOM.code_insee.value_counts()

6029.0    206
6138.0     90
6030.0     56
6079.0     24
6085.0      9
Name: code_insee, dtype: int64

2 commentaires sont indiqués

In [25]:
dataOM[dataOM.observations.notna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
134,6039,,PAV cuve enterrée,4 m3,1,,,Square Frédéric mistral,,6029.0,Accès avec clef,chpayet,20200210094932,chpayet,20200210094932,{CFB0FE37-3521-40FC-B55B-1C5F4BF9ADBC},,7.006215,43.548965
171,4413,,PAV enterré ascenseur,4 m3,4,Ecollect,,Rue hoche,,6029.0,Borne à télécommande 3 trappes au sol et une b...,chpayet,20200128084141,chpayet,20200128091819,{60A84588-BCBB-49CA-9C15-A241DCAD2B5A},,7.018925,43.553131


## Jeu de données des des collecteurs de papier
### Aperçu du fichier
Il contient 20 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* type : type de collecteur
* volume : volume du collecteur (en L ou en m<sup>3</sup>)
* quantite : quantité de collecteurs
* marque : marque du collecteur
* date_instal : date d'installation du collecteur
* adresse : adresse du collecteur
* adresse_comp : complément de l'adresse du collecteur
* code_insee : code INSEE de la ville (différent du code départemental)
* observations : observations éventuelles
* accessibilite :
* creation : pseudo de la personne qui a enregistré le collecteur dans la BDD
* date_creation : date et temps de l'enregistrement du collecteur dans la BDD
* modification : peudo de la personne qui a modifié en dernier le collecteur dans la BDD
* date_modification : date et temps de la dernière modification du collecteur dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* etat : 
* _x : longitude du collecteur
* _y : latitude du collecteur

In [26]:
dataPapier.head()

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787


### Dimension du jeu de données

In [27]:
 print("Le jeu de données recense", dataPapier.shape[0], "collecteurs avec", dataPapier.shape[1], "variables")

Le jeu de données recense 34 collecteurs avec 20 variables


### Valeurs manquantes
Le jeu de données semble complet mais des manques sont précisés dans la partie Notes générales

Aucun des collecteurs ne possède de valeur pour id, date_instal, accessibilite et etat

La plupart des collecteurs n'a pas de complément d'adresse, ni d'observation (ce qui n'est pas gênant)

In [28]:
dataPapier.isna().sum()

objectid              0
id                   34
type                  0
volume                0
quantite              0
marque                0
date_instal          34
adresse               0
adresse_comp         30
code_insee            0
observations         33
accessibilite        34
creation              0
date_creation         0
modification          0
date_modification     0
globalid              0
etat                 34
_x                    0
_y                    0
dtype: int64

### Décompte des doublons

In [29]:
dataPapier.duplicated().sum()

0

### Notes générales

8 types de collecteur ne sont pas précisés (il est peut-être possible de les retrouver par comparaison des photographies)

In [30]:
dataPapier.type.value_counts()

PAV cuve enterrée    17
Colonne aérienne      9
                      8
Name: type, dtype: int64

In [31]:
dataPapier[dataPapier.type == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787
5,1205,,,,1,,,7 chemin de l aubarede,,6030,,,chpayet,20200310100220,chpayet,20200310100220,{0A6616FF-EE2F-4512-ADA2-023B7FF4255A},,6.98412,43.573116
7,4002,,,,1,,,Rue Marcel pagnol,,6030,,,chpayet,20200723083331,chpayet,20200723083331,{00153039-CB46-4664-A251-D2E3381B822E},,6.988643,43.573776
8,4003,,,,1,,,Rue cite des jardins,,6030,,,chpayet,20200723084148,chpayet,20200723084148,{42EEB3C0-EF20-4ADF-B995-15B97DBE0068},,6.998,43.576679


8 collecteurs n'ont pas le volume précisé (les mêmes que ci-dessus)

In [32]:
dataPapier.volume.value_counts()

4 m3    17
3 m3     9
         8
Name: volume, dtype: int64

In [33]:
dataPapier[dataPapier.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787
5,1205,,,,1,,,7 chemin de l aubarede,,6030,,,chpayet,20200310100220,chpayet,20200310100220,{0A6616FF-EE2F-4512-ADA2-023B7FF4255A},,6.98412,43.573116
7,4002,,,,1,,,Rue Marcel pagnol,,6030,,,chpayet,20200723083331,chpayet,20200723083331,{00153039-CB46-4664-A251-D2E3381B822E},,6.988643,43.573776
8,4003,,,,1,,,Rue cite des jardins,,6030,,,chpayet,20200723084148,chpayet,20200723084148,{42EEB3C0-EF20-4ADF-B995-15B97DBE0068},,6.998,43.576679


La plupart des collecteurs (29) a la marque " " 

In [34]:
dataPapier.marque.value_counts()

                  29
Plastic Omnium     4
Contenur           1
Name: marque, dtype: int64

In [35]:
dataPapier[dataPapier.marque == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787
5,1205,,,,1,,,7 chemin de l aubarede,,6030,,,chpayet,20200310100220,chpayet,20200310100220,{0A6616FF-EE2F-4512-ADA2-023B7FF4255A},,6.98412,43.573116
6,2004,,PAV cuve enterrée,4 m3,2,,,1332 avenue notre dame de vie,,6085,,,chpayet,20200429110135,chpayet,20200731123005,{5F42EED6-15D2-4799-82E2-377DE5F69AF3},,7.00155,43.593269
7,4002,,,,1,,,Rue Marcel pagnol,,6030,,,chpayet,20200723083331,chpayet,20200723083331,{00153039-CB46-4664-A251-D2E3381B822E},,6.988643,43.573776
8,4003,,,,1,,,Rue cite des jardins,,6030,,,chpayet,20200723084148,chpayet,20200723084148,{42EEB3C0-EF20-4ADF-B995-15B97DBE0068},,6.998,43.576679
10,4001,,PAV cuve enterrée,3 m3,1,,,Place benidorm,,6030,,,chpayet,20200723081915,chpayet,20200723133557,{65AA072C-D5CF-4D4C-8F3C-0517057EE03A},,7.014975,43.570587


Tous les collecteurs ont des adresses différentes

In [36]:
dataPapier.adresse.value_counts()

Rue cite des jardins               1
21 avenue thiers                   1
10 boulevard d olivetum            1
89 avenue du moulin de la croix    1
Allée Henri barbara                1
Avenue maréchal juin               1
Boulevard Jacques monod            1
Parking jean giono                 1
Rue Marcel pagnol                  1
Chemin de la plaine                1
Place benidorm                     1
24 avenue de la pinede             1
763 chemin des cabrieres           1
Avenue Georges Pompidou            1
Chemin de la grande bastide        1
Chemin de campane                  1
Déchèterie tourrades               1
Chemin de coudouron                1
Chemin du refuge                   1
Cimetiere du claus                 1
Chemin de faissole                 1
Rue des orangers                   1
2 chemin des vallons               1
Rue saint jacques                  1
Boulevard de l esterel             1
Avenue font roubert                1
Chemin de font de currault         1
A

Ces collecteurs sont principalement répartis entre Mougins et Le Cannet

In [37]:
dataPapier.code_insee.value_counts()

6085    17
6030    16
6029     1
Name: code_insee, dtype: int64

1 observation est indiquée

In [38]:
dataPapier[dataPapier.observations.notna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
21,2401,,Colonne aérienne,4 m3,1,,,615 avenue Maurice donat,,6085,Mougin school,,chpayet,20200514084135,chpayet,20200727113503,{0164BDF5-1283-4BF9-9530-C10713C113F9},,7.014427,43.612484


## Jeu de données des des collecteurs d'emballages et papiers
### Aperçu du fichier
Il contient 20 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* type : type de collecteur
* volume : volume du collecteur (en L ou en m<sup>3</sup>)
* quantite : quantité de collecteurs
* marque : marque du collecteur
* date_instal : date d'installation du collecteur
* adresse : adresse du collecteur
* adresse_comp : complément de l'adresse du collecteur
* code_insee : code INSEE de la ville (différent du code départemental)
* observations : observations éventuelles
* accessibilite :
* creation : pseudo de la personne qui a enregistré le collecteur dans la BDD
* date_creation : date et temps de l'enregistrement du collecteur dans la BDD
* modification : peudo de la personne qui a modifié en dernier le collecteur dans la BDD
* date_modification : date et temps de la dernière modification du collecteur dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* etat : 
* _x : longitude du collecteur
* _y : latitude du collecteur

In [39]:
dataTri.head()

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1202,6601902190,Bac aérien sans cache bac,660 L,1,,,Gare tsm,,6138.0,,,chpayet,20191204083647,chpayet,20191204083647,{0BF5EDFF-B6EC-4A9B-9A85-D5C43F338FFF},,6.936994,43.513302
1,1203,6601902012,Bac aérien sans cache bac,660 L,1,Contenur,,Prince des iles,,6138.0,,,chpayet,20191204084515,chpayet,20191204084515,{CBC5605B-2FC8-4F3F-BC2D-FF846415E9D7},,6.937348,43.509136
2,1204,6601901994,Bac aérien sans cache bac,660 L,1,Contenur,,Eglise trottoir château avenue de lerins,,6138.0,,,chpayet,20191204085152,chpayet,20191204085152,{EA97EB92-2BC7-4B8C-93A4-3DD0C6860CD5},,6.938404,43.508076
3,1205,6601901971,Bac aérien sans cache bac,,1,Contenur,,Avenue de lerins angle traverse magasin souvenir,,6138.0,,,chpayet,20191204085827,chpayet,20191204085827,{4A1D509F-70AF-476A-9436-9A0BDC2B9903},,6.940569,43.507717
4,1206,6601902153,Bac aérien sans cache bac,660 L,1,Contenur,,Avenue montrer résidence aquarella,,6138.0,,,chpayet,20191204090411,chpayet,20191204090411,{6F6BE0FD-DB47-4034-8D38-2193ABE495AA},,6.940699,43.507584


### Dimension du jeu de données

In [40]:
 print("Le jeu de données recense", dataTri.shape[0], "collecteurs avec", dataTri.shape[1], "variables")

Le jeu de données recense 239 collecteurs avec 20 variables


### Valeurs manquantes
Le jeu de données n'est pas complet

Aucun des collecteurs ne possède de valeur pour date_instal, accessibilite et etat

La plupart des collecteurs n'a pas d'id ni de complément d'adresse, ni d'observation (ce qui n'est pas gênant)

Il manque un code INSEE (06138 pour Avenue de la côte d azur à Théoule-sur-Mer) et un nom de marque

D'autres manques sont précisés dans la partie Notes générales

In [41]:
dataTri.isna().sum()

objectid               0
id                   191
type                   0
volume                 0
quantite               0
marque                 1
date_instal          239
adresse                0
adresse_comp         219
code_insee             1
observations         237
accessibilite        239
creation               0
date_creation          0
modification           0
date_modification      0
globalid               0
etat                 239
_x                     0
_y                     0
dtype: int64

In [42]:
dataTri[dataTri.code_insee.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
41,1619,,Colonne aérienne,5 m3,2,,,Avenue de la côte d azur,A côté du snack,,,,chpayet,20191206104325,chpayet,20191206104325,{4CFBB363-B51A-47F8-9DA6-4B71D642A26E},,6.945003,43.493664


In [43]:
dataTri[dataTri.marque.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
71,2805,,Bac aérien avec cache bac,660 L,1,,,Rue des hautes roches,,6079.0,,,chpayet,20200107144013,chpayet,20200107144013,{272DED53-87E1-4E65-9673-0808E3C566CD},,6.93992,43.52433


### Décompte des doublons

In [44]:
dataTri.duplicated().sum()

0

### Notes générales

Tous les type de collecteur sont précisés

In [45]:
dataTri.type.value_counts()

Bac aérien sans cache bac    105
Bac aérien avec cache bac     47
PAV cuve enterrée             45
Colonne aérienne              25
PAV enterré ascenseur         15
PAV cuve compactrice           2
Name: type, dtype: int64

4 collecteurs n'ont pas le volume précisé (il est peut-être possible de retrouver le volume par comparaison des photographies)

In [46]:
dataTri.volume.value_counts()

660 L    124
3 m3      38
4 m3      22
2 m3      20
340 L     14
750 L      8
5 m3       5
240 L      4
           4
Name: volume, dtype: int64

In [47]:
dataTri[dataTri.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
3,1205,6601901971.0,Bac aérien sans cache bac,,1,Contenur,,Avenue de lerins angle traverse magasin souvenir,,6138.0,,,chpayet,20191204085827,chpayet,20191204085827,{4A1D509F-70AF-476A-9436-9A0BDC2B9903},,6.940569,43.507717
11,1601,6601902149.0,Bac aérien sans cache bac,,1,Contenur,,Rue du sanglier,,6138.0,,,chpayet,20191206083601,chpayet,20191206083601,{18A21742-B694-419A-B1E5-878C3468DB18},,6.940382,43.505402
28,1606,,Colonne aérienne,,1,Plastic Omnium,,37 avenue miramar,,6138.0,,,chpayet,20191206090811,chpayet,20191206090811,{61E9863A-23C4-4EA2-A353-BB3876F9A790},,6.941048,43.486649
80,3210,,Colonne aérienne,,1,Plastic Omnium,,Rue Yves brayer,,6079.0,,,chpayet,20200109140102,chpayet,20200109140241,{EBDD8B98-DEA4-4CB0-97B6-94FA1AC06134},,6.91923,43.524628


42 collecteurs ont la marque " " (soit 42 sans marque à ajouter à celui détecté précédemment)

In [48]:
dataTri.marque.value_counts()

Contenur          151
                   42
Plastic Omnium     29
Ecollect           14
Citec               2
Name: marque, dtype: int64

In [49]:
dataTri[dataTri.marque == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1202,6601902190.0,Bac aérien sans cache bac,660 L,1,,,Gare tsm,,6138.0,,,chpayet,20191204083647,chpayet,20191204083647,{0BF5EDFF-B6EC-4A9B-9A85-D5C43F338FFF},,6.936994,43.513302
29,1607,6601902216.0,Bac aérien sans cache bac,660 L,1,,,37 avenue miramar,,6138.0,,,chpayet,20191206090918,chpayet,20191206090918,{AEB57920-27D5-4511-ADDA-6FCC24C37686},,6.941064,43.486656
41,1619,,Colonne aérienne,5 m3,2,,,Avenue de la côte d azur,A côté du snack,,,,chpayet,20191206104325,chpayet,20191206104325,{4CFBB363-B51A-47F8-9DA6-4B71D642A26E},,6.945003,43.493664
70,4808,,Bac aérien avec cache bac,750 L,2,,,Quai saint pierre,,6029.0,,,chpayet,20200205103951,chpayet,20200205103951,{A5A02AA2-CAEC-446F-B4E3-4A094E9CE55B},,7.012471,43.549255
74,2806,,PAV cuve enterrée,4 m3,1,,,Parking jean aulas,,6079.0,,,chpayet,20200107144816,chpayet,20200107152043,{B8D9D8F9-FEEA-4B83-976B-497EC42AE4F6},,6.940715,43.52343
76,3206,,PAV cuve enterrée,4 m3,1,,,Place de Provence,,6079.0,,,chpayet,20200109133707,chpayet,20200109133707,{540FCCC3-A086-48D8-95D5-97AC2D0358B0},,6.927918,43.528706
77,3207,,PAV cuve enterrée,4 m3,1,,,Place de Provence,,6079.0,,,chpayet,20200109133926,chpayet,20200109133926,{929129BB-C398-4DDB-9A53-07833F0741B7},,6.92767,43.528378
82,3212,,PAV cuve enterrée,4 m3,1,,,Avenue Robert schuman,,6079.0,,,chpayet,20200109142602,chpayet,20200109142602,{A62EC4AC-9070-4909-B7A3-DDDA50CD0503},,6.924716,43.540428
83,3213,,Bac aérien sans cache bac,660 L,4,,,Avenue Robert Schuman,,6079.0,,,chpayet,20200109143452,chpayet,20200109143749,{D81CC18E-E65F-4816-A55D-ECFFFC075EE2},,6.917873,43.538963
85,3605,,PAV cuve compactrice,5 m3,1,,,Rue Félix faure,,6029.0,Marque sidcon,,chpayet,20200128085112,chpayet,20200128085125,{D813424C-8239-47D1-BA9E-D17BA17869FB},,7.015219,43.552151


Plusieurs collecteurs partagent la même adresse

In [50]:
dataTri.adresse.value_counts()

Port canto                                  6
Avenue corniche d or                        4
Avenue van loo                              3
Avenue Marcel pagnol                        3
Place de l etang                            2
                                           ..
Allée des mesanges                          1
53 avenue Michel jourdan                    1
Résidence les terrasses de saint honorat    1
Allée calypso                               1
Allée des pins                              1
Name: adresse, Length: 212, dtype: int64

Ces collecteurs sont répartis sur toute l'agglomération

In [51]:
dataTri.code_insee.value_counts()

6029.0    91
6138.0    62
6079.0    51
6030.0    27
6085.0     7
Name: code_insee, dtype: int64

2 commentaires sont indiqués (dont 1 pour spécifier la marque)

In [52]:
dataTri[dataTri.observations.notna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
85,3605,,PAV cuve compactrice,5 m3,1,,,Rue Félix faure,,6029.0,Marque sidcon,,chpayet,20200128085112,chpayet,20200128085125,{D813424C-8239-47D1-BA9E-D17BA17869FB},,7.015219,43.552151
104,5213,,PAV cuve enterrée,5 m3,1,,,Square Frédéric mistral,,6029.0,Accès avec clé,,chpayet,20200210094029,chpayet,20200210094029,{BD230893-813E-4599-BAC6-358F26475DA3},,7.00733,43.548889


## Jeu de données des des collecteurs de verre
### Aperçu du fichier
Il contient 20 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* type : type de collecteur
* volume : volume du collecteur (en L ou en m<sup>3</sup>)
* quantite : quantité de collecteurs
* marque : marque du collecteur
* date_instal : date d'installation du collecteur
* adresse : adresse du collecteur
* adresse_comp : complément de l'adresse du collecteur
* code_insee : code INSEE de la ville (différent du code départemental)
* observations : observations éventuelles
* accessibilite :
* creation : pseudo de la personne qui a enregistré le collecteur dans la BDD
* date_creation : date et temps de l'enregistrement du collecteur dans la BDD
* modification : peudo de la personne qui a modifié en dernier le collecteur dans la BDD
* date_modification : date et temps de la dernière modification du collecteur dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* etat : 
* _x : longitude du collecteur
* _y : latitude du collecteur

In [53]:
dataVerre.head()

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,801,,Colonne aérienne,2 m3,1,Plastic Omnium,,Parking vallon de l autelgy,,6138,,,chpayet,20191204095255,chpayet,20191204095255,{8C8A3146-8C8C-42B1-A448-EE103992E272},,6.937228,43.503468
1,3601,,PAV cuve enterrée,3 m3,1,Contenur,,Rue massena,,6029,,,chpayet,20200205083327,chpayet,20200205083327,{2066B095-8486-432C-8663-0B36B4C81159},,7.017053,43.564602
2,1201,,Colonne aérienne,4 m3,1,Plastic Omnium,,37 avenue miramar,,6138,,,chpayet,20191206090657,chpayet,20191206090657,{85771445-84A5-4946-BD65-E9F2CB95A7CA},,6.941038,43.486687
3,1601,,PAV cuve enterrée,4 m3,1,,,Parking jean aulas,,6079,,,chpayet,20200107144907,chpayet,20200107151944,{BB3F959C-2915-455B-8665-C1958EC20BEE},,6.940708,43.523388
4,1202,,Colonne aérienne,2 m3,1,Plastic Omnium,,16 avenue du treyas,Parking face restaurant matipi,6138,,,chpayet,20191206092934,chpayet,20191206093820,{7BDBEF7C-741B-4EA2-83F8-B8C3222377DC},,6.929948,43.4841


### Dimension du jeu de données

In [54]:
 print("Le jeu de données recense", dataVerre.shape[0], "collecteurs avec", dataVerre.shape[1], "variables")

Le jeu de données recense 247 collecteurs avec 20 variables


### Valeurs manquantes
Le jeu de données est presque complet mais des manques sont précisés dans la partie Notes générales

Aucun des collecteurs ne possède de valeur pour id, date_instal et etat

La plupart des collecteurs n'a pas de complément d'adresse, ni d'observation ni de note d'accessbilité (ce qui n'est pas gênant)

Il manque un nom de marque


In [55]:
dataVerre.isna().sum()

objectid               0
id                   247
type                   0
volume                 0
quantite               0
marque                 1
date_instal          247
adresse                0
adresse_comp         222
code_insee             0
observations         177
accessibilite        235
creation               0
date_creation          0
modification           0
date_modification      0
globalid               0
etat                 247
_x                     0
_y                     0
dtype: int64

In [56]:
dataVerre[dataVerre.marque.isna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
21,3606,,Colonne aérienne,2 m3,1,,,32 boulevard de lorraine,,6029,Cliiink,,chpayet,20200205093613,chpayet,20200205093613,{44EB09E9-AB65-4ACC-8685-BB111FCE8242},,7.027551,43.552998


### Décompte des doublons

In [57]:
dataVerre.duplicated().sum()

0

### Notes générales

Un type de collecteur n'est pas précisé

In [58]:
dataVerre.type.value_counts()

Colonne aérienne     155
PAV cuve enterrée     91
                       1
Name: type, dtype: int64

In [59]:
dataVerre[dataVerre.type == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
46,4411,,,2 m3,1,,,12 bd du moulin,,6029,Cliiink,,chpayet,20200210101206,chpayet,20200210101206,{C2FC8587-14E1-47FE-9B67-49DA2D16409D},,7.007102,43.554081


1 collecteurs n'a pas le volume précisé (il est peut-être possible de retrouver le volume par comparaison des photographies)

In [60]:
dataVerre.volume.value_counts()

2 m3    108
4 m3     71
3 m3     67
          1
Name: volume, dtype: int64

In [61]:
dataVerre[dataVerre.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
32,3610,,PAV cuve enterrée,,1,,,Allées de la liberte,,6029,,,chpayet,20200205102900,chpayet,20200205102900,{8E40D486-52F3-4348-A69E-05EEEB7A5D66},,7.01616,43.551823


165 collecteurs ont la marque " " (soit 165 sans marque à ajouter à celui détecté précédemment)

In [62]:
dataVerre.marque.value_counts()

                  165
Plastic Omnium     46
Contenur           25
Ecollect            7
Citec               3
Name: marque, dtype: int64

In [63]:
dataVerre[dataVerre.marque == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
3,1601,,PAV cuve enterrée,4 m3,1,,,Parking jean aulas,,6079,,,chpayet,20200107144907,chpayet,20200107151944,{BB3F959C-2915-455B-8665-C1958EC20BEE},,6.940708,43.523388
10,2002,,PAV cuve enterrée,4 m3,1,,,Place de provence,,6079,,,chpayet,20200109133806,chpayet,20200109133806,{D0A7BC88-1178-4D57-9DC0-DCB31FA6A0F1},,6.927899,43.528717
12,2003,,PAV cuve enterrée,4 m3,1,,,Place de Provence,,6079,,,chpayet,20200109134011,chpayet,20200109134011,{83093452-9E4C-40B1-93DC-71685B53EEF9},,6.927634,43.528385
14,2005,,PAV cuve enterrée,4 m3,1,,,Avenue Robert schuman,,6079,,,chpayet,20200109142650,chpayet,20200109142650,{DDA78DC1-F178-4F3D-BC26-4F918D8527FC},,6.924761,43.540428
16,2006,,Colonne aérienne,3 m3,1,,,Avenue Robert Schuman,,6079,,,chpayet,20200109143304,chpayet,20200109143304,{82033326-658A-4294-AE25-6AF6C2625AB9},,6.917920,43.538967
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
238,17616,,Colonne aérienne,3 m3,1,,,Quai saint pierre,,6029,,,chpayet,20200826104207,chpayet,20200826104207,{909437DD-6156-49A1-9D07-79FF642C2F27},,7.012311,43.549591
239,8010,,PAV cuve enterrée,4 m3,1,,,89 avenue du moulin de la croix,,6085,Cliiink,,chpayet,20200429101943,chpayet,20200727112522,{49967CED-F997-4F6E-912E-6F67E6FDBD06},,6.997450,43.600979
240,7616,,Colonne aérienne,4 m3,1,,,559 Avenue de tournamy,,6085,,,chpayet,20200417093631,chpayet,20200727112720,{0378EE97-249E-4D88-AC58-BAE3B29B6549},,6.986272,43.601948
241,17617,,Colonne aérienne,4 m3,1,,,Jetée Albert Édouard,,6029,Cliiink,,chpayet,20200826110951,chpayet,20200826110951,{63D92ABB-A0B8-4179-B954-D378360AE4AA},,7.017046,43.548573


Plusieurs collecteurs partagent la même adresse

In [64]:
dataVerre.adresse.value_counts()

Chemin de garibondy            2
Chemin bastide rouge           2
Route du golf                  2
Avenue du riou                 2
Avenue des buissons ardents    2
                              ..
1 rue de lerins                1
Avenue janvier passero         1
allee henri barbara            1
Domaine du grand duc           1
Rue Félix faure                1
Name: adresse, Length: 237, dtype: int64

Ces collecteurs sont nombreux à Cannes

In [65]:
dataVerre.code_insee.value_counts()

6029    141
6030     42
6079     39
6085     19
6138      6
Name: code_insee, dtype: int64

70 commentaires sont indiqués dont 69 pour préciser qu'il s'agit du dispositif Cliiink (à harmoniser)

In [66]:
dataVerre[dataVerre.observations.notna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
21,3606,,Colonne aérienne,2 m3,1,,,32 boulevard de lorraine,,6029,Cliiink,,chpayet,20200205093613,chpayet,20200205093613,{44EB09E9-AB65-4ACC-8685-BB111FCE8242},,7.027551,43.552998
22,2403,,Colonne aérienne,2 m3,1,,,Rue Louis Blanc,,6029,Cliiink,Oui,chpayet,20200128092519,chpayet,20200128092519,{1B25A481-FA71-4110-B3A3-80E990577707},,7.012897,43.552677
27,3608,,Colonne aérienne,2 m3,1,,,1 rue de lerins,,6029,Cliiink,,chpayet,20200205101056,chpayet,20200205101056,{13422586-12A7-4648-A89C-5FD30B8CF394},,7.026492,43.551556
29,3204,,PAV cuve enterrée,4 m3,1,,,Rue cité jardin,,6030,Cliiink,,chpayet,20200130134852,chpayet,20200130134852,{6A1F143D-B0ED-4BA0-852E-DA87DDDB81AA},,6.998053,43.576694
33,3208,,Colonne aérienne,3 m3,1,Citec,,Rue de cannes impasse bracco,,6030,Cliiink,,chpayet,20200130142816,chpayet,20200130142816,{794F5B1F-9499-4B0B-B1A9-B432A79E7FFA},,7.019801,43.571999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
223,8011,,Colonne aérienne,4 m3,1,,,Chemin de la grande bastide,,6085,Cliiink,,chpayet,20200429103638,chpayet,20200727102707,{E82AD6BA-DEF2-4E60-97B7-339EC843B02F},,6.990376,43.590302
225,7615,,PAV cuve enterrée,4 m3,1,,,Avenue maréchal juin,,6085,Cliiink,,chpayet,20200417091629,chpayet,20200727102825,{68B52455-1001-4ECA-8864-AB3691C59C5D},,6.988114,43.596291
234,16818,,PAV cuve enterrée,4 m3,1,,,Avenue Marcel pagnol,,6079,Cliiink,,chpayet,20200824134326,chpayet,20200824134326,{E1D75A70-538A-4D54-8AA0-A9C66CE98B64},,6.942297,43.547222
239,8010,,PAV cuve enterrée,4 m3,1,,,89 avenue du moulin de la croix,,6085,Cliiink,,chpayet,20200429101943,chpayet,20200727112522,{49967CED-F997-4F6E-912E-6F67E6FDBD06},,6.997450,43.600979


In [67]:
dataVerre.observations.value_counts()

Cliiink      55
Cliiink      14
Face gifi     1
Name: observations, dtype: int64

12 collecteurs ont le champs accessibilite complété

In [68]:
dataVerre[dataVerre.accessibilite.notna()]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
22,2403,,Colonne aérienne,2 m3,1,,,Rue Louis Blanc,,6029,Cliiink,Oui,chpayet,20200128092519,chpayet,20200128092519,{1B25A481-FA71-4110-B3A3-80E990577707},,7.012897,43.552677
62,15216,,Colonne aérienne,3 m3,1,,,30 avenue de la roubine,,6029,,Oui,chpayet,20200731111522,chpayet,20200731111522,{D71E4D12-82A5-475B-AE3A-3165971D0008},,6.974566,43.548424
65,5212,,Colonne aérienne,2 m3,1,,,Pointe croisette,,6029,Cliiink,Oui,chpayet,20200212094635,chpayet,20200212094635,{247A416F-DF46-4ABE-943E-5EC4A2F0E221},,7.036671,43.537151
86,15217,,Colonne aérienne,3 m3,1,,,Chemin de garibondy,La Croix du sud,6030,,Oui,chpayet,20200731133713,chpayet,20200731133713,{57EAECC4-1EC0-4138-91BD-EFB3CDC07104},,6.983125,43.565845
88,8405,,Colonne aérienne,2 m3,1,,,161 avenue Francis toner,,6029,Face gifi,Oui,chpayet,20200505072023,chpayet,20200505072023,{F7394B1B-5FF2-4F05-AF0E-7A69708CC2ED},,6.970941,43.549644
121,9210,,Colonne aérienne,2 m3,1,,,Avenue saint exupery,,6029,,Oui,chpayet,20200512084130,chpayet,20200512084130,{2A8FE16A-89AA-4035-860E-CC94AD8239A4},,6.954528,43.554916
146,12821,,Colonne aérienne,2 m3,1,,,Boulevard du midi,,6029,,Oui,chpayet,20200630132515,chpayet,20200630132515,{833672D2-ECBC-44D2-8CE7-F0A677FBA5D0},,6.962455,43.542328
176,5614,,Colonne aérienne,4 m3,1,Plastic Omnium,,Avenue du général de gaulle,Parking casino,6030,Cliiink,Oui,chpayet,20200213102016,chpayet,20200722115150,{8E227332-164B-49D3-85D0-B2F6B5AADEF5},,6.995798,43.569164
185,5612,,Colonne aérienne,4 m3,1,Plastic Omnium,,7 rue Jules ferry,,6030,,Oui,chpayet,20200213100426,chpayet,20200722120510,{AC290C63-7627-46E8-8D9F-C2D699565324},,7.000851,43.572971
202,3210,,Colonne aérienne,4 m3,1,Plastic Omnium,,Avenue mont joli,,6030,,Oui,chpayet,20200130145916,chpayet,20200722123501,{623C649B-5178-4C7A-9FF0-0C7F6350E697},,7.009541,43.580826


## Jeu de données des des collecteurs de vêtements
### Aperçu du fichier
Il contient 16 variables que l'on pourra étudier :
* objectid : Identifiant de la déchèterie
* id :
* quantite : quantité de collecteurs
* date_instal : date d'installation du collecteur
* adresse : adresse du collecteur
* adresse_comp : complément de l'adresse du collecteur
* code_insee : code INSEE de la ville (différent du code départemental)
* observations : observations éventuelles
* creation : pseudo de la personne qui a enregistré le collecteur dans la BDD
* date_creation : date et temps de l'enregistrement du collecteur dans la BDD
* modification : peudo de la personne qui a modifié en dernier le collecteur dans la BDD
* date_modification : date et temps de la dernière modification du collecteur dans la BDD
* globalid : GUID (Globally Unique IDentifier)
* etat : 
* _x : longitude du collecteur
* _y : latitude du collecteur

In [69]:
dataVetement.head()

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,401,Kfb,1,,Jb pastor,,6138.0,,chpayet,20191204094617,chpayet,20191204094617,{2525224C-A21B-44BB-9899-4F6EEC9F5A16},,6.938207,43.504417
1,801,,1,,Place saint feneant,,6079.0,,chpayet,20200107145050,chpayet,20200107145050,{C94FC7C5-FF62-4A58-8A07-CF4E12AE8E7C},,6.940886,43.523136
2,2001,,1,,14 boulevard mont fleury,,6029.0,,chpayet,20200205091833,chpayet,20200205091833,{C7DA2614-E06A-4CE2-A527-D70DADA2056E},,7.028258,43.55518
3,1201,,1,,Parking bon puits,,6079.0,,chpayet,20200109130612,chpayet,20200109130612,{6568BAEC-1E62-49C0-B1BF-E90C93E5353C},,6.932433,43.522522
4,1601,,1,,Rue cite jardin,,6030.0,,chpayet,20200130134611,chpayet,20200130134611,{E79685C0-DF72-4ACC-B027-993EA6424AE8},,6.9981,43.576637


### Dimension du jeu de données

In [70]:
 print("Le jeu de données recense", dataVetement.shape[0], "collecteurs avec", dataVetement.shape[1], "variables")

Le jeu de données recense 61 collecteurs avec 16 variables


### Valeurs manquantes
Le jeu de données n'est pas complet.

Aucun des collecteurs ne possède de valeur pour date_instal 

La plupart des collecteurs n'a pas d'id ni de complément d'adresse, ni d'observation ni d'etat (ce qui n'est pas gênant)

Il manque 2 codes INSEE (06029 pour Avenue Maurice chevalier et 06030 pour Déchèterie du cannet)

In [71]:
dataVetement.isna().sum()

objectid              0
id                   60
quantite              0
date_instal          61
adresse               0
adresse_comp         56
code_insee            2
observations         60
creation              0
date_creation         0
modification          0
date_modification     0
globalid              0
etat                 60
_x                    0
_y                    0
dtype: int64

In [72]:
dataVetement[dataVetement.code_insee.isna()]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
19,3604,,1,,Avenue Maurice chevalier,Face palais des victoires,,,chpayet,20200213125458,chpayet,20200213125458,{20AC6A52-5E3F-4640-9D2F-10E0935BE33E},,6.961508,43.551456
46,9604,,1,,Déchèterie du cannet,Traverse de l aubarede,,,chpayet,20200723092443,chpayet,20200723092443,{8A619D9D-52FF-453B-A1E1-043DE80F5DA0},,6.984168,43.567005


### Décompte des doublons

In [73]:
dataVetement.duplicated().sum()

0

### Notes générales

Tous les collecteurs ont des adresses différentes

In [74]:
dataVetement.adresse.value_counts()

Boulevard de perrier           1
Avenue lacour                  1
22 rue Jean nobles             1
Place du souvenir français     1
2 chemin des vallons           1
                              ..
Déchèterie du cannet           1
Avenue de la roubine           1
Chemin du refuge               1
1 rue de lerins                1
Chemin bastide rouge           1
Name: adresse, Length: 61, dtype: int64

Ces collecteurs sont plus nombreux à Cannes et à Mougins

In [75]:
dataVetement.code_insee.value_counts()

6029.0    29
6085.0    16
6079.0     7
6030.0     6
6138.0     1
Name: code_insee, dtype: int64

1 commentaire est indiqué

In [76]:
dataVetement[dataVetement.observations.notna()]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
45,6804,,1,,615 avenue Maurice donat,,6085.0,École mougins school,chpayet,20200514084244,chpayet,20200514084244,{456AA2A8-920C-4712-88F7-0E116FF993C5},,7.01446,43.612484


1 collecteur a le champ etat spécifié et 1 autre son id précisé

In [77]:
dataVetement[dataVetement.etat.notna()]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
28,10404,,1,,Avenue du riou,,6079.0,,chpayet,20200817093326,chpayet,20200817093326,{67D0FB35-5EE5-42A9-A4C9-4ECA1E0447A8},Existant,6.942036,43.528263


In [78]:
dataVetement[dataVetement.id.notna()]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,401,Kfb,1,,Jb pastor,,6138.0,,chpayet,20191204094617,chpayet,20191204094617,{2525224C-A21B-44BB-9899-4F6EEC9F5A16},,6.938207,43.504417


# Base de données cliiink
![cliiink.png](../../bdd/cliiink.png)

# Nettoyage des jeux de données

## Ajout des codes INSEE manquants

In [79]:
dataOM.loc[[253]]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
253,9633,,Bac aérien sans cache bac,660 L,1,Contenur,,22 Corniche paradis,,,,chpayet,20200507091717,chpayet,20200507091717,{33D295CF-CBD3-4049-83A8-02E0BDAB0078},,7.035603,43.564667


In [80]:
dataOM.loc[253, 'code_insee'] = 6029.0


In [81]:
dataOM.loc[[253]]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
253,9633,,Bac aérien sans cache bac,660 L,1,Contenur,,22 Corniche paradis,,6029.0,,chpayet,20200507091717,chpayet,20200507091717,{33D295CF-CBD3-4049-83A8-02E0BDAB0078},,7.035603,43.564667


In [82]:
dataTri.loc[[41]]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
41,1619,,Colonne aérienne,5 m3,2,,,Avenue de la côte d azur,A côté du snack,,,,chpayet,20191206104325,chpayet,20191206104325,{4CFBB363-B51A-47F8-9DA6-4B71D642A26E},,6.945003,43.493664


In [83]:
dataTri.loc[41, 'code_insee'] = 6138.0

In [84]:
dataTri.loc[[41]]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
41,1619,,Colonne aérienne,5 m3,2,,,Avenue de la côte d azur,A côté du snack,6138.0,,,chpayet,20191206104325,chpayet,20191206104325,{4CFBB363-B51A-47F8-9DA6-4B71D642A26E},,6.945003,43.493664


In [85]:
dataVetement.loc[[19]]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
19,3604,,1,,Avenue Maurice chevalier,Face palais des victoires,,,chpayet,20200213125458,chpayet,20200213125458,{20AC6A52-5E3F-4640-9D2F-10E0935BE33E},,6.961508,43.551456


In [86]:
dataVetement.loc[[46]]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
46,9604,,1,,Déchèterie du cannet,Traverse de l aubarede,,,chpayet,20200723092443,chpayet,20200723092443,{8A619D9D-52FF-453B-A1E1-043DE80F5DA0},,6.984168,43.567005


In [87]:
dataVetement.loc[19, 'code_insee'] = 6029.0
dataVetement.loc[46, 'code_insee'] = 6030.0

In [88]:
dataVetement.loc[[19]]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
19,3604,,1,,Avenue Maurice chevalier,Face palais des victoires,6029.0,,chpayet,20200213125458,chpayet,20200213125458,{20AC6A52-5E3F-4640-9D2F-10E0935BE33E},,6.961508,43.551456


In [89]:
dataVetement.loc[[46]]

Unnamed: 0,objectid,id,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
46,9604,,1,,Déchèterie du cannet,Traverse de l aubarede,6030.0,,chpayet,20200723092443,chpayet,20200723092443,{8A619D9D-52FF-453B-A1E1-043DE80F5DA0},,6.984168,43.567005


## Ajout des volumes manquants ou rectification des volumes dans un mauvais format
Les volumes sont estimés par comparaison de photographies

In [90]:
# Format non désiré pour des fins statistiques et converti
dataOM[dataOM.volume == "< 240 L"]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
24,2415,,Bac aérien avec cache bac,< 240 L,1,,,16 avenue du trayas,,6138.0,,chpayet,20191206094909,chpayet,20191206094909,{26C0D5E8-5A31-4B7E-B802-F1CDFBCF5270},,6.929922,43.484051


In [91]:
# Valeur estimée par comparaison de sa photographie (ATT1214_Photo1.jpg obtenue par recoupage avec son GUID {26C0D5E8-5A31-4B7E-B802-F1CDFBCF5270}) avec les autres photographies
dataOM.loc[24, "volume"] = "120 L"

In [92]:
dataOM.loc[[24]]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
24,2415,,Bac aérien avec cache bac,120 L,1,,,16 avenue du trayas,,6138.0,,chpayet,20191206094909,chpayet,20191206094909,{26C0D5E8-5A31-4B7E-B802-F1CDFBCF5270},,6.929922,43.484051


In [93]:
dataOM[dataOM.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
108,5619,,PAV cuve enterrée,,1,Contenur,,2 avenue isola bella,,6029.0,,chpayet,20200205091249,chpayet,20200205091249,{F761890A-0194-4B2A-833D-60D6F61CEA5B},,7.024379,43.55584
232,8421,,PAV cuve enterrée,,2,,,Rue Amador lopez,,6029.0,,chpayet,20200417075039,chpayet,20200417075039,{98218ED9-38E5-4525-89A3-77BCBB533F9C},,6.963249,43.556019
242,8425,,PAV enterré ascenseur,,1,Ecollect,,146 avenue Michel jourdan,,6029.0,,chpayet,20200417082139,chpayet,20200417082139,{D8F695AF-59DF-4EB7-AE63-7F0856CA882B},,6.968542,43.558376
336,16049,,PAV cuve enterrée,,1,Contenur,,Avenue pierre semard,,6029.0,,chpayet,20200819085514,chpayet,20200819085514,{0556B869-083B-40CD-9576-36BC6DC523E0},,6.977401,43.548309


In [94]:
dataOM.loc[108, "volume"] = "3 m3" #ATT4417_Photo1
dataOM.loc[232, "volume"] = "3 m3" #ATT7220_Photo1
dataOM.loc[242, "volume"] = "3 m3" #ATT7224_Photo1 comparé à ATT5227_Photo1
dataOM.loc[336, "volume"] = "3 m3" #ATT14448_Photo1 comparé à ATT6428_Photo1

In [95]:
dataPapier[dataPapier.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787
5,1205,,,,1,,,7 chemin de l aubarede,,6030,,,chpayet,20200310100220,chpayet,20200310100220,{0A6616FF-EE2F-4512-ADA2-023B7FF4255A},,6.98412,43.573116
7,4002,,,,1,,,Rue Marcel pagnol,,6030,,,chpayet,20200723083331,chpayet,20200723083331,{00153039-CB46-4664-A251-D2E3381B822E},,6.988643,43.573776
8,4003,,,,1,,,Rue cite des jardins,,6030,,,chpayet,20200723084148,chpayet,20200723084148,{42EEB3C0-EF20-4ADF-B995-15B97DBE0068},,6.998,43.576679


In [96]:
dataPapier.loc[0, "volume"] = "3 m3" #ATT1601_Photo1
dataPapier.loc[1, "volume"] = "3 m3" #ATT1202_Photo1
dataPapier.loc[2, "volume"] = "3 m3" #ATT403_Photo1
dataPapier.loc[3, "volume"] = "3 m3" #ATT1602_Photo1
dataPapier.loc[4, "volume"] = "3 m3" #ATT1606_Photo1
dataPapier.loc[5, "volume"] = "4 m3" #ATT1204_Photo1 (attention à la relation avec le GUID)
dataPapier.loc[7, "volume"] = "4 m3" #ATT4002_Photo1
dataPapier.loc[8, "volume"] = "3 m3" #ATT4003._Photo1

In [97]:
dataTri[dataTri.volume == " "] 

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
3,1205,6601901971.0,Bac aérien sans cache bac,,1,Contenur,,Avenue de lerins angle traverse magasin souvenir,,6138.0,,,chpayet,20191204085827,chpayet,20191204085827,{4A1D509F-70AF-476A-9436-9A0BDC2B9903},,6.940569,43.507717
11,1601,6601902149.0,Bac aérien sans cache bac,,1,Contenur,,Rue du sanglier,,6138.0,,,chpayet,20191206083601,chpayet,20191206083601,{18A21742-B694-419A-B1E5-878C3468DB18},,6.940382,43.505402
28,1606,,Colonne aérienne,,1,Plastic Omnium,,37 avenue miramar,,6138.0,,,chpayet,20191206090811,chpayet,20191206090811,{61E9863A-23C4-4EA2-A353-BB3876F9A790},,6.941048,43.486649
80,3210,,Colonne aérienne,,1,Plastic Omnium,,Rue Yves brayer,,6079.0,,,chpayet,20200109140102,chpayet,20200109140241,{EBDD8B98-DEA4-4CB0-97B6-94FA1AC06134},,6.91923,43.524628


In [98]:
dataTri.loc[3, "volume"] = "660 L" #ATT5_Photo
dataTri.loc[11, "volume"] = "660 L" #ATT401_Photo1
dataTri.loc[28, "volume"] = "3 m3" #ATT406_Photo1
dataTri.loc[80, "volume"] = "3 m3" #ATT2010_Photo1

In [99]:
dataVerre[dataVerre.volume == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
32,3610,,PAV cuve enterrée,,1,,,Allées de la liberte,,6029,,,chpayet,20200205102900,chpayet,20200205102900,{8E40D486-52F3-4348-A69E-05EEEB7A5D66},,7.01616,43.551823


In [100]:
dataVerre.loc[32, "volume"] = "4 m3"

## Ajout des types si possible
Les types sont devinés par comparaison de photographies

In [101]:
dataPapier[dataPapier.type == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1601,,,3 m3,1,,,2 chemin des vallons,,6030,,,chpayet,20200417085022,chpayet,20200417085022,{46B94A69-E019-43D8-9E84-AAE5DA6284C2},,6.972623,43.56879
1,1202,,,3 m3,1,,,10 boulevard d olivetum,,6030,,,chpayet,20200310084750,chpayet,20200310084750,{2A62403F-3C88-40AA-9C22-FE89A984671F},,7.025239,43.57061
2,403,,,3 m3,1,,,Boulevard Jacques monod,Parking des fades,6030,,,chpayet,20200213101117,chpayet,20200213101117,{A90515AF-4E89-4DB0-8F45-3B0604FBCFFD},,6.996956,43.574852
3,1602,,,3 m3,1,,,Cimetiere du claus,,6030,,,chpayet,20200417085630,chpayet,20200417085630,{7A3EE5C6-AA02-4B6E-99F3-2906EA5D56E6},,6.986457,43.574566
4,1606,,,3 m3,1,,,Avenue Georges Pompidou,,6030,,,chpayet,20200417104710,chpayet,20200417104710,{C5ABBCFE-6778-4674-8888-5918E2BD6898},,6.981803,43.568787
5,1205,,,4 m3,1,,,7 chemin de l aubarede,,6030,,,chpayet,20200310100220,chpayet,20200310100220,{0A6616FF-EE2F-4512-ADA2-023B7FF4255A},,6.98412,43.573116
7,4002,,,4 m3,1,,,Rue Marcel pagnol,,6030,,,chpayet,20200723083331,chpayet,20200723083331,{00153039-CB46-4664-A251-D2E3381B822E},,6.988643,43.573776
8,4003,,,3 m3,1,,,Rue cite des jardins,,6030,,,chpayet,20200723084148,chpayet,20200723084148,{42EEB3C0-EF20-4ADF-B995-15B97DBE0068},,6.998,43.576679


In [102]:
dataPapier.loc[0, "type"] = "PAV cuve enterrée" #ATT1601_Photo1
dataPapier.loc[1, "type"] = "PAV cuve enterrée" #ATT1202_Photo1
dataPapier.loc[2, "type"] = "PAV cuve enterrée" #ATT403_Photo1
dataPapier.loc[3, "type"] = "PAV cuve enterrée" #ATT1602_Photo1
dataPapier.loc[4, "type"] = "PAV cuve enterrée" #ATT1606_Photo1
dataPapier.loc[5, "type"] = "PAV cuve enterrée" #ATT1204_Photo1 (attention à la relation avec le GUID)
dataPapier.loc[7, "type"] = "PAV cuve enterrée" #ATT4002_Photo1
dataPapier.loc[8, "type"] = "PAV cuve enterrée" #ATT4003._Photo1

In [103]:
dataVerre[dataVerre.type == " "]

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
46,4411,,,2 m3,1,,,12 bd du moulin,,6029,Cliiink,,chpayet,20200210101206,chpayet,20200210101206,{C2FC8587-14E1-47FE-9B67-49DA2D16409D},,7.007102,43.554081


In [104]:
dataVerre.loc[46, "type"] = "Colonne aérienne" #ATT3209_Photo1

# Mise en forme des données
## Conversions de types

In [105]:
dataframes = [dataDecheterie, dataOM, dataPapier, dataTri, dataVerre, dataVetement]

### Volume

In [106]:
# Exemple avant conversion
dataTri

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1202,6601902190,Bac aérien sans cache bac,660 L,1,,,Gare tsm,,6138.0,,,chpayet,20191204083647,chpayet,20191204083647,{0BF5EDFF-B6EC-4A9B-9A85-D5C43F338FFF},,6.936994,43.513302
1,1203,6601902012,Bac aérien sans cache bac,660 L,1,Contenur,,Prince des iles,,6138.0,,,chpayet,20191204084515,chpayet,20191204084515,{CBC5605B-2FC8-4F3F-BC2D-FF846415E9D7},,6.937348,43.509136
2,1204,6601901994,Bac aérien sans cache bac,660 L,1,Contenur,,Eglise trottoir château avenue de lerins,,6138.0,,,chpayet,20191204085152,chpayet,20191204085152,{EA97EB92-2BC7-4B8C-93A4-3DD0C6860CD5},,6.938404,43.508076
3,1205,6601901971,Bac aérien sans cache bac,660 L,1,Contenur,,Avenue de lerins angle traverse magasin souvenir,,6138.0,,,chpayet,20191204085827,chpayet,20191204085827,{4A1D509F-70AF-476A-9436-9A0BDC2B9903},,6.940569,43.507717
4,1206,6601902153,Bac aérien sans cache bac,660 L,1,Contenur,,Avenue montrer résidence aquarella,,6138.0,,,chpayet,20191204090411,chpayet,20191204090411,{6F6BE0FD-DB47-4034-8D38-2193ABE495AA},,6.940699,43.507584
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
234,15635,,PAV enterré ascenseur,4 m3,1,Ecollect,,Square merimee,,6029.0,,,chpayet,20200826132642,chpayet,20200826132655,{E0AC43B9-DC26-46C0-A57D-C27B2A97EF8B},,7.017516,43.551659
235,16030,,Bac aérien sans cache bac,660 L,1,,,Impasse du tambourin,,6079.0,,,chpayet,20200827084730,chpayet,20200827084730,{361B4F57-A0B2-4004-BA17-8810375B931E},,6.931079,43.565300
236,16031,,Bac aérien sans cache bac,660 L,1,,,Chemin des fougères,,6079.0,,,chpayet,20200827090002,chpayet,20200827090002,{42370979-1A59-4304-96DF-4A100A63E1E9},,6.930059,43.558243
237,16032,,Bac aérien avec cache bac,660 L,1,Contenur,,Chemin des grottes,,6079.0,,,chpayet,20200827090453,chpayet,20200827090453,{D8692726-2F7D-44C5-BEA8-1BFCE4509136},,6.930284,43.556812


In [107]:
for df in dataframes[1:5]:
    df.volume = df.volume.str.replace(" L", "").str.replace(" m3", "000").astype(int)

In [108]:
# Exemple après conversion
dataTri

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,accessibilite,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,1202,6601902190,Bac aérien sans cache bac,660,1,,,Gare tsm,,6138.0,,,chpayet,20191204083647,chpayet,20191204083647,{0BF5EDFF-B6EC-4A9B-9A85-D5C43F338FFF},,6.936994,43.513302
1,1203,6601902012,Bac aérien sans cache bac,660,1,Contenur,,Prince des iles,,6138.0,,,chpayet,20191204084515,chpayet,20191204084515,{CBC5605B-2FC8-4F3F-BC2D-FF846415E9D7},,6.937348,43.509136
2,1204,6601901994,Bac aérien sans cache bac,660,1,Contenur,,Eglise trottoir château avenue de lerins,,6138.0,,,chpayet,20191204085152,chpayet,20191204085152,{EA97EB92-2BC7-4B8C-93A4-3DD0C6860CD5},,6.938404,43.508076
3,1205,6601901971,Bac aérien sans cache bac,660,1,Contenur,,Avenue de lerins angle traverse magasin souvenir,,6138.0,,,chpayet,20191204085827,chpayet,20191204085827,{4A1D509F-70AF-476A-9436-9A0BDC2B9903},,6.940569,43.507717
4,1206,6601902153,Bac aérien sans cache bac,660,1,Contenur,,Avenue montrer résidence aquarella,,6138.0,,,chpayet,20191204090411,chpayet,20191204090411,{6F6BE0FD-DB47-4034-8D38-2193ABE495AA},,6.940699,43.507584
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
234,15635,,PAV enterré ascenseur,4000,1,Ecollect,,Square merimee,,6029.0,,,chpayet,20200826132642,chpayet,20200826132655,{E0AC43B9-DC26-46C0-A57D-C27B2A97EF8B},,7.017516,43.551659
235,16030,,Bac aérien sans cache bac,660,1,,,Impasse du tambourin,,6079.0,,,chpayet,20200827084730,chpayet,20200827084730,{361B4F57-A0B2-4004-BA17-8810375B931E},,6.931079,43.565300
236,16031,,Bac aérien sans cache bac,660,1,,,Chemin des fougères,,6079.0,,,chpayet,20200827090002,chpayet,20200827090002,{42370979-1A59-4304-96DF-4A100A63E1E9},,6.930059,43.558243
237,16032,,Bac aérien avec cache bac,660,1,Contenur,,Chemin des grottes,,6079.0,,,chpayet,20200827090453,chpayet,20200827090453,{D8692726-2F7D-44C5-BEA8-1BFCE4509136},,6.930284,43.556812


### Code INSEE

In [109]:
# Exemple avant conversion
dataOM

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,2002,,Bac aérien avec cache bac,660,1,Plastic Omnium,,Gare tsm,,6138.0,,chpayet,20191204083917,chpayet,20191204083917,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},,6.937009,43.513302
1,3202,,Bac aérien avec cache bac,660,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,6138.0,,chpayet,20200102131948,chpayet,20200102131948,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},,6.941518,43.490540
2,2003,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Prince des iles,,6138.0,,chpayet,20191204084630,chpayet,20191204084630,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},,6.937398,43.509171
3,2004,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,6138.0,,chpayet,20191204085306,chpayet,20191204085306,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},,6.938353,43.508087
4,2005,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,6138.0,,chpayet,20191204090036,chpayet,20191204090036,{53D62EB0-B046-4D5D-B636-94646AC984AA},,6.940556,43.507687
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,18050,,Bac aérien sans cache bac,660,1,Contenur,,Chemin des fougeres,,6079.0,,chpayet,20200827085918,chpayet,20200827085918,{3AF1895B-8999-4CC2-8610-A0CB916F3A68},,6.930053,43.558224
382,18051,,Bac aérien avec cache bac,660,2,Contenur,,Chemin des grottes,,6079.0,,chpayet,20200827090415,chpayet,20200827090415,{02507DBC-6164-4E65-9FEB-376D97108ACD},,6.930284,43.556831
383,18052,,Bac aérien sans cache bac,340,3,Plastic Omnium,,Impasse turgot,,6030.0,,chpayet,20200827115300,chpayet,20200827115300,{AE9C15F9-4DD6-43FE-8A5A-441B9E5E2A0E},,7.023561,43.576286
384,18053,,Bac aérien sans cache bac,340,1,Contenur,,Rue notre dame des anges,,6030.0,,chpayet,20200827121026,chpayet,20200827121026,{882FA65E-7566-40F7-B7C8-FC8355EEBDC2},,7.013729,43.573708


In [110]:
# Par défaut, le dataframe convertira le type d'une colonne en float même s'il n'y a que des int si des valeurs son manquantes (pas de NaN en int),
# d'où la nécessité de filtrer en ne gardant que les chiffres avant la virgule
# ce qui est le cas pour le code INSEE de certains jeux de données
dataDecheterie.code_insee = "0" + dataDecheterie.code_insee.astype(str)
dataOM.code_insee = "0" + dataOM.code_insee.astype(str).str[0:4]
dataPapier.code_insee = "0" + dataPapier.code_insee.astype(str)
dataTri.code_insee = "0" + dataTri.code_insee.astype(str).str[0:4]
dataVerre.code_insee = "0" + dataVerre.code_insee.astype(str)
dataVetement.code_insee = "0" + dataVetement.code_insee.astype(str).str[0:4]

In [111]:
# Exemple après conversion
dataOM

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,2002,,Bac aérien avec cache bac,660,1,Plastic Omnium,,Gare tsm,,06138,,chpayet,20191204083917,chpayet,20191204083917,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},,6.937009,43.513302
1,3202,,Bac aérien avec cache bac,660,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,06138,,chpayet,20200102131948,chpayet,20200102131948,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},,6.941518,43.490540
2,2003,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Prince des iles,,06138,,chpayet,20191204084630,chpayet,20191204084630,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},,6.937398,43.509171
3,2004,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,06138,,chpayet,20191204085306,chpayet,20191204085306,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},,6.938353,43.508087
4,2005,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,06138,,chpayet,20191204090036,chpayet,20191204090036,{53D62EB0-B046-4D5D-B636-94646AC984AA},,6.940556,43.507687
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,18050,,Bac aérien sans cache bac,660,1,Contenur,,Chemin des fougeres,,06079,,chpayet,20200827085918,chpayet,20200827085918,{3AF1895B-8999-4CC2-8610-A0CB916F3A68},,6.930053,43.558224
382,18051,,Bac aérien avec cache bac,660,2,Contenur,,Chemin des grottes,,06079,,chpayet,20200827090415,chpayet,20200827090415,{02507DBC-6164-4E65-9FEB-376D97108ACD},,6.930284,43.556831
383,18052,,Bac aérien sans cache bac,340,3,Plastic Omnium,,Impasse turgot,,06030,,chpayet,20200827115300,chpayet,20200827115300,{AE9C15F9-4DD6-43FE-8A5A-441B9E5E2A0E},,7.023561,43.576286
384,18053,,Bac aérien sans cache bac,340,1,Contenur,,Rue notre dame des anges,,06030,,chpayet,20200827121026,chpayet,20200827121026,{882FA65E-7566-40F7-B7C8-FC8355EEBDC2},,7.013729,43.573708


### Dates création et modification

In [112]:
# Exemple avant conversion
dataOM

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,2002,,Bac aérien avec cache bac,660,1,Plastic Omnium,,Gare tsm,,06138,,chpayet,20191204083917,chpayet,20191204083917,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},,6.937009,43.513302
1,3202,,Bac aérien avec cache bac,660,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,06138,,chpayet,20200102131948,chpayet,20200102131948,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},,6.941518,43.490540
2,2003,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Prince des iles,,06138,,chpayet,20191204084630,chpayet,20191204084630,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},,6.937398,43.509171
3,2004,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,06138,,chpayet,20191204085306,chpayet,20191204085306,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},,6.938353,43.508087
4,2005,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,06138,,chpayet,20191204090036,chpayet,20191204090036,{53D62EB0-B046-4D5D-B636-94646AC984AA},,6.940556,43.507687
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,18050,,Bac aérien sans cache bac,660,1,Contenur,,Chemin des fougeres,,06079,,chpayet,20200827085918,chpayet,20200827085918,{3AF1895B-8999-4CC2-8610-A0CB916F3A68},,6.930053,43.558224
382,18051,,Bac aérien avec cache bac,660,2,Contenur,,Chemin des grottes,,06079,,chpayet,20200827090415,chpayet,20200827090415,{02507DBC-6164-4E65-9FEB-376D97108ACD},,6.930284,43.556831
383,18052,,Bac aérien sans cache bac,340,3,Plastic Omnium,,Impasse turgot,,06030,,chpayet,20200827115300,chpayet,20200827115300,{AE9C15F9-4DD6-43FE-8A5A-441B9E5E2A0E},,7.023561,43.576286
384,18053,,Bac aérien sans cache bac,340,1,Contenur,,Rue notre dame des anges,,06030,,chpayet,20200827121026,chpayet,20200827121026,{882FA65E-7566-40F7-B7C8-FC8355EEBDC2},,7.013729,43.573708


In [113]:
formatDate = "%Y%m%d%H%M%S"
for df in dataframes:
    df.date_creation = pd.to_datetime(df.date_creation, format=formatDate)
    df.date_modification = pd.to_datetime(df.date_modification, format=formatDate)

In [114]:
# Exemple après conversion
dataOM

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,etat,_x,_y
0,2002,,Bac aérien avec cache bac,660,1,Plastic Omnium,,Gare tsm,,06138,,chpayet,2019-12-04 08:39:17,chpayet,2019-12-04 08:39:17,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},,6.937009,43.513302
1,3202,,Bac aérien avec cache bac,660,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,06138,,chpayet,2020-01-02 13:19:48,chpayet,2020-01-02 13:19:48,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},,6.941518,43.490540
2,2003,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Prince des iles,,06138,,chpayet,2019-12-04 08:46:30,chpayet,2019-12-04 08:46:30,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},,6.937398,43.509171
3,2004,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,06138,,chpayet,2019-12-04 08:53:06,chpayet,2019-12-04 08:53:06,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},,6.938353,43.508087
4,2005,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,06138,,chpayet,2019-12-04 09:00:36,chpayet,2019-12-04 09:00:36,{53D62EB0-B046-4D5D-B636-94646AC984AA},,6.940556,43.507687
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,18050,,Bac aérien sans cache bac,660,1,Contenur,,Chemin des fougeres,,06079,,chpayet,2020-08-27 08:59:18,chpayet,2020-08-27 08:59:18,{3AF1895B-8999-4CC2-8610-A0CB916F3A68},,6.930053,43.558224
382,18051,,Bac aérien avec cache bac,660,2,Contenur,,Chemin des grottes,,06079,,chpayet,2020-08-27 09:04:15,chpayet,2020-08-27 09:04:15,{02507DBC-6164-4E65-9FEB-376D97108ACD},,6.930284,43.556831
383,18052,,Bac aérien sans cache bac,340,3,Plastic Omnium,,Impasse turgot,,06030,,chpayet,2020-08-27 11:53:00,chpayet,2020-08-27 11:53:00,{AE9C15F9-4DD6-43FE-8A5A-441B9E5E2A0E},,7.023561,43.576286
384,18053,,Bac aérien sans cache bac,340,1,Contenur,,Rue notre dame des anges,,06030,,chpayet,2020-08-27 12:10:26,chpayet,2020-08-27 12:10:26,{882FA65E-7566-40F7-B7C8-FC8355EEBDC2},,7.013729,43.573708


### Accessibilite et Etat retirés

In [115]:
# Faire drop(..., inplace=True) et non data = data.drop(...) pour que les modifications soient répercutées sur dataframes 
# (sinon dataframes reste la copie des dataframes avant suppression)
dataOM.drop(columns="etat", inplace=True)
dataPapier.drop(columns=["accessibilite", "etat"], inplace=True)
dataTri.drop(columns=["accessibilite", "etat"], inplace=True)
dataVerre.drop(columns=["accessibilite", "etat"], inplace=True)
dataVetement.drop(columns="etat", inplace=True)

## Création des DataFrames

### Dataframes Decheterie, Dechet et Traitement

In [116]:
dictDechets = {
    "type": ["végétation", "bois", "métal", "gravats propres", "gravat sale", "carton", "d3e", "déchet ménager spécial", "néon", "batterie", "pile", "gaz", "extincteur", "huile végétale ou minérale"],
    "typeAbrege": ["veget", "bois", "metal", "grav_prop", "grav_sal", "carton", "d3e", "dech_men_spe", "neon", "batterie", "pile", "gaz", "extincteur", "huil_veget_mineral"]
}

dechet = pd.DataFrame(dictDechets, columns = ["id", "type"])
dechet["id"] = dechet.index + 1 # PK en auto-increment commence à 1
dechet

Unnamed: 0,id,type
0,1,végétation
1,2,bois
2,3,métal
3,4,gravats propres
4,5,gravat sale
5,6,carton
6,7,d3e
7,8,déchet ménager spécial
8,9,néon
9,10,batterie


In [117]:
traitement = pd.DataFrame(columns = ['objectidDecheterie','idDechet'])
for i in dataDecheterie.index:
    for j, col in enumerate(dictDechets["typeAbrege"]):
        if dataDecheterie.loc[i, col] == "Oui":
            df = pd.DataFrame({'objectidDecheterie': dataDecheterie.loc[i, "objectid"],'idDechet': j+1}, index=[0])
            traitement = traitement.append(df, ignore_index = True)
traitement

Unnamed: 0,objectidDecheterie,idDechet
0,801,1
1,801,2
2,801,3
3,801,4
4,801,5
5,801,6
6,801,7
7,801,8
8,801,9
9,801,10


In [118]:
# Suppression de toutes les colonnes relevant des types de déchets traités
decheterie = dataDecheterie.drop(columns=dictDechets["typeAbrege"])
decheterie

Unnamed: 0,objectid,id,adresse,adresse_comp,code_insee,date_instal,observations,creation,date_creation,modification,date_modification,globalid,_x,_y
0,801,,Impasse de l aubarede,,6030,,,chpayet,2020-07-23 13:59:23,chpayet,2020-07-23 13:59:23,{F24B4AF3-17BF-4215-B07F-044AA37EA4E5},6.983613,43.566849
1,1201,,Chemin du coudouron,,6085,,,chpayet,2020-07-27 12:51:41,chpayet,2020-07-27 12:54:59,{26CF70EB-23DD-4399-ACBA-98434B6BFC1A},6.964639,43.581638
2,1601,,Déchèterie des tourades,,6029,,,chpayet,2020-07-31 13:01:59,chpayet,2020-07-31 13:03:32,{83866245-B862-4D22-B436-D5B1A64F5441},6.95432,43.556717


### Dataframes Tri et Collecteur

In [119]:
dictTri = {
    "type": ["om", "papier", "emballage", "verre", "vêtement"],
    "df": dataframes[1:6]
}

tri = pd.DataFrame(dictTri, columns = ["id", "type"])
tri["id"] = tri.index + 1 # PK en auto-increment commence à 1
tri

Unnamed: 0,id,type
0,1,om
1,2,papier
2,3,emballage
3,4,verre
4,5,vêtement


In [120]:
colonnesCollecteur = dataTri.columns.tolist()
colonnesCollecteur.append("idTri")
collecteur = pd.DataFrame(columns = colonnesCollecteur)

for i, df in enumerate(dictTri["df"]):
    df["idTri"] =  i + 1
    collecteur = collecteur.append(df, ignore_index = True)

collecteur

Unnamed: 0,objectid,id,type,volume,quantite,marque,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,_x,_y,idTri
0,2002,,Bac aérien avec cache bac,660,1,Plastic Omnium,,Gare tsm,,06138,,chpayet,2019-12-04 08:39:17,chpayet,2019-12-04 08:39:17,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},6.937009,43.513302,1
1,3202,,Bac aérien avec cache bac,660,3,Plastic Omnium,,Résidence les terrasses de saint honorat,,06138,,chpayet,2020-01-02 13:19:48,chpayet,2020-01-02 13:19:48,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},6.941518,43.490540,1
2,2003,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Prince des iles,,06138,,chpayet,2019-12-04 08:46:30,chpayet,2019-12-04 08:46:30,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},6.937398,43.509171,1
3,2004,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins trottoir de l eglise,,06138,,chpayet,2019-12-04 08:53:06,chpayet,2019-12-04 08:53:06,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},6.938353,43.508087,1
4,2005,,Bac aérien sans cache bac,660,1,Plastic Omnium,,Avenue de lerins angle traverse magasin souvenirs,,06138,,chpayet,2019-12-04 09:00:36,chpayet,2019-12-04 09:00:36,{53D62EB0-B046-4D5D-B636-94646AC984AA},6.940556,43.507687,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
962,5203,,,,1,,,1102 avenue du maréchal juin,,06085,,chpayet,2020-04-17 09:11:49,chpayet,2020-07-27 09:34:53,{9CD34D6C-3542-4109-82C2-C02A0340B019},6.993928,43.591373,5
963,10005,,,,1,,,Chemin de la plaine,,06085,,chpayet,2020-07-27 12:18:01,chpayet,2020-07-27 12:18:01,{EF825DB5-6E4C-41FE-98B1-A1D910135369},6.970299,43.602245,5
964,10006,,,,1,,,Chemin du refuge,,06085,,chpayet,2020-07-27 12:35:03,chpayet,2020-07-27 12:35:03,{D84F19EA-875D-4778-B290-F634F6C4514A},6.992376,43.581013,5
965,4803,,,,3,,,Avenue lamartine,,06085,,chpayet,2020-03-10 09:59:22,chpayet,2020-07-27 12:39:49,{EFBAFBA0-0480-4340-B500-F47140DB6A2F},6.984992,43.574394,5


### Dataframes Categorie et Marque (et modification Collecteur)

In [121]:
# Récupération des collecteurs avec des types définis (et ne correspondant pas à " ")
collecteurAvecType = collecteur[(collecteur['type'].notna()) & (collecteur['type'] != " ")][['objectid', 'type']]

categorie = pd.DataFrame(columns = ["id", "type"])
# Insertion de toutes les valeurs différentes de type
categorie["type"] = collecteurAvecType["type"].drop_duplicates()
# Suppression de l'index actuel
categorie.reset_index(drop= True, inplace = True)
# Insertion des id à index + 1 car, côté MySQL, la clé primaire commence à 1 s'il y a auto incrémentation
categorie["id"] = categorie.index + 1

categorie

Unnamed: 0,id,type
0,1,Bac aérien avec cache bac
1,2,Bac aérien sans cache bac
2,3,PAV cuve enterrée
3,4,PAV enterré ascenseur
4,5,PAV cuve compactrice
5,6,PAV cuve semi-enterrée
6,7,Colonne aérienne


In [122]:
# Récupération des collecteurs avec des marques définies (et ne correspondant pas à " ")
collecteurAvecMarque = collecteur[(collecteur['marque'].notna()) & (collecteur['marque'] != " ")][['objectid', 'marque']]

marque = pd.DataFrame(columns = ["id", "marque"])
# Insertion de toutes les valeurs différentes de marque
marque["marque"] = collecteurAvecMarque['marque'].drop_duplicates()
# Suppression de l'index actuel
marque.reset_index(drop= True, inplace = True)
# Insertion des id à index + 1 car, côté MySQL, la clé primaire commence à 1 s'il y a auto incrémentation
marque["id"] = marque.index + 1

marque

Unnamed: 0,id,marque
0,1,Plastic Omnium
1,2,Contenur
2,3,Citec
3,4,Ecollect


In [123]:
# Asssociation entre collecteur et son id de catégorie (suffixes permet de ne pas modifier la colonne id initiale dans collecteur mais seulement celle qu'on rajoute)
collecteur = collecteur.merge(categorie, how="left", on="type", suffixes=(None, "_arenommer"))
# Asssociation entre collecteur et son id de marque
collecteur = collecteur.merge(marque, how="left", on="marque", suffixes=(None, "_arenommer2"))
# Renommage des colonnes nouvellement créées
collecteur.rename(columns={"id_arenommer": "idCategorie", "id_arenommer2": "idMarque"}, inplace=True)
# Suppression des colonnes type et marque maintenant référencées par des clés étrangères
collecteur.drop(columns=["type", "marque"], inplace=True)
collecteur

Unnamed: 0,objectid,id,volume,quantite,date_instal,adresse,adresse_comp,code_insee,observations,creation,date_creation,modification,date_modification,globalid,_x,_y,idTri,idCategorie,idMarque
0,2002,,660,1,,Gare tsm,,06138,,chpayet,2019-12-04 08:39:17,chpayet,2019-12-04 08:39:17,{5C455C7F-2CAF-4B57-8B69-686691E7ACAA},6.937009,43.513302,1,1.0,1.0
1,3202,,660,3,,Résidence les terrasses de saint honorat,,06138,,chpayet,2020-01-02 13:19:48,chpayet,2020-01-02 13:19:48,{449AE0D0-B256-49C2-84F7-87F4248CA3CC},6.941518,43.490540,1,1.0,1.0
2,2003,,660,1,,Prince des iles,,06138,,chpayet,2019-12-04 08:46:30,chpayet,2019-12-04 08:46:30,{FED2233C-9710-40F1-ACF4-58134F0BB9FE},6.937398,43.509171,1,2.0,1.0
3,2004,,660,1,,Avenue de lerins trottoir de l eglise,,06138,,chpayet,2019-12-04 08:53:06,chpayet,2019-12-04 08:53:06,{058DC0AE-423C-4FEB-8D30-D4C113428CD8},6.938353,43.508087,1,2.0,1.0
4,2005,,660,1,,Avenue de lerins angle traverse magasin souvenirs,,06138,,chpayet,2019-12-04 09:00:36,chpayet,2019-12-04 09:00:36,{53D62EB0-B046-4D5D-B636-94646AC984AA},6.940556,43.507687,1,2.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
962,5203,,,1,,1102 avenue du maréchal juin,,06085,,chpayet,2020-04-17 09:11:49,chpayet,2020-07-27 09:34:53,{9CD34D6C-3542-4109-82C2-C02A0340B019},6.993928,43.591373,5,,
963,10005,,,1,,Chemin de la plaine,,06085,,chpayet,2020-07-27 12:18:01,chpayet,2020-07-27 12:18:01,{EF825DB5-6E4C-41FE-98B1-A1D910135369},6.970299,43.602245,5,,
964,10006,,,1,,Chemin du refuge,,06085,,chpayet,2020-07-27 12:35:03,chpayet,2020-07-27 12:35:03,{D84F19EA-875D-4778-B290-F634F6C4514A},6.992376,43.581013,5,,
965,4803,,,3,,Avenue lamartine,,06085,,chpayet,2020-03-10 09:59:22,chpayet,2020-07-27 12:39:49,{EFBAFBA0-0480-4340-B500-F47140DB6A2F},6.984992,43.574394,5,,


# Intégration dans la BDD

## Renommage des colonnes des dataframes pour faire correspondre aux colonnes des tables MySQL

In [124]:
decheterie.rename(columns={"adresse_comp": "adresseComplement", "code_insee": "codeInsee", "date_instal": "dateInstallation", "creation": "createur", "date_creation": "dateCreation", "modification": "modificateur", "date_modification": "dateModification"}, inplace=True)
collecteur.rename(columns={"adresse_comp": "adresseComplement", "code_insee": "codeInsee", "date_instal": "dateInstallation", "creation": "createur", "date_creation": "dateCreation", "modification": "modificateur", "date_modification": "dateModification"}, inplace=True)
marque.rename(columns={"marque": "nom"}, inplace =True)

## Transfert via SQLAlchemy

In [125]:
import json
from sqlalchemy import create_engine

fichierConfig = "../bdd/config.json"

with open(fichierConfig) as fichier:
    config = json.load(fichier)["mysql"]
    
engine = create_engine('mysql+' + config["connector"] + '://' + config["user"] + ":" + config["password"] + "@" + config["host"] + ":" + config["port"] + "/" + config["bdd"], echo=True)

In [126]:
categorie.to_sql('categorie', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,326 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'sql_mode'
2020-10-17 15:03:39,327 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,331 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'lower_case_table_names'
2020-10-17 15:03:39,332 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,335 INFO sqlalchemy.engine.base.Engine SELECT DATABASE()
2020-10-17 15:03:39,336 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,339 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS CHAR(60)) AS anon_1
2020-10-17 15:03:39,339 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,341 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS CHAR(60)) AS anon_1
2020-10-17 15:03:39,342 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,344 INFO sqlalchemy.engine.base.Engine DESCRIBE `categorie`
2020-10-17 15:03:39,344 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,349 INFO sqlalchemy.engin

In [127]:
dechet.to_sql('dechet', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,374 INFO sqlalchemy.engine.base.Engine DESCRIBE `dechet`
2020-10-17 15:03:39,374 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,378 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,380 INFO sqlalchemy.engine.base.Engine INSERT INTO dechet (id, type) VALUES (%(id)s, %(type)s)
2020-10-17 15:03:39,381 INFO sqlalchemy.engine.base.Engine ({'id': 1, 'type': 'végétation'}, {'id': 2, 'type': 'bois'}, {'id': 3, 'type': 'métal'}, {'id': 4, 'type': 'gravats propres'}, {'id': 5, 'type': 'gravat sale'}, {'id': 6, 'type': 'carton'}, {'id': 7, 'type': 'd3e'}, {'id': 8, 'type': 'déchet ménager spécial'}  ... displaying 10 of 14 total bound parameter sets ...  {'id': 13, 'type': 'extincteur'}, {'id': 14, 'type': 'huile végétale ou minérale'})
2020-10-17 15:03:39,383 INFO sqlalchemy.engine.base.Engine COMMIT


In [128]:
marque.to_sql('marque', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,405 INFO sqlalchemy.engine.base.Engine DESCRIBE `marque`
2020-10-17 15:03:39,405 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,408 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,410 INFO sqlalchemy.engine.base.Engine INSERT INTO marque (id, nom) VALUES (%(id)s, %(nom)s)
2020-10-17 15:03:39,411 INFO sqlalchemy.engine.base.Engine ({'id': 1, 'nom': 'Plastic Omnium'}, {'id': 2, 'nom': 'Contenur'}, {'id': 3, 'nom': 'Citec'}, {'id': 4, 'nom': 'Ecollect'})
2020-10-17 15:03:39,413 INFO sqlalchemy.engine.base.Engine COMMIT


In [129]:
tri.to_sql('tri', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,437 INFO sqlalchemy.engine.base.Engine DESCRIBE `tri`
2020-10-17 15:03:39,438 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,441 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,442 INFO sqlalchemy.engine.base.Engine INSERT INTO tri (id, type) VALUES (%(id)s, %(type)s)
2020-10-17 15:03:39,443 INFO sqlalchemy.engine.base.Engine ({'id': 1, 'type': 'om'}, {'id': 2, 'type': 'papier'}, {'id': 3, 'type': 'emballage'}, {'id': 4, 'type': 'verre'}, {'id': 5, 'type': 'vêtement'})
2020-10-17 15:03:39,445 INFO sqlalchemy.engine.base.Engine COMMIT


In [130]:
# Faute de gérer les UUID pour l'instant
collecteur.objectid = collecteur.index + 1
collecteur.to_sql('collecteur', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,475 INFO sqlalchemy.engine.base.Engine DESCRIBE `collecteur`
2020-10-17 15:03:39,476 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,481 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,498 INFO sqlalchemy.engine.base.Engine INSERT INTO collecteur (objectid, id, volume, quantite, `dateInstallation`, adresse, `adresseComplement`, `codeInsee`, observations, createur, `dateCreation`, modificateur, `dateModification`, globalid, _x, _y, `idTri`, `idCategorie`, `idMarque`) VALUES (%(objectid)s, %(id)s, %(volume)s, %(quantite)s, %(dateInstallation)s, %(adresse)s, %(adresseComplement)s, %(codeInsee)s, %(observations)s, %(createur)s, %(dateCreation)s, %(modificateur)s, %(dateModification)s, %(globalid)s, %(_x)s, %(_y)s, %(idTri)s, %(idCategorie)s, %(idMarque)s)
2020-10-17 15:03:39,499 INFO sqlalchemy.engine.base.Engine ({'objectid': 1, 'id': None, 'volume': 660, 'quantite': 1, 'dateInstallation': None, 'adresse': 'Gare tsm', 'adresseComplemen

In [131]:
decheterie.to_sql('decheterie', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,674 INFO sqlalchemy.engine.base.Engine DESCRIBE `decheterie`
2020-10-17 15:03:39,675 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,679 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,681 INFO sqlalchemy.engine.base.Engine INSERT INTO decheterie (objectid, id, adresse, `adresseComplement`, `codeInsee`, `dateInstallation`, observations, createur, `dateCreation`, modificateur, `dateModification`, globalid, _x, _y) VALUES (%(objectid)s, %(id)s, %(adresse)s, %(adresseComplement)s, %(codeInsee)s, %(dateInstallation)s, %(observations)s, %(createur)s, %(dateCreation)s, %(modificateur)s, %(dateModification)s, %(globalid)s, %(_x)s, %(_y)s)
2020-10-17 15:03:39,682 INFO sqlalchemy.engine.base.Engine ({'objectid': 801, 'id': None, 'adresse': 'Impasse de l aubarede', 'adresseComplement': None, 'codeInsee': '06030', 'dateInstallation': None, 'observations': None, 'createur': 'chpayet', 'dateCreation': datetime.datetime(2020, 7, 23, 13, 59, 23), 

In [132]:
traitement.to_sql('traitement', con=engine, index = False, if_exists = 'append')

2020-10-17 15:03:39,704 INFO sqlalchemy.engine.base.Engine DESCRIBE `traitement`
2020-10-17 15:03:39,705 INFO sqlalchemy.engine.base.Engine {}
2020-10-17 15:03:39,708 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-10-17 15:03:39,710 INFO sqlalchemy.engine.base.Engine INSERT INTO traitement (`objectidDecheterie`, `idDechet`) VALUES (%(objectidDecheterie)s, %(idDechet)s)
2020-10-17 15:03:39,711 INFO sqlalchemy.engine.base.Engine ({'objectidDecheterie': 801, 'idDechet': 1}, {'objectidDecheterie': 801, 'idDechet': 2}, {'objectidDecheterie': 801, 'idDechet': 3}, {'objectidDecheterie': 801, 'idDechet': 4}, {'objectidDecheterie': 801, 'idDechet': 5}, {'objectidDecheterie': 801, 'idDechet': 6}, {'objectidDecheterie': 801, 'idDechet': 7}, {'objectidDecheterie': 801, 'idDechet': 8}  ... displaying 10 of 40 total bound parameter sets ...  {'objectidDecheterie': 1601, 'idDechet': 13}, {'objectidDecheterie': 1601, 'idDechet': 14})
2020-10-17 15:03:39,714 INFO sqlalchemy.engine.base.Engine