# <p style="font-family: serif; font-size:2.2em; text-align: center;"><u>Nettoyage des données</u></p> 

---

# Chargement et description des données

Dans la continuité du projet Cliiink, nous avons cherché de nouveaux jeux de données afin qu'une analyse socio-démographique puisse etre établie en fonction de chacune des villes de l'agglomération.

Nous avons repris les données de la population par ville, et nous les avons confrontés avec d'autres facteurs sociaux telles que les catégories socio-professionnelles ou le type de logement par ville. 
L'idée étant de comparer ces différents critères sociaux afin de faire ressortir un compte rendu par ville, et de comparer le tout avec le premier projet CLiiink. Cette conmparaison nous a permit de mettre en valeur la production plus ou moins importante de déchets selon la ville, en fonction de la catégorie initiallement étudié.

Les données collectées proviennent majoritairment de l'Institut National de la Statistique et des Etudes Economiques.
A noter que l'INSEE établit ses études par cycle d'année. A titre d'exmple, la dernière étude menée pour établir la démographie de la population des villes de l'agglomération a été faite en 2017. Il s'agit donc du dernier jeu de données disponible et publié par l'organisme.

Pour des raisons de pratiques, nous modifions l'affichage d'origine des csv en indiquant les colonnes et les lignes qui nous intéresse. Nous pouvons ainsi focaliser notre études en retenant uniquement les données utiles à notre projet.
L'idée est d'afficher le résulat recherché de facon clair. L'INSEE étant un organisme publiant des données de niveau nationale, nous avons isolé du jeu de données l'ensemble des catégories qui nous intéresse et les avons classé par villes de l'agglomération.

In [None]:
# On importe les librairies
import pandas as pd
import json
from sqlalchemy import create_engine
from main import Bin_

In [None]:
# Lecture dus fichiers
#data_villes = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", index_col= 0, sep=';', skiprows=0)
#entreprises_par_sa = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=1 ,encoding="UTF-8", sep=',', skiprows=list(range(0, 2)) + list(range(14, 245)), usecols=[i for i in range(12)])
#entreprises_par_sa_ef = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=16 ,encoding="UTF-8", sep=',', skiprows=list(range(15, 19)) + list(range(28, 245)), usecols=[i for i in range(31)])
#année_2017 = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=30 ,encoding="UTF-8", sep=',', skiprows=list(range(29, 34)) + list(range(37, 245)), usecols=[i for i in range(14)])
#pop_age = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=39 ,encoding="UTF-8", sep=',', skiprows=list(range(38, 41)) + list(range(50, 245)), usecols=[i for i in range(13)])
#emploi_femme = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=145 ,encoding="UTF-8", sep=',', skiprows=list(range(145, 150)) + list(range(161, 245)), usecols=[i for i in range(7)])
#emploi_homme = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=162 ,encoding="UTF-8", sep=',', skiprows=list(range(162, 167)) + list(range(178, 245)), usecols=[i for i in range(7)])
#chomage_sexe = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=179 ,encoding="UTF-8", sep=',', skiprows=list(range(179, 184)) + list(range(190, 245)), usecols=[i for i in range(7)])
#taux_chomage_age = pd.read_csv("/Users/a0000/Desktop/Cliink_Equipe2/Data/villes_data.csv", header=192 ,encoding="UTF-8", sep=',', skiprows=list(range(191, 196)) + list(range(202, 245)), usecols=[i for i in range(13)])
CSP_15_24 = pd.read_csv("../Data/villes_data.csv", header=84 ,encoding="UTF-8", sep=',', skiprows=list(range(83, 88)) + list(range(99, 245)), usecols=[i for i in range(6)])
CSP_25_54 = pd.read_csv("../Data/villes_data.csv", header=101 ,encoding="UTF-8", sep=',', skiprows=list(range(100, 105)) + list(range(116, 245)), usecols=[i for i in range(6)])
CSP_55_plus = pd.read_csv("../Data/villes_data.csv", header=118 ,encoding="UTF-8", sep=',', skiprows=list(range(117, 122)) + list(range(133, 245)), usecols=[i for i in range(6)])
logement_par_catégorie = pd.read_csv("../Data/villes_data.csv", header=220 ,encoding="UTF-8", sep=',', skiprows=list(range(219, 224)) + list(range(230, 245)), usecols=[i for i in range(7)])
entreprise_csv = pd.read_csv("../Data/etablissements.csv")
code_naf = pd.read_excel("../Data/naf2008_liste_n1.xls", skiprows=list(range(0, 2)))
naf_5 = pd.read_excel("../Data/naf2008_5_niveaux.xls")

# On importe le fichier json
fichierConfig = "../Data/config.json" 
with open(fichierConfig) as fichier:config = json.load(fichier)["mysql"]
    
# On modifie le nombre de lignes à afficher
pd.options.display.max_rows = 5

Le csv 'data_villes' n'a pas été retenu pour le projet car il concerne uniquement les données des entreprises fondées en l'année 2020. 
Or pour que notre étude ait un sens plus pragmatique, il est plus judiciable de travailler sur l'ensemble des entreprises de l'agglomération, et non pas uniquement celles crée récemment.

Les csv 'entreprises_par_sa' et 'entreprises_par_sa_ef' ont été remplacés par le csv 'entreprise_csv', plus complet et précis.
Les csv restant se sont révélés pas adéquats pour l'étude que l'on a voulu mené.

---

# Apercu des jeux de données

In [35]:
entreprise_csv

Unnamed: 0,siren,nic,siret,statutDiffusionEtablissement,dateCreationEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,activitePrincipaleRegistreMetiersEtablissement,dateDernierTraitementEtablissement,etablissementSiege,...,codePaysEtranger2Etablissement,libellePaysEtranger2Etablissement,etatAdministratifEtablissement,enseigne1Etablissement,enseigne2Etablissement,enseigne3Etablissement,denominationUsuelleEtablissement,activitePrincipaleEtablissement,nomenclatureActivitePrincipaleEtablissement,caractereEmployeurEtablissement
0,6310965,22,631096500022,O,1982-08-10,NN,,,2019-11-14T14:00:15,True,...,,,A,,,,,68.20A,NAFRev2,N
1,15580079,34,1558007900034,O,2004-06-29,NN,,,2008-01-04T17:54:54,False,...,,,A,,,,,68.20B,NAFRev2,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54640,998823504,24209,99882350424209,O,2006-01-01,NN,,,2018-10-22T19:02:51,False,...,,,A,ADECCO,,,,78.20Z,NAFRev2,O
54641,998823504,32376,99882350432376,O,2017-12-15,,,,2019-11-14T14:00:15,False,...,,,A,ADECCO,,,ADECCO FRANCE,78.20Z,NAFRev2,O


In [36]:
code_naf

Unnamed: 0,Code,Libellé
0,A,"Agriculture, sylviculture et pêche"
1,B,Industries extractives
...,...,...
19,T,Activités des ménages en tant qu'employeurs ; ...
20,U,Activités extra-territoriales


In [37]:
naf_5

Unnamed: 0,NIV5,NIV4,NIV3,NIV2,NIV1
0,01.11Z,1.11,1.1,1,A
1,01.12Z,1.12,1.1,1,A
...,...,...,...,...,...
730,98.20Z,98.20,98.2,98,T
731,99.00Z,99.00,99.0,99,U


In [38]:
CSP_15_24

Unnamed: 0,Catégorie,Mandelieu-La-Napoule,Mougins,Le Cannet,Cannes,Theoule-Sur-Mer
0,Agriculteurs exploitants,0,0,0,0,0
1,Artisans. commerçants. chefs entreprise,16,34,26,40,5
...,...,...,...,...,...,...
7,Autres personnes sans activité professionnelle,1000,1049,2128,4519,63
8,Total,1993,1664,3662,7149,115


In [39]:
CSP_25_54

Unnamed: 0,Catégorie,Mandelieu-La-Napoule,Mougins,Le Cannet,Cannes,Theoule-Sur-Mer
0,Agriculteurs exploitants,20,3,10,20,0
1,Artisans. commerçants. chefs entreprise,741,927,1225,2089,52
...,...,...,...,...,...,...
7,Autres personnes sans activité professionnelle,597,642,1845,3619,22
8,Total,8073,7941,15085,25189,497


In [40]:
CSP_55_plus

Unnamed: 0,Catégorie,Mandelieu-La-Napoule,Mougins,Le Cannet,Cannes,Theoule-Sur-Mer
0,Agriculteurs exploitants,3,12,5,18,5
1,Artisans. commerçants. chefs entreprise,285,344,532,923,21
...,...,...,...,...,...,...
7,Autres personnes sans activité professionnelle,615,504,1297,2993,64
8,Total,9305,6607,17155,31161,623


In [41]:
logement_par_catégorie

Unnamed: 0,Catégorie,France,Mandelieu-La-Napoule,Mougins,Le Cannet,Cannes,Theoule-Sur-Mer
0,Résidences principales,29479746,11339,8403,21276,37735,694
1,Résid. secondaires et log. occasionnels,3464523,8694,1983,4104,31433,2564
2,Logements vacants,2935447,1201,501,940,2096,77
3,Total,35879716,21234,10887,26320,71264,3335


---

# Création des DataFrames

La création des DataFrames nous permettra d'établir la connection et le chargement des données directement depuis les tables de notre base de données.

### Création du DataFrame ville

In [42]:
liste_ville_id = [1,2,3,4,5]
liste_ville_nom = ['Cannes', 'Le Cannet', 'Mougins', 'Mandelieu-La-Napoule', 'Theoule-Sur-Mer']
ville = pd.DataFrame({'vi_id': liste_ville_id,
                     'vi_nom': liste_ville_nom})

In [43]:
# Apercu du DataFrame ville
ville

Unnamed: 0,vi_id,vi_nom
0,1,Cannes
1,2,Le Cannet
2,3,Mougins
3,4,Mandelieu-La-Napoule
4,5,Theoule-Sur-Mer


### Création du DataFrame entreprise

In [44]:
# On affiche les adresses en minuscule
entreprise_csv["denominationUniteLegale"] = entreprise_csv["denominationUniteLegale"].str.lower()
# Rectification des code postaux
entreprise_csv["codePostalEtablissement"] = "0" + entreprise_csv["codePostalEtablissement"].astype(str)
# On affiche le nom des villes en minuscule
entreprise_csv["libelleCommuneEtablissement"] = entreprise_csv["libelleCommuneEtablissement"].str.title()
# On affiche les abbreviations des types de voie en minuscule
entreprise_csv["typeVoieEtablissement"] = entreprise_csv["typeVoieEtablissement"].str.lower()
# On affiche les nom des rue en minuscule
entreprise_csv["libelleVoieEtablissement"] = entreprise_csv["libelleVoieEtablissement"].str.lower()

In [45]:
# Création du dictionnaire naf
naf = {}
for i in naf_5.index:
    # Ajout paire clé-valeur
    naf.update({naf_5.iloc[i]['NIV5']: naf_5.loc[i]['NIV1']})

# Création du dictionnaire secteur d'activité
SectAct = {}
for i in code_naf.index:
    # Ajout paire clé-valeur
    SectAct.update({code_naf.iloc[i]['Code']: code_naf.index[i]+1})
    
# Création du dictionnaire des villes
dict_ville = {}
for i in ville.index:
    dict_ville.update({ville.loc[i]['vi_nom']: ville.loc[i]['vi_id']})

In [46]:
# Création du DataFrame entreprise
entreprise = pd.DataFrame(columns =['en_id','en_siren','en_nic', 'en_nom', 'en_sa_id_fk', 'en_adresse', 'en_code_postal', 'en_vi_id_fk'])

#for i in entreprise_csv.index:
for i in range(2000):
    en_id = int(str(entreprise_csv.loc[i]["siren"]) + str(entreprise_csv.loc[i]["nic"]))
    siren = entreprise_csv.iloc[i]['siren']
    nic = entreprise_csv.iloc[i]['nic']
    nom = entreprise_csv.iloc[i]['denominationUniteLegale']
    # Utilisation du dictionaire naf pour répertorier les secteurs d'activité
    a = naf[entreprise_csv.loc[i]["activitePrincipaleEtablissement"]]
    # Utilisation du dictionaire naf SectAct pour réferencer le secteur d'activité
    secteur_activite = SectAct[a]
    
    
    # Ici on test si le numero de voie est non nul/ si oui on le remplace par un str vide
    adresse = (''if pd.isna(entreprise_csv.iloc[i]['numeroVoieEtablissement'])
    # /sinon on le transforme en int pour supprimer les chiffres apres la virgule puis en str
 else str(int(entreprise_csv.iloc[i]['numeroVoieEtablissement'])))+" "+str(entreprise_csv.loc[i]["typeVoieEtablissement"])+" "+str(entreprise_csv.loc[i]["libelleVoieEtablissement"])
    
    
    code_postal = entreprise_csv.loc[i]["codePostalEtablissement"]
    en_ville = dict_ville[entreprise_csv.loc[i]["libelleCommuneEtablissement"]]
    
    df = pd.DataFrame({'en_id': en_id,
                           'en_siren': siren,
                           'en_nic': nic,
                           'en_nom': nom,
                           'en_sa_id_fk': secteur_activite,
                           'en_adresse': adresse,
                           'en_code_postal':code_postal,
                           'en_vi_id_fk':en_ville}, index = [0])
    entreprise = entreprise.append(df, ignore_index=True)

In [47]:
# Apercu du DataFrame entreprise
entreprise

Unnamed: 0,en_id,en_siren,en_nic,en_nom,en_sa_id_fk,en_adresse,en_code_postal,en_vi_id_fk
0,631096522,6310965,22,,12,av gaston de fontmichel,006210,4
1,1558007934,15580079,34,societe immobiliere walter sperger,12,2 bd leader,006150,1
...,...,...,...,...,...,...,...,...
1998,32131425412,321314254,12,soc particuliere janau,12,70 rue georges clemenceau,006400,1
1999,32133932717,321339327,17,,17,23 rue jean de riouffe,006400,1


### Création du DataFrame secteur_activite

In [48]:
# On utilise le fichier code naf pour le DataFrame secteur activité
secteur_activite = pd.DataFrame(code_naf, columns = ["sa_id", "Libellé"])
secteur_activite["sa_id"] = secteur_activite.index + 1
secteur_activite.rename(columns={"Libellé": "sa_nom"},inplace=True)

In [49]:
# Apercu du DataFrame sesecteur_activite
secteur_activite

Unnamed: 0,sa_id,sa_nom
0,1,"Agriculture, sylviculture et pêche"
1,2,Industries extractives
...,...,...
19,20,Activités des ménages en tant qu'employeurs ; ...
20,21,Activités extra-territoriales


### Création du DataFrame categorie_socio_pro

In [50]:
# On utilise le fichier CSP_15_24 pour le DataFrame categorie_socio_pro
categorie_socio_pro = pd.DataFrame(CSP_15_24, columns =["csp_id","Catégorie"])
categorie_socio_pro["csp_id"] = categorie_socio_pro.index + 1
categorie_socio_pro.rename(columns = {"Catégorie": "csp_nom"},inplace=True)

In [51]:
# Apercu du DataFrame categorie_socio_pro
categorie_socio_pro

Unnamed: 0,csp_id,csp_nom
0,1,Agriculteurs exploitants
1,2,Artisans. commerçants. chefs entreprise
...,...,...
7,8,Autres personnes sans activité professionnelle
8,9,Total


### Création du DataFrame age

In [52]:
liste_ag_id = [1,2,3]
liste_ag_nom = ["15 a 24", "25 a 54","55 et plus"]
age = pd.DataFrame({'ag_id': liste_ag_id,
                     'ag_nom': liste_ag_nom})

In [53]:
# Apercu du DataFrame age
age

Unnamed: 0,ag_id,ag_nom
0,1,15 a 24
1,2,25 a 54
2,3,55 et plus


### Création du DataFrame age du DataFrame population

In [54]:
# On rectifie l'ortographe de la colonne Theoule-Sur-Mer
CSP_25_54.rename(columns={"Théoule-Sur-Mer": "Theoule-Sur-Mer"}, inplace = True)
CSP_55_plus.rename(columns={"Théoule-Sur-Mer": "Theoule-Sur-Mer"}, inplace = True)
# On rectifie l'ortographe de la colonne Le Cannet
CSP_55_plus.rename(columns={"le Cannet": "Le Cannet"}, inplace = True)

In [55]:
# Création d'une fonction add_df qui renvoie un DataFrame adapté pour la table population
def add_df(df):
    # Création d'un DataFrame adapté pour la table population
    dataf = pd.DataFrame(columns = ["po_id","po_source", "po_annee", "po_nbre_pop", "po_csp_id_fk", "po_ag_id_fk", "po_vi_id_fk"])
    # Dans une premiere boucle on itère sur le nbre de ligne qui correcpond à csp
    for i in df.index:
        # Dans une deuxieme boucle imbriquer on itère sur le nbre de colonne qui correspond aux villes
        for j in df.columns[1:]:
            nbre = df.iloc[i][j]
            ville1 = dict_ville[j]
            csp = i + 1
            DF = pd.DataFrame({'po_id': i,
                           'po_source': "Insee, Recensement de la population (RP), exploitation complémentaire - 2017",
                           'po_annee': 2017,
                           'po_nbre_pop': nbre,
                           'po_csp_id_fk': csp,
                           'po_vi_id_fk': ville1}, index = [0])
            dataf = dataf.append(DF, ignore_index=True)
    return dataf

In [56]:
# On utilise la fonction add_df pour creer des dataframe en fonction de la tranche d'age
population15_24 = add_df(CSP_15_24)
population25_54 = add_df(CSP_25_54)
population55_plus = add_df(CSP_55_plus)

# On assigne la clé entrangère de la table age
password = Bin_(config["password"])._UserP()
population15_24['po_ag_id_fk']=1
population25_54['po_ag_id_fk']=2
population55_plus['po_ag_id_fk']=3

# On réunis les 3 DataFrames dans le DataFrame poplulation
population = pd.concat([population15_24,population25_54,population55_plus])
population.reset_index(inplace = True)
population['po_id'] = population.index
population.drop(columns=['index'], inplace=True)

# On modifie le type de po_année
# population['po_annee']= pd.to_datetime(population['po_annee'], format="%Y")

In [57]:
# Apercu du DataFrame population
population

Unnamed: 0,po_id,po_source,po_annee,po_nbre_pop,po_csp_id_fk,po_ag_id_fk,po_vi_id_fk
0,0,"Insee, Recensement de la population (RP), expl...",2017,0,1,1,4
1,1,"Insee, Recensement de la population (RP), expl...",2017,0,1,1,3
...,...,...,...,...,...,...,...
133,133,"Insee, Recensement de la population (RP), expl...",2017,31161,9,3,1
134,134,"Insee, Recensement de la population (RP), expl...",2017,623,9,3,5


### Création du DataFrame categorie_logement

In [58]:
# On utilise le fichier logement_par_catégorie pour le DataFrame categorie_logement
categorie_logement = pd.DataFrame(logement_par_catégorie, columns =["cl_id","Catégorie"])
categorie_logement["cl_id"] = categorie_logement.index + 1
categorie_logement.rename(columns = {"Catégorie": "cl_nom"},inplace=True)

In [59]:
# Apercu du DataFrame categorie_logement
categorie_logement

Unnamed: 0,cl_id,cl_nom
0,1,Résidences principales
1,2,Résid. secondaires et log. occasionnels
2,3,Logements vacants
3,4,Total


### Création du DataFrame logement

In [60]:
# On rectifie l'ortographe de la colonne Mandelieu-la-Napoule
logement_par_catégorie.rename(columns={"Mandelieu-la-Napoule": "Mandelieu-La-Napoule"}, inplace = True)
# On rectifie l'ortographe de la colonne Theoule-Sur-Mer
logement_par_catégorie.rename(columns={"Théoule-sur-Mer": "Theoule-Sur-Mer"}, inplace = True)

In [61]:
# Création du DataFrame logement
logement = pd.DataFrame(columns = ["lo_id","lo_nbre","lo_vi_id_fk","lo_cl_id_fk"])

for i in logement_par_catégorie.index:
    for j in logement_par_catégorie.columns[2:]:
        nbre_lg = logement_par_catégorie.iloc[i][j]
        ville_lg = dict_ville[j]
        type_lg = i +1
        df_lg = pd.DataFrame({'lo_nbre': nbre_lg,
                           'lo_vi_id_fk': ville_lg,
                           'lo_cl_id_fk': type_lg}, index = [0])
        logement = logement.append(df_lg, ignore_index=True)
        
logement['lo_id'] = logement.index + 1

In [62]:
# Apercu du DataFrame logement
logement

Unnamed: 0,lo_id,lo_nbre,lo_vi_id_fk,lo_cl_id_fk
0,1,11339,4,1
1,2,8403,3,1
...,...,...,...,...
18,19,71264,1,4
19,20,3335,5,4


---

Exemple de boucle:

In [63]:
for i in logement_par_catégorie.index:
    for j in logement_par_catégorie.columns[2:]:
        print("le chiffre est :   ", logement_par_catégorie.iloc[i][j],";\tla logement_par_catégorie est :", i,";\t la ville est :", str(j))

le chiffre est :    11339 ;	la logement_par_catégorie est : 0 ;	 la ville est : Mandelieu-La-Napoule
le chiffre est :    8403 ;	la logement_par_catégorie est : 0 ;	 la ville est : Mougins
le chiffre est :    21276 ;	la logement_par_catégorie est : 0 ;	 la ville est : Le Cannet
le chiffre est :    37735 ;	la logement_par_catégorie est : 0 ;	 la ville est : Cannes
le chiffre est :    694 ;	la logement_par_catégorie est : 0 ;	 la ville est : Theoule-Sur-Mer
le chiffre est :    8694 ;	la logement_par_catégorie est : 1 ;	 la ville est : Mandelieu-La-Napoule
le chiffre est :    1983 ;	la logement_par_catégorie est : 1 ;	 la ville est : Mougins
le chiffre est :    4104 ;	la logement_par_catégorie est : 1 ;	 la ville est : Le Cannet
le chiffre est :    31433 ;	la logement_par_catégorie est : 1 ;	 la ville est : Cannes
le chiffre est :    2564 ;	la logement_par_catégorie est : 1 ;	 la ville est : Theoule-Sur-Mer
le chiffre est :    1201 ;	la logement_par_catégorie est : 2 ;	 la ville est : Mand

# Insertion des données des la BDD

In [64]:
# Connexion à la BDD
engine = create_engine('mysql+' + config["connector"] + '://' + config["user"] + ":" + password + "@" + config["host"] + ":" + config["port"] + "/" + config["bdd"], echo=True)

In [65]:
#engine = create_engine('mysql+pymysql://simplon:mdp@localhost:3306/netflix', echo=True)

In [66]:
ville.to_sql('ville', con=engine, if_exists='append', index=False)

2020-12-01 16:07:41,515 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'sql_mode'
2020-12-01 16:07:41,517 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,562 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'lower_case_table_names'
2020-12-01 16:07:41,563 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,571 INFO sqlalchemy.engine.base.Engine SELECT DATABASE()
2020-12-01 16:07:41,572 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,593 INFO sqlalchemy.engine.base.Engine show collation where `Charset` = 'utf8mb4' and `Collation` = 'utf8mb4_bin'
2020-12-01 16:07:41,594 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,614 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS CHAR(60)) AS anon_1
2020-12-01 16:07:41,615 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,617 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS CHAR(60)) AS anon_1
2020-12-01 16:07:41,618 INFO sqlalchemy.engine.base.E

In [67]:
secteur_activite.to_sql('secteur_activite', con=engine, if_exists='append', index=False)

2020-12-01 16:07:41,851 INFO sqlalchemy.engine.base.Engine DESCRIBE `secteur_activite`
2020-12-01 16:07:41,853 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:41,964 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:07:41,967 INFO sqlalchemy.engine.base.Engine INSERT INTO secteur_activite (sa_id, sa_nom) VALUES (%(sa_id)s, %(sa_nom)s)
2020-12-01 16:07:41,968 INFO sqlalchemy.engine.base.Engine ({'sa_id': 1, 'sa_nom': 'Agriculture, sylviculture et pêche'}, {'sa_id': 2, 'sa_nom': 'Industries extractives'}, {'sa_id': 3, 'sa_nom': 'Industrie manufacturière'}, {'sa_id': 4, 'sa_nom': "Production et distribution d'électricité, de gaz, de vapeur et d'air conditionné"}, {'sa_id': 5, 'sa_nom': "Production et distribution d'eau ; assainissement, gestion des déchets et dépollution"}, {'sa_id': 6, 'sa_nom': 'Construction'}, {'sa_id': 7, 'sa_nom': "Commerce ; réparation d'automobiles et de motocycles"}, {'sa_id': 8, 'sa_nom': 'Transports et entreposage'}  ... displaying 10 of 2

In [68]:
categorie_socio_pro.to_sql('categorie_socio_pro', con=engine, if_exists='append', index=False)

2020-12-01 16:07:42,143 INFO sqlalchemy.engine.base.Engine DESCRIBE `categorie_socio_pro`
2020-12-01 16:07:42,145 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:42,156 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:07:42,158 INFO sqlalchemy.engine.base.Engine INSERT INTO categorie_socio_pro (csp_id, csp_nom) VALUES (%(csp_id)s, %(csp_nom)s)
2020-12-01 16:07:42,160 INFO sqlalchemy.engine.base.Engine ({'csp_id': 1, 'csp_nom': 'Agriculteurs exploitants'}, {'csp_id': 2, 'csp_nom': 'Artisans. commerçants. chefs entreprise'}, {'csp_id': 3, 'csp_nom': 'Cadres et professions intellectuelles supérieures'}, {'csp_id': 4, 'csp_nom': 'Professions intermédiaires'}, {'csp_id': 5, 'csp_nom': 'Employés'}, {'csp_id': 6, 'csp_nom': 'Ouvriers'}, {'csp_id': 7, 'csp_nom': 'Retraités'}, {'csp_id': 8, 'csp_nom': 'Autres personnes sans activité professionnelle'}, {'csp_id': 9, 'csp_nom': 'Total'})
2020-12-01 16:07:42,163 INFO sqlalchemy.engine.base.Engine COMMIT


In [69]:
age.to_sql('age', con=engine, if_exists='append', index=False)

2020-12-01 16:07:42,330 INFO sqlalchemy.engine.base.Engine DESCRIBE `age`
2020-12-01 16:07:42,331 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:42,373 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:07:42,375 INFO sqlalchemy.engine.base.Engine INSERT INTO age (ag_id, ag_nom) VALUES (%(ag_id)s, %(ag_nom)s)
2020-12-01 16:07:42,377 INFO sqlalchemy.engine.base.Engine ({'ag_id': 1, 'ag_nom': '15 a 24'}, {'ag_id': 2, 'ag_nom': '25 a 54'}, {'ag_id': 3, 'ag_nom': '55 et plus'})
2020-12-01 16:07:42,380 INFO sqlalchemy.engine.base.Engine COMMIT


In [70]:
categorie_logement.to_sql('categorie_logement', con=engine, if_exists='append', index=False)

2020-12-01 16:07:42,485 INFO sqlalchemy.engine.base.Engine DESCRIBE `categorie_logement`
2020-12-01 16:07:42,487 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:42,491 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:07:42,494 INFO sqlalchemy.engine.base.Engine INSERT INTO categorie_logement (cl_id, cl_nom) VALUES (%(cl_id)s, %(cl_nom)s)
2020-12-01 16:07:42,495 INFO sqlalchemy.engine.base.Engine ({'cl_id': 1, 'cl_nom': 'Résidences principales'}, {'cl_id': 2, 'cl_nom': 'Résid. secondaires et log. occasionnels'}, {'cl_id': 3, 'cl_nom': 'Logements vacants'}, {'cl_id': 4, 'cl_nom': 'Total'})
2020-12-01 16:07:42,505 INFO sqlalchemy.engine.base.Engine COMMIT


In [71]:
logement.to_sql('logement', con=engine, if_exists='append', index=False)

2020-12-01 16:07:42,695 INFO sqlalchemy.engine.base.Engine DESCRIBE `logement`
2020-12-01 16:07:42,696 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:07:42,779 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:07:42,783 INFO sqlalchemy.engine.base.Engine INSERT INTO logement (lo_id, lo_nbre, lo_vi_id_fk, lo_cl_id_fk) VALUES (%(lo_id)s, %(lo_nbre)s, %(lo_vi_id_fk)s, %(lo_cl_id_fk)s)
2020-12-01 16:07:42,786 INFO sqlalchemy.engine.base.Engine ({'lo_id': 1, 'lo_nbre': 11339, 'lo_vi_id_fk': 4, 'lo_cl_id_fk': 1}, {'lo_id': 2, 'lo_nbre': 8403, 'lo_vi_id_fk': 3, 'lo_cl_id_fk': 1}, {'lo_id': 3, 'lo_nbre': 21276, 'lo_vi_id_fk': 2, 'lo_cl_id_fk': 1}, {'lo_id': 4, 'lo_nbre': 37735, 'lo_vi_id_fk': 1, 'lo_cl_id_fk': 1}, {'lo_id': 5, 'lo_nbre': 694, 'lo_vi_id_fk': 5, 'lo_cl_id_fk': 1}, {'lo_id': 6, 'lo_nbre': 8694, 'lo_vi_id_fk': 4, 'lo_cl_id_fk': 2}, {'lo_id': 7, 'lo_nbre': 1983, 'lo_vi_id_fk': 3, 'lo_cl_id_fk': 2}, {'lo_id': 8, 'lo_nbre': 4104, 'lo_vi_id_fk': 2, 'lo_cl_id_fk': 

In [73]:
population.to_sql('population', con=engine, if_exists='append', index=False)

2020-12-01 16:16:52,728 INFO sqlalchemy.engine.base.Engine DESCRIBE `population`
2020-12-01 16:16:52,734 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:16:52,737 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:16:52,739 INFO sqlalchemy.engine.base.Engine INSERT INTO population (po_id, po_source, po_annee, po_nbre_pop, po_csp_id_fk, po_ag_id_fk, po_vi_id_fk) VALUES (%(po_id)s, %(po_source)s, %(po_annee)s, %(po_nbre_pop)s, %(po_csp_id_fk)s, %(po_ag_id_fk)s, %(po_vi_id_fk)s)
2020-12-01 16:16:52,740 INFO sqlalchemy.engine.base.Engine ({'po_id': 0, 'po_source': 'Insee, Recensement de la population (RP), exploitation complémentaire - 2017', 'po_annee': 2017, 'po_nbre_pop': 0, 'po_csp_id_fk': 1, 'po_ag_id_fk': 1, 'po_vi_id_fk': 4}, {'po_id': 1, 'po_source': 'Insee, Recensement de la population (RP), exploitation complémentaire - 2017', 'po_annee': 2017, 'po_nbre_pop': 0, 'po_csp_id_fk': 1, 'po_ag_id_fk': 1, 'po_vi_id_fk': 3}, {'po_id': 2, 'po_source': 'Insee, Recensemen

In [74]:
entreprise.to_sql('entreprise', con=engine, if_exists='append', index=False)

2020-12-01 16:16:59,683 INFO sqlalchemy.engine.base.Engine DESCRIBE `entreprise`
2020-12-01 16:16:59,684 INFO sqlalchemy.engine.base.Engine {}
2020-12-01 16:16:59,691 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-01 16:16:59,722 INFO sqlalchemy.engine.base.Engine INSERT INTO entreprise (en_id, en_siren, en_nic, en_nom, en_sa_id_fk, en_adresse, en_code_postal, en_vi_id_fk) VALUES (%(en_id)s, %(en_siren)s, %(en_nic)s, %(en_nom)s, %(en_sa_id_fk)s, %(en_adresse)s, %(en_code_postal)s, %(en_vi_id_fk)s)
2020-12-01 16:16:59,723 INFO sqlalchemy.engine.base.Engine ({'en_id': 631096522, 'en_siren': 6310965, 'en_nic': 22, 'en_nom': None, 'en_sa_id_fk': 12, 'en_adresse': ' av gaston de fontmichel', 'en_code_postal': '006210', 'en_vi_id_fk': 4}, {'en_id': 1558007934, 'en_siren': 15580079, 'en_nic': 34, 'en_nom': 'societe immobiliere walter sperger', 'en_sa_id_fk': 12, 'en_adresse': '2 bd leader', 'en_code_postal': '006150', 'en_vi_id_fk': 1}, {'en_id': 1976012318, 'en_siren': 19760123,