## Ce jupiter traitera l'insertion dans postgresql

### Installation et mise à jour des bibliothèques

In [1]:
pip install --upgrade pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install psycopg2

Note: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd

In [4]:
#immo = pd.read_csv('C:/Users/suzyg/OneDrive/Documents/Ecoles/Epitech/T-DAT-902/Données/france_total_real_estate_sales_2022.csv')

#codes_departements_outre_mer = [971, 972, 973, 974, 976]
#donnees_metropolitaines = immo[immo['Code departement'].isin(codes_departements_outre_mer)]
#print(donnees_metropolitaines)

### Chargement et nettoyage des données

#### Chargement

In [6]:
#Chargement des fichiers
brutes_communes = pd.read_csv('./data/communes-departement-region.csv', dtype=str)
brutes_ecoles = pd.read_csv('./data/fr-en-annuaire-education.csv', sep=';', dtype=str)

In [8]:
#Affichage des données
print("************************************** COMMUNES **************************************")

brutes_communes['code_postal_commune'] = brutes_communes['code_commune_INSEE'] +'-'+ brutes_communes['code_postal']
code_commune_unique=brutes_communes[['code_postal_commune', 'code_commune_INSEE']].drop_duplicates()
print(brutes_communes)

print("************************************** ECOLES **************************************")

brutes_ecoles['code_postal_commune'] = brutes_ecoles['code_postal'] +'-'+ brutes_ecoles['code_commune']
brutes_ecoles = pd.merge(brutes_ecoles, code_commune_unique, how='left')
brutes_ecoles = brutes_ecoles.dropna(subset='code_commune_INSEE')
print(brutes_ecoles)

colonnes_communes = ['code_commune_INSEE', 'nom_commune', 'code_postal', 'code_postal_commune', 'latitude', 'longitude', 'code_departement', 'nom_departement', 'code_region', 'nom_region']
colonnes_ecoles = ['identifiant_de_l_etablissement', 'nom_etablissement', 'type_etablissement', 'statut_public_prive', 'adresse_1','code_postal_commune']

************************************** COMMUNES **************************************
      code_commune_INSEE       nom_commune_postal code_postal  \
0                   1001  L ABERGEMENT CLEMENCIAT        1400   
1                   1002    L ABERGEMENT DE VAREY        1640   
2                   1004        AMBERIEU EN BUGEY        1500   
3                   1005      AMBERIEUX EN DOMBES        1330   
4                   1006                  AMBLEON        1300   
...                  ...                      ...         ...   
39196              98831                      VOH       98883   
39197              98832                     YATE       98834   
39198              98833                  KOUAOUA       98818   
39199              98901        ILE DE CLIPPERTON       98799   
39200              99138                   MONACO       98000   

          libelle_acheminement ligne_5       latitude      longitude  \
0      L ABERGEMENT CLEMENCIAT     NaN  46.1534255214  4.926

#### Nettoyage

In [9]:
#fonction pour nettoyer
def nettoyage (fichier, colonnes):

    #On ne sélectionne que les données pertinentes
    pertinentes = fichier.loc[:, colonnes]
    
    #Suppression des lignes contenant dont les id contiennent des valeurs NaN et on remplace le reste par des espaces
    sans_nan = pertinentes.dropna(subset=colonnes[0])
    sans_nan[colonnes]=sans_nan[colonnes].fillna('')
    
    #Supprimes les doublons
    df= sans_nan.drop_duplicates()

    #conversion en tuples
    #tuples = list(sans_doublons.itertuples(index=False, name=None))
    #tpls = [tuple(x) for x in df.to_numpy()]
    
    # dataframe columns with Comma-separated
    #cols = ','.join(list(df.columns))
    return df
    
print("************************************** COMMUNES **************************************")
communes = nettoyage(brutes_communes, colonnes_communes)
print(communes)
#print(communes[:5])

print("************************************** ECOLES **************************************")
ecoles = nettoyage (brutes_ecoles, colonnes_ecoles)
print(ecoles)
#print(ecoles[:5])

#********************************************************************************************
print(ecoles)

************************************** COMMUNES **************************************
      code_commune_INSEE            nom_commune code_postal  \
0                   1001  Abergement-Clémenciat        1400   
1                   1002    Abergement-de-Varey        1640   
2                   1004      Ambérieu-en-Bugey        1500   
3                   1005    Ambérieux-en-Dombes        1330   
4                   1006                Ambléon        1300   
...                  ...                    ...         ...   
39196              98831                    Voh       98883   
39197              98832                   Yate       98834   
39198              98833                Kouaoua       98818   
39199              98901      Ile de clipperton       98799   
39200              99138                 Monaco       98000   

      code_postal_commune       latitude      longitude code_departement  \
0               1001-1400  46.1534255214  4.92611354223                1   
1   

### Connexion au serveur de base de données

In [10]:
import sys
import psycopg2
from psycopg2 import OperationalError, errorcodes, errors
import psycopg2.extras as extras

params= {
    'host':'localhost',
    'user':'postgres',
    'password':'pass',
    'port':'5433'
}


#Gestion des erreurs
def erreur_psycopg2(err):
    #on récupère les détails de l'exception
    err_type, err_obj, traceback= sys.exc_info()

    #Récupération de la ligne qui a causé l'erreur
    line_n=traceback.tb_lineno

    #Affichage de l'erreur
    print("\npsycopg2 ERROR : ", err, "sur la ligne: ", line_n)
    print("psycopg2 traceback: ", traceback,"--type: ", err_type)
    
    # psycopg2 extensions.Diagnostics object attribute
    print ("\nextensions.Diagnostics:", err.diag)
    
    # print the pgcode and pgerror exceptions
    print ("pgerror:", err.pgerror)
    print ("pgcode:", err.pgcode, "\n")

#Connexion au serveur de base de données
def connect(params):
    conn = None
    try:
        print('Connexion à PostgreSQL...........')
        conn = psycopg2.connect(**params)
        print("Connexion réussie..................")
    except OperationalError as err:
        erreur_psycopg2(err)
        # On réinitialise la connexion en cas d'erreur
        conn = None
    
    return conn

### Création de la base de données

In [11]:
conn= connect(params)
conn.autocommit = True

if conn!= None:
    try:
        cursor = conn.cursor()
        #Suppression de la base de données si elle existe déjà
        cursor.execute("DROP DATABASE IF EXISTS homepedia;")
        
        #Création de la base de données
        cursor.execute("CREATE DATABASE homepedia")
        print("Base de données créée avec succès !!!")
        cursor.close()
        conn.close()
        
    except OperationalError as err:
        erreur_psycopg2(err)
        conn = None

Connexion à PostgreSQL...........
Connexion réussie..................
Base de données créée avec succès !!!


### Création des tables

In [12]:
params2= {
    'host':'localhost',
    'database':'homepedia',
    'user':'postgres',
    'password':'pass',
    'port':'5433'
}
TABLES = {}
TABLES['communes'] = (
    "CREATE TABLE communes ("
    "  num_row SERIAL PRIMARY KEY,"
    "  code_commune_INSEE text NOT NULL,"
    "  nom_commune text NOT NULL,"
    "  code_postal text NOT NULL,"
    "  code_postal_commune text UNIQUE,"
    "  latitude text,"
    "  longitude text,"
    "  code_departement text,"
    "  nom_departement text NOT NULL,"
    "  code_region text,"
    "  nom_region text NOT NULL"
    ")")

#TABLES['code_postal_commune_index']=( "CREATE UNIQUE INDEX code_commune_index ON communes(code_postal_commune)")

TABLES['ecoles'] = (
    "CREATE TABLE ecoles ("
    "num_row SERIAL PRIMARY KEY,"
    "identifiant_de_l_etablissement text NOT NULL,"
    "nom_etablissement text NOT NULL,"
    "type_etablissement text NOT NULL,"
    "statut_public_prive text NOT NULL,"
    "adresse_1 text,"
    "code_postal_commune text REFERENCES communes (code_postal_commune) ON DELETE CASCADE"
    ")")

conn= connect(params2)
conn.autocommit = True

for table_name in TABLES:
    table_description = TABLES[table_name]
    try:
        cursor = conn.cursor()
        
        cursor.execute("DROP TABLE IF EXISTS {} CASCADE".format(table_name))
        cursor.execute(table_description)
        print("Creation de la table {} avec succès: ".format(table_name))
        
        cursor.close()
    except OperationalError as err:
        erreur_psycopg2(err)
        conn = None
#conn.close()

Connexion à PostgreSQL...........
Connexion réussie..................
Creation de la table communes avec succès: 
Creation de la table ecoles avec succès: 


### Insertion des données dans la base de données

In [13]:
#Création d'une fonction pour l'insertion des données du dataframe
def execute_many(conn, df, table):
    # Creation d'une liste de tuplets à partir du dataframe
    tpls = [tuple(x) for x in df.to_numpy()]
    
    # dataframe columns with Comma-separated
    cols = ','.join(list(df.columns))
    
    if table == 'communes':
       sql = "INSERT INTO %s(%s) VALUES(%%s,%%s,%%s,%%s,%%s,%%s,%%s,%%s,%%s,%%s)" % (table, cols)
    elif table =='ecoles':
       sql = "INSERT INTO %s(%s) VALUES(%%s,%%s,%%s,%%s,%%s,%%s)" %(table, cols)
        
    cursor = conn.cursor()
    try:
        cursor.executemany(sql, tpls)
        conn.commit()
        print("Données insérées avec succès...")
    except (Exception, psycopg2.DatabaseError) as err:
        erreur_psycopg2(err)
        cursor.close()

execute_many(conn, communes, 'communes')
execute_many(conn, ecoles, 'ecoles')
conn.close()

Données insérées avec succès...
Données insérées avec succès...
