# <h1><center>ParuVendu</center></h1>
## <h1><center>Création de la base de données et son alimentation </center></h1>

### Objectifs : 
* Lire les fichiers en sortie du script "webscrapping"


* Créer la BDD selon les schémas MCD/MLD    


* Ingestion des données des fichiers lus dans la BDD  


* Tester la lecture des données de la BDD


### Librables :
Ce notebook détaillé et commenté, qui récapitulera toutes les étapes de la création de la BDD passant par l'alimentation, aux tests pour vérifier la cohérence.

#### Librairies

In [1]:
## Pour établir la connexion à la DB
import psycopg2
from sqlalchemy import create_engine

## librairies pour le système
import glob
import os

## pandas/numpy
import pandas as pd, numpy as np

## 1 - Lecture des tables

In [2]:
## on cherche tous les fichiers csv dans le dossier contenant les sorties du script 1

path_to_directory= "data_webscrapping" 
    ## dans mon cas j'ai stocké les data dans un dossier qui s'appelle data_webscrapping
    ## si le notebook est dans le même endroit que les fichiers faut juste mettre ""

csv_files = glob.glob(os.path.join(path_to_directory, "*.csv"))
csv_files

['data_webscrapping\\annonce_bien.csv',
 'data_webscrapping\\class_energetique.csv',
 'data_webscrapping\\dependance.csv',
 'data_webscrapping\\emplacement.csv',
 'data_webscrapping\\gaz_effet_serre.csv',
 'data_webscrapping\\lien_bien_dependance.csv',
 'data_webscrapping\\type_bien.csv']

In [3]:
## lire chacun des fichiers & stocker les data dans une variable portant le nom du fichier

tables_names=[]  # on stocke les noms des tables dans une variable

for c in csv_files:
    
    name=c.split("\\")[-1].split(".")[0]
    tables_names.append(name)
    
    locals()[name]=pd.read_csv(c) # méthode pour créer des variables locales dans le notebook avec des chaines de caractères

In [4]:
tables_names

['annonce_bien',
 'class_energetique',
 'dependance',
 'emplacement',
 'gaz_effet_serre',
 'lien_bien_dependance',
 'type_bien']

In [5]:
annonce_bien

Unnamed: 0,id_entite_bien,url,id_type_bien,prix,nb_pieces,surface,date_annonce,id_classe_energie,id_gaz_effet_serre,id_emplacement
0,1260694776,https://www.paruvendu.fr/immobilier/vente/mais...,0,97500,3,101,03/09/2022,E,B,0
1,1263749485,https://www.paruvendu.fr/immobilier/vente/mais...,0,419000,8,181,02/09/2022,D,D,0
2,1263748304,https://www.paruvendu.fr/immobilier/vente/appa...,1,59500,2,42,03/09/2022,NC,NC,0
3,1263711220,https://www.paruvendu.fr/immobilier/vente/mais...,0,122000,6,90,30/08/2022,NC,NC,0
4,1262885315,https://www.paruvendu.fr/immobilier/vente/mais...,0,148000,4,75,31/08/2022,C,A,0
...,...,...,...,...,...,...,...,...,...,...
11989,1263022980,https://www.paruvendu.fr/immobilier/vente/mais...,0,303800,7,88,05/08/2022,D,B,969
11990,1262473877,https://www.paruvendu.fr/immobilier/vente/appa...,1,329000,3,78,03/09/2022,D,D,970
11991,1256543149,https://www.paruvendu.fr/immobilier/vente/mais...,0,265000,7,150,08/08/2022,C,D,971
11992,1263399919,https://www.paruvendu.fr/immobilier/vente/mais...,0,329000,5,198,09/08/2022,D,D,972


## 2 - Création de la BDD

Nous avons déjà créé la Base de données avec le client Pgadmin mais nous n'avons pas créé les tables.  
Cette partie s'occupera de :
* Etablissement de la connexion avec la DB
* Création des tables dans la DB avec les données

### a - Connexion au serveur et à la DB

In [6]:
# Connect to PostgreSQL server
dbConnection =  create_engine('postgresql+psycopg2://postgres:root@localhost:5433/paruvendu')
dbConnection.connect()

<sqlalchemy.engine.base.Connection at 0x1c2e0694b48>

### b - Création des tables et insertion des données

In [7]:
## création des tables & insertion des data
for c in tables_names:
    
    try:
        locals()[c].to_sql(c, dbConnection,if_exists='replace', index=False)
        print("PostgreSQL Table {} has been created successfully.".format(c))
        
    except:
        print("PostgreSQL Table {} has not been created successfully.".format(c))

PostgreSQL Table annonce_bien has been created successfully.
PostgreSQL Table class_energetique has been created successfully.
PostgreSQL Table dependance has been created successfully.
PostgreSQL Table emplacement has been created successfully.
PostgreSQL Table gaz_effet_serre has been created successfully.
PostgreSQL Table lien_bien_dependance has been created successfully.
PostgreSQL Table type_bien has been created successfully.


**On vérifie que nous avons bien remplacer les anciennes tables avec les nouvelles en terme de colonnes & nombres de lignes**

In [8]:
pd.read_sql("select count(*) from annonce_bien", dbConnection)

Unnamed: 0,count
0,11994


In [9]:
pd.read_sql("select * from annonce_bien", dbConnection).dtypes

id_entite_bien         int64
url                   object
id_type_bien           int64
prix                   int64
nb_pieces             object
surface               object
date_annonce          object
id_classe_energie     object
id_gaz_effet_serre    object
id_emplacement         int64
dtype: object

#### Vue des tables du client PgAdmin

![bdd_pgadmin.PNG](attachment:bdd_pgadmin.PNG)