# Web-scraping

In [27]:
# Librairies pour la décompression de fichiers
import gzip
from io import BytesIO

# Librairies pour le scrapping
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Visualisation de données
import pandas as pd

In [28]:
# URL de la page web
url = 'https://files.data.gouv.fr/geo-dvf/latest/csv/'

response = requests.get(url)
html_content = response.content

# Utilisez BeautifulSoup pour analyser le HTML
soup = BeautifulSoup(html_content, 'html.parser')

In [29]:
# Trouver toutes les balises <a>
a_tags = soup.find_all('a')
annees=[]
# Parcourir chaque balise <a> et extraire le texte ainsi que la date/heure
for a_tag in a_tags:
    name = a_tag.text.strip()
    if name!="../":
        annees.append(name)
print(annees)

['2018/', '2019/', '2020/', '2021/', '2022/', '2023/']


In [30]:
date_element = soup.find('pre').contents[-1].strip()
date_maj = date_element.replace(" ","")
print(date_maj)

13-Oct-202320:28-


# Récupération des données sur une l'année 2023

In [31]:
# Récupération de l'avant denière année pour avoir une année comlpéte
url = f'https://files.data.gouv.fr/geo-dvf/latest/csv/{annees[-2]}'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')

# Trouver la balise 'a' qui contient les liens de téléchargement
csv_element = soup.find('pre').find('a', {'href': "full.csv.gz"})
csv_link = urljoin(url, csv_element['href'])
print(csv_link)

https://files.data.gouv.fr/geo-dvf/latest/csv/2022/full.csv.gz


In [32]:
csv_response = requests.get(csv_link)
if csv_response.status_code == 200:
    # Utilisation du buffer pour décompresser le fichier .gz
    with BytesIO(csv_response.content) as file_buffer:
        with gzip.GzipFile(fileobj=file_buffer, mode='rb') as gz_file:
            df = pd.read_csv(gz_file, low_memory=False)
else :
    print("Erreur !!!")

In [33]:
df.head()

Unnamed: 0,id_mutation,date_mutation,numero_disposition,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,adresse_code_voie,code_postal,...,type_local,surface_reelle_bati,nombre_pieces_principales,code_nature_culture,nature_culture,code_nature_culture_speciale,nature_culture_speciale,surface_terrain,longitude,latitude
0,2022-1,2022-01-03,1,Vente,55000.0,13.0,,RUE DE LA LIBERTE,2280,1000.0,...,Appartement,24.0,1.0,,,,,,5.218712,46.198053
1,2022-2,2022-01-03,1,Vente,143000.0,,,CHAMP COCHET,B010,1480.0,...,,,,S,sols,,,84.0,4.847863,46.000587
2,2022-2,2022-01-03,1,Vente,143000.0,,,CHAMP COCHET,B010,1480.0,...,,,,S,sols,,,88.0,4.847924,46.000581
3,2022-2,2022-01-03,1,Vente,143000.0,98.0,,RTE DE LA DOMBES,0055,1480.0,...,Appartement,140.0,3.0,,,,,,4.84834,46.000631
4,2022-3,2022-01-04,1,Vente,300.0,,,AUX PIERRES,B031,1480.0,...,,,,T,terres,,,510.0,4.747594,46.045423


# EDA sur 2023

In [34]:
print(df.columns.to_list())
print(df.shape)


['id_mutation', 'date_mutation', 'numero_disposition', 'nature_mutation', 'valeur_fonciere', 'adresse_numero', 'adresse_suffixe', 'adresse_nom_voie', 'adresse_code_voie', 'code_postal', 'code_commune', 'nom_commune', 'code_departement', 'ancien_code_commune', 'ancien_nom_commune', 'id_parcelle', 'ancien_id_parcelle', 'numero_volume', 'lot1_numero', 'lot1_surface_carrez', 'lot2_numero', 'lot2_surface_carrez', 'lot3_numero', 'lot3_surface_carrez', 'lot4_numero', 'lot4_surface_carrez', 'lot5_numero', 'lot5_surface_carrez', 'nombre_lots', 'code_type_local', 'type_local', 'surface_reelle_bati', 'nombre_pieces_principales', 'code_nature_culture', 'nature_culture', 'code_nature_culture_speciale', 'nature_culture_speciale', 'surface_terrain', 'longitude', 'latitude']
(4617590, 40)


In [35]:
print("Nature de la mutation :\n",df.nature_mutation.value_counts())
print("Type de local :\n", df.type_local.value_counts())

Nature de la mutation :
 nature_mutation
Vente                                 4267222
Vente en l'état futur d'achèvement     280574
Echange                                 45200
Vente terrain à bâtir                   14268
Adjudication                             9424
Expropriation                             902
Name: count, dtype: int64
Type de local :
 type_local
Dépendance                                  1203439
Maison                                       756009
Appartement                                  638879
Local industriel. commercial ou assimilé     142535
Name: count, dtype: int64


### Selection des variables

In [36]:
df = df.loc[(df.nature_mutation=="Vente") & ((df.type_local=="Maison") | (df.type_local=="Appartement")),
                                          ["date_mutation","valeur_fonciere",
                                           "adresse_numero","adresse_nom_voie",
                                           "code_postal","code_commune","nom_commune","code_departement",
                                           "type_local","nombre_pieces_principales",
                                           "surface_reelle_bati","surface_terrain",
                                           "longitude", "latitude"]]
df.head()

Unnamed: 0,date_mutation,valeur_fonciere,adresse_numero,adresse_nom_voie,code_postal,code_commune,nom_commune,code_departement,type_local,nombre_pieces_principales,surface_reelle_bati,surface_terrain,longitude,latitude
0,2022-01-03,55000.0,13.0,RUE DE LA LIBERTE,1000.0,1053,Bourg-en-Bresse,1,Appartement,1.0,24.0,,5.218712,46.198053
3,2022-01-03,143000.0,98.0,RTE DE LA DOMBES,1480.0,1398,Savigneux,1,Appartement,3.0,140.0,,4.84834,46.000631
5,2022-01-06,255000.0,282.0,RTE DE POISATON,1560.0,1230,Mantenay-Montlin,1,Maison,5.0,108.0,649.0,5.103407,46.422348
8,2022-01-03,525000.0,217.0,PL DE LA CROIX BLANCHE,1390.0,1333,Saint-André-de-Corcy,1,Appartement,4.0,126.0,628.0,4.951266,45.926511
12,2022-01-05,64000.0,12.0,BD DE BROU,1000.0,1053,Bourg-en-Bresse,1,Appartement,2.0,117.0,,5.229155,46.204984


In [37]:
print(df.shape)
print(df.isna().sum())

(1378948, 14)
date_mutation                     0
valeur_fonciere                3263
adresse_numero                 7105
adresse_nom_voie                 38
code_postal                      35
code_commune                      0
nom_commune                       0
code_departement                  0
type_local                        0
nombre_pieces_principales        77
surface_reelle_bati              77
surface_terrain              512854
longitude                     10963
latitude                      10963
dtype: int64


### Gestion des valeurs manquantes :

In [39]:
# Suppression des lignes avec une valeur foncière manquante ou des coordonnées manquantes
df = df.dropna(subset=['valeur_fonciere'])
df = df.dropna(subset=['longitude'])
df = df.dropna(subset=['latitude'])
df = df.dropna(subset=['adresse_nom_voie'])
df = df.dropna(subset=['code_postal'])
df = df.dropna(subset=['surface_reelle_bati'])


In [41]:
# remplacement des valeurs manquantes de adresse_numero et surface_terrain par 0.0
# car l'adresse n'a pas forcéméent de numéro et un appartement n'a pas de terrain
df['adresse_numero'] = df['adresse_numero'].fillna(0)
df['surface_terrain'] = df['surface_terrain'].fillna(0)

In [42]:
print(df.shape)
print(df.isna().sum())

(1364686, 14)
date_mutation                0
valeur_fonciere              0
adresse_numero               0
adresse_nom_voie             0
code_postal                  0
code_commune                 0
nom_commune                  0
code_departement             0
type_local                   0
nombre_pieces_principales    0
surface_reelle_bati          0
surface_terrain              0
longitude                    0
latitude                     0
dtype: int64


### Création d'un table rds test pour insérer les données

<img src="/home/kevin/workspace/certif_app_immo/datagouv_to_rds/mld.PNG" alt="Schema de la bdd">


#### Création d'une table test pour valider le type de données

In [None]:
from connection import db,cursor


query="""
CREATE DATABASE IF NOT EXISTS datagouv;
"""
cursor.execute(query)

query="""
USE datagouv;
"""
cursor.execute(query)

query="""
CREATE TABLE IF NOT EXISTS VENTES(
        ID_VENTE        Int  Auto_increment  NOT NULL ,
        MONTANT         Int NOT NULL ,
        NUMERO_RUE      Varchar (50) NOT NULL ,
        RUE             Varchar (50) NOT NULL ,
        CODE_POSTAL     Int NOT NULL ,
        NOM_COMMUNE     Varchar (50) NOT NULL ,
        LONGITUDE       Decimal (9,6) NOT NULL ,
        LATITUDE        Decimal (9,6) NOT NULL ,
        DATE            Datetime NOT NULL ,
        SURFACE_BATI    Int NOT NULL ,
        NB_PIECES       Int NOT NULL ,
        SURFACE_TERRAIN Int NOT NULL ,
        TYPE_BIEN       Varchar (50) NOT NULL ,
        CODE_COMMUNE    Varchar (50) NOT NULL ,
        ID_DEPT         Varchar (3) NOT NULL
"""



In [None]:
insert_data=df.iloc[:5,:]
insert_data.head()

#### Adaptation des données aux types de variables de la base de données rds

In [None]:
df['date_mutation'] = pd.to_datetime(df['date_mutation'], errors='coerce')
df['valeur_fonciere'] = df.valeur_fonciere.astype(int)
...

In [None]:
for index,row in insert_data.iterrows:
    query="""
    INSERT INTO VENTES (DATE, MONTANT,
                      NUMERO_RUE, RUE , CODE_POSTAL,CODE_COMMUNE, NOM COMMUNE, ID_DEPT,
                      TYPE_BIEN, NB_PIECES ,
                      SURFACE_BATI,  SURFACE_BATI
                      LONGITUDE, LATITUDE )
    VALUES (%s,%s,
            %s,%s,%s,%s,%s,%s,
            %s,%s,
            %s,%s,
            %s,%s,)
    """
    cursor.execute(query,row["date_mutation"],row['valeur_fonciere']...........)
db.commit()

In [None]:
query="""
SELECT * FROM VENTES
"""

df_rds = pd.read_sql(query, db)
df_rds.head()

In [None]:
query="""
TRUNCATE TABLE VENTES;
"""
cursor.execute(query)

query="""
DROP DATABASE datagouv;
"""
cursor.execute(query)

In [None]:
db.close()