# Web-scraping

In [8]:
# Librairies pour la décompression de fichiers
import gzip
from io import BytesIO

# Librairies pour le scrapping
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Visualisation de données
import pandas as pd

In [4]:
# URL de la page web
url = 'https://files.data.gouv.fr/geo-dvf/latest/csv/'

response = requests.get(url)
html_content = response.content

# Utilisez BeautifulSoup pour analyser le HTML
soup = BeautifulSoup(html_content, 'html.parser')

In [5]:
# Trouver toutes les balises <a>
a_tags = soup.find_all('a')
annees=[]
# Parcourir chaque balise <a> et extraire le texte ainsi que la date/heure
for a_tag in a_tags:
    name = a_tag.text.strip()
    if name!="../":
        annees.append(name)
print(annees)

['2018/', '2019/', '2020/', '2021/', '2022/', '2023/']


In [6]:
date_element = soup.find('pre').contents[-1].strip()
date_maj = date_element.replace(" ","")
print(date_maj)

13-Oct-202320:28-


# Récupération des données sur une l'année 2023

In [7]:
url = f'https://files.data.gouv.fr/geo-dvf/latest/csv/{annees[-1]}'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')

# Trouver la balise 'a' qui contient les liens de téléchargement
csv_element = soup.find('pre').find('a', {'href': "full.csv.gz"})
csv_link = urljoin(url, csv_element['href'])
print(csv_link)

https://files.data.gouv.fr/geo-dvf/latest/csv/2023/full.csv.gz


In [9]:
csv_response = requests.get(csv_link)
if csv_response.status_code == 200:
    # Utilisation du buffer pour décompresser le fichier .gz
    with BytesIO(csv_response.content) as file_buffer:
        with gzip.GzipFile(fileobj=file_buffer, mode='rb') as gz_file:
            df = pd.read_csv(gz_file, low_memory=False)
else :
    print("Erreur !!!")

In [10]:
df.head()

Unnamed: 0,id_mutation,date_mutation,numero_disposition,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,adresse_code_voie,code_postal,...,type_local,surface_reelle_bati,nombre_pieces_principales,code_nature_culture,nature_culture,code_nature_culture_speciale,nature_culture_speciale,surface_terrain,longitude,latitude
0,2023-1,2023-01-05,1,Vente,1070000.0,184.0,,ALL DES HETRES,124,1630.0,...,Dépendance,,0.0,,,,,,6.019949,46.247458
1,2023-1,2023-01-05,1,Vente,1070000.0,159.0,,ALL DES HETRES,124,1630.0,...,Dépendance,,0.0,,,,,,6.020204,46.247228
2,2023-1,2023-01-05,1,Vente,1070000.0,159.0,,ALL DES HETRES,124,1630.0,...,Appartement,233.0,8.0,,,,,,6.020204,46.247228
3,2023-2,2023-01-03,1,Vente,152200.0,2914.0,,RTE DE PONCIN,107,1450.0,...,Maison,64.0,3.0,S,sols,,,988.0,5.438273,46.129859
4,2023-3,2023-01-05,1,Vente,269000.0,427.0,T,CHE DE L'AUBEPIN,40,1800.0,...,Dépendance,,0.0,S,sols,,,835.0,5.225844,45.853513


# EDA sur 2023

In [15]:
df.columns.to_list()


['id_mutation',
 'date_mutation',
 'numero_disposition',
 'nature_mutation',
 'valeur_fonciere',
 'adresse_numero',
 'adresse_suffixe',
 'adresse_nom_voie',
 'adresse_code_voie',
 'code_postal',
 'code_commune',
 'nom_commune',
 'code_departement',
 'ancien_code_commune',
 'ancien_nom_commune',
 'id_parcelle',
 'ancien_id_parcelle',
 'numero_volume',
 'lot1_numero',
 'lot1_surface_carrez',
 'lot2_numero',
 'lot2_surface_carrez',
 'lot3_numero',
 'lot3_surface_carrez',
 'lot4_numero',
 'lot4_surface_carrez',
 'lot5_numero',
 'lot5_surface_carrez',
 'nombre_lots',
 'code_type_local',
 'type_local',
 'surface_reelle_bati',
 'nombre_pieces_principales',
 'code_nature_culture',
 'nature_culture',
 'code_nature_culture_speciale',
 'nature_culture_speciale',
 'surface_terrain',
 'longitude',
 'latitude']