# Projet Technique de programmation : Marché de l'immobilier de Strasbourg

L'objectif est de créer un programme pouvant extraire des données des annonces de bien immobilier.  
Ces données nous servirons à :  
    - Estimer le prix d'un bien immobilier selon certaines caractéristiques.  
    - Trier les annonces afin d'obtenir des recommandations d'annonce selon des critiques définit par l'utilisateur.  
    - Etablir un panorama du marché immobilier et un suivi de son évolution.

# I. Fonctions et packages globaux

In [1]:
# Chargement des packages que nous allons utiliser dans ce script
from bs4 import BeautifulSoup
import requests
import time 
import random
import re
import pandas as pd
import numpy as np

In [2]:
# Fonction permettant de récuperer le code html d'un page internet
# ATTENTION : IL FAUT MODIFIER L'USER AGENT !!!!!!

def get_page(urlpage):
    user_agent = {'User-Agent':''}
    # Timer qui retard l'envoi de requête vers le site pour pas se faire ban
    time.sleep(0.2 + np.random.rand()/10)
    res = requests.get(urlpage, headers = user_agent)
    soup = BeautifulSoup(res.text, 'html.parser')
    return soup

In [3]:
# Fonction qui nous permet de récupérer les liens des annonces des logements
# Les sites disponibles sont "orpi" et "nexity"

def get_link(site):
    # On récupère les caractèristiques pour le site 'orpi'
    if (site=='orpi')==True:
        urlpage = 'https://www.orpi.com/location-immobiliere-strasbourg/louer-appartement/' # url
        a = "a" # la balise
        b = 'u-link-unstyled c-overlay__link' # la classe
        website = "https://www.orpi.com" # le lien du site web
        reg = 'href="(.*?)">\n<span' # la regular expression qui encadre notre lien
    # On récupère les caractéristiques pour le site 'nexity'
    if (site=='nexity')==True:
        urlpage = 'https://www.nexity.fr/annonces-immobilieres/location/appartement/tout/strasbourg+67' # url
        a = "div" # la balise
        b = 'product-card-content flex flex-column align-items-start' # la classe
        website = "https://www.nexity.fr" # le lien du site web
        reg = 'href="(.*?)" target' # la regular expression qui encadre notre lien
    
    # On charge la page d'acceuil ou toutes les annonces sont énumérées
    soup = get_page(urlpage) 
    # On recupère les infos dans le html
    annonces = soup.find_all(a, class_= b)
    # On initialise un vecteur vide pour stocker les liens des annonces
    links = []
    
    for i in range(len(annonces)):
        text = str(annonces[i]) #On met chaque annonce en chaine de caractère
        link = re.findall(reg, text)[0] # On cherche la regular expression qu'on a définit plsu haut
        path = website + link # On regroupe le nom du site et le nom de l'annonce
        links.append(path) # On l'ajoute à notre vecteur "links"
        
    return links

# II. Scraping "Orpi"
https://www.orpi.com/location-immobiliere-strasbourg/louer-appartement/

## 1. Fonctions pour récupérer les caractéristiques des annonces Orpi

In [4]:
# a) Récupération du type : appartement ou maison
def get_type(soup):
    text = soup.find_all("span", class_='u-block@sm u-block@md-plus')[0].text
    if (text.find("Appartement") != -1) == True:
        typ = "Appartement"
    elif (text.find("Maison") != -1) == True:
        typ = "Maison"
    return [typ]

# b) Récupération de la ville : Strasbourg et alentour
def get_ville(soup):
    text = soup.find("span", class_='u-h3 u-ml-xs u-text-normal').text
    return [text]

# c) Loyer et Charges
def get_loyer_charges(soup): 
    text = soup.find("ul", class_='u-list-unstyled u-text-xs u-mt-xs u-color-text-grey').find_all('li')
    for i in range(len(text)):
        et = text[i].text
        if "Loyer" in et:
            loyer = str(int(''.join(re.findall(r'\d', et))))
        if "Provisions" in et:
            prov = str(int(''.join(re.findall(r'\d', et))))
    return [loyer, prov]

# d) Nombre de pièce et surface
def get_piece(soup):
    text = soup.find_all("span", class_='u-block@sm u-block@md-plus')[1].text.replace(" ", "")
    piece = re.findall(r'\n(.*?)pièce', text)
    surface = re.findall(r'•(.*?)m2', text)
    return piece + surface

# e) Caractéristiques spécifiques (Meublé, Ascenseur, Balcon, Terrasse, Jardin, Stationnement, Cave, Étage)
def get_caracteristiques(soup):
    obj = ["Meublé", "Ascenseur", "Balcon", "Jardin", "Terrasse", "Stationnement", "Cave", "Étage"]
    text = soup.find_all(class_='u-flex u-flex-cross-center')
    element = []
    crtqs = ["Non"] * len(obj)
    for i in range(len(text)-1):
        piece = text[i].find("span").text
        element.append(piece)

    for i in range(len(obj)):
        for j in range(len(element)):
            if obj[i] in element[j]:
                if (obj[i]=="Étage")==True:
                    crtqs[i] = element[j].split()[1]
                else:
                    crtqs[i] = "Oui"
                    break
    return crtqs

# f) Récupération du quartier
def get_quartier(soup):
    text = soup.find_all("h2", class_='u-h3')
    if (get_ville(soup) == ["Strasbourg"])==True: # Si la ville est strasbourg, on récupère le quartier
        for i in range(len(text)):
            et = text[i].text
            if "Quartier" in et:
                localisation = re.findall(r'Quartier (.*?) à', et)
    else: # Si la ville n'est pas strasbourg, le nom du quartier sera le nom de la ville
        localisation = get_ville(soup)
    return localisation

# g) Récupération de la consommation annuelle d'énergie et d'emission de gaz à effet de serre
# Ici on sépare la fonction en 3 cas : Si aucune info sur l'énergie est dispo, si une seule info et dispo et si la 
# consommation et les emissions de GES sont disponibles.
# L'idée ici est de récuperer le vecteur avec les lettres et la consommation dans l'annonce et de regarder si est différent
# de celui de référence.
def get_conso(soup):
    vecteur = ["A", "B", "C", "D", "E", "F", "G"] # Vecteur des classes énergies
    text = soup.find_all("ul", class_='c-dpe')
    
    if (len(text)==0)==True: # Si aucune info est disponible dans l'annonce
        nrj = ["NA", "NA"]
    
    elif (len(text)==1)==True: # Si une seule info est disponible
            et = text[0].text
            resultats = re.findall(r'[A-Za-z]+|\d+|kWh/m2\.an', et)
            for i in range(len(resultats)):
                if (resultats[i] == vecteur[i]) == False:
                    for resultat in resultats:
                        if (resultat == 'kWh') == True:
                            nrj = [resultats[i], "NA"]
                        elif (resultat == 'kgeqCO') == True:
                            nrj = ["NA", resultats[i]]
                    break

    elif (len(text)==2)==True:
        for i in range(len(text)): # Si les deux sont disponibles dans l'annonce
            et = text[i].text
            resultats = re.findall(r'[A-Za-z]+|\d+|kWh/m2\.an', et)
            for i in range(len(resultats)):
                if (resultats[i] == vecteur[i]) == False:
                    for resultat in resultats:
                        if (resultat == 'kWh') == True:
                            nrj = resultats[i]
                        if (resultat == 'kgeqCO') == True:
                            ges = resultats[i]
                    break
                    
        nrj = [nrj, ges]
    return nrj

## 2. Fonction pour une annonce Orpi

In [5]:
# Fonction qui nous donne toutes les caractéristiques de l'annonce orpi à l'aide des fonction précédente 
def get_orpi(urlpage):
    user_agent = {'User-Agent':''}
    soup = get_page(urlpage)
    appart = get_type(soup) + get_ville(soup) + get_quartier(soup) + get_loyer_charges(soup) + get_piece(soup) + get_caracteristiques(soup) + get_conso(soup)
    return appart


# III. Scraping Nexity
https://www.nexity.fr/location/FL0790538/

## 1. Fonctions pour les caractéristiques des annonces Nexity

In [6]:
# a) Récupération de la ville
def get_ville_nexity(soup):
    text = soup.find("span", class_='city').text
    return [text]

# b) Récupération du quartier
# Sur Nexity, on a pas accès à la variable quartier, on doit donc regarder dans le texte de description si les noms de 
# quartier ci dessous sont évoqués.
def get_quartier_nexity(soup):
    quartiers = ["meinau", "neustadt", "esplanade", "petite france", "cronenbourg", "koenigshoffen", "halles", "neudorf", "robertsau", "gare", "musau", "orangerie", "krutenau", "forêt noire"]
    quartier = 0
    text = soup.find("div", class_='description text_body_1 mt-2').text
    text = text.lower().split()
    for i in range(len(quartiers)):
        for j in range(len(text)):
            if (text[j] == quartiers[i])==True:
                quartier = quartiers[i].capitalize()
                break
        if (quartier == 0) == True:
            quartier = "NA"
    return [quartier]

# c) Caractéristiques spécifiques (Type, Loyer, Charges, Pièces, Surface, Ascenseur, Balcon, Terrain, Terrasse, Parking, 
#                                  Cave, Etage) 
def get_carac_nexity(soup, word):
    text = soup.find_all("div", class_='d-flex align-items-center')
    var = 'R'
    for i in range(len(text)):
        et = text[i].text.lower()
        et1 = et.split()
        if (et.find(word) != -1) == True:
            if (word == "etage")==True:
                var = et1[1]
            else:
                var = et1[len(et1)-1].capitalize()
            break
            break
    if (var=="R")==True:
        var = "NA"
    return [var] 

# d) Performance énergétique
def get_nrj_nexity(soup):
    text = soup.find_all("div", class_='item-indice--value indice-dpe')
    if (text==[])==True:
        text = soup.find_all("div", class_='item-indice--value indice-dpe--f-or-g')
    dpe = [text[0].find("span").text]
    ges = [text[1].find("span").text]
    data = dpe + ges
    return data

# e) Meublé
# Sur chaque annonce meublé, il y a une petite bulle en haut à gauche qui indique 'location meublée'. Donc il faut regardé
# si cela apparait.
def get_meuble_nexity(soup):
    capsule = soup.find_all("div", class_='flap flap--not-new')
    if (capsule=='location meublée')==True:
        meuble = "oui"
    else:
        meuble = "non"
    return [meuble]

## 2. Fonction pour une annonce Nexity

In [7]:
# Fonction qui nous donne toutes les caractéristiques d'une annonce nexity à l'aide des fonction précédente 
def get_nexity(urlpage):
    user_agent = {'User-Agent':''}
    soup = get_page(urlpage)
    appart = []
    appart = get_carac_nexity(soup, "type") + get_ville_nexity(soup) + get_quartier_nexity(soup) +  get_carac_nexity(soup, "loyer")  + get_carac_nexity(soup, "charge") + get_carac_nexity(soup, "pièce") + get_carac_nexity(soup, "surface") + get_meuble_nexity(soup) + get_carac_nexity(soup, "ascenseur") + get_carac_nexity(soup, "balcon") + get_carac_nexity(soup, "terrain") + get_carac_nexity(soup, "terrasse") + get_carac_nexity(soup, "parking") + get_carac_nexity(soup, "cave") + get_carac_nexity(soup, "etage") + get_nrj_nexity(soup)
    return appart

# IV. Fonction pour toutes les annonces

In [8]:
# Fonction qui reprend toutes les fonctions précédentes pour faire une fonction qui fait tout !
def get_appart(site):
    links = get_link(site)
    var = ["Type", "Ville", "Quartier", "Loyer", "Charges", "Pièces", "Surface", "Meublé", "Ascenseur", "Balcon", "Terrain extérieur", "Terrasse", "Parking", "Cave", "Étage", "Conso NRJ", "Conso GES"]
    data = pd.DataFrame([], columns=var)
    if (site=="orpi")==True:
        for i in range(len(links)):
            info = get_orpi(links[i])
            new_lines = pd.DataFrame([info], columns=var)
            data = pd.concat([data, new_lines], ignore_index=True)
    if (site=="nexity")==True:
        for i in range(len(links)):
            if (links[i].find("residence_etudiant") != -1)==False:
                info = get_nexity(links[i])
                new_lines = pd.DataFrame([info], columns=var)
                data = pd.concat([data, new_lines], ignore_index=True)
    return data  

In [9]:
get_appart("orpi")

Unnamed: 0,Type,Ville,Quartier,Loyer,Charges,Pièces,Surface,Meublé,Ascenseur,Balcon,Terrain extérieur,Terrasse,Parking,Cave,Étage,Conso NRJ,Conso GES
0,Appartement,Strasbourg,Neudorf Rive Etoile,459,50,1,1960,Oui,Oui,Non,Non,Non,Non,Non,1,278,8.0
1,Appartement,Strasbourg,Robertsau,1035,50,4,12335,Non,Non,Oui,Non,Non,Non,Non,1,283,9.0
2,Appartement,Strasbourg,Robertsau,540,45,2,45,Non,Non,Non,Non,Non,Non,Non,Non,276,60.0
3,Appartement,Strasbourg,Neudorf Centre,337,110,1,28,Non,Oui,Non,Non,Non,Non,Oui,4,237,65.0
4,Appartement,Strasbourg,Neudorf Rive Etoile,510,70,1,1620,Oui,Non,Non,Non,Non,Non,Non,Non,145,2.0
5,Appartement,Strasbourg,Neudorf Rive Etoile,1300,100,4,5496,Oui,Non,Non,Non,Oui,Non,Non,Non,220,7.0
6,Appartement,Strasbourg,Neudorf Rive Etoile,356,60,1,1191,Oui,Non,Non,Non,Non,Non,Non,3,225,52.0
7,Appartement,Strasbourg,Neudorf Rive Etoile,657,340,3,71,Non,Oui,Oui,Non,Non,Non,Non,3,133,51.0
8,Appartement,Strasbourg,Neudorf Jean Monnet,780,160,3,7686,Non,Non,Non,Non,Oui,Non,Non,Non,314,73.0
9,Appartement,Strasbourg,Neudorf Rive Etoile,528,100,2,4126,Non,Non,Non,Non,Non,Non,Oui,Non,330,77.0


In [11]:
get_appart("nexity")

Unnamed: 0,Type,Ville,Quartier,Loyer,Charges,Pièces,Surface,Meublé,Ascenseur,Balcon,Terrain extérieur,Terrasse,Parking,Cave,Étage,Conso NRJ,Conso GES


In [None]:
data = pd.concat([get_appart("nexity"), get_appart("orpi")], ignore_index=True)
data

Nouveau Scraping