In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from tqdm import tqdm_notebook as tqdm

In [2]:
website = "https://www.immobiliare.it/affitto-case/torino"

In [3]:
def get_pages(main):
    try:
        soup = connect(main)
        max = soup.find_all("span", class_="pagination__label")
        last_page = int(max[-1].contents[0])
        pages = [main]
        
        for n in range(2,last_page):    
            page_num = "/?pag={}".format(n)
            pages.append(main + page_num)
    except:
        pages = [main]
        
    return pages

def connect(web_addr):
    resp = requests.get(web_addr)
    return BeautifulSoup(resp.content, "html.parser")
    

def create_df(offers):
    price = []
    rooms = []
    surface = []
    bathrooms = []
    floor = []
    
    for offer in offers:
        l = list(offer.stripped_strings)
        
        if "€" in l[0]:
            stripped = l[0].replace("€ ", "").replace(".","")
            price.append(stripped)
        else:
            price.append(None)
            
        if "locali" in l:
            r = l.index("locali")-1
            rooms.append(l[r])
        else:
            rooms.append(None)
            
        if "m" in l:
            s = l.index("m")-1
            surface.append(l[s])
        else:
            surface.append(None)
            
        if "bagni" in l:
            b = l.index("bagni")-1
            bathrooms.append(l[b])
        else:
            bathrooms.append(None)
            
        if "piano" in l:
            fl = l.index("piano")-1
            floor.append(l[fl])
        else:
            floor.append(None)
                    
    return pd.DataFrame.from_dict({"Price": price, "Rooms": rooms, "Surface": surface, "Bathrooms": bathrooms, "Floor": floor})
    
def collect(url):
    pages = get_pages(url)
    df = pd.DataFrame(columns=["Price", "Rooms", "Surface", "Bathrooms", "Floor"])
    
    for page in tqdm(pages):
        soup = connect(page)
        offers = soup.find_all("ul", class_="listing-features list-piped")
        data = create_df(offers)
        df = df.append(data, ignore_index=True)
    
    df['Zona'] = url.rsplit('/', 1)[-1]

    return df

def get_areas(website):
    data = connect(website)
    areas = []
    for ultag in data.find_all('ul', {'class': 'breadcrumb-list breadcrumb-list_list thebigonelist--mouse'}):
        for litag in ultag.find_all('li'):
            for i in range(len(litag.text.split(','))):
                areas.append(litag.text.split(',')[i])
    areas = [x.strip() for x in areas]
    urls = []
    
    for area in areas:
        url = website + '/' + area.replace(' ','-').lower()
        urls.append(url)
    
    return urls

def get_apartment_links(website):
    data = connect(website)
    links = []
    for link in data.find_all('ul', {'class': 'annunci-list'}):
        for litag in link.find_all('li'):
            try:
                #return litag.a.get('href')
                links.append(litag.a.get('href'))
            except:
                continue
    return links

def scrape_link(website):
    data = connect(website)
    nomi = []
    valori = []
    for link in data.find_all('dd', {'class': 'col-xs-12'}):
        try:
            valore_affitto = link.find("span")
            if valore_affitto.string != None:
                valori.append(valore_affitto.string)
        except:
            pass
        
        if link.string == None:
            pass
        else:
            valori.append(link.string)
    
    for link in data.find_all('dt'):
        if link.string == None:
            pass
        else:
            nomi.append(link.string)
    
    valori = remove_duplicates(valori)
    nomi = remove_duplicates(nomi)
    return nomi, valori

def remove_duplicates(x):
    return list(dict.fromkeys(x))


In [None]:
urls = get_areas(website)
data = pd.DataFrame()
for url in urls:
    print(url.rsplit('/', 1)[-1])
    dati = collect(url)
    data = data.append(dati)

#dati.to_csv('output.csv', sep=',', decimal='.')

In [4]:
urls = get_areas(website)

In [5]:
print(urls)

['https://www.immobiliare.it/affitto-case/torino/centro', 'https://www.immobiliare.it/affitto-case/torino/crocetta', 'https://www.immobiliare.it/affitto-case/torino/san-secondo', 'https://www.immobiliare.it/affitto-case/torino/cavoretto', 'https://www.immobiliare.it/affitto-case/torino/gran-madre', 'https://www.immobiliare.it/affitto-case/torino/colle-della-maddalena', 'https://www.immobiliare.it/affitto-case/torino/superga', 'https://www.immobiliare.it/affitto-case/torino/borgo-san-paolo', 'https://www.immobiliare.it/affitto-case/torino/cenisia', 'https://www.immobiliare.it/affitto-case/torino/lingotto', 'https://www.immobiliare.it/affitto-case/torino/nizza-millefonti', 'https://www.immobiliare.it/affitto-case/torino/regio-parco', 'https://www.immobiliare.it/affitto-case/torino/vanchiglia', 'https://www.immobiliare.it/affitto-case/torino/vanchiglietta', 'https://www.immobiliare.it/affitto-case/torino/aurora', 'https://www.immobiliare.it/affitto-case/torino/barriera-di-milano', 'https:

In [5]:
data.to_csv('output.csv', sep=',', decimal='.')

In [None]:
data.append(dati)

In [14]:
## INIZIALIZZAZIONE CICLO SCRAPING
indirizzo = []
location = []

for url in tqdm(urls):
    pages = get_pages(url)
    for page in pages:
        #print(page)
        add = get_apartment_links(page)
        #print(add)
        indirizzo.append(add)
        for num in range(0,len(add)):
            location.append(url.rsplit('/', 1)[-1])
        
        #print(links)
        #soup = connect(page)
        #offers = soup.find_all("ul", class_="listing-features list-piped")
        #data = create_df(offers)
        #df = df.append(data, ignore_index=True)
        
indirizzi = [item for valore in indirizzo for item in valore]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


HBox(children=(IntProgress(value=0, max=37), HTML(value='')))




In [17]:
len(indirizzi)

1727

In [None]:
## DATAFRAME VERTICALE____NON USARE

df_scrape = pd.DataFrame()
variabili = ['Riferimento e Data annuncio', 'Contratto', 'Tipologia', 'Superficie', 'Locali', 'Piano', 'Disponibilità', 'Tipo proprietà', 'Prezzo', 'Spese condominio', 'Spese riscaldamento', 'Informazioni catastali', 'Anno di costruzione', 'Stato', 'Riscaldamento', 'Climatizzatore', 'Classe energetica', 'Prestazione energetica del fabbricato']
df_scrape[0] = variabili
df_scrape.set_index(0, inplace=True, drop=True)
print(df_scrape)
for link in links:
    try:
        nomi, valori = scrape_link(link)
        df_temporaneo = pd.DataFrame()
        df_temporaneo['Nomi'] = nomi
        df_temporaneo.set_index('Nomi',inplace=True,drop=True)
        print(len(nomi),len(valori))
        while len(valori)<len(nomi):
            valori.append(0)
        print(len(valori[0:len(nomi)]))
        df_temporaneo['Valori'] = valori[0:len(nomi)]
        print(df_temporaneo)
        df_scrape = df_scrape.merge(df_temporaneo, how='left', left_index=True, right_index=True)
    except Exception as e:
        print(e)
        continue

In [18]:
## DATAFRAME ORIZZONTALE__USARE

variabili = ['Riferimento e Data annuncio', 'Contratto', 'Tipologia', 'Superficie', 'Locali', 'Piano', 'Disponibilità', 'Tipo proprietà', 'Prezzo', 'Spese condominio', 'Spese riscaldamento', 'Informazioni catastali', 'Anno di costruzione', 'Stato', 'Riscaldamento', 'Climatizzatore', 'Classe energetica', 'Prestazione energetica del fabbricato']
df_scrape = pd.DataFrame(columns=variabili)
#df_scrape.set_index(0, inplace=True, drop=True)
#print(df_scrape)
for link in tqdm(list(indirizzi)):
    #print(link)
    try:
        nomi, valori = scrape_link(link)
        df_temporaneo = pd.DataFrame(columns=nomi)
        #df_temporaneo['Nomi'] = nomi
        #df_temporaneo.set_index('Nomi',inplace=True,drop=True)
        #print(len(nomi),len(valori))
        while len(valori)<len(nomi):
            valori.append(0)
        #print(len(valori[0:len(nomi)]))
        df_temporaneo.loc[len(df_temporaneo), :] = valori[0:len(nomi)]
        #print(df_temporaneo)
        df_scrape = df_scrape.append(df_temporaneo, sort=False)
    except Exception as e:
        print(e)
        continue

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  import sys


HBox(children=(IntProgress(value=0, max=1727), HTML(value='')))

HTTPSConnectionPool(host='www.immobiliare.it', port=443): Max retries exceeded with url: /annunci/76349690/ (Caused by NewConnectionError("<urllib3.connection.VerifiedHTTPSConnection object at 0x000001EAE7822988>: Failed to establish a new connection: [WinError 10060] Impossibile stabilire la connessione. Risposta non corretta della parte connessa dopo l'intervallo di tempo oppure mancata risposta dall'host collegato"))



In [28]:
#df_scrape
df_scrape['Zona'] = location[1:len(location)]
df_scrape.to_csv('dataset.csv', sep=";")

In [29]:
df_scrape.shape

(1726, 27)

In [30]:
df_scrape = df_scrape[['Contratto', 'Zona', 'Tipologia', 'Superficie', 'Locali', 'Piano', 'Tipo proprietà', 'Prezzo', 'Spese condominio', 'Spese riscaldamento','Anno di costruzione', 'Stato', 'Riscaldamento', 'Climatizzatore', 'Classe energetica']]

In [91]:
dataset = pd.read_csv('dataset.csv', sep=";")

In [92]:
dataset = dataset[['Contratto', 'Zona', 'Tipologia', 'Superficie', 'Locali', 'Piano', 'Tipo proprietà', 'Prezzo', 'Spese condominio', 'Spese riscaldamento','Anno di costruzione', 'Stato', 'Riscaldamento', 'Climatizzatore', 'Classe energetica']]

In [93]:
len(location)

1727

In [94]:
def cleanup(df):
    price = []
    rooms = []
    surface = []
    bathrooms = []
    floor = []
    contract = []
    tipo = []
    condominio = []
    heating = []
    built_in = []
    state = []
    riscaldamento = []
    cooling = []
    energy_class = []
    tipologia = []
    cazzo = []
    
    for tipo in df['Tipologia']:
        try:
            tipologia.append(tipo)
        except:
            tipologia.append(None)
    
    for superficie in df['Superficie']:
        if "m" in superficie:
            s = superficie.replace(" m²", "")
            surface.append(s)
        else:
            surface.append(None)
    
    for locali in df['Locali']:
        try:
            rooms.append(locali[0:1])
        except:
            rooms.append(None)
    
    for prezzo in df['Prezzo']:
        price.append(prezzo.replace("Affitto ", "").replace("€ ", "").replace(" al mese", "").replace(".",""))
        
    for contratto in df['Contratto']:
        contract.append(contratto.replace("\n ",""))
    
    for piano in df['Piano']:
        try:
            floor.append(piano.split(' ')[0])
        except:
            floor.append(None)
    
    for tipologia in df['Tipo proprietà']:
        try:
            cazzo.append(tipologia.split(',')[0])
        except:
            cazzo.append(None)
            
    for condo in df['Spese condominio']:
        try:
            if "mese" in condo:
                condominio.append(condo.replace("€ ","").replace("/mese",""))
            else:
                condominio.append(None)
        except:
            condominio.append(None)
        
    for ii in df['Spese riscaldamento']:
        try:
            if "anno" in ii:
                mese = int(int(ii.replace("€ ","").replace("/anno","").replace(".",""))/12)
                heating.append(mese)
            else:
                heating.append(None)
        except:
            heating.append(None)
    
    for anno_costruzione in df['Anno di costruzione']:
        try:
            built_in.append(anno_costruzione)
        except:
            built_in.append(None)
    
    for stato in df['Stato']:
        try:
            stat = stato.replace(" ","").lower()
            state.append(stat)
        except:
            state.append(None)
    
    for tipo_riscaldamento in df['Riscaldamento']:
        try:
            riscaldamento.append(tipo_riscaldamento.lower().split(',')[0])
        except:
            riscaldamento.append(None)
    
    for clima in df['Climatizzatore']:
        try:
            cooling.append(clima.lower().split(',')[0])
        except:
            cooling.append('None')
    
    for classe in df['Classe energetica']:
        try:
            energy_class.append(classe.replace("\n ",""))
        except:
            energy_class.append(None)
    
    final_df = pd.DataFrame(columns=['Contratto', 'Zona', 'Tipologia', 'Superficie', 'Locali', 'Piano', 'Tipo proprietà', 'Prezzo', 'Spese condominio', 'Spese riscaldamento','Anno di costruzione', 'Stato', 'Riscaldamento', 'Climatizzatore', 'Classe energetica'])
    final_df['Contratto'] = contract
    final_df['Tipologia'] = tipologia
    final_df['Superficie'] = surface
    final_df['Locali'] = rooms
    final_df['Piano'] = floor
    final_df['Tipo proprietà'] = cazzo
    final_df['Prezzo'] = price
    final_df['Spese condominio'] = condominio
    final_df['Spese riscaldamento'] = heating
    final_df['Anno di costruzione'] = built_in
    final_df['Stato'] = state
    final_df['Riscaldamento'] = riscaldamento
    final_df['Climatizzatore'] = cooling
    final_df['Classe energetica'] = energy_class
    final_df['Zona'] = df['Zona']
    
    return final_df

In [95]:
final = cleanup(dataset)

In [96]:
final.to_csv('dataset_allenamento.csv', sep=";")