In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from tqdm import tqdm

In [1]:
citta = 'milano'

In [3]:
website = 'https://www.immobiliare.it/affitto-case/'+citta

In [4]:
def get_pages(main):
    try:
        soup = connect(main)
        max = soup.find_all("span", class_="pagination__label")
        last_page = int(max[-1].contents[0])
        pages = [main]
        
        for n in range(2,last_page):    
            page_num = "/?pag={}".format(n)
            pages.append(main + page_num)
    except:
        pages = [main]
        
    return pages

def connect(web_addr):
    resp = requests.get(web_addr)
    return BeautifulSoup(resp.content, "html.parser")
    

def create_df(offers):
    price = []
    rooms = []
    surface = []
    bathrooms = []
    floor = []
    
    for offer in offers:
        l = list(offer.stripped_strings)
        
        if "€" in l[0]:
            stripped = l[0].replace("€ ", "").replace(".","")
            price.append(stripped)
        else:
            price.append(None)
            
        if "locali" in l:
            r = l.index("locali")-1
            rooms.append(l[r])
        else:
            rooms.append(None)
            
        if "m" in l:
            s = l.index("m")-1
            surface.append(l[s])
        else:
            surface.append(None)
            
        if "bagni" in l:
            b = l.index("bagni")-1
            bathrooms.append(l[b])
        else:
            bathrooms.append(None)
            
        if "piano" in l:
            fl = l.index("piano")-1
            floor.append(l[fl])
        else:
            floor.append(None)
                    
    return pd.DataFrame.from_dict({"Price": price, "Rooms": rooms, "Surface": surface, "Bathrooms": bathrooms, "Floor": floor})
    
def collect(url):
    pages = get_pages(url)
    df = pd.DataFrame(columns=["Price", "Rooms", "Surface", "Bathrooms", "Floor"])
    
    for page in tqdm(pages):
        soup = connect(page)
        offers = soup.find_all("ul", class_="listing-features list-piped")
        data = create_df(offers)
        df = df.append(data, ignore_index=True)
    
    df['Zona'] = url.rsplit('/', 1)[-1]

    return df

def get_areas(website):
    data = connect(website)
    areas = []
    for ultag in data.find_all('ul', {'class': 'breadcrumb-list breadcrumb-list_list thebigonelist--mouse'}):
        for litag in ultag.find_all('li'):
            for i in range(len(litag.text.split(','))):
                areas.append(litag.text.split(',')[i])
    areas = [x.strip() for x in areas]
    urls = []
    
    for area in areas:
        url = website + '/' + area.replace(' ','-').lower()
        urls.append(url)
    
    return urls

In [5]:
urls = get_areas(website)
print('--- Numero di zone da analizzare ' + str(len(urls)))
data = pd.DataFrame()
for url in urls:
    print(url.rsplit('/', 1)[-1])
    dati = collect(url)
    data = data.append(dati)

#dati.to_csv('output.csv', sep=',', decimal='.')

centro


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:22<00:00,  5.68s/it]


arco-della-pace


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:06<00:00,  6.03s/it]


arena


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.25s/it]


pagano


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.52s/it]


genova


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.91s/it]


ticinese


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:22<00:00,  5.60s/it]


quadronno


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.05s/it]


palestro


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:54<00:00,  6.29s/it]


guastalla


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.40s/it]


garibaldi


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.86s/it]


moscova


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:22<00:00,  5.59s/it]


porta-nuova


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.57s/it]


fiera


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:35<00:00,  5.14s/it]


sempione


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.31s/it]


city-life


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.66s/it]


portello


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.16s/it]


navigli


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:34<00:00,  8.81s/it]


porta-romana


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:29<00:00,  7.28s/it]


cadore


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.36s/it]


montenero


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.69s/it]


porta-venezia


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.58s/it]


indipendenza


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.62s/it]


centrale


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:16<00:00,  5.61s/it]


repubblica


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.46s/it]


cenisio


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.43s/it]


sarpi


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.23s/it]


isola


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.55s/it]


viale-certosa


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.18s/it]


cascina-merlata


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.97s/it]


bande-nere


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.65s/it]


inganni


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.95s/it]


famagosta


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.91s/it]


barona


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.31s/it]


abbiategrasso


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.23s/it]


chiesa-rossa


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.87s/it]


porta-vittoria


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.39s/it]


lodi


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.34s/it]


cimiano


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.46s/it]


crescenzago


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.42s/it]


adriano


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.98s/it]


bicocca


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.79s/it]


niguarda


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.68s/it]


solari


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:10<00:00,  5.21s/it]


washington


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.56s/it]


affori


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.01s/it]


bovisa


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:06<00:00,  6.04s/it]


san-siro


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:22<00:00,  5.63s/it]


trenno


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.61s/it]


bisceglie


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.49s/it]


baggio


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.53s/it]


olmi


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.13s/it]


ripamonti


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:16<00:00,  5.47s/it]


vigentino


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.58s/it]


forlanini


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.33s/it]


città-studi


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.77s/it]


susa


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.86s/it]


maggiolina


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.66s/it]


istria


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.97s/it]


precotto


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.71s/it]


turro


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.35s/it]


udine


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.84s/it]


lambrate


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.48s/it]


pasteur


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.34s/it]


rovereto


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.90s/it]


ponte-lambro


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.39s/it]


santa-giulia


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.23s/it]


corvetto


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:11<00:00,  5.57s/it]


rogoredo


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.79s/it]


napoli


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.22s/it]


soderini


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.96s/it]


In [6]:
data.to_csv('output_' + citta + '.csv', sep=',', decimal='.')

In [28]:
data