<a href="https://colab.research.google.com/github/andreabazerla/real-estate/blob/main/Housing_Price_Prediction_in_Milan_(Italy)_through_Deep_Learning_via_immobiliare_it.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Housing Price Prediction in Milan (Italy) through Deep Learning via immobiliare.it

<img src="https://media.giphy.com/media/gTURHJs4e2Ies/source.gif" />

In [10]:
import os
import sys
import logging
import math
import locale
import pandas as pd
import numpy as np
import seaborn as sb
from google.colab import files
import requests
from enum import Enum 
from random import uniform
import time
import datetime
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
import re
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
from sklearn.preprocessing import MultiLabelBinarizer
import functools
import matplotlib.pyplot as plt

In [None]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [None]:
def get_timestamp():
  return str(int(time.time()))

## Web Scraping: immobiliare.it

In [None]:
PRODUCTION = True
GET_ADS_LINKS = False
GET_ADS_LIST = True

In [None]:
class Contract(Enum):
  VENDITA = 'vendita'
  AFFITTO = 'affitto'
 
class Area(Enum):
  MILANO = 'milano'

In [None]:
slash = '/'
https = 'https://'
website = 'www.immobiliare.it'
contract = Contract.VENDITA.value + '-case'
area = Area.MILANO.value
sort = '?criterio=rilevanza'
 
url = https + website + slash + contract + slash + area + slash + sort
 
print('url = ' + url)

In [None]:
sleep_min = 2
sleep_max = 3

def sleep_default():
  time.sleep(uniform(sleep_min, sleep_max))

### Ads Link Scraping

In [None]:
def get_last_page(url):
  sleep_default()
  
  try:
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")
  
    ul_pagination = soup.find("ul", class_ = "pagination pagination__number")
    li_list = ul_pagination.find_all("li")
    last_page = int(li_list[-1].get_text().strip())
  
    return last_page
  
  except requests.exceptions.RequestException as e:
    raise SystemExit(e)

In [None]:
def get_ads_link_list(url, first_page, last_page):
  ads_link_list = []
  
  pag = first_page
  
  while (pag <= last_page):
    if (pag > 1):
      url = url + '&pag=' + str(pag)
    
    try:
      response = requests.get(url)

      soup = BeautifulSoup(response.content, 'html.parser')
    
      ads_list = soup.find('ul', class_ = 'annunci-list')
      ad_item_list = ads_list.find_all('div', class_ = 'listing-item_body--content')
      for ad_item in ad_item_list:
        a_list = ad_item.find_all("a")
        for a in a_list:
          href = a["href"]
          ads_link_list.append(href)
    
    except Exception as e:
      logging.exception(e)
      print(str(pag))
      pass
    
    pag += 1
 
    sleep_default()
  
  return ads_link_list

In [None]:
if PRODUCTION:
  if GET_ADS_LINKS:
    first_page = 1
    #last_page = 631
    last_page = get_last_page(url)
  
    ads_link_list = get_ads_link_list(url, first_page, last_page)
    ads_link_list = list(dict.fromkeys(ads_link_list))
    
    print('Total number of ads = ' + str(len(ads_link_list)))

In [None]:
df_links = pd.DataFrame({'Links' : list(ads_link_list)})

csv_links = 'Links_' + str(int(time.time())) + '_' + str(first_page) + '_' + str(last_page) + '.csv'
df_links.to_csv(csv_links, index=False)

In [None]:
display(df_links)

In [None]:
files.download(csv_links)

### Ads Scraping

In [None]:
def get_ad_title(soup):
  titleBlock__title = soup.find('span', class_ = 'im-titleBlock__title')
  if titleBlock__title is not None:
    return titleBlock__title.get_text()
  else:
    return ''

In [None]:
def get_ad_price(soup):
  mainFeatures__price = soup.find_all('li', class_ = 'im-mainFeatures__price')
  if mainFeatures__price:
    return mainFeatures__price[0].get_text().replace('\n', '').strip()
  else:
    return ''

In [None]:
def get_ad_main_feature(soup):
  main_features = {}
  
  mainFeatures = soup.find('div', class_ = 'im-mainFeatures')
  
  li_list = mainFeatures.find_all('li')
  for li in li_list[1:]:
    value = li.find('span', class_="im-mainFeatures__value").get_text().replace('\n', '').strip()
    label = li.find('span', class_="im-mainFeatures__label").get_text().replace('\n', '').strip()
    
    if (label == 'bagno' or label == 'bagni'):
      label = 'bagni'
    
    if (label == 'locale' or label == 'locali'):
      label = 'locali'
    
    main_features[label] = value
  
  return main_features

In [None]:
def get_ad_description(soup):
  description__text = soup.find('div', class_ = 'im-description__text')
  if description__text is not None:
    return description__text.get_text()
  else:
    return ''

In [None]:
def get_ad_locations(soup):
  location_list = []
  
  titleBlock__link = soup.find('a', class_ = 'im-titleBlock__link')
  if titleBlock__link is None:
    titleBlock__link = soup.find('h1', class_ = 'im-titleBlock__content')

  location = titleBlock__link.find_all('span', class_ = 'im-location')
  
  try:
    area = location[0].get_text().strip()
  except IndexError:
    area = ''
  
  try:
    district = location[1].get_text().strip()
  except IndexError:
    district = ''

  try:
    address = location[2].get_text().strip()
  except IndexError:
    address = ''

  return [area, district, address]

In [None]:
def get_ad_feature_list(soup):
  features = {}
  
  features__list = soup.find_all("dl", class_ = "im-features__list")
  
  for feature_block in features__list:
    feature__title_list = feature_block.find_all('dt', class_ = 'im-features__title')
  
    for feature__title in feature__title_list:
      feature__value = feature__title.findNext('dd')
  
      if ('im-features__tagContainer' in feature__value.get('class')):
        features__tag_array = []

        features__tag_list = soup.find_all('span', class_ = 'im-features__tag')
        for feature__tag in features__tag_list:
          features__tag_array.append(feature__tag.get_text().strip())
  
        features__tag_list_string = ','.join(features__tag_array)
        feature__value_2 = features__tag_list_string
  
      else:
        feature__value_2 = feature__value.get_text().strip()
  
      feature__title_2 = feature__title.get_text().strip()
      features['f_' + feature__title_2] = feature__value_2
  
  return features

In [None]:
def get_ad(url):
  if 'p-' in url:
    return get_ad_multi(url)
  else:
    return get_ad_single(url)

In [None]:
def get_ad_single(url):
  ads_list = []
  ad_data = {}

  ad_data['url'] = url

  try:
    response = requests.get(url)
    if response:
      soup = BeautifulSoup(response.content, "html.parser")

      title = get_ad_title(soup);
      ad_data['titolo'] = title

      price = get_ad_price(soup);
      ad_data['prezzo'] = price

      main_features = get_ad_main_feature(soup)
      if main_features:
        ad_data.update(main_features)

      description = get_ad_description(soup);
      ad_data['descrizione'] = description

      area, district, address = get_ad_locations(soup)
      ad_data['area'] = area
      ad_data['quartiere'] = district
      ad_data['indirizzo'] = address

      feature_list = get_ad_feature_list(soup)
      if feature_list:
        ad_data.update(feature_list)

      ad_data['hashcode'] = hash(frozenset(ad_data.items()))

      ads_list.append(ad_data)
  
  except Exception as e:
    logging.exception(e)
    print(url)
    pass

  return ads_list

In [None]:
def get_ad_multi(url):
  ads_list = []

  try:
    response = requests.get(url)
    if response:
      soup = BeautifulSoup(response.content, 'html.parser')

      title = get_ad_title(soup);

      area, district, address = get_ad_locations(soup)

      main_features = get_ad_main_feature(soup)

      description = get_ad_description(soup)

      feature_list = get_ad_feature_list(soup)

      properties__list = soup.find('ul', class_ = 'im-properties__list')
      properties__item_list = properties__list.find_all('li', class_ = 'im-properties__item')
      for properties__item in properties__item_list:
        ad_data = {}

        ad_data['url'] = url

        ad_data['titolo'] = title

        ad_data['area'] = area
        ad_data['quartiere'] = district
        ad_data['indirizzo'] = address
        
        price = get_ad_price(properties__item)
        ad_data['prezzo'] = price

        ad_data['descrizione'] = description

        sub_features = get_ad_main_feature(properties__item)
        if sub_features:
          ad_data.update(sub_features)

        title_2 = properties__item.find('p', class_ = 'nd-mediaObject__title')
        if title_2 is not None:
          ad_data['titolo_2'] = title_2.get_text().strip()

        description_2 = properties__item.find('div', class_ = 'im-properties__content')
        if description_2 is not None:
          ad_data['descrizione_2'] = description_2.get_text()

        if feature_list:
          ad_data.update(feature_list)

        ad_data['hashcode'] = hash(frozenset(ad_data.items()))

        ads_list.append(ad_data)

  except Exception as e:
    logging.exception(e)
    print(url)
    pass
  
  return ads_list

In [None]:
df_links = pd.read_csv('Links_1616797839_1_630.csv')
ads_link_list = df_links['Links'].to_list()

In [None]:
if PRODUCTION:
  if GET_ADS_LIST:
    df_ads = pd.DataFrame()

    first_ad = 1000
    last_ad = 1500
    #last_ad = len(ads_link_list)

    #if (first_ad > last_ad)
    
    ads_csv = 'Ads_' + get_timestamp() + '_' + str(first_ad) + '_' + str(last_ad - 1) + '.csv'

    ads_list = []
    for i in tqdm(range(first_ad, last_ad)):

      try:
        ad_data = get_ad(ads_link_list[i])
        for ad in ad_data:
          ads_list.append(ad)
      except Exception as e:
        logging.exception(e)
        print(i)
        pass
      
      sleep_default()
    
    df_ads = pd.DataFrame(ads_list)
    df_ads.fillna('', inplace=True)
    df_ads.to_csv(ads_csv, index=False)

In [None]:
  display(df_ads)

In [None]:
files.download(ads_csv)

In [None]:
ads_folder = 'Ads'
file_list = os.listdir(ads_folder)
ads_files = [file for file in file_list if file.startswith('Ads')]
ads_files.sort()

df_files = [None] * len(ads_files)
for idx, file in enumerate(ads_files):
  df_files[idx] = pd.read_csv(os.path.join(ads_folder, file))

df_final = pd.concat(df_files).drop_duplicates().reset_index(drop=True)

ads_csv_final = 'Ads' + '_' + get_timestamp() + '.csv'
df_final.to_csv(ads_csv_final, index=False)

In [None]:
files.download(ads_csv_final)

## Clean Ads CSV

In [None]:
files.upload()

In [None]:
csv_ads = 'Ads_1617101603.csv'
df_ads = pd.read_csv(csv_ads, dtype=str)

In [None]:
df_ads.info()
df_ads.describe().transpose()
display(df_ads.head(10).T)

In [None]:
df_ads['id'] = range(1, len(df_ads) + 1)
df_ads.set_index('id', inplace = True)

df_ads = df_ads[~df_ads['url'].str.contains('p-')]

index_names = df_ads[
  (df_ads['f_offerta minima'].notnull())
  | (df_ads['f_rialzo minimo'].notnull())
  | (df_ads['f_Spesa prenota debito'].notnull())
  | (df_ads['f_Contributo non dovuto'].notnull())
  | (df_ads['f_Tribunale'].notnull())
  | (df_ads['f_termine presentazione'].notnull())
  | (df_ads['f_lotto numero'].notnull())
  | (df_ads['f_Deposito cauzionale'].notnull())
  | (df_ads['f_luogo vendita'].notnull())
  | (df_ads['f_Luogo presentazione'].notnull())
  | (df_ads['f_categoria'].notnull())
  | (df_ads['f_Procedura'].notnull())
  | (df_ads['f_Procedura'].notnull())
  | (df_ads['f_numero procedura'].notnull())
  | (df_ads['f_Delegato'].notnull())
  | (df_ads['f_Giudice'].notnull())
  | (df_ads['f_Custode'].notnull())
  | (df_ads['f_Dati catastali'].notnull())
  | (df_ads['f_Rialzo minimo in caso di gara'].notnull())
  | (df_ads['f_Motivo esenzione'].notnull())
  | (df_ads['f_note'].notnull())
  | (df_ads['f_Rito'].notnull())
  | (df_ads['f_Curatore'].notnull())
  | (df_ads['f_Altri dati catastali'].notnull())
  | (df_ads['f_Deposito conto spese'].notnull())
  | (df_ads['f_Cauzione e spese'].notnull())
  | (df_ads['f_Referente'].notnull())
  | (df_ads['f_valore perizia'].notnull())
  | (df_ads['f_Delegato alla vendita'].notnull())
].index

df_ads = df_ads.drop(index_names)

columns_useless = [
  'url',
  'area',
  'descrizione',
  'titolo_2',
  'descrizione_2',
  'f_superficie',
  'f_prezzo',
  'f_riferimento e Data annuncio',
  'f_immobile garantito',
  'f_contratto',
  'f_unità',
  'f_Data di inizio lavori e di consegna prevista',
  'f_Indice prest. energetica rinnovabile',
  'f_Prestazione energetica del fabbricato',
  'f_disponibilità',
  'f_certificazione energetica',
  'f_numero immobili',
  'f_aggiornato il',
  'hashcode',
  'data vendita',
  'f_Tipo vendita',
  'f_data vendita',
  'f_offerta minima',
  'f_rialzo minimo',
  'f_Spesa prenota debito',
  'f_Contributo non dovuto',
  'f_Tribunale',
  'f_termine presentazione',
  'f_lotto numero',
  'f_Deposito cauzionale',
  'f_luogo vendita',
  'f_Luogo presentazione',
  'f_categoria',
  'f_Procedura',
  'f_numero procedura',
  'f_Delegato',
  'f_Giudice',
  'f_Custode',
  'f_Dati catastali',
  'f_Rialzo minimo in caso di gara',
  'f_Motivo esenzione',
  'f_note',
  'f_Rito',
  'f_Curatore',
  'f_Altri dati catastali',
  'f_Deposito conto spese',
  'f_Cauzione e spese',
  'f_Referente',
  'f_valore perizia',
  'f_Delegato alla vendita'
]

df_ads = df_ads.drop(columns_useless, axis=1)

columns_unique_treshold = df_ads[['quartiere']]
df_ads = df_ads[columns_unique_treshold.replace(columns_unique_treshold.apply(pd.Series.value_counts)).gt(10).all(1)]

columns_unique_treshold_2 = df_ads[['f_stato']]
df_ads = df_ads[columns_unique_treshold_2.replace(columns_unique_treshold_2.apply(pd.Series.value_counts)).gt(10).all(1)]

columns_unique_treshold_3 = df_ads[['f_Tipo proprietà']]
df_ads = df_ads[columns_unique_treshold_3.replace(columns_unique_treshold_3.apply(pd.Series.value_counts)).gt(10).all(1)]

columns_unique_treshold_4 = df_ads[['f_tipologia']]
df_ads = df_ads[columns_unique_treshold_4.replace(columns_unique_treshold_4.apply(pd.Series.value_counts)).gt(10).all(1)]

df_ads = df_ads[df_ads['f_Tipo proprietà'].notna()]
df_ads['c_Tipo proprietà'] = df_ads['f_Tipo proprietà'].str.extract(r"(Intera proprietà|Multiproprietà|Usufrutto|Diritto di superficie|Parziale proprietà|Nuda proprietà)", flags = re.IGNORECASE)
df_ads['c_Classe proprietà'] = df_ads['f_Tipo proprietà'].str.extract(r"(classe immobile economica|classe immobile media|classe immobile signorile|immobile di lusso)", flags = re.IGNORECASE)
df_ads['c_Tipo proprietà'] = df_ads['c_Tipo proprietà'].str.lower().str.strip()
df_ads['c_Classe proprietà'] = df_ads['c_Classe proprietà'].str.lower().str.strip()
df_ads = df_ads[df_ads['c_Tipo proprietà'].notna()]
df_ads = df_ads[df_ads['c_Classe proprietà'].notna()]

df_ads['f_tipologia'] = df_ads['f_tipologia'].str.lower().str.strip()
df_ads = df_ads[df_ads['f_tipologia'].notna()]

df_ads['quartiere'] = df_ads['quartiere'].str.lower().str.strip()
df_ads = df_ads[df_ads['quartiere'].notna()]

df_ads = df_ads[df_ads['f_stato'].notna()]
df_ads['c_stato'] = df_ads['f_stato'].str.extract(r"(Da ristrutturare|Nuovo \/ In costruzione|Buono \/ Abitabile|Ottimo \/ Ristrutturato)", flags = re.IGNORECASE)
df_ads['c_stato'] = df_ads['f_stato'].str.lower().str.strip()
df_ads = df_ads[df_ads['c_stato'].notna()]

df_ads = df_ads[df_ads['f_Efficienza energetica'].notna()]

df_ads['prezzo'] = df_ads['prezzo'].replace('[\€\,\.]', '', regex=True)
df_ads['prezzo'] = df_ads['prezzo'].str.extract(r'(\d+)')
df_ads = df_ads[df_ads['prezzo'].notna()]
df_ads['prezzo'] = df_ads['prezzo'].astype(int)

df_ads['superficie'] = df_ads['superficie'].str.extract(r'(\d+)')
df_ads = df_ads[df_ads['superficie'].notna()]
df_ads['superficie'] = df_ads['superficie'].astype(int)

df_ads['bagni'] = df_ads['bagni'].str.extract(r'(1|2|3\+|3)')
df_ads['bagni'] = df_ads['bagni'].fillna('0')
df_ads['bagni'] = df_ads['bagni'].astype(str)

df_ads['locali'] = df_ads['locali'].str.extract(r"(1|2|3|4|5\+|5)")
df_ads = df_ads[df_ads['locali'].notna()]
df_ads['locali'] = df_ads['locali'].astype(str)

df_ads['c_camere da letto'] = df_ads['f_locali'].str.extract(r"(\d\scamer[a,e] da letto)", flags = re.IGNORECASE)
df_ads['c_altri locali'] = df_ads['f_locali'].str.extract(r"(\d\saltr[o,i])", flags = re.IGNORECASE)

df_ads = df_ads[df_ads['c_camere da letto'].notna()]
df_ads = df_ads[df_ads['c_altri locali'].notna()]

df_ads['c_calcolo numero locali'] = df_ads['c_camere da letto'].str.extract(r"(\d)").astype(int) + df_ads['c_altri locali'].str.extract(r"(\d)").astype(int)

df_ads['c_numero totale locali'] = df_ads['locali']
df_ads.loc[df_ads['c_numero totale locali'] == '5+', 'c_numero totale locali'] = df_ads['c_calcolo numero locali']
df_ads['c_numero totale locali'] = df_ads['c_numero totale locali'].astype(int)

df_ads.drop(['c_camere da letto', 'c_altri locali', 'c_calcolo numero locali'], axis=1, inplace=True)

df_ads['c_tipo cucina'] = df_ads['f_locali'].str.extract(r"(cucina abitabile|cucina a vista|cucina angolo cottura|cucina cucinotto|cucina semi abitabile)", flags = re.IGNORECASE)
df_ads['c_tipo cucina'] = df_ads['c_tipo cucina'].str.lower().str.strip().fillna('')

df_ads['c_campo da tennis'] = df_ads['f_locali'].str.contains("campo da tennis").astype(int).astype(str)

df_ads['f_spese condominio'] = df_ads['f_spese condominio'].str.extract(r'(\d+)')
df_ads['f_spese condominio'] = df_ads['f_spese condominio'].fillna(0)
df_ads['f_spese condominio'] = df_ads['f_spese condominio'].astype(int)

df_ads['f_totale piani edificio'] = df_ads['f_totale piani edificio'].str.extract(r'(\d+)')
df_ads = df_ads[df_ads['f_totale piani edificio'].notna()]
df_ads['f_totale piani edificio'] = df_ads['f_totale piani edificio'].astype(int)
df_ads = df_ads[(df_ads['f_totale piani edificio'] < 44)]

df_ads = df_ads[df_ads['f_anno di costruzione'].notna()]
df_ads['f_anno di costruzione'] = df_ads['f_anno di costruzione'].astype(float).astype(int)

df_ads['f_altre caratteristiche'] = df_ads['f_altre caratteristiche'].str.split(',')
df_ads['f_altre caratteristiche'] = df_ads['f_altre caratteristiche'].fillna('')

df_ads = df_ads[df_ads['prezzo'] < df_ads['prezzo'].quantile(0.999)]
df_ads = df_ads[df_ads['prezzo'] > df_ads['prezzo'].quantile(0.0001)]
df_ads = df_ads[df_ads['f_Efficienza energetica'].notna()]

df_ads['f_Efficienza energetica tipo'] = df_ads['f_Efficienza energetica'].str.extract(r"(^[A-Z][\+]?[\d]?)", flags = re.IGNORECASE)
df_ads['f_Efficienza energetica tipo'] = df_ads['f_Efficienza energetica tipo'].str.upper()
df_ads['f_Efficienza energetica tipo'] = df_ads['f_Efficienza energetica tipo'].str.strip()
df_ads = df_ads[df_ads['f_Efficienza energetica tipo'].notna()]

df_ads['f_Efficienza energetica valore'] = df_ads['f_Efficienza energetica'].str.extract(r"(\d+[,]?\d+)", flags = re.IGNORECASE)
df_ads['f_Efficienza energetica valore'] = df_ads['f_Efficienza energetica valore'].replace('[\,]', '.', regex=True)
df_ads['f_Efficienza energetica valore'] = df_ads['f_Efficienza energetica valore'].str.strip().astype(float)
df_ads = df_ads[df_ads['f_Efficienza energetica valore'].notna()]

regex_address = "((?:alzaia|arco|autostrada|belvedere|calata|calle|cavalcavia|circonvallazione|corso|corte|cortile|discesa|foro|galleria|gradinata|larghetto|largo|litoranea|lungargine|lungofiume|lungolago|lungomare|lungoparco|lungotorrente|molo|parcheggio|passaggio|passeggiata|percorso ciclabile|percorso ciclopedonale|percorso pedonale|piazza|piazzale|piazzetta|pista ciclabile|ponte|raccordo|rampa|ripa|ronco|rotatoria|rotonda|salita|scalinata|scesa|sentiero|slargo|sottopasso|sovrappasso|spiazzo|strada|strada antica|strada comunale|strada consortile|strada nuova|strada panoramica|strada poderale|strada privata|strada provinciale|strada regionale|strada statale|strada vecchia|strada vicinale|stradella|stradello|stradone|tangenziale|traversa|traversa privata|via|via antica|via comunale|via nazionale|via nuova|via panoramica|via privata|via provinciale|via vecchia|viale|vialetto|vico|vico chiuso|vico cieco|vico privato|vicoletto|vicolo|vicolo chiuso|vicolo cieco|vicolo privato|viottolo)\s+[\d]*[\u00c4-\u00e4\u00d6-\u00f6-\u00dc-\u00fc-\u00dfa-zA-Z-'\s\.]*[,\s]*[\d]+[\w-]*)"
df_ads['indirizzo_2'] = df_ads['titolo'].str.extract(regex_address, flags = re.IGNORECASE)
df_ads['indirizzo_2'] = df_ads['indirizzo_2'] + ', milano'
df_ads['indirizzo_2'] = df_ads['indirizzo_2'].str.lower().str.strip()
df_ads['indirizzo_2'] = df_ads['indirizzo_2'].fillna('')

df_ads['g_garage/box'] = df_ads['f_Posti Auto'].str.extract(r"(\d\sin garage\/box)", flags = re.IGNORECASE)
df_ads['e_all\'esterno'] = df_ads['f_Posti Auto'].str.extract(r"(\d\sall'esterno)", flags = re.IGNORECASE)
df_ads['g_garage/box'] = df_ads['g_garage/box'].str.extract(r'(\d+)')
df_ads['e_all\'esterno'] = df_ads['e_all\'esterno'].str.extract(r'(\d+)')
df_ads['g_garage/box'] = df_ads['g_garage/box'].fillna(0)
df_ads['e_all\'esterno'] = df_ads['e_all\'esterno'].fillna(0)
df_ads['g_garage/box'] = df_ads['g_garage/box'].astype(int)
df_ads['e_all\'esterno'] = df_ads['e_all\'esterno'].astype(int)
df_ads['c_garage number'] = df_ads['g_garage/box'] + df_ads['e_all\'esterno']

df_ads['f_ascensore'] = df_ads['f_piano'].apply(lambda x: '1' if (pd.notna(x) and 'con ascensore' in x) else '0')
df_ads['f_disabili'] = df_ads['f_piano'].apply(lambda x: '1' if (pd.notna(x) and 'con accesso disabili' in x) else '0')

df_ads['c_Climatizzazione impianto'] = df_ads['f_Climatizzazione'].str.extract(r"(Autonomo|Centralizzato|Predisposizione impianto)", flags = re.IGNORECASE)
df_ads['c_Climatizzazione impianto'] = df_ads['c_Climatizzazione impianto'].str.lower().str.strip().fillna('')

df_ads['c_Climatizzazione tipo'] = df_ads['f_Climatizzazione'].str.extract(r"(freddo/caldo|freddo|caldo)", flags = re.IGNORECASE)
df_ads['c_Climatizzazione tipo'] = df_ads['c_Climatizzazione tipo'].str.lower().str.strip().fillna('')

df_ads['c_riscaldamento impianto'] = df_ads['f_riscaldamento'].str.extract(r"(Centralizzato|Autonomo)", flags = re.IGNORECASE)
df_ads['c_riscaldamento impianto'] = df_ads['c_riscaldamento impianto'].str.lower().str.strip().fillna('')

df_ads['c_riscaldamento tipo'] = df_ads['f_riscaldamento'].str.extract(r"(a pavimento|a radiatori|ad aria|a stufa)", flags = re.IGNORECASE)
df_ads['c_riscaldamento tipo'] = df_ads['c_riscaldamento tipo'].str.lower().str.strip().fillna('')

df_ads['c_riscaldamento alimentazione'] = df_ads['f_riscaldamento'].str.extract(r"(alimentato a metano|alimentato a gasolio|alimentato a gas|alimentato a pompa di calore|alimentato a gpl|alimentato a teleriscaldamento|alimentazione elettrica|alimentato a fotovoltaico|alimentato a solare|alimentato a pellet)", flags = re.IGNORECASE)
df_ads['c_riscaldamento alimentazione'] = df_ads['c_riscaldamento alimentazione'].str.lower().str.strip().fillna('')

mlb = MultiLabelBinarizer()
df_ads = df_ads.join(
  pd.DataFrame(mlb.fit_transform(df_ads.pop('f_altre caratteristiche')),
  columns=mlb.classes_,
  index=df_ads.index).add_prefix('c_'))

columns_caratteristiche = [
  'c_Armadio a muro',
  'c_Arredato',
  'c_Balcone',
  'c_Caminetto',
  'c_Cancello elettrico',
  'c_Cantina',
  'c_Cucina',
  'c_Esposizione doppia',
  'c_Esposizione esterna',
  'c_Esposizione interna',
  'c_Fibra ottica',
  'c_Giardino comune',
  'c_Giardino privato',
  'c_Idromassaggio',
  'c_Impianto di allarme',
  'c_Impianto tv centralizzato',
  'c_Impianto tv con parabola satellitare',
  'c_Impianto tv singolo',
  'c_Infissi esterni in doppio vetro / PVC',
  'c_Infissi esterni in doppio vetro / legno',
  'c_Infissi esterni in doppio vetro / metallo',
  'c_Infissi esterni in triplo vetro / PVC',
  'c_Infissi esterni in triplo vetro / legno',
  'c_Infissi esterni in triplo vetro / metallo',
  'c_Infissi esterni in vetro / PVC',
  'c_Infissi esterni in vetro / legno',
  'c_Infissi esterni in vetro / metallo',
  'c_Mansarda',
  'c_Parzialmente Arredato',
  'c_Piscina',
  'c_Porta blindata',
  'c_Portiere intera giornata',
  'c_Portiere mezza giornata',
  'c_Reception',
  'c_Solo Cucina Arredata',
  'c_Taverna',
  'c_Terrazza',
  'c_VideoCitofono'
]

df_ads[columns_caratteristiche] = df_ads[columns_caratteristiche].astype(str)

df_ads = df_ads.drop('titolo', axis=1)
df_ads = df_ads.drop('indirizzo', axis=1)
df_ads = df_ads.drop('f_locali', axis=1)
df_ads = df_ads.drop('f_piano', axis=1)
df_ads = df_ads.drop('f_Tipo proprietà', axis=1)
df_ads = df_ads.drop('f_tipologia', axis=1)
df_ads = df_ads.drop('f_stato', axis=1)
df_ads = df_ads.drop('f_Climatizzazione', axis=1)
df_ads = df_ads.drop('f_riscaldamento', axis=1)
df_ads = df_ads.drop('f_Posti Auto', axis=1)
df_ads = df_ads.drop('f_Efficienza energetica', axis=1)

In [None]:
df_ads.info()
display(df_ads.describe().transpose())
display(df_ads.head(5).T)

In [None]:
csv_ads_clean = 'Ads_clean_' + get_timestamp() + '.csv'
df_ads.to_csv(csv_ads_clean, index=False)
files.download(csv_ads_clean)

In [None]:
dictionary = {}
column = 'c_tipo cucina'
sum = 0
for index, row in df_ads_columns.iterrows():
  cell = row[column]
  sum += 1
  if not cell in dictionary:
    dictionary[cell] = 1
  else:
    dictionary[cell] += 1

print(sum)

print(sorted(dictionary.items(), key=lambda x:x[1]))

## Geocoder

In [16]:
from geopy import distance

In [None]:
files.upload()

In [None]:
csv_ads_clean = 'Ads_clean_1618605615.csv'
df_ads_geo = pd.read_csv(csv_ads_clean)

In [None]:
geolocator = Nominatim(user_agent='myGeocoder')
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)

tqdm.pandas()

df_ads_geo = df_ads.copy()

df_ads_geo['indirizzo_geocode'] = df_ads_geo['indirizzo_2'].progress_apply(geocode)
df_ads_geo['point'] = df_ads_geo['indirizzo_geocode'].apply(lambda loc: tuple(loc.point) if loc else None)
df_ads_geo[['latitude', 'longitude', 'altitude']] = pd.DataFrame(df_ads_geo['point'].tolist(), index=df_ads_geo.index)

#df_ads_geo.drop('indirizzo_geocode', axis=1)
#df_ads_geo.drop('point', axis=1)
#df_ads_geo.drop('altitude', axis=1)

In [14]:
csv_ads_geo = 'Ads_geo_1618621216.csv'
df_ads_geo = pd.read_csv(csv_ads_geo)

In [17]:
DUOMO_DI_MILANO = (45.4641, 9.1919)
CASTELLO_SFORZESCO = (45.4704, 9.1793)
GALLERIA_VITTORIO_EMANUALE_II = (45.4658, 9.1899)
TEATRO_LA_SCALA = (45.4674, 9.1895)
ARCO_DELLA_PACE = (45.4756, 9.1724)

def calc_distance(from_loc, to_lat, to_long):
  if not math.isnan(to_lat) and not math.isnan(to_long):
    return round(float(distance.distance(from_loc, (to_lat, to_long)).km), 3)
  else:
    pass

def get_distance(df, column_name, from_location):
  df[column_name] = df.apply(lambda row: calc_distance(from_location, row.latitude, row.longitude), axis=1)
  return df

df_ads_geo = get_distance(df_ads_geo, 'distance_duomo', DUOMO_DI_MILANO)
df_ads_geo = get_distance(df_ads_geo, 'distance_castello', CASTELLO_SFORZESCO)
df_ads_geo = get_distance(df_ads_geo, 'distance_galleria', GALLERIA_VITTORIO_EMANUALE_II)
df_ads_geo = get_distance(df_ads_geo, 'distance_scala', TEATRO_LA_SCALA)
df_ads_geo = get_distance(df_ads_geo, 'distance_arco', ARCO_DELLA_PACE)

In [None]:
df_ads_geo.info()
display(df_ads_geo.describe().transpose())
display(df_ads_geo.head(5).T)

In [None]:
csv_ads_geo = 'Ads_geo_' + get_timestamp() + '.csv'
df_ads_geo.to_csv(csv_ads_geo, index=False)
files.download(csv_ads_geo)

## Exploratory Data Analysis (EDA)

In [12]:
!pip install dython

import dython
from dython.nominal import correlation_ratio
from dython.nominal import associations

!which python
!python --version
!echo $PYTHONPATH
%env PYTHONPATH=

%%bash
MINICONDA_INSTALLER_SCRIPT=Miniconda3-4.5.4-Linux-x86_64.sh
MINICONDA_PREFIX=/usr/local
wget https://repo.continuum.io/miniconda/$MINICONDA_INSTALLER_SCRIPT
chmod +x $MINICONDA_INSTALLER_SCRIPT
./$MINICONDA_INSTALLER_SCRIPT -b -f -p $MINICONDA_PREFIX

!which conda
!conda --version
!which python
!python --version

%%bash
conda install --channel defaults conda python=3.7 --yes
conda update --channel defaults --all --yes

!conda --version
!python --version

sys.path

!ls /usr/local/lib/python3.7/dist-packages

_ = (sys.path.append("/usr/local/lib/python3.7/site-packages"))

!conda install -c conda-forge ipywidgets --yes
!conda install -c conda-forge gmaps --yes

import gmaps
import gmaps.datasets 

Collecting package metadata (current_repodata.json): - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ done
Solving environment: / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ 
The environment is inconsistent, please check the package plan carefully
The following packages are causing the inconsistency:

  - defaults/linux-64::asn1crypto==0.24.0=py36_0
| / - \ | / - \ | / - \ | / - \ | / done

## Package Plan ##

  environment location: /usr/local

  added / updated specs:
    - ipywidgets


The following packages will be downloaded:

    package                    |     

In [None]:
gmaps.configure(api_key='AIzaSyApxgN3Or1iJYsM8h7Z2BtWxu-k5_siXxw')

In [None]:
files.upload()

/bin/bash: conda: command not found


In [None]:
csv_ads_clean = 'Ads_clean_1618568380.csv'
df_ads_clean = pd.read_csv(csv_ads_clean)

In [18]:
df_ads_clean = df_ads_geo

In [None]:
df_ads_clean.info()
display(df_ads_clean.describe().transpose())
display(df_ads_clean.head(5).T)

In [None]:
#list(df_ads_clean.columns.values)
#df_ads_clean.dtypes

columns_filtered = [
  'prezzo',
  'quartiere',
  'superficie',
  'bagni',
  #'piano',
  'locali',
  'f_totale piani edificio',
  'f_spese condominio',
  'f_anno di costruzione',
  'c_Tipo proprietà',
  'c_Classe proprietà',
  'c_stato',
  'c_numero totale locali',
  'c_tipo cucina',
  'c_campo da tennis',
  'f_Efficienza energetica tipo',
  'f_Efficienza energetica valore',
  'g_garage/box',
  "e_all'esterno",
  'c_garage number',
  'f_ascensore',
  'f_disabili',
  'c_Climatizzazione impianto',
  'c_Climatizzazione tipo',
  'c_riscaldamento impianto',
  'c_riscaldamento tipo',
  'c_riscaldamento alimentazione',
  'c_Armadio a muro',
  'c_Arredato',
  'c_Balcone',
  'c_Caminetto',
  'c_Cancello elettrico',
  'c_Cantina',
  'c_Cucina',
  'c_Esposizione doppia',
  'c_Esposizione esterna',
  'c_Esposizione interna',
  'c_Fibra ottica',
  'c_Giardino comune',
  'c_Giardino privato',
  'c_Idromassaggio',
  'c_Impianto di allarme',
  'c_Impianto tv centralizzato',
  'c_Impianto tv con parabola satellitare',
  'c_Impianto tv singolo',
  'c_Infissi esterni in doppio vetro / PVC',
  'c_Infissi esterni in doppio vetro / legno',
  'c_Infissi esterni in doppio vetro / metallo',
  'c_Infissi esterni in triplo vetro / PVC',
  'c_Infissi esterni in triplo vetro / legno',
  'c_Infissi esterni in triplo vetro / metallo',
  'c_Infissi esterni in vetro / PVC',
  'c_Infissi esterni in vetro / legno',
  'c_Infissi esterni in vetro / metallo',
  'c_Mansarda',
  'c_Parzialmente Arredato',
  'c_Piscina',
  'c_Porta blindata',
  'c_Portiere intera giornata',
  'c_Portiere mezza giornata',
  'c_Reception',
  'c_Solo Cucina Arredata',
  'c_Taverna',
  'c_Terrazza',
  'c_VideoCitofono',
  'distance_duomo',
  'distance_castello',
  'distance_galleria',
  'distance_scala',
  'distance_arco'
]

columns_nominal = [
  'quartiere',
  'bagni',
  'locali',
  'c_Tipo proprietà',
  'c_Classe proprietà',
  'c_stato',
  'c_tipo cucina',
  'c_campo da tennis',
  'f_Efficienza energetica tipo',
  'f_ascensore',
  'f_disabili',
  'c_Climatizzazione impianto',
  'c_Climatizzazione tipo',
  'c_riscaldamento impianto',
  'c_riscaldamento tipo',
  'c_riscaldamento alimentazione',
  'c_Armadio a muro',
  'c_Arredato',
  'c_Balcone',
  'c_Caminetto',
  'c_Cancello elettrico',
  'c_Cantina',
  'c_Cucina',
  'c_Esposizione doppia',
  'c_Esposizione esterna',
  'c_Esposizione interna',
  'c_Fibra ottica',
  'c_Giardino comune',
  'c_Giardino privato',
  'c_Idromassaggio',
  'c_Impianto di allarme',
  'c_Impianto tv centralizzato',
  'c_Impianto tv con parabola satellitare',
  'c_Impianto tv singolo',
  'c_Infissi esterni in doppio vetro / PVC',
  'c_Infissi esterni in doppio vetro / legno',
  'c_Infissi esterni in doppio vetro / metallo',
  'c_Infissi esterni in triplo vetro / PVC',
  'c_Infissi esterni in triplo vetro / legno',
  'c_Infissi esterni in triplo vetro / metallo',
  'c_Infissi esterni in vetro / PVC',
  'c_Infissi esterni in vetro / legno',
  'c_Infissi esterni in vetro / metallo',
  'c_Mansarda',
  'c_Parzialmente Arredato',
  'c_Piscina',
  'c_Porta blindata',
  'c_Portiere intera giornata',
  'c_Portiere mezza giornata',
  'c_Reception',
  'c_Solo Cucina Arredata',
  'c_Taverna',
  'c_Terrazza',
  'c_VideoCitofono'
]

ADS_FILTERED = True

if ADS_FILTERED:
  #df_ads_clean_alias = df_ads_clean[df_ads_clean['c_Classe proprietà'] == 'classe immobile signorile']
  df_ads_clean_alias = df_ads_clean[df_ads_clean.point.notnull()]
else:
  df_ads_clean_alias = df_ads_clean.copy()

df_ads_clean_alias = df_ads_clean_alias[columns_filtered].copy()

print(len(df_ads_clean_alias.index))

associations_dictionary = associations(df_ads_clean_alias, nan_strategy='replace', nan_replace_value='', nominal_columns=columns_nominal, figsize=(50, 50), cmap='seismic', mark_columns=True)

associations_corr = associations_dictionary['corr']

In [None]:
corr_threshold = 0.15

corr_price = associations_corr['prezzo (con)']
corr_price_filtered = corr_price[(corr_price >= corr_threshold) | (corr_price <= corr_threshold * -1)]

display(corr_price_filtered.sort_values(ascending = False))

In [None]:
corr_graph = associations_corr[(associations_corr >= corr_threshold) | (associations_corr <= corr_threshold * -1)]

plt.figure(figsize=(50, 50))
sb.heatmap(corr_graph, cmap="Greens", square=True, vmin=0, vmax=1, annot=True)

In [None]:
df_ads_clean.hist(figsize = (50, 50))
plt.show()

In [None]:
def scatter_df(df, var_x, var_y):
  scatter_df = df.drop(var_y, axis = 1)
  
  df_columns = df.columns
  
  plt.subplots(figsize=(15, 12))
  scatterplot = sb.scatterplot(x = var_x, y = var_y, data = df, hue='c_Classe proprietà')
  
  plt.title('{} / prezzo'.format(var_x))

  plt.xlabel('{}'.format(var_x))
  plt.ylabel(var_y)

var_x = 'superficie'
var_y = 'prezzo'

scatter_df(df_ads_clean, var_x, var_y)

print(len(df_ads_clean[df_ads_clean['c_Classe proprietà'] == 'classe immobile signorile'].index))
print(len(df_ads_clean[df_ads_clean['c_Classe proprietà'] == 'classe immobile media'].index))
print(len(df_ads_clean[df_ads_clean['c_Classe proprietà'] == 'classe immobile economica'].index))
print(len(df_ads_clean[df_ads_clean['c_Classe proprietà'] == 'immobile di lusso'].index))

In [None]:
fig_dims = (25, 10)
fig, ax = plt.subplots(figsize=fig_dims)

plt.xlim(0, 5000000)

sb.histplot(df_ads_clean['prezzo'], ax=ax)

plt.title('Prezzo')

plt.xlabel('Prezzo')
plt.ylabel('Frequency')

In [None]:
fig_dims = (25, 10)
fig, ax = plt.subplots(figsize=fig_dims)

sb.boxplot(x=df_ads_clean['prezzo'], ax=ax)

In [19]:
df_ads_clean_2 = df_ads_clean[df_ads_clean.point.notnull()]
locations = df_ads_clean_2[['latitude', 'longitude']]
fig = gmaps.figure()
locations
fig.add_layer(gmaps.heatmap_layer(locations))
fig

Figure(layout=FigureLayout(height='420px'))

## Artificial Neural Network

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn import metrics

### One-Hot Encoding

In [None]:
files.upload()

In [None]:
csv_ads_clean = 'Ads_clean_1618601583.csv'
df_ads_clean = pd.read_csv(csv_ads_clean)
df_ads_hot = df_ads_clean.copy()

In [None]:
'''
prezzo (con)                        1.000000
c_Cucina (nom)                      0.612992
c_Climatizzazione impianto (nom)    0.352175
c_Climatizzazione tipo (nom)        0.280697
c_Esposizione esterna (nom)         0.266680
quartiere (nom)                     0.227998
c_Impianto di allarme (nom)         0.226017
c_Esposizione interna (nom)         0.204731
superficie (con)                    0.183167
c_stato (nom)                       0.175994
locali (nom)                        0.175958
f_disabili (nom)                    0.175493
c_numero totale locali (con)        0.173612
'''

columns_filtered = [
  'prezzo',
  'quartiere',
  'superficie',
  'bagni',
  #'piano',
  'locali',
  'f_totale piani edificio',
  'f_spese condominio',
  'f_anno di costruzione',
  'c_Tipo proprietà',
  'c_Classe proprietà',
  'c_stato',
  'c_numero totale locali',
  'c_tipo cucina',
  'c_campo da tennis',
  'f_Efficienza energetica tipo',
  'f_Efficienza energetica valore',
  'g_garage/box',
  "e_all'esterno",
  'c_garage number',
  'f_ascensore',
  'f_disabili',
  'c_Climatizzazione impianto',
  'c_Climatizzazione tipo',
  'c_riscaldamento impianto',
  'c_riscaldamento tipo',
  'c_riscaldamento alimentazione',
  'c_Armadio a muro',
  'c_Arredato',
  'c_Balcone',
  'c_Caminetto',
  'c_Cancello elettrico',
  'c_Cantina',
  'c_Cucina',
  'c_Esposizione doppia',
  'c_Esposizione esterna',
  'c_Esposizione interna',
  'c_Fibra ottica',
  'c_Giardino comune',
  'c_Giardino privato',
  'c_Idromassaggio',
  'c_Impianto di allarme',
  'c_Impianto tv centralizzato',
  'c_Impianto tv con parabola satellitare',
  'c_Impianto tv singolo',
  'c_Infissi esterni in doppio vetro / PVC',
  'c_Infissi esterni in doppio vetro / legno',
  'c_Infissi esterni in doppio vetro / metallo',
  'c_Infissi esterni in triplo vetro / PVC',
  'c_Infissi esterni in triplo vetro / legno',
  'c_Infissi esterni in triplo vetro / metallo',
  'c_Infissi esterni in vetro / PVC',
  'c_Infissi esterni in vetro / legno',
  'c_Infissi esterni in vetro / metallo',
  'c_Mansarda',
  'c_Parzialmente Arredato',
  'c_Piscina',
  'c_Porta blindata',
  'c_Portiere intera giornata',
  'c_Portiere mezza giornata',
  'c_Reception',
  'c_Solo Cucina Arredata',
  'c_Taverna',
  'c_Terrazza',
  'c_VideoCitofono'
]

df_ads_hot = df_ads_hot.filter(items=columns_filtered)

In [None]:
dummies_dict = {
  ('c_Climatizzazione tipo', 'ct'),
  ('locali', 'l'),
  ('bagni', 'b'),
  ('quartiere', 'q'),
  ('c_tipo cucina', 'tc'),
  ('c_Classe proprietà', 'cp'),
  ('f_Efficienza energetica tipo', 'eet'),
  ('c_Tipo proprietà', 'tp'),
  #('piano', 'p'),
  ('c_stato', 's'),
  ('c_Climatizzazione impianto', 'ci'),
  ('c_riscaldamento impianto', 'ri'),
  ('c_riscaldamento tipo', 'rt'),
  ('c_riscaldamento alimentazione', 'ra')
}

def dummies(df, dummies_dict):
  for column in dummies_dict:
    df = pd.concat([df, pd.get_dummies(df[column[0]], prefix=column[1])], axis=1)
    df.drop([column[0]], axis=1, inplace=True)
  return df

df_ads_hot = dummies(df_ads_hot, dummies_dict)

In [None]:
print(df_ads_hot.info())
display(df_ads_hot.describe().transpose())
display(df_ads_hot.head(10).T)

In [None]:
csv_ads_hot = 'Ads_hot_' + get_timestamp() + '.csv'
df_ads_hot.to_csv(csv_ads_hot, index=False)
files.download(csv_ads_hot)

### Training

In [None]:
files.upload()

In [None]:
csv_ads_hot = 'Ads_hot_1618568534.csv'
df_ads_hot = pd.read_csv(csv_ads_hot)

In [None]:
cols = df_ads_hot.columns
for col in cols:
  df_ads_hot[col] = df_ads_hot[col].astype(float)

In [None]:
df_ads_hot.info()
display(df_ads_hot.describe().transpose())
display(df_ads_hot.head(10).T)

In [None]:
df_ads_hot = df_ads_hot[df_ads_hot['cp_classe immobile signorile'] == 1]
df_ads_hot = df_ads_hot[df_ads_hot['prezzo'] < 500000]
print(len(df_ads_hot.index))

In [None]:
train, val, test = np.split(df_ads_hot.sample(frac=1), [int(.8*len(df_ads_hot)), int(.9*len(df_ads_hot))])

X_train = train.drop('prezzo', axis=1)
Y_train = train[['prezzo']]

X_val = val.drop('prezzo', axis=1)
Y_val = val[['prezzo']]

X_test = test.drop('prezzo', axis=1)
Y_test = test[['prezzo']]

In [None]:
columns_standard = ['superficie', 'f_totale piani edificio', 'f_spese condominio', 'f_anno di costruzione', 'g_garage/box', 'e_all\'esterno', 'c_garage number', 'c_numero totale locali', 'f_Efficienza energetica valore']

ct_data = ColumnTransformer(transformers = [('ct_data', StandardScaler(), columns_standard)], remainder ='passthrough')
ct_target = StandardScaler()

X_train_scaled = ct_data.fit_transform(X_train)
Y_train_scaled = ct_target.fit_transform(Y_train)

X_val_scaled = ct_data.fit_transform(X_val)
Y_val_scaled = ct_target.fit_transform(Y_val)

X_test_scaled = ct_data.fit_transform(X_test)
Y_test_scaled = ct_target.fit_transform(Y_test)


In [None]:
model = Sequential()
 
model.add(Dense(1024, kernel_initializer='normal', input_dim = X_train_scaled.shape[1], activation='relu'))
model.add(Dense(1024, kernel_initializer='normal', input_dim = X_train_scaled.shape[1], activation='relu'))
model.add(Dense(1024, kernel_initializer='normal', input_dim = X_train_scaled.shape[1], activation='relu'))
 
model.add(Dense(1, kernel_initializer='normal', activation='linear'))
 
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['mean_squared_error'])
 
model.summary()

In [None]:
history = model.fit(X_train_scaled, Y_train_scaled, epochs=50, batch_size=32, validation_data = (X_val_scaled, Y_val_scaled))

In [None]:
  plt.figure(figsize=(15, 10))

  plt.xlabel('Epochs')
  plt.ylabel('Mean Absolute Error [€]')

  plt.plot(history.epoch, np.array(history.history['mean_squared_error']), label='Train Loss')
  plt.plot(history.epoch, np.array(history.history['val_mean_squared_error']), label = 'Val Loss')

  plt.legend()

In [None]:
model.evaluate(X_test_scaled, Y_test_scaled)

In [None]:
Y_pred = model.predict(X_test_scaled)

Y_pred = pd.Series(map(lambda x: x[0], Y_pred))
Y_pred_inverse = ct_target.inverse_transform(Y_pred)

Y_test_inverse = pd.Series(map(lambda x: x[0], Y_test_scaled))
Y_test_inverse = ct_target.inverse_transform(Y_test_inverse)

df_ads_pred = pd.DataFrame({ 'Actual': Y_test_inverse, 'Predicted': Y_pred_inverse }).astype('int64')
df_ads_pred['Error'] = abs(df_ads_pred['Actual'] - df_ads_pred['Predicted'])
df_ads_pred['%'] = (df_ads_pred['Error'] * 100 / df_ads_pred['Actual'])

df_ads_pred = df_ads_pred.sort_values(by=['%'])

#display(df_ads_pred)

print(str(int(round(df_ads_pred['Error'].mean()))) + '€')
print(str(int(round(df_ads_pred['%'].mean()))) + '%')

In [None]:
print('MAE:', metrics.mean_absolute_error(Y_test_inverse, Y_pred_inverse))
print('MSE:', metrics.mean_squared_error(Y_test_inverse, Y_pred_inverse))
print('RMSE:', np.sqrt(metrics.mean_squared_error(Y_test_inverse, Y_pred_inverse)))
print('VarScore:', metrics.explained_variance_score(Y_test_inverse, Y_pred_inverse))

plt.figure(figsize=(15, 10))
plt.scatter(Y_test_inverse, Y_pred_inverse)

plt.plot(Y_test_inverse, Y_test_inverse, 'r')

In [None]:
residuals = (Y_test - Y_pred)
sb.displot(residuals)