# Laboratorio finale - Analisi di un dataset immobiliare
## Frattini Francesco e Fiocchi Gabriele

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats

In [2]:
dataset = pd.read_csv("Italian_house_price.csv")

  dataset = pd.read_csv("Italian_house_price.csv")


In [3]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37087 entries, 0 to 37086
Data columns (total 37 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   prezzo                                        37087 non-null  object 
 1   stanze                                        37071 non-null  object 
 2   m2                                            36937 non-null  object 
 3   bagni                                         36556 non-null  object 
 4   piano                                         36375 non-null  object 
 5   description                                   37082 non-null  object 
 6   Riferimento e Data annuncio                   37087 non-null  object 
 7   contratto                                     37087 non-null  object 
 8   tipologia                                     37087 non-null  object 
 9   superficie                                    35946 non-null 

In [4]:
# I valori in mq di queste due colonne sono uguali
print(dataset['superficie'])
print(dataset['m2'])

0         67 m² - Vedi dettaglio
1         75 m² - Vedi dettaglio
2                         160 m²
3                         136 m²
4        105 m² - Vedi dettaglio
                  ...           
37082    110 m² - Vedi dettaglio
37083                     180 m²
37084     70 m² - Vedi dettaglio
37085     55 m² - Vedi dettaglio
37086                     176 m²
Name: superficie, Length: 37087, dtype: object
0         67m²
1         75m²
2        160m²
3        136m²
4        105m²
         ...  
37082    110m²
37083    180m²
37084     70m²
37085     55m²
37086    176m²
Name: m2, Length: 37087, dtype: object


In [5]:
# Eliminiamo colonne con maggioranza di null o inutili al nostro scopo
columns_to_drop = [9, 12, 16, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]
dataset = dataset.drop(dataset.columns[columns_to_drop], axis = 1)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37087 entries, 0 to 37086
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   prezzo                       37087 non-null  object
 1   stanze                       37071 non-null  object
 2   m2                           36937 non-null  object
 3   bagni                        36556 non-null  object
 4   piano                        36375 non-null  object
 5   description                  37082 non-null  object
 6   Riferimento e Data annuncio  37087 non-null  object
 7   contratto                    37087 non-null  object
 8   tipologia                    37087 non-null  object
 9   locali                       35814 non-null  object
 10  totale piani edificio        34354 non-null  object
 11  other_characteristics        28512 non-null  object
 12  citta                        37080 non-null  object
 13  quartiere                    35

In [6]:
# Vogliamo separare in tabelle diverse gli immobili prezzati e quelli con prezzo su richiesta
request_price = dataset[dataset['prezzo'].str.contains('prezzo su richiesta', case=False)]
dataset = dataset.drop(request_price.index)
print(request_price.shape)
print(dataset.shape)

(1553, 16)
(35534, 16)


In [7]:
# Separiamo anche gli immobili in vendita da quelli in affitto.
# Osservazione: dividere in base ai contratti non è sufficiente
# in quanto alcuni presentano sia la parola vendita che affitto
dataset['contratto'].unique()

array(['Vendita', 'Vendita - Scarica capitolato',
       'Vendita | Immobile a reddito', 'Affitto', 'Affitto, 4+4',
       'Affitto, libero', 'Affitto, transitorio', 'Affitto, 3+2',
       'Affitto, concordato', 'Affitto, studenti (6-36 mesi)',
       'Affitto, 4+4 | Immobile a reddito',
       'Affitto, 3+2 | Immobile a reddito',
       'Affitto, transitorio | Immobile a reddito',
       'Vendita | Affitto con riscatto', 'Affitto, 6+6',
       'Affitto | Immobile a reddito',
       'Affitto, 4+4 - Scarica capitolato', 'Affitto, 9+9',
       'Affitto, studenti (6-36 mesi) | Immobile a reddito',
       'Vendita | Immobile a reddito - Scarica capitolato',
       'Vendita | Immobile a reddito | Affitto con riscatto',
       'Vendita, libero',
       'Vendita | Affitto con riscatto - Scarica capitolato',
       'Vendita, concordato', 'Vendita, 4+4',
       'Vendita, 4+4 | Immobile a reddito',
       'Vendita, libero | Immobile a reddito - Scarica capitolato',
       'Vendita, libero | Immo

In [8]:
# Abbiamo optato per una strategia di filtraggio basata sulla keyword "mese" nella colonna prezzo.
for_rent = dataset[dataset['prezzo'].str.contains('mese', case=False)]
print(for_rent.shape)
dataset = dataset.drop(for_rent.index)
print(dataset[dataset['contratto'].str.contains('vendita', case=False)].shape)

(7928, 16)
(27606, 16)


In [9]:
dataset.drop('contratto', axis=1)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27606 entries, 0 to 37086
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   prezzo                       27606 non-null  object
 1   stanze                       27602 non-null  object
 2   m2                           27536 non-null  object
 3   bagni                        27301 non-null  object
 4   piano                        27131 non-null  object
 5   description                  27606 non-null  object
 6   Riferimento e Data annuncio  27606 non-null  object
 7   contratto                    27606 non-null  object
 8   tipologia                    27606 non-null  object
 9   locali                       26510 non-null  object
 10  totale piani edificio        26348 non-null  object
 11  other_characteristics        27601 non-null  object
 12  citta                        27600 non-null  object
 13  quartiere                    26326 n

In [10]:
two_prices_house = dataset[dataset['prezzo'].str.contains('-')]
dataset = dataset.drop(two_prices_house.index)

In [11]:
dataset['prezzo'] = dataset['prezzo'].replace(r'\D', '', regex=True)
dataset.head()

Unnamed: 0,prezzo,stanze,m2,bagni,piano,description,Riferimento e Data annuncio,contratto,tipologia,locali,totale piani edificio,other_characteristics,citta,quartiere,regione,Posti Auto
0,78000,3,67m²,1,"Piano terra, con accesso disabili","Vendesi a Valledoria in Via Alessandro Volta, ...",Daniela - 17/12/2022,Vendita,Appartamento | Intera proprietà | Classe immob...,"3 (2 camere da letto, 1 altro), 1 bagno, cucin...",2 piani,"['Cancello elettrico', 'Porta blindata', 'Terr...",Valledoria,Via Alessandro Volta,sardegna,
1,460000,3,75m²,2,1°,Nell’esclusivo comprensorio di Punta Aldìa in ...,698 - 31/03/2023,Vendita,Appartamento | Intera proprietà | Classe immob...,"3 (2 camere da letto, 1 altro), 2 bagni, cucin...",1 piano,"['Esposizione esterna', 'Balcone', 'Terrazza',...",San Teodoro,,sardegna,1 in parcheggio/garage comune
2,387000,4,160m²,2,"4° piano, con ascensore, con accesso disabili","Via Morgagni, zona residenziale e silenziosa, ...",Via Morgagni_ - 18/04/2023,Vendita,Appartamento | Intera proprietà | Classe immob...,"4 (3 camere da letto, 1 altro), 2 bagni, cucin...",6 piani,"['Mansarda', 'VideoCitofono', 'Porta blindata'...",Cagliari,Fiera - Monte Mixi,sardegna,
3,257000,5,136m²,2,"4° piano, con ascensore","Nella rinomata Fonsarda, precisamente in via G...",Via Giudicessa_ - 14/04/2023,Vendita,Appartamento | Intera proprietà | Classe immob...,"5 (4 camere da letto, 1 altro), 2 bagni, cucin...",,['Infissi esterni in doppio vetro / PVC'],Cagliari,Piazza Giovanni XXIII,sardegna,
4,370000,3,105m²,2,"Piano terra, con accesso disabili",Luminosa villetta bifamiliare semindipendente ...,F3c sud - 31/03/2023,Vendita - Scarica capitolato,Villa bifamiliare | Intera proprietà | Immobil...,"3 (2 camere da letto, 1 altro), 2 bagni, cucin...",1 piano,"['Terrazza', 'Impianto tv singolo', 'Giardino ...",Budoni,Località Baia Sant'Anna,sardegna,1 in parcheggio/garage comune


In [14]:
# Valori bagni Nan possono essere sostituiti con 1? O vanno levati?

dataset['bagni'] = dataset['bagni'].replace('3+', '4')
dataset['bagni'].unique()

array(['1', '2', '3', '4', nan, '138m²', '151m²', '8', '164m²', 'T',
       '130m²', '5', '1 - 2', 'R', '€ 780.000', '179m²', '82m²', '123m²',
       '288m²', '156m²', '163m²', '215m²', '158m²', '97m²', '107m²',
       '139m²', '127m²', '68m²', '184m²', '95m²', '177m²', '176m²',
       '120m²', '2.546m²', '103m²', '257m²', '73m²', '87m²', '85m²',
       '122m²', '€ 115.000', '153m²', '13', '183m²', '188m²', '53m²',
       '150m²', '70m²', '193.319m²', '99m²', '140m²', '162m²', '169m²',
       '267m²', '136m²', '185m²', '88m²', '7.130m²', '50m²', 'S - T',
       '391m²', '146m²', '89m²', '449m²', '193m²', '64m²', '242m²',
       '247m²', '90m²', '608m²', '63m²', '233m²', '429m²', '154m²',
       '40m²', '69m²', '338m²', '367m²', '160m²', '129m²', '551m²',
       '106m²', '92m²', '109m²', '7', '192m²', '56m²', '134m²', '304m²',
       '100m²', '225m²', '241m²', '135m²', '157m²', '200m²', '603m²',
       '274m²', '262m²', '84m²', '170m²', '104m²', '121m²', '11', '148m²',
       '98m²', '1