In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split


In [2]:
df = pd.read_csv('data/df_with_pca.csv')

## Variabile dummy per Macroarea

In [3]:
df = pd.get_dummies(df, columns=["Macroarea"], drop_first=True)

In [13]:
df = pd.get_dummies(df, columns=["Descrizione Tipologia di Immobile"], drop_first=True)

## Eliminazione colonna Circoscrizione Turistica

In [4]:
df.drop(columns=["Circoscrizione Turistica"], inplace=True)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21513 entries, 0 to 21512
Data columns (total 49 columns):
 #   Column                                                          Non-Null Count  Dtype  
---  ------                                                          --------------  -----  
 0   id_istat                                                        21513 non-null  int64  
 1   id_comune                                                       21512 non-null  object 
 2   Provincia                                                       21513 non-null  object 
 3   Regione                                                         21513 non-null  object 
 4   Ripartizione Geografica                                         21513 non-null  object 
 5   id_catastale                                                    21513 non-null  object 
 6   Indice di spopolamento                                          21512 non-null  float64
 7   Codice regione                                   

Remember to convert the "object" variables into numeric so we can study relationships also in between these values

In [6]:
# show me the "Media Costo alla Vendita" column
print(df['Media Costo alla Vendita'])

0        0
1        0
2        0
3        0
4        0
        ..
21508    0
21509    0
21510    0
21511    0
21512    0
Name: Media Costo alla Vendita, Length: 21513, dtype: int64


In [7]:
# Split the data into training and test sets
train, test = train_test_split(df, test_size=0.2, random_state=1)


In [8]:
# Parameters estimation with statsmodels
model1 = smf.ols('Q("Media Costo alla Vendita") ~ Q("Indice di occupazione") + PC_Economica', train).fit()
model1.summary()


  return 1 - self.ssr/self.centered_tss
  return self.mse_model/self.mse_resid
  llf = -nobs2*np.log(2*np.pi) - nobs2*np.log(ssr / nobs) - nobs2
  dw = np.sum(diff_resids**2, axis=axis) / np.sum(resids**2, axis=axis)


0,1,2,3
Dep. Variable:,"Q(""Media Costo alla Vendita"")",R-squared:,
Model:,OLS,Adj. R-squared:,
Method:,Least Squares,F-statistic:,
Date:,"Wed, 07 May 2025",Prob (F-statistic):,
Time:,11:07:26,Log-Likelihood:,inf
No. Observations:,17209,AIC:,-inf
Df Residuals:,17206,BIC:,-inf
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0,0,,,0,0
"Q(""Indice di occupazione"")",0,0,,,0,0
PC_Economica,0,0,,,0,0

0,1,2,3
Omnibus:,,Durbin-Watson:,
Prob(Omnibus):,,Jarque-Bera (JB):,
Skew:,,Prob(JB):,
Kurtosis:,,Cond. No.,300.0


In [9]:
# Parameters estimation with statsmodels
model1 = smf.ols('Q("Media Costo alla Locazione") ~ PC_Turistica_1 + PC_Turistica_2 + PC_Turistica_3 + PC_Turistica_4 + PC_Turistica_5 + PC_Turistica_6 + PC_Turistica_7 + PC_Turistica_8', train).fit()
model1.summary()


0,1,2,3
Dep. Variable:,"Q(""Media Costo alla Locazione"")",R-squared:,0.281
Model:,OLS,Adj. R-squared:,0.28
Method:,Least Squares,F-statistic:,838.7
Date:,"Wed, 07 May 2025",Prob (F-statistic):,0.0
Time:,11:07:27,Log-Likelihood:,-40284.0
No. Observations:,17210,AIC:,80590.0
Df Residuals:,17201,BIC:,80650.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,4.0281,0.019,210.144,0.000,3.991,4.066
PC_Turistica_1,0.4410,0.006,76.763,0.000,0.430,0.452
PC_Turistica_2,0.0363,0.007,5.054,0.000,0.022,0.050
PC_Turistica_3,0.1990,0.009,22.213,0.000,0.181,0.217
PC_Turistica_4,0.1337,0.011,12.057,0.000,0.112,0.155
PC_Turistica_5,-0.0744,0.013,-5.857,0.000,-0.099,-0.049
PC_Turistica_6,-0.0027,0.014,-0.194,0.847,-0.031,0.025
PC_Turistica_7,0.0984,0.015,6.553,0.000,0.069,0.128
PC_Turistica_8,0.0159,0.016,1.014,0.311,-0.015,0.047

0,1,2,3
Omnibus:,6000.372,Durbin-Watson:,2.022
Prob(Omnibus):,0.0,Jarque-Bera (JB):,111945.222
Skew:,1.199,Prob(JB):,0.0
Kurtosis:,15.262,Cond. No.,3.34


In [14]:
df.columns

Index(['id_istat', 'id_comune', 'Provincia', 'Regione',
       'Ripartizione Geografica', 'id_catastale', 'Indice di spopolamento',
       'Codice regione', 'Capoluogo_enc', 'Codice comuni',
       'Indice di occupazione', 'Indice disoccupazione', 'Fascia',
       'Descrizione Zona', 'Sottofascia Zona', 'id_univoco',
       'Costo Minimo alla Vendita', 'Costo Massimo alla Vendita',
       'Media Costo alla Vendita', 'Costo Minimo alla Locazione',
       'Costo Massimo alla Locazione', 'Media Costo alla Locazione',
       'Cod. Circoscrizione Turistica',
       'Tipo di località_Altri comuni non altrimenti classificati',
       'Tipo di località_Capoluogo senza specifici interessi turistici',
       'Tipo di località_Città d'Arte', 'Tipo di località_Località collinari',
       'Tipo di località_Località lacuali', 'Tipo di località_Località marine',
       'Tipo di località_Località montane',
       'Tipo di località_Località religiose',
       'Tipo di località_Località termali', 'PC_Ec

In [21]:
df.columns


Index(['id_istat', 'id_comune', 'Provincia', 'Regione',
       'Ripartizione Geografica', 'id_catastale', 'Indice di spopolamento',
       'Codice regione', 'Capoluogo_enc', 'Codice comuni',
       'Indice di occupazione', 'Indice disoccupazione', 'Fascia',
       'Descrizione Zona', 'Sottofascia Zona', 'id_univoco',
       'Costo Minimo alla Vendita', 'Costo Massimo alla Vendita',
       'Media Costo alla Vendita', 'Costo Minimo alla Locazione',
       'Costo Massimo alla Locazione', 'Media Costo alla Locazione',
       'Cod. Circoscrizione Turistica',
       'Tipo di località_Altri comuni non altrimenti classificati',
       'Tipo di località_Capoluogo senza specifici interessi turistici',
       'Tipo di località_Città d'Arte', 'Tipo di località_Località collinari',
       'Tipo di località_Località lacuali', 'Tipo di località_Località marine',
       'Tipo di località_Località montane',
       'Tipo di località_Località religiose',
       'Tipo di località_Località termali', 'PC_Ec

In [None]:
print(df.columns.tolist())

['id_istat', 'id_comune', 'Provincia', 'Regione', 'Ripartizione Geografica', 'id_catastale', 'Indice di spopolamento', 'Codice regione', 'Capoluogo_enc', 'Codice comuni', 'Indice di occupazione', 'Indice disoccupazione', 'Fascia', 'Descrizione Zona', 'Sottofascia Zona', 'id_univoco', 'Costo Minimo alla Vendita', 'Costo Massimo alla Vendita', 'Media Costo alla Vendita', 'Costo Minimo alla Locazione', 'Costo Massimo alla Locazione', 'Media Costo alla Locazione', 'Cod. Circoscrizione Turistica', 'Tipo di località_Altri comuni non altrimenti classificati', 'Tipo di località_Capoluogo senza specifici interessi turistici', "Tipo di località_Città d'Arte", 'Tipo di località_Località collinari', 'Tipo di località_Località lacuali', 'Tipo di località_Località marine', 'Tipo di località_Località montane', 'Tipo di località_Località religiose', 'Tipo di località_Località termali', 'PC_Economica', 'PC_Turistica_1', 'PC_Turistica_2', 'PC_Turistica_3', 'PC_Turistica_4', 'PC_Turistica_5', 'PC_Turisti

In [34]:
df.rename(columns={"Descrizione Tipologia di Immobile_Abitazioni di tipo economico": "Descrizione_Tipologia_di_Immobile_Abitazioni_di_tipo_economico"}, inplace=True)
df.rename(columns={"Descrizione Tipologia di Immobile_Abitazioni signorili" : "Descrizione_Tipologia_di_Immobile_Abitazioni_signorili"}, inplace=True)
df.rename(columns={"Descrizione Tipologia di Immobile_Abitazioni tipiche dei luoghi": "Descrizione_Tipologia_di_Immobile_Abitazioni_tipiche_dei_luoghi"}, inplace=True)
df.rename(columns={"Descrizione Tipologia di Immobile_Ville e Villini": "Descrizione_Tipologia_di_Immobile_Ville_e_Villini"}, inplace=True)

In [38]:
# Parameters estimation with statsmodels
model1 = smf.ols('Q("Costo Minimo alla Vendita") ~ Q("Indice di spopolamento") + Q("Indice di occupazione") + Q("Indice disoccupazione") + Q("Tipo di località_Altri comuni non altrimenti classificati") + Q("Tipo di località_Capoluogo senza specifici interessi turistici") + Q("Tipo di località_Città d\'Arte") + Q("Tipo di località_Località collinari") + Q("Tipo di località_Località lacuali") + Q("Tipo di località_Località marine") + Q("Tipo di località_Località montane") + Q("Tipo di località_Località religiose") + Q("Tipo di località_Località termali") + PC_Economica + PC_Turistica_1 + PC_Turistica_2 + PC_Turistica_3 + PC_Turistica_4 + PC_Turistica_5 + PC_Turistica_6 + PC_Turistica_7 + PC_Turistica_8 + PC_Turistica_9 + PC_Turistica_10 + PC_Turistica_11 + PC_Turistica_12 + Macroarea_Isole + Macroarea_Nord + Macroarea_Sud + Descrizione_Tipologia_di_Immobile_Abitazioni_di_tipo_economico + Descrizione_Tipologia_di_Immobile_Abitazioni_signorili + Descrizione_Tipologia_di_Immobile_Abitazioni_tipiche_dei_luoghi + Descrizione_Tipologia_di_Immobile_Ville_e_Villini', data=train).fit()
model1.summary()


PatsyError: Error evaluating factor: NameError: name 'Descrizione_Tipologia_di_Immobile_Abitazioni_di_tipo_economico' is not defined
    Q("Costo Minimo alla Vendita") ~ Q("Indice di spopolamento") + Q("Indice di occupazione") + Q("Indice disoccupazione") + Q("Tipo di località_Altri comuni non altrimenti classificati") + Q("Tipo di località_Capoluogo senza specifici interessi turistici") + Q("Tipo di località_Città d'Arte") + Q("Tipo di località_Località collinari") + Q("Tipo di località_Località lacuali") + Q("Tipo di località_Località marine") + Q("Tipo di località_Località montane") + Q("Tipo di località_Località religiose") + Q("Tipo di località_Località termali") + PC_Economica + PC_Turistica_1 + PC_Turistica_2 + PC_Turistica_3 + PC_Turistica_4 + PC_Turistica_5 + PC_Turistica_6 + PC_Turistica_7 + PC_Turistica_8 + PC_Turistica_9 + PC_Turistica_10 + PC_Turistica_11 + PC_Turistica_12 + Macroarea_Isole + Macroarea_Nord + Macroarea_Sud + Descrizione_Tipologia_di_Immobile_Abitazioni_di_tipo_economico + Descrizione_Tipologia_di_Immobile_Abitazioni_signorili + Descrizione_Tipologia_di_Immobile_Abitazioni_tipiche_dei_luoghi + Descrizione_Tipologia_di_Immobile_Ville_e_Villini
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21513 entries, 0 to 21512
Data columns (total 49 columns):
 #   Column                                                          Non-Null Count  Dtype  
---  ------                                                          --------------  -----  
 0   id_istat                                                        21513 non-null  int64  
 1   id_comune                                                       21512 non-null  object 
 2   Provincia                                                       21513 non-null  object 
 3   Regione                                                         21513 non-null  object 
 4   Ripartizione Geografica                                         21513 non-null  object 
 5   id_catastale                                                    21513 non-null  object 
 6   Indice di spopolamento                                          21512 non-null  float64
 7   Codice regione                                   