<a href="https://colab.research.google.com/github/emamanni/AnalisiDeiDati24-25/blob/main/14_RegressioneLineare_R2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisi di regressione: coefficiente di determinazione $R^2$

In questo notebook si utilizzerà il coefficiente di determinazione $R^2$ per valutare la bontà di un modello di regressione.

L'analisi sarà condotta sul dataset sales_vs_ads.csv, contenente i dati su spesa in spot televisivi (attributo x1), spesa in spot sui giornali (attributo x2) e dati relativi alle vendite (attributo y). x1 e x2 saranno le variabili esplicative e y sarà la variabile target.

In [1]:
# "Montiamo" il drive per poter accedere al file
from google.colab import drive
drive.mount("/content/drive", force_remount=True)

import os

# Percorso alla directory che contiene i file da utilizzare
# Percorso da modificare in base alla propria macchina
folder_path = '/content/drive/MyDrive/Colab Notebooks/Notebook Corso Analisi dei Dati/FileDiSupporto'

Mounted at /content/drive


In [2]:
file_path_csv = os.path.join(folder_path, 'sales_vs_ads.csv')

import pandas as pd

# leggiamo il dataset
data = pd.read_csv(file_path_csv, header=0)

In [3]:
# estraiamo le colonne delle variabili esplicative, della variabile target e il numero di osservazioni
X = data[['x1', 'x2']].values
y = data['y'].values
m = len(y)
print("Variabili esplicative:\n", X, "\n")
print("Variabile target:\n", y, "\n")
print("Numero di osservazioni:", m)

Variabili esplicative:
 [[ 2.96  4.45]
 [ 5.25  0.64]
 [ 0.9   5.01]
 [ 6.77  5.07]
 [ 5.72  3.27]
 [ 5.69  6.01]
 [11.76  6.45]
 [ 6.03  6.81]
 [ 6.02  7.19]
 [ 6.06 13.26]
 [18.46  7.94]
 [ 6.52 21.38]
 [ 6.58  8.64]
 [ 8.51 11.73]
 [ 6.89  9.33]
 [ 6.63  9.71]
 [ 6.9   8.3 ]
 [ 6.69 10.4 ]
 [ 7.38 10.79]
 [ 7.5  10.93]] 

Variabile target:
 [ 371.88  484.55   85.47  613.85  531.31  628.3  1167.89  626.87  724.01
  817.08 1325.71 1064.86  802.38  934.75  774.84  920.35  835.48  755.61
  814.83  826.21] 

Numero di osservazioni: 20


## Calcolo del coefficiente di determinazione $R^2$

Il coefficiente $R^2$ si ottiene come:

$$
R^2 = \frac{SSE_B - SSE_R}{SSE_B}
$$

dove:


*   $SSE_B$ rappresenta il valore SSE per un modello baseline in cui la variabile $y$ è stimata come $y=\overline{y}$, con $\overline{y}=\frac{1}{m}\sum_{i=1}^m y_i$;
*   $SSE_R$ rappresenta il valore SSE per il modello di regressione considerato.

Calcoliamo, in primo luogo, il valore $\overline{y}$ da utilizzare come baseline e poi calcoliamo il valore $SSE_B = \sum_{i=1}^m (y_i - \overline{y})^2$.

In [4]:
# calcolo del valore medio di y per la baseline
y_medio = 0
for i in y:
  y_medio += i
y_medio /= m

print("y_medio = ", y_medio)

# calcolo di SSE_B come somma degli errori quadratici
# per ogni osservazione, e_i = y_i - y_medio
SSE_B = 0
for i in y:
  SSE_B += (i - y_medio)**2

print("SSE_B = ", SSE_B)

y_medio =  755.3115
SSE_B =  1445055.995455


Calcoliamo, ora, il valore $SSE_R$ del modello di regressione ottenuto con il metodo OLS. Utilizziamo, a tale scopo, le funzionalità di `NumPy`.

In [5]:
import numpy as np

# crea un array con m 1
ones = np.ones(m)
# Trasforma ones in un array colonna (matrice m x 1), per poterlo concatenare
# orizzontalmente ad altre colonne
ones = ones.reshape(m,1)

# Costruisce la matrice X aumentata concatenando:
# la colonna di 1 (per il termine noto),
# la matrice X originaria composta dalle colonne x1 e x2
# axis=1 concatena per colonne
X_mod = np.concatenate((ones, X), axis=1)

# risoluzione con np.linalg.lstsq
w, SSE_R = np.linalg.lstsq(X_mod, y)[0:2]

print('I parametri ottenuti con il metodo OLS (utilizzando np.linalg.lstsq) sono:', w)
print('SSE_R è:', SSE_R)

I parametri ottenuti con il metodo OLS (utilizzando np.linalg.lstsq) sono: [85.25180493 64.09398845 26.76486062]
SSE_R è: [132073.17200989]


Infine, calcoliamo il valore $R^2$.

In [6]:
# calcolo di R^2
R2 = (SSE_B - SSE_R) / SSE_B

print("R^2 = ", R2)

R^2 =  [0.90860342]


Abbiamo ottenuto $R^2 = 0.91$. Ciò significa che il modello di regressione LSE consente di ridurre del 91% il valore di SSE rispetto alla baseline.


## Calcolo di $R^2$ in presenza di un solo regressore

In questa sezione, calcoliamo il valore $R^2$ utilizzando un modello di regressione semplice con un solo regressore (ad esempio, $x_1$) e verifichiamo che il valore diminuisce rispetto al caso precedente con due regressori.

In [7]:
# Costruisce la matrice X aumentata concatenando:
# la colonna di 1 (per il termine noto),
# la matrice X originaria composta dalla sola colonna x1
# axis=1 concatena per colonne
X_mod = np.concatenate((ones, data[['x1']].values), axis=1)

# risoluzione con np.linalg.lstsq
w, SSE_R_1regressore = np.linalg.lstsq(X_mod, y)[0:2]

print('I parametri ottenuti con il metodo OLS (utilizzando np.linalg.lstsq) sono:', w)
print('Valore di SSE_R con un solo regressore:', SSE_R_1regressore)

I parametri ottenuti con il metodo OLS (utilizzando np.linalg.lstsq) sono: [271.96200112  69.43679053]
Valore di SSE_R con un solo regressore: [383939.72669789]


Calcolo di $R^2$.

In [8]:
# calcolo di R^2 per un modello con un solo regressore
R2_1regressore = (SSE_B - SSE_R_1regressore) / SSE_B

print("R^2 = ", R2_1regressore)

R^2 =  [0.73430806]


Abbiamo ottenuto $R^2 = 0.73$, un valore minore rispetto a 0.91 ottenuto considerando due regresori. Ciò conferma che, aumentando il numero di regressori, anche non tutti correlati alla variabile target, il coefficiente di determinazione aumenta.

##Legame tra coefficiente di Pearson $r$ e coefficiente di determinazione $R^2$

Verifichiamo che il coefficiente di Pearson $r$, elevato al quadrato, coincide con $R^2$.

In [13]:
XY = data[['x1', 'y']]

pearson_corr = XY.corr(method='pearson')

correlazione = pearson_corr.at['x1', 'y']

print("La correlazione r tra x1 e y è:", correlazione, "\n")

print("Il valore di r^2 è:", correlazione**2)

La correlazione r tra x1 e y è: 0.8569177690228732 

Il valore di r^2 è: 0.7343080628671382
