# Descrivere le relazioni tra variabili

**Variabile risposta o dipendente** è una variabile i cui valori possono essere spiegati attraverso i valori della **variabile esplicativa o indipendente.**

Diagaramma a disperisone mostra la relazione tra la variabile risposta e variabile esplicativa

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact

# Parametri iniziali
np.random.seed(42)
n_points = 100
a_true = 2.5
noise_level = 3.0

# Generazione dati
x = np.linspace(0, 10, n_points)
epsilon = np.random.normal(0, noise_level, n_points)
y = a_true * x + epsilon

# Funzione per l'plot interattivo
@interact(a=(-3.0, 3.0, 0.1), noise=(0.1, 5.0, 0.5), n_points=(10, 500, 10))
def update_plot(a=2.5, noise=3.0, n_points=100):
    x = np.linspace(0, 10, n_points)
    epsilon = np.random.normal(0, noise, n_points)
    y = a * x + epsilon
    
    plt.figure(figsize=(10, 6))
    plt.scatter(x, y, alpha=0.6, label='Dati osservati')
    plt.plot(x, a * x, 'r--', lw=2, label='Relazione vera: $y = ax$')
    
    # Regressione lineare
    coeff = np.polyfit(x, y, 1)
    plt.plot(x, np.polyval(coeff, x), 'g-', lw=2, 
             label=f'Regressione: y = {coeff[0]:.2f}x + {coeff[1]:.2f}')
    
    plt.title(f'Relazione lineare con rumore (σ={noise})')
    plt.xlabel('Variabile indipendente (x)')
    plt.ylabel('Variabile dipendente (y)')
    plt.legend()
    plt.grid(True)
    plt.show()

    # Calcolo correlazione
    corr_coef = np.corrcoef(x, y)[0, 1]
    print(f"Coefficiente di correlazione di Pearson: {corr_coef:.2f}")

interactive(children=(FloatSlider(value=2.5, description='a', max=3.0, min=-3.0), FloatSlider(value=3.0, descr…

Due variabili linearmente indipendenti si dicono **concordanti**(**discordanti**) se a valori superiori alla media di una variabile corrisondono valori superiori(inferiori) alla media nell'altra.  

### Formula per il coefficiente di correlazione lineare campionario è 

Il coefficiente di correlazione è una misura dell'intensità della relazione fra variabile esplicativa e variabile risposta.

$$
r = \dfrac{\sum \left( \frac{x_i - \bar{x}}{s_x} \right) \cdot \left(  \frac{y_i - \bar{y}}{s_y} \right) }{n-1}
$$

La somma dei prodotti degli z-score delle coppie $(x_i, y_i)$ diviso $n-1$

Il coefficiente di correlazione della popolazione può essere calcolato anche come 

$$
\rho = \dfrac{\sum x_i \ y_i - \frac{\sum x_i \cdot \sum  y_i}{N}}{\sqrt{\left( \sum x_i^2 - \frac{\left( \sum x_i \right)^2}{N} \right)} \cdot \sqrt{\left( \sum y_i^2 - \frac{\left( \sum y_i \right)^2}{N} \right)}}
$$


### NB:
Il coefficiente $r$ non è robusto.

## Come determinare se esiste una relazione lineare fra due variabili? Il metodo dei minimi quadrati.