Riccardo Lorenzon - Head of Data @Vedrai 

riccardo.lorenzon@vedrai.com

# Introduction to Machine Learning Models

## What is a Machine Learning model?

$y = f(x)$ is the most general form of mathematical relationship between an input $x$ and an output $y$. We call our approximation of $f$ an Estimator

We want to estimate $f$ in "the most accurate way" starting from available data thanks to a model which "learns" the underlying mathematical relationship (fit).

Knowledge of $f$ is mainly used for prediction of $y$ for a specific $x$ which we have not seen in the orginal dataset (predict).

## Regression or classification?

We talk about **regression** when $y$ is a real value or vector. 

We talk about **classification** when $y$ is a categorical value or vector.

## What is Linear Regression?

Linear regression is one of the simplest and most commonly used machine learning algorithms. It tries to find a straight line that best fits your data, which can then be used to make predictions. 

$y = a + b*x$


# Introduzione ai modelli di apprendimento automatico

## Cos'è un modello di apprendimento automatico?

$y = f(x)$ è la forma più generale di relazione matematica tra un input $x$ e un output $y$. Chiamiamo la nostra approssimazione di $f$ uno stimatore

Vogliamo stimare $f$ nel "modo più accurato" partendo dai dati disponibili grazie a un modello che "apprende" la relazione matematica sottostante (adattamento).

La conoscenza di $f$ è utilizzata principalmente per la previsione di $y$ per uno specifico $x$ che non abbiamo visto nel set di dati originale (previsione).

## Regressione o classificazione?

Parliamo di **regressione** quando $y$ è un valore reale o un vettore.

Parliamo di **classificazione** quando $y$ è un valore categoriale o un vettore.

## Cos'è la regressione lineare?

La regressione lineare è uno degli algoritmi di apprendimento automatico più semplici e più comunemente utilizzati. Cerca di trovare una linea retta che si adatti meglio ai tuoi dati, che può poi essere usata per fare previsioni.

$y = a + b*x$

## Step 1: Import the necessary libraries

First, we need to import the Python libraries that will help us work with data and build our model.

## Passaggio 1: importare le librerie necessarie

Per prima cosa, dobbiamo importare le librerie Python che ci aiuteranno a lavorare con i dati e a creare il nostro modello.

In [1]:
!pip install scikit-learn



In [2]:
# Import libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error, r2_score

## Step 2: Create or load a dataset

For this tutorial, we'll create a simple dataset about house sizes and prices. In real projects, you would typically load data from a file or database (in our case titanic.csv).

## Passaggio 2: creare o caricare un set di dati

Per questo tutorial, creeremo un semplice set di dati sulle dimensioni e i prezzi delle case. Nei progetti reali, solitamente caricheresti i dati da un file o da un database (nel nostro caso titanic.csv).

In [3]:
# Create a sample dataset (house size in square feet and price in thousands of dollars)
np.random.seed(42)  # For reproducible results
n_samples = 200

# House sizes between 1000 and 3000 square feet
house_sizes = np.random.randint(1000, 3000, n_samples)

# House prices with some relationship to size plus random noise
house_prices = 100 + 0.2 * house_sizes - 0.00003 * house_sizes**2 + np.random.normal(0, 50, n_samples)

# Create a DataFrame
data = pd.DataFrame({
    'Size': house_sizes,
    'Price': house_prices
})

# Display the first 5 rows of the dataset
data.head()

Unnamed: 0,Size,Price
0,2126,394.191759
1,2459,311.021124
2,1860,357.228406
3,2294,418.782549
4,2130,463.787702


In [4]:
# Or we load our most beloved dataset (maybe we use it later)

titanic = pd.read_csv('titanic.csv')

titanic.head()

FileNotFoundError: [Errno 2] No such file or directory: 'titanic.csv'

## Step 3: Visualize the data

It's important to visualize your data to understand the relationship between variables before building a model.

## Passaggio 3: visualizzare i dati

È importante visualizzare i dati per comprendere la relazione tra le variabili prima di creare un modello.

In [None]:
# Create a scatter plot of house size vs. price
plt.figure(figsize=(10, 6))
plt.scatter(data['Size'], data['Price'])
plt.title('House Size vs. Price')
plt.xlabel('House Size (square feet)')
plt.ylabel('House Price (thousands of dollars)')
plt.grid(True)
plt.show()

[Simpson's Paradox](https://en.wikipedia.org/wiki/Simpson%27s_paradox)

## Step 4: Split the data into training and testing sets

Before training our model, we need to split our data into:
- **Training set**: Used to train the model
- **Testing set**: Used to evaluate how well the model performs on new, unseen data

Why?

We need to ensure our model **generalizes** enough, meaning it does not learn the specific structure of the training set, but rather learns the underlying structure of $f$

## Passaggio 4: suddividere i dati in set di training e test

Prima di addestrare il nostro modello, dobbiamo suddividere i nostri dati in:
- **Set di training**: utilizzato per addestrare il modello
- **Set di test**: utilizzato per valutare le prestazioni del modello su dati nuovi e inediti

Perché?

Dobbiamo assicurarci che il nostro modello **generalizzi** a sufficienza, ovvero che non apprenda la struttura specifica del set di training, ma piuttosto apprenda la struttura sottostante di $f$

In [None]:
# Define features (X) and target (y)
X = data[['Size']]  # Features (input)
y = data['Price']   # Target (output)

# Split the data into training (80%) and testing (20%) sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training data size: {X_train.shape[0]} samples")
print(f"Testing data size: {X_test.shape[0]} samples")

## Step 5: Create and train the model

Now we'll create a linear regression model and train it using our training data.


## Passaggio 5: creare e addestrare il modello

Ora creeremo un modello di regressione lineare e lo addestreremo utilizzando i nostri dati di addestramento.

In [None]:
# Create a linear regression model
model = LinearRegression()

# Train the model using the training data
model.fit(X_train, y_train)

# Check the coefficient (slope) and intercept of our linear model
print(f"Model coefficient (slope): {model.coef_[0]:.4f}")
print(f"Model intercept: {model.intercept_:.4f}")
print(f"y = {model.intercept_:.4f} + {model.coef_[0]:.4f} * x")

## Step 6: Make predictions and evaluate the model

Let's use our trained model to make predictions on the test data and evaluate how well it performs.

## Fase 6: fare previsioni e valutare il modello

Utilizziamo il nostro modello addestrato per fare previsioni sui dati di test e valutare le sue prestazioni.

In [None]:
# Make predictions on the test data
y_pred = model.predict(X_test)

# Calculate the mean squared error (MSE) - a common metric to evaluate regression models
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)  # Root Mean Squared Error

# Calculate R-squared score (coefficient of determination)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse:.2f}")
print(f"Root Mean Squared Error: {rmse:.2f}")
print(f"R-squared Score: {r2:.4f}")

## Step 7: Visualize the results

Finally, let's visualize our model's predictions against the actual data to see how well our linear regression line fits.

## Passaggio 7: visualizza i risultati

Infine, visualizziamo le previsioni del nostro modello rispetto ai dati effettivi per vedere quanto bene si adatta la nostra linea di regressione lineare.

In [None]:
# Plot the original data points
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='blue', label='Actual Prices')

# Plot the predicted data points
plt.scatter(X_test, y_pred, color='red', label='Predicted Prices')

# Plot the regression line
plt.plot(X_test, y_pred, color='green', linewidth=2, label='Regression Line')

plt.title('House Price Prediction (Test Data)')
plt.xlabel('House Size (square feet)')
plt.ylabel('House Price (thousands of dollars)')
plt.legend()
plt.grid(True)
plt.show()

## Step 8: Use the model to make new predictions

Now that we have a trained model, we can use it to predict the price of houses with sizes that weren't in our original dataset.

## Passaggio 8: utilizzare il modello per fare nuove previsioni

Ora che abbiamo un modello addestrato, possiamo utilizzarlo per prevedere il prezzo delle case con dimensioni che non erano nel nostro set di dati originale.

In [None]:
# Create some new house sizes that we want to predict prices for
new_house_sizes = np.array([[1500], [2000], [2500]])

# Use our model to predict the prices
predicted_prices = model.predict(new_house_sizes)

# Display the results
for size, price in zip(new_house_sizes.flatten(), predicted_prices):
    print(f"A house with {size} square feet is predicted to cost ${price:.2f} thousand")

### What are Overfitting and Underfitting?

When training machine learning models, we face two common challenges:

1. **Underfitting**: The model is too simple and fails to capture the underlying pattern in the data.
2. **Overfitting**: The model is too complex and fits the training data too closely, capturing noise instead of the true underlying relationship.

Let's visualize these concepts using our house price dataset

### Cosa sono l'overfitting e l'underfitting?

Quando si addestrano modelli di apprendimento automatico, ci troviamo di fronte a due sfide comuni:

1. **Underfitting**: il modello è troppo semplice e non riesce a catturare il pattern sottostante nei dati.
2. **Overfitting**: il modello è troppo complesso e si adatta troppo da vicino ai dati di addestramento, catturando il rumore invece della vera relazione sottostante.

Visualizziamo questi concetti utilizzando il nostro set di dati sui prezzi delle case!

In [None]:
# Prepare the data
X = data[['Size']]
y = data['Price']

# Split the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create models of varying complexity
models = [
    ('Underfit (Linear)', LinearRegression()),
    ('Just Right (Quadratic)', make_pipeline(PolynomialFeatures(2), LinearRegression())),
    ('Overfit (High Degree Polynomial)', make_pipeline(PolynomialFeatures(10), LinearRegression()))
]

# Visualize different model complexities
plt.figure(figsize=(15, 5))

for i, (name, model) in enumerate(models, 1):
    # Train the model
    model.fit(X_train, y_train)
    
    # Predict on training and test sets
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    
    # Calculate errors
    train_mse = mean_squared_error(y_train, y_train_pred)
    test_mse = mean_squared_error(y_test, y_test_pred)
    
    # Plot
    plt.subplot(1, 3, i)
    
    # Sort X for smooth curve plotting
    sort_axis = np.argsort(X_test.values.flatten())
    X_test_sorted = X_test.values[sort_axis]
    y_test_sorted = y_test.values[sort_axis]
    y_pred_sorted = y_test_pred[sort_axis]
    
    # Scatter plot of actual data
    plt.scatter(X_test, y_test, color='blue', alpha=0.5, label='Actual Data')
    
    # Plot the model's predictions
    plt.plot(X_test_sorted, y_pred_sorted, color='red', label='Model Prediction')
    
    plt.title(f'{name}\nTrain MSE: {train_mse:.2f}\nTest MSE: {test_mse:.2f}')
    plt.xlabel('House Size')
    plt.ylabel('House Price')
    plt.legend()

plt.tight_layout()
plt.show()

## Bonus during the lesson in case of available time

Implement classification on titanic dataset with sklearn NaiveBayesClassifier or LogisticRegression

## Conclusion

Congratulations! You've just built and trained your first machine learning model using linear regression. Here's what we learned:

1. How to prepare and visualize data
2. How to split data into training and testing sets
3. How to create and train a linear regression model
4. How to evaluate the model's performance
5. How to use the model to make new predictions
6. How to qualitatively assess if we are overfitting or underfitting

This is just the beginning of your machine learning journey. As you progress, you can explore more complex algorithms and datasets!

## Conclusione

Congratulazioni! Hai appena creato e addestrato il tuo primo modello di apprendimento automatico utilizzando la regressione lineare. Ecco cosa abbiamo imparato:

1. Come preparare e visualizzare i dati
2. Come suddividere i dati in set di addestramento e test
3. Come creare e addestrare un modello di regressione lineare
4. Come valutare le prestazioni del modello
5. Come utilizzare il modello per fare nuove previsioni
6. Come valutare qualitativamente se stiamo eseguendo un overfitting o un underfitting

Questo è solo l'inizio del tuo viaggio di apprendimento automatico. Man mano che procedi, puoi esplorare algoritmi e set di dati più complessi!

## Homework Exercise

Start from this notebook.

Assume house price depends not only on size, but also on number of windows.

n_windows = np.random.randint(3,8,100)

house_prices = 100 + 0.2 * house_sizes - 0.00003 * house_sizes**2 + np.random.normal(0, 50, n_samples) + 15*n_windows

Try:
1) change the initial data, but keep using only house_sizes as regressor. What has changed?
2) adapt the notebook to using both house_sizes and n_windows as regressors. What has changed?
3) come up with a good way to visualize linear regression outputs with 2 regressors


