# Tutorial overview

In questo primo notebook è mostreremo quali sono le funzionalità che vanno implementate "under the hood" in un semplice modello di Machine Learning: la regressione lineare.

## Tematiche
In questo tutorial:
1. Vedremo in che modo importare e visualizzare i dati necessari per il training;
2. Implementeremo tutte le funzionalità di una regressione lineare;
3. Implementeremo un metodo di ottimizzazione per il modello;
3. Alleneremo il modello di regressione sui dati;
4. Visualizzeremo il risultato del training.

Le librerie che utilizzeremo sono:
1. `pandas` per l'import e la visualizzazione delle statistiche dei dati (una specie di excel versione python);
2. `numpy`, una libreria che supporta il calcolo con matrici, array e tensori, per la parte di calcolo scientifico coinvolta nella definizione della regressione lineare;
3. `matplotlib` per la visualizzazione dei grafici. 

## Caso d'uso
Questo task lo eseguiremo sul dataset [California Housing Prices](https://www.kaggle.com/camnugent/california-housing-prices), nel quale vengono fornite diverse caratteristiche quali metratura dell'immobile, anno di costruzione, numero di piani, anno di eventuali ristrutturazioni e molte altre. 

L'**obiettivo** sarà quello di predire il prezzo di vendita di una casa a partire dalle features sopra descritte.


## Perché questo tutorial?
L'intenzione di questo tutorial è quella di mostrare a che livelli di complessità di può arrivare anche con un task molto semplice, e le ragioni per cui dobbiamo utilizzare strumenti più "potenti". 😀

# Un po' di burocrazia...

Importiamo le librerie e settiamo alcuni parametri che saranno utili successivamente.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from pylab import rcParams
from matplotlib import rc
import matplotlib.pyplot as plt
import matplotlib.animation as animation
import unittest

%matplotlib inline
sns.set(style='whitegrid', palette='muted', font_scale=1.5)
rcParams['figure.figsize'] = 14, 8
rcParams['animation.embed_limit'] = 2**128

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

# Lavoriamo col dataset

Il primo passo, ovviamente, è il **download** del dataset. 

Colab, e in generale i Jupyter Notebooks, offrono la possibilità di utilizzare comandi della bash inserendo `!` prima della riga di codice.

In [3]:
! wget https://raw.githubusercontent.com/Data-Science-FMI/ml-from-scratch-2019/master/data/house_prices_train.csv

--2021-12-02 11:32:50--  https://raw.githubusercontent.com/Data-Science-FMI/ml-from-scratch-2019/master/data/house_prices_train.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 460676 (450K) [text/plain]
Saving to: ‘house_prices_train.csv.1’


2021-12-02 11:32:50 (9.96 MB/s) - ‘house_prices_train.csv.1’ saved [460676/460676]



Abbiamo il dataset, non rimane che **importarlo**.

`pandas` fornisce diverse funzionalità per importare un dataset da file, a seconda del formato in cui ci viene fornito. In questo caso, il formato è `.csv`