# PROGETTO MACHINE LEARNING - LIFESTYLE

## INTRODUZIONE

In questo progetto si utilizzerà il toy database [diabetes](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset) per predire il livello di progessione della malattia dopo un anno, a partire da 10 variabili misurate sui pazienti

## CARICAMENTO DATASET

Sono state importate le varie librerie python che potrebbero essere utilizzate nel progetto

In [1]:
from sklearn.datasets import load_diabetes
from sklearn import svm
from sklearn.model_selection import train_test_split, GridSearchCV, learning_curve, validation_curve
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.ensemble import BaggingRegressor

Si fa il download del database diabetes

In [3]:
diabetes = load_diabetes()

Analizzo la descrizione che offre sklearn per il toy dataset

In [4]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

Dalla descrizione è emerso che i dati sono stati normalizzati

Con questo comando, posso analizzare la grandezza del toy dataset (442) e il significato delle feature presenti nel toy dataset che sono 10 features più il target:
1. age: l'età
2. sex: sesso
3. bmi: indice di massa corporea
4. bp: pressione arteriosa media
5. s1: colestorolo totale
6. s2: lipoproteine a bassa densità
7. s3: lipoproteine ad alta densità
8. s4: colesterolo totale
9. s5: trigliceridi
10. s6: livello di zucchero nel sangue


utilizzo pandas per dare un primo sguardo ai dati presenti nel dataset

In [6]:
diabetes_df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
diabetes_df['target'] = diabetes.target
diabetes_df.describe()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
count,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0
mean,-3.634285e-16,1.308343e-16,-8.045349e-16,1.281655e-16,-8.835316000000001e-17,1.327024e-16,-4.574646e-16,3.777301e-16,-3.830854e-16,-3.412882e-16,152.133484
std,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,77.093005
min,-0.1072256,-0.04464164,-0.0902753,-0.1123996,-0.1267807,-0.1156131,-0.1023071,-0.0763945,-0.1260974,-0.1377672,25.0
25%,-0.03729927,-0.04464164,-0.03422907,-0.03665645,-0.03424784,-0.0303584,-0.03511716,-0.03949338,-0.03324879,-0.03317903,87.0
50%,0.00538306,-0.04464164,-0.007283766,-0.005670611,-0.004320866,-0.003819065,-0.006584468,-0.002592262,-0.001947634,-0.001077698,140.5
75%,0.03807591,0.05068012,0.03124802,0.03564384,0.02835801,0.02984439,0.0293115,0.03430886,0.03243323,0.02791705,211.5
max,0.1107267,0.05068012,0.1705552,0.1320442,0.1539137,0.198788,0.1811791,0.1852344,0.133599,0.1356118,346.0


Si verifica la presenza di valori nulli nel dataset:

In [7]:
diabetes_df.isna().sum()

age       0
sex       0
bmi       0
bp        0
s1        0
s2        0
s3        0
s4        0
s5        0
s6        0
target    0
dtype: int64

In [8]:
diabetes_df.isnull().sum()

age       0
sex       0
bmi       0
bp        0
s1        0
s2        0
s3        0
s4        0
s5        0
s6        0
target    0
dtype: int64

Dall'analisi è emerso che in questo dataset non è presente nessun dato mancante.

## VALIDAZIONE

- cos'è il random forest
- spiegazione del random forest
- piccola spiegazione del ensemble method
- perchè si deve usare il random forest regressor

Per questo progetto è stato scelto di utilizzare il **Random Forest** come modello di apprendimento. Il Random Forest è un tipo di ensemble method basato sul Decision Tree. 

Il **Decision Tree** un algoritmo di machine learning che opera mediante la costruzione di un albero di decisione, dove le scelte su quale percorso seguire vengono fatte in base ai valori soglia delle features nel dataset. In pratica, il Decision Tree può essere visualizzato come una serie di 'if' innestati, il che lo rende comprensibile anche per coloro che hanno familiarità con concetti informatici. Uno dei vantaggi principali del Random Forest rispetto al decision tree è la riduzione dell'overfitting.

Perchè si chiama Random Forest?
Perchè è costituito da un insieme di alberi decisionali (Forest) ed è di tipo **Bagging** (Random), un tipo di ensemble method in cui avviene il campionamento casuale con sostituzione (nella statistica questa tecnica viene chiamata **bootstrap**, significa che i dati possono essere scelti più di una volta) dei dati di addestramento per creare dei sottoinsieme di dati diversi. Dopo il campionamento casuale, i modelli vengono addestrati in maniera indipendente ed effettuata la media o la maggioranza (in base se il un modello di regressione o classificazione) delle previsioni producendo una stima più precisa.







Per questo progetto è stato scelto di utilizzare come modello di apprendimento il **Random Forest**, è un ensemble method della decision tree. Il *Decision Tree* è di un albero di decisione e le decisioni su quale foglia proseguire vengono prese dai valori soglia presenti nelle features del dataset. Praticamente il decision tree sono come tanti if innestati (nel caso leggesse una persona che bazzica nell'ambito informatico). L'ensemble method è un ottimizzazione di un modello di apprendimento. Nel Random Forest vengono creati tanti decision tree con diverse valori di soglia 