<a href="https://colab.research.google.com/github/visiont3lab/machine_learning/blob/master/DataAnalisi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cosa andremo a fare oggi?
1. Teorica/Pratica: Analisi e Creazione dei dataset:
  * Introduzione alla libreria scikit-learn
  * Regressione vs Classificazione 
  * Scikit-Learn datasets (regressione: diabetes, classificazione: iris)
  * Pandas library (strumenti di visualizzazione dei dataset)
  * (Incominceremo a creare un dataset custom che definisca un problema )
2. Affronteremo problemi software (installazione, configurazione librerie etc) e dubbi (esercitazioni, dubbi di programmazzione etc)

# Scikit-Learn Introduzione
[Scikit-learn](https://scikit-learn.org/stable/) è una libreria di machine learning.

* [Sklearn Installation page](https://scikit-learn.org/stable/install.html)  
```
# Pip packet manager
pip install -U scikit-learn
# Conda packet manager 
conda install scikit-learn
```

# Classificazione vs Regressione
Appartengono entrambi alla cateria di "Supervised Learning" (Apprendimento Supervisionato). Con ciò intendiamo quella situazione in cui io mi creo un dataset (quindi racconto una serie di dati) e con questi dati cerco di risolvere un problema. Posso risolvere due tipi di problema:

## Regressione

Significato:

* dato una serie di dati misurati vogliamo trovare una relazione matematica tra i dati misurati e l'output desirato. <br>
Vogliamo predirre qualcosa.

### Esempio 

Vogliamo predirre il salario di un lavoratore mensile in euro basandoci sulla sua età.

Definiamo il problema matematicamente (caso lineare):

<h2><center>$Y = aX +b$</center></h2>

  * Y: salario che voglio predire
  * X: età del lavoratore esempio X=25 anni 
  * a e b sono i due parametri da stimare (Sconosciuti)

Il problema di regressione consiste nel determinare le variabili sconosciute (a, b) utilizzando un dataset (insieme dei dati raccolti). Una volta indiviudati i parametri a e b saremo in grado di stimare quanto guandagna una persona a noi sconosciuta semplicemente basandoci sulla sue età.

* Step 1) Dato un insieme di dati raccolti ( Y e X) vogliamo stimare i parametri sconosciuti a e b (sono due numeri)

```
Dati Raccolti:
Y = Salario al mese in euro
X = Età del lavoratore
1) Marco:    Y=1100   X=19
2) Daniele:  Y=1150   X=21
3) Davide:   Y=1155   X=22
4) Marta:    Y=1170   X=23
6) Alessia:  Y=1200   X=26
9) Stella:   Y=1750   X=33
10) Chiara   Y=1640   X=29  
```

* Step 2) Vogliamo rispondere alla seguente domanda: 
  <h2><center>Quanto guadagna Giada che ha 25 anni?</center>

  Vediamo chiaramente che all'aumentare dell'età aumenta il guadagno e ad occhio possiamo dire che Giada guadagnerà intorno ai 1180 euro. Matematicamente ci stiamo chiedendo il valore di Y (salario di giada) conoscendo la sua età (X=25 anni) e i due parametri a e b (ottenuti nello step 1)








* [Sklearn dataset page](https://scikit-learn.org/stable/datasets/index.html#datasets)

Datasets forniti da scikit-leran di esempio per tutorial:

  * [Iris plant dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris)
  * [Optical recognition of handwritten digits dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits)
  * [Boston houses price dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston)
  * [Diabetes dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes)
  * [Wine Recognition dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)
  * [Breast cancer wisconsin (diagnostic) dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer)
  * [Linnerrud Dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud)


In [75]:
from sklearn import linear_model
import numpy as np

# Linear Model Regression Description https://scikit-learn.org/stable/modules/linear_model.html
# Scikit Documentazione https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

# Appraoch Linear model: Y=b+aX 
# fit_intercept = False significa che dovremmo manualmente inseririe 1 se vogliamo estrarre il parametro b
reg = linear_model.LinearRegression(fit_intercept=False, normalize=False)

# Y e X
x = np.array([19,21,22,23,26,33,29])
#X = np.vstack([np.ones(len(x)),x]).T
X_train= np.array([[1,19],[1,21], [1,22], [1,23], [1,26], [1,33],[1,29]])
#print(X)
#print(X_train)
Y_train= np.array([1100,1150,1155,1170,1200,1750,1640])

reg.fit(X_train, Y_train)

# a e b
print('a and b ', reg.coef_)

X_pred = np.array([[1,25]]) # giada ha 25 anni
y_pred = reg.predict(X_pred)
print('Giada gudagnerà al mese: ', y_pred)



a and b  [56.21316306 50.70235756]
Giada gudagnerà al mese:  [1323.77210216]


In [81]:
from sklearn import linear_model
import numpy as np

# Linear Model Regression Description https://scikit-learn.org/stable/modules/linear_model.html
# Scikit Documentazione https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

# Appraoch Linear model: Y=b+aX 
# fit_intercept = True significa che il parametro b è automaticamente settato a 1 e la sua stima sarà inserita in intercept_
reg = linear_model.LinearRegression(fit_intercept=True, normalize=False)

# Y e X
x = np.array([19,21,22,23,26,33,29])
#X = np.vstack([np.ones(len(x)),x]).T
X_train= np.array([[19],[21], [22], [23], [26], [33],[29]])
#print(X)
#print(X_train)
Y_train= np.array([1100,1150,1155,1170,1200,1750,1640])

reg.fit(X_train, Y_train)

# a e b
a = reg.coef_
b = reg.intercept_
print('a: ', reg.coef_)
print('b: ', reg.intercept_)


X_test = np.array([[25]]) # giada ha 25 anni
y_pred = reg.predict(X_test)
Y_pred = a*X_test + b
print('Giada gudagnerà al mese: ', y_pred, Y_pred)


a:  [50.70235756]
b:  56.21316306483277
Giada gudagnerà al mese:  [1323.77210216] [[1323.77210216]]


In [76]:
# Link Utile Least square with numpy: https://mmas.github.io/least-squares-fitting-numpy-scipy
'''
[Y1]       [X1 1]
[Y2]       [X2 1]   [a]
[Y3]   =   [X3 1]   [b] 
...        ......
[YN]       [XN 1]

Y = Xbeta
Nx1 = Nx2 x 2x 1
beta = ( (XT*X)∧-1 )*XT*Y  (Least square)
'''

# Construct Matrices
x = np.array([19,21,22,23,26,33,29])
X = np.vstack([x, np.ones(len(x))]).T
Y = np.vstack(np.array([1100,1150,1155,1170,1200,1750,1640]))
#print(X)
#print(Y)

# Solve Least square Matematicall (Matrix product)
# beta = ( (XT*X)∧-1 )*XT*Y  (Least square)
coeff = np.dot(np.linalg.inv(np.dot(X.T, X)), np.dot(X.T, Y))
print("Coefficient caso 1: ", coeff.T)
a = coeff[0]
b  = coeff[1]

# Different approach Using Numpy Functions
#coeff_2 = np.linalg.lstsq(X, Y)[0]
#print("Coefficient caso 2: ", coeff_2)
#a  = coeff_2[0]
#b = coeff_2[1]

X_test = 25
Y_pred = a*X_test + b
print('Giada gudagnerà al mese: ', Y_pred)

Coefficient caso 1:  [[50.70235756 56.21316306]]
Giada gudagnerà al mese:  [1323.77210216]
