# Introducció a la pràctica 1: primers passos

## Objectius

Els objectius d'aquesta pràctica són:

* Aplicar models de regressió, ficant l'èmfasi en: 
    1. Analitzar els atributs per seleccionar els més representatius i normalitzar-los.
    2. Avaluar correctament l'error del model 
    3. Visualitzar les dades i el model resultant
    4. Saber aplicar el procès de descens del gradient

* Ésser capaç d'aplicar tècniques de regressió en casos reals

* Validar els resultats en dades reals

* Fomentar la capacitat per presentar resultats tècnics d'aprenentatge computacional de forma adequada davant altres persones


### Jupyter Notebook

Aquest ``jupyter notebook`` està compost de blocs de text i codi, recordeu que hi ha blocs de codi que depenen de que blocs anteriors hagin estat executats. 

El codi d'aquest notebook és modificable i us recomanem que feu canvis i en comproveu els resultats.

**Per a executar el notebook: cal que instal.leu [jupyter notebook](http://jupyter.readthedocs.io/en/latest/install.html).**


### Guia d'instal.lació de les llibreries


És molt recomanable que utilitzeu Linux, ja que agilitza la instal.lació de les llibreries. També es recomana utilitzar **Anaconda**, una distribucó de python multiplataforma que permet instal.lar llibreries fàcilment i l'IDE d'spyder o PyCharm.

Donat que teniu conda o pypi (pip) (aquest segon es pot instal.lar amb ``apt-get``), heu d'instal.lar els següents paquets (exemple en pypi):

```
sudo pip install numpy
sudo pip install scikit-learn
sudo pip install matplotlib
sudo pip install scipy
```

En el cas d'Anaconda, substituir ``sudo pip`` per ``conda``.

En el cas del matplotlib, si us dona errors en Ubuntu Linux (`FileNotFoundError: [Errno 2] No such file or directory: 'latex': 'latex'`), cal instal·lar el paquet `texlive-full` (`sudo apt install texlive-full`) que ocupa 3-4GB. Si només ho voleu per aquesta pràctica, podeu provar amb el `textlive-base` (uns 100MB)


# Apartat (C): Analitzant Dades

L'objectiu d'aquest primer apartat serà conèixer la base de dades que es té entre mans. S'han d'analitzar els diferents atributs que la composen, entendre'ls i, si no està estipulat, **caldrà fixar quin es l'atribut objectiu a predir de tots els que hi ha a la base de dades**, justificant el per què de la decisió (és útil i representatiu pel problema, per exemple, donat un conjunt de dades sobre persones: edat, gènere, pes, alçada, risc de patir càncer, aquesta última pot ser justificada com la de més interés). També podeu mirar que l'atribut objectiu tingui valors que canvien. Per exemple, no té sentit predir un atribut on el 99% dels valors són 0, i hi ha algun 1.

Ara podeu veure un exemple amb una base de dades **dummy** que creem nosaltres mateixos:

In [5]:
from sklearn.datasets import make_regression
import numpy as np
import pandas as pd
%matplotlib notebook
from matplotlib import pyplot as plt
import scipy.stats

# Visualitzarem només 3 decimals per mostra
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Funcio per a llegir dades en format csv
def load_dataset(path):
    dataset = pd.read_csv(path, header=0, delimiter=',')
    return dataset

# Carreguem dataset d'exemple
dataset = load_dataset('measurements.csv')
data = dataset.values

x = data[:, :2]
y = data[:, 2]

print("Dimensionalitat de la BBDD:", dataset.shape)
print("Dimensionalitat de les entrades X", x.shape)
print("Dimensionalitat de l'atribut Y", y.shape)

Dimensionalitat de la BBDD: (388, 12)
Dimensionalitat de les entrades X (388, 2)
Dimensionalitat de l'atribut Y (388,)


Algunes bases de dades tenen valors no existents. Numpy els representa amb ``np.nan``. Per a treure'ls, podeu fer: ``dades[np.isnan(dades)] = valor``. Podeu mirar com afecten diferents estratègies d'assignar ``valor``. Per exemple, pot ser 0, la mitja, la mediana, .... També podeu analitzar si hi ha algun atribut perdut (que té molts valors no existents) i valorar si eliminar directament l'atribut.

Hi ha vegades que el fitxer .csv utilitza una coma ',' en comptes d'un punt decimal '.', fent que cada atribut sigui considerat com un ``string``. Per tant, a part d'eliminar les files (mostres) que continguin ``NaN``, cal convertir les ',' a '.' per a poder convertir els valors a ``float``.
`dtype=object`
A més, utilitzeu la llibreria pandas, i no `np.genfromtxt()` ja que llegeix només valors numèrics, i els NaN els converteix a string. Si esteu empenyats en utilitzar `np.genfromtxt()`, caldrà posar-li com a paràmetre 

In [6]:
print("Per comptar el nombre de valors no existents:")
print(dataset.isnull().sum())

#Cambiamos el nombre de nuestras columnas para cuando tengamos que tratar con sus datos evitando los espacios en ellos
dataset = dataset.rename(columns={"refill liters":"refill_liters"})
dataset = dataset.rename(columns={"refill gas":"refill_gas"})

#Reemplazamos las ',' de nuestras columnas por '.'
dataset = dataset.replace(',','.', regex=True)

dataset['distance'] = dataset['distance'].astype(float)
dataset['consume'] = dataset['consume'].astype(float)
dataset['speed'] = dataset['speed'].astype(float)
dataset['temp_inside'] = dataset['temp_inside'].astype(float)
dataset['temp_outside'] = dataset['temp_outside'].astype(float)

Per comptar el nombre de valors no existents:
distance           0
consume            0
speed              0
temp_inside       12
temp_outside       0
specials         295
gas_type           0
AC                 0
rain               0
sun                0
refill liters    375
refill gas       375
dtype: int64


In [7]:
print("Per visualitzar les primeres 5 mostres de la BBDD:")
dataset.head() 

Per visualitzar les primeres 5 mostres de la BBDD:


Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,specials,gas_type,AC,rain,sun,refill_liters,refill_gas
0,28.0,5.0,26.0,21.5,12.0,,E10,0,0,0,45.0,E10
1,12.0,4.2,30.0,21.5,13.0,,E10,0,0,0,,
2,11.2,5.5,38.0,21.5,15.0,,E10,0,0,0,,
3,12.9,3.9,36.0,21.5,14.0,,E10,0,0,0,,
4,18.5,4.5,46.0,21.5,15.0,,E10,0,0,0,,


Mostrarem diferents càlculs amb les nostres dades, entre ells el màxim, minim, desviació standard...  
Primerament realitzarem una copia del nostre dataset per a tractar les dades, una vegada tenim la copia reemplacem les comes (',') que hi ha a les nostres columnes per punts ('.') per tal de poder assignar el tipus float que volem als seus valors.  
I mostrarem els càlculs que realitza la funció de la llibreria pandas `pd.describe()`.

In [8]:
print("Per veure estadístiques dels atributs numèrics de la BBDD:")
dataset.describe()

Per veure estadístiques dels atributs numèrics de la BBDD:


Unnamed: 0,distance,consume,speed,temp_inside,temp_outside,AC,rain,sun
count,388.0,388.0,388.0,376.0,388.0,388.0,388.0,388.0
mean,19.653,4.912,41.928,21.93,11.358,0.077,0.124,0.082
std,22.668,1.033,13.599,1.01,6.992,0.267,0.33,0.275
min,1.3,3.3,14.0,19.0,-5.0,0.0,0.0,0.0
25%,11.8,4.3,32.75,21.5,7.0,0.0,0.0,0.0
50%,14.6,4.7,40.5,22.0,10.0,0.0,0.0,0.0
75%,19.0,5.3,50.0,22.5,16.0,0.0,0.0,0.0
max,216.1,12.2,90.0,25.5,31.0,1.0,1.0,1.0


#### Calculem la T-Statistic
Amb aquest càlcul podrem analitzar quins atributs tenen més correlació amb el consum del cotxe

Com podem veure en les nostres dades els atributs 'temp_inside', 'specials', 'refill_liters' i 'refill_gas' contenen valors NaN per tant comprobarem quin valors diferents tenen.

In [9]:
#Realizamos una copia de la base de datos para no generar posibles cambios
df = dataset.copy(deep=True)
print("Valors unics temp_inside: ", df['temp_inside'].unique(), "\n")
print("Valors unics specials: ", df['specials'].unique(), "\n")
print("Valors unics refill_liters: ", df['refill_liters'].unique(), "\n")
print("Valors unics refill_gas: ", df['refill_gas'].unique(), "\n")

Valors unics temp_inside:  [21.5 22.5 20.   nan 21.  20.5 23.  23.5 25.  24.  22.  19.  24.5 25.5] 

Valors unics specials:  [nan 'AC rain' 'AC' 'rain' 'snow' 'AC snow' 'half rain half sun' 'sun'
 'AC sun' 'sun ac' 'ac' 'AC Sun' 'ac rain'] 

Valors unics refill_liters:  ['45' nan '37.6' '37.7' '38' '38.3' '10' '39' '41' '37' '37.2'] 

Valors unics refill_gas:  ['E10' nan 'SP98'] 



Com podem veure per al cas del 'temp_inside' podem substituïr els valors nan per la mitjana dels seus altres valors i obtenir un cas més adequat per als seus valors.  
En el cas dels 'specials' aquests valors es poden veure reflexats en altres atributs i al tenir una quantitat tant elevada de valors nan ens podem desfer d'ells.
Per als atributs de refill podem observar que la quantitat de valors nan és massa elevada com per a tenir en compte aquells que no ho són per tant directament eliminarem els camps de la nostra base de dades.

In [10]:
#Eliminem les columnes comentades anteriorment
df.head()
df.drop(['specials'], inplace=True, axis=1)
df.drop(['refill_liters'], inplace=True, axis=1)
df.drop(['refill_gas'], inplace=True, axis=1)

#Substituïm els valors de temp_inside
df['temp_inside'] = df['temp_inside'].fillna(df['temp_inside'].mean())
print("Nan en la nueva base de datos:\n",dataset.isnull().sum(), "\n")
print(df.head())

Nan en la nueva base de datos:
 distance           0
consume            0
speed              0
temp_inside       12
temp_outside       0
specials         295
gas_type           0
AC                 0
rain               0
sun                0
refill_liters    375
refill_gas       375
dtype: int64 

   distance  consume  speed  temp_inside  temp_outside gas_type  AC  rain  sun
0    28.000    5.000 26.000       21.500        12.000      E10   0     0    0
1    12.000    4.200 30.000       21.500        13.000      E10   0     0    0
2    11.200    5.500 38.000       21.500        15.000      E10   0     0    0
3    12.900    3.900 36.000       21.500        14.000      E10   0     0    0
4    18.500    4.500 46.000       21.500        15.000      E10   0     0    0


In [11]:
import seaborn as sns

ax = sns.pairplot(df, height=1.25)

<IPython.core.display.Javascript object>

#### Distribució consum gasolina

In [22]:
plt.figure()
df['consume'].plot.hist(bins=25,figsize=(8,4))
plt.show()

<IPython.core.display.Javascript object>

In [24]:
plt.figure()
df['consume'].plot.density()
plt.show()

<IPython.core.display.Javascript object>

#### Distribució distància recorreguda

In [23]:
plt.figure()
df['distance'].plot.hist(bins=25,figsize=(8,4))
plt.show()

<IPython.core.display.Javascript object>

In [25]:
plt.figure()
df['distance'].plot.density()
plt.show()

<IPython.core.display.Javascript object>

## Retallem les nostres dades

Eliminem aquells casos en els quals algun dels seus valors de distància o consum són exagerats ja que com podem observar la dispersió dels seus valors pot produir incomprensions en les distribucions

In [12]:
df_valores_agrupados = df.copy(deep=True)
df_valores_agrupados = df_valores_agrupados.loc[(df_valores_agrupados['consume'] <= 5.30) & (df_valores_agrupados['distance'] <= 28.30)]

ax = sns.pairplot(df_valores_agrupados, height=1.25)

<IPython.core.display.Javascript object>

### Matriu de correlació entre les nostres dades inicials

In [53]:
# Mirem la correlació entre els atributs d'entrada per entendre millor les dades
correlacio = df.corr()

plt.figure()
sns.set(font_scale=.75)
ax = sns.heatmap(correlacio, annot=True, linewidths=.5)
ax.set_title("Matriu de correlació general")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Matriu de correlació general')

Quina seria la nostra matriu de correlació segons el tipus de gasolina que tenim? Té alguna infuéncia en els valors?

In [14]:
#Que tipos de gasolina tenemos
print(dataset['gas_type'].unique())

['E10' 'SP98']


Una vegada sabem els tipus de gasolina que tenim, separem la base de dades en dos subgrups depenent del seu tipus.

In [15]:
#Instrucción para que el display del describe se haga en una sola línea
pd.set_option('display.width', 1000)

#Gasolina E10
print("\033[1mValors Gasolina E10: \033[0m\n")
df_E10 = df.copy()
df_E10 = df_E10.loc[df_E10['gas_type'] == 'E10']
df_E10.drop(['gas_type'], inplace=True, axis=1)
print(df_E10.describe())
print("\n")
#Gasolina SP98
print("\033[1mValors Gasolina SP98: \033[0m\n")
df_SP98 = df.copy()
df_SP98 = df_SP98.loc[df_SP98['gas_type'] == 'SP98']
df_SP98.drop(['gas_type'], inplace=True, axis=1)
print(df_SP98.describe())
print("\n")

#Devolvemos la opción del display a su valor natural
pd.set_option('display.width', None)

[1mValors Gasolina E10: [0m

       distance  consume   speed  temp_inside  temp_outside      AC    rain     sun
count   160.000  160.000 160.000      160.000       160.000 160.000 160.000 160.000
mean     21.096    4.931  43.506       21.917        10.119   0.044   0.100   0.075
std      20.307    0.901  14.078        0.654         6.392   0.205   0.301   0.264
min       1.700    3.700  14.000       21.000        -5.000   0.000   0.000   0.000
25%      12.075    4.400  35.000       21.500         6.000   0.000   0.000   0.000
50%      15.400    4.800  42.000       21.500         9.000   0.000   0.000   0.000
75%      21.200    5.300  51.000       22.500        14.250   0.000   0.000   0.000
max     130.300   10.800  88.000       25.000        27.000   1.000   1.000   1.000


[1mValors Gasolina SP98: [0m

       distance  consume   speed  temp_inside  temp_outside      AC    rain     sun
count   228.000  228.000 228.000      228.000       228.000 228.000 228.000 228.000
mean     18

Quants cotxes tenim per a cada tipus de gasolina?

In [16]:
print("Cotxes gasolina E10: ", df_E10.shape[0])
print("\nCotxes gasolina sp98: ", df_SP98.shape[0])

Cotxes gasolina E10:  160

Cotxes gasolina sp98:  228


In [52]:
sns.set(font_scale=.75)

plt.figure()
correlacio_E10 = df_E10.corr()
ax1 = sns.heatmap(correlacio_E10, annot=True, linewidths=.5, )
ax1.set_title("Matriu de correlació gasolina E10")
plt.show()


plt.figure()
correlacio_SP98 = df_SP98.corr()
ax2 = sns.heatmap(correlacio_SP98, annot=True, linewidths=.5)
ax2.set_title("Matriu de correlació gasolina SP98")
plt.show()


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Així doncs ara podreu respondre a les següents preguntes:

1. Quin és el tipus de cada atribut? 
2. Quins atributs tenen una distribució Guassiana?
3. Quin és l'atribut objectiu? Per què?

# Apartat (B): Primeres regressions

Per a aquest primer apartat es calcularà l'error quadràtic mitjà només del regressor per a cada un dels atributs de la base de dades, determinant aquell atribut pel qual l'error quadràtic mitjà (entre el valor predit i el real, per a cada mostra) és més baix. 

A continuació se us dona una funció auxiliar per a calcular l'error quadràtic mitjà:

In [18]:
import math

def mean_squeared_error(y1, y2):
    # comprovem que y1 i y2 tenen la mateixa mida
    assert(len(y1) == len(y2))
    mse = 0
    for i in range(len(y1)):
        mse += (y1[i] - y2[i])**2
    return mse / len(y1)

mean_squeared_error([1,2,3,4], [1,2,1,4])

1.0

### Dividim la nostra base de dades entre train i test

In [85]:
label_columns = list(df.columns)
len_feature = len(label_columns)

#### Posem tots los valors a X_df menys strings i el consum i a Y_df posem el preu

In [235]:
#_______________________________
# X_df creo que tendría que quitar los valores binarios de ser así en su primer cálculo poner [0:len_feature-3]
#______________________________
X_df = df[label_columns[0:len_feature]]
X_df = X_df.drop('gas_type', axis=1)
X_df = X_df.drop('consume', axis=1)
Y_df = df[label_columns[1]]
print("Feature set size:",X_df.shape)
print("Variable set size:",Y_df.shape)

Feature set size: (388, 7)
Variable set size: (388,)


In [236]:
X_df.head()

Unnamed: 0,distance,speed,temp_inside,temp_outside,AC,rain,sun
0,28.0,26.0,21.5,12.0,0,0,0
1,12.0,30.0,21.5,13.0,0,0,0
2,11.2,38.0,21.5,15.0,0,0,0
3,12.9,36.0,21.5,14.0,0,0,0
4,18.5,46.0,21.5,15.0,0,0,0


In [237]:
Y_df.head()

0   5.000
1   4.200
2   5.500
3   3.900
4   4.500
Name: consume, dtype: float64

### Separamos train y test

**Utilitzem la funció `train_test_split` de la llibreria `sklearn`**

In [238]:
from sklearn.model_selection import train_test_split
#Creamos las variables y las separaciones en una sola línea de comando
X_train, X_test, y_train, y_test = train_test_split(X_df, Y_df, test_size=0.3, random_state=123)

**Comprovem els tamanys de les nostres variables test i train**

In [239]:
print("Tamany X training:\t",X_train.shape)
print("Tamany X test:\t\t",X_test.shape)
print("Tamany Y training:\t",y_train.shape)
print("Tamany Y test:\t\t",y_test.shape)

Tamany X training:	 (271, 7)
Tamany X test:		 (117, 7)
Tamany Y training:	 (271,)
Tamany Y test:		 (117,)


### Entrenar les dades del training

In [240]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

lr = LinearRegression()

**Entrenem el model amb les dades inicialitzades**

In [241]:
lr.fit(X_train,y_train)

LinearRegression()

**Comprovem l'intercepció i els coeficients del nostre model i els posem a la base de dades**

In [242]:
print("Intercepció del model lineal:", lr.intercept_)
print("\nCoeficients del model lineal:", lr.coef_)

Intercepció del model lineal: 7.816443088772434

Coeficients del model lineal: [ 0.0048328  -0.02469856 -0.07403904 -0.0415086   0.61871167  0.55579491
 -0.15900624]


In [243]:
cdf = pd.DataFrame(data=lr.coef_, index=X_train.columns, columns=["Coeficients"])
cdf

Unnamed: 0,Coeficients
distance,0.005
speed,-0.025
temp_inside,-0.074
temp_outside,-0.042
AC,0.619
rain,0.556
sun,-0.159


In [245]:
n=X_train.shape[0]
k=X_train.shape[1]
print(range(k))
dfN = n-k
train_pred=lr.predict(X_train)
train_error = np.square(train_pred - y_train)
sum_error=np.sum(train_error)
se=[0,0,0,0,0,0,0]
for i in range(k):
    r = (sum_error/dfN)
    r = r/np.sum(np.square(X_train[list(X_train.columns)[i]]-X_train[list(X_train.columns)[i]].mean()))
    se[i]=np.sqrt(r)
cdf['Standard Error']=se
cdf['t-statistic']=cdf['Coeficients']/cdf['Standard Error']
cdf

range(0, 7)


Unnamed: 0,Coeficients,Standard Error,t-statistic
distance,0.005,0.003,1.899
speed,-0.025,0.004,-5.566
temp_inside,-0.074,0.055,-1.343
temp_outside,-0.042,0.008,-4.952
AC,0.619,0.21,2.94
rain,0.556,0.167,3.32
sun,-0.159,0.21,-0.755


**Segons aquests valors quins són aquells que tenen més importància per predir el consum**

In [246]:
l=list(cdf.sort_values('t-statistic',ascending=False).index)
print(' > \n'.join(l))

rain > 
AC > 
distance > 
sun > 
temp_inside > 
temp_outside > 
speed


In [247]:
l=list(cdf.index)
from matplotlib import gridspec
fig = plt.figure(figsize=(10, 5))
gs = gridspec.GridSpec(2,4)
gs.hspace = .3

ax0 = plt.subplot(gs[0])
ax0.scatter(df[l[0]],df['consume'])
ax0.set_title(l[0]+" vs. consume", fontdict={'fontsize':10})

ax1 = plt.subplot(gs[1])
ax1.scatter(df[l[1]],df['consume'])
ax1.set_title(l[1]+" vs. consume",fontdict={'fontsize':10})

ax2 = plt.subplot(gs[2])
ax2.scatter(df[l[2]],df['consume'])
ax2.set_title(l[2]+" vs. consume",fontdict={'fontsize':10})

ax3 = plt.subplot(gs[3])
ax3.scatter(df[l[3]],df['consume'])
ax3.set_title(l[3]+" vs. consume",fontdict={'fontsize':10})

ax4 = plt.subplot(gs[4])
ax4.scatter(df[l[4]],df['consume'])
ax4.set_title(l[4]+" vs. consume",fontdict={'fontsize':10})

ax5 = plt.subplot(gs[5])
ax5.scatter(df[l[5]],df['consume'])
ax5.set_title(l[5]+" vs. consume",fontdict={'fontsize':10})

ax6 = plt.subplot(gs[6])
ax6.scatter(df[l[6]],df['consume'])
ax6.set_title(l[6]+" vs. consume",fontdict={'fontsize':10})

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'sun vs. consume')

**R-square del ajust del model**

In [248]:
print("Valor R-squared:",round(metrics.r2_score(y_train,train_pred),5))

Valor R-squared: 0.25088


Per a agilitzar els càlculs es recomana utilitzar la llibreria numpy. Aquesta llibreria ens permet processar vectors sencers a la vegada de manera eficient i en paral·lel. Exemple:

In [149]:
import numpy as np #importem la llibreria
np.warnings.filterwarnings('ignore')

vector1 = np.array([1,2,3,4]) # convertim llista de python a numpy array
vector2 = np.array([1,2,1,4]) 

# podem sumar dos vectors element a element
print("Suma vector1 + vector2 ", vector1 + vector2)

# podem sumar tots els valors d'un vector
print("Suma valors vector1 ", vector1.sum())

# calculem la mitjana
print("Mitjana vector1", vector1.mean())

# utilitzem un vector com a índex de l'altre
# vector3 = vector1  # necesitem fer una copia del vector per no modificar el original
vector3 = vector1.copy()
vector3[vector2 == 1] = 5
print("Vector1 amb un 5 on el Vector2 te 1s ", vector3)

# es pot utilitzar numpy per a calcular el mse
def mse(v1, v2):
    return ((v1 - v2)**2).mean()

print("MSE: ", mse(vector1, vector2))

Suma vector1 + vector2  [2 4 4 8]
Suma valors vector1  10
Mitjana vector1 2.5
Vector1 amb un 5 on el Vector2 te 1s  [5 2 5 4]
MSE:  1.0


Per a la regressió podeu utilitzar la llibreria sklearn:

In [128]:
from sklearn.linear_model import LinearRegression

def regression(x, y):
    # Creem un objecte de regressió de sklearn
    regr = LinearRegression()

    # Entrenem el model per a predir y a partir de x
    regr.fit(x, y)

    # Retornem el model entrenat
    return regr

Finalment, si la funció `fit` del regressor logístic dónes l'error: `ValueError: Unknown label type: 'unknown'`, caldria afegir a la definició de l'atribut a trobar $y$ la crida a la funció `.astype('int')` per tal de obligar a que les dades siguin de tipus sencer, deixant el codi com segueix:

`y = data[:,2].astype('int')`

A continuació, es modificaran tots els atributs mitjançant **procediments de normalització (normal, estàndard)**, i s'avaluarà el rendiment del regressor après. Per a això, caldrà analitzar la mitja i variança de cada variable per totes les mostres, per identificar aquells valors que tenen una distribució normal, els preferits per fer regressió, i descartar altres atributs que no són representatius per fer la regressió, i que afegeixen soroll al model. 

Pel que fa a l'error resultant de la regressió, recordeu que es calcula fent la diferència entre el valor predit i el real al quadrat: així doncs, si les dades tenen valors grans (tipus 10^3), l'error al quadrat podria acabar sent 10^6. Per això és important normalitzar abans (escalar les dades a un rang més petit).

<img src="images/standarization.png">

Podeu estandarditzar les dades amb les funcions mean i std de numpy i mostrar l'hisotgrama de nou. Recuperant l'exemple de l'apartat anterior:

In [5]:
def standarize(x_train):
    mean = x_train.mean(0)
    std = x_train.std(0)
    x_t = x_train - mean[None, :]
    x_t /= std[None, :]
    return x_t

x_t = standarize(x)

NameError: name 'x' is not defined

Ara ja podeu comprovar la diferència entre entrenar amb els atributs estandaritzats i si aquells que tenen una distribució més semblant a la normal donen millors resultats. 
Finalment, s'aprendrà un model regressor tenint en compte tots aquells atributs que tenen una millor distribució de valors (lineal, això és, l'histograma de valors té forma de gaussiana), i es calcularà l'error assolit en la predicció. 

Recordeu que el valor sobre el que heu de fer la regressió queda al vostre criteri: **heu d'explicar a la memòria quin atribut heu fet servir, no hi ha una decisió única correcta, cal que doneu raons de per què heu triat l'atribut que hàgiu triat.**

Així per exemple pode mirar:

* Que l'objectiu de la regressió sigui un valor ordinal (1 > 2 > 3). Si no n'hi ha cap, explicar-ho a la memòria.

* Que sigui útil en alguna aplicació real (per exemple predir si plourà és més interessant que predir el color dels núvols).

* Que tingui certa variació (un atribut que és sempre 0, no té gaire interès)

I en definitiva explicar el criteri a seguir, tant amb paraules com amb gràfiques (per exemple histograma), o estadístiques (per exemple la variança dels atributs) si escau.

Un cop escollit l'atribut objectiu, caldrà justificar si l'error obtingut és, en proporció, menor que tenint en compte únicament el millor atribut identificat al primer punt. 

Podeu utilitzar les funcions hist de matplotlib per a calcular els histogrames. Exemple:

In [None]:
plt.figure()
plt.title("Histograma de l'atribut 0")
plt.xlabel("Attribute Value")
plt.ylabel("Count")
hist = plt.hist(x_t[:,0], bins=11, range=[np.min(x_t[:,0]), np.max(x_t[:,0])], histtype="bar", rwidth=0.8)

o utilitzar les funcions de visualitzación del propi pandas.

In [None]:
dataset.drop(['attr2'],1).hist()

Ara que hem carregat les dades podem entrenar un regressor lineal per a aproximar la funció que les genera:

In [None]:
from sklearn.metrics import r2_score

# Extraiem el primer atribut de x i canviem la mida a #exemples, #dimensions de l'atribut.
# En el vostre cas, haureu de triar un atribut com a y, i utilitzar la resta com a x.
atribut1 = x[:,0].reshape(x.shape[0], 1) 
regr = regression(atribut1, y) 
predicted = regr.predict(atribut1)

# Mostrem la predicció del model entrenat en color vermell a la Figura anterior 1
plt.figure()
ax = plt.scatter(x[:,0], y)
plt.plot(atribut1[:,0], predicted, 'r')

# Mostrem l'error (MSE i R2)
MSE = mse(y, predicted)
r2 = r2_score(y, predicted)

print("Mean squeared error: ", MSE)
print("R2 score: ", r2)


Un cop mostrats de manera adient, (en forma de taula, i/o de gràfics si la dimensionalitat ho permet) els resultats aconseguits amb la regressió, avaluarem de manera independent la idonietat de cadascun dels atributs.

In [None]:
""" Per a assegurar-nos que el model s'ajusta be a dades noves, no vistes, 
cal evaluar-lo en un conjunt de validacio (i un altre de test en situacions reals).
Com que en aquest cas no en tenim, el generarem separant les dades en 
un 80% d'entrenament i un 20% de validació.
"""
def split_data(x, y, train_ratio=0.8):
    indices = np.arange(x.shape[0])
    np.random.shuffle(indices)
    n_train = int(np.floor(x.shape[0]*train_ratio))
    indices_train = indices[:n_train]
    indices_val = indices[n_train:] 
    x_train = x[indices_train, :]
    y_train = y[indices_train]
    x_val = x[indices_val, :]
    y_val = y[indices_val]
    return x_train, y_train, x_val, y_val

# Dividim dades d'entrenament
x_train, y_train, x_val, y_val = split_data(x, y)

for i in range(x_train.shape[1]):
    x_t = x_train[:,i] # seleccionem atribut i en conjunt de train
    x_v = x_val[:,i] # seleccionem atribut i en conjunt de val.
    x_t = np.reshape(x_t,(x_t.shape[0],1))
    x_v = np.reshape(x_v,(x_v.shape[0],1))

    regr = regression(x_t, y_train)    
    error = mse(y_val, regr.predict(x_v)) # calculem error
    r2 = r2_score(y_val, regr.predict(x_v))

    print("Error en atribut %d: %f" %(i, error))
    print("R2 score en atribut %d: %f" %(i, r2))


Quan es treballa en dades n-dimensionals (més d'un atribut), una opció és reduir la seva n-dimensionalitat aplicant un Principal Component Analysis (PCA) i quedar-se amb els primers 2 o 3 components, obtenint unes dades que (ara sí) poden ser visualitzables en el nou espai. Existeixen altres embeddings de baixa dimensionalitat on poder visualitzar les dades?

Així es podrà contestar a aquestes **preguntes**:

1. Quin són els atributs més importants per fer una bona predicció?

2. Amb quin atribut s'assoleix un MSE menor?

3. Quina correlació hi ha entre els atributs de la vostra base de dades?

4. Com influeix la normalització en la regressió?

5. Com millora la regressió quan es filtren aquells atributs de les mostres que no contenen informació?

6. Si s'aplica un PCA, a quants components es redueix l'espai? Per què?


# Apartat (A): El descens del gradient  

En aquest exercici, es tracta d'implementar en python el procés de descent del gradient explicat a les classes de teoria, i comparar-lo amb els resultats obtinguts amb l'apartat (B). 

$$J(w) = \frac{1}{2m} \left[ \sum^m_{i=1}(f(x^{i}; w) - y^{i})^2 + \lambda\sum_{j=1}^{n}(w_{j}^2) \right]$$

Fixeu-vos que $J$ retorna el `mse`. Per a trobar $w_j$, repetir fins convergència:
$$w_0 = w_0 - \alpha \frac{1}{m} \sum_{i=1}^{m}(f(x^{i}; w)-y^{i}) \cdot 1$$
$$w_j = w_j - \alpha \left[\frac{1}{m} \sum_{i=1}^{m}(f(x^{i}; w)-y^{i}) \cdot x_{j}^{i} - \frac{\lambda}{m}w_{j} \right]$$


ó:

$$w_{j} := w_{j} \left(1-\alpha \frac{\lambda}{m} \right) - \alpha\frac{\lambda}{m} \sum_{i=1}^{m}(f(x^{i}; w)-y^{i}) \cdot x_{j}^{i}$$

On si considerem un regressor lineal (el model és una recta), llavors $w_0$ i $w_1$ representen, respectivament, la $b$ i $a$ de la fòrmula de la recta: 

$$h_\theta(x^{(i)}) = ax + b$$

$\alpha$ és el learning rate, i $h_\theta(x^{(i)})$ és la funció que fa la regressió, és a dir, la funció que prediu el valor de $y^{(i)}$ donat un(s) atribut(s) concret(s) $x^{(i)}$.

Així, tenint calculat el model en l'últim punt del primer exercici, ja sabeu quin resultat hauríeu d'obtenir. O no, perquè la vostra implementació pot ser millor! En concret, es tracta de desenvolupar aquestes tasques:

* Definir la funció de cost i del gradient

* Estudiar com l'ús de regularitzadors afecta el resultat: overfitting, underfitting, etc. 

* Visualització de les dades a analitzar i explicació pas a pas del procediment   

* Visualització del procés de descens de gradient 

* Modificar el learning rate i el nombre d'iteracions 

<img src="images/gradient_descent.png">

Per a la implementació us podeu basar en el següent esquelet:

In [None]:
class Regressor(object):
    def __init__(self, w0, w1, alpha):
        # Inicialitzem w0 i w1 (per ser ampliat amb altres w's)
        self.w0 = w0
        self.w1 = w1
        self.alpha = alpha

        
    def predict(self, x):
        # implementar aqui la funció de prediccio
        pass
    
    def __update(self, hy, y):
        # actualitzar aqui els pesos donada la prediccio (hy) i la y real.
        pass
    
    def train(self, max_iter, epsilon):
        # Entrenar durant max_iter iteracions o fins que la millora sigui inferior a epsilon
        pass

L'últim pas serà validar el regressor trobat pel descent del gradient desenvolupat en aquest apartat visualment, aplicat a un model de recta i un model de pla. Per a això, caldrà considerar el millor atribut identificat en el primer punt de l'anterior entrega per visualitzar la línia regressora en 2D (podeu mostrar dades 2d amb la funció scatter). Després, dos dels atributs identificats a l'últim punt del primer exercici per visualitzar el pla regressor en 3D (En el cas 3D l’scatter s’ha de fer sobre una figura amb projecció 3D).

In [None]:
%matplotlib notebook

# Creem figura 3d
from mpl_toolkits.mplot3d import axes3d, Axes3D
# generem dades 3D d'exemple
x_val = np.random.random((100, 2))
y_val = np.random.random((100, 1))
regr = regression(x_val, y_val)
predX3D = regr.predict(x_val)

# Afegim els 1's
A = np.hstack((x_val,np.ones([x_val.shape[0],1])))
w = np.linalg.lstsq(A,predX3D)[0]

#Dibuixem
#1r creem una malla acoplada a la zona de punts per tal de representar el pla
malla = (range(20) + 0 * np.ones(20)) / 10 
malla_x1 =  malla * (max(x_val[:,0]) - min(x_val[:,0]))/2 + min(x_val[:,0])
malla_x2 =  malla * (max(x_val[:,1]) - min(x_val[:,1]))/2 + min(x_val[:,1])

#la funcio meshgrid ens aparella un de malla_x1 amb un de malla_x2, per atot
#element de mallax_1 i per a tot element de malla_x2.
xplot, yplot = np.meshgrid(malla_x1 ,malla_x2)

# Cal desnormalitzar les dades
def desnormalitzar(x, mean, std):
    return x * std + mean

#ara creem la superficies que es un pla
zplot = w[0] * xplot + w[1] * yplot + w[2]

#Dibuixem punts i superficie
plt3d = plt.figure('Coeficiente prismatico -- Relacio longitud desplacament 3D', dpi=100.0).gca(projection='3d')
plt3d.plot_surface(xplot,yplot,zplot, color='red')
plt3d.scatter(x_val[:,0],x_val[:,1],y_val)

Així es podrà contestar a aquestes preguntes:

1. Com influeixen tots els paràmetres en el procés de descens? Quins valors de learning rate convergeixen més ràpid a la solució òptima? Com influeix la inicialització del model en el resultat final? 

2. Quines funcions polinomials (de diferent grau, de diferents combinacions d'atributs, ...) heu escollit per ser apreses amb el vostre descens del gradient? quina ha donat el millor resultat (en error i rapidesa en convergència)?

3. Utilitzeu el regularitzador en la fòrmula de funció de cost i descens del gradient i proveu polinomis de diferent grau. Com afecta el valor del regularitzador?

3. Quina diferència (quantitativa i qualitativa) hi ha entre el vostre regressor i el de la llibreria ?

4. Té sentit el model (polinomial) trobat quan es visualitza sobre les dades? 

5. Ajuda la visualització a identificar aquelles mostres per a les que el regressor obté els pitjors resultats de predicció? 
