# Introducción a Machine Learning

Los procesos principales en Machine Learning  son los siguientes:
1. Recolección de datos

2. Procesamiento de datos

3. Identificación del modelo

4. Entrenamiento

5. Validación

6. Identificación de hiperparámetros

7. Predicción



El proceso de aprendizaje es iterativo, por lo que es común que en cualquier paso nos podamos regresar a otro proceso, siempre con la finalidad de generar el mejor modelo.

En esta práctica partiremos del punto 2, asumiendo que los datos ya están recolectados.

## 2. procesamiento de datos

In [1]:
import numpy as np
import pandas as pd
import sklearn as sk
import matplotlib.pyplot as plt

In [2]:
from sklearn import datasets

diabetes = datasets.load_diabetes()
X = diabetes.data
y = diabetes.target

print('Dimensiones en X = {}'.format(X.shape))
print('Dimensiones en y = {}'.format(y.shape))

# Samples total  442
# Dimensionality  10
# Features  real, -.2 < x < .2
# Targets integer 25 - 346

Dimensiones en X = (442, 10)
Dimensiones en y = (442,)


## 3. Identificación del modelo

En este ejemplo se seleccionará  el modelo Lasso

In [3]:
from sklearn.linear_model import Lasso

linear_model = Lasso()

## 4 y 5. Entrenamiento y Validación

In [4]:
from sklearn.model_selection import KFold

k_fold = KFold(n_splits=3)

for k, (train, test) in enumerate(k_fold.split(X, y)):
    # Se entrena con el conjunto de datos de entrenamiento
    linear_model.fit(X[train], y[train])
    # Se valida con el conjunto de datos de prueba
    print("[fold {}]  coeficiente de correlación: {}".format(k, linear_model.score(X[test], y[test])))

[fold 0]  coeficiente de correlación: 0.3454298483368484
[fold 1]  coeficiente de correlación: 0.34712314449919834
[fold 2]  coeficiente de correlación: 0.36884725706191346


## 6. Identificación de hiperparámetros

El modelo Lasso tiene un hiperparámetro que es alpha, por defecto tiene asignado el valor 1.0.

Para identificar de qué forma se deberían modificar los hiperparámetros para aumentar el rendimiento, se debe conocer muy bien el algoritmo.

Esta práctica tiene como objetivo el de conocer los procesos generales en el aprendizaje automático, así que la explicación del modelo está fuera de este ámbito. Sin embargo, se muestra la función objetivo para dar una intuición de cómo afecta éste hiperparámetro en el modelo.

$$ Cost = (1 / (2 * num\_instancias)) * ||y - Xw||^2_2 + alpha * ||w||_1$$

In [5]:
linear_model2 = Lasso(alpha=0.1)
k_fold = KFold(n_splits=3)

for k, (train, test) in enumerate(k_fold.split(X, y)):
    # Se entrena con el conjunto de datos de entrenamiento
    linear_model2.fit(X[train], y[train])
    # Se valida con el conjunto de datos de prueba
    print("[fold {}]  coeficiente de correlación: {}".format(k, linear_model2.score(X[test], y[test])))

[fold 0]  coeficiente de correlación: 0.4553764654572192
[fold 1]  coeficiente de correlación: 0.4970449650050526
[fold 2]  coeficiente de correlación: 0.5075811884365067


# Ejercicio 1

1.1 Automatizar la búsqueda del mejor valor de alpha. Por ejemplo, realizar una búsqueda de 50 elementos en el rango [0,1]

Emplear validación cruzada de 4 folds

1.2 Discutir cómo afecta el número de folds en el proceso de entrenamiento y validación; cuál valor es el adecuado.

In [6]:
#*EXTRA
def frange(start,stop,step):
    while(start<stop):
        yield start
        start = start+step
        


In [26]:
#Ejercicio 1.1 Busqueda del Alpha !!
n = 4
k_fold2 = KFold(n_splits=n)
AALPHA = 0
KALPHA = 0
IALPHA = 0
for i in frange(0.02,1,.02):
    print("alpha = {}".format(i))
    linear_model3 = Lasso(alpha = i)
    for k2, (train, test) in enumerate(k_fold2.split(X, y)):
        linear_model3.fit(X[train], y[train])
        # Se valida con el conjunto de datos de prueba
        print("[fold {}]  coeficiente de correlación: {}".format(k2, linear_model3.score(X[test], y[test])))
        AALPHA = AALPHA + (linear_model3.score(X[test],y[test]))    
    print(AALPHA/4)
    if(KALPHA == 0):
        KALPHA = (AALPHA/4)
    else:
        if(KALPHA < (AALPHA/4)):
            print("Mejor coeficiente previo: {} ".format(KALPHA))
            print("Coeficiente actual: {} ".format(AALPHA/4))
            IALPHA = i
            KALPHA = (AALPHA/4)
print("Mejor alpha en promedio {} con un coeficiente de correlacion de : {}".format(IALPHA,KALPHA))

            
        
        
        


alpha = 0.02
[fold 0]  coeficiente de correlación: 0.6213988695064239
[fold 1]  coeficiente de correlación: 0.6064232922012476
[fold 2]  coeficiente de correlación: 0.35765810694009037
[fold 3]  coeficiente de correlación: -0.9966977838336577
0.14719562120352603
alpha = 0.04
[fold 0]  coeficiente de correlación: 0.6367945805750947
[fold 1]  coeficiente de correlación: 0.5860427085338555
[fold 2]  coeficiente de correlación: 0.35500454255540204
[fold 3]  coeficiente de correlación: -0.8966285273516204
0.317498947281709
Mejor coeficiente previo: 0.14719562120352603 
Coeficiente actual: 0.317498947281709 
alpha = 0.06
[fold 0]  coeficiente de correlación: 0.6482717484265264
[fold 1]  coeficiente de correlación: 0.5908239413244163
[fold 2]  coeficiente de correlación: 0.3559220347040888
[fold 3]  coeficiente de correlación: -0.8848802365116797
0.49503331926754707
Mejor coeficiente previo: 0.317498947281709 
Coeficiente actual: 0.49503331926754707 
alpha = 0.08
[fold 0]  coeficiente de corr

Coeficiente actual: 5.70048753582553 
alpha = 0.5800000000000002
[fold 0]  coeficiente de correlación: 0.6067778857018563
[fold 1]  coeficiente de correlación: 0.5320350692554161
[fold 2]  coeficiente de correlación: 0.40441749879343986
[fold 3]  coeficiente de correlación: -0.6119879571539015
5.933298159974732
Mejor coeficiente previo: 5.70048753582553 
Coeficiente actual: 5.933298159974732 
alpha = 0.6000000000000002
[fold 0]  coeficiente de correlación: 0.604299391145824
[fold 1]  coeficiente de correlación: 0.5314314234050226
[fold 2]  coeficiente de correlación: 0.4045959558784417
[fold 3]  coeficiente de correlación: -0.5950296115511859
6.169622449694256
Mejor coeficiente previo: 5.933298159974732 
Coeficiente actual: 6.169622449694256 
alpha = 0.6200000000000002
[fold 0]  coeficiente de correlación: 0.601761097953428
[fold 1]  coeficiente de correlación: 0.530823430765931
[fold 2]  coeficiente de correlación: 0.40464300265701747
[fold 3]  coeficiente de correlación: -0.578295009

# Ejercicio 2

Programar los siguientes errores: $sse$, $mse$, $rmse$

Agregar las métricas en el proceso de validación del modelo

In [8]:
def SSEf(Yr,Yi):
    return (Yr-Yi)**2
    
def SSE(Yr,Yi):
    Sum = 0
    for i in range(0,len(Yr)):
        Sum = Sum + SSEf(Yr[i],Yi[i])    
        

def MSE(Yr,Yi):
    n = len(Yr)
    Y = SSE(Yr,Yi)
    return (Y/n)

    

# Ejercicio 3
Graficar los valores obtenidos por el modelo, con el mejor hiper-parámetro, y los valores reales de cada uno de los folds.

# Ejercicio 4

Replicar los ejercicios 1, 2 y 3 con el dataset boston.

Ejemplo:

In [9]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target