<img src="Archivos/miad4.png" width=800x>

# Herramientas para análisis estadístico

En este taller implementarás modelos de *machine learning* para resolver diversos problemas.

## Habilidades en práctica
Al desarrollar este taller podrás verificar tu progreso para:

**1.** Diferenciar los tipos de modelos de *machine learning* que ofrece Scikit Learn y sus casos de uso comunes.<br>
**2.** Construir, entrenar y analizar los resultados de modelos básicos de *machine learning* en Scikit Learn.

## Instrucciones
En cada uno de los siguientes ejercicios deberás escribir el código solicitado estrictamente en las celdas indicadas para ello, teniendo en cuenta las siguientes recomendaciones:

* No crear, eliminar o modificar celdas de este Notebook (salvo lo que se te indique), pues puede verse afectado el proceso de calificación automática.
* La calificación se realiza de manera automática con datos diferentes a los proporcionados en este taller. Por consiguiente, tu código debe funcionar para diferentes instancias de cada uno de los ejercicios; una instancia hace referencia al valor de los parámetros.
* La calificación de cada ejercicio depende del valor que retorne la función especificada en su enunciado. Por lo tanto, aunque implementes funciones adicionales, es escencial que utilices los nombres propuestos en los enunciados de los ejercicios para implementar la función definitiva.

Esta es una actividad calificada y, por lo tanto, debe ser resuelta individualmente.

## Ejercicios

Importa todos los paquetes que consideres necesarios para el desarollo de este taller en la siguiente celda.

In [1]:
# Esta celda no es modificable

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

### Ejercicio 1

A continuación, encuentras un archivo de Excel con el cual podrás probar tu solución.

In [2]:
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo

Unnamed: 0,y,x1,x2,x3
0,9,6,3,22
1,1,8,1,35
2,5,6,2,41
3,3,4,2,3
4,9,5,1,18
5,9,7,4,18
6,6,8,5,9
7,4,7,5,30
8,2,6,3,16
9,10,7,5,47


Implementa una función llamada `dividir_datos` que reciba un `DataFrame` por parámetro y retorne dos `DataFrame` contenidos en una tupla de la forma ($X$, $y$), donde $X$ es un `DataFrame` cuyas columnas son las variables independientes y $y$ es un `Series` con la variable de respuesta.

**Nota:** la variable de respuesta se encuentra en la primera columna de los datos.

*Esta función debe retornar una tupla de la forma ($X$, $y$) donde $X$ es un `DataFrame` y $y$ un `Series`*

In [11]:
# YOUR CODE HERE
def dividir_datos(dataframe):
    n=len(list(dataframe.columns.values))
    X=dataframe.iloc[:,1:n]
    y=dataframe.iloc[:,0]
    return (X,y)

prueba=dividir_datos(archivo)
prueba
#raise NotImplementedError()

(    x1  x2  x3
 0    6   3  22
 1    8   1  35
 2    6   2  41
 3    4   2   3
 4    5   1  18
 5    7   4  18
 6    8   5   9
 7    7   5  30
 8    6   3  16
 9    7   5  47
 10   6   4  50
 11   5   4  11
 12   3   4  42
 13   5   4   1,
 0      9
 1      1
 2      5
 3      3
 4      9
 5      9
 6      6
 7      4
 8      2
 9     10
 10     3
 11     7
 12     6
 13     8
 Name: y, dtype: int64)

In [12]:
## AUTO-CALIFICADOR

# Base variables
import numpy.testing as npt
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo_test = pd.read_excel("Archivos/datosTallerTest.xlsx")

# Caso 1: no existe la función.
try:
    dividir_datos
    assert type(dividir_datos) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada dividir_datos.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    dividir_datos(archivo)
    dividir_datos(archivo_test)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame como X.
assert type(dividir_datos(archivo)[0]) == pd.DataFrame, f"Tu función debe retornar una tupla de con un objeto en su primera posición de tipo {type(archivo).__name__}."

# Caso 4: no retorna un Series como y.
assert type(dividir_datos(archivo)[1]) == pd.Series, f"Tu función debe retornar una tupla de con un objeto en su segunda posición de tipo {type(pd.Series()).__name__}."

# Caso 5: respuesta y
try:
    npt.assert_approx_equal(dividir_datos(archivo)[1].mean(), 5.857142857142857)
    assert dividir_datos(archivo)[1][6] == 6
except AssertionError as e:
    e.args += ("Los datos de la variable de respuesta, y, son incorrectos.",)
    raise e

# Caso 6: respuesta X
try:
    npt.assert_approx_equal(dividir_datos(archivo)[0].mean()[1], 3.357142857142857)
    assert dividir_datos(archivo)[0].iloc[5,1] == 4
except AssertionError as e:
    e.args += ("Los datos de las variables explicativas, X, son incorrectos.",)
    raise e

# Caso 7: procedimiento incorrecto y
assert dividir_datos(archivo_test)[1].mean() == 27.65 and dividir_datos(archivo_test)[1][6] == 38, "Tu respuesta de la variable de respuesta, y, es incorrecta para una instancia diferente de los datos."

# Caso 8: procedimiento incorrecto X
assert dividir_datos(archivo_test)[0].mean()[1] == 294.9 and dividir_datos(archivo_test)[0].iloc[5,3] == 21, "Tu respuesta para X es incorrecta para una instancia diferente de los datos."

# Mensaje de felicitaciones
print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 2

A continuación, encuentras una tupla ($X$, $y$) con la cual podrás probar tu solución.

In [None]:
datos = (pd.DataFrame({"x1":[6,  8,  6,  4, 5,  7,  8],
                       "x2":[3,  1,  2,  2, 1,  4,  5],
                       "x3":[22, 35, 41, 3, 18, 18, 9]}),
         pd.Series([9, 1, 5, 3, 9, 9, 6]))
datos

Implementa una función llamada `crear_train_test` que reciba una tupla ($X$, $y$) por parámetro y realice una partición, 70% para entrenar al modelo y 30% para validarlo, con el fin de retornar una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`). Usa el parámetro `random_state = 0` para que tus respuestas coincidan con las nuestras.

Esta función debe retornar una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`) donde `X_train` y `X_test` son de tipo `DataFrame` y `y_train` y `y_test` de tipo `Series`.

In [15]:
# YOUR CODE HERE
def crear_train_test(tupla):
    X_train, X_test, y_train, y_test = train_test_split(tupla[0], tupla[1], test_size=0.3,random_state = 0)
    tupla_entreno=(X_train, X_test, y_train, y_test)
    return tupla_entreno
    
#raise NotImplementedError()

In [16]:
## AUTO-CALIFICADOR

# Base variables
datos = (pd.DataFrame({"x1":[6,  8,  6,  4, 5,  7,  8],
                       "x2":[3,  1,  2,  2, 1,  4,  5],
                       "x3":[22, 35, 41, 3, 18, 18, 9]}),
         pd.Series([9, 1, 5, 3, 9, 9, 6]))
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo_test = pd.read_excel("Archivos/datosTallerTest.xlsx")
datos_test = (pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[1:]], pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[0]])

# Caso 1: no existe la función.
try:
    crear_train_test
    assert type(crear_train_test) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada crear_train_test.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    crear_train_test(datos)
    crear_train_test((pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[1:]], pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[0]]))
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame como X_train.
assert type(crear_train_test(datos)[0]) == pd.DataFrame and type(crear_train_test(datos)[1]) == pd.DataFrame, f"Tu función debe retornar una tupla cuyos primeros dos objetos sean de tipo {pd.DataFrame.__name__}."

# Caso 4: no retorna un Series como y.
assert type(crear_train_test(datos)[2]) == pd.Series and type(crear_train_test(datos)[3]) == pd.Series, f"Tu función debe retornar un objeto de tipo '{pd.Series.__name__}' como y_train y y_test."

# Caso 5: respuesta X_train
assert crear_train_test(datos)[0].mean()[2] == 15.25 and crear_train_test(datos)[0].iloc[1,1] == 3, "Los valores de X_train son incorrectos."

# Caso 6: respuesta X_test
try:
    npt.assert_approx_equal(crear_train_test(datos)[1].mean()[2], 28.333333333333332)
    assert crear_train_test(datos)[1].iloc[1,1] == 2
except AssertionError as e:
    e.args += ("Los valores de X_test son incorrectos.",)
    raise e

# Caso 7: respuesta y_train
assert crear_train_test(datos)[2].mean() == 7.5 and crear_train_test(datos)[2].iloc[3] == 9, "La variable de respuesta y_train es incorrecta."

# Caso 8: respuesta y_test
assert crear_train_test(datos)[3].mean() == 4.0 and crear_train_test(datos)[3].iloc[2]==1, "La variable de respuesta y_test es incorrecta."

# Caso 9: procedimiento incorrecto X_train
try:
    npt.assert_approx_equal(crear_train_test(datos_test)[0].mean()[2], 27.555555555555557)
    assert crear_train_test(datos_test)[0].iloc[1,1] == 5
except AssertionError as e:
    e.args += ("Tu respuesta para X_train es incorrecta para una instancia diferente de los datos.",)
    raise e

# Caso 10: procedimiento incorrecto y_train
try:
    npt.assert_approx_equal(crear_train_test(datos_test)[2].mean(), 5.888888888888889)
    assert crear_train_test(datos_test)[2].iloc[3] == 4
except AssertionError as e:
    e.args += ("Tu respuesta de la variable de respuesta y_train es incorrecta para una instancia diferente de los datos.",)
    raise e

# Mensaje de felicitaciones
print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 3

A continuación, encuentras una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`) con la cual podrás probar tu solución.

In [None]:
datos = (pd.DataFrame({"x1":[6,  8,  6,  4,  5,  7,  8],
                       "x2":[3,  1,  2,  2,  1,  4,  5],
                       "x3":[22, 35, 41, 3,  18, 18, 9]}),
         pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]}),
         pd.Series([9,  1, 5, 3, 9, 9, 6]),
         pd.Series([10, 3, 7, 6, 8]))
datos

Implementa una función llamada `crear_modelo` que reciba una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`) por parámetro y cree un modelo de regresión lineal con el fin de explicar la variable de interés. Finalmente, retorna el modelo creado luego de entrenarlo con los datos recibidos por parámetro.

Esta función debe retornar un modelo de la librería `sklearn`.

In [20]:
# YOUR CODE HERE
from sklearn import datasets, linear_model
def crear_modelo(tupla):
    lr = linear_model.LinearRegression()
    lr.fit(tupla[0], tupla[2])
    return lr

#raise NotImplementedError()

In [21]:
## AUTO-CALIFICADOR

# Base variables
datos = (pd.DataFrame({"x1":[6,  8,  6,  4,  5,  7,  8],
                       "x2":[3,  1,  2,  2,  1,  4,  5],
                       "x3":[22, 35, 41, 3,  18, 18, 9]}),
         pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]}),
         pd.Series([9,  1, 5, 3, 9, 9, 6]),
         pd.Series([10, 3, 7, 6, 8]))
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo_test = pd.read_excel("Archivos/datosTallerTest.xlsx")
datos_test = (pd.DataFrame(archivo_test)[pd.DataFrame(archivo_test).columns[1:]], pd.DataFrame(archivo_test)[pd.DataFrame(archivo_test).columns[0]])
datos_test = train_test_split(datos_test[0], datos_test[1], random_state=0)

# Caso 1: no existe la función.
try:
    crear_modelo
    assert type(crear_modelo) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada crear_modelo.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    crear_modelo(datos)
    #crear_modelo(archivo_test)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna LinearRegression.
assert type(crear_modelo(datos)) == LinearRegression, f"Tu función debe retornar un objeto de tipo '{LinearRegression.__name__}'."

# Caso 4: respuesta coef_
try:
    npt.assert_approx_equal(crear_modelo(datos).coef_[0], -1.2195141060248855)
except AssertionError as e:
    e.args += ("Los coeficientes del modelo son incorrectos, revisa la implementación de la regresión.",)
    raise e

# Caso 5: respuesta intercept_
try:
    npt.assert_approx_equal(crear_modelo(datos).intercept_, 7.996285638991168)
except AssertionError as e:
    e.args += ("El intercepto del modelo es incorrecto, revisa la implementación de la regresión.",)
    raise e

# Caso 6: procedimiento incorrecto coef_
try:
    npt.assert_approx_equal(crear_modelo(datos_test).coef_[0], -1.953081558461383)
except AssertionError as e:
    e.args += ("Los coeficientes del modelo son incorrectos para una instancia diferente de los datos.",)
    raise e

# Caso 7: procedimiento incorrecto
try:
    npt.assert_approx_equal(crear_modelo(datos_test).intercept_, 37.752378744745855)
except AssertionError as e:
    e.args += ("El intercepto del modelo es incorrecto para una instancia diferente de los datos.",)
    raise e

# Mensaje de felicitaciones
print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 4

A continuación, encuentras un modelo de regresión lineal entrenado y una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`) con la cual podrás probar tu solución. Para esto se usará la librería `pickle` la cual permite almacenar y cargar objetos de Python como modelos o estructuras de datos.

In [22]:
import pickle

modelo = pickle.load(open("Archivos/modeloTaller", 'rb'))

datos = (pd.DataFrame({"x1":[6,  8,  6,  4,  5,  7,  8],
                       "x2":[3,  1,  2,  2,  1,  4,  5],
                       "x3":[22, 35, 41, 3,  18, 18, 9]}),
         pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]}),
         pd.Series([9,  1, 5, 3, 9, 9, 6]),
         pd.Series([10, 3, 7, 6, 8]))



Implementa una función llamada `predecir` que reciba un modelo entrenado y una tupla de la forma (`X_train`, `X_test`, `y_train`, `y_test`) por parámetro y prediga la variable de interés a partir del conjunto de datos `X_test`. Finalmente, la función debe retornar el valor de la predicción hecha. 

Esta función debe retornar un arreglo de `numpy` con las predicciones hechas.

In [23]:
# YOUR CODE HERE
def predecir(modelo,tupla):
    y_estimado=modelo.predict(tupla[1])
    return y_estimado


#raise NotImplementedError()

In [24]:
## AUTO-CALIFICADOR

# Base variables
modelo = pickle.load(open("Archivos/modeloTaller", 'rb'))
datos = (pd.DataFrame({"x1":[6,  8,  6,  4,  5,  7,  8],
                       "x2":[3,  1,  2,  2,  1,  4,  5],
                       "x3":[22, 35, 41, 3,  18, 18, 9]}),
         pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]}),
         pd.Series([9,  1, 5, 3, 9, 9, 6]),
         pd.Series([10, 3, 7, 6, 8]))
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo_test = pd.read_excel("Archivos/datosTallerTest.xlsx")
datos_test = (pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[1:]], pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[0]])
datos_test = train_test_split(datos_test[0], datos_test[1], random_state=0)

# Caso 1: no existe la función.
try:
    predecir
    assert type(predecir) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada predecir.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    predecir(modelo, datos)
    #crear_modelo(archivo_test)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un arreglo.
assert type(predecir(modelo, datos)) == np.ndarray, f"Tu función debe retornar un objeto de tipo '{np.ndarray.__name__}'."

# Caso 4: respuesta len()
assert len(predecir(modelo, datos)) == 5, "La longitud del arreglo con los datos dados es incorrecta."

# Caso 5: respuesta incorrecta
try:
    npt.assert_approx_equal(predecir(modelo, datos).mean(), 10.627099878205998)
    npt.assert_approx_equal(predecir(modelo, datos)[3], 13.866931147214054)
    npt.assert_approx_equal(predecir(modelo, datos)[1], 10.803128182847708)
except AssertionError as e:
    e.args += ("Los valores de la solución son incorrectos, revisa la implementación de la función.",)
    raise e

# Caso 6: procedimiento incorrecto
try:
    npt.assert_approx_equal(predecir(modelo, datos_test).mean(), 6.888353715429375)
    npt.assert_approx_equal(predecir(modelo, datos_test)[3], 9.123287939544587)
    npt.assert_approx_equal(predecir(modelo, datos_test)[1], 6.917762337875083)
except AssertionError as e:
    e.args += ("Los valores de la solución son incorrectos para una instancia diferente de los datos.",)
    raise e

# Mensaje de felicitaciones
print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 5

A continuación, encuentras en la variable `modelo` un modelo de regresión lineal entrenado y las variable `X_test` y `y_test` con las cuales podrás probar tu solución. Para esto se usará la librería `pickle` la cual permite almacenar y cargar objetos de Python como modelos o estructuras de datos.

In [25]:
import pickle

modelo = pickle.load(open("Archivos/modeloTaller", 'rb'))

X_test = pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]})

y_test = pd.Series([10, 3, 7, 6, 8])



Implementa una función llamada `calcular_precision` que reciba un modelo entrenado, y una tupla de la forma ($X_{test}$, $y_{test}$) por parámetro y retorne el score $R^2$ del modelo.

Esta función debe retornar un valor númerico tipo float (`flt`).

In [28]:
# YOUR CODE HERE
def calcular_precision (modelo,xtest,ytest):
    r2=modelo.score(xtest,ytest)
    return r2
#raise NotImplementedError()

In [29]:
## AUTO-CALIFICADOR

# Base variables
import pickle

modelo = pickle.load(open("Archivos/modeloTaller", 'rb'))
X_test = pd.DataFrame({"x1":[7,  6,  5,  3,  5],
                       "x2":[5,  4,  4,  4,  4],
                       "x3":[47, 50, 11, 42, 1]})
y_test = pd.Series([10, 3, 7, 6, 8])
archivo = pd.read_excel("Archivos/datosTaller.xlsx")
archivo_test = pd.read_excel("Archivos/datosTallerTest.xlsx")
datos_test = (pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[1:]], pd.DataFrame(archivo)[pd.DataFrame(archivo).columns[0]])
datos_test = train_test_split(datos_test[0], datos_test[1], random_state=0)

# Caso 1: no existe la función.
try:
    calcular_precision
    assert type(calcular_precision) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada calcular_precision.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    calcular_precision(modelo, X_test, y_test)
    #crear_modelo(archivo_test)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un float.
assert type(calcular_precision(modelo, X_test, y_test)) == np.float64, f"Tu función debe retornar un objeto de tipo '{np.float64.__name__}'."

# Caso 4: respuesta incorrecta
try:
    npt.assert_approx_equal(calcular_precision(modelo, X_test, y_test), -3.7894053047960226)
except AssertionError as e:
    e.args += ("La respuesta de la precisión es incorrecta.",)
    raise e

# Caso 5: procedimiento incorrecto
try:
    npt.assert_approx_equal(calcular_precision(modelo, datos_test[1], datos_test[3]), -0.7120120937366505)
except AssertionError as e:
    e.args += ("El valor de la precisión es incorrecto para una instancia diferente de los datos.",)
    raise e

# Mensaje de felicitaciones
print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


## Créditos

__Autor(es)__: Ariadna Sofía De Ávila Bula, Camilo Falla Moreno, Juan David Reyes Jaimes, Alejandro Mantilla Redondo, Diego Alejandro Cely Gómez
 
__Fecha última actualización__: 04/10/2021