# Aprendiendo Machine Learning con Python 

## Scikit learn
Librería de Python donde todos los modelos y algoritmos del aprendizaje automático se han implementado con una arquitectura orientada a objetos. Cada modelo tiene su propia clase. 

Para empezar a importar los algoritmos, importe los módulos correspondientes, no la librería en general, de lo contrario cuando llame algún método no funcionará.  

`import from sklearn.linear_model import LinearRegression`

Para crear un modelo, generamos un objeto de la clase correspondiente a este modelo. 

`modelo = LinearRegression()` --- object = modelo(parámetros)

___

## ¿Cómo elegir el algoritmo a utilizar?

Ésta podría ser la parte más dificil, encontrar el estimador adecuado para el trabajo. En el siguiente mapa encontrará buenos estimadores para cada aplicación.

![Mapa de estimadores](https://github.com/bonaldee/ProyectoModelado_ElianaBonalde/tree/main/codigo/ml_map.png)

[Fuente](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)


## Construyendo el modelo
Para desarrollar cualquier modelo, se usan estos métodos, los cuales están en todas las clases. 

- `modelo = LinearRegresion()` Definir el modelo
- `modelo.fit(X,y)` Ajustar, es decir, capturar patrones a partir de los datos proporcionados.
- `modelo.score(X,y)` Evaluar qué tan prescisas son las predicciones del modelo.
- `modelo.predict(X)` Predecir

___


En principio, importemos las librerías y los DataFrames con las que vamos a trabajar.

**Recordemos el ejercicio:** Predecir si es probable que un paciente sufra un accidente cerebrovascular en función de los parámetros de entrada como el sexo, la edad, diversas enfermedades y el tabaquismo. Cada fila de los datos proporciona información relevante sobre el paciente.

Estos DataFrames fueron tratados en el Notebook [preparacion_datos](https://github.com/bonaldee/ProyectoModelado_ElianaBonalde/blob/main/preparacion_datos.ipynb).

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import matplotlib.patches as mpatches
import seaborn as sb

#librarías utilizadas en todos los métodos
from sklearn.metrics import mean_squared_error #validar
from sklearn.metrics import mean_absolute_error #validar

df_entrenamiento = pd.read_csv('../../ProyectoModelado_ElianaBonalde/datos/Cardio/df_entrenamiento.csv')
df_entren_prediccion = pd.read_csv('../../ProyectoModelado_ElianaBonalde/datos/Cardio/df_entren_prediccion.csv')
df_test = pd.read_csv('../../ProyectoModelado_ElianaBonalde/datos/Cardio/df_test.csv')
df_test_prediccion = pd.read_csv('../../ProyectoModelado_ElianaBonalde/datos/Cardio/df_test_prediccion.csv')
df = pd.read_csv('../../ProyectoModelado_ElianaBonalde/datos/Cardio/df.csv')
df

Unnamed: 0.1,Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,0,0,67.0,0,1,1,0,0,228.69,36.6,0,1
1,2,0,80.0,0,1,1,0,1,105.92,32.5,1,1
2,3,1,49.0,0,0,1,0,0,171.23,34.4,2,1
3,4,1,79.0,1,0,1,1,1,174.12,24.0,1,1
4,5,0,81.0,0,0,1,0,0,186.21,29.0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
4904,5104,1,13.0,0,0,0,3,1,103.08,18.6,3,0
4905,5106,1,81.0,0,0,1,1,0,125.20,40.0,1,0
4906,5107,1,35.0,0,0,1,1,1,82.99,30.6,1,0
4907,5108,0,51.0,0,0,1,0,1,166.29,25.6,0,0


Con este ejercicio, vamos a utilizar varios métodos, específicamente, los principales algoritmos usados en Machine Learning, sin tomar en cuenta si es el apropiado o no. 
___ 

## Algoritmos de Regresión

### Regresión lineal 

La regresión lineal es un algoritmo de aprendizaje supervisado, la idea es obtener automáticamente una “recta” que se busca con la tendencia de predicción de un conjunto de datos continuos. Para hacerlo se mide el error con respecto a los puntos de entrada y el valor de salida real. El algoritmo deberá minimizar el coste de una función de error cuadrático y esos coeficientes corresponderán con la recta óptima.


### Regresión logística 

El caso en que el conjunto de datos es discreto. 

In [2]:
from sklearn.linear_model import LinearRegression 
modelo_regre = LinearRegression() #no utiliza parámeros porque implementa el método de mínimos cuadrados
modelo_regre.fit(df_entrenamiento, df_entren_prediccion) #Entrenamos nuestro modelo

LinearRegression()

In [8]:
predicciones_regre = modelo_regre.predict(df_test) #comportamiento

In [9]:
print(modelo_regre.score(df_test, df_test_prediccion))#coeficiente de determinación del método de #mínimos cuadrados 

0.588428063576591


Para tener una idea del rendimiento futuro de nuestro modelo, debemos probarlo en los datos del conjunto de prueba, es decir, datos que el modelo nunca ha visto. El resultado es un 0.58, esto significa que el modelo acertará un 58% de sus predicciones en el futuro, aproximadamente. 


Podemos decir que no es un buen modelo, la idea es que la puntuación esté entre 91 y 99%, aproximadamente.

In [7]:
error_regre_ms = np.sqrt(mean_squared_error(df_test_prediccion ,predicciones_regre)) 
error_regre_ma = np.sqrt(mean_absolute_error(df_test_prediccion ,predicciones_regre)) 
print(error_regre_ms, error_regre_ma)

0.13078731191877446 0.2244998813809523


## Algoritmos de Arbol de Decisión

Modelan la toma de decisión basado en los valores reales de los atributos que tienen nuestros datos. Se utilizan sobre todo para clasificación de información, bifurcando y modelando los posibles caminos tomados y su probabilidad de ocurrencia para mejorar su precisión.

### Árbol de decisión

Uno de los algoritmos de aprendizaje supervisado más usado. El primer nodo se llama raíz, luego se descompone en ramas que se subdividen hasta llegar a las hojas que son los nodos finales. En particular, buscará la mejor ruta, balanceando la posibilidad de ocurrencia y su importancia en cada rama y hojas para clasificar un resultado.

In [10]:
from sklearn.tree import DecisionTreeRegressor #arbol de decisión
modelo_arbol = DecisionTreeRegressor(random_state=1) #ramdom_satate asegura que obtendrá los mismos resultados en cada ejecución
modelo_arbol.fit(df_entrenamiento, df_entren_prediccion)

DecisionTreeRegressor(random_state=1)

In [11]:
predicciones_arbol = modelo_arbol.predict(df_test)
predicciones_arbol

array([[2.000e+00, 1.000e+00],
       [1.000e+01, 1.000e+00],
       [2.300e+01, 1.000e+00],
       ...,
       [5.109e+03, 0.000e+00],
       [5.103e+03, 0.000e+00],
       [5.100e+03, 0.000e+00]])

In [13]:
print(modelo_arbol.score(df_entrenamiento, df_entren_prediccion))

1.0


In [14]:
error_arbol_ms = np.sqrt(mean_squared_error(df_test_prediccion, predicciones_arbol)) 
error_arbol_ma = np.sqrt(mean_absolute_error(df_test_prediccion, predicciones_arbol)) 
print(error_arbol_ms, error_arbol_ma)

1.8484686603573104 1.0389560795501491


Los árboles de decisión te dejan con una decisión difícil. Un árbol profundo con muchas hojas se sobreajustará porque cada predicción proviene de datos históricos de solo algunos datos en su hoja. Pero un árbol poco profundo con pocas hojas tendrá un desempeño deficiente porque no logra capturar tantas distinciones en los datos brutos.

___
### Random Forest

In [15]:
from sklearn.ensemble import RandomForestRegressor #ramdom forest
modelo_forest = RandomForestRegressor(random_state=1)
modelo_forest.fit(df_entrenamiento, df_entren_prediccion)

RandomForestRegressor(random_state=1)

In [16]:
predicciones_forest = modelo_forest.predict(df_test)
predicciones_forest

array([[4.57000e+00, 1.00000e+00],
       [9.25000e+00, 1.00000e+00],
       [2.02700e+01, 1.00000e+00],
       ...,
       [5.10416e+03, 0.00000e+00],
       [5.10465e+03, 0.00000e+00],
       [5.10349e+03, 0.00000e+00]])

In [18]:
print(modelo_forest.score(df_entrenamiento, df_entren_prediccion))

0.9998577360416948


In [19]:
error_forest_ms = np.sqrt(mean_squared_error(df_test_prediccion, predicciones_forest)) 
error_forest_ma = np.sqrt(mean_absolute_error(df_test_prediccion, predicciones_forest)) 
print(error_forest_ms, error_forest_ma)

0.8291523698392562 0.6783455973844299


## Algoritmos basados en Instancia

### Nearest Neighbors 

La idea general de los métodos de Nearest Neighbors es encontrar un número predefinido de muestras de entrenamiento más cercanas a la que se está tratando de predecir y clasifica el punto de interés basado en la mayoría de datos que le rodean.

El aprendizaje basado en vecinos supervisados viene en dos formas: clasificación para datos con etiquetas discretas y regresión para datos con etiquetas continuas.

El número de muestras puede ser una constante definida por el usuario (KNeighborsClassifier) o variar según la densidad local de puntos (RadiusNeighborsClassifier). 
 
KNeighborsClassifier es la técnica más utilizada. La elección óptima del valor depende en gran medida de los datos, en general, un valor mayor suprime los efectos del ruido, pero hace que los límites de clasificación sean menos distintos. En los casos en los que los datos no se muestrean de manera uniforme, RadiusNeighborsClassifier puede ser una mejor opción.

En resumen:

- Calcula la distancia entre el item a clasificar y el resto.
- Seleccionar los k elementos más cercanos.
- Los de una clase que dominen será su clasificación final.

In [20]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
modelo_KN = KNeighborsClassifier(n_neighbors=5) #Creamos una instancia de KNeighborsClassifier
#modelo_KN = KNeighborsRegressor(n_neighbors=5)
modelo_KN.fit(df_entrenamiento, df_entren_prediccion)

KNeighborsClassifier()

In [24]:
#print(modelo_KN.score(df_test, df_test_prediccion))

In [None]:
from sklearn.multioutput import MultiOutputClassifier
modelo_KN = KNeighborsClassifier(n_neighbors=3)
classifier = MultiOutputClassifier(modelo_KN, n_jobs=-1)
classifier.fit(df_entrenamiento, df_entren_prediccion)
print(classifier.score(df_entrenamiento,np.array(df_entren_prediccion)))

In [None]:
print(classifier.score(df_test,np.array(df_test_prediccion)))

In [22]:
predicciones_KN = modelo_KN.predict(df_test)
predicciones_KN

array([[  14,    1],
       [   6,    1],
       [   5,    1],
       ...,
       [5083,    0],
       [5090,    0],
       [5063,    0]])