# Aprendiendo Machine Learning con Python 

## Scikit learn
Biblioteca de Python donde todos los modelos y algoritmos del aprendizaje automático se han implementado con una arquitectura orientada a objetos. Cada modelo tiene su propia clase. 

Para empezar a importar los algoritmos, importe los módulos correspondiente, no la biblioteca en general, de lo contrario cuando llame algún método no funcionará.  

`import from sklearn.linear_model import LinearRegression`

Para crear un modelo, generamos un objeto de la clase correspondiente a este modelo. 

`modelo = LinearRegression()` --- object = modelo(parámetros)

Para desarrollar cualquier modelo, se usan estos métodos, los cuales están en todas las clases. 

- `modelo = LinearRegresion()` Definir el modelo
- `modelo.fit(X,y)` Ajustar 
- `modelo.score(X,y)` Evaluar 
- `modelo.predict(X)` Predecir
___

¿Cómo elegir el algoritmo a utilizar?

Ésta podría ser la parte más dificil, encontrar el estimador adecuado para el trabajo. En el siguiente mapa encontrará buenos estimadores para cada aplicación.

![Mapa de estimadores](https://github.com/bonaldee/ProyectoModelado_ElianaBonalde/tree/main/codigo/ml_map.png)

[Fuente](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)


## Construyendo el modelo

- Definir el tipo de modelo.
- Ajustar, es decir, capturar patrones a partir de los datos proporcionados.
- Predecir.
- Evaluar qué tan prescisas son las predicciones del modelo.

___


En principio, importemos las bibliotecas y los DataFrames con las que vamos a trabajar.

Recordemos el ejercicio: Predecir si es probable que un paciente sufra un accidente cerebrovascular en función de los parámetros de entrada como el sexo, la edad, diversas enfermedades y el tabaquismo. Cada fila de los datos proporciona información relevante sobre el paciente.

Estos DataFrames fueron tratados en el Notebook [preparacion_datos](https://github.com/bonaldee/ProyectoModelado_ElianaBonalde/blob/main/preparacion_datos.ipynb).

In [110]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import ListedColormap
from sklearn.linear_model import LinearRegression # regresión lineal
from sklearn.svm import SVR # regresión lineal
from sklearn import neighbors
from sklearn.tree import DecisionTreeRegressor #arbol de decisión
from sklearn.ensemble import RandomForestRegressor #ramdom forest
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import mean_squared_error #validar
from sklearn.metrics import mean_absolute_error #validar

df_entrenamiento = pd.read_csv('../ProyectoModelado_ElianaBonalde/Cardio/df_entrenamiento.csv')
df_entren_prediccion = pd.read_csv('../ProyectoModelado_ElianaBonalde/Cardio/df_entren_prediccion.csv')
df_test = pd.read_csv('../ProyectoModelado_ElianaBonalde/Cardio/df_test.csv')
df_test_prediccion = pd.read_csv('../ProyectoModelado_ElianaBonalde/Cardio/df_test_prediccion.csv')
df = pd.read_csv('../ProyectoModelado_ElianaBonalde/Cardio/datos.csv')
df

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1
...,...,...,...,...,...,...,...,...,...,...,...,...
5105,18234,Female,80.0,1,0,Yes,Private,Urban,83.75,,never smoked,0
5106,44873,Female,81.0,0,0,Yes,Self-employed,Urban,125.20,40.0,never smoked,0
5107,19723,Female,35.0,0,0,Yes,Self-employed,Rural,82.99,30.6,never smoked,0
5108,37544,Male,51.0,0,0,Yes,Private,Rural,166.29,25.6,formerly smoked,0


Con este ejercicio, vamos a utilizar varios métodos, sin tomar en cuenta si es el apropiado o no. Simplemente queremos mostrar algunos de los métodos que hay. 

___


### Nearest Neighbors 

La idea general de los métodos de nearest neighbors es encontrar un número predefinido de muestras de entrenamiento más cercanas en distancia al nuevo punto y predecir la etiqueta a partir de ellas.

La clasificación de vecinos KNeighborsClassifier es la técnica más utilizada. La elección óptima del valor depende en gran medida de los datos: en general, un valor mayor suprime los efectos del ruido, pero hace que los límites de clasificación sean menos distintos.

En los casos en los que los datos no se muestrean de manera uniforme, se debería usar la clasificación de vecinos basada en el radio RadiusNeighborsClassifier.



In [116]:
modelo_KN = KNeighborsClassifier(n_neighbors=5)
modelo_KN.fit(df_entrenamiento, df_entren_prediccion)

KNeighborsClassifier()

In [118]:
#modelo_KN.score(df_test, df_test_prediccion)

In [117]:
predicciones_KN = modelo_KN.predict(df_test)
predicciones_KN

array([[  14,    1],
       [   6,    1],
       [   5,    1],
       ...,
       [5083,    0],
       [5090,    0],
       [5063,    0]])

### Regresión lineal

La regresión lineal es un algoritmo de aprendizaje supervisado, el cual busca obtener automáticamente una “recta” que se busca con la tendencia de predicción. Para hacerlo se mide el error con respecto a los puntos de entrada y el valor “Y” de salida real. El algoritmo deberá minimizar el coste de una función de error cuadrático y esos coeficientes corresponderán con la recta óptima.
___

El método `fit` se encarga de ajustar los parámetros de regresión lineal a los datos.

In [44]:
modelo_regre = LinearRegression() #no utiliza parámeros porque implementa el método de mínimos cuadrados
modelo_regre.fit(df_entrenamiento, df_entren_prediccion)

LinearRegression()

In [105]:
#modelo_regre.score(df_entrenamiento, df_entren_prediccion)
modelo_regre.score(df_test, df_test_prediccion)#coeficiente de determinación del método de 
#mínimos cuadrados 

0.588428063576591

In [35]:
predicciones_regre = modelo_regre.predict(df_test) #comportamiento
predicciones_regre

array([[-6.30372143e-13,  2.50841016e-01],
       [ 9.00000000e+00,  2.04943190e-01],
       [ 2.00000000e+01,  2.32719196e-01],
       ...,
       [ 5.10400000e+03, -9.48291975e-02],
       [ 5.10700000e+03, -1.09760188e-01],
       [ 5.10800000e+03, -5.77458784e-02]])

In [36]:
error_regre_ms = np.sqrt(mean_squared_error(df_test_prediccion ,predicciones_regre)) 
error_regre_ma = np.sqrt(mean_absolute_error(df_test_prediccion ,predicciones_regre)) 
print(error_regre_ms, error_regre_ma)

0.13078731191877446 0.2244998813809523


### Árbol de decisión

Definir un modelo de árbol de decisión y ajustarlo con las características y la variable de destino.

In [37]:
modelo_arbol = DecisionTreeRegressor(random_state=1) #ramdom_satate asegura que obtendrá los mismos resultados en cada ejecución
modelo_arbol.fit(df_entrenamiento, df_entren_prediccion)

DecisionTreeRegressor(random_state=1)

In [46]:
modelo_arbol.score(df_entrenamiento, df_entren_prediccion)

1.0

In [38]:
predicciones_arbol = modelo_arbol.predict(df_test)
predicciones_arbol

array([[2.000e+00, 1.000e+00],
       [1.000e+01, 1.000e+00],
       [2.300e+01, 1.000e+00],
       ...,
       [5.109e+03, 0.000e+00],
       [5.103e+03, 0.000e+00],
       [5.100e+03, 0.000e+00]])

In [39]:
error_arbol_ms = np.sqrt(mean_squared_error(df_test_prediccion, predicciones_arbol)) 
error_arbol_ma = np.sqrt(mean_absolute_error(df_test_prediccion, predicciones_arbol)) 
print(error_arbol_ms, error_arbol_ma)

1.8484686603573104 1.0389560795501491


Los árboles de decisión te dejan con una decisión difícil. Un árbol profundo con muchas hojas se sobreajustará porque cada predicción proviene de datos históricos de solo algunos datos en su hoja. Pero un árbol poco profundo con pocas hojas tendrá un desempeño deficiente porque no logra capturar tantas distinciones en los datos brutos.

___
### Random Forest

In [40]:
modelo_forest = RandomForestRegressor(random_state=1)
modelo_forest.fit(df_entrenamiento, df_entren_prediccion)

RandomForestRegressor(random_state=1)

In [47]:
modelo_forest.score(df_entrenamiento, df_entren_prediccion)  

0.9998577360416948

In [41]:
predicciones_forest = modelo_forest.predict(df_test)
predicciones_forest

array([[4.57000e+00, 1.00000e+00],
       [9.25000e+00, 1.00000e+00],
       [2.02700e+01, 1.00000e+00],
       ...,
       [5.10416e+03, 0.00000e+00],
       [5.10465e+03, 0.00000e+00],
       [5.10349e+03, 0.00000e+00]])

In [42]:
error_forest_ms = np.sqrt(mean_squared_error(df_test_prediccion, predicciones_forest)) 
error_forest_ma = np.sqrt(mean_absolute_error(df_test_prediccion, predicciones_forest)) 
print(error_forest_ms, error_forest_ma)

0.8291523698392562 0.6783455973844299
