<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/8.Machine_Learning/01_introduction_machine_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Machine Learning con Python

Haremos un ejercicio básico de un problema supervisado de regresión para predecir el costo de una casa y veremos como se puede resolver en Python.



## Introducción

Los primeros pasos a seguir para ajustar un modelo de predicción usando Python son:

1. **Preparar los datos**. Como hemos visto, para llegar a este punto hemos aprendido a cargar los datos de diferentes maneras y de diferentes fuentes, a limpiarlos, a organizarlos, agruparlos, etc, y a hacer un análisis exploratorio de datos con el objetivo de entender mejor los datos y el problema.

2. **Identificar la variable objetivo**. Si ya está definida, identificarla y separarla del resto de las variables independientes. Si no está definida, construírla a partir del contexto del problema.

3. **División train/test de los datos**. La división puede ser aleatoria o predefinida según el contexto, con muestreo, despendiendo de la naturaleza del problema.

4. **Instanciación del modelo para el entrenamiento**. Usaremos una librería para cargar los algoritmos predefinidos llamada sklearn. 

5. **Ajuste del modelo**. Utilizaremos el método ```fit``` del modelo.

6. **Predicción**. Utilización del método ```predict``` del modelo.

7. **Elección y implemetación de un métrica**. Para poder estimar el error de prueba.



Primeramente vamos a llamar a la librería ```scikit-learn```, ésta contiene varios módulos en donde están cargadas las diferentes herramientas de ML.
Por ejemplo de model_selection obtendremos el método ```train_test_split```, de ```linear_model``` obtendremos el objeto ```LinearRegression``` la cuál contiene el algorítmo de regresión lineal cargado, etc.

In [1]:
import pandas as pd
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.preprocessing import StandardScaler



## Preparar los datos: valores de las casas de los suburbios de Boston

* [Fuente:](http://cdn.jsdelivr.net/gh/al34n1x/DataScience/data/Boston.csv)



Lo podemos leer de la siguiente forma:

In [2]:
df = pd.read_csv('https://github.com/al34n1x/DataScience/raw/master/data/Boston.csv',squeeze=True, delimiter=',', header=0, index_col=0)



El archivo contiene datos de las casas de los suburbios de Boston, cada registro representa una casa y tiene varios atributos.

Tanto caracteristicas físicas de la casa como atributos demográficos de la zona: número de habitaciones, el procentaje de crimen por zona, el ratio de alumno/maestro, etc... 

Estos datos ya vienen en una estructura que, a parte de estructurada de manera adecuada, no viene con registro repetidos, nulos, o atípicos. Podemos decir que fueron previamente tratados y que están listos para entrenar un modelo.

In [None]:
df.head()



## Identificar la variable objetivo
En este caso la variable objetivo está dada, no tenemos que hacer una transformación para obtenerla, simplemente la obtenemos a partir de la columna del dataframe ```df```. Las demás columnas ya son variables númericas que pueden servir como *input* de un modelo.

In [4]:
features = list(df.columns)[:-1]

In [5]:
X = df[features]
y = df.medv



## Hacer la separacion train/test
El método ```train_test_split``` regresa 4 outputs, las features divididas en entrenamiento y prueba, y la variable objetivo divida en entrenamiento y prueba respectivamente. Por convención (como en muchos casos en Python) en este contexto les llamamos ```X_train```, ```X_test```, ```y_train```, ```y_test```.

Por defecto se hace una particion aleatoria del 75% de entrenamiento, 25% de prueba.

* X_train:  incluye todas las variables independientes, estas se usarán para entrenar el modelo, también como hemos especificado test_size = 25%, esto significa que el 75% de las observaciones de sus datos completos se usarán para entrenar / ajustar el modelo y 25% % se utilizará para probar el modelo.

* X_test: esta es la porción restante del 25% de las variables independientes de los datos que no se usarán en la fase de entrenamiento y se usarán para hacer predicciones para probar la precisión del modelo.

* y_train: esta es su variable dependiente que debe predecirse con este modelo, esto incluye etiquetas de categoría contra sus variables independientes, necesitamos especificar nuestra variable dependiente mientras entrenamos / ajustamos el modelo.

* y_test: estos datos tienen etiquetas de categoría para sus datos de prueba, estas etiquetas se utilizarán para probar la precisión entre las categorías reales y previstas.

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
print('Features_train:',X_train.shape)
print('Features_test:',X_test.shape)
print('Target_train:',y_train.shape)
print('Target_test:',y_test.shape)



## Instanciación del modelo para el entrenamiento
Se instancia el objeto en donde van a cargar los métodos y atributos que harán el entrenamiento y ajuste para crear un modelo de aprendizaje de máquina.

En este caso ```LinearRegression``` es una instancia de la clase ```LinearRegression```, que contiene el algoritmo para obtener los coeficientes de mínimos de cuadrados. 

In [8]:
lr = LinearRegression()



## Ajuste del modelo

Para ejecutar el algoritmo se hace a través de un método llamado **fit**.

Una vez hecha una separación de entrenamiento y de prueba, realizamos el ajuste o entrenamiento, es decir, a partir de una muestra de los datos se van a obtener los coeficientes que minimizan el error.

Estos coeficientes define un modelo específico generado por esos datos. Por claridad lo vamos a guardar en una objeto llamado lr_model.

In [None]:
lr_model = lr.fit(X_train, y_train)
print ('Coeficientes: ',  lr_model.intercept_, lr_model.coef_)



## Predicción

Una vez que ha sido entrenado el modelo, podemos probar con una observación de una muestra diferente, o sea, con la muestra de prueba. Notese que la muestra de prueba no ha sido usada en el método fit.

In [None]:
X_test[:10]

In [None]:
predictions_lr = lr_model.predict(X_test)
predictions_lr[:10]

In [None]:
X_test['prediction'] =  np.array(predictions_lr)

In [None]:
X_test



Observamos que el output del método **predict** es un array en donde están las predicciones de los valores de las casas.

El output dependerá del problema, si es supervisado de regresión o de clasificación.

¿Cómo sería el output en un contexto de apredizaje supervisado de clasificación? ¿Y de regresión? ¿Y de aprendizaje no supervisado?



## Elección de un métrica
La métrica que se elige es para medir qué tan bien tu modelo va a predecir cuando se tengan datos no observados previamente. Más adelante veremos los detalles de las distintas métricas que existen.

In [None]:
print ('Error medio absoluto: ', mean_absolute_error(y_test,predictions_lr))
print ('Error cuadrático medio: ', mean_squared_error(y_test,predictions_lr))



## Conclusión

Como se ha mencionado este es un ejemplo introductorio del marco de trabajo básico del que partiremos.
A partir de aquí vamos a profundizar en cada uno de los pasos que hemos mencionado, a responder varias preguntas que han quedado inconclusas y estudiar problemas de naturaleza distinta como aprendizaje supervisado de clasificación, de regresión y apredizaje no supervisado.