<img src="https://www.usergioarboleda.edu.co/wp-content/uploads/ultimatum/imagens/logo-mobile-UniversidadSergioArboleda.png" alt="USA" width=700>

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd 
import statsmodels.api as sm
import statsmodels.formula.api as smf

plt.rcParams['figure.figsize'] = (12, 10)

# Machine Learning

Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que __aprenden automáticamente__. Aprender en este contexto quiere decir identificar patrones complejos en millones de datos. El aprendizaje que se está haciendo siempre se basa en algún tipo de observaciones o datos, como ejemplos (el caso más común en este curso), la experiencia directa, o la instrucción. Por lo tanto, en general, el aprendizaje automático es aprender a hacer mejor en el futuro sobre la base de lo que se experimentó en el pasado.

### Aplicaciones de Machine Learning

Muchas actividades actualmente ya se están aprovechando del Machine Learning. Sectores como el de las compras online – ¿No te has preguntado alguna vez cómo se decide instantáneamente los productos recomendados para cada cliente al final de un proceso de compra? –, el __online advertising__ – dónde poner un anuncio para que tenga más visibilidad en función del usuario que visita la web – o los __filtros anti-spam__ llevan tiempo sacando partido a estas tecnologías.

El campo de aplicación práctica depende de la imaginación y de los datos que estén disponibles en la empresa. Estos son algunos ejemplos más:

- Detectar fraude en transacciones.
- Predecir de fallos en equipos tecnológicos.
- Prever qué empleados serán más rentables el año que viene (el sector de los Recursos Humanos está apostando seriamente por el Machine Learning).
- Seleccionar clientes potenciales basándose en comportamientos en las redes sociales, interacciones en la web…
- Predecir el tráfico urbano.
- Saber cuál es el mejor momento para publicar tuits, actualizaciones de Facebook o enviar las newsletter.
- Hacer prediagnósticos médicos basados en síntomas del paciente.
- Cambiar el comportamiento de una app móvil para adaptarse a las costumbres y necesidades de cada usuario.
- Detectar intrusiones en una red de comunicaciones de datos.
- Decidir cuál es la mejor hora para llamar a un cliente.
 
 ![Porque usar Python](images/ml_applications.png "Optional title")
 
La tecnología está ahí. Los datos también. ¿Por qué esperar a probar algo que puede suponer una puerta abierta a nuevas formas de tomar decisiones basadas en datos? Seguro que has oído que los datos son el petróleo del futuro. Ahora veremos que tipos de problemas de machine learning existen:

## Tipos de problemas de Machine Learning

En general, un problema de aprendizaje considera un conjunto de __n__ muestras de datos y luego intenta predecir las propiedades de los datos desconocidos. Si cada muestra es más que un solo número y, por ejemplo, una entrada multidimensional (también conocida como datos multivariables), se dice que tiene varios atributos o características.

Podemos separar los problemas de aprendizaje en algunas categorías grandes:

- __Aprendizaje supervisado__,  es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento consisten de pares de objetos (entrada, salida esperada). La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber visto una serie de ejemplos, los datos de entrenamiento.

    - __Clasificación__: las muestras pertenecen a dos o más clases y queremos aprender de los datos ya etiquetados cómo predecir la clase de datos sin etiquetar. Un ejemplo de problema de clasificación sería el ejemplo de reconocimiento de dígitos manuscritos, en el que el objetivo es asignar cada vector de entrada a uno de un número finito de categorías discretas. Otra manera de pensar en la clasificación es como una forma discreta (en contraposición a continua) de aprendizaje supervisado donde uno tiene un número limitado de categorías y para cada una de las n muestras proporcionadas, se trata de etiquetarlas con la categoría o clase correcta .

    - __Regresión__: si la salida deseada consiste en una o más variables continuas, entonces la tarea se llama regresión. Un ejemplo de un problema de regresión sería la predicción de la longitud de un salmón en función de su edad y peso.

    ![Porque usar Python](images/clasiregre.png "Optional title")

- __Aprendizaje no supervisado__, en el que los datos de entrenamiento consisten en un conjunto de vectores de entrada x sin ningún valor objetivo correspondiente. El objetivo en tales problemas puede ser descubrir grupos de ejemplos similares dentro de los datos, donde se denomina clustering (agrupación).

![Porque usar Python](images/unsuper.jpg "Optional title")


## Sobreajuste (Overfitting)

El sobreajuste en el aprendizaje automático se produce cuando un modelo se ajusta demasiado bien a los datos de entrenamiento y, como resultado, no puede predecir con precisión sobre datos de prueba no vistos. En otras palabras, el modelo ha memorizado simplemente patrones y ruido específicos de los datos de entrenamiento, pero no es lo suficientemente flexible como para realizar predicciones sobre datos reales.

<img align="center" width="1000" height="300" src="https://i.ytimg.com/vi/dBLZg-RqoLg/maxresdefault.jpg">

### Data de entrenamiento y data de pruebas

El aprendizaje automático consiste en aprender algunas propiedades de un conjunto de datos y aplicarlas a nuevos datos. Esta es la razón por la que una práctica común en el aprendizaje de máquina para evaluar un algoritmo es dividir los datos a mano en dos conjuntos, uno que llamamos el conjunto de entrenamiento en el que aprendemos las propiedades de datos y uno que llamamos el conjunto de pruebas en el que probamos estas propiedades.

<img align="center" width="800" height="300" src="https://miro.medium.com/max/1000/1*nhmPdWSGh3ziatQKOmVq0Q.png">

## Elegir el algoritmo de ML adecuado

A menudo la parte más difícil de resolver un problema de aprendizaje de la máquina puede ser encontrar el estimador adecuado para el trabajo.

Diferentes estimadores son más adecuados para diferentes tipos de datos y diferentes problemas.

El diagrama de flujo siguiente está diseñado para dar a los usuarios un poco de una guía aproximada sobre cómo abordar los problemas con respecto a qué estimadores para probar sus datos.

![Porque usar Python](images/ml_map.png "Optional title")

## Metricas del modelo

### Modelos de Regresión

##### Error Absoluto Medio (MAE)

<img align="center" width="300" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/3ef87b78a9af65e308cf4aa9acf6f203efbdeded">


##### Error Cuadratico Medio (MSE)

<img align="center" width="200" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/53ab02a5a1847aa3ff5c6eb69b4023bfb73655f5">


### Modelos de Clasificación

##### Matriz de Confusion

<img align="center" width="800" height="300" src="https://www.juanbarrios.com/wp-content/uploads/2019/07/matriz4.jpg">


##### Curva Operativa del Receptor (ROC)

Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación

<img align="center" width="500" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/36/ROC_space-2.png/800px-ROC_space-2.png">

<img align="center" width="500" height="300" src="https://upload.wikimedia.org/wikipedia/commons/b/b9/Curvas.png">

# Regresión lineal

La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como Y y a la variable predictora o independiente como X.

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

$$Y=β0+β1X1+ϵ$$

Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y pero que no se incluyen en el modelo como predictores. Al error aleatorio también se le conoce como residuo.

En la gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas estimaciones se conocen como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las estimaciones de los coeficientes).

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la correlación). Sin embargo, en caso de querer predecir el valor de una variable en función de la otra, no solo se necesita calcular la recta, sino que además hay que asegurar que el modelo sea bueno.

__Supuestos sobre los residuales__

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:3​

* Que la relación entre las variables sea lineal.
* Que los errores en la medición de las variables explicativas sean independientes entre sí.
* Que los errores tengan varianza constante. (Homocedasticidad)
* Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
* Que el error total sea la suma de todos los errores.

## Regresión lineal Simple

Los datos **softdrink** corresponden al tiempo $Y$ que un empleado demora para revisar y surtir una máquina dispensadora en función de la cantidad de cajas $X_1$ que surte a la máquina y de la distancia $X_2$ entre la máquina dispensadora y el camión repartidor. Como este es un ejemplo de regresión lineal simple se utilizará solo la covariable $X_1$ para explicar la respuesta $Y$.

Abajo una figura ilustrativa de la situación.

![Figura ilustrativa](images/maquina_dispensadora.png)

Para leer los datos usaremos la función `read_csv` de pandas.

In [None]:
file = 'https://raw.githubusercontent.com/fhernanb/Python-para-estadistica/master/03%20Regression/Regresi%C3%B3n%20lineal%20simple/softdrink.csv'
dt = pd.read_csv(file)

Para mostrar la parte inicial de los datos usamos `head()`

In [None]:
dt.head()

### Diagrama de dispersión

Para crear el diagrama de dispersión usamos la función `plot`.

In [None]:
dt.plot(kind='scatter', x='x1', y='y');

### 1. Creando el modelo de regresión usando `statsmodels.api`

In [None]:
X = dt["x1"]                  
X = sm.add_constant(X.values)  
y = dt["y"]                   

Para ver los 5 primeros elementos de la matriz $X$ y el vector $y$ usamos:

In [None]:
print(X[0:5])
print('\n')
print(y[0:5])

Para ajustar el modelo usamos:

In [None]:
mod1 = sm.OLS(y, X).fit() ## sm.OLS(output, input)

Para obtener las predicciones $\hat{y}$ usamos:

In [None]:
predictions = mod1.predict(X)

Para obtener un resumen del modelo ajustado usamos el siguiente código.

In [None]:
mod1.summary()

### 2. Ajustando el modelo por medio de fórmulas con `statsmodels.formula.api`

In [None]:
mod2 = smf.ols('y ~ x1', data=dt).fit()

Para obtener un resumen del modelo ajustado usamos el siguiente código.

In [None]:
print(mod2.summary())

### 3. ¿Cómo agregar la recta de regresión estimada?

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(dt["x1"] , dt["y"] , 'o', label="Datos")
ax.plot(dt["x1"], mod2.fittedvalues, 'r--.', label="Ajustado")
legend = ax.legend(loc="best")
plt.xlabel('Cantidad de cajas')
plt.ylabel('Tiempo (min)')
plt.title('Diagrama de dispersión con la recta del modelo ajustado');

## Regresión lineal con Dummies

In [None]:
data = pd.DataFrame()
data['x1'] = ['a', 'c', 'b', 'a']
data['x2'] = ['p', 's', 's', 'r']
data['y'] = [2.5, 5.3, 3.6, -4.2]
print(data)

Vamos a usar `pd.get_dummies` para transformar las variables x1, x2 y x3.

In [None]:
dummy_data = pd.get_dummies(data[['x1', 'x2']], drop_first=True)
print(dummy_data)

Otro ejemplo

In [None]:
datos = pd.DataFrame()
datos['precio'] = [12, 15, 25, 11, 16, 7]
datos['area'] = [3, 4, 1, 6, 5, 3]
datos['pisci'] = ['Grande', 'Sin', 'Pequena', 'Pequena', 'Sin', 'Grande']
print('Datos originales \n')
print(datos)

dummy_data = pd.get_dummies(datos, prefix_sep='_', drop_first=True)
print('\n')
print('Datos transformados \n')
print(dummy_data)

## Regresión lineal Multiple

## Diagrama de dispersión

Para crear el diagrama de dispersión usamos las siguientes instrucciones.

In [None]:
from matplotlib import pyplot
from mpl_toolkits.mplot3d import Axes3D
import random

fig = pyplot.figure(figsize=(8, 6))
ax = Axes3D(fig)

x1 = dt["x1"]
x2 = dt["x2"]
y = dt["y"]

ax.scatter(x1, x2, y, marker='*', c='r')
ax.set_xlabel('Cantidad de cajas')
ax.set_ylabel('Distancia (metros)')
ax.set_zlabel('Tiempo (minutos)');

## Ajustando el modelo por medio de fórmulas con `statsmodels.formula.api`

In [None]:
# Fit regression model (using the natural log of one of the regressors)
mod = smf.ols('y ~ x1 + x2', data=dt).fit()

Para obtener un resumen del modelo ajustado usamos el siguiente código.

In [None]:
print(mod.summary())

Para extraer los $\beta$ estimados se usa el siguiente código.

In [None]:
mod.params

Para extraer el $\sigma^2$ estimado se usa el atributo `mse.resid` sobre el objeto `mod`.

In [None]:
mod.mse_resid

## Ejemplo

In [None]:
customers = pd.read_csv("data/Ecommerce Customers.csv")

In [None]:
customers.head()

In [None]:
customers.info()

### Analisis Exploratorio de Datos (EDA)

In [None]:
import seaborn as sns
sns.set_palette("GnBu_d")
sns.set_style('whitegrid')

In [None]:
sns.jointplot(x='Time on Website',y='Yearly Amount Spent',data=customers)

In [None]:
sns.jointplot(x='Time on App',y='Yearly Amount Spent',data=customers)

In [None]:
sns.jointplot(x='Time on App',y='Length of Membership',kind='hex',data=customers)

In [None]:
sns.pairplot(customers)

In [None]:
sns.lmplot(x='Length of Membership',y='Yearly Amount Spent',data=customers)

# Ajuste del Modelo

**Separacion del conjunto original en train y test**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
y = customers['Yearly Amount Spent']

In [None]:
X = customers[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

**Entrenamiento del Modelo**

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train,y_train)

In [None]:
# Impresion de los Coeficientes
print('Coefficients: \n', lm.coef_)

In [None]:
X_train.columns

## Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
predictions = lm.predict(X_test)

In [None]:
plt.scatter(y_test,predictions)
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')

In [None]:
# Calculo de Metricas
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

## Residuales

Los residuales segun los supuestos de la regresion deben ser normales

In [None]:
sns.distplot((y_test-predictions),bins=50);