# Machine Learning

Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que __aprenden automáticamente__. Aprender en este contexto quiere decir identificar patrones complejos en millones de datos. El aprendizaje que se está haciendo siempre se basa en algún tipo de observaciones o datos, como ejemplos (el caso más común en este curso), la experiencia directa, o la instrucción. Por lo tanto, en general, el aprendizaje automático es aprender a hacer mejor en el futuro sobre la base de lo que se experimentó en el pasado.

### Aplicaciones de Machine Learning

Muchas actividades actualmente ya se están aprovechando del Machine Learning. Sectores como el de las compras online – ¿No te has preguntado alguna vez cómo se decide instantáneamente los productos recomendados para cada cliente al final de un proceso de compra? –, el __online advertising__ – dónde poner un anuncio para que tenga más visibilidad en función del usuario que visita la web – o los __filtros anti-spam__ llevan tiempo sacando partido a estas tecnologías.

El campo de aplicación práctica depende de la imaginación y de los datos que estén disponibles en la empresa. Estos son algunos ejemplos más:

- Detectar fraude en transacciones.
- Predecir de fallos en equipos tecnológicos.
- Prever qué empleados serán más rentables el año que viene (el sector de los Recursos Humanos está apostando seriamente por el Machine Learning).
- Seleccionar clientes potenciales basándose en comportamientos en las redes sociales, interacciones en la web…
- Predecir el tráfico urbano.
- Saber cuál es el mejor momento para publicar tuits, actualizaciones de Facebook o enviar las newsletter.
- Hacer prediagnósticos médicos basados en síntomas del paciente.
- Cambiar el comportamiento de una app móvil para adaptarse a las costumbres y necesidades de cada usuario.
- Detectar intrusiones en una red de comunicaciones de datos.
- Decidir cuál es la mejor hora para llamar a un cliente.
 
 ![Porque usar Python](images/ml_applications.png "Optional title")
 
La tecnología está ahí. Los datos también. ¿Por qué esperar a probar algo que puede suponer una puerta abierta a nuevas formas de tomar decisiones basadas en datos? Seguro que has oído que los datos son el petróleo del futuro. Ahora veremos que tipos de problemas de machine learning existen:

## Tipos de problemas de Machine Learning

En general, un problema de aprendizaje considera un conjunto de __n__ muestras de datos y luego intenta predecir las propiedades de los datos desconocidos. Si cada muestra es más que un solo número y, por ejemplo, una entrada multidimensional (también conocida como datos multivariables), se dice que tiene varios atributos o características.

Podemos separar los problemas de aprendizaje en algunas categorías grandes:

- __Aprendizaje supervisado__,  es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento consisten de pares de objetos (entrada, salida esperada). La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber visto una serie de ejemplos, los datos de entrenamiento.

    - __Clasificación__: las muestras pertenecen a dos o más clases y queremos aprender de los datos ya etiquetados cómo predecir la clase de datos sin etiquetar. Un ejemplo de problema de clasificación sería el ejemplo de reconocimiento de dígitos manuscritos, en el que el objetivo es asignar cada vector de entrada a uno de un número finito de categorías discretas. Otra manera de pensar en la clasificación es como una forma discreta (en contraposición a continua) de aprendizaje supervisado donde uno tiene un número limitado de categorías y para cada una de las n muestras proporcionadas, se trata de etiquetarlas con la categoría o clase correcta .

    - __Regresión__: si la salida deseada consiste en una o más variables continuas, entonces la tarea se llama regresión. Un ejemplo de un problema de regresión sería la predicción de la longitud de un salmón en función de su edad y peso.

    ![Porque usar Python](images/clasiregre.png "Optional title")

- __Aprendizaje no supervisado__, en el que los datos de entrenamiento consisten en un conjunto de vectores de entrada x sin ningún valor objetivo correspondiente. El objetivo en tales problemas puede ser descubrir grupos de ejemplos similares dentro de los datos, donde se denomina clustering (agrupación).

![Porque usar Python](images/unsuper.jpg "Optional title")


## Sobreajuste (Overfitting)

El sobreajuste en el aprendizaje automático se produce cuando un modelo se ajusta demasiado bien a los datos de entrenamiento y, como resultado, no puede predecir con precisión sobre datos de prueba no vistos. En otras palabras, el modelo ha memorizado simplemente patrones y ruido específicos de los datos de entrenamiento, pero no es lo suficientemente flexible como para realizar predicciones sobre datos reales.

<img align="center" width="1000" height="300" src="https://i.ytimg.com/vi/dBLZg-RqoLg/maxresdefault.jpg">

### Data de entrenamiento y data de pruebas

El aprendizaje automático consiste en aprender algunas propiedades de un conjunto de datos y aplicarlas a nuevos datos. Esta es la razón por la que una práctica común en el aprendizaje de máquina para evaluar un algoritmo es dividir los datos a mano en dos conjuntos, uno que llamamos el conjunto de entrenamiento en el que aprendemos las propiedades de datos y uno que llamamos el conjunto de pruebas en el que probamos estas propiedades.

<img align="center" width="800" height="300" src="https://miro.medium.com/max/1000/1*nhmPdWSGh3ziatQKOmVq0Q.png">

## Elegir el algoritmo de ML adecuado

A menudo la parte más difícil de resolver un problema de aprendizaje de la máquina puede ser encontrar el estimador adecuado para el trabajo.

Diferentes estimadores son más adecuados para diferentes tipos de datos y diferentes problemas.

El diagrama de flujo siguiente está diseñado para dar a los usuarios un poco de una guía aproximada sobre cómo abordar los problemas con respecto a qué estimadores para probar sus datos.

![Porque usar Python](images/ml_map.png "Optional title")

## Metricas del modelo

### Modelos de Regresión

##### Error Absoluto Medio (MAE)

<img align="center" width="300" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/3ef87b78a9af65e308cf4aa9acf6f203efbdeded">


##### Error Cuadratico Medio (MSE)

<img align="center" width="200" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/53ab02a5a1847aa3ff5c6eb69b4023bfb73655f5">


### Modelos de Clasificación

##### Matriz de Confusion

<img align="center" width="800" height="300" src="https://www.juanbarrios.com/wp-content/uploads/2019/07/matriz4.jpg">


##### Curva Operativa del Receptor (ROC)

Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación

<img align="center" width="500" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/36/ROC_space-2.png/800px-ROC_space-2.png">

<img align="center" width="500" height="300" src="https://upload.wikimedia.org/wikipedia/commons/b/b9/Curvas.png">

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd 
from IPython.display import HTML

plt.rcParams['figure.figsize'] = (12, 10)

_______

## Regresión Lineal

La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como Y y a la variable predictora o independiente como X.

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

$$Y=β0+β1X1+ϵ$$

Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y pero que no se incluyen en el modelo como predictores. Al error aleatorio también se le conoce como residuo.

En la gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas estimaciones se conocen como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las estimaciones de los coeficientes).

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la correlación). Sin embargo, en caso de querer predecir el valor de una variable en función de la otra, no solo se necesita calcular la recta, sino que además hay que asegurar que el modelo sea bueno.

__Supuestos sobre los residuales__

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:3​

* Que la relación entre las variables sea lineal.
* Que los errores en la medición de las variables explicativas sean independientes entre sí.
* Que los errores tengan varianza constante. (Homocedasticidad)
* Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
* Que el error total sea la suma de todos los errores.

In [None]:
customers = pd.read_csv("data/samples/Ecommerce Customers.csv")

In [None]:
customers.head()

In [None]:
customers.info()

### Analisis Exploratorio de Datos (EDA)

In [None]:
sns.set_palette("GnBu_d")
sns.set_style('whitegrid')

In [None]:
sns.jointplot(x='Time on Website',y='Yearly Amount Spent',data=customers)

In [None]:
sns.jointplot(x='Time on App',y='Yearly Amount Spent',data=customers)

In [None]:
sns.jointplot(x='Time on App',y='Length of Membership',kind='hex',data=customers)

In [None]:
sns.pairplot(customers)

In [None]:
sns.lmplot(x='Length of Membership',y='Yearly Amount Spent',data=customers)

# Ajuste del Modelo

**Separacion del conjunto original en train y test**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
y = customers['Yearly Amount Spent']

In [None]:
X = customers[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

**Entrenamiento del Modelo**

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train,y_train)

In [None]:
# Impresion de los Coeficientes
print('Coefficients: \n', lm.coef_)

In [None]:
X_train.columns

## Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
predictions = lm.predict( X_test)

In [None]:
plt.scatter(y_test,predictions)
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')

In [None]:
# Calculo de Metricas
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

## Residuales

Los residuales segun los supuestos de la regresion deben ser normales

In [None]:
sns.distplot((y_test-predictions),bins=50);

_______

## Regresión Logistica

La regresión logística es un modelo lineal para clasificación. Es conocida también como regresión logit o clasificador de máxima entropía. Dado un vector de características $x$ para un ejemplo concreto, tenemos que:

* Podemos establecer una función de predicción $f:\mathbb{R}^{2}\rightarrow\mathbb{R}$ tal que:

$$\textrm{Prediction}(x)=\begin{cases}
C_{1} & \mbox{si }f(x)\ge \theta\\
C_{2} & \mbox{si }f(x)<\theta
\end{cases}$$

* Usaremos una función $f$ como un modelo logístico de los parámetros $w$ y $w_0$:

$$f_w(x) = P(C_1|x)= \sigma(wx+w_0)$$

donde
$$\sigma(x) = \frac{1}{1+e^{-x}}$$

* La función logística se comporta de la siguiente manera:

<img src="https://drive.google.com/uc?export=view&id=1aOQjJBQfvs_3e6d1WX_jPFD51-EAqWxn">

El objetivo del modelo consiste en ajustar los coeficientes de $f$ con el objetivo de predecir de forma correcta la clase de cada ejemplo

### Ejemplo

Se cuenta con un conjunto de datos simulado de publicidad donde se indica si un usuario en particular dio clic en un anuncio publicitario en particular. Se busca crear un modelo que prediga si un usuario hará clic en un anuncio basados en las características del usuario
This data set contains the following features:

* 'Daily Time Spent on Site' (min)
* 'Age'
* 'Area Income'
* 'Daily Internet Usage'
* 'Ad Topic Line'
* 'City'
* 'Male'
* 'Country'
* 'Timestamp'
* 'Clicked on Ad' (Objetivo)


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
ad_data = pd.read_csv('data/samples/advertising.csv')
ad_data.head()

In [None]:
ad_data.info()

In [None]:
ad_data.describe()

#### Analisis exploratorio

**Histograma de la Edad**

In [None]:
sns.set_style('whitegrid')
ad_data['Age'].hist(bins=30)
plt.xlabel('Age')

**Diagrama Conjunto de Edad vs Ingreso del area**

In [None]:
sns.jointplot(x='Age',y='Area Income',data=ad_data)

**Diagrama de Densidad Conjunto de Edad vs Ingreso del area**

In [None]:
sns.jointplot(x='Age',y='Daily Time Spent on Site',data=ad_data,color='red',kind='kde');

**Diagrama pareado entre variables**

In [None]:
sns.pairplot(ad_data,hue='Clicked on Ad',palette='bwr')

# Ajuste del Modelo

**Separacion del conjunto original en train y test**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X = ad_data[['Daily Time Spent on Site', 'Age', 'Area Income','Daily Internet Usage', 'Male']] # definicion de variables predictoras
y = ad_data['Clicked on Ad'] # variable objetivo

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=31415)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

**Entrenamiento del Modelo**

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logmodel = LogisticRegression()
logmodel.fit(X_train,y_train)

* $C$: parámetro de regularización. $C$ penaliza los modelos que se ajusten demasiado al conjunto de datos.
* $class\_weight$: En caso de que el problema de clasificación sea desbalanceado, es decir, existen más elementos de una clase que de la otra, se puede dar mayor peso a aquellas muestras provenientes de la clase de menor número de ejemplos.
* $n\_jobs$: Número de procesos a usar para paralelizar el proceso de entrenamiento. -1 Usa todos los procesadores disponibles menos 1.
* $solver$: `{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}`. Este parámetro corresponde al algoritmo usado para la optimización. La implementación de `liblinear` se encuentra escrita en C++ y es una de las más usadas. `sag` y `saga` recaen en una implementación de gradiente descendente conocida como `Stochastic Average Gradient`.

## Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
predictions = logmodel.predict(X_test)

In [None]:
from sklearn.metrics import classification_report

In [None]:
print(classification_report(y_test,predictions))

In [None]:
import sklearn.metrics as metrics
probs = logmodel.predict_proba(X_test)
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve(y_test, preds)
roc_auc = metrics.auc(fpr, tpr)

In [None]:
plt.title('Curva ROC')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('Sensibilidad')
plt.xlabel('1-Especificidad')
plt.show()

_______

## K Vecinos mas Cercanos (KNN)

Es un método no paramétrico usado para clasificación y regresión, la idea básica es que un nuevo caso se va a clasificar según la clase que tengan sus K - Vecinos más cercanos. Es un concepto simple , intuitivo y fácil de implementar por eso es un método de uso común.

<img align="center" width="500" height="300" src="https://raw.githubusercontent.com/artifabrian/dynamic-knn-gpu/master/knn.png">


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
df = pd.read_csv('data/samples/KNN_Project_Data') ## Datos simulados aleatoriamente
df.head() 

In [None]:
# Toma Tiempo
# sns.pairplot(df,hue='TARGET CLASS',palette='coolwarm')

# Estandarizar las Variables

<img align="center" width="100" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/87736c83415dcd9fdcff9b416a246e72bf83fff7">


In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler() # Crear un objeto de escala

In [None]:
scaler.fit(df.drop('TARGET CLASS',axis=1))

In [None]:
scaled_features = scaler.transform(df.drop('TARGET CLASS',axis=1))

In [None]:
df_feat = pd.DataFrame(scaled_features,columns=df.columns[:-1])
df_feat.head()

# Ajuste del Modelo

**Separacion del conjunto original en train y test**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(scaled_features,df['TARGET CLASS'], test_size=0.30)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

**Entrenamiento del Modelo**

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)

In [None]:
knn.fit(X_train,y_train)

## Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
pred = knn.predict(X_test)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix

In [None]:
print(confusion_matrix(y_test,pred))

In [None]:
print(classification_report(y_test,pred))

In [None]:
import sklearn.metrics as metrics
probs = knn.predict_proba(X_test)
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve(y_test, preds)
roc_auc = metrics.auc(fpr, tpr)

In [None]:
plt.title('Curva ROC')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('Sensibilidad')
plt.xlabel('1-Especificidad')
plt.show()

# Optimizando el valor de K
Se creara un ciclo que permita probar diferentes valor de k con el fin de evaluar el error y seleccionar el mejor valor de k

In [None]:
error_rate = []

for i in range(1,40):
    
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,y_train)
    pred_i = knn.predict(X_test)
    error_rate.append(np.mean(pred_i != y_test))

In [None]:
plt.figure(figsize=(12,6))
plt.plot(range(1,40),error_rate,color='blue', linestyle='dashed', marker='o',
         markerfacecolor='red', markersize=10)
plt.title('Tasa de Error vs. K')
plt.xlabel('K')
plt.ylabel('Error')

## Restimacion del Modelo con el valor Optimo de K

In [None]:
knn = KNeighborsClassifier(n_neighbors=11)

knn.fit(X_train,y_train)
pred = knn.predict(X_test)

print('Con K=30')
print('\n')
print(confusion_matrix(y_test,pred))
print('\n')
print(classification_report(y_test,pred))

In [None]:
import sklearn.metrics as metrics
probs = knn.predict_proba(X_test)
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve(y_test, preds)
roc_auc = metrics.auc(fpr, tpr)

In [None]:
plt.title('Curva ROC')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('Sensibilidad')
plt.xlabel('1-Especificidad')
plt.show()

_______

## Arboles de Decision y Random Forest

Los métodos estadísticos basados en árboles engloban a un conjunto de técnicas supervisadas no paramétricas que consiguen segmentar el espacio de los predictores en regiones simples, dentro de las cuales es más sencillo manejar las interacciones.

Los métodos basados en árboles se han convertido en uno de los referentes dentro del ámbito predictivo debido a los buenos resultados que generan en ámbitos muy diversos. A lo largo de este capítulo se explora la forma en que se construyen los árboles así como métodos más complejos que combinan multitud de ellos.

<img align="center" width="800" height="300" src="https://upload.wikimedia.org/wikipedia/commons/8/87/Recursive_Splitting.png">

__Ventajas__

* Los árboles son fáciles de interpretar aun cuando las relaciones entre predictores son complejas. Su estructura se asemejan a la forma intuitiva en que clasificamos y predecimos las personas, además, no se requieren conocimientos estadísticos para comprenderlos.

* Los modelos basados en un solo árbol (no es el caso de random forest, boosting…) se pueden representar gráficamente aun cuando el número de predictores es mayor de 3.

* Los árboles pueden manejar tanto predictores cuantitativos como cualitativos sin tener que crear variables dummy.

* Al tratarse de métodos no paramétricos, no es necesario que se cumpla ningún tipo de distribución específica.

* Por lo general, requieren mucha menos limpieza y pre procesado de los datos en comparación a otros métodos de aprendizaje estadístico.

* No se ven muy influenciados por outliers.

* Si para alguna observación, el valor de un predictor no está disponible, a pesar de no poder llegar a ningún nodo terminal, se puede conseguir una predicción empleando todas las observaciones que pertenecen al último nodo alcanzado. La precisión de la predicción se verá reducida pero al menos podrá obtenerse.

* Son muy útiles en la exploración de datos, permiten identificar de forma rápida y eficiente las variables más importantes.

* Son capaces de seleccionar predictores de forma automática.

__Desventajas__

* La capacidad predictiva de los modelos de regresión y clasificación basados en un único árbol es bastante inferior a la conseguida con otros modelos debido a su tendencia al overfitting. Sin embargo, existen técnicas más complejas que, haciendo uso de la combinación de múltiples árboles (bagging, random forest, boosting), consiguen mejorar en gran medida este problema.

* Cuando tratan con variables continuas, pierden parte de su información al categorizarlas en el momento de la división de los nodos. Por esta razón, suelen ser modelos que consiguen mejores resultados en clasificación que en regresión.

* Tal y como se describe más adelante, la creación de las ramificaciones de los árboles se consigue mediante el algoritmo de recursive binary splitting. Este algoritmo identifica y evalúa las posibles divisiones de cada predictor acorde a una determinada medida (RSS, Gini, entropía…). Los predictores continuos o predictores cualitativos con muchos niveles tienen mayor probabilidad de contener, solo por azar, algún punto de corte óptimo, por lo que suelen verse favorecidos en la creación de los árboles.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

Se usarán datos de préstamos colocados entre 2007 y 2010 y se propone clasificar y predecir si el cliente paga o no su préstamo. Se cuenta con las siguientes columnas

* credit.policy
* purpose
* int.rate
* installment
* log.annual.inc
* dti
* fico
* days.with.cr.line
* revol.bal
* revol.util
* inq.last.6mths
* delinq.2yrs
* pub.rec
* not.fully.paid (objetivo)

In [None]:
loans = pd.read_csv('data/samples/loan_data.csv')
loans.head(3)

In [None]:
loans.info()

In [None]:
loans.describe()

### Analisis Exploratorio de Datos (EDA)

**Histograma del Score FICO segun politica de credito**

In [None]:
plt.figure(figsize=(10,6))
loans[loans['credit.policy']==1]['fico'].hist(alpha=0.5,color='blue',
                                              bins=30,label='credit.policy=1')
loans[loans['credit.policy']==0]['fico'].hist(alpha=0.5,color='red',
                                              bins=30,label='credit.policy=0')
plt.legend()
plt.xlabel('Score FICO')

**Histograma del Score FICO segun la variable de pago**

In [None]:
plt.figure(figsize=(10,6))
loans[loans['not.fully.paid']==1]['fico'].hist(alpha=0.5,color='blue',
                                              bins=30,label='not.fully.paid=1')
loans[loans['not.fully.paid']==0]['fico'].hist(alpha=0.5,color='red',
                                              bins=30,label='not.fully.paid=0')
plt.legend()
plt.xlabel('FICO')

**Conteos por porposito del credito segun variable de pago**

In [None]:
plt.figure(figsize=(11,7))
sns.countplot(x='purpose',hue='not.fully.paid',data=loans,palette='Set1')

In [None]:
sns.jointplot(x='fico',y='int.rate',data=loans,color='purple')

**Grafico de tendencia lineal comparativa entre creditos pagados y no pagados para el puntaje FICO y la tasa de interes segun cumplimiento de politica**

In [None]:
plt.figure(figsize=(11,7))
sns.lmplot(y='int.rate',x='fico',data=loans,hue='credit.policy',
           col='not.fully.paid',palette='Set1')

In [None]:
# Toma tiempo
# g = sns.pairplot(loans, diag_kind ="kde")

# Transformar las Variables

In [None]:
loans.dtypes

La variable de proposito del credito es de tipo categorico, es necesario en los modelos convertir esas variables a columnas binarias segun el nivel de la variable (variables Dummies)

In [None]:
categ= ['purpose']

In [None]:
final_data = pd.get_dummies(loans,columns=categ,drop_first=True)

In [None]:
final_data.dtypes

In [None]:
final_data.head()

### Ajuste del Modelo de Arbol de Desicion

**Separacion del conjunto original en train y test**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X = final_data.drop('not.fully.paid',axis=1)
y = final_data['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=101)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

**Entrenamiento del Modelo**

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
dtree = DecisionTreeClassifier()

In [None]:
dtree.fit(X_train,y_train)

### Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
predictions = dtree.predict(X_test)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix

In [None]:
print(classification_report(y_test,predictions))

In [None]:
import sklearn.metrics as metrics
probs = dtree.predict_proba(X_test)
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve(y_test, preds)
roc_auc = metrics.auc(fpr, tpr)

In [None]:
plt.title('Curva ROC')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('Sensibilidad')
plt.xlabel('1-Especificidad')
plt.show()

### Ajuste del Modelo de Random Forest

**Entrenamiento del Modelo**

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rfc = RandomForestClassifier(n_estimators=600, n_jobs=-1, warm_start=True)

In [None]:
rfc.fit(X_train,y_train)

### Predicción y Evaluación
**Se miden las metricas sobre el conjunto test**

In [None]:
predictions = rfc.predict(X_test)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix

In [None]:
print(classification_report(y_test,predictions))

In [None]:
import sklearn.metrics as metrics
probs = rfc.predict_proba(X_test)
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve(y_test, preds)
roc_auc = metrics.auc(fpr, tpr)

In [None]:
plt.title('Curva ROC')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('Sensibilidad')
plt.xlabel('1-Especificidad')
plt.show()