# Módulo 1: Introducción al Análisis Exploratorio Parte 2.

En este notebook os sumergimos en algunos métodos de plotting comúnmente utilizados para el Análisis de datos exploratorios (EDA). 

Nuestros objetivos para EDA son explorar los datos de manera abierta y ver qué información podemos encontrar.

El propósito del enfoque EDA es:
- maximizar el entendimiento de un conjunto de datos.
- descubrir la estructura subyacente.
- extraer variables importantes.
- detectar outliers y anomalías.
- probar suposiciones.
- desarrollar modelos.
- determinar la configuraciones óptimas.

En este notebook investigaremos las siguientes técnicas de gráfico:

1. Gráfico de dispersión
1. Matriz de dispersión
1. Histograma
1. Gráfico de barra
1. Gráfico de caja
1. Series de tiempo

### Setup
<a id='setup'></a>

In [0]:
from datetime import datetime
import dateutil.parser
import re

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# El siguiente comando significa que la salida de varios comandos en una celda se emitirá de una vez vez
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# El siguiente comando le dice a jupyter que muestre hasta 80 columnas, esto mantiene todo visible
pd.set_option('display.max_columns', 80)
pd.set_option('expand_frame_repr', True)

sns.set_palette("hls")
%matplotlib inline

Con cada notebook, necesitamos leer en nuestro conjunto de datos.




In [0]:
path = '../data/'
filename = 'loans.csv'
df = pd.read_csv(path+filename)

In [0]:
df.head()

Antes de sumergirse en nuestro análisis exploratorio de datos, vale la pena reiterar que todo este proceso tiene que ver con la comprensión de la distribución de datos y las relaciones entre las diferentes características.

Cuando pasemos a utilizar algoritmos de machine learning, haremos una pregunta y trataremos de responderla utilizando las relaciones estadísticas entre las diferentes características de los datos. ¡El análisis EDA nos ayudará a dar forma a esta pregunta y tener una idea clara sobre cómo abordar la construcción del algoritmo!

Con esto en mente, veamos varios métodos de visualización para examinar los datos y cualquier relación entre las características ...

### 1. Gráfico de dispersión

Para comenzar, el gráfico de dispersión! Esta es una forma muy popular y poderosa de visualizar la relación entre dos características continuas. Esencialmente, este gráfico nos muestra cómo cambia la característica Y cuando se cambia la característica X. Si hay un patrón claro formado en el diagrama de dispersión, decimos que x e y están **correlacionados**. 

Hay varios resultados que vemos en un diagrama de dispersión:
- Lineal positivo = Cuando X aumenta, Y aumenta y los puntos de datos siguen una línea recta aproximada
- Lineal negativo = cuando X aumenta, y disminuye y los puntos de datos siguen una línea recta aproximada
- No lineal = Cuando X aumenta, hay un cambio constante en Y, pero esto no es lineal. Podría ser cuadrático o exponencial por ejemplo.
- No hay correlación = Cuando X aumenta, no hay un patrón claro sobre cómo cambia Y, los puntos de datos forman una distribución aleatoria.

Probemos esto en nuestros datos y escojamos dos variables continuas para graficar. Primero vamos a extraer todas las variables continuas de nuestro conjunto de datos.

In [0]:
numeric_vars = df.select_dtypes(include=[np.number]).columns.tolist()
for variable in numeric_vars:
    print(variable)

Para comenzar, veamos si existe una relación entre prestamista y préstamo, la intuición sugiere que los préstamos más grandes tienen más prestamistas. Si esto es cierto, lo veremos en el diagrama de dispersión.

In [0]:
ax = sns.regplot(x='lender_count', y='loan_amount', data=df)

¿Dónde siguen los datos la línea?

¿Dónde los datos __no__ siguen la línea?

¿Cuáles son las posibles razones por las que los datos __no__ sigan la línea?

-----
Exploremos otra relación.
------

¿Qué tal el plazo de amortización y el monto del préstamo?

¿Qué tipo de relación esperaría entre el plazo de amortización y el monto del préstamo?

In [0]:
ax = sns.regplot(x='repayment_term', 
                 y='loan_amount', 
                 data=df)

¿Dónde siguen los datos la línea?

¿Dónde los datos __no__ siguen la línea?

¿Cuáles son las posibles razones por las que los datos __no__ sigan la línea?

### 2. Matriz de dispersión

Cuando tengamos muchas variables continuas, podríamos revisarlas una por una para ver la relación o podríamos usar una matriz de dispersión. Esto crea un diagrama de dispersión entre cada combinación de variables en una lista.

Otra cualidad interesante de la matriz de dispersión es que las diagonales dan un histograma de la variable en cuestión.

In [0]:
# Vamos a elegir sólo un par de columnas para examinar:
columns = ['loan_amount', 'funded_amount',  'status']
num_df = df[columns]

# Quita las filas de NaN para que Seaborn pueda graficar
num_df = num_df.dropna(axis=0, how='any')

# Crea el diagrama de dispersión y colorea los puntos de datos por su estado.
sns.pairplot(num_df, hue='status');

In [0]:
num_df

¿Qué se puede decir de los datos?

<br>
<br>
<br>

### 4. Histograma

Un histograma es útil para observar la distribución de valores para una sola variable y también para identificar valores atípicos. Nos muestra el recuento de datos.

La gráfica a continuación muestra la distribución de datos de loan_amount utilizando barras y una línea continua. Sin entrar en demasiados detalles sobre el valor en el eje y, lo que podemos extraer de esto es que hay una mayor incidencia de préstamos pequeños (barra alta / peak en la línea) y que los préstamos grandes son mucho más raros (barra baja / bajada en la línea).

In [0]:
sns.distplot(df['loan_amount'].dropna(axis = 0));

In [0]:
# Echemos un vistazo a los menores de 5K
small_loans_df = df[(df['loan_amount'] < 5000)]
sns.distplot(small_loans_df['loan_amount']);

En cuanto a los préstamos de menos de 5000, vemos una distribución mucho más clara, aunque todavía está sesgada a la izquierda.

### 5. Gráfico de barra

Los gráficos de barras son útiles para comprender cómo los grupos categóricos son diferentes con respecto a una variable continua.


In [0]:
p = sns.barplot(x='sector', y = 'loan_amount', data=df, estimator=np.mean);
p.set(title='Average loan amount by sector')
p.set_xticklabels(p.get_xticklabels(), rotation=-45);

¿Qué sector es el más grande? ¿Por qué?

In [0]:
p = sns.barplot(x='sector', y = 'loan_amount', data=df, estimator=np.sum);
p.set(title='Total loan amount by sector')
p.set_xticklabels(p.get_xticklabels(), rotation=-45);

¿Qué sector es el más grande? ¿Por qué?
<br>
<br>

### 6. Diagramas de caja

Un diagrama de caja describe la distribución de datos basada en cinco números de resumen importantes: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo. En el diagrama de caja más simple, el rectángulo central abarca desde el primer cuartil hasta el tercer cuartil (el rango intercuartil o IQR). Un segmento dentro del rectángulo muestra la mediana y los "bigotes" arriba y debajo del cuadro muestran las ubicaciones de mínimo y máximo.

Usemos esto para ver la distribución de los conteos de prestatarios por cada sector para el estado de préstamo diferente para socios diferentes. Primero veamos cuántos préstamos provienen de diferentes socios.

In [0]:
df_retail = df[df.sector=='Retail']
df_retail.head()

In [0]:
sector = 'Retail'
df_retail = df[df.sector==sector]
p = sns.boxplot(x='sector', 
                y='loan_amount',
                data=df_retail);
p.set(title = f'Loan amounts for {sector}');
p.set_xticklabels(p.get_xticklabels(), rotation=-45);

Prueba esto: selecciona otros sectores y mira cómo se ven.

Aha! Podemos ver algunas diferencias aquí... ¡podemos ver diferentes tendencias para diferentes partners! Estudiaremos esto más a fondo en feature_engineering para ver cómo podemos usar esto para crear funciones poderosas.

### 7. Dependencia del tiempo
Muy a menudo es útil ver cómo cambia una variable con el tiempo. Esto significa crear una gráfica con el tiempo en el eje x y la variable en el eje y.

Veamos cómo el monto promedio del préstamo cambia con el tiempo mensualmente.

In [0]:
# Convertir la fecha publicada en un objeto datetime
time_column = 'funded_date'
df[time_column] = pd.to_datetime(df[time_column])

# Volver a muestrear la fecha en intervalos mensuales, tomando el promedio de loan_amount
# Esto crea una matriz donde el índice es la marca de tiempo y el valor es el promedio del monto del préstamo
time_data = df.resample('M', on=time_column)['loan_amount'].mean().fillna(0)
fig, ax = plt.subplots(figsize=(15,8))
ax.plot(time_data)
plt.title('Promedio de loan_amount en el tiempo');

Podemos observar diferentes tiempos cambiando el parámetro en la nueva muestra. ¡Miremos semanalmente!

In [0]:
# Volver a muestrear la fecha en intervalos semanales, tomando el promedio de loan_amount
# Esto crea una matriz donde el índice es la marca de tiempo y el valor es el promedio del monto del préstamo
time_data = df.resample('7D', on=time_column)['loan_amount'].mean().fillna(0)
fig, ax = plt.subplots(figsize=(15,8))
ax.plot(time_data)
plt.title('Mean loan_amount over time');

Lo que sigue
------

A continuación, pasamos a la ingeniería de características, donde creamos variables a partir de lo que hemos encontrado.


<br>
<br> 
<br>

----