# <font color=#003d5c>Análisis Exploratorio de Datos</font>

#### Importar la librerías necesarias para el tratamiento de datos

In [None]:
import pandas as pd
import numpy as np

#### Leer el fichero como un DataFrame

In [None]:
df = pd.read_csv('../data/DS_Churn_Banca_CLIENTE.csv')

#### Dar una revisión inicial de los Datos. Imprimir los 5 primeros registros

In [None]:
df.head()

#### Mostrar un resumen conciso del DataFrame

In [None]:
df.info()

#### Diccionario de Datos

|ROL|NOMBRE DE VARIABLE|DESCRIPCIÓN|CORTE|
|------|------|
|ID|ID_CORRELATIVO|ID Cliente correlativo|mes 0 = mes de referencia|
|Partición|CODMES|Mes de referencia|mes 0|
|Predictora|FLG_BANCARIZADO|Flag Bancarizado (1) / no bancarizado (0)|mes 0|
|Predictora|RANG_INGRESO|Ingreso estimado: rangos de menor hasta mayor ingreso (rang_ingreso_01, rang_ingreso_02, etc)|mes 0|
|Predictora|FLAG_LIMA_PROVINCIA|Lugar de residencia: Lima (1), provincia (0)|mes 0|
|Predictora|EDAD|Edad|mes 0|
|Predictora|ANTIGÜEDAD|Antigüedad|mes 0|
|Target|ATTRITION|Flag Attrition / deserción de clientes: attrition (1), No cae en attrition (0)|variable target|
|Predictora|RANG_SDO_PASIVO|Saldo ahorros: rangos de menor a mayor monto (cero, rango_sdo_01, rango_sdo_02, etc)|mes 0|
|Predictora|SDO_ACTIVO|Saldo / deuda en créditos|mes -5 hasta 0 = últimos 6 meses|
|Predictora|FLG_SEGURO|Flag tiene algún seguro: tiene seguro (1), no tiene seguro (0)|mes -5 hasta 0|
|Predictora|NRO_PRODUCTOS|Número de productos con la entidad: rangos de menor a mayor cantidad de productos (rango_01, rango_02, etc)|mes 0|
|Predictora|FLG_NOMINA|Flag nómina: si (1), no (0)|mes 0|
|Predictora|NRO_ACCES_CANAL1|Nro de operaciones por el canal 1|mes -5 hasta 0|
|Predictora|NRO_ACCES_CANAL2|Nro de operaciones por el canal 2|mes -5 hasta 0|
|Predictora|NRO_ACCES_CANAL3|Nro de operaciones por el canal 3|mes -5 hasta 0|
|Predictora|NRO_ENTID_SSFF|Nro de entidades en el sistema financiero|mes -5 hasta 0|
|Predictora|FLG_SDO_OTSSFF|Flag tiene saldo en otras entidades del sistema financiero: tiene saldo (1), no tiene saldo (0)|mes -5 hasta 0|

#### ¿Podemos optimizar el espacio del DataFrame? Claro. Con las siguientes líneas de código:
```python
int_columns = df.select_dtypes(include=[np.int64])
for col in int_columns:
    df[col] = pd.to_numeric(arg=df[col], downcast='integer')

float_columns = df.select_dtypes(include=[np.float64])
for col in float_columns:
    df[col] = pd.to_numeric(arg=df[col], downcast='float')
```

In [None]:
int_columns = df.select_dtypes(include=[np.int64]).columns.tolist()
for col in int_columns:
    df[col] = pd.to_numeric(arg=df[col], downcast='integer')

float_columns = df.select_dtypes(include=[np.float64]).columns.tolist()
for col in float_columns:
    df[col] = pd.to_numeric(arg=df[col], downcast='float')

<div class="alert alert-warning" role="alert">
  <strong>Nota:</strong> Para las variables del tipo `Object` lo podemos hacer con el método `as_type()` que permite castear una columna del dataframe a un tipo de dato, en este caso el tipo `category`.
</div>

#### ¿Se redujo el espacio que ocupa el DataFrame?

In [None]:
df.info()

#### Análisis Descriptivo de los datos

Mostrar las estadísticas descriptivas que resuman la tendencia central, la dispersión y la forma de la distribución los datos del DataFrame, excluyendo los valores NaN.

In [None]:
df.describe(percentiles=list(np.arange(0, 1, 0.1)), include='all')

#### Imprimir las distribuciones de los datos del tipo numérico (int, float)

<div class="alert alert-info" role="alert">
  <strong>Nota:</strong> Primero identificar las variables numéricas. No se debe considerar las variables `['ID_CORRELATIVO', 'CODMES', 'ATTRITION']`. Para ello podemos utilizar uno de los conceptos de las listas llamado `List Comprehensions`.
</div>
```python
list_3 = [col for col in list_1 if col not in list_2]
```

In [None]:
numeric_columns = int_columns + float_columns
numeric_columns = [col for col in numeric_columns if col not in ['ID_CORRELATIVO', 'CODMES', 'ATTRITION']]

In [None]:
for col in numeric_columns:
    print("--------- {0} --------- \n".format(col))
    print(df[col].value_counts(bins=5, normalize=True, sort=False, dropna=False), '\n')

#### Obtener los ratios de efectividad por rangos

In [None]:
df.groupby(pd.qcut(x=df['ANTIGUEDAD'], q=10, duplicates='drop')).agg({'ATTRITION': 'mean', 'ID_CORRELATIVO':'count'})

In [None]:
for col in float_columns:
    print("--------- {0} --------- \n".format(col))
    print(df.groupby(pd.qcut(x=df[col], q=10, duplicates='drop')).agg({'ATTRITION': 'mean', 'ID_CORRELATIVO':'count'}), '\n')

#### Imprimir las distribuciones de los datos del tipo categórico

In [None]:
str_columns = df.select_dtypes(include=[object]).columns.tolist()

In [None]:
for col in str_columns:
    print("--------- {0} --------- \n".format(col))
    print(df[col].value_counts(normalize=True, dropna=False), '\n')

#### Obtener los ratios de efectividad por categoría

In [None]:
for col in str_columns:
    print("--------- {0} --------- \n".format(col))
    print(df.groupby(col).agg({'ATTRITION': 'mean', 'ID_CORRELATIVO':'count'}), '\n')

### <font color=#003d5c>Visualización de Datos</font>

#### Importar la primera librería necesaria para la visualización de datos:
### <font color=#003d5c>1. Matplotlib</font>
<img src="../img/matplotlib_logo.png" />

In [None]:
import matplotlib.pyplot as plt

<div class="alert alert-info" role="alert">
  <strong>Info:</strong> Para permitir que los gráficos se muestren en el notebook se debe utilizar la siguiente `función mágica`:
</div>
```python
%matplotlib inline
```

In [None]:
%matplotlib inline

#### <font color=#003d5c>1.1. Histograma </font>

#### Graficar la distribución de la variable numérica <font color=#28a745>ANTIGUEDAD</font> tal como se muestra en la imagen:
La función plt.hist() te permite graficar la distribución de una arreglo de longitud n.
```python
plt.hist(x=df[col], bins=12, density=False, color='green', alpha=0.75)
```

In [None]:
n, bins, patches = plt.hist(x=df['ANTIGUEDAD'].dropna(), bins=12, density=True, color='green', alpha=0.75)
plt.xlabel('Antiguedad')
plt.ylabel('Densidad')
plt.title('Histograma de Antiguedad')
plt.axis([-0.5, 15, 0, 6000])
plt.grid(True)

In [None]:
print('Lista de bins:\n\t{}'.format(list(bins)), '\n')
print('Lista de cantidades:\n\t{}'.format(list(n)))

Se puede obtener lo mismo con el siguiente método de un DataFrame:
```python
df.hist(column=col, bins=12, density=False, color='green', alpha=0.75)
```

In [None]:
df.hist(column='ANTIGUEDAD', bins=12, density=False, color='green', alpha=0.75)
plt.xlabel('Antiguedad')
plt.ylabel('Densidad')
plt.title('Histograma de Antiguedad')
plt.axis([-0.5, 15, 0, 6000])

#### <font color=#003d5c>1.2. Diagrama de cajas </font>

In [None]:
x = plt.boxplot(x=df['EDAD'].dropna())

#### <font color=#003d5c>1.3. Diagrama de barras </font>

#### Graficar la distribución de la variable Target <font color=#28a745>ATTRITION</font> tal como se muestra en la imagen:
La función plt.bar() te permite gaficar la distribución de una variable categórica.
```python
plt.bar(x, height, color='green')
```

In [None]:
col = 'ATTRITION'
dfCat = df[col].value_counts(normalize=False, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
ind = np.arange(len(dfCat[col]))
bar = plt.bar(x=ind, height=dfCat['CNT'], color='green')
xticks = plt.xticks(ind, dfCat[col])

Para todas las variables categóricas

<div class="alert alert-warning" role="alert">
  <strong>Nota:</strong> Para poder manejar un layout personalizado usaremos el método `plt.subplot2grid()`.
</div>
```python
fig = plt.figure(figsize=(25, 20))
plt.subplot2grid(shape, loc, rowspan, colspan, fig)
```

In [None]:
fig, ax = plt.subplots(nrows=len(str_columns), ncols=1, figsize=(10, 30))
for i, col in enumerate(str_columns):
    dfCat = df[col].value_counts(normalize=False, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
    ind = np.arange(len(dfCat[col]))
    bar = ax[i].bar(x=ind, height=dfCat['CNT'], color='green', tick_label=dfCat[col])
    plt.sca(ax[i])

In [None]:
fig = plt.figure(figsize=(25, 20))
ax = [
       plt.subplot2grid((4, 3), (0, 0), colspan=1, fig=fig),
       plt.subplot2grid((4, 3), (0, 1), colspan=2, fig=fig),
       plt.subplot2grid((4, 3), (1, 0), colspan=3, fig=fig),
       plt.subplot2grid((4, 3), (2, 0), colspan=1, fig=fig),
       plt.subplot2grid((4, 3), (3, 0), colspan=3, fig=fig),
       plt.subplot2grid((4, 3), (2, 1), colspan=2, fig=fig),
          ]
for i, col in enumerate(str_columns):
    dfCat = df[col].value_counts(normalize=True, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
    ind = np.arange(len(dfCat[col]))
    bar = ax[i].bar(x=ind, height=dfCat['CNT'], color='green', tick_label=dfCat[col])
    plt.sca(ax[i])
    plt.xlabel(col)
    plt.ylabel('Densidad')
    plt.title('Distribución de variable {}'.format(col))

#### <font color=#003d5c>1.4. Gráfico Circular </font>


In [None]:
col = 'ATTRITION'
dfCat = df[col].value_counts(normalize=True, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
ind = np.arange(len(dfCat[col]))
fig = plt.figure(figsize=(5, 5))
patches, texts, autotexts = plt.pie(dfCat['CNT'], labels=dfCat[col], shadow=False, autopct='%.0f%%')

In [None]:
fig = plt.figure(figsize=(10, 32))
ax = [
       plt.subplot2grid((6, 2), (0, 0), colspan=1, fig=fig),
       plt.subplot2grid((6, 2), (0, 1), colspan=1, fig=fig),
       plt.subplot2grid((6, 2), (1, 0), colspan=2, rowspan=2, fig=fig),
       plt.subplot2grid((6, 2), (3, 0), colspan=1, fig=fig),
       plt.subplot2grid((6, 2), (4, 0), colspan=2, rowspan=2, fig=fig),
       plt.subplot2grid((6, 2), (3, 1), colspan=1, fig=fig),
          ]
for i, col in enumerate(str_columns):
    dfCat = df[col].value_counts(normalize=True, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
    ind = np.arange(len(dfCat[col]))
    patches, texts, autotexts = ax[i].pie(dfCat['CNT'], labels=dfCat[col], shadow=False, autopct='%.0f%%')

#### <font color=#003d5c>1.5. Scatter Plots </font>

In [None]:
N = len(df['ANTIGUEDAD'])
colors = np.random.rand(N)
area = (4 * np.random.rand(N))**2
plt.scatter(df['ANTIGUEDAD'], df['EDAD'], s=area, c=colors, alpha=0.5)
plt.xlabel('Antiguedad')
plt.ylabel('Edad')
plt.title('Relación Antiguedad - Edad')
plt.axis([-0.5, 15, 15, 90])
#plt.grid(True)

#### <font color=#003d5c>1.6. Ratios de Efectividad </font>

In [None]:
import matplotlib.patches as mpatches

In [None]:
dfRatio = df.groupby(pd.qcut(df['EDAD'], 10)).agg({'ATTRITION':'mean', 'ID_CORRELATIVO':'count'}).reset_index()

In [None]:
fig, ax1 = plt.subplots(figsize=(15, 5))
ind = np.arange(len(dfRatio['EDAD']))
b = plt.bar(x=ind, height=dfRatio['ID_CORRELATIVO'], color='paleturquoise', tick_label=dfRatio['EDAD'])
ax1.set_xlabel('Rangos de Edad')
ax1.set_ylabel('Cantidad')
ax1.tick_params('both')
ax2 = ax1.twinx()
r = ax2.plot(ind, dfRatio['ATTRITION'], 'r.--')
ax2.set_ylabel('Ratio de Efectividad', color='r')
ax2.tick_params('y', colors='r')
yaxis = ax2.axis(ymin=0, ymax=0.25)
title = plt.title('Ratios de Efectividad por Rangos de EDAD')
ax3 = ax1.twinx()
a = ax3.plot(ind, [df['ATTRITION'].mean()] * len(dfRatio['EDAD']),'-', color='darkblue')
yaxis = ax3.axis(ymin=0, ymax=0.25)
ax3.tick_params('y', colors='r')
edad_patch = mpatches.Patch(color='paleturquoise', label='Rango de Edad')
ratio_patch = mpatches.Patch(color='red', label='Ratio de Churn', linestyle='--')
average_patch = mpatches.Patch(color='darkblue', label='Promedio de Churn', linestyle='-')
legend = plt.legend(handles=[edad_patch, ratio_patch, average_patch])

#### <font color=#003d5c>1.7. Mapa de Calor</font>

In [None]:
fig = plt.figure(figsize=(15, 10))
sns.heatmap(df.corr(), linewidths=1.5)

#### Importar la segunda librería necesaria para la visualización de datos:
### <font color=#003d5c>2. Seaborn</font>
<img src="../img/seaborn_plots.png" />
```python
import seaborn as sns
```

In [None]:
import seaborn as sns

#### <font color=#003d5c>2.1. Histograma </font>
Un histograma representa la distribución de datos formando contenedores a lo largo del rango de los datos y luego dibujando barras para mostrar el número de observaciones que caen en cada contenedor.

In [None]:
ax = sns.distplot(df['EDAD'].dropna(), kde=False, rug=True)

<div class="alert alert-warning" role="alert">
  <strong>Nota:</strong> Al dibujar histogramas, la opción principal que tiene es la cantidad de bandejas que se deben usar y dónde ubicarlas. `distplot ()` usa una regla simple para adivinar cuál es el número correcto de forma predeterminada, pero al intentar más o menos ubicaciones puede revelar otras características en los datos.
</div>

In [None]:
ax = sns.distplot(df['EDAD'].dropna(), bins=20, kde=False, rug=True)

<div class="alert alert-info" role="alert">
  <strong>Info Adicional:</strong> La estimación de la densidad del núcleo (KDE) puede ser menos familiar, pero puede ser una herramienta útil para trazar la forma de una distribución. Al igual que el histograma, las representaciones de KDE codifican la densidad de las observaciones en un eje con la altura a lo largo del otro eje.
</div>

In [None]:
ax = sns.distplot(df['EDAD'].dropna(), hist=False, rug=True)

#### <font color=#003d5c>1.2. Diagrama de cajas </font>

In [None]:
sns.set_style("whitegrid")

In [None]:
ax = sns.boxplot(x=df['EDAD'].dropna())

In [None]:
fig = plt.figure(figsize=(17, 8))
ax = sns.boxplot(x="RANG_INGRESO", y="EDAD", data=df)

In [None]:
fig = plt.figure(figsize=(15, 10))
ax = sns.boxplot(x="RANG_INGRESO", y="EDAD", hue="ATTRITION", data=df, palette="Set3")

#### <font color=#003d5c>2.3. Diagrama de barras </font>

In [None]:
from numpy import mean, count_nonzero, std

In [None]:
fig = plt.figure(figsize=(15, 5))
g = sns.barplot(x="RANG_INGRESO", y="ATTRITION", data=df, estimator=mean)

#### <font color=#003d5c>2.4. Gráfico Circular </font>

#### <font color=#003d5c>2.5. Scatter Plots </font>

In [None]:
g = sns.pairplot(df.dropna(), hue="ATTRITION")

#### <font color=#003d5c>2.6. Ratios de Efectividad </font>

In [None]:
sns.set_style("whitegrid", {'axes.grid' : False})

In [None]:
fig, ax = plt.subplots(figsize=(15, 5))
g = sns.countplot(x="RANG_INGRESO", data=df, palette="GnBu_d")
ax1 = ax.twinx()
g = sns.pointplot(x="RANG_INGRESO", y="ATTRITION", data=df, markers=["o"], linestyles=["--"], color='red', ax=ax1, ci=None)

In [None]:
df['RANGO_EDAD_DECIL'] = pd.qcut(df['EDAD'], 10)

In [None]:
fig, ax = plt.subplots(figsize=(15, 5))
g = sns.countplot(x="RANGO_EDAD_DECIL", data=df, palette="GnBu_d")
ax1 = ax.twinx()
g = sns.pointplot(x="RANGO_EDAD_DECIL", y="ATTRITION", data=df, markers=["o"], linestyles=["--"], color='red', ax=ax1, ci=None)
#yaxis = ax1.axis(ymin=0, ymax=0.20)
g = plt.plot(range(len(df['RANGO_EDAD_DECIL'].unique()) - 1),(len(df['RANGO_EDAD_DECIL'].unique()) - 1) * [df['ATTRITION'].mean()], '-g')

#### Importar la tercera librería necesaria para la visualización de datos:
### <font color=#003d5c>3. Plotly</font>
<img src="../img/plotly_logo.png" />
```python
import plotly.plotly as py
```

In [None]:
import plotly.plotly as py

#### <font color=#003d5c>3.1. Histograma </font>
Un histograma representa la distribución de datos formando contenedores a lo largo del rango de los datos y luego dibujando barras para mostrar el número de observaciones que caen en cada contenedor.

In [None]:
import plotly.graph_objs as go

In [None]:
data = [go.Histogram(x=df['EDAD'].dropna(), histnorm='probability')]
py.iplot(data, filename='Histograma de la variable EDAD')

In [None]:
trace1 = go.Histogram(
    x=df.loc[df['ATTRITION'] == 0, 'EDAD'].dropna(),
    opacity=0.75,
    name='Attrition 0',
    xbins=dict(
        start=0,
        end=70,
        size=0.5
    ),
    marker=dict(
        color='#5bc0de',
    ),
)
trace2 = go.Histogram(
    x=df.loc[df['ATTRITION'] == 1, 'EDAD'].dropna(),
    opacity=0.75,
    name='Attrition 1',
    xbins=dict(
        start=0,
        end=70,
        size=0.5
    )    
)

data = [trace1, trace2]
layout = go.Layout(barmode='overlay',
                   title='Histograma de la variable EDAD',
                    xaxis=dict(
                        title='Edad'
                    ),
                    yaxis=dict(
                        title='Count'
                    ))

fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='histograma EDAD')

In [None]:
col = 'RANG_INGRESO'
dfCat = df[col].value_counts(normalize=True, dropna=False).reset_index().rename(columns={'index': col, col: 'CNT'})
fig = {
  "data": [
    {
      "values": dfCat['CNT'].tolist(),
      "labels": dfCat[col].tolist(),
      #"domain": {"x": [.52, 1]},
      "name": "Sexo",
      "hoverinfo":"label+percent+name",
      "hole": .4,
      "type": "pie"
    }],
  "layout": {
        "title":"Distribución de variables SEXO",
        "annotations": [
            {
                "font": {
                    "size": 20
                },
                "showarrow": False,
                "text": "SEXO",
                #"x": 0.8,
                #"y": 0.5
            }
        ]
    }
}
py.iplot(fig, filename='donut')

In [None]:
# boxplot, countplot, histogram, piechart, correlation_matrix (metric types), heatmap (null counts), Scatterplot Matrix 

# <font color=#003d5c>3.2 Preprocesamiento de Datos</font>


### 3.2.1. Formateo

In [None]:
# astype, pd.to_numeric (optimizacion), 

### 3.2.2. Limpieza

In [None]:
# Imputacion (https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/)

# <font color=#003d5c>3.3 Feature Engineering</font>


### 3.3.1. Estandarización

In [None]:
# Scala, Normalización, 

### 3.3.2. Descomposición

In [None]:
# Creatividad 

### 3.3.3. Agregación

# <font color=#003d5c>3.4 Ejercicio Práctico</font>
