
# <center>  Proyecto Final - Fase 1  </center>

## Descripción
En esta fase se explicará el proyecto y se realizará la carga de los datos. Además se implementará el correspondiente análisis exploratorio de datos (EDA)
  
<img alt="Caution" title="Caution" style="vertical-align: text-bottom; position: relative; height:1.3em; top:0.0em" src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/icons/danger.png"/>

## Problema de negocio

    
Un problema imperante en el entorno bancario a nivel global se enfoca en el riesgo crediticio o riesgo de impago. 
  
Este aspecto hace refencia a las pérdidas que incurren los bancos dado que los prestamistas son incapaces de devolver los créditos otorgados. 

Lo cual conlleva la siguiente pregunta: **¿Cómo poder reducir el número de personas que caen en mora crediticia?** 

## Objetivos del proyecto


El objetivo de este proyecto es construir un modelo que las entidades financieras puedan usar para ayudar a tomar las mejores decisiones financieras.

Este modelo identificará la probabilidad de caer en mora crediticia por parte de los clientes que recibieron un crédito (modelos de default comportamentales).

Mediante el uso de diferentes algoritmos se obtendrá la probabilidad de impago en cada individuo. El principal indicador que se va usar para ver la bonanza de los distintos modelos va a ser el AUC (Area Under the Curve) generado por las curvas ROC.

## Importar librerías y verificar versiones

In [0]:
import sys
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

In [0]:
print('** Versiones Actuales | Requeridas **')
print('Python:\nVersion Actual:', sys.version, ' | Requerida >= 3.6')
print('NumPy:\nVersion Actual: {:10} | Requerida >= 1.16.2'.format(np.__version__))
print('Pandas:\nVersion Actual: {:10}| Requerida >= 1.0.1'.format(pd.__version__))
print('Matplotlib:\nVersion Actual: {:10} | Requerida >= 3.0.3'.format(matplotlib.__version__))
print('Seaborn:\nVersion Actual: {:10} |Requerida >= 0.9.0 '.format(sns.__version__))

## Descripción de las variables contenidas en el _dataset_


El _dataset_ usado proviene de la plataforma **Kaggle**, y se encuentra separado en dos partes. 

La primera parte contiene los datos que serán usados para el entrenamiento del modelo, que serán nombrados como *datos_training*. La segunda parte son los datos que se usarán para el test del modelo *datos_test*. Estas muestras contienen 150.000 y 101.503 registros, respectivamente (aunque existen algunos campos que tienen distintos valores ausentes). 

Accesso a la Competencia **Give Me Some Credit:** [Link de acceso](https://www.kaggle.com/c/GiveMeSomeCredit/overview)

Link de descarga correspondiente a cada dataset: 
* [training data](https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/Proyecto%20Final/cs-training.csv)
* [test data](https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/Proyecto%20Final/cs-test.csv)

* **SeriousDlqin2yrs:** Persona que tiene 90 días de morosidad vencida o peor (Si = 1 y  No = 0)
* **RevolvingUtilizationOfUnsecuredLines:** El saldo total en tarjetas de crédito y líneas de crédito personales (excepto bienes inmuebles y sin deuda a plazos) sobre la suma de los límites de crédito
* **Age:** Edad prestamista en años 
* **NumberOfTime30-59DaysPastDueNotWorse:** Número de veces que el prestatario ha caido en mora entre 30 y 59 días, pero no ha empeorado en los últimos 2 años 
* **DebtRatio:** Pagos mensuales de deuda sobre el ingreso bruto mensual 
* **MonthlyIncome:** Ingreso mensual 
* **NumberOfOpenCreditLinesAndLoans:** Número de préstamos abiertos (cuotas como préstamos para automóviles o hipotecas) y líneas de crédito 
* **NumberOfTimes90DaysLate:** Número de veces que el prestatario ha caido en mora entre 90 días o más 
* **NumberRealEstateLoansOrLines:** Número de préstamos hipotecarios e inmobiliarios, incluidas las líneas de crédito hipotecario 
* **NumberOfTime60-89DaysPastDueNotWorse:** Número de veces que el prestatario ha caido en mora entre 60 y 89 días, pero no ha empeorado en los últimos 2 años 
* **NumberOfDependents:** Número de dependientes en la familia excluyendose a si mismos (ej: cónyuge, hijos, etc.)

## Carga de los datos

In [0]:
%fs ls /FileStore/tables/

path,name,size
dbfs:/FileStore/tables/Base_de_datos_2020.csv,Base_de_datos_2020.csv,5981378
dbfs:/FileStore/tables/Cobros_totales_reales.csv,Cobros_totales_reales.csv,1425725
dbfs:/FileStore/tables/Concentrado_Ultro_n_DB.csv,Concentrado_Ultro_n_DB.csv,11761189
dbfs:/FileStore/tables/Datos_MTK_Clientes.csv,Datos_MTK_Clientes.csv,218587
dbfs:/FileStore/tables/GSC_df_limpio.csv,GSC_df_limpio.csv,8363827
dbfs:/FileStore/tables/Madrid_airbnb_dataset_limpio.csv,Madrid_airbnb_dataset_limpio.csv,1028370
dbfs:/FileStore/tables/Messy_data_califications.csv,Messy_data_califications.csv,2203
dbfs:/FileStore/tables/NY_italian_restaurants.csv,NY_italian_restaurants.csv,5042
dbfs:/FileStore/tables/OnlineRetail.csv,OnlineRetail.csv,46133213
dbfs:/FileStore/tables/PWT9.csv,PWT9.csv,754141


In [0]:
dbutils.fs.cp("dbfs:/FileStore/tables/cs_training.csv", "file:/FileStore/tables/cs_training.csv")

In [0]:
dbutils.fs.cp("dbfs:/FileStore/tables/cs_test.csv", "file:/FileStore/tables/cs_test.csv")

In [0]:
# Colocar la ruta del directorio correspondiente a cada dataset
ruta_training = "file:/FileStore/tables/cs_training.csv"
ruta_test     = "file:/FileStore/tables/cs_test.csv"

In [0]:
# Lectura de los datos usando pandas (creación de DataFrames)
datos_training = pd.read_csv(ruta_training, sep = ',', decimal = '.', index_col = 0)
datos_test     = pd.read_csv(ruta_test,     sep = ',', decimal = '.', index_col = 0)

## Revisión preliminar de los datasets

**Importante:** Realizar un comparativa entre el conjunto de datos de entrenamiento y test ejecutando las siguientes instrucciones

In [0]:
# Imprimir las 10 primera filas de los datos de entrenamiento (usar el método head)


In [0]:
# Imprimir las 10 últimas filas de los datos de test (usar el método tail)


In [0]:
# Imprimir el número de filas y columnas de ambos datasets


In [0]:
# Imprimir los tipos de datos de cada columna en el dataset de entrenamiento


In [0]:
# Imprimir los tipos de datos de cada columna en el dataset de test


## Análisis exploratorio de datos

Los siguientes bloques de código nos vamos a enfocar en analizar el DataFrame `datos_training`.

**Importante:** Ejecutar las instrucciones e interpretar los resultados

### Análisis de valores duplicados

In [0]:
# Contabilizar filas duplicadas en todas sus columnas empleando los métodos duplicated() y value_counts() en el DataFrames datos_training
datos_training.duplicated(subset=None, keep='first').value_counts()

### Análisis de valores perdidos

In [0]:
# Identificar el número de filas con valores perdidos por cada columna con los métodos isnull() y sum() en el DataFrames datos_training
datos_training.isnull().sum()

### Análisis univariante

**Importante:** Ejecutar las instrucciones e interpretar los resultados

In [0]:
# Analizar las principales estadísticas descriptivas de cada columna en el DataFrame datos_training (usar el método describe)


In [0]:
# Crear un gráfico de barras de las categorías en la variable SeriousDlqin2yrs usando la función display en el DataFrame datos_training  
display(datos_training)

SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
1,0.7661266090000001,45,2,0.8029821290000001,9120.0,13,0,6,0,2.0
0,0.957151019,40,0,0.1218762009999999,2600.0,4,0,0,0,1.0
0,0.65818014,38,1,0.085113375,3042.0,2,1,0,0,0.0
0,0.233809776,30,0,0.036049682,3300.0,5,0,0,0,0.0
0,0.9072394,49,1,0.024925695,63588.0,7,0,1,0,0.0
0,0.2131786819999999,74,0,0.375606969,3500.0,3,0,1,0,1.0
0,0.305682465,57,0,5710.0,,8,0,3,0,0.0
0,0.754463648,39,0,0.2099400169999999,3500.0,8,0,0,0,0.0
0,0.116950644,27,0,46.0,,2,0,0,0,
0,0.189169052,57,0,0.606290901,23684.0,9,0,4,0,2.0


In [0]:
# Realizar un conteo de las categorías en la variable SeriousDlqin2yrs (Pista usar: value_counts)


Con el dataframe **datos_training**, realizar el siguiente análisis para la variable `MonthlyIncome`

In [0]:
ingresos = datos_training.MonthlyIncome

In [0]:
# Analizar las principales estadísticas descriptivas de la columna ingresos


In [0]:
# Crear un histograma de la variable ingresos (usar la librería seaborns)


In [0]:
# Obtener los deciles de la variable ingresos


In [0]:
# Crear un box-plot la variable ingresos (usar la librería seaborns)


### Análisis multivariante

**Importante:** Ejecutar las instrucciones e interpretar los resultados

In [0]:
# Agrupar el dataframe datos_training por la variable SeriousDlqin2yrs y emplear como formas de agregación el promedio y la mediana


Matriz de correlaciones

In [0]:
# Generar la matriz de correlaciones entre las variables del DataFrame datos_training
matriz_corr = 
matriz_corr

In [0]:
# Graficar la matriz de correlaciones
plt.figure(figsize=(10,10))
sns.heatmap(round(matriz_corr, 2), annot=True, fmt=".2g",
            cmap = sns.light_palette("darkblue", as_cmap=True))

## Hallazgos a partir del análisis exploratorio de datos

En el DataFrame **datos_training** se destacan los siguientes aspectos:
- H1 
- H2
- H3


<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/headers/databits-footer-notebook.png" alt="Databricks Learning" style="width: 100%;">
</div>