# Exploración inicial del dataset.
## Descripción del negocio.
Vamos a trabajar con un dataset de otorgamiento de **créditos de consumo** y **créditos en efectivo** de una cadena de venta de electrodomésticos de Argentina.

El dataset cuenta con información del crédito y del cliente.

### Campos del crédito: comienzan con "tcre_".
* ``numero_sucursal`` número de la sucursal donde se concretó el crédito.
* ``fecha_vencimiento`` vencimiento de la cuota del crédito.
* ``cantidad_total_cuotas`` cuotas del crédito.
* ``importe_cuota`` importe de las cuotas del crédito.
* ``ultima_cuota_paga``: de la totalidad de cuotas, cuál fue la última que pagó.
* ``capital`` lo que el cliente se lleva.
* ``tna`` Tasa Nominal Anual.
* ``tem`` Tasa Efectiva Mensual.
* ``importe_interes`` intereses cobrados en base a las tasas.
* ``monto`` capital + interés.
* ``estado`` 1 = Al día, 2 = Incobrable, 3 = En legales, 4 = Cancelado, 5 = Anulado, 6 = Rescatado, 7 = Atrasado.
    * "3" y "2" sería "No pagado".
    * "4" o "5" sería "Pagado".
    * "1" y "6" deberían ser features para predecir si lo va a pagar a o no.
* ``tipo_credito`` Si es un crédito de consumo o en efectivo. E=Efectivo, F=Consumo.
* ``cartera`` dato interno para fideicomisos.
* ``categoria`` categoría del cliente al momento de sacar el crédito.**ELIMINARLO?**
* ``cobrador`` si tiene asignado un cobrador. **ELIMINARLO**
* ``acuerdo_pago`` si está sin pagar y se hizo un acuerdo de pago. **ELIMINARLO**
* ``cantidad_refinanciaciones`` cuántas veces fue refinanciado el crédito. **ELIMINARLO?**
* ``nueva_fecha_vencimiento`` en caso de que haya sido refinanciado. **ELIMINARLO?**
* ``financiador`` dato interno, es la entidad que financia el crédito. Es por temporada y no debería ser una feature. **ELIMINARLO**
* ``fecha_alta`` fecha de alta del crédito. Nos van a interesar las fechas importantes: día del niño, día de la madre, día del padre, Navidad, Reyes.
* ``fecha_pase_legales`` fecha en que el crédito pasó a legales. **ELIMINARLO**
* ``cartera_original`` dato interno, es la cartera de créditos en la que se lo incluyó. **ELIMINARLO**
* ``codigos_articulos_relacionados`` qué compró para sacar el crédito. El código 999993 es "Efectivo" y es redundante con tipo_credito = E.

### Campos del cliente: comienzan con "tcli_".

* ``categoria`` Categoría del cliente. **ELIMINARLO**
* ``cantidad_creditos`` Cantidad de créditos que sacó el cliente.
* ``sexo`` Sexo del cliente.
* ``fecha_nacimiento`` Fecha de nacimiento del cliente. Nos va a interesar la **edad**.
* ``sucursal_asociada`` Sucursal asociada al cliente, donde realizó su primera compra.
* ``categoria_vip`` Si el cliente es VIP y de qué tipo. El más importante es 4. **ELIMINARLO**
* ``ingresos`` Ingresos del cliente. Pueden estar desactualizados.
* ``codigo_provincia`` Provincia del cliente.
* ``codigo_nacionalidad`` Nacionalidad del cliente.
* ``localidad`` Localidad del cliente.
* ``codigo_postal`` Código postal del cliente.
* ``codigo_estado_civil`` Estado civil del cliente: B = CONCUBINO/A, C = CASADO/A, D = DIVORCIADO/A, P = SEPARADO/A, S = SOLTERO/A, V = VIUDO/A.

## Importación y visualización de los datos.

In [49]:
import pandas as pd

df = pd.read_csv('Data/datos_no_trabajados_2014_2017.csv')

  interactivity=interactivity, compiler=compiler, result=result)


In [50]:
df.head()

Unnamed: 0,tcre_numero_sucursal,tcre_fecha_vencimiento,tcre_nueva_fecha_vencimiento,tcre_cantidad_total_cuotas,tcre_importe_cuota,tcre_ultima_cuota_paga,tcre_monto,tcre_capital,tcre_estado,tcre_tipo_credito,...,tcli_sexo,tcli_fecha_nacimiento,tcli_sucursal_asociada,tcli_categoria_vip,tcli_ingresos,tcli_codigo_provincia,tcli_codigo_nacionalidad,tcli_localidad,tcli_codigo_postal,tcli_codigo_estado_civil
0,44,2015-09-02,2015-09-02,18,800.1,14,14401.8,7272.82,3,E,...,M,28/02/83,8,V1,14000,BUE,ARG,MONTE CHINGOLO,1825,S
1,11,2014-11-02,,6,261.5,6,1569.0,1336.82,4,F,...,M,27/11/54,11,,22000,BUE,ARG,LIBERTAD,1716,C
2,8,2015-02-02,2015-02-02,16,224.8,6,3596.8,2474.16,3,F,...,M,11/11/57,8,,12500,BUE,ARG,GUERNICA,1832,C
3,44,2014-11-02,,15,367.8,15,5517.0,3066.2,4,E,...,M,09/04/77,4,V4,25000,CAP,ARG,BELGRANO (CP: 1428),1428,S
4,83,2015-01-20,2015-01-20,3,471.8,3,1415.4,1289.98,4,F,...,F,08/09/58,83,,13500,BUE,ARG,LA PLATA,1901,C


In [51]:
df.columns

Index(['tcre_numero_sucursal', 'tcre_fecha_vencimiento',
       'tcre_nueva_fecha_vencimiento', 'tcre_cantidad_total_cuotas',
       'tcre_importe_cuota', 'tcre_ultima_cuota_paga', 'tcre_monto',
       'tcre_capital', 'tcre_estado', 'tcre_tipo_credito', 'tcre_cartera',
       'tcre_categoria', 'tcre_cobrador', 'tcre_cantidad_refinanciaciones',
       'tcre_acuerdo_pago', 'tcre_tna', 'tcre_tem', 'tcre_importe_interes',
       'tcre_financiador', 'tcre_fecha_alta', 'tcre_fecha_pase_legales',
       'tcre_cartera_original', 'tcre_codigos_articulos_relacionados',
       'tcli_categoria', 'tcli_cantidad_creditos', 'tcli_sexo',
       'tcli_fecha_nacimiento', 'tcli_sucursal_asociada', 'tcli_categoria_vip',
       'tcli_ingresos', 'tcli_codigo_provincia', 'tcli_codigo_nacionalidad',
       'tcli_localidad', 'tcli_codigo_postal', 'tcli_codigo_estado_civil'],
      dtype='object')

Es necesario limpiar estos estados para que sean del 1 al 6 y no haya inconsistencias.

In [54]:
df.shape

(2178517, 35)

In [69]:
df.dtypes

tcre_numero_sucursal                   object
tcre_fecha_vencimiento                 object
tcre_nueva_fecha_vencimiento           object
tcre_cantidad_total_cuotas             object
tcre_importe_cuota                     object
tcre_ultima_cuota_paga                 object
tcre_monto                             object
tcre_capital                           object
tcre_estado                            object
tcre_tipo_credito                      object
tcre_cartera                           object
tcre_categoria                         object
tcre_cobrador                          object
tcre_cantidad_refinanciaciones         object
tcre_acuerdo_pago                      object
tcre_tna                               object
tcre_tem                               object
tcre_importe_interes                   object
tcre_financiador                       object
tcre_fecha_alta                        object
tcre_fecha_pase_legales                object
tcre_cartera_original             

Es necesario tipificar correctamente estos datos porque todos están definidos como "object".

In [70]:
df.tcli_codigo_estado_civil.value_counts()

S                           1530456
C                            618495
D                             28593
B                               580
P                               192
V                                81
tcli_codigo_estado_civil          3
Name: tcli_codigo_estado_civil, dtype: int64

In [71]:
df.tcre_estado.value_counts()

4              1178561
1               593463
3               272721
2                44086
5                39454
4                26879
1                12412
3                 8681
6                 1080
5                  961
2                  215
tcre_estado          3
6                    1
Name: tcre_estado, dtype: int64

Eliminar datos inconsistentes.

In [66]:
mask_ec = df.tcli_codigo_estado_civil == 'tcli_codigo_estado_civil'
df[mask_ec]

Unnamed: 0,tcre_numero_sucursal,tcre_fecha_vencimiento,tcre_nueva_fecha_vencimiento,tcre_cantidad_total_cuotas,tcre_importe_cuota,tcre_ultima_cuota_paga,tcre_monto,tcre_capital,tcre_estado,tcre_tipo_credito,...,tcli_sexo,tcli_fecha_nacimiento,tcli_sucursal_asociada,tcli_categoria_vip,tcli_ingresos,tcli_codigo_provincia,tcli_codigo_nacionalidad,tcli_localidad,tcli_codigo_postal,tcli_codigo_estado_civil
608777,tcre_numero_sucursal,tcre_fecha_vencimiento,tcre_nueva_fecha_vencimiento,tcre_cantidad_total_cuotas,tcre_importe_cuota,tcre_ultima_cuota_paga,tcre_monto,tcre_capital,tcre_estado,tcre_tipo_credito,...,tcli_sexo,tcli_fecha_nacimiento,tcli_sucursal_asociada,tcli_categoria_vip,tcli_ingresos,tcli_codigo_provincia,tcli_codigo_nacionalidad,tcli_localidad,tcli_codigo_postal,tcli_codigo_estado_civil
1164778,tcre_numero_sucursal,tcre_fecha_vencimiento,tcre_nueva_fecha_vencimiento,tcre_cantidad_total_cuotas,tcre_importe_cuota,tcre_ultima_cuota_paga,tcre_monto,tcre_capital,tcre_estado,tcre_tipo_credito,...,tcli_sexo,tcli_fecha_nacimiento,tcli_sucursal_asociada,tcli_categoria_vip,tcli_ingresos,tcli_codigo_provincia,tcli_codigo_nacionalidad,tcli_localidad,tcli_codigo_postal,tcli_codigo_estado_civil
1752926,tcre_numero_sucursal,tcre_fecha_vencimiento,tcre_nueva_fecha_vencimiento,tcre_cantidad_total_cuotas,tcre_importe_cuota,tcre_ultima_cuota_paga,tcre_monto,tcre_capital,tcre_estado,tcre_tipo_credito,...,tcli_sexo,tcli_fecha_nacimiento,tcli_sucursal_asociada,tcli_categoria_vip,tcli_ingresos,tcli_codigo_provincia,tcli_codigo_nacionalidad,tcli_localidad,tcli_codigo_postal,tcli_codigo_estado_civil


### Dolarización.

In [62]:
dolar_cotizaciones = pd.read_excel('Data/com3500.xlsx', usecols=['Año','Mes','TC'])
dolar_cotizaciones

Unnamed: 0,Año,Mes,TC
0,2002,3,2.398900
1,2002,4,2.855100
2,2002,5,3.328700
3,2002,6,3.621300
4,2002,7,3.607100
...,...,...,...
215,2020,2,61.348400
216,2020,3,63.122700
217,2020,4,65.762000
218,2020,5,67.725500
