# ENTENDIMIENTO DE LOS DATOS

El presente notebook busca ayudar a entender cuál es la tipologia de datos de las variables independientes, para estructurar el esquema de la base de datos y definir tratamientos posteriores a partir del dataset de prueba.

## SET UP

In [1]:
!pip install findspark

import findspark
findspark.init()



## LIBRERIAS

In [2]:
# Cargar Pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql.functions import *

spark = SparkSession.builder.appName("Test_spark").master("local[*]").getOrCreate()

In [3]:
from pyspark.sql.functions import *
from pyspark.sql import Window
from pyspark.sql.types import *

In [4]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## CARGAR DATOS

In [9]:
schema = StructType([
    StructField('periodo',StringType(), True),
    StructField('id_cli',StringType(), True),
    StructField('fecha_nacimiento',StringType(), True),
    StructField('edad',StringType(), True),
    StructField('genero',StringType(), True),
    StructField('estado_civil',StringType(), True),
    StructField('nivel_academico',StringType(), True),
    StructField('profesion',StringType(), True),
    StructField('ocupacion',StringType(), True),
    StructField('tipo_vivienda',StringType(), True),
    StructField('ult_actual',StringType(), True),
    StructField('categoria',StringType(), True),
    StructField('codigo_ciiu',StringType(), True),
    StructField('ind_mora_vigente',StringType(), True),
    StructField('cartera_castigada',StringType(), True),
    StructField('ciudad_residencia',StringType(), True),
    StructField('departamento_residencia',StringType(), True),
    StructField('ciudad_laboral',StringType(), True),
    StructField('departamento_laboral',StringType(), True),
    StructField('rechazo_credito',StringType(), True),
    StructField('mora_max',StringType(), True),
    StructField('cant_moras_30_ult_12_meses',StringType(), True),
    StructField('cant_moras_60_ult_12_meses',StringType(), True),
    StructField('cant_moras_90_ult_12_meses',StringType(), True),
    StructField('cupo_total_tc',StringType(), True),
    StructField('tenencia_tc',StringType(), True),
    StructField('cuota_tc_bancolombia',StringType(), True),
    StructField('tiene_consumo',StringType(), True),
    StructField('tiene_crediagil',StringType(), True),
    StructField('nro_tot_cuentas',StringType(), True),
    StructField('ctas_activas',StringType(), True),
    StructField('tiene_ctas_activas',StringType(), True),
    StructField('ctas_embargadas',StringType(), True),
    StructField('tiene_ctas_embargadas',StringType(), True),
    StructField('pension_fopep',StringType(), True),
    StructField('cuota_cred_hipot',StringType(), True),
    StructField('tiene_cred_hipo_1',StringType(), True),
    StructField('tiene_cred_hipo_2',StringType(), True),
    StructField('mediana_nom3',StringType(), True),
    StructField('mediana_pen3',StringType(), True),
    StructField('ingreso_nompen',StringType(), True),
    StructField('cat_ingreso',StringType(), True),
    StructField('ingreso_final',StringType(), True),
    StructField('cant_mora_30_tdc_ult_3m_sf',StringType(), True),
    StructField('cant_mora_30_consum_ult_3m_sf',StringType(), True),
    StructField('cuota_de_vivienda',StringType(), True),
    StructField('cuota_de_consumo',StringType(), True),
    StructField('cuota_rotativos',StringType(), True),
    StructField('cuota_tarjeta_de_credito',StringType(), True),
    StructField('cuota_de_sector_solidario',StringType(), True),
    StructField('cuota_sector_real_comercio',StringType(), True),
    StructField('cupo_tc_mdo',StringType(), True),
    StructField('saldo_prom3_tdc_mdo',StringType(), True),
    StructField('cuota_tc_mdo',StringType(), True),
    StructField('saldo_no_rot_mdo',StringType(), True),
    StructField('cuota_libranza_sf',StringType(), True),
    StructField('cant_oblig_tot_sf',StringType(), True),
    StructField('cant_cast_ult_12m_sr',StringType(), True),
    StructField('ind',StringType(), True),
    StructField('rep_calif_cred',StringType(), True),
    StructField('pol_centr_ext',StringType(), True),
    StructField('convenio_lib',StringType(), True),
    StructField('ingreso_nomina',StringType(), True),
    StructField('ingreso_segurida_social',StringType(), True),
    StructField('gasto_familiar',StringType(), True)
])

In [17]:
df = spark.read.option("header",True).option("inferschema",True).option("delimiter", ";").csv("input/dt2020_base_evaluar_semicolon.csv")

In [5]:
df = spark.read.csv("input/dt2020_base_evaluar_semicolon.csv",inferschema=True)

TypeError: csv() got an unexpected keyword argument 'inferschema'

In [13]:
df[["edad"]].describe().show()

+-------+------------------+
|summary|              edad|
+-------+------------------+
|  count|            281666|
|   mean| 43.41776703356966|
| stddev| 13.04667930330127|
|    min|18.455852156057496|
|    max| 99.63860369609856|
+-------+------------------+



In [18]:
df.dtypes

[('id_registro', 'string'),
 ('periodo', 'int'),
 ('id_cli', 'int'),
 ('fecha_nacimiento', 'int'),
 ('edad', 'double'),
 ('genero', 'string'),
 ('estado_civil', 'string'),
 ('nivel_academico', 'string'),
 ('profesion', 'string'),
 ('ocupacion', 'string'),
 ('tipo_vivienda', 'string'),
 ('ult_actual', 'int'),
 ('categoria', 'double'),
 ('codigo_ciiu', 'int'),
 ('ind_mora_vigente', 'string'),
 ('cartera_castigada', 'string'),
 ('ciudad_residencia', 'string'),
 ('departamento_residencia', 'string'),
 ('ciudad_laboral', 'string'),
 ('departamento_laboral', 'string'),
 ('rechazo_credito', 'string'),
 ('mora_max', 'double'),
 ('cant_moras_30_ult_12_meses', 'double'),
 ('cant_moras_60_ult_12_meses', 'double'),
 ('cant_moras_90_ult_12_meses', 'double'),
 ('cupo_total_tc', 'double'),
 ('tenencia_tc', 'string'),
 ('cuota_tc_bancolombia', 'double'),
 ('tiene_consumo', 'string'),
 ('tiene_crediagil', 'string'),
 ('nro_tot_cuentas', 'int'),
 ('ctas_activas', 'int'),
 ('tiene_ctas_activas', 'string'