# **Preparacion de los datos**

Importamos las bibliotecas generales

In [51]:
import pandas as pd
import os

Cargamos los datos del dataframe de pandas y revisamos las categorias que contiene el dataset

In [52]:
df_raw = pd.read_csv('../data/raw/TasasCreditoVivienda.csv')

df_raw.dtypes

Tipo_Entidad                          int64
Nombre_Tipo_Entidad                  object
Codigo_Entidad                        int64
Nombre_Entidad                       object
Fecha_Corte                          object
Tipo_de_persona                      object
Sexo                                 object
Tamaño_de_empresa                    object
Tipo_de_crédito                      object
Tipo_de_garantía                     object
Producto de crédito                  object
Plazo de crédito                     object
Tasa_efectiva_promedio_ponderada    float64
margen_adicional                    float64
Montos_desembolsados                float64
Numero_de_creditos_desembolsados      int64
Grupo_Etnico                         object
Antiguedad_de_la_empresa             object
Tipo_de_Tasa                         object
Rango_monto_desembolsado             object
Clase_deudor                         object
Codigo_CIIU                         float64
Codigo_Municipio                

Guardamos nuestro dataset sin las columnas que no presentan informacion relevante para nuestro proyecto

In [53]:
df_processed = df_raw.drop(['Tipo_Entidad','Codigo_Entidad', 'Tamaño_de_empresa', 'Tipo_de_garantía', 'margen_adicional', 'Tipo_de_crédito','Antiguedad_de_la_empresa','Codigo_CIIU','Codigo_Municipio','Grupo_Etnico','Tipo_de_persona', 'Fecha_Corte','Tipo_de_Tasa'], axis=1)
df_processed.dtypes

Nombre_Tipo_Entidad                  object
Nombre_Entidad                       object
Sexo                                 object
Producto de crédito                  object
Plazo de crédito                     object
Tasa_efectiva_promedio_ponderada    float64
Montos_desembolsados                float64
Numero_de_creditos_desembolsados      int64
Rango_monto_desembolsado             object
Clase_deudor                         object
dtype: object

Eliminaremos tambien las filas que contengan creditos de tipo construccion, ya que el objetivo de este projecto esta enfocado en la adquisicion de vivienda.

In [54]:
df_processed.drop(df_processed[df_processed['Producto de crédito'] == 'Construcción de vivienda individual no vis (colocación en pesos)'].index, inplace=True)
df_processed.drop(df_processed[df_processed['Producto de crédito'] == 'Construcción de vivienda individual no vis (colocación en uvr)'].index, inplace=True)
df_processed.drop(df_processed[df_processed['Producto de crédito'] == 'Construcción de vivienda individual vis (colocación en uvr)'].index, inplace=True)
df_processed.drop(df_processed[df_processed['Producto de crédito'] == 'Construcción de vivienda individual vis (colocación en pesos)'].index, inplace=True)



Verificamos la cantidad de valores nulos que tenemos en nuestro dataset

In [55]:
df_processed.isnull().sum()

Nombre_Tipo_Entidad                     0
Nombre_Entidad                          0
Sexo                                    0
Producto de crédito                     0
Plazo de crédito                        0
Tasa_efectiva_promedio_ponderada        0
Montos_desembolsados                    0
Numero_de_creditos_desembolsados        0
Rango_monto_desembolsado            10395
Clase_deudor                        10395
dtype: int64

Como podemos observar, existen la misma cantidad de valores nulos en tres de nuestras columnas, por lo que resulta necesario eliminar estas filas ya que no poseen informacion valiosa para nuestro proyecto

In [56]:
df_processed.dropna(inplace=True)
df_processed.isnull().sum()

Nombre_Tipo_Entidad                 0
Nombre_Entidad                      0
Sexo                                0
Producto de crédito                 0
Plazo de crédito                    0
Tasa_efectiva_promedio_ponderada    0
Montos_desembolsados                0
Numero_de_creditos_desembolsados    0
Rango_monto_desembolsado            0
Clase_deudor                        0
dtype: int64

Corroboramos que tipo de informacion tenemos, para luego realizar un describe de las columnas que contienen datos cuantitativos para poder darnos una mejor idea de la información que esteremos manejando

In [57]:
df = pd.DataFrame(df_processed)
print(df.describe())

       Tasa_efectiva_promedio_ponderada  Montos_desembolsados  \
count                      42283.000000          4.228300e+04   
mean                          14.066161          1.731545e+08   
std                            4.375451          2.470808e+08   
min                            0.000000          2.313090e+05   
25%                           11.000000          6.465234e+07   
50%                           14.780000          1.081420e+08   
75%                           17.550000          2.000000e+08   
max                           24.030000          8.956500e+09   

       Numero_de_creditos_desembolsados  
count                      42283.000000  
mean                           1.597427  
std                            2.475830  
min                            1.000000  
25%                            1.000000  
50%                            1.000000  
75%                            1.000000  
max                           88.000000  


Una vez verificada toda la data procedemos a guardar nuestro conjunto de datos procesado en el directorio correspondiente

In [58]:
os.getcwd()

'c:\\Users\\Jhoan\\Documents\\Cursos\\Platzi\\Data Science\\Proyectos Data Science\\TasasCreditoVivienda\\notebooks'

In [59]:
df.to_csv('../data/processed/TasasCreditoViviendaClean.csv', index= None)