In [1]:
import pandas as pd

In [2]:
df_credit_req = pd.read_csv("../files/input/solicitudes_de_credito.csv", sep=";", index_col=0)
df_credit_req.sample(5)

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
9485,femenino,servicio,peluqueria,SANTO DOMINGO SAVIO,1,1.0,3/10/2018,3000000,microempresarial
3221,femenino,industria,fabrica_de_,cabecera san antonio,3,80.0,27/09/2017,7000000,microempresarial
41,masculino,INDUSTRIA,fabrica de,belen,2,16.0,24/05/2016,6500000,microempresarial
9904,masculino,SERVICIO,barberia,popular,1,1.0,1/06/2017,7377000,microempresarial
9097,FEMENINO,servicio,variedades,san javier no.1,2,13.0,28/03/2017,7370000,microempresarial


In [3]:
df_credit_req = df_credit_req.dropna(how="any")
df_credit_req.sample(5)

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
3353,masculino,servicio,restaurante,santa lucia,3,12.0,15/01/2019,4000000,microempresarial
1759,femenino,servicio,panaderia,cabecera san antonio,2,80.0,26/08/2016,6000000,Microempresarial
1383,femenino,industria,fabrica de,belencito,2,13.0,8/02/2018,7370000,microempresarial
7673,femenino,comercio,distribuidora de,robledo,2,7.0,22/11/2016,4000000,microempresarial
829,femenino,servicio,restaurante,aranjuez,3,4.0,1/12/2016,4000000,microempresarial


In [4]:
for col in df_credit_req.columns:
    print(f"=== Frecuencias de '{col}' ===")
    print(df_credit_req[col].value_counts(dropna=False)) 
    print("\n" + "="*40 + "\n")

=== Frecuencias de 'sexo' ===
sexo
femenino     6660
masculino    3627
FEMENINO      161
Femenino      117
MASCULINO      85
Masculino      66
Name: count, dtype: int64


=== Frecuencias de 'tipo_de_emprendimiento' ===
tipo_de_emprendimiento
comercio        5697
servicio        2227
industria       2214
COMERCIO         173
agropecuaria     169
INDUSTRIA         75
Comercio          55
SERVICIO          54
Servicio          27
Industria         20
AGROPECUARIA       5
Name: count, dtype: int64


=== Frecuencias de 'idea_negocio' ===
idea_negocio
fabrica de              1724
variedades              1668
tienda                   974
comidas rapidas          891
peluqueria               572
                        ... 
Venta De Lacteos           1
Lavadero De                1
fabrica_de_colchones       1
viveros_                   1
Gimnasio                   1
Name: count, Length: 211, dtype: int64


=== Frecuencias de 'barrio' ===
barrio
robledo                   992
manrique central no

In [5]:
def clean_string(s: str):
    tmp = s.upper()
    ans = tmp.replace("_", " ").replace(".", " ").replace("-", " ")
    return " ".join(ans.split()).strip()


In [9]:
df_clean = df_credit_req.copy().dropna()
# Limpieza de columna 'sexo'
df_clean["sexo"] = df_clean["sexo"].str.upper().astype("category")
# Limpieza de columna 'tipo_de_emprendimiento'
df_clean["tipo_de_emprendimiento"] = df_clean["tipo_de_emprendimiento"].apply(clean_string).astype("category")
# Limpieza de columna 'monto_del_credito'
df_clean["monto_del_credito"] = df_clean["monto_del_credito"].str.removeprefix("$ ").str.replace(",", "").astype("float")
# Limpieza de columna 'estrato'
df_clean["estrato"] = df_clean["estrato"].astype("category")
# Limpieza de columna 'barrio'
df_clean["barrio"] = df_clean["barrio"].str.upper().str.replace("_", " ").str.replace("-", " ").astype("category")
# Limpieza de columna 'idea_negocio'
df_clean["idea_negocio"] = df_clean["idea_negocio"].apply(clean_string).astype("category")
# Limpieza columna 'comuna_ciudadano'
df_clean["comuna_ciudadano"] = df_clean["comuna_ciudadano"].astype(int).astype("category")
# Limpieza columna 'línea_credito'
df_clean["línea_credito"] = df_clean["línea_credito"].apply(clean_string).astype("category")
# Limpieza columna 'fecha_de_beneficio'
df_clean["fecha_de_beneficio"] = pd.to_datetime(df_clean['fecha_de_beneficio'], dayfirst=True, format="mixed")

In [10]:
df_clean.drop_duplicates(inplace=True)
df_clean.sample(5)

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
1642,FEMENINO,SERVICIO,PELUQUERIA,ARANJUEZ,3,4,2017-03-27,3500000.0,MICROEMPRESARIAL
7123,FEMENINO,SERVICIO,PELUQUERIA,VILLA GUADALUPE,2,1,2017-08-01,7000000.0,MICROEMPRESARIAL
847,MASCULINO,COMERCIO,TIENDA,BUENOS AIRES,3,9,2019-04-10,8281000.0,MICROEMPRESARIAL
413,FEMENINO,INDUSTRIA,FABRICA DE,ANDALUCIA,2,2,2018-07-11,1500000.0,MICROEMPRESARIAL
6800,MASCULINO,SERVICIO,VARIEDADES,BARRIO CAICEDO,2,9,2017-07-07,7377000.0,MICROEMPRESARIAL


In [11]:
df_clean.to_csv('../files/output/solicitudes_de_credito.csv', sep=';', index=False)