In [157]:
import pandas as pd
import numpy as np

In [158]:
df = pd.read_csv("solicitudes_credito.csv", sep=";")
df.drop(columns="Unnamed: 0", inplace=True)

In [159]:
df.head()

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,masculino,COMERCIO,charcuteria,manrique central no. 2,1,3.0,28/12/2017,7000000,microempresarial
1,masculino,comercio,distribuidora de,santa lucia,2,12.0,16/03/2018,"$ 7,000,000.00",microempresarial
2,masculino,comercio,tienda,belen,3,16.0,2018/02/14,7800000,microempresarial
3,masculino,servicio,organización y,robledo,2,7.0,8/09/2016,1500000,microempresarial
4,masculino,servicio,COMIDAS RAPIDAS,20 de julio,2,13.0,20/12/2016,3000000,microempresarial


In [160]:
df.isna().sum(axis="index")

sexo                        0
tipo_de_emprendimiento    102
idea_negocio                0
barrio                    102
estrato                     0
comuna_ciudadano            0
fecha_de_beneficio          0
monto_del_credito           0
línea_credito               0
dtype: int64

In [161]:
df.dropna(inplace=True)

# primera limpieza

In [162]:
df["sexo"] = df["sexo"].str.lower()

df["sexo"].value_counts()

femenino     6927
masculino    3789
Name: sexo, dtype: int64

In [163]:
df["tipo_de_emprendimiento"] = df["tipo_de_emprendimiento"].str.lower()

df["tipo_de_emprendimiento"].value_counts()

comercio        5935
servicio        2311
industria       2296
agropecuaria     174
Name: tipo_de_emprendimiento, dtype: int64

In [164]:
df["idea_negocio"] = df["idea_negocio"].str.lower()
df["idea_negocio"] = df["idea_negocio"].str.replace(r"[\-_]", " ", regex=True)

df["idea_negocio"].value_counts()

fabrica de               1933
variedades               1768
tienda                   1037
comidas rapidas          1012
peluqueria                605
                         ... 
lenceria para el            5
alquiler de peliculas       5
venta de                    4
fabrica de traperos         3
pañalera                    2
Name: idea_negocio, Length: 75, dtype: int64

In [165]:
df["barrio"] = df["barrio"].str.lower()
df["barrio"] = df["barrio"].str.replace(r"[\-_]", " ", regex=True)

df["barrio"].value_counts()

robledo                   1044
manrique central no. 1     510
san javier no.1            449
aranjuez                   407
belen                      398
                          ... 
brasilia                     1
barrio colombia              1
san isidro                   1
fatima                       1
los angeles                  1
Name: barrio, Length: 225, dtype: int64

In [166]:
df["estrato"].value_counts()

2    5283
3    3298
1    2132
0       3
Name: estrato, dtype: int64

In [167]:
df["comuna_ciudadano"].value_counts()

4.0     1401
7.0     1194
9.0     1006
1.0      878
13.0     871
8.0      760
5.0      690
2.0      665
3.0      615
6.0      588
16.0     452
60.0     417
10.0     306
80.0     280
12.0     241
15.0     201
90.0      65
70.0      32
50.0      29
14.0      15
11.0      10
Name: comuna_ciudadano, dtype: int64

In [168]:
import warnings
warnings.filterwarnings("ignore")

pd.to_datetime(df["fecha_de_beneficio"])
df.loc[df["fecha_de_beneficio"].str.match(r"\d{4}\/\d{2}\/\d{1,2}") , "fecha_de_beneficio"] = pd.to_datetime(
    df.loc[df["fecha_de_beneficio"].str.match(r"\d{4}\/\d{2}\/\d{1,2}") , "fecha_de_beneficio"],
    format="%Y/%m/%d"
)

df.loc[~df["fecha_de_beneficio"].str.match(r"\d{4}\/\d{2}\/\d{1,2}").fillna(True) , "fecha_de_beneficio"] = pd.to_datetime(
    df.loc[~df["fecha_de_beneficio"].str.match(r"\d{4}\/\d{2}\/\d{1,2}").fillna(True) , "fecha_de_beneficio"],
    format="%d/%m/%Y"
)

df["fecha_de_beneficio"].value_counts()

2018-10-03    65
2018-10-11    63
2018-09-14    43
2018-10-26    42
2018-05-11    42
              ..
2016-09-17     1
2017-08-05     1
2019-01-02     1
2016-01-27     1
2016-01-05     1
Name: fecha_de_beneficio, Length: 795, dtype: int64

In [169]:
df["monto_del_credito"] = df["monto_del_credito"].str.replace(r"[$,]", "", regex=True)
df["monto_del_credito"] = pd.to_numeric(df["monto_del_credito"])

df["monto_del_credito"].value_counts()

7800000.0     1232
5000000.0     1101
7000000.0     1098
6000000.0      995
4000000.0      802
              ... 
6430800.0        1
17100000.0       1
7860000.0        1
6690000.0        1
251102.0         1
Name: monto_del_credito, Length: 277, dtype: int64

In [170]:
df["línea_credito"] = df["línea_credito"].str.lower()
df["línea_credito"] = df["línea_credito"].str.replace(r"[\-_]", " ", regex=True)

df["línea_credito"].value_counts()

microempresarial          10522
empresarial ed.              72
agropecuaria                 58
juridica y cap.semilla       33
credioportuno                23
fomento agropecuario          5
solidaria                     1
soli diaria                   1
ayacucho formal               1
Name: línea_credito, dtype: int64

# segunda limpieza

In [174]:
df.drop_duplicates(inplace=True)

In [175]:
for col in df.columns:
    print(f"{col}: {df[col].value_counts().sum()}")

# deben sumar 10206

sexo: 10206
tipo_de_emprendimiento: 10206
idea_negocio: 10206
barrio: 10206
estrato: 10206
comuna_ciudadano: 10206
fecha_de_beneficio: 10206
monto_del_credito: 10206
línea_credito: 10206


In [176]:
df.query("monto_del_credito < 100000")["monto_del_credito"].value_counts()

# a pesar de que estos valores de credito no tienen sentido, no se pueden eliminar ya que al hacer el value_counts 
# la serie resultante tendria menos registros de los que tiene el test

780.0      3
6.0        1
2000.0     1
60.0       1
700.0      1
36.0       1
2.0        1
14.0       1
10.0       1
7.0        1
43000.0    1
Name: monto_del_credito, dtype: int64