In [1]:
import pandas as pd



In [47]:
# Cargamos el archivo CSV
file_path = '../files/input/solicitudes_de_credito.csv'
data = pd.read_csv(file_path, sep=';')



In [48]:
data.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,0,masculino,comercio,fabrica de,prado,3,10.0,13/07/2018,5000000,microempresarial
1,1,femenino,servicio,recreativo-educativo,barrio caicedo,1,9.0,30/10/2017,6000000,microempresarial
2,2,femenino,comercio,tienda,aranjuez,2,4.0,3/08/2017,7300000,microempresarial
3,3,Masculino,comercio,variedades,cabecera san cristobal,3,60.0,20/11/2017,7000000,microempresarial
4,4,femenino,comercio,fabrica de,robledo,2,7.0,23/02/2017,5000000,microempresarial


In [49]:
data.dtypes

Unnamed: 0                  int64
sexo                       object
tipo_de_emprendimiento     object
idea_negocio               object
barrio                     object
estrato                     int64
comuna_ciudadano          float64
fecha_de_beneficio         object
monto_del_credito          object
línea_credito              object
dtype: object

In [50]:
data.shape

(10920, 10)

In [51]:
data.drop(['Unnamed: 0'], axis=1, inplace=True)

In [52]:
data.dtypes

sexo                       object
tipo_de_emprendimiento     object
idea_negocio               object
barrio                     object
estrato                     int64
comuna_ciudadano          float64
fecha_de_beneficio         object
monto_del_credito          object
línea_credito              object
dtype: object

In [53]:
# Verificamos la cantidad de valores faltantes (NA) en cada columna
data.isna().sum()

sexo                        0
tipo_de_emprendimiento    102
idea_negocio                0
barrio                    102
estrato                     0
comuna_ciudadano            0
fecha_de_beneficio          0
monto_del_credito           0
línea_credito               0
dtype: int64

In [54]:
data.dropna(inplace=True)
data.isna().sum()

sexo                      0
tipo_de_emprendimiento    0
idea_negocio              0
barrio                    0
estrato                   0
comuna_ciudadano          0
fecha_de_beneficio        0
monto_del_credito         0
línea_credito             0
dtype: int64

In [55]:
data.duplicated().sum()

np.int64(241)

In [56]:
data.drop_duplicates(inplace=True)
data.duplicated().sum()

np.int64(0)

In [57]:
data.shape

(10475, 9)

In [58]:
# Separar la fecha en día, mes y año
data[['día', 'mes', 'año']] = data['fecha_de_beneficio'].str.split('/', expand=True)

# Reordenar si el año tiene menos de 4 dígitos
data.loc[data['año'].str.len() < 4, ['día', 'año']] = data.loc[data['año'].str.len() < 4, ['año', 'día']].values

# Combinar el año, mes y día en una nueva columna
data['fecha_de_beneficio'] = data['año'] + '-' + data['mes'] + '-' + data['día']

data.drop(['día', 'mes', 'año'], axis=1, inplace=True)
data.head()

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,masculino,comercio,fabrica de,prado,3,10.0,2018-07-13,5000000,microempresarial
1,femenino,servicio,recreativo-educativo,barrio caicedo,1,9.0,2017-10-30,6000000,microempresarial
2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial
3,Masculino,comercio,variedades,cabecera san cristobal,3,60.0,2017-11-20,7000000,microempresarial
4,femenino,comercio,fabrica de,robledo,2,7.0,2017-02-23,5000000,microempresarial


In [59]:
# Limpiar las columnas de tipo object según las especificaciones dadas
object_columns = ['sexo', 'tipo_de_emprendimiento', 'idea_negocio', 'línea_credito']
data[object_columns] = data[object_columns].apply(lambda x: x.str.lower().replace(['-', '_'], ' ', regex=True).str.strip())

data.head()

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,masculino,comercio,fabrica de,prado,3,10.0,2018-07-13,5000000,microempresarial
1,femenino,servicio,recreativo educativo,barrio caicedo,1,9.0,2017-10-30,6000000,microempresarial
2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial
3,masculino,comercio,variedades,cabecera san cristobal,3,60.0,2017-11-20,7000000,microempresarial
4,femenino,comercio,fabrica de,robledo,2,7.0,2017-02-23,5000000,microempresarial


In [60]:
data['barrio'] = data['barrio'].str.lower().replace(['-', '_'], ' ', regex=True)

In [61]:
# Limpiar la columna 'monto_del_credito'
data['monto_del_credito'] = data['monto_del_credito'].str.replace("[$, ]", "", regex=True).str.strip()

# Convertir 'monto_del_credito' a numérico
data['monto_del_credito'] = pd.to_numeric(data['monto_del_credito'], errors='coerce')

# Convertir 'monto_del_credito' a entero (donde sea posible)
data['monto_del_credito'] = data['monto_del_credito'].fillna(0).astype(int)

# Convertir 'monto_del_credito' a texto y eliminar '.00'
data['monto_del_credito'] = data['monto_del_credito'].astype(str).str.replace('.00', '')

data.head()

Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,masculino,comercio,fabrica de,prado,3,10.0,2018-07-13,5000000,microempresarial
1,femenino,servicio,recreativo educativo,barrio caicedo,1,9.0,2017-10-30,6000000,microempresarial
2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial
3,masculino,comercio,variedades,cabecera san cristobal,3,60.0,2017-11-20,7000000,microempresarial
4,femenino,comercio,fabrica de,robledo,2,7.0,2017-02-23,5000000,microempresarial


In [62]:
data.dtypes

sexo                       object
tipo_de_emprendimiento     object
idea_negocio               object
barrio                     object
estrato                     int64
comuna_ciudadano          float64
fecha_de_beneficio         object
monto_del_credito          object
línea_credito              object
dtype: object

In [63]:
data.shape

(10475, 9)

In [64]:
data.duplicated().sum()

np.int64(269)

In [65]:
data.drop_duplicates(inplace=True)
data.duplicated().sum()
data.shape

(10206, 9)

In [66]:
data.tipo_de_emprendimiento.value_counts()

tipo_de_emprendimiento
comercio        5636
servicio        2205
industria       2201
agropecuaria     164
Name: count, dtype: int64

In [67]:
data.sexo.value_counts()

sexo
femenino     6617
masculino    3589
Name: count, dtype: int64

In [68]:
data.estrato.value_counts()

estrato
2    5023
3    3151
1    2029
0       3
Name: count, dtype: int64

In [69]:
data.línea_credito.value_counts()

línea_credito
microempresarial          10020
empresarial ed.              70
agropecuaria                 55
juridica y cap.semilla       33
credioportuno                21
fomento agropecuario          4
soli diaria                   1
solidaria                     1
ayacucho formal               1
Name: count, dtype: int64

In [70]:
data.barrio.value_counts()

barrio
robledo                   990
manrique central no. 1    483
san javier no.1           423
aranjuez                  383
belen                     376
                         ... 
loma de los bernal          1
carlos e. restrepo          1
brasilia                    1
travesias                   1
el llano                    1
Name: count, Length: 225, dtype: int64