In [1]:
import os
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../files/input/solicitudes_de_credito.csv', delimiter=';', encoding="utf-8")
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,0,masculino,comercio,fabrica de,prado,3,10.0,13/07/2018,5000000,microempresarial
1,1,femenino,servicio,recreativo-educativo,barrio caicedo,1,9.0,30/10/2017,6000000,microempresarial
2,2,femenino,comercio,tienda,aranjuez,2,4.0,3/08/2017,7300000,microempresarial
3,3,Masculino,comercio,variedades,cabecera san cristobal,3,60.0,20/11/2017,7000000,microempresarial
4,4,femenino,comercio,fabrica de,robledo,2,7.0,23/02/2017,5000000,microempresarial


In [3]:
# Normalización de las columnas con datos categóricos
categorical_columns = ['sexo', 'tipo_de_emprendimiento', 'idea_negocio', 'barrio', 'línea_credito']
df[categorical_columns] = df[categorical_columns].apply(lambda x: x.str.lower().replace([" ", "-", "_", "à", "è", "ì", "ò", "ù", "ñ"], "", regex=True))


In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,0,masculino,comercio,fabricade,prado,3,10.0,13/07/2018,5000000,microempresarial
1,1,femenino,servicio,recreativoeducativo,barriocaicedo,1,9.0,30/10/2017,6000000,microempresarial
2,2,femenino,comercio,tienda,aranjuez,2,4.0,3/08/2017,7300000,microempresarial
3,3,masculino,comercio,variedades,cabecerasancristobal,3,60.0,20/11/2017,7000000,microempresarial
4,4,femenino,comercio,fabricade,robledo,2,7.0,23/02/2017,5000000,microempresarial


In [5]:
df.columns

Index(['Unnamed: 0', 'sexo', 'tipo_de_emprendimiento', 'idea_negocio',
       'barrio', 'estrato', 'comuna_ciudadano', 'fecha_de_beneficio',
       'monto_del_credito', 'línea_credito'],
      dtype='object')

In [6]:
df.sexo.value_counts()


sexo
femenino     7078
masculino    3842
Name: count, dtype: int64

In [7]:
# Calcular la cantidad de valores NA en cada columna del DataFrame
na_counts = df.isna().sum()
na_counts

Unnamed: 0                  0
sexo                        0
tipo_de_emprendimiento    102
idea_negocio                0
barrio                    102
estrato                     0
comuna_ciudadano            0
fecha_de_beneficio          0
monto_del_credito           0
línea_credito               0
dtype: int64

In [8]:
# Filtrar filas
df = df[df['tipo_de_emprendimiento'].notna() & (df['tipo_de_emprendimiento'] != "")]
df = df[df['barrio'].notna() & (df['barrio'] != "")]

In [9]:
# Calcular la cantidad de valores NA en cada columna del DataFrame
na_counts = df.isna().sum()
na_counts

Unnamed: 0                0
sexo                      0
tipo_de_emprendimiento    0
idea_negocio              0
barrio                    0
estrato                   0
comuna_ciudadano          0
fecha_de_beneficio        0
monto_del_credito         0
línea_credito             0
dtype: int64

In [10]:
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito
0,0,masculino,comercio,fabricade,prado,3,10.0,13/07/2018,5000000,microempresarial
1,1,femenino,servicio,recreativoeducativo,barriocaicedo,1,9.0,30/10/2017,6000000,microempresarial
2,2,femenino,comercio,tienda,aranjuez,2,4.0,3/08/2017,7300000,microempresarial
3,3,masculino,comercio,variedades,cabecerasancristobal,3,60.0,20/11/2017,7000000,microempresarial
4,4,femenino,comercio,fabricade,robledo,2,7.0,23/02/2017,5000000,microempresarial


In [11]:
df.monto_del_credito.value_counts()

monto_del_credito
7800000           1167
7000000           1054
5000000           1035
6000000            946
4000000            759
                  ... 
250000               1
4980000              1
$ 6,100,000.00       1
17236350             1
80000000             1
Name: count, Length: 332, dtype: int64

In [27]:
# Limpiar la columna 'monto_del_credito'
df['monto_del_credito'] = df['monto_del_credito'].str.replace("[$, ]", "", regex=True).str.strip()

# Convertir 'monto_del_credito' a numérico
df['monto_del_credito'] = pd.to_numeric(df['monto_del_credito'], errors='coerce')

# Convertir 'monto_del_credito' a entero (donde sea posible)
df['monto_del_credito'] = df['monto_del_credito'].fillna(0).astype(int)

# Convertir 'monto_del_credito' a texto y eliminar '.00'
df['monto_del_credito'] = df['monto_del_credito'].astype(str).str.replace('.00', '')

In [28]:
df.monto_del_credito.value_counts()

monto_del_credito
7800000     1179
7000000     1060
5000000     1049
6000000      945
4000000      760
            ... 
400000         1
8821000        1
35000000       1
237976         1
80000000       1
Name: count, Length: 277, dtype: int64

In [14]:
# Separar la fecha en día, mes y año
df[['día', 'mes', 'año']] = df['fecha_de_beneficio'].str.split('/', expand=True)



In [15]:
df.año.value_counts()

año
2018    3964
2017    3330
2016    1942
2019     802
25        38
23        34
8         29
15        28
26        27
7         27
6         26
24        25
5         25
14        24
13        24
3         23
28        23
10        22
22        21
20        21
1         21
4         21
21        21
27        21
2         19
18        19
9         18
16        18
30        18
19        17
31        16
12        15
29        13
11        13
17        11
Name: count, dtype: int64

In [16]:
# Reordenar si el año tiene menos de 4 dígitos
df.loc[df['año'].str.len() < 4, ['día', 'año']] = df.loc[df['año'].str.len() < 4, ['año', 'día']].values

# Combinar el año, mes y día en una nueva columna
df['fecha_de_beneficio'] = df['año'] + '-' + df['mes'] + '-' + df['día']

In [17]:
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito,día,mes,año
0,0,masculino,comercio,fabricade,prado,3,10.0,2018-07-13,5000000,microempresarial,13,7,2018
1,1,femenino,servicio,recreativoeducativo,barriocaicedo,1,9.0,2017-10-30,6000000,microempresarial,30,10,2017
2,2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial,3,8,2017
3,3,masculino,comercio,variedades,cabecerasancristobal,3,60.0,2017-11-20,7000000,microempresarial,20,11,2017
4,4,femenino,comercio,fabricade,robledo,2,7.0,2017-02-23,5000000,microempresarial,23,2,2017


In [18]:
df.año.value_counts()

año
2018    4218
2017    3566
2016    2083
2019     849
Name: count, dtype: int64

In [19]:
df.dtypes

Unnamed: 0                  int64
sexo                       object
tipo_de_emprendimiento     object
idea_negocio               object
barrio                     object
estrato                     int64
comuna_ciudadano          float64
fecha_de_beneficio         object
monto_del_credito          object
línea_credito              object
día                        object
mes                        object
año                        object
dtype: object

In [20]:
# Convertir las columnas 'estrato' y 'comuna_ciudadano' a tipo object (string)
df['estrato'] = df['estrato'].astype(str)
df['comuna_ciudadano'] = df['comuna_ciudadano'].astype(str)

In [21]:
df.dtypes

Unnamed: 0                 int64
sexo                      object
tipo_de_emprendimiento    object
idea_negocio              object
barrio                    object
estrato                   object
comuna_ciudadano          object
fecha_de_beneficio        object
monto_del_credito         object
línea_credito             object
día                       object
mes                       object
año                       object
dtype: object

In [29]:
# Suponiendo que 'categorical_columns' es una lista de nombres de columnas categóricas ya definida
categorical_columns = [col for col in df.columns if df[col].dtype == 'object']

# Crear una nueva columna combinando información de varias columnas
df['Combinada'] = df.apply(lambda x: '-'.join([x[col] for col in categorical_columns] + [x['estrato'], x['comuna_ciudadano'], x['fecha_de_beneficio'], str(x['monto_del_credito'])]), axis=1)

In [30]:
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito,Combinada
0,0,masculino,comercio,fabricade,prado,3,10.0,2018-07-13,5000000,microempresarial,masculino-comercio-fabricade-prado-3-10.0-2018...
1,1,femenino,servicio,recreativoeducativo,barriocaicedo,1,9.0,2017-10-30,6000000,microempresarial,femenino-servicio-recreativoeducativo-barrioca...
2,2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial,femenino-comercio-tienda-aranjuez-2-4.0-2017-0...
3,3,masculino,comercio,variedades,cabecerasancristobal,3,60.0,2017-11-20,7000000,microempresarial,masculino-comercio-variedades-cabecerasancrist...
4,4,femenino,comercio,fabricade,robledo,2,7.0,2017-02-23,5000000,microempresarial,femenino-comercio-fabricade-robledo-2-7.0-2017...


In [31]:
# Eliminar duplicados
df = df.drop_duplicates(subset='Combinada')

# Eliminar columnas temporales
df.drop(['día', 'mes', 'año', 'Combinada'], axis=1, inplace=True)

In [32]:
df.head()

Unnamed: 0.1,Unnamed: 0,sexo,tipo_de_emprendimiento,idea_negocio,barrio,estrato,comuna_ciudadano,fecha_de_beneficio,monto_del_credito,línea_credito,Combinada
0,0,masculino,comercio,fabricade,prado,3,10.0,2018-07-13,5000000,microempresarial,masculino-comercio-fabricade-prado-3-10.0-2018...
1,1,femenino,servicio,recreativoeducativo,barriocaicedo,1,9.0,2017-10-30,6000000,microempresarial,femenino-servicio-recreativoeducativo-barrioca...
2,2,femenino,comercio,tienda,aranjuez,2,4.0,2017-08-3,7300000,microempresarial,femenino-comercio-tienda-aranjuez-2-4.0-2017-0...
3,3,masculino,comercio,variedades,cabecerasancristobal,3,60.0,2017-11-20,7000000,microempresarial,masculino-comercio-variedades-cabecerasancrist...
4,4,femenino,comercio,fabricade,robledo,2,7.0,2017-02-23,5000000,microempresarial,femenino-comercio-fabricade-robledo-2-7.0-2017...


In [33]:
df.sexo.value_counts()


sexo
femenino     6617
masculino    3589
Name: count, dtype: int64

In [34]:
df.tipo_de_emprendimiento.value_counts()

tipo_de_emprendimiento
comercio        5636
servicio        2205
industria       2201
agropecuaria     164
Name: count, dtype: int64