In [81]:
import pandas as pd


def clean_data():

    df = pd.read_csv("solicitudes_credito.csv", sep=";", index_col=0) #Le digo que la columna 0 sea el index
    df = df.copy()
    df = df.rename(columns={0: 'ID'}) #Asigno nombre a la columna 0

    #Columna "sexo" y "tipo_de_emprendimiento"
    df["sexo"] = df["sexo"].str.lower()
    df["tipo_de_emprendimiento"] = df["tipo_de_emprendimiento"].str.lower()
    
    #Columna "idea_negocio" len=75
    df["idea_negocio"] = df["idea_negocio"].str.lower()
    df["idea_negocio"] = df["idea_negocio"].str.replace("-", " ")
    df["idea_negocio"] = df["idea_negocio"].str.replace("_", " ")

    #Columna "barrio" len=225 
    df["barrio"] = df["barrio"].str.lower()
    df["barrio"] = df["barrio"].str.replace("_", " ")
    df["barrio"] = df["barrio"].str.replace("-", " ")
    #df[df["barrio"].str.contains("julio", case=False, na=False)]["barrio"].value_counts()

    #Columna "fecha_de_beneficio" len=795 ?????????????????
    def cambiar_orden(lista):
        if len(lista[0]) == 4:
            lista[0], lista[2] = lista[2], lista[0]
        return lista

    df["fecha_de_beneficio"] = df["fecha_de_beneficio"].str.split("/")
    df["fecha_de_beneficio"] = df["fecha_de_beneficio"].apply(cambiar_orden)
    df["fecha_de_beneficio"] = df["fecha_de_beneficio"].apply(lambda x: "/".join(x))
    #fechas_formato_incorrecto = df[df["fecha_de_beneficio"].str.match(r'\d{2}/\d{2}/\d{4}')] #Busco fechas con ese formato
    # df["fecha_de_beneficio"] = pd.to_datetime(df["fecha_de_beneficio"], format='%Y/%m/%d', errors='coerce')
    # df["fecha_de_beneficio"] = df["fecha_de_beneficio"].dt.strftime('%d/%m/%Y')

    #Columna "monto_del_credito" len=277
    df["monto_del_credito"] = df["monto_del_credito"].str.strip("$")
    df["monto_del_credito"] = df["monto_del_credito"].str.replace(",", "")
    df["monto_del_credito"] = df["monto_del_credito"].str.replace(".00", "")
    df["monto_del_credito"] = df["monto_del_credito"].str.replace(" ", "")

    #Columna "línea_credito" len=9
    df["línea_credito"] = df["línea_credito"].str.lower()
    df["línea_credito"] = df["línea_credito"].str.replace("-", " ")
    df["línea_credito"] = df["línea_credito"].str.replace("_", " ")

    df.dropna(inplace=True) #Elimino nulos
    df.drop_duplicates(inplace=True) #Elimino duplicados
    return df

dataf = clean_data()

# dataf.to_excel('solicitudes_credito_clean.xlsx', index=False)

In [82]:
# datos_a_organizar = dataf['idea_negocio'].unique()

"""Dataframe que contiene las ideas de negocio cuyo registro termina en ' de'"""

ideas_de_negocio = dataf[dataf['idea_negocio'].str.endswith(' de')]
print(ideas_de_negocio)

            sexo tipo_de_emprendimiento      idea_negocio  \
1      masculino               comercio  distribuidora de   
12     masculino              industria        fabrica de   
22      femenino              industria        fabrica de   
27     masculino              industria        fabrica de   
31      femenino              industria        fabrica de   
...          ...                    ...               ...   
10886   femenino              industria        fabrica de   
10887   femenino              industria        fabrica de   
10889  masculino               comercio       lavadero de   
10899   femenino              industria        fabrica de   
10905   femenino               servicio       lavadero de   

                       barrio  estrato  comuna_ciudadano fecha_de_beneficio  \
1                 santa lucia        2                12         2018-03-16   
12              lopez de mesa        3                 7         2017-05-15   
22     manrique central no. 2 

In [83]:
"""Contar el número de campos vacíos de cada columna del dataframe."""

def empty_fields(dataf):
    empty_fields = dataf.isnull().sum()
    return empty_fields

print(empty_fields(dataf))

sexo                      0
tipo_de_emprendimiento    0
idea_negocio              0
barrio                    0
estrato                   0
comuna_ciudadano          0
fecha_de_beneficio        0
monto_del_credito         0
linea_credito             0
dtype: int64


In [84]:
print(dataf.columns.to_list())
print("\n")
print(dataf.dtypes)


['sexo', 'tipo_de_emprendimiento', 'idea_negocio', 'barrio', 'estrato', 'comuna_ciudadano', 'fecha_de_beneficio', 'monto_del_credito', 'linea_credito']


sexo                      object
tipo_de_emprendimiento    object
idea_negocio              object
barrio                    object
estrato                    int32
comuna_ciudadano           int32
fecha_de_beneficio        object
monto_del_credito          int64
linea_credito             object
dtype: object


In [85]:
linea_emprendimiento = pd.DataFrame({
    'linea_credito' : dataf['linea_credito'].value_counts().index,
    'conteo' : dataf['linea_credito'].value_counts().to_list()
})
linea_emprendimiento

Unnamed: 0,linea_credito,conteo
0,microempresarial,10055
1,empresarial ed.,70
2,agropecuaria,55
3,juridica y cap.semilla,33
4,credioportuno,21
5,fomento agropecuario,4
6,solidaria,1
7,soli diaria,1
8,ayacucho formal,1


In [86]:
data_sexo = pd.DataFrame({
    'sexo' : dataf['sexo'].value_counts().index,
    'conteo' : dataf['sexo'].value_counts().to_list()
})
data_sexo

Unnamed: 0,sexo,conteo
0,femenino,6639
1,masculino,3602


In [87]:

data_emp = pd.DataFrame({
    'tipo_de_emprendimiento' : dataf['tipo_de_emprendimiento'].value_counts().index,
    'conteo' : dataf['tipo_de_emprendimiento'].value_counts().to_list()
})
data_emp

Unnamed: 0,tipo_de_emprendimiento,conteo
0,comercio,5658
1,servicio,2210
2,industria,2208
3,agropecuaria,165


In [88]:
comuna_ciud = pd.DataFrame({
    'comuna_ciudadano' : dataf['comuna_ciudadano'].value_counts().index,
    'conteo' : dataf['comuna_ciudadano'].value_counts().to_list()
})
comuna_ciud

Unnamed: 0,comuna_ciudadano,conteo
0,4,1331
1,7,1133
2,9,972
3,13,834
4,1,832
5,8,732
6,5,671
7,2,636
8,3,591
9,6,561


In [89]:
# dataf['idea_negocio'].unique()
datos_a_organizar = dataf['idea_negocio'].unique()
datos_a_organizar.sort()
datos_a_organizar

array(['almacen de ropa en', 'alquiler de peliculas', 'barberia', 'bares',
       'billares', 'cafe e internet', 'cafeteria', 'carniceria',
       'carpinteria', 'cerrajeria', 'charcuteria', 'comidas rapidas',
       'criadero de animales', 'deposito de', 'distribuidora de',
       'drogueria', 'ebanistaria', 'fabrica de', 'fabrica de alimentos',
       'fabrica de arepas', 'fabrica de calzado', 'fabrica de ceramica',
       'fabrica de colchones', 'fabrica de helados', 'fabrica de juegos',
       'fabrica de muebles', 'fabrica de productos',
       'fabrica de repuestos', 'fabrica de traperos', 'fabrica de velas',
       'ferreteria', 'floristeria', 'fotografia', 'fumigacion',
       'gimnasio', 'granero', 'hoteles moteles', 'jardineria', 'joyeria',
       'lavadero de', 'lavanderia', 'legumbreria', 'lenceria para el',
       'licorera', 'mantenimiento en', 'marqueteria', 'marroquineria',
       'mensajeria', 'miscelanea', 'montallantas', 'organización y',
       'panaderia', 'papeler