In [15]:
import numpy as np
import pandas as pd
import pymysql
from datetime import datetime
import re
from sklearn.preprocessing import StandardScaler
import joblib

In [2]:
fecha = '2024_03_10'

## Comportamiento

Solo necesita limpieza en la variable tipo_prestamo y status para seguir el estandar

In [3]:
data_comportamiento = pd.read_csv(f"./data/raw/data_comportamiento_{fecha}_raw.csv")

In [4]:
data_comportamiento.tipo_prestamo = data_comportamiento.tipo_prestamo.str.lower().str.replace(" ","_")
data_comportamiento.status = data_comportamiento.status.str.lower().str.replace(" ","_")

In [5]:
data_comportamiento.isna().sum()

id_distribuidor          0
id_red                   0
id_operacion             0
tipo_prestamo            0
fecha_cierre             0
fecha_de_dispersion      0
saldo                    0
capital_pagado           0
capital_pendiente        0
capital                  0
perdida_cosecha          2
dias_atraso              0
fecha                    0
status                   0
fecha_inicio_relacion    0
dtype: int64

In [6]:
data_comportamiento = data_comportamiento.dropna()

**Guardaremos solo las variables que sean de importancia para el análisis**

In [214]:
data_comportamiento[['id_distribuidor', 'id_red', 'id_operacion', 'tipo_prestamo','perdida_cosecha']].\
                        to_csv(f"./data/staging/data_comportamiento_{fecha}_staging.csv", index = False)

In [215]:
data_comportamiento.tipo_prestamo.value_counts()

linea                     28706
prestamo_personal_red     14947
prestamo_personal_club      982
Name: tipo_prestamo, dtype: int64

## Demográfico

In [194]:
data_demo = pd.read_csv(f"./data/raw/data_demografica_{fecha}_raw.csv")

**Tratamiento de nulos**

In [195]:
data_demo.isna().sum()

id_distribuidor              0
fecha_nacimiento             0
estado                       0
sucursal                     0
escolaridad                  0
estado_civil                38
dependientes                 0
tipo_vivienda              479
sexo                         0
tiempo_vivienda              0
ingreso_neto                 0
experiencia                  0
tipo_negocio                 0
tiempo_op_negocio            0
capacidad_pago_semanal    3159
dtype: int64

Eliminar capacidad_pago_semanal y llenar las variables estado_civil - tipo_vivienda por la moda

In [196]:
data_demo.drop(['capacidad_pago_semanal'], axis = 1, inplace=True)

In [197]:
variables_cambiar_por_moda = ['tipo_vivienda', 'estado_civil']
for var in variables_cambiar_por_moda:
    moda = data_demo[var].value_counts().index[0]
    data_demo[var] = data_demo[var].fillna(moda)
    print(f"moda para {var}: {moda}")

moda para tipo_vivienda: Familiar
moda para estado_civil: Casada (o)


In [198]:
data_demo.isna().any()

id_distribuidor      False
fecha_nacimiento     False
estado               False
sucursal             False
escolaridad          False
estado_civil         False
dependientes         False
tipo_vivienda        False
sexo                 False
tiempo_vivienda      False
ingreso_neto         False
experiencia          False
tipo_negocio         False
tiempo_op_negocio    False
dtype: bool

**Procesamiento y limpieza**

In [199]:
# Funciones necesarias
def processing_calcular_edad(fecha_nacimiento):
    fecha_nacimiento = pd.to_datetime(fecha_nacimiento) 
    fecha_actual = datetime.now()
    edad = fecha_actual.year - fecha_nacimiento.year - ((fecha_actual.month, fecha_actual.day) < (fecha_nacimiento.month, fecha_nacimiento.day))
    return edad

def processing_quitar_cadenas_texto(txt):
    txt = txt.lower()
    txt = txt.replace(" ", "_")
    txt = txt.replace("_(o)", "")
    txt = txt.replace("$", "")
    txt = txt.replace(",", "")
    txt = txt.replace(".00", "")
    
    txt = txt.replace("á", "a")
    txt = txt.replace("é", "e")
    txt = txt.replace("í", "i")
    txt = txt.replace("ó", "o")
    txt = txt.replace("ú", "u")
    return txt

def processing_extraer_primer_numero(cadena):
    # Buscar el primer número en la cadena utilizando una expresión regular
    match = re.search(r'\d', cadena)
    
    # Si se encuentra un número, devolverlo como entero
    if match:
        return int(match.group())
    # Si no se encuentra ningún número, devolver 3
    else:
        return 3
    
def processing_agrupar_categorias(value_counts, lista):
    # Crear un diccionario para almacenar el mapeo de categorías
    mapeo = {}
    
    # Iterar sobre los value counts
    for categoria, conteo in value_counts.items():
        # Si el conteo es menor que 10, agruparlo en "otro"
        if conteo < 50:
            mapeo[categoria] = "otra"
        # Si el conteo es mayor o igual a 10, mantener la categoría original
        else:
            mapeo[categoria] = categoria
    
    # Aplicar el mapeo a la lista y devolver la lista resultante
    return [mapeo.get(categoria, "otra") for categoria in lista]

In [200]:
# Fecha nacimiento cambiarla por edad
data_demo['edad'] = data_demo.fecha_nacimiento.apply(processing_calcular_edad)
data_demo.drop(['fecha_nacimiento'], axis = 1, inplace=True)

# Estandarizar textos
for col_str in data_demo.select_dtypes(['object']).columns:
    data_demo[col_str] = data_demo[col_str].apply(processing_quitar_cadenas_texto)

data_demo.ingreso_neto = data_demo.ingreso_neto.astype(float)
#quitando el años y meses
data_demo.tiempo_op_negocio = data_demo.tiempo_op_negocio.apply(processing_extraer_primer_numero)

data_demo.tiempo_vivienda = data_demo.tiempo_vivienda.apply(processing_extraer_primer_numero)
data_demo.tiempo_vivienda = data_demo.tiempo_vivienda.astype(int)

data_demo.tipo_negocio = agrupar_categorias(data_demo.tipo_negocio.value_counts(), data_demo.tipo_negocio)
data_demo.tipo_negocio = data_demo.tiempo_vivienda.astype(int)

data_demo.id_distribuidor = data_demo.id_distribuidor.astype(str)

In [201]:

cols = ['dependientes', 'tiempo_vivienda', 'ingreso_neto', 'tipo_negocio',
       'tiempo_op_negocio', 'edad']
scaler = StandardScaler()
scaler.fit(data_demo[cols])

joblib.dump(scaler, './data/staging/data_demo_scaler.pkl')

scaler_loaded = joblib.load('./data/staging/data_demo_scaler.pkl')

variables_numericas_escaladas = pd.DataFrame(scaler_loaded.transform(data_demo[cols]), columns = cols)

In [202]:
data_demo_scaled = pd.concat([data_demo.drop(cols, axis=1), variables_numericas_escaladas], axis = 1)

In [203]:
data_demo_scaled.head(1)

Unnamed: 0,id_distribuidor,estado,sucursal,escolaridad,estado_civil,tipo_vivienda,sexo,experiencia,dependientes,tiempo_vivienda,ingreso_neto,tipo_negocio,tiempo_op_negocio,edad
0,116,mexico,chimalhuacan_2,bachillerato,divorciada,propia,femenino,no,-0.781247,0.663563,-0.074213,0.663563,-1.015644,0.929008


In [204]:
data_demo_scaled.to_csv(f"./data/staging/data_demografica_{fecha}_staging.csv", index = False)

## Círculo de crédito

In [8]:
data_cc = pd.read_csv(f"./data/raw/data_cc_{fecha}_raw.csv")
data_cc.id_distribuidor = data_cc.id_distribuidor.astype(str)
data_cc.folio = data_cc.folio.astype(str)

In [9]:
data_cc.creditos_con_claves_prevencion = data_cc.creditos_con_claves_prevencion / data_cc.creditos_totales
data_cc.creditos_completados_con_atraso = data_cc.creditos_completados_con_atraso / data_cc.creditos_totales

data_cc.drop(['creditos_completados_sin_atraso'], axis = 1, inplace=True)

In [16]:
scaler = StandardScaler()
cols = ['saldo_vencido_total', 'pagos_vencidos', 'creditos_totales']
scaler.fit(data_cc[cols])

joblib.dump(scaler, './data/staging/data_cc_scaler.pkl')

scaler_loaded = joblib.load('./data/staging/data_cc_scaler.pkl')

variables_numericas_escaladas = pd.DataFrame(scaler_loaded.transform(data_cc[cols]), columns = cols)

In [17]:
data_cc_scaled = pd.concat([data_cc.drop(cols, axis = 1), variables_numericas_escaladas], axis = 1)

In [18]:
data_cc_scaled.head(1)

Unnamed: 0,id_distribuidor,folio,creditos_con_claves_prevencion,creditos_completados_con_atraso,saldo_vencido_total,pagos_vencidos,creditos_totales
0,100002,1063536978,0.245614,0.105263,-0.116507,-0.394202,0.271682


In [210]:
data_cc_scaled.to_csv(f"./data/staging/data_cc_{fecha}_staging.csv", index = False)