In [56]:
import pandas as pd
import numpy as np
import pymysql
from datetime import datetime
import re

# Extrayendo prospectos

## Demográficos

In [65]:
ids_prospectos = np.array(pd.read_csv("./data/evaluation/prospectos_riesgo_11_28_23.csv").id_distribuidor.unique(), dtype = 'str')
ids = ", ".join(ids_prospectos)

In [66]:
sql_demograficos = f"""
 SELECT * FROM
    (select id, fecha_nacimiento,
           estado, sucursal, 
           escolaridad, estado_civil, dependientes, tipo_vivienda,
            sexo,
           tiempo_vivienda, ingreso_neto, experiencia,
           tipo_negocio, tiempo_op_negocio,capacidad_pago_semanal
           from demograficos_distribuidores 
    UNION
    select id, fecha_nacimiento,
           estado, sucursal, 
           escolaridad, estado_civil, dependientes, tipo_vivienda,
           sexo,
           tiempo_vivienda, ingreso_neto, experiencia,
           tipo_negocio, tiempo_op_negocio, capacidad_pago_semanal
           from cc_prospectos_demograficos
    ) as pen
     where
    pen.id in ({ids})
"""

In [67]:
cnx = pymysql.connect(host='159.89.90.197', port = 3306, user='antonio_diaz', passwd="4nT0ni_0.dZ",
                               charset='utf8',db = 'volana')
cursor = cnx.cursor()
cursor.execute(sql_demograficos)
data_demo = cursor.fetchall()
data_demo = pd.DataFrame(data_demo, columns=[i[0] for i in cursor.description])
cnx.close()
data_demo = data_demo.rename(columns = {"id":"id_distribuidor"})

### Limpieza

In [68]:
data_demo.drop(['capacidad_pago_semanal'], axis = 1, inplace=True)
variables_cambiar_por_moda = ['tipo_vivienda', 'estado_civil']
for var in variables_cambiar_por_moda:
    moda = data_demo[var].value_counts().index[0]
    data_demo[var] = data_demo[var].fillna(moda)
    print(f"moda para {var}: {moda}")
    

moda para tipo_vivienda: Familiar
moda para estado_civil: Unión Libre


In [69]:
data_demo.isna().any()

id_distribuidor      False
fecha_nacimiento     False
estado               False
sucursal             False
escolaridad          False
estado_civil         False
dependientes         False
tipo_vivienda        False
sexo                 False
tiempo_vivienda      False
ingreso_neto         False
experiencia          False
tipo_negocio         False
tiempo_op_negocio    False
dtype: bool

In [70]:
# Funciones necesarias
def processing_calcular_edad(fecha_nacimiento):
    fecha_nacimiento = pd.to_datetime(fecha_nacimiento) 
    fecha_actual = datetime.now()
    edad = fecha_actual.year - fecha_nacimiento.year - ((fecha_actual.month, fecha_actual.day) < (fecha_nacimiento.month, fecha_nacimiento.day))
    return edad

def processing_quitar_cadenas_texto(txt):
    txt = txt.lower()
    txt = txt.replace(" ", "_")
    txt = txt.replace("_(o)", "")
    txt = txt.replace("$", "")
    txt = txt.replace(",", "")
    txt = txt.replace(".00", "")
    
    txt = txt.replace("á", "a")
    txt = txt.replace("é", "e")
    txt = txt.replace("í", "i")
    txt = txt.replace("ó", "o")
    txt = txt.replace("ú", "u")
    return txt

def processing_extraer_primer_numero(cadena):
    # Buscar el primer número en la cadena utilizando una expresión regular
    match = re.search(r'\d', cadena)
    
    # Si se encuentra un número, devolverlo como entero
    if match:
        return int(match.group())
    # Si no se encuentra ningún número, devolver 3
    else:
        return 3
    
def processing_agrupar_categorias(value_counts, lista):
    # Crear un diccionario para almacenar el mapeo de categorías
    mapeo = {}
    
    # Iterar sobre los value counts
    for categoria, conteo in value_counts.items():
        # Si el conteo es menor que 10, agruparlo en "otro"
        if conteo < 50:
            mapeo[categoria] = "otra"
        # Si el conteo es mayor o igual a 10, mantener la categoría original
        else:
            mapeo[categoria] = categoria
    
    # Aplicar el mapeo a la lista y devolver la lista resultante
    return [mapeo.get(categoria, "otra") for categoria in lista]


# Fecha nacimiento cambiarla por edad
data_demo['edad'] = data_demo.fecha_nacimiento.apply(processing_calcular_edad)
data_demo.drop(['fecha_nacimiento'], axis = 1, inplace=True)

# Estandarizar textos
for col_str in data_demo.select_dtypes(['object']).columns:
    data_demo[col_str] = data_demo[col_str].apply(processing_quitar_cadenas_texto)

data_demo.ingreso_neto = data_demo.ingreso_neto.astype(float)
#quitando el años y meses
data_demo.tiempo_op_negocio = data_demo.tiempo_op_negocio.apply(processing_extraer_primer_numero)

data_demo.tiempo_vivienda = data_demo.tiempo_vivienda.apply(processing_extraer_primer_numero)
data_demo.tiempo_vivienda = data_demo.tiempo_vivienda.astype(int)

data_demo.tipo_negocio = processing_agrupar_categorias(data_demo.tipo_negocio.value_counts(), data_demo.tipo_negocio)
data_demo.tipo_negocio = data_demo.tiempo_vivienda.astype(int)

data_demo.id_distribuidor = data_demo.id_distribuidor.astype(str)



In [72]:
from sklearn.preprocessing import StandardScaler

import joblib
cols = ['dependientes', 'tiempo_vivienda', 'ingreso_neto', 'tipo_negocio',
       'tiempo_op_negocio', 'edad']

scaler_loaded = joblib.load('./data/staging/data_demo_scaler.pkl')

variables_numericas_escaladas = pd.DataFrame(scaler_loaded.transform(data_demo[cols]), columns = cols)

data_demo_scaled = pd.concat([data_demo.drop(cols, axis=1), variables_numericas_escaladas], axis = 1)

## Creditos

In [76]:
sql_cc = f"""
SELECT 	consultas.id_distribuidor, 
		cuentas.*
FROM
 (SELECT 
	folioConsulta as 'folio', 
	sum(SaldoVencido) as 'saldo_vencido_total', 
    sum(NumeroPagosVencidos) as 'pagos_vencidos',
    count(folioConsulta) as 'creditos_totales',
    count(ClavePrevencion) as 'creditos_con_claves_prevencion',
    COUNT(IF(SaldoVencido = 0, NULL, 1)) as 'creditos_completados_con_atraso',
    COUNT(IF(SaldoVencido = 0, 1, NULL)) as 'creditos_completados_sin_atraso'
 FROM cc_prospectos_creditos 
 group by folioConsulta ) as cuentas 
 left join (select max(folioConsulta) as 'folio', idCliente as 'id_distribuidor' from cc_prospectos_folios group by idCliente) as consultas
 ON cuentas.folio = consultas.folio
 where consultas.id_distribuidor in ({ids})
 """

In [77]:
cnx = pymysql.connect(host='159.89.90.197', port = 3306, user='antonio_diaz', passwd="4nT0ni_0.dZ",
                               charset='utf8',db = 'volana')
cursor = cnx.cursor()
cursor.execute(sql_cc)
data_cc = cursor.fetchall()
data_cc = pd.DataFrame(data_cc, columns=[i[0] for i in cursor.description])
cnx.close()

### Limpieza

In [78]:
data_cc.id_distribuidor = data_cc.id_distribuidor.astype(str)
data_cc.folio = data_cc.folio.astype(str)

data_cc.creditos_con_claves_prevencion = data_cc.creditos_con_claves_prevencion / data_cc.creditos_totales
data_cc.creditos_completados_con_atraso = data_cc.creditos_completados_con_atraso / data_cc.creditos_totales

data_cc.drop(['creditos_completados_sin_atraso'], axis = 1, inplace=True)

cols = ['saldo_vencido_total', 'pagos_vencidos', 'creditos_totales']

scaler_loaded = joblib.load('./data/staging/data_cc_scaler.pkl')

variables_numericas_escaladas = pd.DataFrame(scaler_loaded.transform(data_cc[cols]), columns = cols)

In [79]:
data_cc_scaled = pd.concat([data_cc.drop(cols, axis = 1), variables_numericas_escaladas], axis = 1)

## Merge

In [81]:
data_final = pd.merge(data_demo_scaled, data_cc_scaled, on = 'id_distribuidor')

In [88]:
data_final = data_final.drop(['folio'], axis = 1)
data_final.head()

Unnamed: 0,id_distribuidor,estado,sucursal,escolaridad,estado_civil,tipo_vivienda,sexo,experiencia,dependientes,tiempo_vivienda,ingreso_neto,tipo_negocio,tiempo_op_negocio,edad,creditos_con_claves_prevencion,creditos_completados_con_atraso,saldo_vencido_total,pagos_vencidos,creditos_totales
0,152232,veracruz_de_ignacio_de_la_llave,fortin,secundaria,union_libre,propia,femenino,no,-0.781247,0.162266,-0.055688,0.162266,-0.566437,-0.803858,0.827586,0.034483,-0.610261,-1.02081,-0.31237
1,151755,mexico,chimalhuacan_2,primaria,union_libre,rentada,femenino,no,1.996519,0.663563,-0.041228,0.663563,0.331977,0.062575,0.4,0.133333,-0.553338,-0.953674,-0.604396
2,151756,mexico,chimalhuacan_2,primaria,union_libre,familiar,femenino,no,0.144675,2.66875,-0.044249,2.66875,-1.015644,-0.331258,0.704545,0.045455,-0.025919,-0.662749,0.000515
3,151757,mexico,chimalhuacan_2,secundaria,union_libre,propia,femenino,no,0.144675,-0.840328,-0.032412,-0.840328,-1.015644,-1.118925,0.4,0.2,-0.59621,-0.987242,-0.812987
4,152210,mexico,chimalhuacan_2,secundaria,union_libre,rentada,femenino,no,1.070597,2.66875,-0.050063,2.66875,-0.566437,-0.331258,0.661017,0.0,-0.616726,-1.032,0.3134


In [92]:
data_final_guardar = pd.concat([pd.get_dummies(data_final.drop("id_distribuidor", axis = 1)), data_final["id_distribuidor"]], axis = 1)

In [94]:
data_final_modelo = data_final_guardar.drop(["id_distribuidor"], axis = 1)

### Ordenando las columnas

In [109]:
columnas = np.loadtxt('./data/master/columnas_usar.txt', dtype=str)

In [103]:
data_final_modelo.drop(np.setdiff1d(data_final_modelo.columns,columnas), axis = 1, inplace=True)

In [106]:
for col in np.setdiff1d(columnas, data_final_modelo.columns):
    data_final_modelo[col] = 0

In [113]:
data_final_modelo = data_final_modelo[columnas]

### Corriendo el modelo

In [110]:
loaded_model = joblib.load('./data/processed/modelo_regresion_logistica.pkl')

In [115]:
data_final_modelo

Unnamed: 0,dependientes,tiempo_vivienda,ingreso_neto,tipo_negocio,tiempo_op_negocio,edad,creditos_con_claves_prevencion,creditos_completados_con_atraso,saldo_vencido_total,pagos_vencidos,...,estado_civil_union_libre,estado_civil_viuda,tipo_vivienda_familiar,tipo_vivienda_otro,tipo_vivienda_propia,tipo_vivienda_rentada,sexo_femenino,sexo_masculino,experiencia_no,experiencia_si
0,-0.781247,0.162266,-0.055688,0.162266,-0.566437,-0.803858,0.827586,0.034483,-0.610261,-1.020810,...,1,0,0,0,1,0,1,0,1,0
1,1.996519,0.663563,-0.041228,0.663563,0.331977,0.062575,0.400000,0.133333,-0.553338,-0.953674,...,1,0,0,0,0,1,1,0,1,0
2,0.144675,2.668750,-0.044249,2.668750,-1.015644,-0.331258,0.704545,0.045455,-0.025919,-0.662749,...,1,0,1,0,0,0,1,0,1,0
3,0.144675,-0.840328,-0.032412,-0.840328,-1.015644,-1.118925,0.400000,0.200000,-0.596210,-0.987242,...,1,0,0,0,1,0,1,0,1,0
4,1.070597,2.668750,-0.050063,2.668750,-0.566437,-0.331258,0.661017,0.000000,-0.616726,-1.032000,...,1,0,0,0,0,1,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1582,-0.781247,1.164859,-0.034312,1.164859,-0.117230,-1.276458,0.375000,0.125000,-0.588652,-0.808211,...,0,0,1,0,0,0,1,0,1,0
1583,-0.781247,-0.339031,-0.040962,-0.339031,0.781184,-0.016192,0.520833,0.083333,-0.378916,-0.573233,...,0,0,1,0,0,0,1,0,1,0
1584,1.070597,0.162266,-0.038112,0.162266,1.230391,-0.252491,0.636364,0.136364,-0.612434,-0.438960,...,0,0,1,0,0,0,1,0,1,0
1585,0.144675,0.162266,-0.038112,0.162266,-1.015644,0.377642,0.629630,0.074074,-0.481382,-0.864158,...,0,0,1,0,0,0,1,0,1,0


In [122]:
data_final_modelo.columns = np.array(data_final_modelo.columns, dtype = 'str')

In [124]:
data_final['riesgo'] = loaded_model.predict_proba(data_final_modelo).T[0]


In [None]:
# TODO
# Asignarle el grupo de riesgo
# extraer las columnas para calcular la tasa
# 

In [None]:
pdf_prospectos[['id_distribuidor', 'perdida_cosecha_canasta', 'cuota_semanal_que_puede_cubrir', 'riesgo', 'grupo_riesgo']] 

In [None]:
rentabilidad_obj = 0.4

def getVals_all(X, t_max, d, c, pc, print_ = False):
    tasas = []
    rentabilidades = []
    factible = []
    por_pagar_sem = []

    for t in range(75, int(t_max*100)+1, 1):

        total_pagado, pago_real_semanal, rentabilidad, tasa_ajustada = getVals( X = X, 
                                                                                d = d, 
                                                                                t = t/100, 
                                                                                pc = pc)
        tasas.append(t)
        rentabilidades.append(rentabilidad)

        factible.append( ((total_pagado / d) < c) * (rentabilidad >= rentabilidad_obj))

        por_pagar_sem.append(total_pagado / d)

        if print_:
            print(f"Tasa: {t} - \tpagado {total_pagado:.2f} - pagado por semana {total_pagado/d:.2f} - capacidad {c} - rentabilidad {rentabilidad:.3f}")

    tasas = np.array(tasas)
    rentabilidades = np.array(rentabilidades)
    por_pagar_sem = np.array(por_pagar_sem)

    return tasas, rentabilidades, por_pagar_sem


def getVals(X, d, t, pc):
    fijos = 20.6 * d
    originacion = 20.6
    fondeo = (0.20/52) * X * d
    perdida_cosecha = abs(pc) * X 

    costos = fijos + originacion + fondeo + perdida_cosecha

    # ==============

    pagado = lambda X, t, d: ( (X*t*(1+t)**d) / (- 1 + (1+t)**d) ) * d

    t_semanal_con_iva = (t/52)*1.16
    total_pagado = pagado(X, t_semanal_con_iva, d)

    ingresos_intereses = total_pagado - X

    seguros = {4_000 : 26, 21_000 : 29, 51_000 : 30, np.inf: 31}

    ingreso_seguro = 0.0

    key_ant = 0
    for s in seguros.keys():
        if X < s and X > key_ant:
            ingreso_seguro = seguros[s]

        key_ant = s

    marginal = ingresos_intereses - costos

    rentabilidad = marginal / ingresos_intereses

    cuanto_deberia_ganar_de_intereses = costos/(1 - rentabilidad_obj)

    cuanto_me_deberian_depagar = cuanto_deberia_ganar_de_intereses + X

    pago_real_semanal = cuanto_me_deberian_depagar / d

    # Averiguar cómo ajustar la tasa
    tasa_ajustada = t


    return total_pagado, pago_real_semanal, rentabilidad, tasa_ajustada


def find_tasa_fija(tasa_opt):
    tasas_fijas = [75, 80, 85, 90, 95, 100, 105, 110, 112, 115, 117, 120, 122, 127, 132, 137, 142, 147]
    for tf in tasas_fijas:
        if tf >= tasa_opt:
            return tf

def ajustarTasa(X, t_max, d, c, pc):
    """
    In:
        X[float]: Monto solicitado del préstamo original
        t_max[float]: tasa anual máxima (regularmente 1.47)
        d[int]: número de semanas de duración del préstamo (regularmente 16)
        c[float]: capacidad de pago semanal (de las tablas ingestado)
        pc[float]: pérdida de cosecha estimada 
    Out:
        estatus[bool]: estatus del crédito - rechazo si False / aceptación si True
        tasa_minima[float] = tasa mínima rentable
        tasa_sugerida[float] = tasa óptima
        resultado_txt[str] = texto que describe el resultado
    """
    """
    10,000 --> False rechazado
    9,000 --> False
    8,000, ..., 5,000 -> Aprobado

    ID
    1 - 10,000  - RECHAZO
    1 - 9 ,000  - RECHAZO <-

    1 - 8 ,000  - ACEPTADO
    1 - 7 ,000  - ACEPTADO
    1 - 6 ,000  - ACEPTADO

    9,000, ..., 5,000
    """


    estatus       = False 
    tasa_minima   = 0.0
    tasa_sugerida = 0.0
    resultado_txt = ""


    tasas, rentabilidades, por_pagar_sem = getVals_all(X = X, 
                                                   t_max = t_max,
                                                   d = d,
                                                   c = c,
                                                   pc = pc,
                                                   print_ = False)

    factible_rentabilidad = (rentabilidades > rentabilidad_obj)
    factible_pago = (np.array(por_pagar_sem) < c)
    factible = factible_rentabilidad * factible_pago
    rentabilidades *= 100


    if factible.sum() != 0:

            tasa_minima = find_tasa_fija(min(tasas[factible]))
            tasa_sugerida = find_tasa_fija(max(tasas[factible]))

            resultado_txt = f"Tasa anual sugerida es de {tasa_sugerida}% con rentabilidad: {max(rentabilidades[factible]):.2f}% y pagando {max(por_pagar_sem[factible]):.2f}"
            resultado_txt += "\n"
            resultado_txt += f"Tasa anual mínima posible es de {tasa_minima}% con rentabilidad: {min(rentabilidades[factible]):.2f}% y pagando {min(por_pagar_sem[factible]):.2f}"
            estatus = True


    elif factible.sum() == 0:

        resultado_txt += f"No existe un intervalo factible, se rechaza el crédito\n"

        posibles_tasas = np.where((rentabilidades > 40))[0]
        if len(posibles_tasas) > 0:
            resultado_txt += f"El pago mínimo necesario para tener una rentabilidad del 40% es de: {por_pagar_sem[posibles_tasas[0]]:.2f}"
        else:
            resultado_txt += f"Su capacidad de pago no asegura tener una rentabilidad del 40%\n"

            resultado_txt += f"El pago semanal mínimo es de {min(por_pagar_sem):.2f} (con rentabilidad de {min(rentabilidades):.2f}%) y se tiene capacidad hasta {c}\n"

            resultado_txt += f"La rentabilidad máx alcanzada es de {max(rentabilidades):.2f}% (con pago de {max(por_pagar_sem):.2f}) y se tiene como objetivo {rentabilidad_obj*100}%"

    elif factible.sum() == len(factible):
        resultado_txt = f"Todas las tasas son viables, se asigna la mayor de {find_tasa_fija(max(tasas))}% anual"
        estatus = True
        tasa_minima = find_tasa_fija(min(tasas[factible]))
        tasa_sugerida = find_tasa_fija(max(tasas[factible]))

    return estatus, resultado_txt, tasa_minima, tasa_sugerida


########################################################################## Calculo de Riesgo
####### Asignacion de Riesgo #######
pdf_modelo = pdf_prospectos[['id_distribuidor', 'perdida_cosecha_canasta', 'cuota_semanal_que_puede_cubrir', 'riesgo', 'grupo_riesgo']] 

d = 16
t_max = 1.47
resultado = []

for row in pdf_modelo.iterrows():
    pc = row[1]['perdida_cosecha_canasta']/100
    c  = row[1]['cuota_semanal_que_puede_cubrir']
    id_ = int(row[1]['id_distribuidor'])
    prob = float(row[1]['riesgo'])
    grp = row[1]['grupo_riesgo']
    alguno_paso = 0
    for X in range(10_000, 4_000, -1_000):
        estatus, resultado_txt, tasa_minima, tasa_sugerida = ajustarTasa(X, t_max, d, c, pc)
        if estatus:
            resultado.append([id_, resultado_txt, X, tasa_minima, tasa_sugerida, prob, grp])
            alguno_paso = 1
    if alguno_paso == 0:
        _, resultado_txt, _, _ = ajustarTasa(X, t_max, d, c, pc)
        resultado.append([id_, resultado_txt, 0, 0, 0, prob, grp])

pdf_riesgo = pd.DataFrame(resultado)

pdf_riesgo.columns = ["id_distribuidor","resultado_txt","monto_autorizado", "tasa_minima","tasa_sugerida", "probabilidad", "grupo_riesgo"]

# Obtener fecha y hora actual     
dia = mexico_timezone.strftime('%Y-%m-%d')
hora = mexico_timezone.strftime('%H:%M')

pdf_riesgo["fecha"] = dia
pdf_riesgo["hora"] = hora

# Crear directorios si no existen
save_path = os.path.join(model_output_path, "pdf_riesgo.csv")

output_dir = os.path.dirname(save_path)
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

print("Guarda riesgo Prospectos en {}".format(save_path))
pdf_riesgo.to_csv(save_path, header=True, index=False)