In [1]:
import pandas as pd
import numpy as np
import joblib
from pathlib import Path
from sklearn.preprocessing import MinMaxScaler

# === Caminhos ===
CAMINHO_DADOS = r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\leads_novos_ficticios.csv"
CAMINHO_MODELOS = r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\modelos"

# === Carregar dados ===
df_leads = pd.read_csv(CAMINHO_DADOS)
df_leads["email"] = df_leads["email"].str.lower()
df_leads["lancamentos"] = "L2-25"

# === Carregar modelos e artefatos ===
modelo_reg = joblib.load(f"{CAMINHO_MODELOS}/modelo_regressao_leadscore_total.pkl")
modelo_calibrado = joblib.load(f"{CAMINHO_MODELOS}/modelo_conversao_calibrado.pkl")
colunas_reg = joblib.load(f"{CAMINHO_MODELOS}/colunas_regressao.pkl")
colunas_calibrado = joblib.load(f"{CAMINHO_MODELOS}/colunas_modelo_conversao_calibrado.pkl")
limites = joblib.load(f"{CAMINHO_MODELOS}/limites_faixa.pkl")

# === Função de classificação de faixa ===
def classificar_faixa(score):
    if score >= limites["limite_a"]:
        return "A"
    elif score >= limites["limite_b"]:
        return "B"
    elif score >= limites["limite_c"]:
        return "C"
    else:
        return "D"

# === Prever o leadscore contínuo (regressivo) ===
X_reg = pd.get_dummies(df_leads, drop_first=False)
X_reg = X_reg.reindex(columns=colunas_reg, fill_value=0)
df_leads["leadscore_regressao"] = modelo_reg.predict(X_reg)

# === Previsão da probabilidade calibrada ===
X_calibrado = pd.get_dummies(df_leads, drop_first=False)
X_calibrado = X_calibrado.reindex(columns=colunas_calibrado, fill_value=0)
df_leads["probabilidade_conversao_modelo"] = modelo_calibrado.predict_proba(X_calibrado)[:, 1]

# === Normalizar para cálculo do score híbrido ===
scaler_score = MinMaxScaler()
scaler_prob = MinMaxScaler()

regressao_normalizada = scaler_score.fit_transform(df_leads[["leadscore_regressao"]]).flatten()
probabilidade_normalizada = scaler_prob.fit_transform(df_leads[["probabilidade_conversao_modelo"]]).flatten()

# === Score híbrido ===
df_leads["score_hibrido"] = (
    df_leads["leadscore_regressao"] + df_leads["probabilidade_conversao_modelo"]
).round(4)

df_leads["faixa_score_hibrido"] = df_leads["score_hibrido"].apply(classificar_faixa)

df_leads.head()

Unnamed: 0,email,genero,faixa_etaria,escolaridade_categoria,renda_media,profissao_categoria,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma_categoria,motivo_fluencia_espanhol_categoria,problema_aprender_categoria,investir_portal_vhe,tempo_antes_redes_sociais,fez_curso_espanhol,ouviu_falar_portal_vhe,lancamentos,leadscore_regressao,probabilidade_conversao_modelo,score_hibrido,faixa_score_hibrido
0,lead0@exemplo.com,Masculino,+55,Fundamental completo,De 1.500 a 2.500,Administrativo,YouTube,Intermediário,Inglês Básico,Todas Alternativas Acima,Falta de disciplina / foco,Sim,<1 mês,Não,Sim,L2-25,676.299185,0.433875,676.7331,D
1,lead1@exemplo.com,Feminino,44 - 55,Superior completo,Até 1.500,Tecnologia,Instagram,Iniciante (voltando),Inglês Básico,Todas Alternativas Acima,Outros,Sim,<1 mês,Sim,Sim,L2-25,1005.915151,0.277557,1006.1927,D
2,lead2@exemplo.com,Masculino,25 - 34,Médio completo,Não tenho renda.,Empreendedorismo,YouTube,Avançado,Não Fala Outro Idioma,Intercâmbio,Falta de disciplina / foco,Não,3-6 meses,Não,Não,L2-25,854.338209,0.320365,854.6586,D
3,lead3@exemplo.com,Feminino,+55,Pós-graduação completa,Não tenho renda.,Empreendedorismo,Não acompanhava,Avançado,Outros,Intercâmbio,Outros,Sim,>6 meses,Não,Sim,L2-25,1123.737913,0.136543,1123.8745,C
4,lead4@exemplo.com,Feminino,+55,Médio completo,De 2.500 a 5.000,Vendas,Instagram,Avançado,Inglês Básico,Pessoal,Falta de prática / escuta,Não,1-3 meses,Não,Sim,L2-25,903.743805,0.522438,904.2662,D


In [2]:
print("Média compradores:", limites["media_compradores"])
print("Limite A:", limites["limite_a"])
print("Limite B:", limites["limite_b"])
print("Limite C:", limites["limite_c"])
print("Limite D:", limites["limite_d"])

# Ver faixa de valores previstos
print("\nMin score previsto:", df_leads["score_hibrido"].min())
print("Max score previsto:", df_leads["score_hibrido"].max())

Média compradores: 1604.3064199395772
Limite A: 1764.737061933535
Limite B: 1443.8757779456196
Limite C: 1123.014493957704
Limite D: 802.1532099697886

Min score previsto: 379.5346
Max score previsto: 1816.3977


In [3]:
df_leads.to_csv(r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\leads_monitorados.csv", index=False)
print("Arquivo 'leads_novos_classificados.csv' salvo com sucesso.")

Arquivo 'leads_novos_classificados.csv' salvo com sucesso.


In [4]:
df_leads["faixa_score_hibrido"].value_counts(normalize=True).round(3) * 100

faixa_score_hibrido
D    76.6
C    19.6
B     3.6
A     0.2
Name: proportion, dtype: float64

In [5]:
df_leads[["probabilidade_conversao_modelo", "score_hibrido", "faixa_score_hibrido"]].sort_values("score_hibrido", ascending=False).head(10)

Unnamed: 0,probabilidade_conversao_modelo,score_hibrido,faixa_score_hibrido
994,0.414486,1816.3977,A
2091,0.269487,1816.2527,A
3873,0.76504,1771.4558,A
2372,0.461374,1771.1521,A
1287,0.394035,1771.0848,A
1030,0.357954,1771.0487,A
1209,0.342816,1771.0336,A
3611,0.467414,1762.0186,B
1122,0.321361,1761.8726,B
1927,0.301093,1761.8523,B
