In [1]:
import pandas as pd
import numpy as np
import joblib

# Caminhos dos arquivos
CAMINHO_DADOS = r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\leads_novos_ficticios.csv"
CAMINHO_MODELOS = r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\modelos"

# Carregar dados e pré-processamento
df_leads = pd.read_csv(CAMINHO_DADOS)
df_leads["email"] = df_leads["email"].str.lower()
df_leads["lancamentos"] = "L2-25"

# Carregar artefatos do modelo
modelo_reg = joblib.load(f"{CAMINHO_MODELOS}/modelo_regressao_leadscore_total.pkl")
modelo_calibrado = joblib.load(f"{CAMINHO_MODELOS}/modelo_conversao_calibrado.pkl")
colunas_reg = joblib.load(f"{CAMINHO_MODELOS}/colunas_regressao.pkl")
colunas_calibrado = joblib.load(f"{CAMINHO_MODELOS}/colunas_modelo_conversao_calibrado.pkl")
limites = joblib.load(f"{CAMINHO_MODELOS}/limites_faixa.pkl")

# Função para classificar faixa pela média
def classificar_faixa_por_media(score):
    if score >= limites["limite_a"]:
        return "A"
    elif score >= limites["limite_b"]:
        return "B"
    elif score >= limites["limite_c"]:
        return "C"
    else:
        return "D"

# Preparar dados para regressão
X_reg = pd.get_dummies(df_leads, drop_first=False)
X_reg = X_reg.reindex(columns=colunas_reg, fill_value=0)

# Previsão do leadscore estimado
df_leads["leadscore_estimado_total"] = modelo_reg.predict(X_reg).round(2)
df_leads["faixa_predita_por_regressao"] = df_leads["leadscore_estimado_total"].apply(classificar_faixa_por_media)

# Preparar dados para probabilidade calibrada
X_calibrado = pd.get_dummies(df_leads, drop_first=False)
X_calibrado = X_calibrado.reindex(columns=colunas_calibrado, fill_value=0)

# Prever probabilidade calibrada
df_leads["probabilidade_conversao_calibrada"] = modelo_calibrado.predict_proba(X_calibrado)[:, 1].round(6)

# Score híbrido = média do total normalizado + probabilidade calibrada
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df_leads["score_normalizado"] = scaler.fit_transform(df_leads[["leadscore_estimado_total"]])
df_leads["score_hibrido"] = ((df_leads["score_normalizado"] + df_leads["probabilidade_conversao_calibrada"]) / 2).round(4)

# Marcar como possível comprador se faixa A ou B
df_leads["possivel_comprador_regressivo"] = df_leads["faixa_predita_por_regressao"].isin(["A", "B"])

df_leads.sort_values("leadscore_estimado_total", ascending=False).head(10)

Unnamed: 0,email,genero,faixa_etaria,escolaridade_categoria,renda_media,profissao_categoria,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma_categoria,motivo_fluencia_espanhol_categoria,...,tempo_antes_redes_sociais,fez_curso_espanhol,ouviu_falar_portal_vhe,lancamentos,leadscore_estimado_total,faixa_predita_por_regressao,probabilidade_conversao_calibrada,score_normalizado,score_hibrido,possivel_comprador_regressivo
2297,lead2297@exemplo.com,Feminino,25 - 34,Pós-graduação completa,Mais de 10.000,Vendas,Outros,Perdido,Não Fala Outro Idioma,Trabalho,...,<1 mês,Não,Não,L2-25,4286.34,A,0.021805,1.0,0.5109,True
2488,lead2488@exemplo.com,Feminino,44 - 55,Pós-graduação completa,Mais de 10.000,Saúde,Facebook,Intermediário,Não Fala Outro Idioma,Todas Alternativas Acima,...,>6 meses,Sim,Sim,L2-25,4258.02,A,0.039142,0.989744,0.5144,True
3302,lead3302@exemplo.com,Feminino,35 - 44,Pós-graduação completa,Mais de 10.000,Vendas,Instagram,Iniciante (voltando),Não Fala Outro Idioma,Todas Alternativas Acima,...,>6 meses,Não,Não,L2-25,4226.93,A,0.022109,0.978485,0.5003,True
1081,lead1081@exemplo.com,Feminino,35 - 44,Pós-graduação completa,Mais de 10.000,CLT,Outros,Iniciante (voltando),Não Fala Outro Idioma,Pessoal,...,1-3 meses,Não,Não,L2-25,4226.93,A,0.042537,0.978485,0.5105,True
994,lead994@exemplo.com,Feminino,25 - 34,Pós-graduação completa,De 5.000 a 10.000,Vendas,Facebook,Intermediário,Não Fala Outro Idioma,Viagem,...,3-6 meses,Não,Sim,L2-25,4180.55,A,0.057284,0.961688,0.5095,True
3456,lead3456@exemplo.com,Feminino,35 - 44,Pós-graduação completa,De 5.000 a 10.000,Administrativo,YouTube,Iniciante (voltando),Não Fala Outro Idioma,Viagem,...,>6 meses,Sim,Sim,L2-25,4180.25,A,0.054393,0.96158,0.508,True
3610,lead3610@exemplo.com,Feminino,35 - 44,Pós-graduação completa,Mais de 10.000,Docência,Facebook,Avançado,Não Fala Outro Idioma,Trabalho,...,<1 mês,Sim,Não,L2-25,4177.25,A,0.013069,0.960493,0.4868,True
3683,lead3683@exemplo.com,Feminino,35 - 44,Superior completo,Mais de 10.000,Empreendedorismo,YouTube,Iniciante (voltando),Não Fala Outro Idioma,Pessoal,...,3-6 meses,Sim,Não,L2-25,4145.34,B,0.042818,0.948937,0.4959,True
1561,lead1561@exemplo.com,Feminino,44 - 55,Pós-graduação completa,De 5.000 a 10.000,Vendas,Outros,Intermediário,Não Fala Outro Idioma,Intercâmbio,...,>6 meses,Sim,Não,L2-25,4145.18,B,0.150812,0.948879,0.5498,True
1674,lead1674@exemplo.com,Feminino,+55,Pós-graduação completa,Mais de 10.000,Empreendedorismo,Outros,Iniciante (voltando),Não Fala Outro Idioma,Pessoal,...,>6 meses,Não,Sim,L2-25,4143.87,B,0.047696,0.948405,0.4981,True


In [2]:
print("Média compradores:", limites["media_compradores"])
print("Limite A:", limites["limite_a"])
print("Limite B:", limites["limite_b"])
print("Limite C:", limites["limite_c"])
print("Limite D:", limites["limite_d"])

# Ver faixa de valores previstos
print("\nMin score previsto:", df_leads["leadscore_estimado_total"].min())
print("Max score previsto:", df_leads["leadscore_estimado_total"].max())

Média compradores: 3786.4495726495725
Limite A: 4165.09452991453
Limite B: 3407.8046153846153
Limite C: 2650.5147008547005
Limite D: 1893.2247863247862

Min score previsto: 1525.04
Max score previsto: 4286.34


In [3]:
df_leads.to_csv(r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\leads_monitorados.csv", index=False)
print("Arquivo 'leads_novos_classificados.csv' salvo com sucesso.")

Arquivo 'leads_novos_classificados.csv' salvo com sucesso.


In [4]:
df_leads["faixa_predita_por_regressao"].value_counts(normalize=True).round(3) * 100

faixa_predita_por_regressao
D    44.8
C    42.9
B    12.1
A     0.2
Name: proportion, dtype: float64