In [1]:
# leitura dos dados
import pandas as pd
pd.set_option('future.no_silent_downcasting', True)

from pandas.api.types import CategoricalDtype
from sentence_transformers import SentenceTransformer
from tqdm import tqdm

# funções + embeddings
from src.categorizador_batch import categorizar_coluna_batch, preparar_para_categoria

# mapeamentos
from src.categorizar_texto import (
    mapeamento_motivo_fluencia,
    mapeamento_profissoes,
    mapeamento_paises,
    mapeamento_estados,
    mapeamento_outros_idiomas,
    mapeamento_problema_aprender,
    expandir_mapeamento
)

# dados brutos
df_pesquisa_alunos_l3_24 = pd.read_csv(r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\[L3-24] [DSE] Pesquisa Novos alunos.csv")
df_pesquisa_alunos_l4_24 = pd.read_csv(r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\[L4-24] [DSE] Pesquisa Novos alunos.csv")
df_pesquisa_alunos_l1_25 = pd.read_csv(r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\[L1-25] [VOE] Pesquisa Novos alunos_A.csv")

In [2]:
df_pesquisa_alunos_l3_24 = df_pesquisa_alunos_l3_24.drop([
    "Nome", 
    "Caso tenha alguma deficiência, transtorno ou necessidade especial que acredite ser importante que nós saibamos para melhor atendê-lo, descreva-a aqui, por favor:",
    "Qual foi a sua principal dúvida que você tinha antes de entrar no Portal VHE?",
    "De todos os recursos do Portal VHE, qual deles mais te motivou a entrar? (Pode marcar mais de uma)"
], axis=1, errors='ignore')

df_pesquisa_alunos_l4_24 = df_pesquisa_alunos_l4_24.drop([
    "Nome", 
    "Caso tenha alguma deficiência, transtorno ou necessidade especial que acredite ser importante que nós saibamos para melhor atendê-lo, descreva-a aqui, por favor:",
    "Qual foi a sua principal dúvida que você tinha antes de entrar no Portal VHE?",
    "De todos os recursos do Portal VHE, qual deles mais te motivou a entrar? (Pode marcar mais de uma)"
], axis=1, errors='ignore')

df_pesquisa_alunos_l1_25 = df_pesquisa_alunos_l1_25.drop([
    "Caso tenha alguma deficiência, transtorno ou necessidade especial que acredite ser importante que nós saibamos para melhor atendê-lo, descreva-a aqui, por favor:",
    "De todos os recursos do Portal VHE, qual deles mais te motivou a entrar? (Pode marcar mais de uma)",
    "Qual foi a sua principal dúvida que você tinha antes de entrar no Portal VHE? Por onde começar e se deveria dar o primeiro passo pra fazer o curso."
], axis=1, errors='ignore')

In [3]:
df_pesquisa_alunos_l3_24.rename(columns={
    'Carimbo de data/hora': 'data_inscricao',
    'Nome de usuário': 'email',
    'Data de Nascimento': 'data_nascimento',
    'Qual a sua Profissão?': 'profissao',
    'Gênero': 'genero',
    'Sua faixa etária': 'faixa_etaria',
    'Qual o seu nível de escolaridade?': 'escolaridade',
    'Em que país você reside atualmente?': 'pais',
    'Em que estado/província você reside atualmente?': 'estado',
    'Sua renda média?': 'renda_media',
    'Como você adquiriu o Portal VHE? (não se preocupe, esses dados não serão divulgados)': 'como_comprou_portal',
    'Há quanto tempo você me conhecia antes de entrar para o Portal?': 'tempo_antes_portal',
    'Por ONDE você mais acompanha meu conteúdo?': 'onde_acompanha_conteudo',
    'Qual o seu nível no idioma?': 'nivel_idioma',
    'Você fala outro idioma?': 'fala_outro_idioma',
    'Por que você quer ser fluente em Espanhol? ': 'motivo_fluencia_espanhol',
    'E qual problema mais te motivou a entrar no Portal VHE em busca da solução? ': 'problema_aprender',
    'Você tem interesse em garantir mais 1 ano de acesso ao Portal VHE com 50% de desconto? Caso sim, marque abaixo e nossa equipe vai falar com você. ': 'interesse_renovacao_portal'
}, inplace=True)

In [4]:
df_pesquisa_alunos_l4_24.rename(columns={
    'Carimbo de data/hora': 'data_inscricao',
    'Nome de usuário': 'email',
    'Data de Nascimento': 'data_nascimento',
    'Qual a sua Profissão?': 'profissao',
    'Gênero': 'genero',
    'Sua faixa etária': 'faixa_etaria',
    'Qual o seu nível de escolaridade?': 'escolaridade',
    'Em que país você reside atualmente?': 'pais',
    'Em que estado/província você reside atualmente?': 'estado',
    'Sua renda média?': 'renda_media',
    'Como você adquiriu o Portal VHE? (não se preocupe, esses dados não serão divulgados)': 'como_comprou_portal',
    'Há quanto tempo você me conhecia antes de entrar para o Portal?': 'tempo_antes_portal',
    'Por ONDE você mais acompanha meu conteúdo?': 'onde_acompanha_conteudo',
    'Qual o seu nível no idioma?': 'nivel_idioma',
    'Você fala outro idioma?': 'fala_outro_idioma',
    'Por que você quer ser fluente em Espanhol? ': 'motivo_fluencia_espanhol',
    'E qual problema mais te motivou a entrar no Portal VHE em busca da solução? ': 'problema_aprender',
    'Você tem interesse em garantir mais 1 ano de acesso ao Portal VHE com 50% de desconto? Caso sim, marque abaixo e nossa equipe vai falar com você. ': 'interesse_renovacao_portal'
}, inplace=True)

In [5]:
df_pesquisa_alunos_l1_25.rename(columns={
    'Carimbo de data/hora': 'data_inscricao',
    'Nome de usuário': 'email',
    'Data de nascimento: 14/12/1987': 'data_nascimento',
    'Profissão: Analista Financeira': 'profissao',
    'Gênero': 'genero',
    'Sua faixa etária': 'faixa_etaria',
    'Qual o seu nível de escolaridade?': 'escolaridade',
    'Em que país você reside atualmente?  Brasil ': 'pais',
    'Em que estado/província você reside atualmente?  São Paulo/SP': 'estado',
    'Sua renda média?': 'renda_media',
    'Como você adquiriu o Portal VHE? (não se preocupe, esses dados não serão divulgados)': 'como_comprou_portal',
    'Há quanto tempo você me conhecia antes de entrar para o Portal?': 'tempo_antes_portal',
    'Por ONDE você mais acompanha meu conteúdo?': 'onde_acompanha_conteudo',
    'Qual o seu nível no idioma?': 'nivel_idioma',
    'Você fala outro idioma?': 'fala_outro_idioma',
    'Por que você quer ser fluente em Espanhol? ': 'motivo_fluencia_espanhol',
    'E qual problema mais te motivou a entrar no Portal VHE em busca da solução? ': 'problema_aprender',
}, inplace=True)

In [6]:
df_total = [
    df_pesquisa_alunos_l3_24,
    df_pesquisa_alunos_l4_24,
    df_pesquisa_alunos_l1_25
]

nomes = [
    "df_pesquisa_alunos_l3_24",
    "df_pesquisa_alunos_l4_24",
    "df_pesquisa_alunos_l1_25"
]

for nome, df in zip(nomes, df_total):
    print(f"\n=== {nome} ===")
    df.info()


=== df_pesquisa_alunos_l3_24 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 292 entries, 0 to 291
Data columns (total 18 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   data_inscricao              292 non-null    object
 1   email                       292 non-null    object
 2   data_nascimento             292 non-null    object
 3   profissao                   292 non-null    object
 4   genero                      292 non-null    object
 5   faixa_etaria                292 non-null    object
 6   escolaridade                292 non-null    object
 7   pais                        292 non-null    object
 8   estado                      292 non-null    object
 9   renda_media                 292 non-null    object
 10  como_comprou_portal         292 non-null    object
 11  tempo_antes_portal          292 non-null    object
 12  onde_acompanha_conteudo     292 non-null    object
 13  nivel_idioma    

In [7]:
for df in df_total:
    df['data_nascimento'] = pd.to_datetime(df['data_nascimento'], errors='coerce')
    df['data_inscricao'] = pd.to_datetime(
        df['data_inscricao'].str.replace(' GMT-3', '', regex=False),
        format='%Y/%m/%d %I:%M:%S %p',
        errors='coerce'
    ).dt.normalize()

In [8]:
for nome, df in zip(nomes, df_total):
    print(f"\n=== {nome} ===")
    df.info()


=== df_pesquisa_alunos_l3_24 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 292 entries, 0 to 291
Data columns (total 18 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   data_inscricao              292 non-null    datetime64[ns]
 1   email                       292 non-null    object        
 2   data_nascimento             291 non-null    datetime64[ns]
 3   profissao                   292 non-null    object        
 4   genero                      292 non-null    object        
 5   faixa_etaria                292 non-null    object        
 6   escolaridade                292 non-null    object        
 7   pais                        292 non-null    object        
 8   estado                      292 non-null    object        
 9   renda_media                 292 non-null    object        
 10  como_comprou_portal         292 non-null    object        
 11  tempo_antes_portal      

In [9]:
for nome, df in zip(nomes, df_total):
    print(f"\n=== {nome} ===")
    display(df.head())


=== df_pesquisa_alunos_l3_24 ===


Unnamed: 0,data_inscricao,email,data_nascimento,profissao,genero,faixa_etaria,escolaridade,pais,estado,renda_media,como_comprou_portal,tempo_antes_portal,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma,motivo_fluencia_espanhol,problema_aprender,interesse_renovacao_portal
0,2024-05-14,teofilotavares@icloud.com,1983-01-06,Médico Veterinário,Masculino,35 - 44,Pós-graduação completa,Brasil,Goiás,Mais de R$10.000,Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,Não tenho tempo de sobra pra estudar,"Não, obrigado"
1,2024-05-16,leosantanati@outlook.com,1995-07-16,Autônomo,Masculino,25 - 34,Médio completo,Brasil,São Paulo,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Morar no exterior,"Não tenho disciplina, não consigo estudar sem ...","Não, obrigado"
2,2024-05-16,flaviojatoba@outlook.com,1992-10-28,Relações Públicas,Masculino,25 - 34,Superior completo,Brasil,São Paulo,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,Não acompanhava,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Morar no exterior,"Não tenho disciplina, não consigo estudar sem ...","Não, obrigado"
3,2024-05-17,alandematos10@hotmail.com,1982-05-08,Motorista socorrista,Masculino,35 - 44,Superior completo,Brasil,MG,"De R$1.500,01 à R$2.500,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Estou indo fazer Medicina,Não sei por onde começar a estudar,"Sim, eu quero ter mais tranquilidade para estu..."
4,2024-05-17,alandematos10@hotmail.com,1982-05-08,Enfermeiro,Masculino,35 - 44,Superior completo,Brasil,MG,"De R$1.500,01 à R$2.500,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Quero estudar fora do Brasil,Falta de um método eficiente,"Não, obrigado"



=== df_pesquisa_alunos_l4_24 ===


Unnamed: 0,data_inscricao,email,data_nascimento,profissao,genero,faixa_etaria,escolaridade,pais,estado,renda_media,como_comprou_portal,tempo_antes_portal,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma,motivo_fluencia_espanhol,problema_aprender,interesse_renovacao_portal
0,2024-08-02,18esms@gmail.com,1992-09-18,ADMINISTRADORA,Feminino,25 - 34,Pós-graduação completa,BRASIL,SÃO PAULO,De R$5.000 a R$10.000,Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,"Perdido, mas estou motivado a mudar!","Não, espanhol será meu primeiro idioma estrang...",Gosto do idioma e quero aprender por hobby,"Não tenho disciplina, não consigo estudar sem ...","Sim, eu quero ter mais tranquilidade para estu..."
1,2024-08-02,t.rozafontes@gmail.com,1959-06-07,funcionário público federal,Masculino,+55,Pós-graduação completa,Brasil,RJ,De R$5.000 a R$10.000,Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,YouTube,Iniciante — dando os primeiros passos e vou me...,POUCO DE INGLÊS,Morar no exterior,Não sei por onde começar a estudar,"Não, obrigado"
2,2024-08-05,danycapereira@hotmail.com,1981-07-30,Relações Trabalhistas,Feminino,35 - 44,Superior completo,Brasil,Rio de Janeiro,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Conquistar um emprego melhor e ganhar mais,Não tenho tempo de sobra pra estudar,"Não, obrigado"
3,2024-08-05,isabelclaudio.claudio@gmail.com,1960-09-18,Aposentada,Feminino,+55,Pós-graduação completa,Brasil,Rio de Janeiro,Mais de R$10.000,Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,YouTube,"Intermediário — já entende muita coisa, mas te...","Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,Tenho muita dificuldade com a pronúncia,"Não, obrigado"
4,2024-08-05,rose.mlima@yahoo.com.br,1959-06-14,Técnica de informática aposentada,Feminino,+55,Superior incompleto,Brasil,Recife PE,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Morar no exterior,Falta de um método eficiente,"Não, obrigado"



=== df_pesquisa_alunos_l1_25 ===


Unnamed: 0,data_inscricao,email,data_nascimento,profissao,Nome: Marília Carvalho Martins,genero,faixa_etaria,escolaridade,pais,estado,renda_media,como_comprou_portal,tempo_antes_portal,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma,motivo_fluencia_espanhol,problema_aprender
0,2025-01-09,mayssaamazonas@gmail.com,1998-02-03,Extensionista de Cílios,Mayssa Alves Amazonas,Feminino,25 - 34,Médio completo,Brasil,Mato Grosso do Sul,"De R$1.500,01 à R$2.500,00",Comprei com o meu próprio dinheiro,Mais de 3 meses e menos de 1 ano,Instagram,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,Falta de um método eficiente
1,2025-01-09,teste@teste.com,2025-01-30,24242,teste,Masculino,18 - 24,Médio incompleto,424242,42424,Não tenho renda.,Pedi emprestado,Mais de 3 meses e menos de 1 ano,Não acompanhava,"Perdido, mas estou motivado a mudar!","Sim, inglês",Gosto do idioma e quero aprender por hobby,Tenho muita dificuldade com a pronúncia
2,2025-01-10,thalitachociay07@gmail.com,2003-08-07,Auxiliar administrativo,thalita vitória amaral dos santos,Feminino,18 - 24,Superior incompleto,Brasil,MT,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Mais de 1 ano,Instagram,"Intermediário — já entende muita coisa, mas te...","Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,"Não tenho disciplina, não consigo estudar sem ..."
3,2025-01-10,flaviamoreira1212@gmail.com,1997-09-12,Operadora de caixa,FLÁVIA MOREIRA,Feminino,25 - 34,Médio completo,Brasil,Pará,"Até R$1.500,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Conquistar um emprego melhor e ganhar mais,Não sei por onde começar a estudar
4,2025-01-13,louzadoneto@hotmail.com,1975-03-01,Servidor Público do Estado da Bahia,Mário da Silva Louzado Neto,Masculino,44 - 55,Pós-graduação completa,Brasil,Bahia,De R$5.000 a R$10.000,Comprei com o meu próprio dinheiro,Mais de 3 meses e menos de 1 ano,YouTube,"Perdido, mas estou motivado a mudar!","Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,Não sei por onde começar a estudar


In [10]:
# Adiciona a coluna de identificação dos lançamentos
df_pesquisa_alunos_l3_24['lancamentos'] = 'L3-24'
df_pesquisa_alunos_l4_24['lancamentos'] = 'L4-24'
df_pesquisa_alunos_l1_25['lancamentos'] = 'L1-25'

In [11]:
# Remover a coluna extra do df_l1
df_pesquisa_alunos_l1_25.drop(columns=['Nome: Marília Carvalho Martins'], inplace=True)

# Concatenar os dataframes
df_pesquisa_alunos_lancamentos = pd.concat([
    df_pesquisa_alunos_l3_24,
    df_pesquisa_alunos_l4_24,
    df_pesquisa_alunos_l1_25
], ignore_index=True).copy()

df_pesquisa_alunos_lancamentos

Unnamed: 0,data_inscricao,email,data_nascimento,profissao,genero,faixa_etaria,escolaridade,pais,estado,renda_media,como_comprou_portal,tempo_antes_portal,onde_acompanha_conteudo,nivel_idioma,fala_outro_idioma,motivo_fluencia_espanhol,problema_aprender,interesse_renovacao_portal,lancamentos
0,2024-05-14,teofilotavares@icloud.com,1983-01-06,Médico Veterinário,Masculino,35 - 44,Pós-graduação completa,Brasil,Goiás,Mais de R$10.000,Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,Não tenho tempo de sobra pra estudar,"Não, obrigado",L3-24
1,2024-05-16,leosantanati@outlook.com,1995-07-16,Autônomo,Masculino,25 - 34,Médio completo,Brasil,São Paulo,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Morar no exterior,"Não tenho disciplina, não consigo estudar sem ...","Não, obrigado",L3-24
2,2024-05-16,flaviojatoba@outlook.com,1992-10-28,Relações Públicas,Masculino,25 - 34,Superior completo,Brasil,São Paulo,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,Não acompanhava,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Morar no exterior,"Não tenho disciplina, não consigo estudar sem ...","Não, obrigado",L3-24
3,2024-05-17,alandematos10@hotmail.com,1982-05-08,Motorista socorrista,Masculino,35 - 44,Superior completo,Brasil,MG,"De R$1.500,01 à R$2.500,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Estou indo fazer Medicina,Não sei por onde começar a estudar,"Sim, eu quero ter mais tranquilidade para estu...",L3-24
4,2024-05-17,alandematos10@hotmail.com,1982-05-08,Enfermeiro,Masculino,35 - 44,Superior completo,Brasil,MG,"De R$1.500,01 à R$2.500,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Quero estudar fora do Brasil,Falta de um método eficiente,"Não, obrigado",L3-24
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
616,2025-01-27,joaofurtadon@gmail.com,1983-07-06,medico,Masculino,35 - 44,Pós-graduação completa,brasil,maranhao,Mais de R$10.000,Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,YouTube,Iniciante — dando os primeiros passos e vou me...,"Não, espanhol será meu primeiro idioma estrang...",Gosto do idioma e quero aprender por hobby,"Não tenho disciplina, não consigo estudar sem ...",,L1-25
617,2025-01-27,moreirapriscilla@yahoo.com.br,1975-05-28,Psicóloga,Feminino,44 - 55,Pós-graduação completa,Brasil,"Rio de Janeiro, RJ",Mais de R$10.000,Comprei com o meu próprio dinheiro,Há mais de um mês e menos de 3 meses,Instagram,Iniciante — dando os primeiros passos e vou me...,Espanhol será o primeiro a ficar fluente. Ingl...,Quero viajar e viver experiências marcantes me...,Não sei por onde começar a estudar,,L1-25
618,2025-01-27,bilam@uol.com.br,1982-12-02,Funcionária pública,Feminino,35 - 44,Pós-graduação completa,Brasil,São Paulo,"De R$2.500,01 à R$5.000,00",Comprei com o meu próprio dinheiro,Conheci durante o evento gratuito,Instagram,"Intermediário — já entende muita coisa, mas te...","Não, espanhol será meu primeiro idioma estrang...",Quero viajar e viver experiências marcantes me...,"Não tenho disciplina, não consigo estudar sem ...",,L1-25
619,2025-01-27,jurodrigues96@gmail.com,1996-08-16,Cineasta,Feminino,25 - 34,Superior completo,Brasil,Rio de Janeiro,"De R$1.500,01 à R$2.500,00",Meus pais (ou parentes) me ajudaram,Há mais de um mês e menos de 3 meses,Instagram,"Intermediário — já entende muita coisa, mas te...","Sim, inglês",Intercâmbio,"Entendo bem espanhol, mas não tenho estudo for...",,L1-25


In [12]:
df_pesquisa_alunos_lancamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 621 entries, 0 to 620
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   data_inscricao              621 non-null    datetime64[ns]
 1   email                       621 non-null    object        
 2   data_nascimento             616 non-null    datetime64[ns]
 3   profissao                   621 non-null    object        
 4   genero                      621 non-null    object        
 5   faixa_etaria                621 non-null    object        
 6   escolaridade                621 non-null    object        
 7   pais                        621 non-null    object        
 8   estado                      621 non-null    object        
 9   renda_media                 621 non-null    object        
 10  como_comprou_portal         621 non-null    object        
 11  tempo_antes_portal          621 non-null    object        

In [14]:
df_pesquisa_alunos_lancamentos['data_nascimento'] = df_pesquisa_alunos_lancamentos['data_nascimento'].fillna(pd.Timestamp('1900-01-01'))
df_pesquisa_alunos_lancamentos.rename(columns={'escolaridade': 'escolaridade_categoria'}, inplace=True)

In [15]:
df_pesquisa_alunos_lancamentos["interesse_renovacao_portal"] = (
    df_pesquisa_alunos_lancamentos["interesse_renovacao_portal"]
    .replace({
        "Sim, eu quero ter mais tranquilidade para estudar!": 1,
        "Não, obrigado": 0
    })
    .astype("Int64")  # permite int + NaN se necessário
)

df_pesquisa_alunos_lancamentos["tempo_antes_portal"] = (
    df_pesquisa_alunos_lancamentos["tempo_antes_portal"]
    .replace({
        "Conheci durante o evento gratuito": "Evento Gratuito",
        "Há mais de um mês e menos de 3 meses": "Entre 1 e 3 meses",
        "Mais de 3 meses e menos de 1 ano": "Entre 3 meses e 1 ano",
        "Conheci desde Dezembro de 2023.": "Desde Dez 2023"
    })
)

df_pesquisa_alunos_lancamentos["nivel_idioma"] = (
    df_pesquisa_alunos_lancamentos["nivel_idioma"]
    .replace({
        "Iniciante — dando os primeiros passos e vou melhorar muito": "Iniciante",
        "Intermediário — já entende muita coisa, mas tenho dificuldade pra falar": "Intermediário",
        "Perdido, mas estou motivado a mudar!": "Perdido",
        "Avançado — estou aqui para me aprofundar ainda mais": "Avançado",
        "Me vejo como iniciante, já tive aulas intensivas anteriormente, mas como parei faz um tempinho, me vejo como iniciante.": "Iniciante (voltando)"
    })
)

df_pesquisa_alunos_lancamentos["renda_media"] = (
    df_pesquisa_alunos_lancamentos["renda_media"]
    .replace({
        "Até R$1.500,00": "Até 1.500",
        "De R$1.500,01 à R$2.500,00": "De 1.500 a 2.500",
        "De R$2.500,01 a R$5.000,00": "De 2.500 a 5.000",
        "De R$5.000 a R$10.000": "De 5.000 a 10.000",
        "Mais de R$5.000,00": "De 5.000 a 10.000",
        "De R$2.500,01 à R$5.000,00": "De 2.500 a 5.000",
        "Mais de R$10.000": "Mais de 10.000"
    })
)

df_pesquisa_alunos_lancamentos["onde_acompanha_conteudo"] = (
    df_pesquisa_alunos_lancamentos["onde_acompanha_conteudo"]
    .replace({
        "Acompanho pelo Instagram, Youtube, TikTok.": "Outros"
    })
)

In [16]:
model = SentenceTransformer("all-MiniLM-L6-v2")

# Mapas distintos por coluna
mapeamentos = {
    'problema_aprender': mapeamento_problema_aprender,
    'profissao': mapeamento_profissoes,
    'fala_outro_idioma': mapeamento_outros_idiomas,
    'motivo_fluencia_espanhol': mapeamento_motivo_fluencia,
    'pais': mapeamento_paises,
    'estado': mapeamento_estados
}

for coluna, mapeamento in mapeamentos.items():
    nome_coluna_categoria = f"{coluna}_categoria"

    # Expandir mapeamento para esta coluna
    mapeamento_expandido, mapeamento_embeddings = preparar_para_categoria(mapeamento, model)

    # Categorização com o mapeamento certo
    df_pesquisa_alunos_lancamentos.loc[:, nome_coluna_categoria] = categorizar_coluna_batch(
        df_pesquisa_alunos_lancamentos[coluna],
        mapeamento_expandido,
        mapeamento_embeddings,
        model,
        threshold=0.6,
        desc=coluna
    )

problema_aprender (busca direta): 100%|███████████████████████████████████████████| 621/621 [00:00<00:00, 18817.91it/s]
profissao (busca direta): 100%|███████████████████████████████████████████████████| 621/621 [00:00<00:00, 22346.30it/s]
fala_outro_idioma (busca direta): 100%|███████████████████████████████████████████| 621/621 [00:00<00:00, 21906.33it/s]
motivo_fluencia_espanhol (busca direta): 100%|████████████████████████████████████| 621/621 [00:00<00:00, 19609.88it/s]
pais (busca direta): 100%|████████████████████████████████████████████████████████| 621/621 [00:00<00:00, 31372.03it/s]
estado (busca direta): 100%|██████████████████████████████████████████████████████| 621/621 [00:00<00:00, 30692.20it/s]


In [17]:
# Exibir strings completas
pd.set_option("display.max_colwidth", None)

# Colunas categorizadas e respectivas colunas originais
categorias = {
    "profissao": "profissao_categoria",
    "pais": "pais_categoria",
    "estado": "estado_categoria",
    "fala_outro_idioma": "fala_outro_idioma_categoria",
    "motivo_fluencia_espanhol": "motivo_fluencia_espanhol_categoria",
    "problema_aprender": "problema_aprender_categoria"
}

# Categorias problemáticas que queremos revisar
categorias_problema = ["Outros", "Não Informou"]

# Loop para filtrar e mostrar os valores
for original_col, categoria_col in categorias.items():
    for problema in categorias_problema:
        print(f"\n=== Top 100 valores de '{original_col}' categorizados como '{problema}' ===")

        filtro = df_pesquisa_alunos_lancamentos[categoria_col] == problema
        valores = df_pesquisa_alunos_lancamentos.loc[filtro, original_col].value_counts().head(100)

        # Adiciona aspas
        valores.index = [f'"{val}"' for val in valores.index]

        print(valores)


=== Top 100 valores de 'profissao' categorizados como 'Outros' ===
"-"        1
"24242"    1
Name: count, dtype: int64

=== Top 100 valores de 'profissao' categorizados como 'Não Informou' ===
"NDA"        1
"Rep Com"    1
Name: count, dtype: int64

=== Top 100 valores de 'pais' categorizados como 'Outros' ===
"424242"    1
Name: count, dtype: int64

=== Top 100 valores de 'pais' categorizados como 'Não Informou' ===
Series([], Name: count, dtype: int64)

=== Top 100 valores de 'estado' categorizados como 'Outros' ===
"Pardes Hanna Karkur"    2
"São Paulo-Campinas"     1
"Bernal"                 1
"Buenos Aires"           1
"Rio de Janeiro/RJ"      1
"Minas Geraes "          1
"Querétaro"              1
"Carrasco del Sauce"     1
"42424"                  1
Name: count, dtype: int64

=== Top 100 valores de 'estado' categorizados como 'Não Informou' ===
Series([], Name: count, dtype: int64)

=== Top 100 valores de 'fala_outro_idioma' categorizados como 'Outros' ===
"Yanomai (Da Terra in

In [18]:
df_pesquisa_alunos_lancamentos["email"] = df_pesquisa_alunos_lancamentos["email"].str.lower()
df_pesquisa_alunos_lancamentos = df_pesquisa_alunos_lancamentos.drop_duplicates(subset='email', keep='first')

df_pesquisa_alunos_lancamentos.shape

(585, 25)

In [19]:
df_pesquisa_alunos_lancamentos = df_pesquisa_alunos_lancamentos.drop([
    'profissao',
    'pais',
    'estado',
    'fala_outro_idioma',
    'motivo_fluencia_espanhol',
    'problema_aprender'
], axis=1, errors='ignore')

In [20]:
# Definir colunas categóricas não ordenadas
colunas_categoricas_nao_ordenadas = [
    "email",
    "genero",
    "como_comprou_portal",
    "onde_acompanha_conteudo",
    "profissao_categoria",
    "pais_categoria",
    "estado_categoria",
    "fala_outro_idioma_categoria",
    "motivo_fluencia_espanhol_categoria",
    "problema_aprender_categoria"
]

# Definir colunas categóricas ordenadas 
colunas_categoricas_ordenadas = [
    "faixa_etaria",
    "escolaridade_categoria",
    "renda_media",
    "tempo_antes_portal",
    "nivel_idioma",
    "lancamentos"
]

# Definir colunas de datas ordenadas
colunas_datas = [
    "data_inscricao",
    "data_nascimento"
]

# Definir colunas numéricas automaticamente (excluindo as categóricas e a variável-alvo)
colunas_numericas = [
    coluna for coluna in df_pesquisa_alunos_lancamentos.columns if coluna not in (
        colunas_categoricas_nao_ordenadas + colunas_categoricas_ordenadas + colunas_datas
    )
]

In [22]:
# Cópia explícita do DataFrame para evitar o SettingWithCopyWarning
df_pesquisa_alunos_lancamentos = df_pesquisa_alunos_lancamentos.copy()

# Definir as ordens como listas
faixa_etaria_order = ['14 - 17', '18 - 24', '25 - 34', '35 - 44', '44 - 55', '+55']
escolaridade_categoria_order = ['Fundamental completo', 'Médio incompleto', 'Médio completo', 'Superior incompleto', 'Superior completo', 'Pós-graduação completa']
renda_media_order = ['Não tenho renda.', 'Até 1.500', 'De 1.500 a 2.500', 'De 2.500 a 5.000', 'De 5.000 a 10.000', 'Mais de 10.000']
tempo_antes_portal_order = ['Evento Gratuito', 'Entre 1 e 3 meses', 'Entre 3 meses e 1 ano', 'Mais de 1 ano', 'Desde Dez 2023']
nivel_idioma_order = ['Perdido', 'Iniciante', 'Iniciante (voltando)', 'Intermediário', 'Avançado']
lancamentos_order = ['L3-24', 'L4-24', 'L1-25']

# Aplicar a nova ordem das categorias diretamente com .astype("category") seguido de .cat.set_categories
df_pesquisa_alunos_lancamentos['faixa_etaria'] = df_pesquisa_alunos_lancamentos['faixa_etaria'].astype("category").cat.set_categories(faixa_etaria_order, ordered=True)
df_pesquisa_alunos_lancamentos['escolaridade_categoria'] = df_pesquisa_alunos_lancamentos['escolaridade_categoria'].astype("category").cat.set_categories(escolaridade_categoria_order, ordered=True)
df_pesquisa_alunos_lancamentos['renda_media'] = df_pesquisa_alunos_lancamentos['renda_media'].astype("category").cat.set_categories(renda_media_order, ordered=True)
df_pesquisa_alunos_lancamentos['tempo_antes_portal'] = df_pesquisa_alunos_lancamentos['tempo_antes_portal'].astype("category").cat.set_categories(tempo_antes_portal_order, ordered=True)
df_pesquisa_alunos_lancamentos['nivel_idioma'] = df_pesquisa_alunos_lancamentos['nivel_idioma'].astype("category").cat.set_categories(nivel_idioma_order, ordered=True)
df_pesquisa_alunos_lancamentos['lancamentos'] = df_pesquisa_alunos_lancamentos['lancamentos'].astype("category").cat.set_categories(lancamentos_order, ordered=True)

In [23]:
df_pesquisa_alunos_lancamentos = df_pesquisa_alunos_lancamentos.copy()

# Conversão garantida para não ordenadas
for col in colunas_categoricas_nao_ordenadas:
    df_pesquisa_alunos_lancamentos[col] = df_pesquisa_alunos_lancamentos[col].astype("category")

In [24]:
for coluna in (colunas_categoricas_nao_ordenadas + colunas_categoricas_ordenadas):
    print(f"{coluna}: {df_pesquisa_alunos_lancamentos[coluna].unique()}")
    print()

email: ['teofilotavares@icloud.com', 'leosantanati@outlook.com', 'flaviojatoba@outlook.com', 'alandematos10@hotmail.com', 'vanessavirginia2019@gmail.com', ..., 'joaofurtadon@gmail.com', 'moreirapriscilla@yahoo.com.br', 'bilam@uol.com.br', 'jurodrigues96@gmail.com', 'juninhocosta000@gmail.com']
Length: 585
Categories (585, object): ['18esms@gmail.com', 'a.demite@gmail.com', 'a1seculo@gmail.com', 'acsa.winchestter157@gmail.com', ..., 'yaraschulz1@outlook.com', 'yvencarvalho23@icloud.com', 'yvisglopes@gmail.com', 'zealvaro@dieese.org.br']

genero: ['Masculino', 'Feminino']
Categories (2, object): ['Feminino', 'Masculino']

como_comprou_portal: ['Comprei com o meu próprio dinheiro', 'Ganhei de presente', 'Meus pais (ou parentes) me ajudaram', 'Pedi emprestado', 'Conheci através do Youtube']
Categories (5, object): ['Comprei com o meu próprio dinheiro', 'Conheci através do Youtube', 'Ganhei de presente', 'Meus pais (ou parentes) me ajudaram', 'Pedi emprestado']

onde_acompanha_conteudo: ['Y

In [25]:
# Caminho de destino
caminho_csv = r"C:\Users\Camilo_Bica\data_science\consultoria\portal_vhe\dados\pesquisa_alunos_lancamentos.csv"

# Exportar para CSV com separador padrão (vírgula) e sem índice
df_pesquisa_alunos_lancamentos.to_csv(caminho_csv, index=False, encoding='utf-8-sig')

In [26]:
df_pesquisa_alunos_lancamentos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 585 entries, 0 to 620
Data columns (total 19 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   data_inscricao                      585 non-null    datetime64[ns]
 1   email                               585 non-null    category      
 2   data_nascimento                     585 non-null    datetime64[ns]
 3   genero                              585 non-null    category      
 4   faixa_etaria                        585 non-null    category      
 5   escolaridade_categoria              585 non-null    category      
 6   renda_media                         585 non-null    category      
 7   como_comprou_portal                 585 non-null    category      
 8   tempo_antes_portal                  585 non-null    category      
 9   onde_acompanha_conteudo             585 non-null    category      
 10  nivel_idioma                   

In [27]:
df_pesquisa_alunos_lancamentos.head()

Unnamed: 0,data_inscricao,email,data_nascimento,genero,faixa_etaria,escolaridade_categoria,renda_media,como_comprou_portal,tempo_antes_portal,onde_acompanha_conteudo,nivel_idioma,interesse_renovacao_portal,lancamentos,problema_aprender_categoria,profissao_categoria,fala_outro_idioma_categoria,motivo_fluencia_espanhol_categoria,pais_categoria,estado_categoria
0,2024-05-14,teofilotavares@icloud.com,1983-01-06,Masculino,35 - 44,Pós-graduação completa,Mais de 10.000,Comprei com o meu próprio dinheiro,Entre 1 e 3 meses,YouTube,Iniciante,0,L3-24,Falta de tempo,Saúde,Não Fala Outro Idioma,Quero viajar e viver experiências marcantes me comunicando com confiança,Brasil,GO
1,2024-05-16,leosantanati@outlook.com,1995-07-16,Masculino,25 - 34,Médio completo,De 2.500 a 5.000,Comprei com o meu próprio dinheiro,Evento Gratuito,YouTube,Iniciante,0,L3-24,Falta de disciplina / foco,Empreendedorismo,Não Fala Outro Idioma,Morar no exterior,Brasil,SP
2,2024-05-16,flaviojatoba@outlook.com,1992-10-28,Masculino,25 - 34,Superior completo,De 2.500 a 5.000,Comprei com o meu próprio dinheiro,Evento Gratuito,Não acompanhava,Iniciante,0,L3-24,Falta de disciplina / foco,Publicidade,Não Fala Outro Idioma,Morar no exterior,Brasil,SP
3,2024-05-17,alandematos10@hotmail.com,1982-05-08,Masculino,35 - 44,Superior completo,De 1.500 a 2.500,Comprei com o meu próprio dinheiro,Evento Gratuito,YouTube,Iniciante,1,L3-24,Não sei por onde começar,Saúde,Não Fala Outro Idioma,Outros,Brasil,MG
5,2024-05-17,vanessavirginia2019@gmail.com,1985-06-08,Feminino,35 - 44,Superior completo,Não tenho renda.,Ganhei de presente,Entre 1 e 3 meses,YouTube,Iniciante,1,L3-24,Não sei por onde começar,Vendas,Não Fala Outro Idioma,Morar no exterior,Espanha,Estrangeiro


In [28]:
colunas_excluir = [
    "data_inscricao", 
    "email", 
    "data_nascimento"
]

for coluna in df_pesquisa_alunos_lancamentos.columns:
    if coluna not in colunas_excluir:
        print(f"\nColuna: {coluna}")
        print(df_pesquisa_alunos_lancamentos[coluna].value_counts(dropna=False))


Coluna: genero
genero
Feminino     417
Masculino    168
Name: count, dtype: int64

Coluna: faixa_etaria
faixa_etaria
25 - 34    184
35 - 44    166
44 - 55    125
+55         68
18 - 24     41
14 - 17      1
Name: count, dtype: int64

Coluna: escolaridade_categoria
escolaridade_categoria
Pós-graduação completa    239
Superior completo         173
Médio completo             85
Superior incompleto        73
Médio incompleto           12
Fundamental completo        3
Name: count, dtype: int64

Coluna: renda_media
renda_media
De 2.500 a 5.000     162
De 5.000 a 10.000    139
De 1.500 a 2.500     101
Mais de 10.000        88
Até 1.500             52
Não tenho renda.      43
Name: count, dtype: int64

Coluna: como_comprou_portal
como_comprou_portal
Comprei com o meu próprio dinheiro     487
Ganhei de presente                      55
Meus pais (ou parentes) me ajudaram     32
Pedi emprestado                         10
Conheci através do Youtube               1
Name: count, dtype: int64

Colun