In [1]:
import gspread
import pandas as pd
import os
import numpy as np

from dotenv import load_dotenv
from google.oauth2 import service_account

# === Carregar variáveis de ambiente ===
load_dotenv()

# === Definir escopos de acesso ===
scopes = [
    "https://www.googleapis.com/auth/spreadsheets.readonly",
    "https://www.googleapis.com/auth/drive.readonly"
]

# === Caminho seguro para o arquivo JSON (lido do .env) ===
cred_path = os.getenv('GOOGLE_CREDENTIALS_PATH')

# === Carregar credenciais de forma moderna ===
creds = service_account.Credentials.from_service_account_file(
    cred_path,
    scopes=scopes
)

# === Autorizar o cliente gspread ===
client = gspread.authorize(creds)

# === Função para carregar aba da planilha ===
def carregar_aba(sheet_id, aba_nome):
    planilha = client.open_by_key(sheet_id)
    aba = planilha.worksheet(aba_nome)
    dados = aba.get_all_records()
    return pd.DataFrame(dados)

# === IDs das planilhas (fixar no .env depois se quiser) ===
id_dados_leads_ssp = "1K7nLxfgu6ktdyFwlHMPJsj5xdv410tensfPccmmPDm8"
id_pesquisa_ssp = "1pK0BP8n98DtQ8OwGeBhzcGgxQinFqZhZsQTk7_cYZIk"
id_compradores_ssp = "1A3D8JNPlZNpxkwcXQ_7CxalNEZyLo8KmJP6Sa_A-3NU"

# === Carregar DataFrames ===
df_leads_trafego = carregar_aba(id_dados_leads_ssp, "Página1")
df_leads_invest_trafego = carregar_aba(id_dados_leads_ssp, "Dados Investimento")
df_pesquisa_captacao_l12 = carregar_aba(id_pesquisa_ssp, "Página1")
df_compradores = carregar_aba(id_compradores_ssp, "Compradores")

In [2]:
df_pesquisa_captacao_l12 = df_pesquisa_captacao_l12.drop(["Funil"], axis=1, errors='ignore')
df_pesquisa_captacao_l12.rename(columns={'E-mail': 'email'}, inplace=True)
df_pesquisa_captacao_l12.columns = df_pesquisa_captacao_l12.columns.str.lower()

df_pesquisa_captacao_l12['data'] = pd.to_datetime(df_pesquisa_captacao_l12['data'], errors='coerce')
df_pesquisa_captacao_l12['data'] = df_pesquisa_captacao_l12['data'].dt.tz_localize(None)
df_pesquisa_captacao_l12['data'] = df_pesquisa_captacao_l12['data'].dt.normalize()

df_pesquisa_captacao_l12["email"] = df_pesquisa_captacao_l12["email"].str.lower().str.strip()
df_pesquisa_captacao_l12 = df_pesquisa_captacao_l12.drop_duplicates(subset='email', keep='first')

df_pesquisa_captacao_l12.info()

<class 'pandas.core.frame.DataFrame'>
Index: 26233 entries, 0 to 26969
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   data                   26233 non-null  datetime64[ns]
 1   email                  26233 non-null  object        
 2   idade                  26233 non-null  object        
 3   nível                  26233 non-null  object        
 4   situação profissional  26233 non-null  object        
 5   renda                  26233 non-null  object        
 6   escolaridade           26233 non-null  object        
 7   duvida                 26233 non-null  object        
 8   dificuldade            26233 non-null  object        
dtypes: datetime64[ns](1), object(8)
memory usage: 2.0+ MB


In [3]:
df_pesquisa_captacao_l12["renda"] = (
    df_pesquisa_captacao_l12["renda"]
    .replace({
        "O a R$1.000\u2028": "De 0 a 1.000",
        "R$1.000 a R$3.000": "De 1.000 a 3.000",
        "R$3.000 a R$5.000\u2028": "De 3.000 a 5.000",
        "R$5.000 a R$10.000\u2028": "De 5.000 a 10.000",
        "Mais de R$10.000": "Mais de 10.000"
    })
)

df_pesquisa_captacao_l12["escolaridade"] = (
    df_pesquisa_captacao_l12["escolaridade"]
    .replace({
        "Ensino superior incompleto\u2028": "Ensino superior incompleto"
    })
)

In [4]:
# Filtrar o DataFrame para excluir linhas onde o email contém "teste" ou "x@x"
df_pesquisa_captacao_l12 = df_pesquisa_captacao_l12[
    ~df_pesquisa_captacao_l12['email'].str.contains('teste|x@x', case=False, na=False)
]

df_pesquisa_captacao_l12

Unnamed: 0,data,email,idade,nível,situação profissional,renda,escolaridade,duvida,dificuldade
2,2025-04-07,manoeltarsis22@gmail.com,33-37,Técnica,Autônomo,De 1.000 a 3.000,Ensino médio completo,O que preciso pra ser aprovado,Tempo
3,2025-04-07,geovanarodrigues0106@gmail.com,23-27,Técnica,Desempregado(a),Estou desempregado(a),Ensino superior incompleto,.,Separa material
4,2025-04-07,jj272824@gmail.com,18-22,Superior,Desempregado(a),Estou desempregado(a),Ensino médio completo,O quão difícil é conseguir passar,Nenhuma
5,2025-04-07,iuriguerreiro45@gmail.com,28-32,Técnica,Desempregado(a),Estou desempregado(a),Nível técnico completo,Em qual lugar do Brasil pode fazer o concurso?,Tempo
6,2025-04-07,stevaogabrieli2020@gmail.com,18-22,Técnica,Autônomo,Estou desempregado(a),Ensino médio completo,Se precisa de ensino superior,Nenhuma
...,...,...,...,...,...,...,...,...,...
26964,2025-04-28,liliannecarvalho2008@hotmail.com,38-45,Técnica,Autônomo,De 0 a 1.000,Ensino superior incompleto,Quando for chamada já tem que apresentar o dip...,Concentração devido problemas financeiros
26965,2025-04-28,yurifelixdemesquita@gmail.com,23-27,Técnica,Desempregado(a),De 1.000 a 3.000,Ensino médio completo,Como me preparar corretamente,Falta de um caminho correto
26966,2025-04-28,andersonmoreiraloc@gmail.com,53 ou mais,Técnica,Autônomo,De 1.000 a 3.000,Nível técnico completo,Conhecimento específico (técnico) elétrica,Tempo e disponibilidade em encontrar profissio...
26967,2025-04-28,leosanttos91@gmail.com,33-37,Técnica,Desempregado(a),De 3.000 a 5.000,Ensino médio completo,Conteúdo da prova,Tempo


In [5]:
df_leads_trafego.rename(columns={'E-mail': 'email'}, inplace=True)
df_leads_trafego.columns = df_leads_trafego.columns.str.lower()

df_leads_trafego['data'] = pd.to_datetime(df_leads_trafego['data'], errors='coerce')
df_leads_trafego['data'] = df_leads_trafego['data'].dt.tz_localize(None)
df_leads_trafego['data'] = df_leads_trafego['data'].dt.normalize()

df_leads_trafego["email"] = df_leads_trafego["email"].str.lower().str.strip()
df_leads_trafego = df_leads_trafego.drop_duplicates(subset='email', keep='first')

df_leads_trafego.info()

<class 'pandas.core.frame.DataFrame'>
Index: 43252 entries, 0 to 43317
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   data          43252 non-null  datetime64[ns]
 1   nome          43252 non-null  object        
 2   email         43252 non-null  object        
 3   utm source    43252 non-null  object        
 4   utm campaign  43252 non-null  object        
 5   utm medium    43252 non-null  object        
 6   utm content   43252 non-null  object        
 7   tag           43252 non-null  object        
dtypes: datetime64[ns](1), object(7)
memory usage: 3.0+ MB


  df_leads_trafego['data'] = pd.to_datetime(df_leads_trafego['data'], errors='coerce')


In [6]:
# Definir colunas UTM
colunas_utms = ['utm source', 'utm campaign', 'utm medium', 'utm content']

# Função para verificar se uma célula é "vazia de verdade"
def is_vazio(valor):
    if pd.isna(valor):
        return True
    valor = str(valor).strip()
    return (valor == "") or (valor.startswith("{{") and valor.endswith("}}"))

# Função para verificar se TODAS UTMs estão vazias para uma linha
def todas_utms_vazias(row):
    return all(is_vazio(row[col]) for col in colunas_utms)

# Aplicar filtro: manter linhas onde pelo menos uma UTM está preenchida de verdade
df_leads_trafego = df_leads_trafego[
    ~df_leads_trafego.apply(todas_utms_vazias, axis=1)
].copy()

# Resetar índice
df_leads_trafego = df_leads_trafego.reset_index(drop=True)

df_leads_trafego

Unnamed: 0,data,nome,email,utm source,utm campaign,utm medium,utm content,tag
0,2025-03-31,Rafael,rafael@agenciascale.com.br,teste,teste,teste,teste,SSP-L12
1,2025-03-31,Hermes,hermesc1@gmail.com,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_002_ANUNCIO PETRO 02,SSP-L12
2,2025-03-31,Geisa,santos.geisa.lucas@gmail.com,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_002_ANUNCIO PETRO 02,SSP-L12
3,2025-03-31,Uelington,uelingtonreis25@gmail.com,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_003_ANUNCIO PETRO 03,SSP-L12
4,2025-03-31,Vivian,vivian.serafim.xoxo@gmail.com,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_003_ANUNCIO PETRO 03,SSP-L12
...,...,...,...,...,...,...,...,...
41843,2025-04-23,Danilo,danilofiais155@gmail.com,Facebook-Ads,{{campaign.name}},{{adset.name}},{{ad.name}},
41844,2025-04-23,Cristiano,lendasocapa9@gmail.com,Facebook-Ads,{{campaign.name}},{{adset.name}},{{ad.name}},
41845,2025-04-24,Samuel,rleao4258@gmail.com,Facebook-Ads,{{campaign.name}},{{adset.name}},{{ad.name}},
41846,2025-04-25,Gabriel,guimaraesg198@gmail.com,Facebook-Ads,{{campaign.name}},{{adset.name}},{{ad.name}},


In [7]:
df_leads_trafego.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41848 entries, 0 to 41847
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   data          41848 non-null  datetime64[ns]
 1   nome          41848 non-null  object        
 2   email         41848 non-null  object        
 3   utm source    41848 non-null  object        
 4   utm campaign  41848 non-null  object        
 5   utm medium    41848 non-null  object        
 6   utm content   41848 non-null  object        
 7   tag           41848 non-null  object        
dtypes: datetime64[ns](1), object(7)
memory usage: 2.6+ MB


In [8]:
df_leads_invest_trafego['date'] = pd.to_datetime(df_leads_invest_trafego['date'], errors='coerce')
df_leads_invest_trafego['date'] = df_leads_invest_trafego['date'].dt.tz_localize(None)
df_leads_invest_trafego['date'] = df_leads_invest_trafego['date'].dt.normalize()

df_leads_invest_trafego.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 788 entries, 0 to 787
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   date                       788 non-null    datetime64[ns]
 1   campaign                   788 non-null    object        
 2   adset_name                 788 non-null    object        
 3   ad_name                    788 non-null    object        
 4   spend                      788 non-null    int64         
 5   impressions                788 non-null    int64         
 6   actions_link_click         788 non-null    int64         
 7   actions_landing_page_view  788 non-null    int64         
dtypes: datetime64[ns](1), int64(4), object(3)
memory usage: 49.4+ KB


  df_leads_invest_trafego['date'] = pd.to_datetime(df_leads_invest_trafego['date'], errors='coerce')


In [9]:
# Lista das colunas que queremos validar
colunas_investimento = ['spend', 'impressions', 'actions_link_click', 'actions_landing_page_view']

# Garantir que essas colunas sejam numéricas (importante!)
for col in colunas_investimento:
    df_leads_invest_trafego[col] = (
        df_leads_invest_trafego[col]
        .astype(str)
        .str.replace(',', '.', regex=False)
        .astype(float)
    )

# Agora, remover linhas onde TODAS essas colunas são zero
df_leads_invest_trafego = df_leads_invest_trafego[
    ~(df_leads_invest_trafego[colunas_investimento] == 0).all(axis=1)
].copy()

# Ajustar df_leads_invest_trafego para nomes iguais
df_leads_invest_trafego = df_leads_invest_trafego.rename(columns={
    'date': 'data',
    'campaign': 'utm campaign',
    'adset_name': 'utm medium',
    'ad_name': 'utm content'
})

# Resetar índice (opcional, para organização)
df_leads_invest_trafego = df_leads_invest_trafego.reset_index(drop=True)

In [10]:
df_leads_invest_trafego

Unnamed: 0,data,utm campaign,utm medium,utm content,spend,impressions,actions_link_click,actions_landing_page_view
0,2025-03-31,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_003_ANUNCIO PETRO 03,4004.0,2878.0,16.0,1.0
1,2025-03-31,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_002_ANUNCIO PETRO 02,8664.0,5862.0,41.0,1.0
2,2025-03-31,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_001_ANUNCIO PETRO 01,20466.0,17136.0,259.0,20.0
3,2025-03-31,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_003_ANUNCIO PETRO 03,7885.0,6254.0,30.0,0.0
4,2025-03-31,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_002_ANUNCIO PETRO 02,2032.0,1786.0,14.0,1.0
...,...,...,...,...,...,...,...,...
624,2025-04-15,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | SALVOU + ENVIOU MSG | 365D,ADS_001_ANUNCIO PETRO 01,4.0,5.0,0.0,0.0
625,2025-04-15,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 90D,ADS_003_ANUNCIO PETRO 03,854.0,670.0,9.0,7.0
626,2025-04-15,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 90D,ADS_001_ANUNCIO PETRO 01,1327.0,925.0,13.0,8.0
627,2025-04-15,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 14D,ADS_001_ANUNCIO PETRO 01,169.0,1043.0,9.0,8.0


In [11]:
df_compradores.rename(columns={'email contato': 'email'}, inplace=True)
df_compradores["email"] = df_compradores["email"].str.lower().str.strip()
df_compradores = df_compradores.drop_duplicates(subset='email', keep='first')

df_compradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 593 entries, 0 to 592
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   email   593 non-null    object
dtypes: object(1)
memory usage: 4.8+ KB


In [12]:
df_pesquisa_compradores_l12 = df_pesquisa_captacao_l12[
    df_pesquisa_captacao_l12["email"].isin(df_compradores["email"])
].copy()

In [13]:
df_pesquisa_compradores_l12.info()

<class 'pandas.core.frame.DataFrame'>
Index: 194 entries, 12 to 26875
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   data                   194 non-null    datetime64[ns]
 1   email                  194 non-null    object        
 2   idade                  194 non-null    object        
 3   nível                  194 non-null    object        
 4   situação profissional  194 non-null    object        
 5   renda                  194 non-null    object        
 6   escolaridade           194 non-null    object        
 7   duvida                 194 non-null    object        
 8   dificuldade            194 non-null    object        
dtypes: datetime64[ns](1), object(8)
memory usage: 15.2+ KB


In [14]:
df_pesquisa_compradores_l12

Unnamed: 0,data,email,idade,nível,situação profissional,renda,escolaridade,duvida,dificuldade
12,2025-04-07,caroline.micaelle16@gmail.com,18-22,Superior,Funcionário de empresa privada,De 1.000 a 3.000,Ensino superior completo,A quais vagas posso concorrer tendo tecnólogo ...,Tempo
60,2025-04-07,helder170@yahoo.com.br,38-45,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Tenho o curso técnico em contabilidade servi p...,Memorização
270,2025-04-07,joaochodachi@gmail.com,28-32,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Em qual cidade irei fazer o concurso?,Não sei o que estudar
295,2025-04-07,mayconjean612@gmail.com,28-32,Técnica,Desempregado(a),De 1.000 a 3.000,Ensino superior completo,Quando vai sair o edital,Foco
309,2025-04-07,cidgmj79@gmail.com,46-52,Técnica,Funcionário de empresa privada,De 3.000 a 5.000,Nível técnico completo,A prova,Tempo
...,...,...,...,...,...,...,...,...,...
26635,2025-04-15,isabela.a.rezende@gmail.com,33-37,Técnica,Funcionário de empresa privada,De 3.000 a 5.000,Ensino superior completo,A minha dúvida principal é de como é o trabalh...,"Concentração, porque tem muito tempo q não par..."
26689,2025-04-16,espindolavitorandrade@gmail.com,23-27,Superior,Desempregado(a),De 0 a 1.000,Ensino médio completo,Consigo fazer sem ter um técnico,Tempo
26726,2025-04-16,felipebarboosa532@gmail.com,18-22,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Matérias,Nenhuma
26805,2025-04-18,davisouzamg1@gmail.com,23-27,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Nível técnico completo,Formação,Ensino


In [15]:
df_compradores_nao_respondentes = df_compradores[
    ~df_compradores["email"].isin(df_pesquisa_captacao_l12["email"])
].copy()

In [16]:
df_compradores_nao_respondentes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 399 entries, 0 to 591
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   email   399 non-null    object
dtypes: object(1)
memory usage: 6.2+ KB


In [17]:
df_pesquisa_captacao_l12['lancamentos'] = 'SSP-L12'
df_pesquisa_compradores_l12['lancamentos'] = 'SSP-L12'

In [18]:
# Colunas de UTM que vamos trazer
colunas_utm = ['utm source', 'utm campaign', 'utm medium', 'utm content']

# Fazer o merge trazendo as UTMs para df_pesquisa_captacao_l12
df_pesquisa_captacao_l12 = df_pesquisa_captacao_l12.merge(
    df_leads_trafego[['email'] + colunas_utm],
    on='email',
    how='left'  # Mantém todas as respostas da pesquisa, mesmo se não tiver UTM
)

# Fazer o merge trazendo as UTMs para df_pesquisa_compradores_l12
df_pesquisa_compradores_l12 = df_pesquisa_compradores_l12.merge(
    df_leads_trafego[['email'] + colunas_utm],
    on='email',
    how='left'
)

In [19]:
df_pesquisa_captacao_l12

Unnamed: 0,data,email,idade,nível,situação profissional,renda,escolaridade,duvida,dificuldade,lancamentos,utm source,utm campaign,utm medium,utm content
0,2025-04-07,manoeltarsis22@gmail.com,33-37,Técnica,Autônomo,De 1.000 a 3.000,Ensino médio completo,O que preciso pra ser aprovado,Tempo,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | MIX DE PUBLICOS | CRIATIVO 07,ADS_007_ANUNCIO PETRO 07
1,2025-04-07,geovanarodrigues0106@gmail.com,23-27,Técnica,Desempregado(a),Estou desempregado(a),Ensino superior incompleto,.,Separa material,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 7D,ADS_001_ANUNCIO PETRO 01
2,2025-04-07,jj272824@gmail.com,18-22,Superior,Desempregado(a),Estou desempregado(a),Ensino médio completo,O quão difícil é conseguir passar,Nenhuma,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 90D,ADS_006_ANUNCIO PETRO 06
3,2025-04-07,iuriguerreiro45@gmail.com,28-32,Técnica,Desempregado(a),Estou desempregado(a),Nível técnico completo,Em qual lugar do Brasil pode fazer o concurso?,Tempo,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 30D,ADS_001_ANUNCIO PETRO 01
4,2025-04-07,stevaogabrieli2020@gmail.com,18-22,Técnica,Autônomo,Estou desempregado(a),Ensino médio completo,Se precisa de ensino superior,Nenhuma,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | MIX DE PUBLICOS | CRIATIVO 08,ADS_008_ANUNCIO PETRO 08
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26222,2025-04-28,liliannecarvalho2008@hotmail.com,38-45,Técnica,Autônomo,De 0 a 1.000,Ensino superior incompleto,Quando for chamada já tem que apresentar o dip...,Concentração devido problemas financeiros,SSP-L12,,,,
26223,2025-04-28,yurifelixdemesquita@gmail.com,23-27,Técnica,Desempregado(a),De 1.000 a 3.000,Ensino médio completo,Como me preparar corretamente,Falta de um caminho correto,SSP-L12,,,,
26224,2025-04-28,andersonmoreiraloc@gmail.com,53 ou mais,Técnica,Autônomo,De 1.000 a 3.000,Nível técnico completo,Conhecimento específico (técnico) elétrica,Tempo e disponibilidade em encontrar profissio...,SSP-L12,,,,
26225,2025-04-28,leosanttos91@gmail.com,33-37,Técnica,Desempregado(a),De 3.000 a 5.000,Ensino médio completo,Conteúdo da prova,Tempo,SSP-L12,,,,


In [20]:
df_pesquisa_compradores_l12

Unnamed: 0,data,email,idade,nível,situação profissional,renda,escolaridade,duvida,dificuldade,lancamentos,utm source,utm campaign,utm medium,utm content
0,2025-04-07,caroline.micaelle16@gmail.com,18-22,Superior,Funcionário de empresa privada,De 1.000 a 3.000,Ensino superior completo,A quais vagas posso concorrer tendo tecnólogo ...,Tempo,SSP-L12,Youtube,,Descricao,
1,2025-04-07,helder170@yahoo.com.br,38-45,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Tenho o curso técnico em contabilidade servi p...,Memorização,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | ABO | FRIO | ALL | BR | 0...,00 | AUTO | LAL | 1% | ENV 7D | CRIATIVO 10,ADS_010_ANUNCIO PETRO 10
2,2025-04-07,joaochodachi@gmail.com,28-32,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Em qual cidade irei fazer o concurso?,Não sei o que estudar,SSP-L12,Youtube,,Descricao,
3,2025-04-07,mayconjean612@gmail.com,28-32,Técnica,Desempregado(a),De 1.000 a 3.000,Ensino superior completo,Quando vai sair o edital,Foco,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | QUENTE | ALL | BR |...,00 | AUTO | ENVOLVIMENTO | 90D,ADS_007_ANUNCIO PETRO 07
4,2025-04-07,cidgmj79@gmail.com,46-52,Técnica,Funcionário de empresa privada,De 3.000 a 5.000,Nível técnico completo,A prova,Tempo,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_001_ANUNCIO PETRO 01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
189,2025-04-15,isabela.a.rezende@gmail.com,33-37,Técnica,Funcionário de empresa privada,De 3.000 a 5.000,Ensino superior completo,A minha dúvida principal é de como é o trabalh...,"Concentração, porque tem muito tempo q não par...",SSP-L12,Youtube,,Descricao,
190,2025-04-16,espindolavitorandrade@gmail.com,23-27,Superior,Desempregado(a),De 0 a 1.000,Ensino médio completo,Consigo fazer sem ter um técnico,Tempo,SSP-L12,,,,
191,2025-04-16,felipebarboosa532@gmail.com,18-22,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Ensino médio completo,Matérias,Nenhuma,SSP-L12,Youtube,,Descricao,
192,2025-04-18,davisouzamg1@gmail.com,23-27,Técnica,Funcionário de empresa privada,De 1.000 a 3.000,Nível técnico completo,Formação,Ensino,SSP-L12,Facebook-Ads,SSP-L12 | CAPTACAO | CBO | FRIO | ALL | BR | 3...,00 | AUTO | LAL | 1% | ENVOLVIMENTO IG 14D,ADS_007_ANUNCIO PETRO 07


In [21]:
# Definir as colunas UTM
colunas_utms = ['utm source', 'utm campaign', 'utm medium', 'utm content']

# Contar quantas linhas têm todas as UTMs como NaN
qtd_todas_utms_nan = df_pesquisa_compradores_l12[colunas_utms].isna().all(axis=1).sum()

print(f"Quantidade de linhas com TODAS as UTMs NaN: {qtd_todas_utms_nan}")

Quantidade de linhas com TODAS as UTMs NaN: 20


In [22]:
# Definir colunas categóricas não ordenadas
colunas_categoricas_nao_ordenadas = [
    "email",
    "situação profissional",
    "duvida",
    "dificuldade",
    "campaign",
    "adset_name",
    "ad_name",
    "nome",
    "utm source",
    "utm campaign",
    "utm medium",
    "utm countet",
    "tag"
]

# Definir colunas categóricas ordenadas 
colunas_categoricas_ordenadas = [
    "idade",
    "nível",
    "renda",
    "escolaridade",
    "lancamentos"
]

# Definir colunas de datas ordenadas
colunas_datas = [
    "data",
    "date"
]

# Função para identificar colunas numéricas em qualquer DataFrame
def identificar_colunas_numericas(df, cat_nao_ord, cat_ord, datas):
    return [
        coluna for coluna in df.columns
        if coluna not in (cat_nao_ord + cat_ord + datas)
        and pd.api.types.is_numeric_dtype(df[coluna])
    ]

# Aplicar a função nos DataFrames
colunas_numericas_pesquisa = identificar_colunas_numericas(df_pesquisa_captacao_l12, colunas_categoricas_nao_ordenadas, colunas_categoricas_ordenadas, colunas_datas)
colunas_numericas_compradores = identificar_colunas_numericas(df_compradores, colunas_categoricas_nao_ordenadas, colunas_categoricas_ordenadas, colunas_datas)
colunas_numericas_leads_trafego = identificar_colunas_numericas(df_leads_trafego, colunas_categoricas_nao_ordenadas, colunas_categoricas_ordenadas, colunas_datas)
colunas_numericas_leads_invest_trafego = identificar_colunas_numericas(df_leads_invest_trafego, colunas_categoricas_nao_ordenadas, colunas_categoricas_ordenadas, colunas_datas)

In [23]:
# Cópia explícita dos DataFrames para evitar SettingWithCopyWarning
df_pesquisa_captacao_l12 = df_pesquisa_captacao_l12.copy()

# Mapeamento de colunas ordenadas com suas categorias
categorias_ordenadas = {
    'idade': ['18-22', '23-27', '28-32', '33-37', '38-45', '46-52', '53 ou mais'],
    'escolaridade': [
        'Ensino médio completo', 'Nível técnico incompleto', 'Nível técnico completo',
        'Ensino superior incompleto', 'Ensino superior completo'
    ],
    'renda': [
        'Estou desempregado(a)', 'De 0 a 1.000', 'De 1.000 a 3.000', 'De 3.000 a 5.000',
        'De 5.000 a 10.000', 'Mais de 10.000'
    ],
    'nível': [
        'Técnica', 'Superior'
    ]
}

# Função para aplicar a ordenação de categorias
def aplicar_categorias_ordenadas(df, categorias):
    for coluna, ordem in categorias.items():
        if coluna in df.columns:
            df[coluna] = df[coluna].astype("category").cat.set_categories(ordem, ordered=True)
    return df

# Aplicar nos dois DataFrames
df_pesquisa_captacao_l12 = aplicar_categorias_ordenadas(df_pesquisa_captacao_l12, categorias_ordenadas)

In [24]:
# Função para aplicar conversão para "category" não ordenado
def aplicar_categorias_nao_ordenadas(df, colunas):
    for col in colunas:
        if col in df.columns:
            df[col] = df[col].astype("category")
    return df

# Aplicar nos dois DataFrames
df_pesquisa_captacao_l12 = aplicar_categorias_nao_ordenadas(df_pesquisa_captacao_l12.copy(), colunas_categoricas_nao_ordenadas)
df_leads_trafego = aplicar_categorias_nao_ordenadas(df_leads_trafego.copy(), colunas_categoricas_nao_ordenadas)
df_leads_invest_trafego = aplicar_categorias_nao_ordenadas(df_leads_invest_trafego.copy(), colunas_categoricas_nao_ordenadas)
df_compradores = aplicar_categorias_nao_ordenadas(df_compradores.copy(), colunas_categoricas_nao_ordenadas)

In [25]:
def explorar_valores_unicos(df, colunas, nome_df="DataFrame"):
    print(f"\n--- Valores únicos em {nome_df} ---")
    for coluna in colunas:
        if coluna in df.columns:
            print(f"{coluna}: {df[coluna].unique()}")
            print()
        else:
            print(f"{coluna}: [coluna não encontrada em {nome_df}]\n")

# Unir todas as colunas categóricas
todas_categoricas = colunas_categoricas_nao_ordenadas + colunas_categoricas_ordenadas

# Explorar os dois DataFrames
explorar_valores_unicos(df_pesquisa_captacao_l12, todas_categoricas, nome_df="df_pesquisa_captacao_l12")
explorar_valores_unicos(df_leads_trafego, todas_categoricas, nome_df="df_leads_trafego")
explorar_valores_unicos(df_leads_invest_trafego, todas_categoricas, nome_df="df_leads_invest_trafego")
explorar_valores_unicos(df_compradores, todas_categoricas, nome_df="df_compradores")


--- Valores únicos em df_pesquisa_captacao_l12 ---
email: ['manoeltarsis22@gmail.com', 'geovanarodrigues0106@gmail.com', 'jj272824@gmail.com', 'iuriguerreiro45@gmail.com', 'stevaogabrieli2020@gmail.com', ..., 'liliannecarvalho2008@hotmail.com', 'yurifelixdemesquita@gmail.com', 'andersonmoreiraloc@gmail.com', 'leosanttos91@gmail.com', 'gabriel.alberto45@gmail.com']
Length: 26227
Categories (26227, object): ['007filipemonteiro@gmail.com', '015988177447c@gmail.com', '015antonyrl@gmail.com', '01charles18@gmail.com', ..., 'zydannesantos701@gmail.com', 'zyellbr@gmail.com', 'zzbcxhh@gmail.com', 'zzgundam83@hotmail.com']

situação profissional: ['Autônomo', 'Desempregado(a)', 'Funcionário de empresa privada', 'Empresário', 'Funcionário público', 'Já sou funcionário terceirizado do sistema Pe...]
Categories (6, object): ['Autônomo', 'Desempregado(a)', 'Empresário', 'Funcionário de empresa privada', 'Funcionário público', 'Já sou funcionário terceirizado do sistema Pe...]

duvida: ['O que preci

In [26]:
"""
model = SentenceTransformer("all-MiniLM-L6-v2")

# Mapas distintos por coluna
mapeamentos = {
    'problema_aprender': mapeamento_problema_aprender,
    'profissao': mapeamento_profissoes,
    'fala_outro_idioma': mapeamento_outros_idiomas,
    'motivo_fluencia_espanhol': mapeamento_motivo_fluencia,
    'escolaridade': mapeamento_escolaridade
}

for coluna, mapeamento in mapeamentos.items():
    nome_coluna_categoria = f"{coluna}_categoria"

    # Expandir mapeamento para esta coluna
    mapeamento_expandido, mapeamento_embeddings = preparar_para_categoria(mapeamento, model)

    # Categorização com o mapeamento certo
    df_pesquisa_captacao_lancamentos.loc[:, nome_coluna_categoria] = categorizar_coluna_batch(
        df_pesquisa_captacao_lancamentos[coluna],
        mapeamento_expandido,
        mapeamento_embeddings,
        model,
        threshold=0.6,
        desc=coluna
    )
"""

'\nmodel = SentenceTransformer("all-MiniLM-L6-v2")\n\n# Mapas distintos por coluna\nmapeamentos = {\n    \'problema_aprender\': mapeamento_problema_aprender,\n    \'profissao\': mapeamento_profissoes,\n    \'fala_outro_idioma\': mapeamento_outros_idiomas,\n    \'motivo_fluencia_espanhol\': mapeamento_motivo_fluencia,\n    \'escolaridade\': mapeamento_escolaridade\n}\n\nfor coluna, mapeamento in mapeamentos.items():\n    nome_coluna_categoria = f"{coluna}_categoria"\n\n    # Expandir mapeamento para esta coluna\n    mapeamento_expandido, mapeamento_embeddings = preparar_para_categoria(mapeamento, model)\n\n    # Categorização com o mapeamento certo\n    df_pesquisa_captacao_lancamentos.loc[:, nome_coluna_categoria] = categorizar_coluna_batch(\n        df_pesquisa_captacao_lancamentos[coluna],\n        mapeamento_expandido,\n        mapeamento_embeddings,\n        model,\n        threshold=0.6,\n        desc=coluna\n    )\n'

In [27]:
"""# Exibir strings completas
pd.set_option("display.max_colwidth", None)

# Colunas categorizadas e respectivas colunas originais
categorias = {
    "problema_aprender": "problema_aprender_categoria",
    "profissao": "profissao_categoria",
    "fala_outro_idioma": "fala_outro_idioma_categoria",
    "motivo_fluencia_espanhol": "motivo_fluencia_espanhol_categoria",
    "escolaridade": "escolaridade_categoria"
}

# Categorias problemáticas
categorias_problema = ["Outros"]

# Loop para filtrar e exibir como DataFrame formatado
for original_col, categoria_col in categorias.items():
    for problema in categorias_problema:
        print(f"\n=== Valores de '{original_col}' categorizados como '{problema}' ===")

        filtro = df_pesquisa_captacao_lancamentos[categoria_col] == problema
        valores = df_pesquisa_captacao_lancamentos.loc[filtro, original_col].value_counts()

        # Envolver cada valor com aspas
        valores.index = [f'"{val}"' for val in valores.index]

        # Converter para DataFrame para visualização completa
        valores_df = valores.reset_index().head(300)
        valores_df.columns = ['valor_original', 'frequencia']

        # Exibir o resultado completo
        print(valores_df.to_string(index=False))
"""

'# Exibir strings completas\npd.set_option("display.max_colwidth", None)\n\n# Colunas categorizadas e respectivas colunas originais\ncategorias = {\n    "problema_aprender": "problema_aprender_categoria",\n    "profissao": "profissao_categoria",\n    "fala_outro_idioma": "fala_outro_idioma_categoria",\n    "motivo_fluencia_espanhol": "motivo_fluencia_espanhol_categoria",\n    "escolaridade": "escolaridade_categoria"\n}\n\n# Categorias problemáticas\ncategorias_problema = ["Outros"]\n\n# Loop para filtrar e exibir como DataFrame formatado\nfor original_col, categoria_col in categorias.items():\n    for problema in categorias_problema:\n        print(f"\n=== Valores de \'{original_col}\' categorizados como \'{problema}\' ===")\n\n        filtro = df_pesquisa_captacao_lancamentos[categoria_col] == problema\n        valores = df_pesquisa_captacao_lancamentos.loc[filtro, original_col].value_counts()\n\n        # Envolver cada valor com aspas\n        valores.index = [f\'"{val}"\' for val in

In [28]:
"""df_pesquisa_captacao_lancamentos = df_pesquisa_captacao_lancamentos.drop([
    'profissao',
    'fala_outro_idioma',
    'motivo_fluencia_espanhol',
    'escolaridade',
    'problema_aprender'
], axis=1, errors='ignore')
"""

"df_pesquisa_captacao_lancamentos = df_pesquisa_captacao_lancamentos.drop([\n    'profissao',\n    'fala_outro_idioma',\n    'motivo_fluencia_espanhol',\n    'escolaridade',\n    'problema_aprender'\n], axis=1, errors='ignore')\n"

In [33]:
from gspread_dataframe import set_with_dataframe
from datetime import datetime

# Carrega as variáveis de ambiente
load_dotenv()

# Pega o caminho de forma segura
credenciais_path = os.getenv("GOOGLE_CREDENTIALS_PATH")

# === Escopos de acesso ===
scopes = [
    "https://www.googleapis.com/auth/spreadsheets",
    "https://www.googleapis.com/auth/drive"
]

# === Autenticar ===
creds = service_account.Credentials.from_service_account_file(
    credenciais_path,
    scopes=scopes
)
client = gspread.authorize(creds)

# === Função para criar nova planilha e carregar dados ===
def criar_planilha_e_enviar(df, nome_base):
    nome_final = nome_base
    
    # Cria nova planilha
    planilha = client.create(nome_final)
    
    # Compartilha com seu e-mail pessoal (aqui você coloca o seu)
    planilha.share('camilobf2@gmail.com', perm_type='user', role='writer')  # <<< Trocar pelo seu email do Gmail

    # Preenche a primeira aba
    aba = planilha.sheet1
    aba.update_title("Dados")
    set_with_dataframe(aba, df)
    
    print(f"✅ Nova planilha criada: {nome_final}")
    print(f"🔗 Link: https://docs.google.com/spreadsheets/d/{planilha.id}/edit")

# === Geração dos arquivos ===
#criar_planilha_e_enviar(df_pesquisa_captacao_l12, "pesquisa_captacao")
#criar_planilha_e_enviar(df_pesquisa_compradores_l12, "pesquisa_aluno")
#criar_planilha_e_enviar(df_leads_invest_trafego, "invest_trafego")

✅ Nova planilha criada: pesquisa_captacao
🔗 Link: https://docs.google.com/spreadsheets/d/1ukLwu8SoP0U3uirB6w1Ca3TPEITY50c558xNUUN3kj4/edit
✅ Nova planilha criada: pesquisa_aluno
🔗 Link: https://docs.google.com/spreadsheets/d/1GDCAa1fiflDIBnRY9rrdY9ghKwS6DPzxIG9FYGZEsQU/edit
✅ Nova planilha criada: invest_trafego
🔗 Link: https://docs.google.com/spreadsheets/d/1477LAemTkMN1YTFdRJkLMaDLPZEiJ3vvtqwduemHXD4/edit


In [34]:
# === Função para atualizar uma planilha existente ===
def atualizar_planilha_existente(df: pd.DataFrame, sheet_id: str, aba_nome: str = "Dados"):
    """
    Atualiza uma aba específica de uma planilha no Google Sheets.
    
    - df: DataFrame com os dados que serão enviados
    - sheet_id: ID da planilha (o que vem na URL depois de "/d/")
    - aba_nome: Nome da aba que será atualizada (default: 'Dados')
    """
    try:
        planilha = client.open_by_key(sheet_id)
        try:
            aba = planilha.worksheet(aba_nome)
        except gspread.WorksheetNotFound:
            aba = planilha.add_worksheet(title=aba_nome, rows="1000", cols="20")
        
        aba.clear()  # Limpa dados antigos
        set_with_dataframe(aba, df)
        
        print(f"✅ Planilha atualizada: https://docs.google.com/spreadsheets/d/{sheet_id}/edit")
    except Exception as e:
        print(f"❌ Erro ao atualizar a planilha: {e}")

# === IDs das planilhas (FIXOS, preencha certinho aqui) ===
id_pesquisa_captacao = "1ukLwu8SoP0U3uirB6w1Ca3TPEITY50c558xNUUN3kj4"
id_pesquisa_aluno = "1GDCAa1fiflDIBnRY9rrdY9ghKwS6DPzxIG9FYGZEsQU"
id_invest_trafego = "1477LAemTkMN1YTFdRJkLMaDLPZEiJ3vvtqwduemHXD4"


# === Atualizar todas as planilhas ===
atualizar_planilha_existente(df_pesquisa_captacao_l12, id_pesquisa_captacao)
atualizar_planilha_existente(df_pesquisa_compradores_l12, id_pesquisa_aluno)
atualizar_planilha_existente(df_leads_invest_trafego, id_invest_trafego)

✅ Planilha atualizada: https://docs.google.com/spreadsheets/d/1ukLwu8SoP0U3uirB6w1Ca3TPEITY50c558xNUUN3kj4/edit
✅ Planilha atualizada: https://docs.google.com/spreadsheets/d/1GDCAa1fiflDIBnRY9rrdY9ghKwS6DPzxIG9FYGZEsQU/edit
✅ Planilha atualizada: https://docs.google.com/spreadsheets/d/1477LAemTkMN1YTFdRJkLMaDLPZEiJ3vvtqwduemHXD4/edit


In [31]:
colunas_excluir = ["data", "email"]

for coluna in df_pesquisa_compradores_l12.columns:
    if coluna not in colunas_excluir:
        print(f"\nColuna: {coluna}")
        print(df_pesquisa_compradores_l12[coluna].value_counts(dropna=False))


Coluna: idade
idade
23-27         49
38-45         35
28-32         35
33-37         30
46-52         22
18-22         17
53 ou mais     6
Name: count, dtype: int64

Coluna: nível
nível
Técnica     163
Superior     31
Name: count, dtype: int64

Coluna: situação profissional
situação profissional
Funcionário de empresa privada                          98
Desempregado(a)                                         39
Autônomo                                                33
Empresário                                              12
Funcionário público                                     10
Já sou funcionário terceirizado do sistema Petrobras     2
Name: count, dtype: int64

Coluna: renda
renda
De 1.000 a 3.000         79
De 3.000 a 5.000         54
De 5.000 a 10.000        27
Estou desempregado(a)    21
De 0 a 1.000             10
Mais de 10.000            3
Name: count, dtype: int64

Coluna: escolaridade
escolaridade
Ensino médio completo         72
Ensino superior completo      61
Nível 