# **Script oficial - Parte 1 - Organiza√ß√£o dos dados**

In [1]:
# Abertura de biblioteca
import pandas as pd
import numpy as np
import re

# 1. Configura√ß√µes Iniciais
pd.set_option('display.max_columns', 500)
file_path = '/content/BASE-ONDA-PROCESSADA--72324 - Copia.xlsx'

def carregar_e_padronizar_dados(path):
    try:
        # L√™ considerando as duas primeiras linhas como cabe√ßalho
        df = pd.read_excel(path, header=[0, 1])

        # Fun√ß√£o interna para unificar cabe√ßalhos
        def clean_header(col):
            question, option = col
            # Se a op√ß√£o for "Unnamed" (vazia) ou inexistente, usa s√≥ a pergunta
            if "Unnamed" in str(option) or not str(option):
                return str(question).strip()
            # Se a pergunta for "Unnamed" (repetida/mesclada), usa s√≥ a op√ß√£o
            if "Unnamed" in str(question):
                return str(option).strip()
            # Padr√£o: Pergunta - Op√ß√£o
            return f"{str(question).strip()} - {str(option).strip()}"

        # Aplica a unifica√ß√£o dos nomes
        df.columns = [clean_header(col) for col in df.columns]
        print("‚úÖ Arquivo carregado e cabe√ßalhos unificados com sucesso.")
        return df

    except Exception as e:
        print(f"‚ùå Erro ao processar arquivo: {e}")
        return None

def filtrar_respondentes_validos(df):
    # Nome exato da coluna ap√≥s a unifica√ß√£o dos cabe√ßalhos
    # Verifique se o nome gerado pelo clean_header bate com este abaixo
    coluna_filtro = 'RESPOSTA EST√Å DENTRO DA PROPORCIONALIZA√á√ÉO? - imported_in_delfos'

    if coluna_filtro in df.columns:
        linhas_iniciais = df.shape[0]
        # Mant√©m apenas quem N√ÉO √© 'N√ÉO' (ou seja, mant√©m os v√°lidos)
        df = df[df[coluna_filtro] != 'N√ÉO']
        removidos = linhas_iniciais - df.shape[0]
        print(f"‚úÖ Filtragem de linhas: {removidos} respondentes removidos (Status 'N√ÉO'). Totalizando amostragem: ", df.shape[0])
    else:
        print(f"‚ö†Ô∏è Coluna de filtro '{coluna_filtro}' n√£o encontrada. Nenhuma linha removida.")

    return df

def limpar_colunas_indesejadas(df):
    termos_proibidos = [
        # 1. Metadados do Sistema
        'RESPOSTA EST√Å DENTRO DA PROPORCIONALIZA√á√ÉO? - imported_in_delfos',
        'respondent_id - respondent_id',
        'user_invitation_code - user_invitation_code',
        'collector_id - collector_id',
        'date_created - date_created',
        'date_modified - date_modified',
        'ip_address - ip_address',
        'status - status',
        'total_time - total_time',
        'complement_status - complement_status',
        'Voc√™ estuda ou trabalha em uma dessas atividades? #prof - Response',
        'Voc√™ estuda ou trabalha em uma dessas atividades? #prof - Outro (especifique)',

        # 2. Tags de Funil e Processamento
        '#aberta_en',
        '#awesp',     # Awareness Espont√¢neo
        '#aberta_op', # Perguntas abertas gerais
        '#faw',       # Funnel Awareness (Ouviu falar)
        '#fkn',       # Funnel Known (Conhece bem)
        '#flk',       # Funnel Like (Gosta)
        '#fco',       # Funnel Consideration (Considera√ß√£o)
        '#fpr',       # Funnel Preference
        '#clt',       # Client (√â cliente)
        '#rej',       # Rejection (Rejei√ß√£o)
        '#mar',       # Marca avaliada (se quiser remover todas as colunas dessa tag)

        # 3. Perguntas de Associa√ß√£o/Lixo
        'PRIMEIRA PALAVRA',
        '{{',
        "PR√ìXIMA COMPRA",
        'Voc√™ gostou de responder essa pesquisa? - Response'
    ]

    colunas_para_remover = []

    # Corre√ß√£o da sintaxe do loop aqui
    for coluna in df.columns:
        for termo in termos_proibidos:
            if termo in coluna:
                colunas_para_remover.append(coluna)
                break

    n_antes = df.shape[1]
    df_limpo = df.drop(columns=colunas_para_remover, errors='ignore')
    n_depois = df_limpo.shape[1]

    print(f"‚úÖ Limpeza de colunas: {n_antes - n_depois} colunas removidas.")
    print(f"üìä Shape final do dataset: {df_limpo.shape}")

    return df_limpo

# --- EXECU√á√ÉO DO PIPELINE ---

# 1. Carregar
df = carregar_e_padronizar_dados(file_path)

if df is not None:
    # 2. Filtrar Linhas (IMPORTANTE: Fazer isso antes de remover a coluna de controle)
    df = filtrar_respondentes_validos(df)

    # 3. Limpar Colunas
    df = limpar_colunas_indesejadas(df)


‚úÖ Arquivo carregado e cabe√ßalhos unificados com sucesso.
‚úÖ Filtragem de linhas: 84 respondentes removidos (Status 'N√ÉO'). Totalizando amostragem:  400
‚úÖ Limpeza de colunas: 193 colunas removidas.
üìä Shape final do dataset: (400, 128)


In [2]:
df.head(1)

Unnamed: 0,respondent_id - respondent_id,date_created - date_created,Em qual estado voc√™ vive? #est - Response,Em qual cidade voc√™ mora? #cid - Response,Em qual cidade voc√™ mora? #cid - Outro (especifique),Qual √© o seu g√™nero ? #gen - Response,Qual √© o seu g√™nero ? #gen - Outro (especifique),Qual √© a sua idade ? #idd - Response,Qual √© a sua escolaridade ? #esc - Response,Qual sua renda familiar mensal? (Renda familiar √© a soma da renda de todas as pessoas que moram com voc√™) #cls - Response,Qual das marcas abaixo voc√™ PREFERIA CONTRATAR ? Clique uma vez em cima da marca que voc√™ escolheria comprar. - Response,Qual das marcas abaixo voc√™ PREFERIA CONTRATAR ? Clique uma vez em cima da marca que voc√™ escolheria comprar.,Qual das marcas abaixo voc√™ PREFERIA CONTRATAR ? Clique uma vez em cima da marca que voc√™ escolheria comprar..1,Qual das marcas abaixo voc√™ PREFERIA CONTRATAR ? Clique uma vez em cima da marca que voc√™ escolheria comprar..2,Smart Fit - Response,Panobianco - Response,BodyTech - Response,"Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - N√£o me lembro de ter visto propaganda de nenhuma dessas marcas","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Smart Fit","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - BlueFit","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Selfit","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Bio Ritmo","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - BodyTech","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - F√≥rmula Academia","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Cia Athletica","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Competition","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Ironberg","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Panobianco","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Pratique Fitness","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Gavi√µes","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Redfit","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Skyfit","Das marcas abaixo, quais voc√™ se lembra de ter visto propaganda recentemente? Selecione todas as que lembrar. #Carac_Recall_de_Propaganda - Engenharia do corpo",Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Televis√£o (canais abertos),Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Televis√£o (canais pagos),Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - R√°dio,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Podcast,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Instagram,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Tiktok,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Facebook,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - X (Twitter),Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - YouTube,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Revistas ou Jornais impressos,Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Cinema,"Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - Plataformas de streaming (Netflix, GloboPlay, Disney+ etc.)",Com que frequ√™ncia voc√™ utiliza e CONSOME CONTE√öDOS nos meios abaixo? - WhatsApp,Com que frequ√™ncia voc√™ VAI √Ä ACADEMIA ? #carac_Frequ√™ncia_de_Compra,Voc√™ est√° ATUALMENTE buscando ou planejando CONTRATAR UMA NOVA ACADEMIA ? #carac_Est√°_no_momento_de_compra? - Response,"NESTE ANO , voc√™ MUDOU A FREQU√äNCIA com que pratica atividade f√≠sica? - Response",O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Est√©tica / melhora da apar√™ncia f√≠sica,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Mudan√ßa de rotina / trabalho,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Quest√µes de sa√∫de ou recomenda√ß√£o m√©dica,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Meta pessoal,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Prepara√ß√£o para evento ou prova,"O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Projetos pessoais (ex: casamento, formatura, viagem)","O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Influ√™ncia de amigos, familiares ou influenciadores",O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Mais tempo livre,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Academia mais perto de casa ou trabalho,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Outro (especifique),O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Falta de tempo,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Desmotiva√ß√£o ou cansa√ßo,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Problemas de sa√∫de ou les√£o,"O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Custo (academia, personal, equipamentos etc.)",O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Mudan√ßa de rotina,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Dificuldade de deslocamento at√© a academia,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Fechamento da academia que praticava,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Clima / Temperatura desfavor√°vel,O que MOTIVOU A MUDAN√áA na sua rotina de atividades f√≠sicas neste ano? - Clima / Temperatura desfavor√°vel.1,"Ao longo de 2025, voc√™ pretende praticar mais atividade f√≠sica do que pratica hoje? - Response","Voc√™ disse que pretende praticar mais atividade f√≠sica. QUANDO voc√™ planeja fazer essa mudan√ßa? Escolha o PER√çODO APROXIMADO em que considera que ir√° fazer essa mudan√ßa, mesmo que n√£o saiba exatamente o m√™s. - Response",POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Nenhuma das anteriores,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - F√©rias ou recessos,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Temperaturas mais agrad√°veis,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Estar em forma para o ver√£o,"POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Projetos pessoais (ex: casamento, formatura, viagem)",POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Facilidade de hor√°rios nesse per√≠odo,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Promo√ß√µes ou condi√ß√µes especiais das academias,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Recome√ßo natural depois de um tempo parado,POR QUE esse momento do ano √© mais adequado para voc√™ mudar sua rotina? - Outro (especifique),Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - N√£o pratico nenhuma atividade f√≠sica atualmente,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Muscula√ß√£o,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Corrida,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Caminhada,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Ciclismo / Bike indoor (spinning),Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Crossfit,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Treino funcional,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Yoga ou pilates,Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Dan√ßa / FitDance / Zumba,"Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Esportes coletivos (futebol, v√¥lei, basquete etc.)","Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Lutas (jiu-jitsu, muay thai, boxe etc.)",Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Nata√ß√£o,"Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Exerc√≠cios em casa (aulas online, v√≠deos etc.)",Quais tipos de atividade f√≠sica voc√™ PRATICA ATUALMENTE ? #carac_Atividades_que_pratica - Outro (especifique),Qual √© o seu PRINCIPAL OBJETIVO ao praticar atividade f√≠sica atualmente? #carac_Objetivo_de_treino - Response,Qual √© o seu PRINCIPAL OBJETIVO ao praticar atividade f√≠sica atualmente? #carac_Objetivo_de_treino - Outro (especifique),"Atualmente, de que forma voc√™ tem ACESSO √Ä ACADEMIA que frequenta? #carac_Forma_de_Contrata√ß√£o - Response","Como voc√™ costuma usar seu benef√≠cio (Gympass, TotalPass ou similares) para ir √† academia? - Response","Voc√™ j√° frequentava alguma academia ANTES DE TER ACESSO AO BENEF√çCIO (Gympass, TotalPass ou similares)? - Response","Se voc√™ DEIXASSE DE TER O BENEF√çCIO (Gympass, TotalPass ou similares), o que faria? - Response",Voc√™ PREFERE academias de rede ou academias independentes (de bairro)? #carac_Prefer√™ncia_por_tipo_de_Academia - Response,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - N√£o sei / Nenhuma das anteriores,"Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Aulas (ex: spinning, yoga, ritmos, funcional etc.)",Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Avalia√ß√£o f√≠sica,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Acompanhamento nutricional,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Atendimento com personal trainer,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Suplementa√ß√£o alimentar,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Medita√ß√£o ou pr√°ticas de relaxamento,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Massagem ou recupera√ß√£o muscular,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - Aplicativo com treinos ou dicas,Quais dessas atividades ou servi√ßos voc√™ sabe que s√£o OFERECIDOS PELA ACADEMIA QUE VOC√ä FREQUENTA ? - N√£o reparei,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Nenhuma das anteriores,"Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Aulas (ex: spinning, yoga, ritmos, funcional etc.)",Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Avalia√ß√£o f√≠sica,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Acompanhamento nutricional,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Atendimento com personal trainer,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Suplementa√ß√£o alimentar,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Medita√ß√£o ou pr√°ticas de relaxamento,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Massagem ou recupera√ß√£o muscular,Quais dessas atividades ou servi√ßos voc√™ UTILIZA ATUALMENTE ? - Aplicativo com treinos ou dicas,"Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Nenhuma das anteriores","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Aulas (ex: spinning, yoga, ritmos, funcional etc.)","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Avalia√ß√£o f√≠sica","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Acompanhamento nutricional","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Atendimento com personal trainer","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Suplementa√ß√£o alimentar","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Medita√ß√£o ou pr√°ticas de relaxamento","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Massagem ou recupera√ß√£o muscular","Quais dessas atividades ou servi√ßos voc√™ GOSTARIA DE UTILIZAR , mas ainda n√£o utiliza? - Aplicativo com treinos ou dicas"
0,114881238104,2025-06-16 19:20:26,Sergipe,Aracaju (SE),,Mulher cisg√™nero (identifica-se com o g√™nero a...,,23 anos,"Ensino superior (incompleto)<span style=""color...","Entre R$ 1.521,00 e R$ 2.771,00 <span style=""c...",,,,,Vejo com frequ√™ncia pois tem franquia proxima,,Tiktok,,Smart Fit,,,,BodyTech,,,,,,Pratique Fitness,,,,,Mais de uma vez por dia,Mais de uma vez por dia,Nunca,Uma vez por semana,Mais de uma vez por dia,Mais de uma vez por dia,Uma vez por semana,Uma vez por semana,Mais de uma vez por dia,Nunca,Menos de uma vez por m√™s,Mais de uma vez por dia,Mais de uma vez por dia,Com frequ√™ncia,"Sim, estou planejando contratar <strong>NESTE ...","Sim, <strong>passei a praticar MENOS VEZES</st...",,,,,,,,,,,,,Problemas de sa√∫de ou les√£o,,,,,Clima / Temperatura desfavor√°vel,,"Sim, pretendo praticar <strong>MAIS</strong> d...",Agosto,,,,,"Projetos pessoais (ex: casamento, formatura, v...",,,,,,,,Caminhada,,,,,Dan√ßa / FitDance / Zumba,,,,,,Emagrecimento,,Contrato ou plano feito <strong>DIRETAMENTE CO...,,,,Prefiro academias <strong>INDEPENDENTES</stron...,,"Aulas (ex: spinning, yoga, ritmos, funcional e...",Avalia√ß√£o f√≠sica,,Atendimento com personal trainer,,,,,,,,,Acompanhamento nutricional,Atendimento com personal trainer,Suplementa√ß√£o alimentar,,,,,,,,,,Medita√ß√£o ou pr√°ticas de relaxamento,,


# **Script oficial - Parte 2 - Limpeza e Transforma√ß√£o dos Dados**

In [None]:
import pandas as pd
import numpy as np
import re

# ============================================================
# 1) AJUSTE DE CIDADE E G√äNERO
# ============================================================

df["Em qual cidade voc√™ mora? #cid - Response"] = df["Em qual cidade voc√™ mora? #cid - Response"].replace("", np.nan)
df["Em qual cidade voc√™ mora? #cid - Response"] = df["Em qual cidade voc√™ mora? #cid - Response"].fillna(
    df["Em qual cidade voc√™ mora? #cid - Outro (especifique)"]
)

df["Qual √© o seu g√™nero ? #gen - Response"] = df["Qual √© o seu g√™nero ? #gen - Response"].replace("", np.nan)
df["Qual √© o seu g√™nero ? #gen - Response"] = df["Qual √© o seu g√™nero ? #gen - Response"].fillna(
    df["Qual √© o seu g√™nero ? #gen - Outro (especifique)"]
)

df = df.drop(columns=[
    "Em qual cidade voc√™ mora? #cid - Outro (especifique)",
    "Qual √© o seu g√™nero ? #gen - Outro (especifique)"
])


# ============================================================
# 2) REMO√á√ÉO DE HTML
# ============================================================

def remove_html(text):
    if pd.isna(text):
        return text
    return re.sub(r"<.*?>", "", str(text)).strip()

#df = df.applymap(remove_html)
df = df.apply(lambda col: col.map(remove_html) if col.dtype == "object" else col)



# ============================================================
# 3) FUN√á√ÉO LIMPAR ESCALA LIKERT
# ============================================================

def limpar_likert(valor):
    if pd.isna(valor):
        return np.nan

    valor_str = str(valor).strip()

    if valor_str.startswith("0"):
        return 0
    if valor_str.startswith("10"):
        return 10

    if valor_str.isdigit():
        return int(valor_str)

    return np.nan


# ============================================================
# 4) IDENTIFICAR TODAS AS COLUNAS DE NOTA
# ============================================================

colunas_escala = [
    col for col in df.columns
    if "gostaria de" in col.lower()
    or "receber como presente" in col.lower()
    or "nota" in col.lower()
]

print(f"üîÑ Aplicando limpeza Likert em {len(colunas_escala)} colunas...")


# ============================================================
# 5) APLICAR LIMPEZA NAS COLUNAS DE ESCALA
# ============================================================

for col in colunas_escala:
    df[col] = df[col].apply(limpar_likert)
    df[col] = pd.to_numeric(df[col], errors="coerce")
print("‚úÖ Limpeza de escalas Likert conclu√≠da.")

# **Script Oficial - Parte 3 - Tabelas de Frequ√™ncias**

In [None]:
import json
import pandas as pd
from collections import defaultdict

def gerar_json_todas_as_tabelas(t_simples, t_multi, t_matriz, t_nota):

    resultado = {
        "perguntas_simples": [],
        "multirresposta": [],
        "matriz_texto": [],
        "matriz_nota": []
    }

    # ============================
    # 1) PERGUNTAS SIMPLES
    # ============================
    for pergunta, tabela in t_simples.items():
        resultado["perguntas_simples"].append({
            "pergunta": pergunta,
            "tabela": tabela.reset_index().rename(columns={"index": "Resposta"}).to_dict(orient="records")
        })

    # ============================
    # 2) MULTIRRESPOSTA
    # ============================
    for pergunta, tabela in t_multi.items():

        bloco = {
            "pergunta": pergunta,
            "marcas": []
        }

        for marca, row in tabela.iterrows():
            bloco["marcas"].append({
                "marca": marca,
                "frequencia_absoluta": int(row["Frequ√™ncia Absoluta"]),
                "frequencia_relativa": float(row["Frequ√™ncia Relativa (%)"])
            })

        resultado["multirresposta"].append(bloco)

    # ============================
    # 3) MATRIZ TEXTO
    # ============================
    for pergunta, meios in t_matriz.items():

        bloco = {
            "pergunta": pergunta,
            "itens": []
        }

        for meio, tabela in meios.items():
            bloco["itens"].append({
                "item": meio,
                "tabela": tabela.reset_index().rename(columns={"index": "Resposta"}).to_dict(orient="records")
            })

        resultado["matriz_texto"].append(bloco)

    # ============================
    # 4) MATRIZ NOTA
    # ============================
    for pergunta, marcas in t_nota.items():

        bloco = {
            "pergunta": pergunta,
            "marcas": []
        }

        for marca, tabela in marcas.items():  # <<‚Äì‚Äì AQUI FOI CORRIGIDO
            bloco["marcas"].append({
                "marca": marca,
                "tabela": tabela.reset_index().rename(columns={"index": "Nota"}).to_dict(orient="records")
            })

        resultado["matriz_nota"].append(bloco)

    return json.dumps(resultado, ensure_ascii=False, indent=2)


# ============================================================
# FUN√á√ïES AUXILIARES PARA GERA√á√ÉO DAS TABELAS DE FREQU√äNCIA
# ============================================================

def identificar_colunas_simples(df):
    col_response = [col for col in df.columns if "response" in col.lower()]
    col_not_multi = [col for col in df.columns if " - " not in col]
    numericas = df.select_dtypes(include=["int", "float"]).columns.tolist()
    colunas_simples = list(set(col_response + col_not_multi))
    colunas_simples = [c for c in colunas_simples if c not in numericas]
    return colunas_simples

def encontrar_colunas_hifen(df):
    col_hifen = [col for col in df.columns if " - " in col]
    col_sem_response = [col for col in col_hifen if "response" not in col.lower()]
    return list(set(col_sem_response))

def agrupar_por_pergunta(colunas):
    grupos = defaultdict(list)
    for col in colunas:
        pergunta = col.split(" - ")[0].strip()
        grupos[pergunta].append(col)
    return grupos

def classificar_perguntas(df, grupos):
    grupos_multi = {}
    grupos_matriz_texto = {}
    grupos_matriz_nota = {}
    for pergunta, colunas in grupos.items():
        col_exemplo = colunas[0]
        serie = df[col_exemplo].dropna()
        if pd.api.types.is_numeric_dtype(serie):
            grupos_matriz_nota[pergunta] = colunas
            continue
        marca_exemplo = col_exemplo.split(" - ")[1].strip()
        valores = serie.astype(str).str.strip().unique()
        if marca_exemplo in valores:
            grupos_multi[pergunta] = colunas
        else:
            grupos_matriz_texto[pergunta] = colunas
    return grupos_multi, grupos_matriz_texto, grupos_matriz_nota

def tabelas_simples(df, colunas):
    tabelas = {}
    for col in colunas:
        freq_abs = df[col].value_counts(dropna=False)
        freq_rel = df[col].value_counts(normalize=True, dropna=False) * 100
        tabelas[col] = pd.DataFrame({
            "Frequ√™ncia Absoluta": freq_abs,
            "Frequ√™ncia Relativa (%)": freq_rel.round(1)
        })
    return tabelas

def tabelas_multiresposta(df, grupos_multi):
    tabelas = {}
    total = len(df)
    for pergunta, colunas in grupos_multi.items():
        marcas = []
        abs_list = []
        rel_list = []
        for col in colunas:
            marca = col.split(" - ")[1].strip()
            freq_abs = (df[col] == marca).sum()
            freq_rel = (freq_abs / total * 100) if total else 0
            marcas.append(marca)
            abs_list.append(freq_abs)
            rel_list.append(round(freq_rel, 1))
        tabelas[pergunta] = pd.DataFrame({
            "Frequ√™ncia Absoluta": abs_list,
            "Frequ√™ncia Relativa (%)": rel_list
        }, index=marcas)
    return tabelas

def tabelas_matriz_texto(df, grupos_matriz):
    tabelas = {}
    for pergunta, colunas in grupos_matriz.items():
        meios = {}
        for col in colunas:
            meio = col.split(" - ")[1].strip()
            serie = df[col].dropna().astype(str).str.strip()
            freq_abs = serie.value_counts()
            freq_rel = (serie.value_counts(normalize=True) * 100).round(1)
            meios[meio] = pd.DataFrame({
                "Frequ√™ncia Absoluta": freq_abs,
                "Frequ√™ncia Relativa (%)": freq_rel
            })
        tabelas[pergunta] = meios
    return tabelas

def tabelas_matriz_nota(df, grupos_matriz_nota):
    tabelas = {}
    for pergunta, colunas in grupos_matriz_nota.items():
        marcas_dict = {}
        for col in colunas:
            marca = col.split(" - ")[1].strip()
            serie = df[col].dropna()
            freq_abs = serie.value_counts().sort_index()
            freq_rel = (serie.value_counts(normalize=True).sort_index() * 100).round(1)
            marcas_dict[marca] = pd.DataFrame({
                "Frequ√™ncia Absoluta": freq_abs,
                "Frequ√™ncia Relativa (%)": freq_rel
            })
        tabelas[pergunta] = marcas_dict
    return tabelas

def gerar_todas_as_tabelas(df):
    col_simples = identificar_colunas_simples(df)
    t_simples = tabelas_simples(df, col_simples)
    col_hifen = encontrar_colunas_hifen(df)
    grupos = agrupar_por_pergunta(col_hifen)
    grupos_multi, grupos_matriz_texto, grupos_matriz_nota = classificar_perguntas(df, grupos)
    t_multi = tabelas_multiresposta(df, grupos_multi)
    t_matriz = tabelas_matriz_texto(df, grupos_matriz_texto)
    t_nota = tabelas_matriz_nota(df, grupos_matriz_nota)
    return t_simples, t_multi, t_matriz, t_nota


# ============================================================
# EXECU√á√ÉO E IMPRESS√ÉO DOS RESULTADOS
# ============================================================

# Chamar a fun√ß√£o principal para gerar as tabelas
t_simples, t_multi, t_matriz, t_nota = gerar_todas_as_tabelas(df)

print("\n\n############################################################")
print("######################  RESULTADOS  ########################")
print("############################################################\n\n")


# ============================================================
# 1) PERGUNTAS SIMPLES
# ============================================================
print("\n========================================================")
print("===============  PERGUNTAS SIMPLES  ====================")
print("========================================================\n")

for pergunta, tabela in t_simples.items():
    print("\n--------------------------------------------------------")
    print("PERGUNTA:", pergunta)
    print("--------------------------------------------------------")
    print(tabela)
    print("\n")


# ============================================================
# 2) MULTIRRESPOSTA
# ============================================================
print("\n========================================================")
print("=================  MULTIRRESPOSTA  =====================")
print("========================================================\n")

for pergunta, tabela in t_multi.items():
    print("\n--------------------------------------------------------")
    print("PERGUNTA:", pergunta)
    print("--------------------------------------------------------")
    print(tabela)
    print("\n")


# ============================================================
# 3) MATRIZ TEXTO
# ============================================================
print("\n========================================================")
print("==================  MATRIZ TEXTO  =======================")
print("========================================================\n")

for pergunta, meios in t_matriz.items():
    print("\n--------------------------------------------------------")
    print("PERGUNTA:", pergunta)
    print("--------------------------------------------------------")

    for meio, tabela in meios.items():
        print(f"\n--- {meio} ---")
        print(tabela)
        print("\n")


# ============================================================
# 4) MATRIZ NOTA (0‚Äì10)
# ============================================================
print("\n========================================================")
print("===================  MATRIZ NOTA  =======================")
print("========================================================\n")

for pergunta, marcas in t_nota.items():
    print("\n--------------------------------------------------------")
    print("PERGUNTA:", pergunta)
    print("--------------------------------------------------------")

    for marca, tabela in marcas.items():
        print(f"\n--- {marca} ---")
        print(tabela)
        print("\n")

# ============================================================
# SALVAR RESULTADOS EM VARI√ÅVEL E EM ARQUIVO JSON
# ============================================================

resultado_json = gerar_json_todas_as_tabelas(t_simples, t_multi, t_matriz, t_nota)

# salvar localmente
with open("resultado_pesquisa.json", "w", encoding="utf-8") as f:
    f.write(resultado_json)

print("Arquivo JSON salvo como resultado_pesquisa.json")
