### üèóÔ∏è Pipeline de Engenharia de Dados: Survey Visa/Embratur

**Objetivo:** Transformar dados brutos de pesquisa (formato *Wide*) em um Modelo Dimensional (Star Schema) otimizado para o Power BI.
**Entrada:** `codigo_dados.xlsx`
**Sa√≠da:** `d_respondente.csv`, `d_perguntas.csv`, `f_respostas.csv`

In [None]:
# ==============================================================================
# 0. CONFIGURA√á√ÉO DO AMBIENTE (GOOGLE DRIVE) ‚òÅÔ∏è
# ==============================================================================
from google.colab import drive
import os

# 1. Monta o Google Drive
print("üîÑ Conectando ao Google Drive...")
drive.mount('/content/drive')

# 2. Defina aqui o caminho da pasta onde voc√™ colocou o Excel no seu Drive
# DICA: Crie uma pasta chamada "Projeto_Visa" no seu Drive e jogue o excel l√°
caminho_base = '/content/drive/My Drive/Projeto_Visa/'

# Verifica se a pasta existe para evitar erros depois
if os.path.exists(caminho_base):
    print(f"\n‚úÖ Pasta encontrada com sucesso: {caminho_base}")
else:
    print(f"\n‚ùå A pasta '{caminho_base}' n√£o foi encontrada.")
    print("   üëâ Crie uma pasta 'Projeto_Visa' na raiz do seu Google Drive ou ajuste a vari√°vel 'caminho_base'.")

#### 1. Configura√ß√£o e Extra√ß√£o (Extract)

**O que faz:** Carrega as bibliotecas, l√™ as abas do Excel e padroniza os nomes das colunas de metadados.
**Justificativa:** O Excel de origem possui nomes de colunas inconsistentes (ex: `descricao` em vez de `texto_pergunta`). Padronizar no in√≠cio evita erros de *KeyError* nas etapas seguintes.

In [13]:
# Instala√ß√£o de bibliotecas (Execute apenas uma vez se necess√°rio)
# %pip install pandas openpyxl

import pandas as pd
import numpy as np
import warnings

# Configura√ß√µes iniciais
warnings.filterwarnings('ignore') # Ignora avisos de vers√£o para limpar a tela
pd.set_option('display.max_columns', None) # Garante que mostre todas as colunas se der print

# ==============================================================================
# 1. CONFIGURA√á√ÉO E CARGA (EXTRACT)
# ==============================================================================
print("üîÑ 1. Iniciando Pipeline: Carregando e Padronizando Dados...")

arquivo_excel = 'codigo_dados.xlsx'

try:
    # --- 1.1 Leitura das Abas do Excel ---
    print(f"   üìÇ Lendo arquivo: {arquivo_excel}...")
    df_data = pd.read_excel(arquivo_excel, sheet_name='data')
    df_variable = pd.read_excel(arquivo_excel, sheet_name='variable')
    df_datamap = pd.read_excel(arquivo_excel, sheet_name='datamap')
    print("   ‚úÖ Arquivo carregado com sucesso.")

    # --- 1.2 Tratamento de Metadados (df_variable) ---
    # Renomeia coluna antiga 'descricao' se existir
    if 'descricao' in df_variable.columns:
        df_variable = df_variable.rename(columns={'descricao': 'texto_pergunta'})

    # Padroniza os nomes das colunas da aba 'variable'
    # Espera-se 3 colunas: C√≥digo da Variavel, Posi√ß√£o e Texto da Pergunta
    df_variable.columns = ['variavel', 'posicao', 'texto_pergunta']

    # --- 1.3 Tratamento do Mapa de Dados (df_datamap) ---
    # Padroniza os nomes das colunas da aba 'datamap'
    df_datamap.columns = ['variavel', 'codigo', 'label_resposta']

    # Higieniza√ß√£o: Remove espa√ßos em branco antes/depois do texto
    df_datamap['variavel'] = df_datamap['variavel'].astype(str).str.strip()
    df_datamap['label_resposta'] = df_datamap['label_resposta'].astype(str).str.strip()

    # Higieniza√ß√£o: Garante que o c√≥digo seja num√©rico inteiro
    df_datamap['codigo'] = pd.to_numeric(df_datamap['codigo'], errors='coerce')
    df_datamap = df_datamap.dropna(subset=['codigo']) # Remove linhas onde o c√≥digo ficou vazio/erro
    df_datamap['codigo'] = df_datamap['codigo'].astype(int)

    print("   ‚úÖ Metadados e Datamap higienizados e prontos.")

except FileNotFoundError:
    print(f"   ‚ùå ERRO CR√çTICO: O arquivo '{arquivo_excel}' n√£o foi encontrado.")
    print("      Verifique se o nome do arquivo est√° correto e se ele est√° na mesma pasta.")
except Exception as e:
    print(f"   ‚ùå Erro inesperado ao carregar: {e}")

üîÑ 1. Iniciando Pipeline: Carregando e Padronizando Dados...
   üìÇ Lendo arquivo: codigo_dados.xlsx...
   ‚úÖ Arquivo carregado com sucesso.
   ‚úÖ Metadados e Datamap higienizados e prontos.


#### 2. Tratamento do Dicion√°rio (Datamap)

Antes de traduzir os dados, precisamos garantir que o nosso "tradutor" (o Datamap) esteja limpo.

**Problema:** O Excel mistura n√∫meros (`1`), textos (`"1"`) e floats (`1.0`), o que impede o Python de encontrar as chaves corretamente.

In [14]:
# ==============================================================================
# 2. SELE√á√ÉO DE DADOS (DIMENS√ÉO RESPONDENTE)
# ==============================================================================
print("üîÑ 2. Criando Dimens√£o Respondente (d_respondente)...")

# --- 2.1 Defini√ß√£o das Colunas de Interesse ---
# Organizado por categorias para facilitar a manuten√ß√£o
colunas_perfil = [
    # Identifica√ß√£o e Demografia B√°sica
    'Respondent_Serial', 
    'GENDER_NonBinary', 'resp_age', 'QUOTAGERANGE',
    
    # Socioecon√¥mico (Trabalho, Educa√ß√£o, Acompanhantes)
    'D1', 'D2', 
    'D31', 'D32', 'D33', 'D34', 'D35', 'D36',

    # Geografia (Resid√™ncia)
    'S5_1_PAIS', 'S5_1_ESTADO', 

    # Caracter√≠sticas da Viagem
    'S3', 'S4', 'S6', 'S7', 'TIPO', 'TEMPORADA',

    # Metadados de Tempo (Usados para calcular a data)
    'CurrentDay', 'CurrentMonth', 'CurrentYear', 

    # Financeiro (Gastos e Renda)
    'GASTO_PESSOA',
    'Q24_1_VALOR', 'Q24_1_MOEDA', # Gasto Viagem
    'D4_1_VALOR', 'D4_1_MOEDA'    # Renda Familiar
]

# --- 2.2 Filtragem do Dataframe ---
# Seleciona apenas as colunas que realmente existem no Excel carregado
cols_existentes = [c for c in colunas_perfil if c in df_data.columns]
d_respondente = df_data[cols_existentes].copy()

# --- 2.3 Tratamento de Data e Ano (Onda) ---
# Verifica se as colunas de data existem antes de tentar processar
cols_data = ['CurrentYear', 'CurrentMonth', 'CurrentDay']
tem_colunas_data = all(col in d_respondente.columns for col in cols_data)

if tem_colunas_data:
    # Cria uma data √∫nica (YYYY-MM-DD)
    d_respondente['data_pesquisa'] = pd.to_datetime(
        d_respondente['CurrentYear'].astype(str) + '-' + 
        d_respondente['CurrentMonth'].astype(str) + '-' + 
        d_respondente['CurrentDay'].astype(str), 
        errors='coerce'
    )
    # Cria a coluna ONDA (Ano) para o filtro do Power BI
    d_respondente['Onda'] = d_respondente['CurrentYear'].fillna(2025).astype(int)
    
    # Remove as colunas originais para limpar
    d_respondente = d_respondente.drop(columns=cols_data, errors='ignore')
else:
    # Caso n√£o tenha data, assume 2025 (Fallback de seguran√ßa)
    print("   ‚ö†Ô∏è Aviso: Colunas de data n√£o encontradas. Assumindo data padr√£o.")
    d_respondente['Onda'] = 2025

print(f"   ‚úÖ Tabela d_respondente criada com {d_respondente.shape[0]} linhas e {d_respondente.shape[1]} colunas.")

üîÑ 2. Criando Dimens√£o Respondente (d_respondente)...
   ‚úÖ Tabela d_respondente criada com 8131 linhas e 27 colunas.


#### 3. Constru√ß√£o da Dimens√£o Respondente (`d_respondente`)

Esta tabela cont√©m o **perfil √∫nico** de cada turista.

**Transforma√ß√µes:**

* **Data:** Unifica√ß√£o de colunas separadas (Dia/M√™s/Ano).
* **Tradu√ß√£o Robusta:** Convers√£o de c√≥digos (`1`, `2`) para texto (`Sim`, `N√£o`) usando l√≥gica h√≠brida (Excel + Dicion√°rios Manuais para corrigir falhas na origem).
* **Renomea√ß√£o:** Padroniza√ß√£o para *snake_case* (ex: `id_respondente`).

In [15]:
# ==============================================================================
# 3. TRADU√á√ÉO E NORMALIZA√á√ÉO FINANCEIRA (TRANSFORM)
# ==============================================================================
print("üîÑ 3. Traduzindo C√≥digos e Convertendo Moedas...")

# --- 3.1 Dicion√°rios Manuais e Taxas (Setup) ---
# Usados quando o dicion√°rio do Excel falha ou para agrupar respostas
dic_d1 = {
    1: 'Empregado em tempo integral', 2: 'Empregado em tempo parcial', 3: 'Aut√¥nomo',
    4: 'Desempregado, mas procurando emprego', 5: 'Desempregado e n√£o procurando emprego/Doente ou incapacitado a longo prazo', 
    6: 'Cuidador(a) de tempo integral/Dono(a) de casa', 7: 'Aposentado(a)', 8: 'Apenas estudante', 9: 'Empregado em regime remoto'
}

dic_d2 = {
    1: 'Sem estudos', 2: 'Fundamental incompleto', 3: 'Fundamental completo',
    4: 'M√©dio incompleto', 5: 'M√©dio completo', 6: 'Superior incompleto',
    7: 'Superior completo', 8: 'P√≥s-Gradua√ß√£o incompleto/completo', 
    9: 'Mestrado incompleto/completo', 10: 'Doutorado incompleto/completo'
}

dic_d3x = {
    1: 'Apenas eu', 2: 'Meu companheiro(a)', 3: 'Meu(s) filho(s)',
    4: 'Meu pai e/ou m√£e', 5: 'Irm√£os ou outros parentes', 6: 'Amigos'
}

dic_moedas = {
    1: 'ARS (Peso argentino)', 2: 'USD (D√≥lar americano)', 3: 'CLP (Peso chileno)', 
    4: 'PYG (Guarani)', 5: 'UYU (Peso Uruguaio)', 6: 'EUR (EURO)', 
    7: 'GBP (Libra esterlina)', 8: 'CAD (D√≥lar canadense)', 9: 'COP (Peso colombiano)', 
    10: 'PEN (Sol)', 11: 'MXN (Peso mexicano)', 12: 'BRL (Real)'
}

# Taxas estimadas para convers√£o (Base 1 USD)
taxas_cambio = {
    'ARS': 0.00069, 'USD': 1.0, 'CLP': 0.0011, 'PYG': 0.00015,
    'UYU': 0.0256, 'EUR': 1.18, 'GBP': 1.35, 'CAD': 0.73,
    'COP': 0.00026, 'PEN': 0.29, 'MXN': 0.056, 'BRL': 0.18
}

# --- 3.2 Fun√ß√µes Auxiliares ---

def traduzir_valor_robusto(valor, dicionario):
    """Traduz c√≥digos (1, 2) para texto, lidando com m√∫ltiplas respostas (1;3)."""
    if pd.isna(valor) or str(valor).strip() == '': return valor
    texto_valor = str(valor)
    partes = texto_valor.split(';') 
    partes_traduzidas = []
    for parte in partes:
        codigo_limpo = parte.strip().split('.')[0]
        try:
            cod_int = int(codigo_limpo)
            traducao = dicionario.get(cod_int, parte)
            partes_traduzidas.append(str(traducao))
        except ValueError:
            partes_traduzidas.append(parte)
    return "; ".join(partes_traduzidas)

def converter_para_usd(row, col_valor, col_moeda):
    """Converte valor para USD baseado na coluna de moeda correspondente."""
    try:
        valor = float(row[col_valor])
        moeda_texto = str(row[col_moeda]).upper()
        
        # Tenta achar a taxa pela sigla (ex: BRL) ou palavras-chave
        taxa = 1.0
        encontrou = False
        
        for moeda, valor_taxa in taxas_cambio.items():
            if moeda in moeda_texto:
                taxa = valor_taxa
                encontrou = True
                break
        
        if not encontrou:
            if 'REAL' in moeda_texto: taxa = 0.20
            elif 'EURO' in moeda_texto: taxa = 1.08
            elif 'DOLAR' in moeda_texto or 'D√ìLAR' in moeda_texto: taxa = 1.0
            elif 'PESO ARGENTINO' in moeda_texto: taxa = 0.0012

        return round(valor * taxa, 2)
    except:
        return np.nan

# --- 3.3 Execu√ß√£o: Tradu√ß√£o de Colunas ---
cols_para_traduzir = [
    'GENDER_NonBinary', 'TEMPORADA', 'TIPO', 'S5_1_PAIS', 'S3', 'S4', 'S6', 'S7', 'QUOTAGERANGE',
    'D1', 'D2', 'D31', 'D32', 'D33', 'D34', 'D35', 'D36',
    'Q24_1_MOEDA', 'D4_1_MOEDA' 
]

for col in cols_para_traduzir:
    if col in d_respondente.columns:
        dic_atual = {}
        
        # Seleciona o dicion√°rio correto
        if col == 'D1': dic_atual = dic_d1
        elif col == 'D2': dic_atual = dic_d2
        elif col.startswith('D3'): dic_atual = dic_d3x
        elif 'MOEDA' in col: dic_atual = dic_moedas
        else:
            # Busca no Datamap do Excel
            mapa_var = df_datamap[df_datamap['variavel'] == col]
            if not mapa_var.empty:
                dic_atual = dict(zip(mapa_var['codigo'], mapa_var['label_resposta']))
        
        # Aplica a tradu√ß√£o se encontrou dicion√°rio
        if dic_atual:
            d_respondente[col] = d_respondente[col].apply(lambda x: traduzir_valor_robusto(x, dic_atual))

# --- 3.4 Execu√ß√£o: Convers√£o Financeira ---
if 'Q24_1_VALOR' in d_respondente.columns and 'Q24_1_MOEDA' in d_respondente.columns:
    print("   Calculando Gasto Viagem (USD)...")
    d_respondente['gasto_viagem_usd'] = d_respondente.apply(lambda x: converter_para_usd(x, 'Q24_1_VALOR', 'Q24_1_MOEDA'), axis=1)

if 'D4_1_VALOR' in d_respondente.columns and 'D4_1_MOEDA' in d_respondente.columns:
    print("   Calculando Renda Familiar (USD)...")
    d_respondente['renda_familiar_usd'] = d_respondente.apply(lambda x: converter_para_usd(x, 'D4_1_VALOR', 'D4_1_MOEDA'), axis=1)

# --- 3.5 Renomea√ß√£o Final ---
renomear_cols = {
    'Respondent_Serial': 'id_respondente', 
    'GENDER_NonBinary': 'genero', 
    'resp_age': 'idade',
    'QUOTAGERANGE': 'faixa_etaria', 
    'S5_1_PAIS': 'pais', 
    'S5_1_ESTADO': 'estado_residencia', 
    'S3': 'reside_brasil', 
    'S4': 'viagem_int_12m', 
    'S6': 'meio_transporte', 
    'S7': 'portao_entrada',
    'TIPO': 'tipo_turista', 
    'TEMPORADA': 'temporada', 
    'GASTO_PESSOA': 'gasto_total_calculado',
    'D1': 'status_emprego', 
    'D2': 'escolaridade',
    'D31': 'd31', 'D32': 'd32', 'D33': 'd33', 'D34': 'd34', 'D35': 'd35', 'D36': 'd36',
    'Q24_1_VALOR': 'gasto_viagem_original', 
    'Q24_1_MOEDA': 'moeda_viagem',
    'D4_1_VALOR': 'renda_familiar_original', 
    'D4_1_MOEDA': 'moeda_renda'
}
d_respondente = d_respondente.rename(columns=renomear_cols)

# Ajuste est√©tico na coluna de estado de resid√™ncia
if 'estado_residencia' in d_respondente.columns:
    d_respondente['estado_residencia'] = d_respondente['estado_residencia'].astype(str).str.title().str.strip().replace({'Nan': 'N√£o Informado', 'Null': 'N√£o Informado'})

print("   ‚úÖ d_respondente processada com sucesso.")

üîÑ 3. Traduzindo C√≥digos e Convertendo Moedas...
   Calculando Gasto Viagem (USD)...
   Calculando Renda Familiar (USD)...
   ‚úÖ d_respondente processada com sucesso.


#### 4. Constru√ß√£o da Fato Respostas (`f_respostas`)

Esta √© a tabela longa (Unpivoted) que cont√©m todas as respostas. 

**Otimiza√ß√µes:**

* **Melt:** Transforma colunas em linhas.
* **Limpeza de Nulos:** Remove linhas vazias para reduzir drasticamente o tamanho do arquivo.
* **Fallback de Texto:** Se n√£o houver tradu√ß√£o (ex: "Outro pa√≠s: Chile"), mant√©m o texto original digitado pelo usu√°rio.

In [16]:
# ==============================================================================
# 4. CRIA√á√ÉO DA FATO RESPOSTAS (f_respostas)
# ==============================================================================
print("üîÑ 4. Criando Fato Respostas (f_respostas)...")

# --- 4.1 Prepara√ß√£o e Melt (Transformar Colunas em Linhas) ---
# Recarrega dados originais para garantir integridade
df_data_raw = pd.read_excel(arquivo_excel, sheet_name='data')

# Lista de colunas a IGNORAR na Fato (porque j√° est√£o na Dimens√£o Respondente ou s√£o financeiras)
cols_ignorar = [
    'Respondent_Serial', 'CurrentDay', 'CurrentMonth', 'CurrentYear', 
    'GENDER_NonBinary', 'resp_age', 'QUOTAGERANGE', 'S5_1_PAIS', 'S5_1_ESTADO', 'TIPO',
    'Q24_1_VALOR', 'Q24_1_MOEDA', 'D4_1_VALOR', 'D4_1_MOEDA' 
]
cols_fato = [c for c in df_data_raw.columns if c not in cols_ignorar]

# Unpivot
f_respostas = df_data_raw.melt(
    id_vars=['Respondent_Serial'], 
    value_vars=cols_fato, 
    var_name='cod_pergunta', 
    value_name='cod_resposta'
)

# Limpeza Inicial (Remove Vazios)
f_respostas = f_respostas.dropna(subset=['cod_resposta'])
f_respostas = f_respostas[f_respostas['cod_resposta'] != '']

# --- 4.2 Tradu√ß√£o via Datamap (Padr√£o) ---
f_respostas = f_respostas.merge(
    df_datamap, 
    left_on=['cod_pergunta', 'cod_resposta'], 
    right_on=['variavel', 'codigo'], 
    how='left'
)

# Se n√£o achou tradu√ß√£o no Datamap, usa o pr√≥prio c√≥digo (Fallback)
f_respostas['resposta_texto'] = f_respostas['label_resposta'].fillna(f_respostas['cod_resposta'])

# ==============================================================================
# üîß CORRE√á√ïES ESPEC√çFICAS E TRATAMENTO DE DADOS
# ==============================================================================
print("   üîß Aplicando corre√ß√µes manuais (Gastronomia, Acomoda√ß√£o, Atividades e Mapa)...")

# --- 4.3 Defini√ß√£o dos Dicion√°rios de Corre√ß√£o ---

dic_acomodacao_fix = {
    1: 'Hotel de 3 estrelas ou menos', 2: 'Hotel de 4 ou 5 estrelas', 3: 'Pousada',
    4: 'Resort', 5: 'Casa de amigos e parentes', 6: 'Im√≥vel pr√≥prio',
    7: 'Im√≥vel alugado por temporada', 8: 'Airbnb e similares', 9: 'Albergue/hostel',
    10: 'Camping', 11: 'Cruzeiro / Navio', 98: 'Outros'
}

dic_gastronomia_fix = {
    1: 'Restaurante de alta gastronomia', 2: 'Restaurante por quilo/buffet', 3: 'Fast Food',
    4: 'Cafeterias', 5: '√âtnicos (de alguma regi√£o espec√≠fica)', 6: 'Bistr√¥',
    7: 'Food truck', 8: 'Restaurantes √† la carte', 98: 'Outros'
}

# --- Dicion√°rio de Atividades (Q23) ---
dic_atividades_fix = {
    1: 'Tratamentos m√©dicos/hospitalares ou est√©ticos', 2: 'Terapias de bem-estar',
    4: 'Turismo m√≠stico/esot√©rico', 5: 'Atividades n√°uticas (barco, vela)',
    6: 'Cruzeiros mar√≠timos ou fluviais', 7: 'Visitas culturais (museus, patrim√¥nio hist√≥rico)',
    8: 'Visitas a comunidades tradicionais (ind√≠gena, quilombola)',
    9: 'Manifesta√ß√µes/eventos culturais (shows, festas t√≠picas)',
    10: 'Gastronomia (alta cozinha/t√≠pica)', 11: 'Pr√°tica de esportes (exceto aventura)',
    12: 'Assistir a eventos esportivos', 13: 'Mergulho',
    14: 'Atividades de aventura (trilhas, rafting, buggy)', 15: 'Observa√ß√£o de fauna e flora',
    16: 'Turismo rural / campo', 17: 'Visita a parques tem√°ticos',
    18: 'Ecoturismo (cachoeiras, parques naturais)', 19: 'Compras pessoais',
    20: 'Visitar amigos e parentes', 21: 'Vida Noturna e entretenimento',
    22: 'Sol e praia', 23: 'Participar do carnaval de rua',
    24: 'Assistir carnaval no samb√≥dromo', 98: 'Outros', 99: 'N√£o realizou atividades'
}

# --- 4.4 Fun√ß√£o de Patch (Corre√ß√£o por Padr√£o de Pergunta) ---
def aplicar_patch_padrao(df, padrao_regex, dicionario):
    mask = df['cod_pergunta'].astype(str).str.contains(padrao_regex, regex=True, na=False)
    if mask.sum() > 0:
        def traduzir_item(valor):
            if pd.isna(valor) or str(valor).strip() == '': return valor
            valor_str = str(valor).strip()
            try:
                cod_limpo = int(float(valor_str))
                return dicionario.get(cod_limpo, valor_str)
            except:
                partes = valor_str.split(';')
                partes_traduzidas = [str(dicionario.get(int(float(p)), p)) if p.replace('.','',1).isdigit() else p for p in partes]
                return "; ".join(partes_traduzidas)
        df.loc[mask, 'resposta_texto'] = df.loc[mask, 'cod_resposta'].apply(traduzir_item)
    return df

# Aplica as corre√ß√µes
f_respostas = aplicar_patch_padrao(f_respostas, r'^Q15|^Q16', dic_acomodacao_fix)
f_respostas = aplicar_patch_padrao(f_respostas, r'^Q18', dic_gastronomia_fix)
f_respostas = aplicar_patch_padrao(f_respostas, r'^Q23', dic_atividades_fix)

# --- 4.5 LIMPEZA GERAL DE "OUTROS" (NOVO) --- üö® AQUI EST√Å A CORRE√á√ÉO
# Substitui qualquer varia√ß√£o de "Outros. Quais?" por apenas "Outros"
f_respostas['resposta_texto'] = f_respostas['resposta_texto'].astype(str).replace({
    'Outros. Quais?': 'Outros',
    'Outros. Quais': 'Outros',
    'Outros (especificar)': 'Outros'
})

# --- 4.6 GERA√á√ÉO DAS COLUNAS PARA O MAPA DO POWER BI ---
f_respostas['UF_Mapa'] = f_respostas['resposta_texto'].astype(str).str.extract(r'\((.*?)\)')
dic_mapa_bi = {
    'AC': 'Acre', 'AL': 'Alagoas', 'AP': 'Amapa', 'AM': 'Amazonas', 'BA': 'Bahia', 'CE': 'Ceara',
    'DF': 'Distrito Federal', 'ES': 'Espirito Santo', 'GO': 'Goias', 'MA': 'Maranhao', 'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul', 'MG': 'Minas Gerais', 'PA': 'Para', 'PB': 'Paraiba', 'PR': 'Parana',
    'PE': 'Pernambuco', 'PI': 'Piaui', 'RJ': 'Rio de Janeiro', 'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul', 'RO': 'Rondonia', 'RR': 'Roraima', 'SC': 'Santa Catarina',
    'SP': 'Sao Paulo', 'SE': 'Sergipe', 'TO': 'Tocantins'
}
f_respostas['Nome_Estado_Mapa'] = f_respostas['UF_Mapa'].map(dic_mapa_bi)

# --- 4.7 Finaliza√ß√£o ---
f_respostas = f_respostas.rename(columns={'Respondent_Serial': 'id_respondente'})
f_respostas = f_respostas[['id_respondente', 'cod_pergunta', 'cod_resposta', 'resposta_texto', 'Nome_Estado_Mapa']]
f_respostas['resposta_texto'] = f_respostas['resposta_texto'].astype(str).str.strip()

print(f"   ‚úÖ f_respostas criada com {len(f_respostas)} linhas.")
print("   ‚úÖ Limpeza de 'Outros. Quais?' aplicada globalmente.")

üîÑ 4. Criando Fato Respostas (f_respostas)...
   üîß Aplicando corre√ß√µes manuais (Gastronomia, Acomoda√ß√£o, Atividades e Mapa)...
   ‚úÖ f_respostas criada com 1443985 linhas.
   ‚úÖ Limpeza de 'Outros. Quais?' aplicada globalmente.


#### 5. Constru√ß√£o da Dimens√£o Perguntas (`d_perguntas`)

Tabela de metadados para criar menus e filtros no Dashboard.

**Transforma√ß√µes:**

* **Categoriza√ß√£o:** Cria√ß√£o da coluna `categoria` baseada nos prefixos (Q1, Q24, S...) para permitir navega√ß√£o por menu.
* **Limpeza:** Remo√ß√£o de tags t√©cnicas (`[HIDDEN]`) e caracteres indesejados.

In [17]:
# ==============================================================================
# 5. CRIA√á√ÉO DA DIMENS√ÉO PERGUNTAS (d_perguntas)
# ==============================================================================
print("üîÑ 5. Criando Dimens√£o Perguntas (d_perguntas)...")

# --- 5.1 Sele√ß√£o Inicial ---
d_perguntas = df_variable[['variavel', 'texto_pergunta']].copy()
d_perguntas.columns = ['cod_pergunta', 'texto_pergunta']

# --- 5.2 L√≥gica de Categoriza√ß√£o (Menu de Navega√ß√£o) ---
def definir_categoria(codigo):
    codigo = str(codigo).upper().strip()
    
    # 1. Perfil
    if (codigo.startswith('D') and len(codigo) > 1 and codigo[1].isdigit()) or \
       codigo in ['GENDER_NONBINARY', 'RESP_AGE', 'QUOTAGERANGE', 'S5_1_PAIS', 'S5_1_ESTADO', 'Q1', 'Q2']:
        return '1. Perfil do Turista'
    
    # 2. Planejamento
    if codigo.startswith(('Q3', 'Q4', 'Q5', 'Q6')) or 'Q23A' in codigo:
        return '2. Planejamento e Marketing'
    
    # 3. Caracter√≠sticas da Viagem
    if codigo.startswith(('S', 'Q7', 'Q8', 'Q9', 'Q10', 'Q14', 'Q19', 'Q20', 'Q21', 'Q22')):
        return '3. Caracter√≠sticas da Viagem'
    
    # 4. Destinos
    if codigo.startswith(('Q11', 'Q12', 'Q13')):
        return '4. Destinos Visitados'
    
    # 5. Log√≠stica
    if codigo.startswith(('Q15', 'Q16', 'Q17')):
        return '5. Hospedagem e Transporte'
    
    # 6. Atividades
    if codigo.startswith(('Q18', 'Q23')): 
        return '6. Atividades e Gastronomia'
    
    # 7. Financeiro
    if codigo.startswith(('Q24', 'Q25', 'Q26', 'Q27', 'Q28', 'Q29', 'Q30', 'Q31', 'Q32')) or 'GASTO' in codigo:
        return '7. Gastos e Pagamentos'
    
    # 8. Avalia√ß√£o
    if codigo.startswith(('Q33', 'Q34', 'Q35', 'Q36', 'Q37', 'Q38', 'Q39')):
        return '8. Avalia√ß√£o e Imagem'

    return '9. Outros / T√©cnico'

# Aplica a categoriza√ß√£o
d_perguntas['categoria'] = d_perguntas['cod_pergunta'].apply(definir_categoria)

# --- 5.3 Filtragem de "Lixo T√©cnico" ---
# Identifica quais perguntas realmente t√™m dados na tabela Fato
perguntas_na_fato = f_respostas['cod_pergunta'].unique()

# Lista de colunas t√©cnicas para remover
lixo_tecnico = ['TIPO', 'RESPONDENT_SERIAL', 'CURRENTDAY', 'CURRENTMONTH', 'CURRENTYEAR']

# Cria a m√°scara de exclus√£o
filtro_lixo = d_perguntas['cod_pergunta'].str.upper().isin(lixo_tecnico) | \
              d_perguntas['cod_pergunta'].str.contains('_Coded_', na=False) | \
              d_perguntas['cod_pergunta'].str.contains('_SEM_OUTLIERS', na=False) | \
              ~d_perguntas['cod_pergunta'].isin(perguntas_na_fato) # Remove se n√£o estiver na Fato

d_perguntas = d_perguntas[~filtro_lixo].copy()

# --- 5.4 Limpeza Visual dos Textos ---
d_perguntas['texto_pergunta'] = d_perguntas['texto_pergunta'].astype(str).str.strip()
# Remove dois pontos no final (ex: "Idade:")
d_perguntas['texto_pergunta'] = d_perguntas['texto_pergunta'].str.replace(r'\s*:\s*$', '', regex=True)
# Remove tags entre colchetes (ex: "Pa√≠s [√önica]")
d_perguntas['texto_pergunta'] = d_perguntas['texto_pergunta'].str.replace(r'\[.*?\]', '', regex=True)

print(f"   ‚úÖ d_perguntas criada com {len(d_perguntas)} perguntas categorizadas.")

üîÑ 5. Criando Dimens√£o Perguntas (d_perguntas)...
   ‚úÖ d_perguntas criada com 409 perguntas categorizadas.


#### 6. Exporta√ß√£o (Load)

Salva os Dataframes em CSV prontos para importa√ß√£o no Power BI. Usamos `;` como separador para evitar conflitos com v√≠rgulas nos textos das perguntas.

In [18]:
# ==============================================================================
# 6. HIGIENIZA√á√ÉO FINAL E EXPORTA√á√ÉO (LOAD)
# ==============================================================================
print("üîÑ 6. Iniciando Higieniza√ß√£o Final e Exporta√ß√£o...")

# --- 6.1 Fun√ß√£o de Limpeza de Texto ---
def limpar_quebras(df, nome_tabela):
    """Remove quebras de linha (\n) que quebram a importa√ß√£o no Power BI."""
    print(f"   üßπ Limpando tabela: {nome_tabela}...")
    df_limpo = df.copy()
    
    # Itera sobre colunas de texto
    cols_texto = df_limpo.select_dtypes(include=['object', 'string']).columns
    
    for col in cols_texto:
        df_limpo[col] = df_limpo[col].astype(str)
        # Remove Enter (\n) e Retorno de Carro (\r)
        df_limpo[col] = df_limpo[col].str.replace(r'[\r\n]+', ' ', regex=True)
        # Remove espa√ßos extras nas pontas
        df_limpo[col] = df_limpo[col].str.strip()
        # Remove textos que representam vazio
        df_limpo[col] = df_limpo[col].replace({'nan': '', 'None': '', 'NaT': ''})
        
    return df_limpo

# Aplica a limpeza
d_respondente = limpar_quebras(d_respondente, "d_respondente")
d_perguntas = limpar_quebras(d_perguntas, "d_perguntas")
f_respostas = limpar_quebras(f_respostas, "f_respostas")

# --- 6.2 Exporta√ß√£o para CSV ---
print("   üíæ Salvando arquivos CSV...")

try:
    # Encoding 'utf-8-sig' √© essencial para acentos no Excel/Power BI
    # Separador ';' √© melhor para o padr√£o brasileiro
    d_perguntas.to_csv('d_perguntas.csv', index=False, encoding='utf-8-sig', sep=';')
    d_respondente.to_csv('d_respondente.csv', index=False, encoding='utf-8-sig', sep=';')
    f_respostas.to_csv('f_respostas.csv', index=False, encoding='utf-8-sig', sep=';')
    
    print("-" * 50)
    print("üöÄ SUCESSO TOTAL! Pipeline conclu√≠do.")
    print("   Arquivos gerados na pasta:")
    print("   1. d_perguntas.csv")
    print("   2. d_respondente.csv")
    print("   3. f_respostas.csv")
    print("-" * 50)

except PermissionError:
    print("\n‚ùå ERRO DE PERMISS√ÉO!")
    print("   Parece que um dos arquivos CSV est√° aberto no Excel ou Power BI.")
    print("   üëâ Feche os arquivos e rode esta c√©lula novamente.")
except Exception as e:
    print(f"\n‚ùå Erro inesperado ao salvar: {e}")

üîÑ 6. Iniciando Higieniza√ß√£o Final e Exporta√ß√£o...
   üßπ Limpando tabela: d_respondente...
   üßπ Limpando tabela: d_perguntas...
   üßπ Limpando tabela: f_respostas...
   üíæ Salvando arquivos CSV...
--------------------------------------------------
üöÄ SUCESSO TOTAL! Pipeline conclu√≠do.
   Arquivos gerados na pasta:
   1. d_perguntas.csv
   2. d_respondente.csv
   3. f_respostas.csv
--------------------------------------------------
