In [1]:
# Instalando bibliotecas necess√°rias no Jupter
%pip install pandas sqlalchemy psycopg2-binary

Defaulting to user installation because normal site-packages is not writeable
Collecting pandas
  Using cached pandas-2.3.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting sqlalchemy
  Using cached sqlalchemy-2.0.44-cp312-cp312-win_amd64.whl.metadata (9.8 kB)
Collecting psycopg2-binary
  Using cached psycopg2_binary-2.9.11-cp312-cp312-win_amd64.whl.metadata (5.1 kB)
Collecting numpy>=1.26.0 (from pandas)
  Using cached numpy-2.3.5-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Using cached greenlet-3.2.4-cp312-cp312-win_amd64.whl.metadata (4.2 kB)
Collecting typing-extensions>=4.6.0 (from sqlalchemy)
  Using cached typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
Using cached pandas-2.3.3-cp312-cp312-win_amd64.whl (11.0 MB)


[notice] A new release of pip is available: 25.0.1 -> 25.3
[notice] To update, run: C:\Users\Celso\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [None]:
# C√âLULA 2.0: Extra√ß√£o de Dados (Com Download Autom√°tico)

import pandas as pd
import os
import gdown  # Biblioteca para baixar arquivos do Google Drive

# --- CONFIGURA√á√ÉO ---
# Caminho da pasta onde os arquivos est√£o (ou ser√£o baixados)
caminho_base = r'C:\Users\Celso\Downloads'

# Mapeamento dos Arquivos Locais (Nome que ser√° salvo/lido)
arquivos = {
    2021: 'atendimentoturismo2021.csv',
    2022: 'atendimentoturismo2022.csv',
    2023: 'atendimentoturismo2023.csv'
}

# Mapeamento dos IDs do Google Drive (Extra√≠dos dos seus links)
drive_ids = {
    2021: '1sOiEizQLfYH_R2yfuL_6vwm-B4C_rItE',
    2022: '1-0Yeze_VG4dVAgrFluK-a-3kEvryHi40',
    2023: '1EABOwDWcQWnBeD8EfbrBqMQKHxJq6DOb'
}

# --- EXTRA√á√ÉO ---
dfs = []

# Garante que a pasta existe
if not os.path.exists(caminho_base):
    try:
        os.makedirs(caminho_base)
        print(f"üìÅ Pasta criada: {caminho_base}")
    except:
        print(f"‚ö†Ô∏è N√£o foi poss√≠vel criar a pasta. Usando diret√≥rio atual.")
        caminho_base = '.'

for ano, nome_arquivo in arquivos.items():
    caminho_completo = os.path.join(caminho_base, nome_arquivo)
    
    # 1. VERIFICA√á√ÉO E DOWNLOAD (FALLBACK)
    if not os.path.exists(caminho_completo):
        print(f"üì• Arquivo de {ano} n√£o encontrado localmente. Baixando do Drive...")
        try:
            file_id = drive_ids.get(ano)
            if file_id:
                url = f'https://drive.google.com/uc?id={file_id}'
                gdown.download(url, caminho_completo, quiet=False)
                print(f"   -> Download conclu√≠do: {nome_arquivo}")
            else:
                print(f"   -> ID do Drive n√£o encontrado para {ano}.")
        except Exception as e_download:
            print(f"   ‚ùå Falha ao baixar arquivo: {e_download}")

    # 2. LEITURA DO ARQUIVO
    if os.path.exists(caminho_completo):
        try:
            # Tenta ler com separador ';' e encoding utf-8
            df_temp = pd.read_csv(caminho_completo, sep=';', encoding='utf-8', on_bad_lines='skip')
            
            # NOTA: N√£o criamos 'ano_referencia' pois o arquivo j√° possui a coluna 'ano'
            
            dfs.append(df_temp)
            print(f"‚úÖ {ano}: Carregado com sucesso ({len(df_temp)} registros)")
            
        except Exception as e:
            # Se der erro de encoding, tenta 'latin1'
            try:
                df_temp = pd.read_csv(caminho_completo, sep=';', encoding='latin1', on_bad_lines='skip')
                
                # NOTA: N√£o criamos 'ano_referencia' pois o arquivo j√° possui a coluna 'ano'
                
                dfs.append(df_temp)
                print(f"‚úÖ {ano} (via latin1): Carregado com sucesso ({len(df_temp)} registros)")
            except Exception as e2:
                print(f"‚ùå Erro cr√≠tico ao ler {nome_arquivo}: {e2}")
    else:
        print(f"‚ö†Ô∏è Arquivo indispon√≠vel para {ano} (Falha no Download ou Local).")

# Unifica todos os anos em um √∫nico DataFrame
if dfs:
    df_final = pd.concat(dfs, ignore_index=True)
    print(f"\nüìä Base consolidada criada com sucesso! Total de linhas: {len(df_final)}")
else:
    print("\n‚ùå Nenhum dado foi carregado.")

‚úÖ 2021: Carregado com sucesso (15374 registros)
‚úÖ 2022: Carregado com sucesso (37510 registros)
‚úÖ 2023: Carregado com sucesso (22239 registros)

üìä Base consolidada criada com sucesso! Total de linhas: 75123


In [31]:
# C√âLULA 3.0: Transforma√ß√£o (Corrigida e Limpa)

if 'df_final' in locals() and not df_final.empty:
    print("üîÑ Iniciando transforma√ß√µes...")

    # 1. Padroniza√ß√£o dos Nomes das Colunas
    # Remove acentos, espa√ßos e deixa tudo min√∫sculo
    df_final.columns = (df_final.columns
                        .str.strip()
                        .str.lower()
                        .str.replace(' ', '_')
                        .str.replace('√ß', 'c')
                        .str.replace('√£', 'a')
                        .str.replace('√µ', 'o')
                        .str.replace('√°', 'a')
                        .str.replace('√©', 'e')
                        .str.replace('√≠', 'i')
                        .str.replace('√∫', 'u')
                       )
    
    print("   -> Nomes das colunas padronizados.")

    # 2. Corre√ß√£o Cr√≠tica da Coluna ANO (Remove decimais como 2022.1 ou 2022.0)
    if 'ano' in df_final.columns:
        # Primeiro, garante que √© n√∫mero (transforma erros em NaN)
        df_final['ano'] = pd.to_numeric(df_final['ano'], errors='coerce')
        
        # Preenche vazios com 0 e converte para INTEIRO (remove o ponto decimal)
        df_final['ano'] = df_final['ano'].fillna(0).astype(int)
        
        # Opcional: Se quiser garantir que o '0' vire nulo novamente depois, 
        # mas para remover o decimal, o int √© obrigat√≥rio.
        print("   -> Coluna 'ano' corrigida para formato Inteiro (sem decimais).")

    # 3. Tratamento de Datas (Apenas converte, n√£o cria colunas novas)
    colunas_data = ['data', 'data_atendimento', 'dt_registro']
    for col in colunas_data:
        if col in df_final.columns:
            df_final[col] = pd.to_datetime(df_final[col], errors='coerce', dayfirst=True)

    # 4. Limpeza de Textos
    cols_texto = df_final.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df_final[col] = df_final[col].str.strip().str.upper()
        df_final[col] = df_final[col].fillna('NAO INFORMADO')
        df_final[col] = df_final[col].replace(['NAN', 'NULL', '', 'nan'], 'NAO INFORMADO')

    print("‚úÖ Transforma√ß√µes conclu√≠das.")
    
    # Valida√ß√£o visual imediata
    if 'ano' in df_final.columns:
        print("\nExemplo da coluna ANO (deve estar como n√∫mero inteiro):")
        print(df_final['ano'].unique())

else:
    print("‚ùå Erro: O DataFrame 'df_final' n√£o existe.")

üîÑ Iniciando transforma√ß√µes...
   -> Nomes das colunas padronizados.
   -> Coluna 'ano' corrigida para formato Inteiro (sem decimais).
‚úÖ Transforma√ß√µes conclu√≠das.

Exemplo da coluna ANO (deve estar como n√∫mero inteiro):
[2021 2022 2023]


In [32]:
# C√âLULA 3.1: Pr√©via dos Dados (Com Corre√ß√£o de Erros)

if 'df_final' in locals() and not df_final.empty:
    # --- CORRE√á√ÉO AUTOM√ÅTICA ---
    # Esta linha remove qualquer coluna duplicada que tenha sobrado na mem√≥ria
    df_final = df_final.loc[:, ~df_final.columns.duplicated()]
    
    print("-" * 50)
    print(f"üìä Total de Linhas: {df_final.shape[0]}")
    print(f"üìä Total de Colunas: {df_final.shape[1]}")
    print("-" * 50)
    
    # 1. Verifica se a coluna ANO existe e mostra a contagem
    if 'ano' in df_final.columns:
        print("üìÖ Contagem por ANO:")
        try:
            print(df_final['ano'].value_counts(dropna=False).sort_index())
        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao contar anos: {e}")
    else:
        print("‚ö†Ô∏è Coluna 'ano' n√£o encontrada.")

    print("-" * 50)

    # 2. Mostra a "cara" dos dados
    print("üëÅÔ∏è Amostra (Top 5):")
    display(df_final.head())
    
    # 3. Mostra os tipos de dados
    print("\nüìã Tipos de Dados:")
    print(df_final.dtypes)
else:
    print("Sem dados para exibir. Rode a C√©lula 2 novamente.")

--------------------------------------------------
üìä Total de Linhas: 73027
üìä Total de Colunas: 16
--------------------------------------------------
üìÖ Contagem por ANO:
ano
2021    14451
2022    37271
2023    21305
Name: count, dtype: int64
--------------------------------------------------
üëÅÔ∏è Amostra (Top 5):


Unnamed: 0,idatendimento,ehacompanhante,estadoorigem,faixaetaria,tipohospedagem,tipotransporte,municipointeresse,observacao,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,SIM,DISTRITO FEDERAL,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,SIM,CEARA,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,ACESSO A BOA VIAGEM.,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SIM,SAO PAULO,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0



üìã Tipos de Dados:
idatendimento         object
ehacompanhante        object
estadoorigem          object
faixaetaria           object
tipohospedagem        object
tipotransporte        object
municipointeresse     object
observacao            object
paisorigem            object
sexo                  object
tempoestadia          object
tipoatendimento       object
localatendimento      object
nacionalidade         object
ano                    int64
mes                  float64
dtype: object


In [33]:
# C√âLULA 3.2: Investiga√ß√£o de Nulos

if 'df_final' in locals() and not df_final.empty:
    # 1. Filtra as linhas onde o ANO √© nulo, zero ou vazio
    # O comando .isna() pega nulos (NaN)
    filtro_sem_ano = (df_final['ano'].isna()) | (df_final['ano'] == 0) | (df_final['ano'] == '')
    
    df_sem_ano = df_final[filtro_sem_ano]
    
    qtd_sem_ano = len(df_sem_ano)
    print(f"üîé Total de linhas sem Ano: {qtd_sem_ano}")
    print("-" * 40)

    if qtd_sem_ano > 0:
        # 2. Verifica quantos t√™m M√äS preenchido vs M√äS nulo
        # .notna() conta quem TEM valor, .isna() conta quem N√ÉO TEM
        qtd_com_mes = df_sem_ano['mes'].notna().sum()
        qtd_sem_mes = df_sem_ano['mes'].isna().sum()
        
        print(f"Dentro dessas {qtd_sem_ano} linhas:")
        print(f"‚úÖ T√™m o M√™s preenchido: {qtd_com_mes}")
        print(f"‚ùå M√™s tamb√©m √© nulo:     {qtd_sem_mes}")
        
        print("-" * 40)
        print("Distribui√ß√£o dos valores encontrados na coluna 'mes':")
        # Mostra quais meses aparecem (ex: 1, 2, 12...) ou se s√≥ tem NaN
        print(df_sem_ano['mes'].value_counts(dropna=False))
    else:
        print("Tudo certo! N√£o h√° linhas com ano nulo ou zero.")
else:
    print("DataFrame vazio.")

üîé Total de linhas sem Ano: 0
----------------------------------------
Tudo certo! N√£o h√° linhas com ano nulo ou zero.


In [34]:
# C√âLULA 3.3: Verifica√ß√£o de Anos sem M√™s

if 'df_final' in locals() and not df_final.empty:
    # 1. Filtra apenas as linhas que T√äM ano v√°lido (diferente de 0 e nulo)
    filtro_com_ano = (df_final['ano'].notna()) & (df_final['ano'] != 0) & (df_final['ano'] != '')
    df_com_ano = df_final[filtro_com_ano]
    
    total_com_ano = len(df_com_ano)
    print(f"‚úÖ Total de linhas com Ano v√°lido: {total_com_ano}")
    print("-" * 40)

    # 2. Dessas linhas com ano, quantas N√ÉO t√™m m√™s?
    # Consideramos 'sem m√™s' se for NaN, 0 ou vazio
    filtro_sem_mes = (df_com_ano['mes'].isna()) | (df_com_ano['mes'] == 0) | (df_com_ano['mes'] == '')
    
    df_ano_sem_mes = df_com_ano[filtro_sem_mes]
    qtd_problema = len(df_ano_sem_mes)
    
    print(f"‚ö†Ô∏è Linhas com Ano, mas SEM M√™s: {qtd_problema}")
    
    if qtd_problema > 0:
        print("-" * 40)
        print("Distribui√ß√£o do problema por Ano:")
        # Mostra quais anos est√£o com meses faltando
        print(df_ano_sem_mes['ano'].value_counts().sort_index())
    else:
        print("üéâ √ìtima not√≠cia: Todos os registros com ano t√™m m√™s preenchido!")
else:
    print("DataFrame vazio.")

‚úÖ Total de linhas com Ano v√°lido: 73027
----------------------------------------
‚ö†Ô∏è Linhas com Ano, mas SEM M√™s: 0
üéâ √ìtima not√≠cia: Todos os registros com ano t√™m m√™s preenchido!


In [35]:
# C√âLULA 3.4: Limpeza de Registros Vazios

if 'df_final' in locals() and not df_final.empty:
    linhas_antes = len(df_final)
    
    # 1. Cria o filtro para MANTER apenas o que tem Ano v√°lido
    # Mantemos linhas onde 'ano' N√ÉO √© nulo E 'ano' √© diferente de 0
    # O comando .copy() √© usado para evitar avisos de "SettingWithCopy" do Pandas
    df_final = df_final[ (df_final['ano'].notna()) & (df_final['ano'] != 0) ].copy()
    
    linhas_depois = len(df_final)
    linhas_removidas = linhas_antes - linhas_depois
    
    print("-" * 40)
    print(f"üìâ Total Inicial:   {linhas_antes}")
    print(f"üóëÔ∏è Linhas Removidas: {linhas_removidas}")
    print(f"‚úÖ Total Final:     {linhas_depois}")
    print("-" * 40)
    
    if linhas_removidas == 2096:
        print("Sucesso! Exatamente as 2096 linhas problem√°ticas foram removidas.")
    else:
        print(f"Aten√ß√£o: Foram removidas {linhas_removidas} linhas. Verifique se o n√∫mero bate com o esperado.")

    # Resetar o √≠ndice para organizar a tabela
    df_final.reset_index(drop=True, inplace=True)
else:
    print("DataFrame vazio.")

----------------------------------------
üìâ Total Inicial:   73027
üóëÔ∏è Linhas Removidas: 0
‚úÖ Total Final:     73027
----------------------------------------
Aten√ß√£o: Foram removidas 0 linhas. Verifique se o n√∫mero bate com o esperado.


In [37]:
# C√âLULA 3.5: Auditoria de Colunas Vazias e Amostragem

if 'df_final' in locals() and not df_final.empty:
    # 1. Defini√ß√£o das colunas alvo
    colunas_alvo = [
        'qtdadoleslentes', 
        'qtdadultos', 
        'qtdcriancas', 
        'qtdidosos', 
        'cidade', 
        'deslocamento', 
        'informacao', 
        'motivoviagem'
    ]
    
    # Filtra para pegar apenas as que existem de fato no DataFrame
    colunas_existentes = [c for c in colunas_alvo if c in df_final.columns]
    
    print(f"üìä Relat√≥rio de Preenchimento ({len(colunas_existentes)} colunas analisadas):")
    print("-" * 80)
    
    # 2. Loop de An√°lise Estat√≠stica
    analise = []
    for col in colunas_existentes:
        total = len(df_final)
        
        # Consideramos "Vazio" se for: NaN, None, string vazia ou 'NAO INFORMADO'
        # Se for num√©rico, 0 pode ser considerado preenchimento v√°lido, ent√£o contamos apenas NaN
        if pd.api.types.is_numeric_dtype(df_final[col]):
            nulos = df_final[col].isna().sum()
            uteis = total - nulos
        else:
            # Para texto, consideramos 'NAO INFORMADO' como vazio/in√∫til para an√°lise
            nulos = df_final[col].isna().sum() + len(df_final[df_final[col] == 'NAO INFORMADO']) + len(df_final[df_final[col] == ''])
            uteis = total - nulos
            
        perc = (uteis / total) * 100
        
        analise.append({
            'Coluna': col,
            'Total': total,
            'Preenchidos': uteis,
            'Vazios/Nulos': nulos,
            '% √ötil': f"{perc:.2f}%"
        })
    
    # Mostra a tabela de porcentagens
    display(pd.DataFrame(analise))
    
    print("\n" + "=" * 80)
    print("üëÄ PREVIEW DOS DADOS (Primeiras 15 linhas dessas colunas):")
    print("=" * 80)
    
    # 3. Print Integrado (Amostra dos dados)
    # Mostra apenas as colunas que estamos analisando para facilitar a leitura
    display(df_final[colunas_existentes].head(15))
    
    # Dica extra: Verifica se sobrou alguma coluna da lista que n√£o estava no DF
    faltantes = set(colunas_alvo) - set(colunas_existentes)
    if faltantes:
        print(f"\n‚ö†Ô∏è Aten√ß√£o: As colunas {faltantes} n√£o foram encontradas no DataFrame.")

else:
    print("Sem dados para analisar.")

üìä Relat√≥rio de Preenchimento (0 colunas analisadas):
--------------------------------------------------------------------------------



üëÄ PREVIEW DOS DADOS (Primeiras 15 linhas dessas colunas):


0
1
2
3
4
5
6
7
8
9
10



‚ö†Ô∏è Aten√ß√£o: As colunas {'qtdadoleslentes', 'deslocamento', 'motivoviagem', 'qtdidosos', 'qtdcriancas', 'qtdadultos', 'informacao', 'cidade'} n√£o foram encontradas no DataFrame.


In [38]:
# C√âLULA 3.6: Drop de Colunas Vazias

if 'df_final' in locals() and not df_final.empty:
    # Lista de colunas para remover (baseado na sua an√°lise anterior)
    colunas_para_remover = [
        'qtdadoleslentes', 
        'qtdadultos', 
        'qtdcriancas', 
        'qtdidosos', 
        'cidade', 
        'deslocamento', 
        'informacao', 
        'motivoviagem'
    ]
    
    # Identifica quais dessas colunas realmente existem no DataFrame (seguran√ßa)
    colunas_existentes = [c for c in colunas_para_remover if c in df_final.columns]
    
    if colunas_existentes:
        print(f"üóëÔ∏è Removendo {len(colunas_existentes)} colunas vazias...")
        
        # O comando drop remove as colunas
        df_final.drop(columns=colunas_existentes, inplace=True)
        
        print("‚úÖ Colunas removidas com sucesso!")
        print("-" * 50)
        print("Colunas Restantes na Tabela:")
        print(df_final.columns.tolist())
    else:
        print("‚ö†Ô∏è As colunas j√° foram removidas ou n√£o existem.")

    print("-" * 50)
    # Pr√©via final antes do banco
    print("üëÅÔ∏è Visualiza√ß√£o Final (Limpa):")
    display(df_final.head())

else:
    print("Sem dados.")

‚ö†Ô∏è As colunas j√° foram removidas ou n√£o existem.
--------------------------------------------------
üëÅÔ∏è Visualiza√ß√£o Final (Limpa):


Unnamed: 0,idatendimento,ehacompanhante,estadoorigem,faixaetaria,tipohospedagem,tipotransporte,municipointeresse,observacao,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,SIM,DISTRITO FEDERAL,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,SIM,CEARA,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,ACESSO A BOA VIAGEM.,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SIM,SAO PAULO,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0


In [39]:
# C√âLULA 3.7: Auditoria de 'Acompanhantes', 'Turistas' e 'Munic√≠pio Interesse'

if 'df_final' in locals() and not df_final.empty:
    # Lista de colunas para investigar
    # Nota: Usei os nomes prov√°veis ap√≥s a padroniza√ß√£o (min√∫sculos)
    colunas_alvo = ['qtdacompanhantes', 'qtdturistas', 'municipointeresse']
    
    # Filtra apenas as que existem no DataFrame
    colunas_existentes = [c for c in colunas_alvo if c in df_final.columns]
    
    print(f"üìä Analisando {len(colunas_existentes)} colunas...\n")
    
    analise = []
    
    for col in colunas_existentes:
        total = len(df_final)
        
        # L√≥gica para contar vazios
        if pd.api.types.is_numeric_dtype(df_final[col]):
            # Se for n√∫mero, conta apenas os NaN (nulos reais)
            nulos = df_final[col].isna().sum()
            uteis = total - nulos
        else:
            # Se for texto, considera tamb√©m 'NAO INFORMADO' e strings vazias
            nulos = df_final[col].isna().sum() + \
                    len(df_final[df_final[col] == 'NAO INFORMADO']) + \
                    len(df_final[df_final[col] == ''])
            uteis = total - nulos
            
        perc = (uteis / total) * 100
        
        analise.append({
            'Coluna': col,
            'Total Linhas': total,
            'Preenchidos': uteis,
            'Vazios/Nulos': nulos,
            '% √ötil': f"{perc:.2f}%"
        })
    
    # Exibe a tabela resumo
    display(pd.DataFrame(analise))
    
    print("\n" + "=" * 80)
    print("üëÄ PREVIEW (Amostra dos dados):")
    print("=" * 80)
    
    # Mostra uma amostra das colunas para voc√™ ver o conte√∫do
    display(df_final[colunas_existentes].head(20))
    
    # Alerta se alguma coluna n√£o foi encontrada
    faltantes = set(colunas_alvo) - set(colunas_existentes)
    if faltantes:
        print(f"\n‚ö†Ô∏è Colunas n√£o encontradas: {faltantes}")

else:
    print("Sem dados para analisar.")

üìä Analisando 1 colunas...



Unnamed: 0,Coluna,Total Linhas,Preenchidos,Vazios/Nulos,% √ötil
0,municipointeresse,73027,73027,0,100.00%



üëÄ PREVIEW (Amostra dos dados):


Unnamed: 0,municipointeresse
0,NAO PREENCHEU
1,NAO PREENCHEU
2,NAO PREENCHEU
3,NAO PREENCHEU
4,NAO PREENCHEU
5,NAO PREENCHEU
6,NAO PREENCHEU
7,NAO PREENCHEU
8,NAO PREENCHEU
9,NAO PREENCHEU



‚ö†Ô∏è Colunas n√£o encontradas: {'qtdturistas', 'qtdacompanhantes'}


In [40]:
# C√âLULA 3.8: Remo√ß√£o de 'Acompanhantes' e 'Turistas'

if 'df_final' in locals() and not df_final.empty:
    # Lista exata do que ser√° removido
    colunas_para_remover = ['qtdacompanhantes', 'qtdturistas']
    
    # Verifica quais dessas colunas realmente existem no DataFrame (seguran√ßa)
    colunas_existentes = [c for c in colunas_para_remover if c in df_final.columns]
    
    if colunas_existentes:
        print(f"üóëÔ∏è Removendo {len(colunas_existentes)} colunas: {colunas_existentes}...")
        
        # Remove as colunas
        df_final.drop(columns=colunas_existentes, inplace=True)
        
        print("‚úÖ Colunas removidas com sucesso!")
    else:
        print("‚ö†Ô∏è As colunas j√° foram removidas ou n√£o existem no DataFrame.")

    print("-" * 50)
    
    # Mostra as colunas que sobraram para voc√™ conferir
    print("üìã Colunas Restantes:")
    print(df_final.columns.tolist())
    
    print("-" * 50)
    # Pr√©via dos dados limpos
    print("üëÅÔ∏è Visualiza√ß√£o Atual:")
    display(df_final.head())

else:
    print("Sem dados.")

‚ö†Ô∏è As colunas j√° foram removidas ou n√£o existem no DataFrame.
--------------------------------------------------
üìã Colunas Restantes:
['idatendimento', 'ehacompanhante', 'estadoorigem', 'faixaetaria', 'tipohospedagem', 'tipotransporte', 'municipointeresse', 'observacao', 'paisorigem', 'sexo', 'tempoestadia', 'tipoatendimento', 'localatendimento', 'nacionalidade', 'ano', 'mes']
--------------------------------------------------
üëÅÔ∏è Visualiza√ß√£o Atual:


Unnamed: 0,idatendimento,ehacompanhante,estadoorigem,faixaetaria,tipohospedagem,tipotransporte,municipointeresse,observacao,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,SIM,DISTRITO FEDERAL,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,SIM,CEARA,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,ACESSO A BOA VIAGEM.,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SIM,SAO PAULO,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,NAO INFORMADO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0


In [41]:
# C√âLULA 3.9: Auditoria de IDs Duplicados

if 'df_final' in locals() and not df_final.empty:
    # Nome da coluna que identifica cada registro unicamente
    coluna_id = 'idatendimento' 
    
    if coluna_id in df_final.columns:
        # Conta quantos IDs aparecem mais de uma vez
        qtd_duplicados = df_final[coluna_id].duplicated().sum()
        total_registros = len(df_final)
        
        print(f"üìä An√°lise de Duplicidade na coluna '{coluna_id}':")
        print("-" * 50)
        print(f"Total de Registros: {total_registros}")
        print(f"IDs √önicos:         {df_final[coluna_id].nunique()}")
        print(f"üî¥ IDs Duplicados:  {qtd_duplicados}")
        print("-" * 50)
        
        if qtd_duplicados > 0:
            print("üëÅÔ∏è Amostra dos registros duplicados (Top 10):")
            # Mostra as linhas duplicadas (keep=False mostra todas as ocorr√™ncias da duplicata)
            # Ordenamos pelo ID para voc√™ ver os pares/trios juntos
            duplicados_df = df_final[df_final[coluna_id].duplicated(keep=False)].sort_values(by=coluna_id)
            display(duplicados_df.head(10))
            
            print("\nüí° Dica: Se houver duplicatas, geralmente removemos mantendo apenas o registro mais recente ou o primeiro.")
        else:
            print("‚úÖ √ìtimo! N√£o h√° IDs duplicados na base.")
            
    else:
        print(f"‚ö†Ô∏è Coluna '{coluna_id}' n√£o encontrada. Verifique se o nome mudou na padroniza√ß√£o.")
        print("Colunas dispon√≠veis:", df_final.columns.tolist())
else:
    print("Sem dados para analisar.")

üìä An√°lise de Duplicidade na coluna 'idatendimento':
--------------------------------------------------
Total de Registros: 73027
IDs √önicos:         73027
üî¥ IDs Duplicados:  0
--------------------------------------------------
‚úÖ √ìtimo! N√£o h√° IDs duplicados na base.


In [42]:
# C√âLULA 3.10: Contagem de Tipos e Locais de Atendimento

if 'df_final' in locals() and not df_final.empty:
    colunas_para_analisar = ['tipoatendimento', 'localatendimento']
    
    for col in colunas_para_analisar:
        # Verifica se a coluna existe (usando o nome padronizado)
        if col in df_final.columns:
            print(f"üìä AN√ÅLISE DA COLUNA: '{col}'")
            print("-" * 60)
            
            # Conta os valores √∫nicos
            qtd_unicos = df_final[col].nunique()
            print(f"üî¢ Quantidade de tipos distintos encontrados: {qtd_unicos}")
            print("-" * 60)
            
            # Cria uma tabela de frequ√™ncia com Contagem e Porcentagem
            contagem = df_final[col].value_counts(dropna=False)
            porcentagem = df_final[col].value_counts(normalize=True, dropna=False) * 100
            
            # Monta um DataFrame bonitinho para exibir
            tabela_resumo = pd.DataFrame({
                'Total de Registros': contagem,
                'Porcentagem (%)': porcentagem.round(2)
            })
            
            display(tabela_resumo)
            print("\n" + "="*60 + "\n")
            
        else:
            print(f"‚ö†Ô∏è Coluna '{col}' n√£o encontrada no DataFrame.")
else:
    print("Sem dados para analisar.")

üìä AN√ÅLISE DA COLUNA: 'tipoatendimento'
------------------------------------------------------------
üî¢ Quantidade de tipos distintos encontrados: 2
------------------------------------------------------------


Unnamed: 0_level_0,Total de Registros,Porcentagem (%)
tipoatendimento,Unnamed: 1_level_1,Unnamed: 2_level_1
PRESENCIAL,72574,99.38
TELEFONE,453,0.62




üìä AN√ÅLISE DA COLUNA: 'localatendimento'
------------------------------------------------------------
üî¢ Quantidade de tipos distintos encontrados: 16
------------------------------------------------------------


Unnamed: 0_level_0,Total de Registros,Porcentagem (%)
localatendimento,Unnamed: 1_level_1,Unnamed: 2_level_1
CAT AEROPORTO,17205,23.56
CAT PRA√áA DO ARSENAL,16390,22.44
CAT SHOPPING CENTER RECIFE,14305,19.59
CATS TEMPOR√ÅRIOS,7532,10.31
CAT TERMINAL INTEGRADO DE PASSAGEIROS,4492,6.15
CAT PRA√áA DE BOA VIAGEM,3461,4.74
BALC√ÉO TERMINAL MAR√çTIMO,3256,4.46
CAT AMBIENTAL,1715,2.35
CAT CRIATIVO,1370,1.88
CLASSIC HALL,1262,1.73






In [43]:
# C√âLULA 3.11: An√°lise Detalhada da Coluna 'observacao'

if 'df_final' in locals() and not df_final.empty:
    col = 'observacao'
    
    # Verifica se a coluna existe (lembrando da padroniza√ß√£o para min√∫sculo)
    if col in df_final.columns:
        print(f"üìä AN√ÅLISE DA COLUNA: '{col}'")
        print("-" * 60)
        
        total_linhas = len(df_final)
        
        # Identifica o que √© considerado "Vazio"
        # Nulos reais, strings vazias ou a tag 'NAO INFORMADO' que aplicamos antes
        filtro_vazio = df_final[col].isna() | \
                       (df_final[col] == '') | \
                       (df_final[col] == 'NAO INFORMADO') | \
                       (df_final[col].astype(str).str.strip() == '')

        qtd_vazios = filtro_vazio.sum()
        qtd_preenchidos = total_linhas - qtd_vazios
        
        print(f"Total de Linhas:            {total_linhas}")
        print(f"üìù Registros com Conte√∫do:  {qtd_preenchidos}")
        print(f"‚ö™ Vazios / N√£o Informados: {qtd_vazios}")
        
        perc = (qtd_preenchidos / total_linhas) * 100
        print(f"üìä Taxa de Preenchimento:   {perc:.2f}%")
        
        print("-" * 60)
        
        if qtd_preenchidos > 0:
            print("üëÅÔ∏è Amostra de Observa√ß√µes Reais (Top 15):")
            # Mostra apenas as linhas que t√™m conte√∫do real
            amostra = df_final[~filtro_vazio][col].head(15).tolist()
            for i, obs in enumerate(amostra, 1):
                print(f"{i}. {obs}")
    else:
        print(f"‚ö†Ô∏è Coluna '{col}' n√£o encontrada. Verifique se o nome est√° correto.")
else:
    print("Sem dados para analisar.")

üìä AN√ÅLISE DA COLUNA: 'observacao'
------------------------------------------------------------
Total de Linhas:            73027
üìù Registros com Conte√∫do:  13639
‚ö™ Vazios / N√£o Informados: 59388
üìä Taxa de Preenchimento:   18.68%
------------------------------------------------------------
üëÅÔ∏è Amostra de Observa√ß√µes Reais (Top 15):
1. ACESSO A BOA VIAGEM.
2. PASSAPORTE PE
3. PASSAPORTE PE
4. PASSAPORTE PERNAMBUCO
5. PASSAPORTE PERNAMBUCO
6. PASSAPORTE PERNAMBUCO
7. PASSAPORTE PERNAMBUCO
8. PASSAPORTE PERNAMBUCO
9. PASSAPORTE PERNAMBUCO
10. PASSAPORTE PERNAMBUCO
11. PASSAPORTE PERNAMBUCO
12. PASSAPORTE PERNAMBUCO
13. PASSAPORTE PERNAMBUCO
14. PASSAPORTE PERNAMBUCO
15. PASSAPORTES PE (02)


In [44]:
# C√âLULA 3.12: Remo√ß√£o da coluna 'observacao'

if 'df_final' in locals() and not df_final.empty:
    coluna_alvo = 'observacao'
    
    # Verifica se a coluna existe antes de tentar remover
    if coluna_alvo in df_final.columns:
        print(f"üóëÔ∏è Removendo a coluna '{coluna_alvo}'...")
        
        # Remove a coluna
        df_final.drop(columns=[coluna_alvo], inplace=True)
        
        print(f"‚úÖ Coluna '{coluna_alvo}' removida com sucesso!")
        
        print("-" * 50)
        # Mostra as colunas restantes para confirma√ß√£o final
        print("üìã Colunas Restantes na Tabela:")
        print(df_final.columns.tolist())
    else:
        print(f"‚ö†Ô∏è A coluna '{coluna_alvo}' j√° n√£o existe no DataFrame.")

    print("-" * 50)
    # Pr√©via final
    print("üëÅÔ∏è Visualiza√ß√£o Atual:")
    display(df_final.head())

else:
    print("Sem dados.")

üóëÔ∏è Removendo a coluna 'observacao'...
‚úÖ Coluna 'observacao' removida com sucesso!
--------------------------------------------------
üìã Colunas Restantes na Tabela:
['idatendimento', 'ehacompanhante', 'estadoorigem', 'faixaetaria', 'tipohospedagem', 'tipotransporte', 'municipointeresse', 'paisorigem', 'sexo', 'tempoestadia', 'tipoatendimento', 'localatendimento', 'nacionalidade', 'ano', 'mes']
--------------------------------------------------
üëÅÔ∏è Visualiza√ß√£o Atual:


Unnamed: 0,idatendimento,ehacompanhante,estadoorigem,faixaetaria,tipohospedagem,tipotransporte,municipointeresse,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,SIM,DISTRITO FEDERAL,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,SIM,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,SIM,CEARA,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SIM,SAO PAULO,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0


In [45]:
# C√âLULA 3.13: An√°lise da coluna 'ehacompanhante'

if 'df_final' in locals() and not df_final.empty:
    coluna_alvo = 'ehacompanhante'
    
    # Verifica se a coluna existe (lembre-se da padroniza√ß√£o para min√∫sculo)
    if coluna_alvo in df_final.columns:
        print(f"üìä AN√ÅLISE DA COLUNA: '{coluna_alvo}'")
        print("-" * 60)
        
        # Conta valores √∫nicos e nulos
        total = len(df_final)
        nulos = df_final[coluna_alvo].isna().sum()
        preenchidos = total - nulos
        
        print(f"Total de Registros: {total}")
        print(f"Nulos / Vazios:     {nulos}")
        print("-" * 60)
        
        # Tabela de Frequ√™ncia (Quantos 'Sim', quantos 'N√£o', etc.)
        contagem = df_final[coluna_alvo].value_counts(dropna=False)
        porcentagem = df_final[coluna_alvo].value_counts(normalize=True, dropna=False) * 100
        
        resumo = pd.DataFrame({
            'Total': contagem,
            'Porcentagem (%)': porcentagem.round(2)
        })
        
        display(resumo)
        
        print("\n" + "="*60)
        print("üí° Dica: Se 99% for 'Sim' ou 'N√£o', a coluna pode ter baixa vari√¢ncia.")
    else:
        print(f"‚ö†Ô∏è Coluna '{coluna_alvo}' n√£o encontrada. Verifique a grafia.")
else:
    print("Sem dados para analisar.")

üìä AN√ÅLISE DA COLUNA: 'ehacompanhante'
------------------------------------------------------------
Total de Registros: 73027
Nulos / Vazios:     0
------------------------------------------------------------


Unnamed: 0_level_0,Total,Porcentagem (%)
ehacompanhante,Unnamed: 1_level_1,Unnamed: 2_level_1
SIM,73027,100.0



üí° Dica: Se 99% for 'Sim' ou 'N√£o', a coluna pode ter baixa vari√¢ncia.


In [46]:
# C√âLULA 3.14: Remo√ß√£o da coluna 'ehacompanhante'

if 'df_final' in locals() and not df_final.empty:
    coluna_alvo = 'ehacompanhante'
    
    # Verifica se a coluna existe antes de tentar remover
    if coluna_alvo in df_final.columns:
        print(f"üóëÔ∏è Removendo a coluna '{coluna_alvo}' (Baixa vari√¢ncia/Redundante)...")
        
        # Remove a coluna
        df_final.drop(columns=[coluna_alvo], inplace=True)
        
        print(f"‚úÖ Coluna '{coluna_alvo}' removida com sucesso!")
        
        print("-" * 50)
        # Mostra as colunas restantes para confirma√ß√£o final
        print("üìã Colunas Restantes na Tabela:")
        print(df_final.columns.tolist())
    else:
        print(f"‚ö†Ô∏è A coluna '{coluna_alvo}' j√° n√£o existe no DataFrame.")

    print("-" * 50)
    # Pr√©via final para garantir que a coluna sumiu
    print("üëÅÔ∏è Visualiza√ß√£o Atual:")
    display(df_final.head())

else:
    print("Sem dados.")

üóëÔ∏è Removendo a coluna 'ehacompanhante' (Baixa vari√¢ncia/Redundante)...
‚úÖ Coluna 'ehacompanhante' removida com sucesso!
--------------------------------------------------
üìã Colunas Restantes na Tabela:
['idatendimento', 'estadoorigem', 'faixaetaria', 'tipohospedagem', 'tipotransporte', 'municipointeresse', 'paisorigem', 'sexo', 'tempoestadia', 'tipoatendimento', 'localatendimento', 'nacionalidade', 'ano', 'mes']
--------------------------------------------------
üëÅÔ∏è Visualiza√ß√£o Atual:


Unnamed: 0,idatendimento,estadoorigem,faixaetaria,tipohospedagem,tipotransporte,municipointeresse,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,DISTRITO FEDERAL,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,DISTRITO FEDERAL,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,CEARA,ADULTO,NAO PREENCHEU,AVIAO,NAO PREENCHEU,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SAO PAULO,ADULTO,NAO-INFORMOU,AVIAO,NAO PREENCHEU,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0


In [48]:
# C√âLULA 3.15: An√°lise de Perfil (Hospedagem, Transporte e Faixa Et√°ria)

if 'df_final' in locals() and not df_final.empty:
    # Lista de colunas para analisar
    colunas_perfil = ['tipohospedagem', 'tipotransporte', 'faixaetaria']
    
    # Filtra apenas as que existem (seguran√ßa)
    colunas_existentes = [c for c in colunas_perfil if c in df_final.columns]
    
    print(f"üìä An√°lise de Perfil do Turista ({len(colunas_existentes)} colunas)")
    print("=" * 70)
    
    for col in colunas_existentes:
        print(f"\nüîé COLUNA: {col.upper()}")
        print("-" * 30)
        
        # 1. Contagem de Nulos e Preenchimento
        total = len(df_final)
        # Considera vazio: NaN, None, string vazia ou 'NAO INFORMADO'
        nulos = df_final[col].isna().sum() + \
                len(df_final[df_final[col] == 'NAO INFORMADO']) + \
                len(df_final[df_final[col] == ''])
                
        preenchidos = total - nulos
        perc_util = (preenchidos / total) * 100
        
        print(f"Total: {total} | Preenchidos: {preenchidos} ({perc_util:.1f}%) | Vazios: {nulos}")
        
        # 2. Distribui√ß√£o dos Valores (Top 10)
        print("\nüèÜ Top 10 Valores Mais Comuns:")
        contagem = df_final[col].value_counts(normalize=True).head(10) * 100
        
        # Mostra formatado
        for item, perc in contagem.items():
            print(f"   - {item}: {perc:.1f}%")
            
        # --- DETALHAMENTO ESPEC√çFICO PARA TRANSPORTE ---
        if col == 'tipotransporte':
            print("\n   üöå DETALHAMENTO EXTRA (TRANSPORTE):")
            print("   " + "-"*40)
            
            # A. Lista de todos os valores √∫nicos (para ca√ßar erros de digita√ß√£o)
            unicos = df_final[col].dropna().unique()
            print(f"   Valores √∫nicos encontrados ({len(unicos)}):")
            print(f"   {sorted([str(u) for u in unicos])}")
            
            # B. Comparativo Temporal (Transporte x Ano)
            if 'ano' in df_final.columns:
                print("\n   üìÖ Evolu√ß√£o do Transporte por Ano (Tabela Cruzada):")
                try:
                    # Cria uma tabela din√¢mica simples
                    tabela_ano = pd.crosstab(df_final[col], df_final['ano'])
                    display(tabela_ano)
                except Exception as e:
                    print(f"   Erro ao gerar tabela por ano: {e}")

        print("." * 70)

else:
    print("Sem dados para analisar.")

üìä An√°lise de Perfil do Turista (3 colunas)

üîé COLUNA: TIPOHOSPEDAGEM
------------------------------
Total: 73027 | Preenchidos: 73027 (100.0%) | Vazios: 0

üèÜ Top 10 Valores Mais Comuns:
   - NAO PREENCHEU: 71.0%
   - HOTEL: 18.6%
   - AMIGOS-PARENTES: 3.6%
   - NAO-INFORMOU: 3.0%
   - POUSADA: 1.7%
   - OUTROS: 1.3%
   - FLAT: 0.3%
   - CASA-ALUGADA: 0.3%
   - ALBERGUE: 0.2%
......................................................................

üîé COLUNA: TIPOTRANSPORTE
------------------------------
Total: 73027 | Preenchidos: 73027 (100.0%) | Vazios: 0

üèÜ Top 10 Valores Mais Comuns:
   - NAO PREENCHEU: 63.8%
   - AVIAO: 27.1%
   - ONIBUS: 3.7%
   - NAVIO: 2.1%
   - NAO-INFORMOU: 1.6%
   - CARRO: 1.2%
   - OUTROS: 0.3%

   üöå DETALHAMENTO EXTRA (TRANSPORTE):
   ----------------------------------------
   Valores √∫nicos encontrados (7):
   ['AVIAO', 'CARRO', 'NAO PREENCHEU', 'NAO-INFORMOU', 'NAVIO', 'ONIBUS', 'OUTROS']

   üìÖ Evolu√ß√£o do Transporte por Ano (Tabel

ano,2021,2022,2023
tipotransporte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AVIAO,3238,8262,8310
CARRO,127,396,384
NAO PREENCHEU,10694,26848,9075
NAO-INFORMOU,215,326,650
NAVIO,2,63,1496
ONIBUS,132,1336,1231
OUTROS,43,40,159


......................................................................

üîé COLUNA: FAIXAETARIA
------------------------------
Total: 73027 | Preenchidos: 73027 (100.0%) | Vazios: 0

üèÜ Top 10 Valores Mais Comuns:
   - ADULTO: 99.8%
   - CRIANCA: 0.1%
   - IDOSO: 0.1%
   - ADOLESCENTE: 0.0%
......................................................................


In [49]:
# C√âLULA 3.16: Remo√ß√£o de Faixa Et√°ria e Padroniza√ß√£o Global

if 'df_final' in locals() and not df_final.empty:
    # 1. Remover coluna 'faixaetaria' (Baixa vari√¢ncia: 99% Adulto)
    coluna_alvo = 'faixaetaria'
    if coluna_alvo in df_final.columns:
        df_final.drop(columns=[coluna_alvo], inplace=True)
        print(f"üóëÔ∏è Coluna '{coluna_alvo}' removida com sucesso.")
    else:
        print(f"‚ö†Ô∏è Coluna '{coluna_alvo}' j√° n√£o existe.")

    print("-" * 50)

    # 2. Padroniza√ß√£o Global de 'N√£o Informado' -> 'DESCONHECIDO'
    # Lista de varia√ß√µes encontradas nos dados (baseado no CSV e limpezas anteriores)
    termos_para_substituir = [
        'NAO INFORMADO', 
        'NAO PREENCHEU', 
        'NAO-INFORMOU',
        'NAO_INFORMADO',
        'SEM INFORMA√á√ÉO',
        'SEM INFORMACAO'
    ]
    
    print(f"üîÑ Substituindo varia√ß√µes de nulos por 'DESCONHECIDO'...")
    
    # Seleciona apenas colunas de texto para evitar erro em colunas num√©ricas
    cols_texto = df_final.select_dtypes(include=['object']).columns
    
    # Aplica a substitui√ß√£o em massa
    for col in cols_texto:
        # Substitui a lista de termos pelo padr√£o √∫nico
        df_final[col] = df_final[col].replace(termos_para_substituir, 'DESCONHECIDO')
        
    print("‚úÖ Padroniza√ß√£o conclu√≠da!")
    
    print("-" * 50)
    # Pr√©via para conferir se 'DESCONHECIDO' aparece
    print("üëÅÔ∏è Visualiza√ß√£o Atual (Amostra):")
    display(df_final.head(10))

else:
    print("Sem dados.")

üóëÔ∏è Coluna 'faixaetaria' removida com sucesso.
--------------------------------------------------
üîÑ Substituindo varia√ß√µes de nulos por 'DESCONHECIDO'...
‚úÖ Padroniza√ß√£o conclu√≠da!
--------------------------------------------------
üëÅÔ∏è Visualiza√ß√£o Atual (Amostra):


Unnamed: 0,idatendimento,estadoorigem,tipohospedagem,tipotransporte,municipointeresse,paisorigem,sexo,tempoestadia,tipoatendimento,localatendimento,nacionalidade,ano,mes
0,138350,DISTRITO FEDERAL,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
1,138351,DISTRITO FEDERAL,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
2,138352,DISTRITO FEDERAL,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
3,138353,CEARA,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
4,138354,SAO PAULO,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
5,138355,ALAGOAS,AMIGOS-PARENTES,AVIAO,DESCONHECIDO,BRASIL,FEM,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
6,138356,SAO PAULO,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,1 SEMANA,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
7,138357,DISTRITO FEDERAL,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,MASC,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
8,138358,DISTRITO FEDERAL,DESCONHECIDO,AVIAO,DESCONHECIDO,BRASIL,FEM,NAO INFORMOU,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0
9,138359,SAO PAULO,OUTROS,AVIAO,DESCONHECIDO,BRASIL,FEM,1 A 2 DIAS,PRESENCIAL,CAT AEROPORTO,NACIONAL,2021,1.0


In [51]:
# C√âLULA 3.17: An√°lise Detalhada de 'tempoestadia'

if 'df_final' in locals() and not df_final.empty:
    coluna_alvo = 'tempoestadia'
    
    # Verifica se a coluna existe (lembrando da padroniza√ß√£o para min√∫sculo)
    if coluna_alvo in df_final.columns:
        print(f"üìä AN√ÅLISE PROFUNDA: '{coluna_alvo}'")
        print("-" * 60)
        
        # 1. Valores √önicos (para ver a bagun√ßa)
        unicos = df_final[coluna_alvo].unique()
        print(f"üî¢ Quantidade de valores √∫nicos: {len(unicos)}")
        print("\nüìù Lista de todos os valores encontrados:")
        # Ordena convertendo para string para n√£o dar erro se tiver mistura de numero/texto
        print(sorted([str(u) for u in unicos]))
        
        print("-" * 60)
        
        # 2. Frequ√™ncia (O que √© mais comum?)
        print("üèÜ Top 20 Valores Mais Comuns:")
        contagem = df_final[coluna_alvo].value_counts(dropna=False).head(20)
        display(contagem)
        
    else:
        print(f"‚ö†Ô∏è Coluna '{coluna_alvo}' n√£o encontrada.")
else:
    print("Sem dados.")

üìä AN√ÅLISE PROFUNDA: 'tempoestadia'
------------------------------------------------------------
üî¢ Quantidade de valores √∫nicos: 6

üìù Lista de todos os valores encontrados:
['1 A 2 DIAS', '1 SEMANA', '3 A 4 DIAS', '5 A 6 DIAS', 'NAO INFORMOU', 'OUTROS']
------------------------------------------------------------
üèÜ Top 20 Valores Mais Comuns:


tempoestadia
NAO INFORMOU    51737
5 A 6 DIAS       4709
3 A 4 DIAS       4510
OUTROS           4445
1 A 2 DIAS       3821
1 SEMANA         3805
Name: count, dtype: int64

In [52]:
# C√âLULA 3.17: Padroniza√ß√£o Global e Normaliza√ß√£o de 'tempoestadia'

import re

if 'df_final' in locals() and not df_final.empty:
    print("üîÑ Iniciando Padroniza√ß√£o Global e Normaliza√ß√£o de Tempo...")
    print("-" * 60)

    # --- 1. SUBSTUI√á√ÉO GLOBAL (Refor√ßo) ---
    # Lista completa de termos para transformar em 'DESCONHECIDO'
    termos_nulos = [
        'NAO INFORMADO', 'NAO PREENCHEU', 'NAO-INFORMOU', 'NAO_INFORMADO',
        'SEM INFORMA√á√ÉO', 'SEM INFORMACAO', 'NAN', 'NULL', 'nan', '', ' '
    ]
    
    # Aplica em TODAS as colunas de texto da tabela
    cols_texto = df_final.select_dtypes(include=['object']).columns
    for col in cols_texto:
        # Primeiro limpa espa√ßos
        df_final[col] = df_final[col].str.strip().str.upper()
        # Substitui os termos pela tag padr√£o
        df_final[col] = df_final[col].replace(termos_nulos, 'DESCONHECIDO')
        
    print("‚úÖ Substitui√ß√£o global por 'DESCONHECIDO' aplicada em toda a tabela.")

    # --- 2. NORMALIZA√á√ÉO: TEMPO M√ÅXIMO DE ESTADIA ---
    col_origem = 'tempoestadia'
    col_destino = 'tempo_maximo_estadia'
    
    if col_origem in df_final.columns:
        # Fun√ß√£o inteligente para extrair o m√°ximo em dias
        def extrair_maximo_dias(texto):
            texto = str(texto).upper().strip()
            
            if texto == 'DESCONHECIDO' or texto == 'OUTROS':
                return 'DESCONHECIDO'
            
            # Fatores de convers√£o (aproximados)
            multiplicador = 1
            if 'SEMANA' in texto:
                multiplicador = 7
            elif 'MES' in texto or 'M√äS' in texto:
                multiplicador = 30
            elif 'ANO' in texto:
                multiplicador = 365
            
            # Encontra todos os n√∫meros na string (ex: "5 a 6" -> ['5', '6'])
            numeros = re.findall(r'\d+', texto)
            
            if numeros:
                # Converte para inteiros
                numeros_int = [int(n) for n in numeros]
                # Pega o MAIOR n√∫mero e aplica o multiplicador (ex: 1 semana -> 1*7 = 7)
                maximo = max(numeros_int) * multiplicador
                return int(maximo)
            else:
                return 'DESCONHECIDO'

        # Aplica a fun√ß√£o
        df_final[col_destino] = df_final[col_origem].apply(extrair_maximo_dias)
        
        # Remove a coluna antiga (opcional, mas recomendado para limpar)
        # df_final.drop(columns=[col_origem], inplace=True) 
        
        print(f"‚úÖ Coluna '{col_destino}' criada com sucesso.")
        print("-" * 60)
        
        # --- PR√âVIA DO RESULTADO ---
        print("üîé Comparativo: Original vs Normalizado (Amostra variada):")
        cols_preview = [col_origem, col_destino]
        # Pega uma amostra que tenha valores diferentes de DESCONHECIDO para validar
        amostra = df_final[df_final[col_destino] != 'DESCONHECIDO'][cols_preview].drop_duplicates().head(10)
        display(amostra)
        
        print("\nüîé Distribui√ß√£o dos Valores Normalizados:")
        print(df_final[col_destino].value_counts().head(10))
        
    else:
        print(f"‚ö†Ô∏è Coluna '{col_origem}' n√£o encontrada.")

else:
    print("Sem dados.")

üîÑ Iniciando Padroniza√ß√£o Global e Normaliza√ß√£o de Tempo...
------------------------------------------------------------
‚úÖ Substitui√ß√£o global por 'DESCONHECIDO' aplicada em toda a tabela.
‚úÖ Coluna 'tempo_maximo_estadia' criada com sucesso.
------------------------------------------------------------
üîé Comparativo: Original vs Normalizado (Amostra variada):


Unnamed: 0,tempoestadia,tempo_maximo_estadia
1,1 SEMANA,7
3,1 A 2 DIAS,2
21,3 A 4 DIAS,4
84,5 A 6 DIAS,6



üîé Distribui√ß√£o dos Valores Normalizados:
tempo_maximo_estadia
DESCONHECIDO    56182
6                4709
4                4510
2                3821
7                3805
Name: count, dtype: int64


In [54]:
# C√âLULA 4.0: Modelagem Estrat√©gica (Star Schema)

if 'df_final' in locals() and not df_final.empty:
    print("üåü ETAPA 4: Gerando Modelo Estrela (Fato e Dimens√µes)...")
    print("-" * 60)
    
    # --- 1. DIMENS√ÉO CALEND√ÅRIO (dim_calendario) ---
    # Tabela com as datas √∫nicas para filtro temporal
    dim_calendario = df_final[['ano', 'mes']].drop_duplicates().reset_index(drop=True)
    dim_calendario['id_tempo'] = dim_calendario.index + 1
    
    # Adiciona o ID na tabela principal para ligar depois
    df_final = df_final.merge(dim_calendario, on=['ano', 'mes'], how='left')
    print("   -> Dimens√£o 'dim_calendario' criada.")
    
    # --- 2. DIMENS√ÉO LOCALIZA√á√ÉO (dim_localizacao) ---
    # Informa√ß√µes sobre a origem do turista
    cols_local = ['paisorigem', 'estadoorigem', 'nacionalidade']
    cols_existentes_local = [c for c in cols_local if c in df_final.columns]
    
    dim_localizacao = df_final[cols_existentes_local].drop_duplicates().reset_index(drop=True)
    dim_localizacao['id_localizacao'] = dim_localizacao.index + 1
    
    df_final = df_final.merge(dim_localizacao, on=cols_existentes_local, how='left')
    print("   -> Dimens√£o 'dim_localizacao' criada.")

    # --- 3. DIMENS√ÉO VIAGEM (dim_viagem) ---
    # Caracter√≠sticas da estadia e log√≠stica (incluindo a nova coluna normalizada)
    cols_viagem = ['tipohospedagem', 'tipotransporte', 'tempo_maximo_estadia', 'municipointeresse']
    cols_existentes_viagem = [c for c in cols_viagem if c in df_final.columns]
    
    dim_viagem = df_final[cols_existentes_viagem].drop_duplicates().reset_index(drop=True)
    dim_viagem['id_viagem'] = dim_viagem.index + 1
    
    df_final = df_final.merge(dim_viagem, on=cols_existentes_viagem, how='left')
    print("   -> Dimens√£o 'dim_viagem' criada.")

    # --- 4. DIMENS√ÉO ATENDIMENTO (dim_atendimento) ---
    # Dados sobre o posto de atendimento
    cols_atendimento = ['localatendimento', 'tipoatendimento']
    cols_existentes_atend = [c for c in cols_atendimento if c in df_final.columns]
    
    dim_atendimento_info = df_final[cols_existentes_atend].drop_duplicates().reset_index(drop=True)
    dim_atendimento_info['id_atendimento_info'] = dim_atendimento_info.index + 1
    
    df_final = df_final.merge(dim_atendimento_info, on=cols_existentes_atend, how='left')
    print("   -> Dimens√£o 'dim_atendimento' criada.")

    # --- 5. TABELA FATO (fato_atendimentos) ---
    # Cont√©m apenas as chaves (IDs) e m√©tricas. √â o centro da estrela.
    colunas_fato = [
        'idatendimento',      # Chave prim√°ria original (Degenerate Dimension)
        'id_tempo',           # FK para Calend√°rio
        'id_localizacao',     # FK para Localiza√ß√£o
        'id_viagem',          # FK para Viagem
        'id_atendimento_info',# FK para Atendimento
        'sexo'                # Perfil (pode ser usado para contagem demogr√°fica)
    ]
    
    # Filtra para garantir que s√≥ pegamos colunas que existem
    cols_finais_fato = [c for c in colunas_fato if c in df_final.columns]
    
    fato_atendimentos = df_final[cols_finais_fato].copy()
    
    print("   -> Tabela Fato 'fato_atendimentos' criada.")
    print("-" * 60)
    print("‚úÖ Modelagem conclu√≠da! As tabelas est√£o prontas na mem√≥ria para carga.")

else:
    print("‚ùå Sem dados para modelar. Rode as etapas anteriores.")

üåü ETAPA 4: Gerando Modelo Estrela (Fato e Dimens√µes)...
------------------------------------------------------------
   -> Dimens√£o 'dim_calendario' criada.
   -> Dimens√£o 'dim_localizacao' criada.
   -> Dimens√£o 'dim_viagem' criada.
   -> Dimens√£o 'dim_atendimento' criada.
   -> Tabela Fato 'fato_atendimentos' criada.
------------------------------------------------------------
‚úÖ Modelagem conclu√≠da! As tabelas est√£o prontas na mem√≥ria para carga.


In [55]:
# C√âLULA 4.1: Pr√©via das Tabelas (Fato e Dimens√µes)

if 'fato_atendimentos' in locals():
    print("üåü ESQUEMA ESTRELA GERADO (PR√âVIA) üåü")
    print("=" * 60)
    
    # 1. Tabela Fato
    print(f"1Ô∏è‚É£ TABELA FATO: fato_atendimentos ({len(fato_atendimentos)} registros)")
    print("   Colunas: chaves estrangeiras (IDs) e m√©tricas")
    display(fato_atendimentos.head())
    print("." * 60)
    
    # 2. Dimens√£o Calend√°rio
    if 'dim_calendario' in locals():
        print(f"2Ô∏è‚É£ DIMENS√ÉO: dim_calendario ({len(dim_calendario)} registros)")
        display(dim_calendario.head())
        print("." * 60)
    
    # 3. Dimens√£o Localiza√ß√£o
    if 'dim_localizacao' in locals():
        print(f"3Ô∏è‚É£ DIMENS√ÉO: dim_localizacao ({len(dim_localizacao)} registros)")
        display(dim_localizacao.head())
        print("." * 60)
    
    # 4. Dimens√£o Viagem
    if 'dim_viagem' in locals():
        print(f"4Ô∏è‚É£ DIMENS√ÉO: dim_viagem ({len(dim_viagem)} registros)")
        print("   Nota: Verifique se a coluna 'tempo_maximo_estadia' est√° aqui.")
        display(dim_viagem.head())
        print("." * 60)

    # 5. Dimens√£o Atendimento
    if 'dim_atendimento_info' in locals():
        print(f"5Ô∏è‚É£ DIMENS√ÉO: dim_atendimento ({len(dim_atendimento_info)} registros)")
        display(dim_atendimento_info.head())
    
else:
    print("‚ùå As tabelas n√£o foram encontradas. Rode o Bloco 4.0 primeiro.")

üåü ESQUEMA ESTRELA GERADO (PR√âVIA) üåü
1Ô∏è‚É£ TABELA FATO: fato_atendimentos (73027 registros)
   Colunas: chaves estrangeiras (IDs) e m√©tricas


Unnamed: 0,idatendimento,id_tempo,id_localizacao,id_viagem,id_atendimento_info,sexo
0,138350,1,1,1,1,MASC
1,138351,1,1,2,1,MASC
2,138352,1,1,1,1,MASC
3,138353,1,2,3,1,FEM
4,138354,1,3,1,1,MASC


............................................................
2Ô∏è‚É£ DIMENS√ÉO: dim_calendario (36 registros)


Unnamed: 0,ano,mes,id_tempo
0,2021,1.0,1
1,2021,2.0,2
2,2021,3.0,3
3,2021,4.0,4
4,2021,5.0,5


............................................................
3Ô∏è‚É£ DIMENS√ÉO: dim_localizacao (145 registros)


Unnamed: 0,paisorigem,estadoorigem,nacionalidade,id_localizacao
0,BRASIL,DISTRITO FEDERAL,NACIONAL,1
1,BRASIL,CEARA,NACIONAL,2
2,BRASIL,SAO PAULO,NACIONAL,3
3,BRASIL,ALAGOAS,NACIONAL,4
4,BRASIL,PERNAMBUCO,NACIONAL,5


............................................................
4Ô∏è‚É£ DIMENS√ÉO: dim_viagem (911 registros)
   Nota: Verifique se a coluna 'tempo_maximo_estadia' est√° aqui.


Unnamed: 0,tipohospedagem,tipotransporte,tempo_maximo_estadia,municipointeresse,id_viagem
0,DESCONHECIDO,AVIAO,DESCONHECIDO,DESCONHECIDO,1
1,DESCONHECIDO,AVIAO,7,DESCONHECIDO,2
2,DESCONHECIDO,AVIAO,2,DESCONHECIDO,3
3,AMIGOS-PARENTES,AVIAO,DESCONHECIDO,DESCONHECIDO,4
4,OUTROS,AVIAO,2,DESCONHECIDO,5


............................................................
5Ô∏è‚É£ DIMENS√ÉO: dim_atendimento (24 registros)


Unnamed: 0,localatendimento,tipoatendimento,id_atendimento_info
0,CAT AEROPORTO,PRESENCIAL,1
1,CAT PRA√áA DO ARSENAL,PRESENCIAL,2
2,CAT TERMINAL INTEGRADO DE PASSAGEIROS,PRESENCIAL,3
3,CAT SHOPPING CENTER RECIFE,PRESENCIAL,4
4,CAT TERMINAL INTEGRADO DE PASSAGEIROS,TELEFONE,5


In [57]:
# C√âLULA 5.0: Carga no PostgreSQL (Load)

from sqlalchemy import create_engine
from urllib.parse import quote_plus  # Import necess√°rio para tratar o '@' na senha

# Verifica se as tabelas existem na mem√≥ria antes de tentar carregar
if 'fato_atendimentos' in locals() and 'dim_calendario' in locals():
    print("üêò ETAPA 5: Carga no Banco de Dados 'turismo_recife'...")
    print("-" * 60)
    
    # --- CONFIGURA√á√ÉO DO BANCO DE DADOS ---
    DB_USER = 'postgres'
    DB_PASS = 'P@celso4364'  # Sua senha com caractere especial
    DB_HOST = 'localhost'
    DB_PORT = '5432'
    DB_NAME = 'turismo_recife'
    
    # Tratamento da senha: converte '@' para '%40' para n√£o quebrar a URL de conex√£o
    encoded_pass = quote_plus(DB_PASS)
    
    # Cria a string de conex√£o usando a senha codificada
    string_conexao = f"postgresql://{DB_USER}:{encoded_pass}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
    
    try:
        # Cria a engine de conex√£o
        engine = create_engine(string_conexao)
        
        # Dicion√°rio mapeando: Nome da Tabela no Banco -> DataFrame na Mem√≥ria
        tabelas_para_carga = {
            'dim_calendario': dim_calendario,
            'dim_localizacao': dim_localizacao,
            'dim_viagem': dim_viagem,
            'dim_atendimento': dim_atendimento_info,
            'fato_atendimentos': fato_atendimentos
        }
        
        # Loop para carregar cada tabela
        for nome_tabela, df_tabela in tabelas_para_carga.items():
            print(f"   üì§ Carregando tabela '{nome_tabela}'...")
            print(f"      -> {len(df_tabela)} registros a serem inseridos.")
            
            # Envia para o SQL
            # if_exists='replace': Cria a tabela se n√£o existir, ou substitui se j√° existir
            # index=False: N√£o envia o √≠ndice do Pandas como coluna
            df_tabela.to_sql(nome_tabela, engine, if_exists='replace', index=False, chunksize=5000)
            
            print(f"      ‚úÖ Sucesso!")
            
        print("-" * 60)
        print("\nüéâ PROCESSO ETL CONCLU√çDO COM SUCESSO!")
        print("   Todas as tabelas do modelo estrela foram criadas no PostgreSQL.")
        
    except Exception as e:
        print(f"\n‚ùå Erro cr√≠tico na conex√£o ou carga: {e}")
        print("Dica: Verifique se o banco 'turismo_recife' foi criado e se a senha est√° correta.")

else:
    print("‚ùå Erro: As tabelas n√£o foram encontradas na mem√≥ria. Rode o Bloco 4.0 primeiro.")

üêò ETAPA 5: Carga no Banco de Dados 'turismo_recife'...
------------------------------------------------------------
   üì§ Carregando tabela 'dim_calendario'...
      -> 36 registros a serem inseridos.
      ‚úÖ Sucesso!
   üì§ Carregando tabela 'dim_localizacao'...
      -> 145 registros a serem inseridos.
      ‚úÖ Sucesso!
   üì§ Carregando tabela 'dim_viagem'...
      -> 911 registros a serem inseridos.
      ‚úÖ Sucesso!
   üì§ Carregando tabela 'dim_atendimento'...
      -> 24 registros a serem inseridos.
      ‚úÖ Sucesso!
   üì§ Carregando tabela 'fato_atendimentos'...
      -> 73027 registros a serem inseridos.
      ‚úÖ Sucesso!
------------------------------------------------------------

üéâ PROCESSO ETL CONCLU√çDO COM SUCESSO!
   Todas as tabelas do modelo estrela foram criadas no PostgreSQL.
