### PASSO 1: Instalação de Dependências

**IMPORTANTE:** Execute esta primeira célula de código e espere a instalação terminar. As bibliotecas são necessárias para o restante do notebook funcionar.

In [None]:
import sys
# Instala as dependências no ambiente exato que o notebook está usando.
!{sys.executable} -m pip install pandas numpy matplotlib seaborn pyarrow

### PASSO 2: Importação e Configuração

Agora que as bibliotecas estão instaladas, vamos importá-las.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import glob

print("Bibliotecas importadas com sucesso!")

# Configurações de visualização
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

### PASSO 3: Carregamento dos Dados

Esta célula tenta localizar e carregar o arquivo de dados (`.parquet`) automaticamente.

In [None]:
# Procura por arquivos parquet no diretório de dados coletados
search_path = os.path.join('dados_coletados', '**', 'consolidated_alphabet_data_*.parquet')
found_files = glob.glob(search_path, recursive=True)

df = None # Inicializa o DataFrame como None

CAMINHO_DADOS = None
if not found_files:
    print("ERRO: Nenhum arquivo de dados consolidado (`.parquet`) foi encontrado.")
    print(f"Verifique se o arquivo de dados da Fase 1 está na estrutura de pastas esperada: `dados_coletados\NOME_DO_COLETOR\...`")
elif len(found_files) > 1:
    print("AVISO: Múltiplos arquivos de dados encontrados. Usando o primeiro da lista.")
    print("Arquivos encontrados:", found_files)
    CAMINHO_DADOS = found_files[0]
else:
    CAMINHO_DADOS = found_files[0]

if CAMINHO_DADOS:
    print(f"Carregando arquivo: {CAMINHO_DADOS}")
    try:
        df = pd.read_parquet(CAMINHO_DADOS, engine='fastparquet')
        print("Dados carregados com sucesso!")
    except Exception as e:
        print(f"ERRO: Falha ao ler o arquivo Parquet: {e}")
        df = None


### PASSO 4: Análise Exploratória Inicial

As células abaixo farão uma análise rápida da estrutura dos dados, mas apenas se eles foram carregados com sucesso.

In [None]:
# Exibe informações gerais sobre o DataFrame
if df is not None:
    print("Informações do DataFrame:")
    df.info()
else:
    print("DataFrame não carregado. Pule esta etapa.")

In [None]:
# Exibe as primeiras 5 linhas do DataFrame para inspeção
if df is not None:
    print("
Cabeçalho do DataFrame:")
    display(df.head())
else:
    print("DataFrame não carregado. Pule esta etapa.")

In [None]:
# Verifica a distribuição das classes (letras)
if df is not None:
    print("
Distribuição de Amostras por Letra:")
    plt.figure(figsize=(15, 7))
    sns.countplot(x='label', data=df, order=sorted(df['label'].unique()))
    plt.title('Distribuição de Amostras por Letra')
    plt.ylabel('Contagem de Frames')
    plt.xlabel('Letra')
    plt.show()
else:
    print("DataFrame não carregado. Pule esta etapa.")