In [7]:
import os
import numpy as np
from sklearn.model_selection import train_test_split
from scipy.sparse import vstack # Usar vstack para empilhar matrizes esparsas, se for o caso

In [6]:
# --- Configurações ---
# Caminho para a pasta onde estão seus arquivos .npy
npy_data_folder = './Treinos/' # Se a pasta está junto com o Jupyter Notebook

# Listas para armazenar todos os dados e labels carregados
all_X_loaded = []
all_y_loaded = []

print(f"Carregando arquivos .npy da pasta: {npy_data_folder}")

# 1. Mapeamento de Labels:
#    Vamos criar um mapeamento numérico para todas as suas classes.
#    As letras (A-Z) receberão labels de 0 a 25.
#    'nothing', 'space' e 'del' receberão os próximos números sequenciais.

label_mapping = {}
current_label_id = 0

# Mapear letras (A-Z) para labels numéricas
for char_code in range(ord('A'), ord('Z') + 1):
    char = chr(char_code)
    label_mapping[char.lower()] = current_label_id # Usar lower() para consistência com nomes de arquivo
    current_label_id += 1

# Mapear as classes especiais para labels numéricas
special_classes = ['nothing', 'space', 'del']
for special_class in special_classes:
    label_mapping[special_class] = current_label_id
    current_label_id += 1

print(f"Mapeamento de labels: {label_mapping}")

# 2. Carregar arquivos .npy para letras (A-Z)
for char_code in range(ord('A'), ord('Z') + 1):
    char = chr(char_code)
    file_name = f'treino{char}.svm.npy'
    file_path = os.path.join(npy_data_folder, file_name)

    if os.path.exists(file_path):
        print(f"Carregando {file_name}...")
        data_for_char = np.load(file_path, allow_pickle=True)

        X_char = data_for_char # Assumindo que o .npy contém apenas o X
        y_char = np.full(X_char.shape[0], label_mapping[char.lower()]) # Atribuir label numérica

        all_X_loaded.append(X_char)
        all_y_loaded.append(y_char)
    else:
        print(f"Aviso: Arquivo {file_name} não encontrado. Pulando.")

# 3. Carregar arquivos .npy para classes especiais ('nothing', 'space', 'del')
for special_class in special_classes:
    file_name = f'treino{special_class}.svm.npy'
    file_path = os.path.join(npy_data_folder, file_name)

    if os.path.exists(file_path):
        print(f"Carregando {file_name}...")
        data_for_class = np.load(file_path, allow_pickle=True)

        X_class = data_for_class # Assumindo que o .npy contém apenas o X
        y_class = np.full(X_class.shape[0], label_mapping[special_class]) # Atribuir label numérica

        all_X_loaded.append(X_class)
        all_y_loaded.append(y_class)
    else:
        print(f"Aviso: Arquivo {file_name} não encontrado. Pulando.")


if not all_X_loaded:
    print("Nenhum arquivo .npy encontrado ou carregado. Verifique o caminho e os nomes dos arquivos.")
else:
    # 4. Concatenar todos os dados e labels
    # Detecta se os dados são esparsos ou densos para usar o método de concatenação correto
    if any(isinstance(arr, csr_matrix) for arr in all_X_loaded):
        print("\nDados detectados como esparsos. Usando scipy.sparse.vstack.")
        X_combined = vstack(all_X_loaded)
    else:
        print("\nDados detectados como densos. Usando numpy.vstack.")
        X_combined = np.vstack(all_X_loaded)

    y_combined = np.concatenate(all_y_loaded)

    print(f"\nTotal de amostras carregadas: {X_combined.shape[0]}")
    print(f"Total de características: {X_combined.shape[1]}")
    print(f"Labels únicas: {np.unique(y_combined)}")

    # 5. Dividir em treino e teste
    X_treino, X_teste, y_treino, y_teste = train_test_split(
        X_combined, y_combined, test_size=0.2, random_state=42, stratify=y_combined
    )

    print(f"Amostras de treino final: {X_treino.shape[0]}")
    print(f"Amostras de teste final: {X_teste.shape[0]}")

    # 6. Salvar os datasets finais (treino e teste) em arquivos .npy
    # Isso é útil para não precisar recarregar e concatenar tudo novamente
    # em futuras execuções, economizando tempo e memória.
    output_folder = '.' # Pasta para salvar os arquivos combinados
    
    np.save(os.path.join(output_folder, 'X_treino_final.npy'), X_treino)
    np.save(os.path.join(output_folder, 'y_treino_final.npy'), y_treino)
    np.save(os.path.join(output_folder, 'X_teste_final.npy'), X_teste)
    np.save(os.path.join(output_folder, 'y_teste_final.npy'), y_teste)

    print("\nDatasets de treino e teste combinados e salvos como X_treino_final.npy, etc.")
    print("Agora você pode carregar esses arquivos diretamente em seu modelo de classificação.")

Carregando arquivos .npy da pasta: ./Treinos/
Carregando treinoA.svm.npy...
Carregando treinoB.svm.npy...
Carregando treinoC.svm.npy...
Carregando treinoD.svm.npy...
Carregando treinoE.svm.npy...
Carregando treinoF.svm.npy...
Carregando treinoG.svm.npy...
Carregando treinoH.svm.npy...
Carregando treinoI.svm.npy...
Carregando treinoJ.svm.npy...
Carregando treinoK.svm.npy...
Carregando treinoL.svm.npy...
Carregando treinoM.svm.npy...
Carregando treinoN.svm.npy...
Carregando treinoO.svm.npy...
Carregando treinoP.svm.npy...
Carregando treinoQ.svm.npy...
Carregando treinoR.svm.npy...
Carregando treinoS.svm.npy...
Carregando treinoT.svm.npy...
Carregando treinoU.svm.npy...
Carregando treinoV.svm.npy...
Carregando treinoW.svm.npy...
Carregando treinoX.svm.npy...
Carregando treinoY.svm.npy...
Carregando treinoZ.svm.npy...

Total de amostras carregadas: 78000
Total de características: 59
Amostras de treino final: 62400
Amostras de teste final: 15600
