### Bibliotecas

In [None]:
import os
import pandas as pd

### Verificação dos arquivos

In [None]:
# Bibliotecas necessárias: os, pandas
class DataVerification:
    def __init__(self):
        try:
            current_file = os.path.abspath(__file__)
            current_dir = os.path.dirname(current_file)
        except NameError:
            current_dir = os.getcwd()

        self.base_dir = os.path.dirname(current_dir)    
        print(self.base_dir)
        
        self.train_file_path = os.path.join(self.base_dir, 'dataset', 'data.xlsx')
        self.test_file_path = os.path.join(self.base_dir, 'dataset', 'test.xlsx')
    
    def list_sheet_names(self):
        try:
            xls_train = pd.ExcelFile(self.train_file_path)
            print(f'Planilhas em {self.train_file_path}: {xls_train.sheet_names}')
        except Exception as e:
            print(f'Erro ao ler {self.train_file_path}: {e}')

        try:
            xls_test = pd.ExcelFile(self.test_file_path)
            print(f'Planilhas em {self.test_file_path}: {xls_test.sheet_names}')
        except Exception as e:
            print(f'Erro ao ler {self.test_file_path}: {e}')

    def inspect_data(self):
        try:
            df_train = pd.read_excel(self.train_file_path, sheet_name='SAND - TRAINING set - Task 2')
            print('Dados de treinamento carregados com sucesso:')
            print(df_train.head())
            print('\nInformações sobre os dados de treinamento:')
            df_train.info()
            print('\nValores ausentes nos dados de treinamento:')
            print(df_train.isnull().sum())
        except Exception as e:
            print(f'Erro ao carregar os dados de treinamento: {e}')

        print('\n' + '='*50 + '\n')

        try:
            df_test = pd.read_excel(self.test_file_path, sheet_name='SAND - TESTING set - Task 2')
            print('Dados de teste carregados com sucesso:')
            print(df_test.head())
            print('\nInformações sobre os dados de teste:')
            df_test.info()
            print('\nValores ausentes nos dados de teste:')
            print(df_test.isnull().sum())
        except Exception as e:
            print(f'Erro ao carregar os dados de teste: {e}')

        audio_base_path = os.path.join(self.base_dir, 'dataset')
        print(f'\nVerificando diretórios de áudio em: {audio_base_path}')
        for root, dirs, files in os.walk(audio_base_path):
            if any(keyword in root.lower() for keyword in ['audio', 'phonation', 'rhythm']):
                print(f'Diretório: {root}, {len(files)} arquivos de áudio encontrados.')
                if files:
                    print(f'Exemplo de arquivo: {files[0]}')

dv = DataVerification()
dv.list_sheet_names()
dv.inspect_data()

c:\Users\joaov_zm1q2wh\Documents\project\icassp
Planilhas em c:\Users\joaov_zm1q2wh\Documents\project\icassp\dataset\data.xlsx: ['SAND - TRAINING set - Task 2', 'Training Baseline - Task 2', 'Validation Baseline - Task 2']
Planilhas em c:\Users\joaov_zm1q2wh\Documents\project\icassp\dataset\test.xlsx: ['SAND - TESTING set - Task 2']
Dados de treinamento carregados com sucesso:
      ID  Age Sex  Months  ALSFRS--R_start  ALSFRS--R_end
0  ID002   51   F      10                4              4
1  ID003   59   M      11                3              3
2  ID007   72   M       6                3              1
3  ID009   51   F      11                3              3
4  ID010   57   M      10                4              3

Informações sobre os dados de treinamento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132 entries, 0 to 131
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ID               132 non-null

### Compreensão sobre os dados

O conjunto de dados contém <b>sinais de voz</b>.<br>

<b>Faixa etária dos indivíduos:</b> 18-90<br>
<b>Intervalo da coleta:</b> 01/01/2022 - 15/06/2025<br>
<b>Principais indicador</b> Idade, gênero e gravidade de disartria (escalar ALSFRS-R)<br>

ALSFRS-R de 0 -> 5 (0 - grave, 5 - indivíduo saudável)

2.712 sinais de voz gravados de 339 falantes de italiano:
- 205 pacientes com ELA (121 homens e 84 mulheres) com diferentes graus de disartria.
- 134 indivíduos saudáveis (72 homens e 62 mulheres).

Para a tarefa 2, há 51 mulheres e 81 homens no conjunto de treinamento, enquanto há 14 mulheres e 19 homens no conjunto de teste.

Todos os sinais foram registrados com o Vox4Health, um aplicativo de saúde móvel em um smartphone mantido a cerca de 20 centímetros da boca dos pacientes; o ângulo entre o celular e a boca era de cerca de 45 graus. 

O conjunto de dados completo foi particionado em:
80% do conjunto de treinamento.
20% do conjunto de teste.

Para nossos experimentos com modelos de linha de base, usamos o conjunto de treinamento, que por sua vez foi dividido em:
