# Tarefa 1 - Preparação do Dataset do Hippocampus

In [34]:
! pip install researchpy



In [35]:
import os
import random
import pandas as pd
import sklearn as np
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler

In [36]:
def set_seed(seed: int):
    random.seed(seed) # Python
    np.random.seed(seed)  # Numpy, é o gerador utilizado pelo sklearn
    os.environ["PYTHONHASHSEED"] = str(seed)  # sistema operativo

# Fixar a seed
set_seed(2023)

In [37]:
df_teste = pd.read_csv('./datasets/test_radiomics_hipocamp.csv')
df_treino = pd.read_csv('./datasets/train_radiomics_hipocamp.csv')
pd.options.display.max_columns = None

In [38]:
df_teste.shape

(100, 2180)

In [39]:
df_treino.shape

(305, 2181)

In [40]:
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Columns: 2180 entries, ID to Age
dtypes: float64(2011), int64(150), object(19)
memory usage: 1.7+ MB


In [41]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Columns: 2181 entries, ID to Transition
dtypes: float64(2014), int64(147), object(20)
memory usage: 5.1+ MB


### Colunas de valor único

Quando uma coluna contém o mesmo valor para todas as 305/100 entradas, esta não ajuda a distinguir entre as observações e não contribui para a construção de modelos preditivos, análises estatísticas, ou para entender padrões nos dados. Estas colunas podem ser consideradas redundantes e ocupam espaço desnecessário, o que também pode prejudicar a eficiência computacional ao aumentar o tempo de processamento. Com isto dito, em baixo pesquisamos todas essas colunas e eliminamos essas mesmo:

In [42]:
constant_columns_teste = df_teste.columns[df_teste.nunique() == 1]
print(constant_columns_teste)

Index(['diagnostics_Versions_PyRadiomics', 'diagnostics_Versions_Numpy',
       'diagnostics_Versions_SimpleITK', 'diagnostics_Versions_PyWavelet',
       'diagnostics_Versions_Python', 'diagnostics_Configuration_Settings',
       'diagnostics_Configuration_EnabledImageTypes',
       'diagnostics_Image-original_Dimensionality',
       'diagnostics_Image-original_Spacing', 'diagnostics_Image-original_Size',
       ...
       'lbp-3D-m2_glszm_HighGrayLevelZoneEmphasis',
       'lbp-3D-m2_glszm_LowGrayLevelZoneEmphasis',
       'lbp-3D-m2_glszm_SizeZoneNonUniformity',
       'lbp-3D-m2_glszm_SizeZoneNonUniformityNormalized',
       'lbp-3D-m2_glszm_ZoneEntropy', 'lbp-3D-m2_ngtdm_Busyness',
       'lbp-3D-m2_ngtdm_Coarseness', 'lbp-3D-m2_ngtdm_Complexity',
       'lbp-3D-m2_ngtdm_Contrast', 'lbp-3D-m2_ngtdm_Strength'],
      dtype='object', length=159)


In [43]:
constant_columns_treino = df_treino.columns[df_treino.nunique() == 1]
print(constant_columns_treino)

Index(['diagnostics_Versions_PyRadiomics', 'diagnostics_Versions_Numpy',
       'diagnostics_Versions_SimpleITK', 'diagnostics_Versions_PyWavelet',
       'diagnostics_Versions_Python', 'diagnostics_Configuration_Settings',
       'diagnostics_Configuration_EnabledImageTypes',
       'diagnostics_Image-original_Dimensionality',
       'diagnostics_Image-original_Spacing', 'diagnostics_Image-original_Size',
       ...
       'lbp-3D-m2_glszm_HighGrayLevelZoneEmphasis',
       'lbp-3D-m2_glszm_LowGrayLevelZoneEmphasis',
       'lbp-3D-m2_glszm_SizeZoneNonUniformity',
       'lbp-3D-m2_glszm_SizeZoneNonUniformityNormalized',
       'lbp-3D-m2_glszm_ZoneEntropy', 'lbp-3D-m2_ngtdm_Busyness',
       'lbp-3D-m2_ngtdm_Coarseness', 'lbp-3D-m2_ngtdm_Complexity',
       'lbp-3D-m2_ngtdm_Contrast', 'lbp-3D-m2_ngtdm_Strength'],
      dtype='object', length=159)


In [44]:
df_teste = df_teste.drop(constant_columns_teste, axis=1)
df_treino = df_treino.drop(constant_columns_treino, axis=1)

In [45]:
df_teste.shape

(100, 2021)

In [46]:
df_treino.shape

(305, 2022)

In [47]:
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Columns: 2021 entries, ID to Age
dtypes: float64(1991), int64(22), object(8)
memory usage: 1.5+ MB


In [48]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Columns: 2022 entries, ID to Transition
dtypes: float64(1994), int64(19), object(9)
memory usage: 4.7+ MB


Depois de feita a eliminação das colunas redundantes, através dos comando ***shape***, verificamos que eliminamos ***159 colunas redundantes*** dos dois datasets.
Com o comando ***info()***, verificamos para o dataset de teste, que dessas 159 colunas, 20 eram do tipo ***float64***, 128 eram do tipo ***int64*** e 11 eram do tipo ***object***.
Com o comando ***info()***, verificamos para o dataset de treino, que dessas 159 colunas, 20 eram do tipo ***float64***, 128 eram do tipo ***int64*** e 11 eram do tipo ***object***.

### Análise de colunas do tipo ***object***

Consideramos que as seguintes colunas a eliminar, não apresentam dados necessários para a previsão do atributo-objetivo, ***Transition:***
- ***ID:*** porque representa apenas o ID das imagens obtidas.
- ***Image e Mask:*** porque representa apenas a localização dos diferentes scans.
- ***diagnostics_Image-original_Hash:*** porque representa um hash único para a imagem original, usado para verificar a integridade da imagem ou identificar duplicates, mas para análises quantitativas não é importante.
- ***diagnostics_Mask-original_Hash:*** porque representa um hash único da mask original, utilizado para verificar a integridade da mask. Para análises quantitativas não é importante.

In [49]:
object_columns_teste = df_teste.select_dtypes(include='object')
print(object_columns_teste.head())

object_columns_treino = df_treino.select_dtypes(include='object')
print(object_columns_treino.head())

           ID                                              Image  \
0  941_S_1194  /notebooks/disk2/DS2_FreeSurfer/ADNI_941_S_119...   
1  036_S_0945  /notebooks/disk2/DS2_FreeSurfer/ADNI_036_S_094...   
2  024_S_1171  /notebooks/disk2/DS2_FreeSurfer/ADNI_024_S_117...   
3  035_S_0555  /notebooks/disk2/DS2_FreeSurfer/ADNI_035_S_055...   
4  023_S_0081  /notebooks/disk2/DS2_FreeSurfer/ADNI_023_S_008...   

                                                Mask  \
0  /notebooks/disk2/DS2_FreeSurfer/ADNI_941_S_119...   
1  /notebooks/disk2/DS2_FreeSurfer/ADNI_036_S_094...   
2  /notebooks/disk2/DS2_FreeSurfer/ADNI_024_S_117...   
3  /notebooks/disk2/DS2_FreeSurfer/ADNI_035_S_055...   
4  /notebooks/disk2/DS2_FreeSurfer/ADNI_023_S_008...   

            diagnostics_Image-original_Hash  \
0  b4977b66eca7c1e38c03fb5193cca7ca01dd46ec   
1  43850cb7e611c0438dbf2fee1f5800d548de621f   
2  a27b647efa22a9d77a17a07e92657722a268552d   
3  cbd443cf571aaa826bebc6cc9d4bf80f91afd938   
4  41ce7f75ad8398dc

In [50]:
df_teste = df_teste.drop('ID', axis=1)
df_teste = df_teste.drop('Image', axis=1)
df_teste = df_teste.drop('Mask', axis=1)
df_teste = df_teste.drop('diagnostics_Image-original_Hash', axis=1)
df_teste = df_teste.drop('diagnostics_Mask-original_Hash', axis=1)
df_teste = df_teste.drop('diagnostics_Mask-original_CenterOfMass', axis=1)

df_treino = df_treino.drop('ID', axis=1)
df_treino = df_treino.drop('Image', axis=1)
df_treino = df_treino.drop('Mask', axis=1)
df_treino = df_treino.drop('diagnostics_Image-original_Hash', axis=1)
df_treino = df_treino.drop('diagnostics_Mask-original_Hash', axis=1)
df_treino = df_treino.drop('diagnostics_Mask-original_CenterOfMass', axis=1)

In [51]:
df_teste.shape

(100, 2015)

In [52]:
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Columns: 2015 entries, diagnostics_Image-original_Mean to Age
dtypes: float64(1991), int64(22), object(2)
memory usage: 1.5+ MB


In [53]:
df_treino.shape

(305, 2016)

In [54]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Columns: 2016 entries, diagnostics_Image-original_Mean to Transition
dtypes: float64(1994), int64(19), object(3)
memory usage: 4.7+ MB


De seguida, vamos analisar as colunas restantes do tipo ***object***.

In [55]:
object_columns_teste = df_teste.select_dtypes(include='object')
print(object_columns_teste.head())

object_columns_treino = df_treino.select_dtypes(include='object')
print(object_columns_treino.head())

  diagnostics_Mask-original_BoundingBox  \
0             (92, 123, 90, 42, 29, 76)   
1             (79, 135, 90, 48, 16, 78)   
2            (105, 112, 87, 45, 27, 80)   
3             (88, 110, 88, 42, 30, 84)   
4             (88, 145, 94, 45, 21, 71)   

         diagnostics_Mask-original_CenterOfMassIndex  
0  (114.35013341239252, 137.93240438778537, 127.3...  
1  (105.5636763627475, 144.51344414568564, 127.57...  
2  (128.06696716033483, 125.64842240824211, 125.5...  
3  (110.5198398681267, 125.62310137760508, 130.65...  
4  (112.50337605070966, 155.2838638555877, 129.34...  
  diagnostics_Mask-original_BoundingBox  \
0            (103, 113, 93, 36, 30, 71)   
1             (81, 127, 93, 47, 16, 73)   
2             (77, 119, 89, 49, 30, 81)   
3             (93, 102, 90, 41, 29, 78)   
4             (87, 119, 91, 40, 27, 75)   

         diagnostics_Mask-original_CenterOfMassIndex Transition  
0  (121.94230227976358, 129.27272727272728, 128.4...      CN-CN  
1  (107.061704589278

In [56]:
# Separar os elementos dos tuplos em colunas individuais
bbox_cols = ['bbox_x1', 'bbox_y1', 'bbox_x2', 'bbox_y2', 'bbox_x3', 'bbox_y3']
com_cols = ['com_x', 'com_y', 'com_z']

df_teste[bbox_cols] = pd.DataFrame(df_teste['diagnostics_Mask-original_BoundingBox'].apply(eval).tolist(), index=df_teste.index)
df_teste[com_cols] = pd.DataFrame(df_teste['diagnostics_Mask-original_CenterOfMassIndex'].apply(eval).tolist(), index=df_teste.index)

# Remover as colunas originais
df_teste = df_teste.drop('diagnostics_Mask-original_BoundingBox', axis = 1)
df_teste = df_teste.drop('diagnostics_Mask-original_CenterOfMassIndex', axis=1)

# Explicação das colunas
# diagnostics_Mask-original_BoundingBox: Contém as coordenadas dos vértices da caixa delimitadora (bounding box).
# diagnostics_Mask-original_CenterOfMassIndex: Contém as coordenadas do centro de massa.

# Verificar a existência de valores ausentes
missing_values = df_teste.isnull().sum()

if missing_values.any():
    print('Sim')
    
    # Imprimir os nomes das colunas com valores ausentes
    cols_with_missing_values = missing_values[missing_values > 0].index.tolist()
    print("Colunas com valores ausentes:", cols_with_missing_values)
else:
    print('Não')

Não


In [57]:
# Imprimir as primeiras linhas das colunas especificadas
columns = ['bbox_x1', 'bbox_y1', 'bbox_x2', 'bbox_y2', 'bbox_x3', 'bbox_y3', 'com_x', 'com_y', 'com_z']
print(df_teste[columns].head())

   bbox_x1  bbox_y1  bbox_x2  bbox_y2  bbox_x3  bbox_y3       com_x  \
0       92      123       90       42       29       76  114.350133   
1       79      135       90       48       16       78  105.563676   
2      105      112       87       45       27       80  128.066967   
3       88      110       88       42       30       84  110.519840   
4       88      145       94       45       21       71  112.503376   

        com_y       com_z  
0  137.932404  127.331456  
1  144.513444  127.574921  
2  125.648422  125.565615  
3  125.623101  130.657365  
4  155.283864  129.348767  


In [58]:
df_teste.shape

(100, 2022)

In [59]:
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Columns: 2022 entries, diagnostics_Image-original_Mean to com_z
dtypes: float64(1994), int64(28)
memory usage: 1.5 MB


In [60]:
# Separar os elementos dos tuplos em colunas individuais
bbox_cols = ['bbox_x1', 'bbox_y1', 'bbox_x2', 'bbox_y2', 'bbox_x3', 'bbox_y3']
com_cols = ['com_x', 'com_y', 'com_z']

df_treino[bbox_cols] = pd.DataFrame(df_treino['diagnostics_Mask-original_BoundingBox'].apply(eval).tolist(), index=df_treino.index)
df_treino[com_cols] = pd.DataFrame(df_treino['diagnostics_Mask-original_CenterOfMassIndex'].apply(eval).tolist(), index=df_treino.index)

# Remover as colunas originais
df_treino = df_treino.drop('diagnostics_Mask-original_BoundingBox', axis = 1)
df_treino = df_treino.drop('diagnostics_Mask-original_CenterOfMassIndex', axis=1)

# Explicação das colunas
# diagnostics_Mask-original_BoundingBox: Contém as coordenadas dos vértices da caixa delimitadora (bounding box).
# diagnostics_Mask-original_CenterOfMassIndex: Contém as coordenadas do centro de massa.

# Verificar a existência de valores ausentes
missing_values = df_treino.isnull().sum()

if missing_values.any():
    print('Sim')
    
    # Imprimir os nomes das colunas com valores ausentes
    cols_with_missing_values = missing_values[missing_values > 0].index.tolist()
    print("Colunas com valores ausentes:", cols_with_missing_values)
else:
    print('Não')

Não


In [61]:
# Imprimir as primeiras linhas das colunas especificadas
columns = ['bbox_x1', 'bbox_y1', 'bbox_x2', 'bbox_y2', 'bbox_x3', 'bbox_y3', 'com_x', 'com_y', 'com_z']
print(df_treino[columns].head())

   bbox_x1  bbox_y1  bbox_x2  bbox_y2  bbox_x3  bbox_y3       com_x  \
0      103      113       93       36       30       71  121.942302   
1       81      127       93       47       16       73  107.061705   
2       77      119       89       49       30       81  103.364097   
3       93      102       90       41       29       78  116.298273   
4       87      119       91       40       27       75  108.265620   

        com_y       com_z  
0  129.272727  128.404025  
1  135.280884  128.274585  
2  135.281646  128.986283  
3  118.674315  129.309866  
4  132.054627  127.672068  


In [62]:
df_treino.shape

(305, 2023)

In [63]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Columns: 2023 entries, diagnostics_Image-original_Mean to com_z
dtypes: float64(1997), int64(25), object(1)
memory usage: 4.7+ MB


Eliminamos as seguintes colunas, ***diagnostics_Mask-original_BoundingBox', diagnostics_Mask-original_CenterOfMassIndex***, e criamos novas com cada um dos elementos de coordenadas dos tuplos ***['bbox_x1', 'bbox_y1', 'bbox_x2', 'bbox_y2', 'bbox_x3', 'bbox_y3', 'com_x', 'com_y', 'com_z'].***

### Remover colunas duplicadas

In [64]:
# Verificar se há colunas duplicadas em df_treino
duplicated_columns_treino = df_treino.T.duplicated(keep=False)

# Exibir resultado para df_treino
if duplicated_columns_treino.any():
    print("Ainda existem colunas duplicadas em df_treino:")
    duplicate_column_names_treino = df_treino.columns[duplicated_columns_treino]
    print(f"Número de colunas duplicadas em df_treino: {len(duplicate_column_names_treino)}")
else:
    print("Não há mais colunas duplicadas em df_treino.")

# Verificar se há colunas duplicadas em df_teste
duplicated_columns_teste = df_teste.T.duplicated(keep=False)

# Exibir resultado para df_teste
if duplicated_columns_teste.any():
    print("Ainda existem colunas duplicadas em df_teste:")
    duplicate_column_names_teste = df_teste.columns[duplicated_columns_teste]
    print(f"Número de colunas duplicadas em df_teste: {len(duplicate_column_names_teste)}")
else:
    print("Não há mais colunas duplicadas em df_teste.")

# Verificar colunas comuns entre os dois datasets
common_columns = set(duplicate_column_names_treino).intersection(set(duplicate_column_names_teste))
print(f"Número de colunas comuns entre df_treino e df_teste: {len(common_columns)}")

Ainda existem colunas duplicadas em df_treino:
Número de colunas duplicadas em df_treino: 163
Ainda existem colunas duplicadas em df_teste:
Número de colunas duplicadas em df_teste: 168
Número de colunas comuns entre df_treino e df_teste: 163


In [65]:
def remove_common_duplicated_columns(df1, df2):
    # Identificar colunas duplicadas em cada DataFrame
    duplicated_columns_df1 = df1.T.duplicated(keep=False)
    duplicated_columns_df2 = df2.T.duplicated(keep=False)
    
    # Obter nomes das colunas duplicadas
    duplicate_names_df1 = df1.columns[duplicated_columns_df1]
    duplicate_names_df2 = df2.columns[duplicated_columns_df2]
    
    # Identificar duplicatas comuns entre os dois DataFrames
    common_duplicated_columns = set(duplicate_names_df1).intersection(set(duplicate_names_df2))
    
    # Preparar listas para remoção
    columns_to_remove_df1 = []
    columns_to_remove_df2 = []
    
    # Remover duplicadas de df1 (mantém a primeira ocorrência de cada grupo)
    if duplicated_columns_df1.any():
        duplicated_data_df1 = df1.loc[:, duplicated_columns_df1]
        grouped_duplicates_df1 = duplicated_data_df1.T.groupby(list(duplicated_data_df1.T)).groups
        
        for _, columns in grouped_duplicates_df1.items():
            columns_to_remove_df1.extend([col for col in columns[1:] if col in common_duplicated_columns])
    
    # Remover duplicadas de df2 (mantém a primeira ocorrência de cada grupo)
    if duplicated_columns_df2.any():
        duplicated_data_df2 = df2.loc[:, duplicated_columns_df2]
        grouped_duplicates_df2 = duplicated_data_df2.T.groupby(list(duplicated_data_df2.T)).groups
        
        for _, columns in grouped_duplicates_df2.items():
            columns_to_remove_df2.extend([col for col in columns[1:] if col in common_duplicated_columns])
    
    # Aplicar remoção de colunas
    df1.drop(columns=columns_to_remove_df1, inplace=True)
    df2.drop(columns=columns_to_remove_df2, inplace=True)
    
    # Total de colunas removidas
    total_removed = len(columns_to_remove_df1) + len(columns_to_remove_df2)
    
    print(f"Total de colunas duplicadas comuns removidas: {total_removed}")
    
    return df1, df2, total_removed

# Uso da função
df_treino, df_teste, total_removed_columns = remove_common_duplicated_columns(df_treino, df_teste)

# Verificação adicional
print(f"Dimensões do df_treino após remoção: {df_treino.shape}")
print(f"Dimensões do df_teste após remoção: {df_teste.shape}")

Total de colunas duplicadas comuns removidas: 224
Dimensões do df_treino após remoção: (305, 1911)
Dimensões do df_teste após remoção: (100, 1910)


Em seguida, vamos tratar dos outliers do dataset de treino.

### Converter de float64 e int64 para float32 e int32

Começamos por tratar das conversões dos ints e floats do dataset de teste.

In [66]:
float_features = df_teste.select_dtypes(include='float')
int_features = df_teste.select_dtypes(include='int')

df_teste[float_features.columns] = df_teste[float_features.columns].astype(np.float32)
df_teste[int_features.columns] = df_teste[int_features.columns].astype(np.int32)
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Columns: 1910 entries, diagnostics_Image-original_Mean to com_z
dtypes: float32(1889), int32(21)
memory usage: 746.2 KB


Em seguida, vamos tratar das conversões dos ints e floats do dataset de treino.

In [67]:
float_features = df_treino.select_dtypes(include='float')
int_features = df_treino.select_dtypes(include='int')

df_treino[float_features.columns] = df_treino[float_features.columns].astype(np.float32)
df_treino[int_features.columns] = df_treino[int_features.columns].astype(np.int32)
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305 entries, 0 to 304
Columns: 1911 entries, diagnostics_Image-original_Mean to com_z
dtypes: float32(1892), int32(18), object(1)
memory usage: 2.2+ MB


### Exportar os datasets resultantes

In [38]:
# Criar a pasta se ela não existir
output_folder = 'data_mod_hippo'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Exportar o DataFrame para um arquivo CSV na pasta criada
output_file = os.path.join(output_folder, 'dataset_teste.csv')
df_teste.to_csv(output_file, index=False)

print(f"Dataset final de teste limpo exportado para {output_file}")

Dataset final de teste limpo exportado para data_mod_hippo/dataset_teste.csv


In [39]:
# Criar a pasta se ela não existir
output_folder = 'data_mod_hippo'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Exportar o DataFrame para um arquivo CSV na pasta criada
output_file = os.path.join(output_folder, 'dataset_treino.csv')
df_treino.to_csv(output_file, index=False)

print(f"Dataset final de treino limpo exportado para {output_file}")

Dataset final de treino limpo exportado para data_mod_hippo/dataset_treino.csv
