### Import de bibliotecas

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Load dataset

In [5]:
df = pd.read_csv("../datasets/train_radiomics_hipocamp.csv")

### Verificação da existência de valores nulos
> Neste caso não existem

In [6]:
# Contagem total de valores nulos no dataset
total_nulls = df.isnull().sum().sum()

# Contagem de colunas com valores nulos
columns_with_nulls_count = (df.isnull().sum() > 0).sum()

# Exibição
print(f"Total de valores nulos: {total_nulls}")
print(f"Colunas com valores nulos: {columns_with_nulls_count}")


Total de valores nulos: 0
Colunas com valores nulos: 0


### Divisão da idade em conjuntos
> com o intuito de melhorar modelos como o DT   
> Intervalos definidos com base na distribuição --- df['Age'].describe()

In [None]:
# Definir os limites das faixas etárias com base nos quartis
bins = [55.3, 71.3, 75.0, 79.9, 91.0]
labels = [1, 2, 3, 4]  # Valores ordinais para cada faixa

# Criar a nova feature numérica com as faixas etárias
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=False, right=False)
df = df.drop(['Age'], axis=1)     

In [None]:
df['Age_Group'].value_counts()

In [None]:
df = df.loc[df['Transition'] != 'CN-MCI']

In [4]:
df['Transition'].value_counts()

Transition
CN-CN      96
MCI-MCI    71
MCI-AD     68
AD-AD      60
CN-MCI     10
Name: count, dtype: int64

### Transitions em float

In [None]:
df['Transition'] = df['Transition'].map({
    'CN-CN': 0,
    'CN-MCI': 1,
    'MCI-MCI': 2,
    'MCI-AD': 3,
    'AD-AD': 4
})

### X e y 
> Separar coluna objetivo das restantes colunas


In [77]:
X = df.drop(['Transition'], axis=1)     
y = df['Transition'].to_frame()         

### Remover colunas não numéricas de X

In [78]:
df_numerico = X.select_dtypes(include=[np.number])

### Normalização

In [67]:
from sklearn.preprocessing import StandardScaler,MinMaxScaler
scaler = MinMaxScaler()
df_numerico = pd.DataFrame(scaler.fit_transform(df_numerico), columns=df_numerico.columns, index=df_numerico.index) #normalização

### SMOTE - Synthetic Minority Oversampling Technique
> Para ter mesmo número de entradas para cada transição

In [79]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=2022)
df_numerico, y = smote.fit_resample(df_numerico, y)

### RandomForest
> Com muitas configurações  
> *** Nota: *** No futuro, fazer GridSearch para obter os parâmetros que dão melhores resultados 

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Treinar um modelo Random Forest
rf = RandomForestClassifier(
    n_estimators=500,               # Mais árvores para maior estabilidade
    max_depth=15,                   # Controla a complexidade, evitando overfitting
    min_samples_split=5,            # Divide nós apenas se houver 5 ou mais amostras
    min_samples_leaf=2,             # Cada folha deve ter pelo menos 2 amostras
    max_features='sqrt',            # Usa a raiz quadrada do número de features
    class_weight='balanced_subsample',  # Dá peso maior às classes minoritárias em cada árvore
    bootstrap=True,                 # Amostragem com reposição para robustez
    random_state=2022,                # Reprodutibilidade
)
rf.fit(df_numerico, y)

### Feature Engineering com base na feature_importances_ de RandomForest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Treinar um modelo Random Forest
model = RandomForestClassifier(random_state=2022)
model.fit(df_numerico, y)

# Obter as importâncias das features
feature_importances = pd.DataFrame({
    'Feature': df_numerico.columns,
    'Importance': model.feature_importances_
}).sort_values(by='Importance', ascending=False)

# Mostrar as 10 features mais importantes
#print(feature_importances.head(10))

# Selecionar as n melhores features
n = 500
features_to_keep = feature_importances.iloc[:n]['Feature']

# Filtrar o DataFrame original para manter somente essas features
df_numerico = df_numerico[features_to_keep]

### Decision Tree

In [80]:
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=6, random_state=2022)
#df_numerico = df_numerico[features_to_keep]
dt.fit(df_numerico, y)

### Feature Engineering com base nos coeficientes de Logistic Regression

In [68]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(random_state=2022, solver='newton-cg')
lr.fit(df_numerico, y)

# Obter os coeficientes absolutos como medida de importância
feature_importances = pd.DataFrame({
    'Feature': df_numerico.columns,
    'Importance': np.abs(lr.coef_[0])  # Usa valor absoluto dos coeficientes
}).sort_values(by='Importance', ascending=False)

# Mostrar as 10 features mais importantes
#print(feature_importances.head(10))

# Selecionar as n melhores features
n = 1500
features_to_keep = feature_importances.iloc[:n]['Feature']

# Filtrar o DataFrame original para manter somente essas features
df_numerico = df_numerico[features_to_keep]

lr = LogisticRegression(random_state=2022, solver='newton-cg')
lr.fit(df_numerico, y)


  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


### LogisticRegression com solver='saga'

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(
    solver='saga',
    penalty='elasticnet',
    l1_ratio=0.3,  # Balanço entre L1 e L2
    C=0.5,         # Regularização moderada
    random_state=2022
)
model.fit(df_numerico, y)

### Load dataset test da competição
> Necessário aplicar mudanças equivalentes às que foram aplicadas a X (df_numerico)

In [82]:
X_test = pd.read_csv("../datasets/test_radiomics_hipocamp.csv")
X_test = X_test.select_dtypes(include=[np.number])
#X_test = pd.DataFrame(scaler.fit_transform(X_test), columns=X_test.columns, index=X_test.index)
#X_test = X_test[features_to_keep]

In [72]:
X_test = X_test[features_to_keep]

In [None]:
# Definir os limites das faixas etárias com base nos quartis
bins = [55.3, 71.3, 75.0, 79.9, 91.0]
labels = [1, 2, 3, 4]  # Valores ordinais para cada faixa

# Criar a nova feature numérica com as faixas etárias
X_test['Age_Group'] = pd.cut(X_test['Age'], bins=bins, labels=False, right=False)
X_test = X_test.drop(['Age'], axis=1)     

### ElasticNet
> Resultados semelhantes a LogisticRegression

In [None]:
from sklearn.linear_model import ElasticNet

model = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=2022)
model.fit(df_numerico, y)

### SVM

In [None]:
from sklearn.svm import SVC

svm = SVC(kernel='linear', C=100, random_state=2022)
svm.fit(df_numerico, y)

### GridSearch DT

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import GridSearchCV, StratifiedShuffleSplit

dt_model = DecisionTreeClassifier(max_depth=6, random_state=2022)
dt_model.fit(df_numerico, y)

sss = StratifiedShuffleSplit(n_splits=10, test_size=20, random_state=2022)
bg_model = BaggingClassifier(estimator=dt_model, bootstrap=True)
n_estimators = [10, 40, 60, 80, 100, 160]
parameters = {'n_estimators': n_estimators}
grid_bg = GridSearchCV(estimator= bg_model, param_grid= parameters, cv= sss)
grid_bg.fit(df_numerico, y)

model = grid_bg.best_estimator_
print(model)

### Stacking Classifier

In [None]:
from sklearn.ensemble import StackingClassifier
estimators = [("dt", dt), ("svm", svm), ("rf", rf)]
st_model = StackingClassifier(estimators=estimators, final_estimator= LogisticRegression(random_state=2022))
st_model.fit(df_numerico, y)

In [None]:
model.fit(df_numerico, y)

### Efetuar previsão

In [83]:
predictions = dt.predict(X_test)
predictions

array(['CN-CN', 'CN-CN', 'CN-CN', 'CN-MCI', 'CN-CN', 'CN-CN', 'AD-AD',
       'CN-CN', 'AD-AD', 'AD-AD', 'MCI-MCI', 'MCI-MCI', 'CN-CN', 'CN-MCI',
       'MCI-AD', 'MCI-AD', 'CN-CN', 'CN-CN', 'MCI-AD', 'AD-AD', 'MCI-MCI',
       'MCI-MCI', 'CN-CN', 'MCI-MCI', 'MCI-MCI', 'MCI-MCI', 'AD-AD',
       'AD-AD', 'CN-CN', 'CN-CN', 'CN-CN', 'MCI-MCI', 'MCI-AD', 'MCI-AD',
       'MCI-MCI', 'MCI-MCI', 'MCI-AD', 'CN-CN', 'CN-CN', 'CN-CN',
       'CN-MCI', 'CN-CN', 'AD-AD', 'MCI-MCI', 'CN-CN', 'MCI-AD',
       'MCI-MCI', 'CN-CN', 'AD-AD', 'CN-CN', 'MCI-AD', 'CN-CN', 'MCI-AD',
       'MCI-AD', 'AD-AD', 'MCI-MCI', 'CN-CN', 'CN-CN', 'MCI-AD',
       'MCI-MCI', 'MCI-MCI', 'MCI-AD', 'CN-CN', 'MCI-AD', 'CN-MCI',
       'CN-CN', 'CN-CN', 'CN-MCI', 'MCI-AD', 'CN-CN', 'MCI-MCI', 'AD-AD',
       'CN-CN', 'MCI-MCI', 'MCI-AD', 'MCI-AD', 'MCI-AD', 'CN-CN', 'CN-CN',
       'CN-CN', 'MCI-MCI', 'AD-AD', 'AD-AD', 'CN-CN', 'MCI-MCI', 'CN-CN',
       'AD-AD', 'MCI-MCI', 'MCI-MCI', 'CN-MCI', 'MCI-AD', 'CN-CN',
       '

### Voltar às designações iniciais
> Quando as transições haviam sido transformadas em floats

In [1]:
predictions = [round(pred) for pred in predictions]

reverse_mapping = {
    0: 'CN-CN',
    1: 'CN-MCI',
    2: 'MCI-MCI',
    3: 'MCI-AD',
    4: 'AD-AD'
}

predictions = [reverse_mapping[pred] for pred in predictions]
predictions

NameError: name 'predictions' is not defined

### Predictions exportadas no formato de submissão para a competição

In [84]:
data = pd.DataFrame({
    'RowId': np.arange(1, len(predictions) + 1), 
    'Result': predictions
})

data.to_csv('dt_max6_SMOTE.csv', index=False)