# Fabrício Ferreira da Silva RA: 231900 e Leandro Stival RA: 263013

## Descrição
Notebook contendo a criação de um SVM para classificar imagens de resonância em EM ou AVC, treinamento realizando com o conjunto gerado através das imagens fornecidas, que foram normalizadas utilizando uma quantização para 30 tons de cinza e posterioremente tiveram suas *features* extraídas de forma manual e salvas em arquivos *.csv* que foram carregados unidos, normalizados e separados em treino e validação.
<br><br>
O treinamento foi realizado utilizando o ajuste fino de parâmetros para criar o melhor modelo possível, e a sua avaliação com os dados de validação foi realizado com a acurácia balanceada junto de uma matriz de confusão.

In [1]:
#Lib para importar o SVM
from sklearn.svm import SVC
#Lib para separar treino e validação
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

#Libs para tratamento dos dados
import pandas as pd
import numpy as np
import os



In [2]:
#Fator para o tamanho do conjunto de teste
TEST_FACTOR = 0.3

## Lendo os dados

In [3]:
# def normalize_df(df):
#     """
#     Recebe um conjunto de dados e retorna o seu valor normalizado
#     """
#     df_norm = (df-df.min())/(df.max()-df.min())
#     return df_norm

### Conjunto de dados EM

In [4]:
#Conjunto de dados de EM
EM_data = pd.read_csv('EM_metrics_mask.csv', index_col=0)
EM_data['class'] = 1
EM_data.head()

Unnamed: 0,contrast,dissimilarity,homogeneity,ASM,energy,correlation,SRE,LRE,GLU,RLU,RPC,class
0,1246.643915,11.97919,0.799157,0.361724,0.601435,0.717596,1.63,5629.021,7530.316,16462.36,23.716,1
1,1225.715514,11.615215,0.807544,0.365931,0.604923,0.714978,1.611,5870.977,7759.47,15719.644,23.033,1
2,996.458572,10.071615,0.830058,0.443281,0.665793,0.680747,1.743,7440.006,8320.351,16857.419,21.516,1
3,951.599891,9.680111,0.835709,0.453393,0.673344,0.685272,1.717,7771.06,8569.443,16014.342,20.925,1
4,890.072701,9.264161,0.839427,0.463695,0.680951,0.693787,1.71,8207.277,8896.347,15309.346,20.185,1


In [5]:
#Inserindo o nome da Imagem no dataframe
EM_data['image'] = pd.read_csv("EM_images.csv", index_col=0).values

#Separando o codigo dos pacientes através do nome na imagem
EM_data['person'] = EM_data.apply(lambda x: x['image'].split('_')[0], axis=1)

#Define o numero de pacientes que irão ser utilizados como teste
number_of_groups_test = round(EM_data.person.nunique() * TEST_FACTOR)

#Seleciona os pacientes que serão teste
EM_test_pacients = EM_data.person.value_counts()[-number_of_groups_test:].index.values

In [6]:
#Slice do dataset em treino e teste conforme a lógica acima

#Treino
EM_train = EM_data.loc[~EM_data['person'].isin(EM_test_pacients)].iloc[:,:-2]

#Teste
EM_test = EM_data.loc[EM_data['person'].isin(EM_test_pacients)].iloc[:,:-2]

### Conjunto de dados AVC

In [7]:
#Conjunto de dados com AVC
AVC_data = pd.read_csv('AVC_metrics_mask.csv', index_col=0)
AVC_data.head()

Unnamed: 0,contrast,dissimilarity,homogeneity,ASM,energy,correlation,SRE,LRE,GLU,RLU,RPC,class
0,1575.100975,19.506832,0.636643,0.207171,0.455161,0.883374,1.689,1798.881,3501.078,28358.894,39.208,0
1,1507.389078,19.579652,0.630842,0.207477,0.455496,0.891828,1.691,1833.233,3492.157,28625.825,39.316,0
2,1288.668041,18.183973,0.642326,0.224194,0.473491,0.905488,1.626,2016.729,3647.28,26321.974,37.666,0
3,1111.119427,16.685142,0.659915,0.242424,0.492366,0.911819,1.551,2338.977,3928.393,23145.349,34.988,0
4,969.727427,16.020518,0.646192,0.19331,0.439671,0.903644,1.45,1876.947,3869.643,21385.778,35.493,0


In [8]:
AVC_data['image'] = pd.read_csv("AVC_images.csv", index_col=0).values
AVC_data.head()

Unnamed: 0,contrast,dissimilarity,homogeneity,ASM,energy,correlation,SRE,LRE,GLU,RLU,RPC,class,image
0,1575.100975,19.506832,0.636643,0.207171,0.455161,0.883374,1.689,1798.881,3501.078,28358.894,39.208,0,001_FLAIR18_mask.png
1,1507.389078,19.579652,0.630842,0.207477,0.455496,0.891828,1.691,1833.233,3492.157,28625.825,39.316,0,001_FLAIR19_mask.png
2,1288.668041,18.183973,0.642326,0.224194,0.473491,0.905488,1.626,2016.729,3647.28,26321.974,37.666,0,001_FLAIR20_mask.png
3,1111.119427,16.685142,0.659915,0.242424,0.492366,0.911819,1.551,2338.977,3928.393,23145.349,34.988,0,001_FLAIR21_mask.png
4,969.727427,16.020518,0.646192,0.19331,0.439671,0.903644,1.45,1876.947,3869.643,21385.778,35.493,0,002_FLAIR21_mask.png


In [9]:
#Separando o codigo dos pacientes através do nome na imagem
AVC_data['person'] = AVC_data.apply(lambda x: x['image'].split('_')[0], axis=1)

#Define o numero de pacientes que irão ser utilizados como teste
number_of_groups_test = round(AVC_data.person.nunique() * TEST_FACTOR)

#Seleciona os pacientes que serão teste
AVC_data_pacients = AVC_data.person.value_counts()[-number_of_groups_test:].index.values

In [10]:
#Slice do dataset em treino e teste conforme a lógica acima

#Treino
AVC_train = AVC_data.loc[~AVC_data['person'].isin(AVC_data_pacients)].iloc[:,:-2]

#Teste
AVC_test = AVC_data.loc[AVC_data['person'].isin(AVC_data_pacients)].iloc[:,:-2]

Foi construída uma lógica para que a validação e teste não misturem dados de pacientes, logo, um paciente será treinamento ou teste, não irá existe fatias de uma paciente de treino no conjunto de teste.
<br><br>
Outro ponto é que a proporção de 70/30 representa a quantidade de pacientes de cada conjunto e não a quantidade de dados, pois, alguns pacientes possuem mais fatias presentes no conjunto do que outros, tornando a divisão pela quantidade de pacientes mais plausível.

### Unindo conjunto de dados

Os dados são após lidos são unidos em um único conjunto de dados *DataFrame* contendo $1048$ amostras com $11$ características extraídas (*features*) e a classe de cada amostra.
<br>
<br>
A normalização dos dados foi realizada após a unificação, para que a escala possa representar ambas as classes e não ficar somente focada em uma (normalizar os dados após a unificação apresentou ganho de 1% em acurácia nos dados de validação).

In [11]:
#Dados de ambas as classes
#Treino
df_both_class_train = pd.concat([EM_train, AVC_train])

#Teste
df_both_class_test = pd.concat([EM_test, AVC_test])

In [12]:
# #Normalizando os dados unidos
# df_both_class = normalize_df(df_both_class_train)

# df_both_class_test = normalize_df(df_both_class_test)

## Preparando os dados

Os dados foram separados em conjunto de treinamento e validação em uma proporção de 70/30, assim 70% dos dados foram alocados para serem utilizadas para treinar a nosso classificador baseado em SVM, enquanto 30% foi utilizado para validar a capacidade de generalização do modelo.
<br>
<br>
Para que o conjunto gerado seja sempre o mesmo foi utilizado uma semente fixa de 2022, garantindo a replicabilidade do experimento, outro ponto a se atentar é a estratificação dos conjuntos, assim tornando a distribuição das amostras positivas e negativas (AVC e EM) igualitária entre treino e validação.

In [13]:
#Separando dados de teste
X_train = df_both_class.iloc[:,:-1]
y_train = df_both_class['class'].values.ravel()

#Separando dados de treino
X_test = df_both_class_test.iloc[:,:-1]
y_test = df_both_class_test['class'].values.ravel()

In [14]:
#Ignorando warnwings do treinamento
import warnings
warnings.filterwarnings('always')

## Preparando o modelo

Visando gerar um modelo robusto foi realizado a otimização dos parâmetros de treinamento através da técnica de busca em grande (*Grid Search*), essa técnica treina o modelo com diversas combinações de parâmetros e seleciona aqueles que apresentaram uma qualidade melhor (conforme o teste com a métrica selecionada).
<br>
<br>
Nosso modelo durante o treinamento foi avaliado através da sua precisão, revocação e acurácia balanceada, junto do método *classification_report* que permite uma visualização direta desses valores ao final do treinamento, além da evolução da qualidade conforme os parâmetros foram testados.

In [15]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

In [16]:
tuned_parameters = [
    {"kernel": ["rbf"], "gamma": [1e-3, 1e-4], "C": [1, 10, 100, 1000]},
    {"kernel": ["linear"], "gamma": [1e-3, 1e-4], "C": [1, 10, 100, 1000]},
]

In [17]:
scores = ["precision",  "balanced_accuracy"]

In [None]:
clf = make_pipeline(StandardScaler(), LogisticRegression())

## Treinando

O treinamento basicamente ocorre uma vez para cada método de avaliação definido na lista *scores* e através do *GridSearch* busca a melhor configuração dos parâmetros para o SVM, ao final do treinamento o resultado é apresentado para cada um dos *scores* demonstrando a qualidade por interação do *GridSeach*.
<br>
<br>
Como resultado do treinamento algumas combinações apresentaram 100% de acurácia (ou outra métrica que estava sendo utilizada na interação) no conjunto de treino, mostrando assim que é possível separar os conjuntos através de uma representação linear (considerando que durante o ajuste fino dos parâmetros foi selecionado o *Kernel* linear).

In [18]:
#Exemplo de fine tunning obtido do tutorial do SKlearn para finetunning

for score in scores:
    print("# Tuning hyper-parameters for %s" % score)
    print()

    clf = GridSearchCV(clf, tuned_parameters, scoring=score)
    clf.fit(X_train, y_train)

    print("Best parameters set found on development set:")
    print()
    print(clf.best_params_)
    print()
    print("Grid scores on development set:")
    print()
    means = clf.cv_results_["mean_test_score"]
    stds = clf.cv_results_["std_test_score"]
    
    for mean, std, params in zip(means, stds, clf.cv_results_["params"]):
        print("%0.3f (+/-%0.03f) for %r" % (mean, std * 2, params))
    print()

#     print("Detailed classification report:")
#     print()
#     print("The model is trained on the full development set.")
#     print("The scores are computed on the full evaluation set.")
#     print()
#     y_true, y_pred = y_test, clf.predict(X_test)
#     print(classification_report(y_true, y_pred))
#     print()

# Tuning hyper-parameters for precision

Best parameters set found on development set:

{'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}

Grid scores on development set:

0.520 (+/-0.000) for {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
0.520 (+/-0.000) for {'C': 1, 'gamma': 0.0001, 'kernel': 'rbf'}
0.985 (+/-0.026) for {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}
0.520 (+/-0.000) for {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'}
0.998 (+/-0.009) for {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}
0.985 (+/-0.026) for {'C': 100, 'gamma': 0.0001, 'kernel': 'rbf'}
0.998 (+/-0.009) for {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}
0.998 (+/-0.009) for {'C': 1000, 'gamma': 0.0001, 'kernel': 'rbf'}
0.998 (+/-0.009) for {'C': 1, 'gamma': 0.001, 'kernel': 'linear'}
0.998 (+/-0.009) for {'C': 1, 'gamma': 0.0001, 'kernel': 'linear'}
0.998 (+/-0.009) for {'C': 10, 'gamma': 0.001, 'kernel': 'linear'}
0.998 (+/-0.009) for {'C': 10, 'gamma': 0.0001, 'kernel': 'linear'}
0.998 (+/-0.009) for {'C': 100, 'gamma': 0.00

## Testando qualidade com a validação

Em posse do modelo treinado foi obtida a matriz de confusão e a acurácia balanceada do classificador, os resultados foram bem promissores com os dados de validação com uma acurácia de 100% e não comento erros na matriz de confusão.

In [19]:
from sklearn.metrics import balanced_accuracy_score
from sklearn.metrics import confusion_matrix

In [20]:
y_pred = clf.predict(X_test)

In [21]:
#Acurácia balanceada para os dados de validação
balanced_accuracy_score(y_test, y_pred)

1.0

In [22]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()

In [23]:
#Matriz de confusão:
tn, fp, fn, tp
print(f"Verdadeiro Negativo: {tn} \nFalso Negativo: {fp}\nFalso Positivo: {fn}\nVerdadeiro Positivo: {tp}")

Verdadeiro Negativo: 86 
Falso Negativo: 0
Falso Positivo: 0
Verdadeiro Positivo: 77
