# SCC-ICMC-USP - 2º Semestre de 2023
## SCC0275 - Introdução à Ciência de Dados
### Professora: Roseli A. F. Romero
### Monitor: Roseval Malaquias Jr

### **Exercício 6**

**Número do Grupo:**

**Alunos:**
1. Renan de Almeida Leandro - 11801157
2. Gabriel de Avelar Las Casas Rebelo - 11800462

Nesta atividade, nosso objetivo é exercitar os seguintes conceitos:
- Entender modelagem de dados;
- Entender o processo de avaliação;
- Trabalhar com procedimentos de amostragem;
- Trabalhar com várias medidas de avaliação.

---

**Escolha, entre as opções abaixo, apenas UM dataset para realizar os exercícios.**

**Se o dataset escolhido tiver mais de duas classes, transforme ele num problema binário. Isso pode ser feito escolhendo uma classe para representar a classe positiva e o restante a classe negativa.**

**Possíveis datasets:**


*   **Câncer de mama:** [sklearn.datasets.load_breast_cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer)
*   **Dígitos:** [sklearn.datasets.load_digits](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits)
*   **Wine:** [sklearn.datasets.load_wine](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)


---

Após a análise dos dados e um pré-processamento, segue a etapa de modelagem dos experimentos. Essa etapa pode exigir um retorno ao pré-processamento, caso seja percebido que algo precisa ser ajustado. A modelagem visa determinar as etapas da execução dos experimentos. No nosso cenário, o experimento é a utilização de algoritmos de classificação, regressão ou agrupamento. Para tanto, é preciso definir, com a ajuda da análise dos dados, o tipo do problema (classificação, regressão, ...), os atributos/features a serem utilizados e o processo de avaliação.

Esta prática foca mais no processo de avaliação. Para a avaliação, é necessário definir qual a função de custo/erro adequada e qual o estimador para o desempenho.

Utilizaremos medidas de desempenho para classificação binária baseadas na matriz de confusão (TFP, TFN, TVP, TVN).

Nas aplicações reais, o cliente dita qual a medida de desempenho deve ser utilizada, e muitas vezes não é uma das clássicas. E como essa medida, em geral, tem um impacto grande no treinamento do algoritmo de classificação, muitas vezes o algoritmo precisa ser adaptado e isso não é uma tarefa fácil.

Após a definição do tipo do problema e da medida de avaliação, é preciso definir como será estimado o desempenho final.

Esse processo está ligado à escolha do algoritmo de classificação, bem como à escolha de alguns hiperparâmetros. Uma abordagem muito comum na área é a utilização do 10-fold Cross-Validation. Esse procedimento pode ser utilizado para estimar o desempenho do classificador final, bem como, na escolha de alguns poucos hiperparâmetros.

---


### Questão 01.

- Caso a base escolhida tenha mais de 2 classes, transforme-a em um problema binário. Você pode fazer isso uma vez e depois usar a nova base nas próximas questões.

- Outras operações como remoção de atributos podem ser feitas uma vez fora da função de pré-processamento.

- Implemente a função de pré-processamento para sua base aplicando as técnicas que achar necessário.


In [None]:
# Importando as bibliotecas necessárias
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectFromModel
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import precision_score, recall_score

In [None]:
#O dataset escolhido foi o que contem dados sobre Cancer de Mama.
from sklearn.datasets import load_breast_cancer

dataset = load_breast_cancer()
dataset.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [None]:
# Analisando o conteúdo do dataset:
print(dataset['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

Observa-se que o dataset é composto por:
- 30 features (variaveis numericas)
- 1 target (variavel alvo), classificado entre 'malignant' e 'benign'

Observa-se também que há um bom balanceamento entre as classes. Desta forma, como pré-processamento, somente será realizada a normalização dos dados.

In [None]:
#Criando o dataframe:
df = pd.DataFrame(data=dataset['data'], columns=dataset['feature_names'])

df['target'] = dataset['target']

In [None]:
# Complete a função de pré-processamento.
def preprocess(x_treino, x_teste, y_treino, y_teste):

  # Normalizando os dados da base:

    scaler = StandardScaler()
    x_treino_novo = scaler.fit_transform(x_treino)
    x_teste_novo = scaler.transform(x_teste)

    y_treino_novo = y_treino
    y_teste_novo = y_teste


    return x_treino_novo, x_teste_novo, y_treino_novo, y_teste_novo

---
### Questão 02.

Implemente a função que retorna a matriz de confusão, escolha duas métricas de avaliação e crie 2 funções, sendo  uma função para cada métrica calculada a partir da matriz confusão.

In [None]:
import numpy as np

In [None]:
# Complete a função de cálculo da matriz de confusão.
def confusion_matrix(y_test, y_pred):

    TP = np.sum((y_test == 1) & (y_pred == 1))
    TN = np.sum((y_test == 0) & (y_pred == 0))
    FP = np.sum((y_test == 0) & (y_pred == 1))
    FN = np.sum((y_test == 1) & (y_pred == 0))

    conf = np.zeros((2,2))
    conf = np.array([[TP, FP], [FN, TN]])

    return conf

In [None]:
# Demonstra o funcionamento da função confusion_matrix.
actual    = np.array([1, 0, 1, 1, 0, 0, 1, 0, 1, 1])
predicted = np.array([0, 1, 1, 1, 1, 0, 1, 1, 0, 1])

conf_mat = confusion_matrix(actual, predicted)
print(conf_mat)

[[4 3]
 [2 1]]


In [None]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 1.
def metricPrecision(conf_mat):
    TP, FP, FN, TN = conf_mat.ravel()  # Use ravel() para obter uma versão achatada da matriz
    return TP / (TP + FP)

# Chame a função de precisão com a matriz de confusão
precision = metricPrecision(conf_mat)
print(precision)

0.5714285714285714


In [None]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 2.
def metricRecall(conf_mat):
    TP, FP, FN, TN = conf_mat.ravel()
    return TP / (TP + FN)

recall = metricRecall(conf_mat)
print(recall)

0.6666666666666666


---
### Questão 03.

Complete e execute a função *classificacao* definida no notebook.

- Aplique validação cruzada
- Use sua função de pré-processamento
- Use suas métricas de avaliação

**ATENÇÃO:** utilizar o método ``sklearn.model_selection.KFold`` para realizar a amostragem solicitada. Prestem atenção nas dicas e complete o código onde foi solicitado.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from matplotlib import pyplot as plt
from numpy import mean, std
import numpy as np


def classificacao(data, columns, target, preproc_fn, score_fn, score_name,
                  folds=5, plot=True):
    """
    Executa classificação do conjunto de dados passado
    ---------------------------------------------------------------
    data:       DataFrame. Conjunto de dados
    columns:    Lista de inteiros. Índice das colunas utilizadas no treinamento e teste
    target:     Inteiro. Índice da coluna alvo
    preproc_fn: Função. Faz o pré-processamento da base já separada em treino e teste
    score_fn:   Função. A função que calcula a medida de desempenho desejada. Deve ser uma
                função que compara dois vetores, o primeiro vetor são os valores preditos
                pelo classificador, o segundo os rótulos reais
                Vide exemplo das funções em
                http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics
                como por exemplo, sklearn.metrics.accuracy_score
                http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    score_name: String. Uma string com o nome da medida de desempenho
    folds:      Inteiro. Número de folds na validação cruzada
    plot:       Booleano. True para plotar os gráficos False para não plotar
    ---------------------------------------------------------------
    Realiza a classificação em 2 modelos (knn, Árvore de decisão)
    Plot o gráfico de desempenho para cada classificador.
    Retorna um dicionário com os classificadores treinados, as medidas de desempenho e matriz de confusão
    """
    # inicializa os modelos com os parâmetros solicitados
    knn = KNeighborsClassifier(n_neighbors=3)
    dt = DecisionTreeClassifier(criterion='gini', splitter='best', min_samples_split=int(len(data)*0.1))

    clfs = [knn, dt]
    clfs_names = ['knn', 'dt']

    # prepara validação cruzada
    # faz divisão do dataset em fold partes
    # DICA: Utilizar o método sklearn.model_selection.KFold
    ####
    k_folds = KFold(n_splits=folds, shuffle=True, random_state=42)
    ####

    # itera para cada classificador fazendo treino e teste
    results = {'knn':[], 'dt':[]}
    for c, c_name in zip(clfs, clfs_names):
        # para cada split

            # separa conjunto de treino e de teste
            # DICA: utilizar método straKFold.split() do objeto criado na preparação
            # da validação cruzada.
            ####
            X = data.drop(['target'], axis=1)
            y = data['target'].copy()

            x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=57)
            ####

            # preprocessamento
            # DICA: Chamar a função de pré-processamento previamente produzida (preproc_fn).
            ####
            x_train, x_test, y_train, y_test = preprocess(x_train, x_test, y_train, y_test)
            ####

            # faz o treino do modelo
            clf = c.fit(X=x_train, y=y_train)

            # valores preditos pelo classificador
            y_pred = clf.predict(x_test)

            # rótulos verdadeiros convertidos para array
            y_test = np.array(y_test)

            # realiza predição no conjunto de teste e salva o resultado
            # DICA: Chamar a função de avaliação previamente produzida (score_fn).
            # A métrica calculada deve ser armazenada em "resultado"
            ####
            def scorePrecision(y_pred, y_test):
              confusion = confusion_matrix(y_test, y_pred)
              return metricPrecision(confusion)


            def scoreRecall(y_pred, y_test):
              confusion = confusion_matrix(y_test, y_pred)
              return metricRecall(confusion)

            def scoreFN(y_pred, y_test, score_name):
              if score_name == 'Precision':
                return scorePrecision(y_pred, y_test)
              elif score_name == 'Recall':
                return scoreRecall(y_pred, y_test)
              else:
                return 'Função de avaliação não identificada.'
            ####
            resultado = scoreFN(y_pred, y_test, score_name)
            results[c_name].append(resultado)

    if not plot:
        return {'results': results, 'clfs':clfs}
    # faz o plot de desempenho dos classificadores
    plt.figure(figsize=(8,8))
    plt.bar(range(1, len(clfs)+1), [mean(results[name]) for name in clfs_names],
                                yerr=[std(results[name]) for name in clfs_names])
    plt.xticks(range(1, len(clfs)+1), clfs_names, rotation=45)
    title = 'Desempenho dos classificadores - %s'%(score_name)
    plt.title(title)
    plt.show()

    return {'results': results, 'clfs':clfs}

---

### Questão 04.

Utilizar os 2 procedimentos de amostragem para estimação do desempenho:
- 10-fold Cross Validation;
- Leave-one-out;

Para o dataset escolhido, executar os 2 procedimentos acima para estimar o desempenho.

> **DICA:** Você pode utilizar a função *classificacao* já disponível apenas ajustando o parâmetro *folds*.

In [None]:
# Ajustando o parametro folds para o 10-fold Cross Validation:

resultado_10fold = classificacao(df, columns=[0, 1, 2], target=3, preproc_fn=preprocess, score_fn=metricPrecision, score_name='Precision', folds=10, plot=False)

resultado_10fold

{'results': {'knn': [0.9715909090909091], 'dt': [0.8585858585858586]},
 'clfs': [KNeighborsClassifier(n_neighbors=3),
  DecisionTreeClassifier(min_samples_split=56)]}

In [None]:
# Ajustando o parametro folds para o Leave-one-out:

resultado_Loo = classificacao(df, columns=[0, 1, 2], target=3, preproc_fn=preprocess, score_fn=metricRecall, score_name='Recall', folds=569, plot=False)

resultado_Loo

{'results': {'knn': [0.9884393063583815], 'dt': [0.9884393063583815]},
 'clfs': [KNeighborsClassifier(n_neighbors=3),
  DecisionTreeClassifier(min_samples_split=56)]}