# SCC-ICMC-USP - 2º Semestre de 2023
## SCC0275 - Introdução à Ciência de Dados
### Professora: Roseli A. F. Romero
### Monitor: Roseval Malaquias Jr

### **Exercício 6**

**Número do Grupo:**

**Alunos:**
1. Danilo Carneiro
2. Roger Rafael

Nesta atividade, nosso objetivo é exercitar os seguintes conceitos:
- Entender modelagem de dados;
- Entender o processo de avaliação;
- Trabalhar com procedimentos de amostragem;
- Trabalhar com várias medidas de avaliação.

---

**Escolha, entre as opções abaixo, apenas UM dataset para realizar os exercícios.**

**Se o dataset escolhido tiver mais de duas classes, transforme ele num problema binário. Isso pode ser feito escolhendo uma classe para representar a classe positiva e o restante a classe negativa.**

**Possíveis datasets:**


*   **Câncer de mama:** [sklearn.datasets.load_breast_cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer)
*   **Dígitos:** [sklearn.datasets.load_digits](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits)
*   **Wine:** [sklearn.datasets.load_wine](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)


---

Após a análise dos dados e um pré-processamento, segue a etapa de modelagem dos experimentos. Essa etapa pode exigir um retorno ao pré-processamento, caso seja percebido que algo precisa ser ajustado. A modelagem visa determinar as etapas da execução dos experimentos. No nosso cenário, o experimento é a utilização de algoritmos de classificação, regressão ou agrupamento. Para tanto, é preciso definir, com a ajuda da análise dos dados, o tipo do problema (classificação, regressão, ...), os atributos/features a serem utilizados e o processo de avaliação.

Esta prática foca mais no processo de avaliação. Para a avaliação, é necessário definir qual a função de custo/erro adequada e qual o estimador para o desempenho.

Utilizaremos medidas de desempenho para classificação binária baseadas na matriz de confusão (TFP, TFN, TVP, TVN).

Nas aplicações reais, o cliente dita qual a medida de desempenho deve ser utilizada, e muitas vezes não é uma das clássicas. E como essa medida, em geral, tem um impacto grande no treinamento do algoritmo de classificação, muitas vezes o algoritmo precisa ser adaptado e isso não é uma tarefa fácil.

Após a definição do tipo do problema e da medida de avaliação, é preciso definir como será estimado o desempenho final.

Esse processo está ligado à escolha do algoritmo de classificação, bem como à escolha de alguns hiperparâmetros. Uma abordagem muito comum na área é a utilização do 10-fold Cross-Validation. Esse procedimento pode ser utilizado para estimar o desempenho do classificador final, bem como, na escolha de alguns poucos hiperparâmetros.

---


### Questão 01.

- Caso a base escolhida tenha mais de 2 classes, transforme-a em um problema binário. Você pode fazer isso uma vez e depois usar a nova base nas próximas questões.

- Outras operações como remoção de atributos podem ser feitas uma vez fora da função de pré-processamento.

- Implemente a função de pré-processamento para sua base aplicando as técnicas que achar necessário.


In [1]:
# Importação da base escolhida e transformação para problema binário caso necessário.
from sklearn.datasets import load_breast_cancer
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Carregar a base de dados
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Função para pré-processamento
def preprocess_data(df):
    # Normalizar os atributos usando Min-Max Scaling
    scaler = MinMaxScaler()
    df[data.feature_names] = scaler.fit_transform(df[data.feature_names])

    # Transformar o problema para uma classificação binária
    df['target'] = df['target'].apply(lambda x: 0 if x == 0 else 1)

    return df

# Aplicar a função de pré-processamento
df_preprocessed = preprocess_data(df)


In [2]:
# Complete a função de pré-processamento.
def preprocess(x_treino, x_teste, y_treino, y_teste):
    # Aplicar as mesmas transformações feitas na célula 1 aos conjuntos de treino e teste
    x_treino_novo = preprocess_data(x_treino.copy())
    x_teste_novo = preprocess_data(x_teste.copy())

    # As transformações acima já lidaram com a variável alvo, portanto, não há necessidade de modificação em y_treino e y_teste
    y_treino_novo = y_treino
    y_teste_novo = y_teste

    return x_treino_novo, x_teste_novo, y_treino_novo, y_teste_novo

---
### Questão 02.

Implemente a função que retorna a matriz de confusão, escolha duas métricas de avaliação e crie 2 funções, sendo  uma função para cada métrica calculada a partir da matriz confusão.

In [3]:
# Complete a função de cálculo da matriz de confusão.
import numpy as np

def confusion_matrix(y_test, y_pred):
    conf = np.zeros((2, 2))

    for i in range(len(y_test)):
        conf[y_test[i], y_pred[i]] += 1

    return conf

In [4]:
# Demonstra o funcionamento da função confusion_matrix.
actual = np.array([1, 0, 1, 1, 0, 0, 1, 0, 1, 1])
predicted = np.array([0, 1, 1, 1, 1, 0, 1, 1, 0, 1])

conf_mat = confusion_matrix(actual, predicted)
print("Matriz de Confusão:")
print(conf_mat)

Matriz de Confusão:
[[1. 3.]
 [2. 4.]]


In [5]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 1.
def metric1(conf_mat):
    precisao = conf_mat[1, 1] / (conf_mat[1, 1] + conf_mat[0, 1])
    return precisao

m = metric1(conf_mat)
print("Métrica 1:")
print(m)

Métrica 1:
0.5714285714285714


In [6]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 2.
def metric2(conf_mat):
    recall = conf_mat[1, 1] / (conf_mat[1, 1] + conf_mat[1, 0])
    return recall

m = metric2(conf_mat)
print("Métrica 2:")
print(m)

Métrica 2:
0.6666666666666666


---
### Questão 03.

Complete e execute a função *classificacao* definida no notebook.

- Aplique validação cruzada
- Use sua função de pré-processamento
- Use suas métricas de avaliação

**ATENÇÃO:** utilizar o método ``sklearn.model_selection.KFold`` para realizar a amostragem solicitada. Pretem atenção nas dicas e complete o código onde foi solicitado.

In [7]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from matplotlib import pyplot as plt
from numpy import mean, std
import numpy as np
from sklearn.metrics import confusion_matrix, precision_score, recall_score

def classificacao(data, columns, target, preproc_fn, score_fn, score_name,
                  folds=5, plot=True):
    """
    Executa classificação do conjunto de dados passado
    ---------------------------------------------------------------
    data:       DataFrame. Conjunto de dados
    columns:    Lista de inteiros. Índice das colunas utilizadas no treinamento e teste
    target:     Inteiro. Índice da coluna alvo
    preproc_fn: Função. Faz o pré-processamento da base já separada em treino e teste
    score_fn:   Função. A função que calcula a medida de desempenho desejada. Deve ser uma
                função que compara dois vetores, o primeiro vetor são os valores preditos
                pelo classificador, o segundo os rótulos reais
                Vide exemplo das funções em
                http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics
                como por exemplo, sklearn.metrics.accuracy_score
                http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    score_name: String. Uma string com o nome da medida de desempenho
    folds:      Inteiro. Número de folds na validação cruzada
    plot:       Booleano. True para plotar os gráficos False para não plotar
    ---------------------------------------------------------------
    Realiza a classificação em 2 modelos (knn, Árvore de decisão)
    Plot o gráfico de desempenho para cada classificador.
    Retorna um dicionário com os classificadores treinados, as medidas de desempenho e matriz de confusão
    """
    # inicializa os modelos com os parâmetros solicitados
    knn = KNeighborsClassifier(n_neighbors=3)
    dt = DecisionTreeClassifier(criterion='gini', splitter='best', min_samples_split=int(len(data)*0.1))

    clfs = [knn, dt]
    clfs_names = ['knn', 'dt']

    # prepara validação cruzada
    # faz divisão do dataset em fold partes
    # DICA: Utilizar o método sklearn.model_selection.KFold
    kf = KFold(n_splits=folds, shuffle=True, random_state=42)

    # itera para cada classificador fazendo treino e teste
    results = {'knn':[], 'dt':[]}
    for c, c_name in zip(clfs, clfs_names):
        # para cada split
        for train_index, test_index in kf.split(data):
            # separa conjunto de treino e de teste
            x_train, x_test = data.iloc[train_index, columns], data.iloc[test_index, columns]
            y_train, y_test = data.iloc[train_index, target], data.iloc[test_index, target]

            # preprocessamento
            x_train, x_test, y_train, y_test = preproc_fn(x_train, x_test, y_train, y_test)

            # faz o treino do modelo
            clf = c.fit(X=x_train, y=y_train)

            # valores preditos pelo classificador
            y_pred = clf.predict(x_test)
            # rótulos verdadeiros convertidos para array
            y_test = np.array(y_test)

            # realiza predição no conjunto de teste e salva o resultado
            resultado = score_fn(y_test, y_pred)
            results[c_name].append(resultado)

    if not plot:
        return {'results': results, 'clfs':clfs}
    # faz o plot de desempenho dos classificadores
    plt.figure(figsize=(8,8))
    plt.bar(range(1, len(clfs)+1), [mean(results[name]) for name in clfs_names],
                                yerr=[std(results[name]) for name in clfs_names])
    plt.xticks(range(1, len(clfs)+1), clfs_names, rotation=45)
    title = 'Desempenho dos classificadores - %s'%(score_name)
    plt.title(title)
    plt.show()

    return {'results': results, 'clfs':clfs}

---

### Questão 04.

Utilizar os 2 procedimentos de amostragem para estimação do desempenho:
- 10-fold Cross Validation;
- Leave-one-out;

Para o dataset escolhido, executar os 2 procedimentos acima para estimar o desempenho.

> **DICA:** Você pode utilizar a função *classificacao* já disponível apenas ajustando o parâmetro *folds*.