# **1. Exercício de classificação**

**Leia o dataset "diabetes" para um DataFrame e siga os passos a seguir indicados.** Estas instruções servem para orientar cada etapa: carregar dados, preparar variáveis, dividir conjuntos e avaliar um classificador KNN.

Execute a célula seguinte para declarar a função de pré-processamento que normaliza variáveis numéricas e faz one-hot encoding das categóricas. Vai ser reutilizada noutras aulas.

In [None]:
#@Função de processamento
# Utilize esta função sempre que for para processar os dados. Vai ser precisa em todas as aulas
# Normaliza as variáveis numéricas (se existerem) e fazer one hot enconding das variáveis categóricas (se existirem);
# Argumentos:
  # X: dataset das variáveis independentes
  # num_vars: lista dos nomes das variáveis numéricas
  # cat_vars: lista dos nomes das variáveis categóricas

def process_data(X, num_vars, cat_vars):
  scaler = StandardScaler()
  enc = OneHotEncoder(sparse_output=False)

  X_num = scaler.fit_transform(X[num_vars])
  X_cat = enc.fit_transform(X[cat_vars])
  X_processed = np.concatenate([X_num, X_cat], axis=1)

  return X_processed

Corra esta célula que contém todas as bibliotecas necessárias. Inclui pandas/numpy para manipulação de dados, sklearn para pré-processamento/modelos e matplotlib para gráficos.

In [None]:
import pandas as pd
import numpy as np
from google.colab import files
import io
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score
import matplotlib.pyplot as plt

Corra esta célula que lê o dataset. Se o ficheiro `diabetes.csv` não estiver já no Colab, use `files.upload()` para carregá-lo. Se já existir, pode comentar a leitura via upload e usar o caminho direto.

In [None]:
# Correr os dois  comandos seguintes apenas se o dataset não estiver nos ficheiros do colab
uploaded = files.upload()
df = pd.read_csv(io.BytesIO(uploaded['diabetes.csv']))
# Este comando só é corrido se o dataset já estiver carregado no colab
#df = pd.read_csv('diabetes.csv')

Agora é responder às questões. Se não souber fazer, pesquise (em inglês ajuda a encontrar mais resultados) como se faz cada tarefa. Use as dicas fornecidas em cada passo.

1.1 Determine as variáveis categóricas e contínuas. Use `df.dtypes` ou `select_dtypes` para ajudar.

1.2 Normalize as variáveis contínuas (se existirem) e processe as variáveis categóricas (se existirem) através do one-hot encoding. A variável `Outcome` é o target. Dica: chame a função `process_data` criada acima.

1.3 Divida o data set em 80% de treino e 20% de teste usando `train_test_split`. Se ainda não se sentirem confortáveis, podem executar o código fornecido abaixo como exemplo.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # Função da biblioteca sklearn

1.4 Treine o algoritmo KNN para prever os dados de teste e avalie a sua performance (matriz de confusão e classification report). Podem usar diretamente o código fornecido para se focarem na interpretação dos resultados.

In [None]:
knn = KNeighborsClassifier(n_neighbors=3) # Chamar o algoritmo
knn.fit(X_train, y_train) # Aqui estamos a dar os dados de treino (X+y) ao modelo para ele treinar; estamos a fazer o fitting
y_pred = knn.predict(X_test) # Aqui estamos a testar o algoritmo treinado, dando-lhe apenas as variáveis explicativas para ele prever a variável de output sem a ver

cm = confusion_matrix(y_test, y_pred, labels=df['Outcome'].unique()) # Criar a matriz de condusão
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=df['Outcome'].unique()) # Para poder ver a matriz
disp.plot() # Fazer o gráfico
# O classification report mostra as métricas accuracy, precision e recall. Mostra ainda a f1-score que é uma métrica que utiliza o precision e o recall
print(classification_report(y_test, y_pred))

# **2. Exercício de regressão**

Leia o dataset "housing" para um DataFrame. O objetivo é prever o preço das casas. Cada função em baixo deve ser completada por vocês para praticarem o pipeline completo de regressão.

Corra os próximos comandos para carregar o ficheiro `housing.csv` a partir do seu computador.

In [None]:
uploaded = files.upload()
df2 = pd.read_csv(io.BytesIO(uploaded['housing.csv']))

In [None]:
df2.dtypes

Preencha as funções seguintes para construir o vosso próprio pipeline de regressão. Sigam as notas nos comentários para saber o que fazer em cada uma.

In [None]:
def process_data(X, num_vars, cat_vars):
  # Copiar função de cima


def split_data(X, y, test_portion):
  # Fazer

def train_model(X_train, X_test, y_train):
  reg = LinearRegression().fit(X_train, y_train) # Fazer o fitting aos dados de treino
  y_pred = reg.predict(X_test)

  return y_pred

def get_error(y_pred, y_true):
  print(f'Erro absoluto médio = {mean_absolute_error(y_true, y_pred)}')

  plt.figure()
  plt.plot(range(0, y_true.shape[0]), y_true, color='blue', label='Valores reais')
  plt.plot(range(0, y_pred.shape[0]), y_pred, color='red', label='Valores previstos', linewidth=0.5)
  plt.grid()
  plt.legend()

Complete o bloco final identificando o nome da variável alvo (preço) e chamando as funções criadas: processem dados, dividam em treino/teste, treinem o modelo e calculem o erro e o R2. A leitura do código de exemplo deve servir como guia para a ordem correta das operações.

In [None]:
target = XXX # Identificar a variável a prever
independent_vars = df2.columns.difference([target]) # Identificar as variáveis explicativas/independentes
X, y = df2[independent_vars], df2[target] # Dividir o target das variáveis explicativas

cat_vars = ['CHAS'] # Identificar as variáveis categóricas
num_vars = df2.columns.difference([target] + cat_vars).tolist() # Identificar as variáveis numéricas, que são todas menos as categóricas e o target
X = process_data(X, num_vars, cat_vars) # Processar os dados, este passo é comum a todos os algoritmos, logo podemos só fazer de uma vez

X_train, X_test, y_train, y_test = split_data(X, y, 0.3) #Dividir o dataset em treino e teste
y_pred = train_model(X_train, X_test, y_train)
get_error(y_pred, y_test)
print(f'R2 = {r2_score(y_test, y_pred)}')