# [Prof. Otávio Parraga](mailto:otavio.parraga@pucrs.br)

## Programação Orientada a Dados (POD) - Turma 11 (POD_98H04-06)

**Atualizado**: 11/2025

**Descrição**: Trabalho Individual: Manipulação, Análise e Visualização Vetorial e Tabular de Dados

**Copyright &copy;**: Este documento está sob a licensa da Criative Commons [BY-NC-ND 4.0](https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode)

**Dataset**: [Kaggle Student Performance for Multiple Linear Regression](https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression)

## Atenção
- **Explique o seu código**. Será descontado nota quem não explicar corretamente.
  - Foque principalmente no que for relevante, necessário ou não visto em aula.
- **Não é permitido o uso de laços**, pois é desejado que utilizem as funções prontas das bibliotecas.
- O uso de laços acarreta no **zeramento da questão**.
  - Atenção para a excessão na questão 3, no caso do KNN.

# Importando Bibliotecas Autorizadas

Não importe outras bibliotecas além destas, pois não estão autorizadas para o uso.

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from PIL import Image

# 1. Carregando Dataset e Limpando Dados
### **1. Importar o Conjunto de Dados**

Carregue o conjunto de dados `StudentPerformance_sujo.csv` no DataFrame `df` e exiba a forma (shape) do DataFrame para identificar a quantidade de linhas e colunas presentes.

### **2. Remoção de Duplicatas**

Elimine registros duplicados para garantir que cada entrada no conjunto de dados seja única e não cause redundâncias na análise.

### **3. Remoção de Outliers**

Remova outlies da coluna `Sample Question Papers Practiced` considerando que são valores que estão acima do percentil 80.

### **4. Tratamento de Valores Faltantes**

Para colunas numéricas, preencha os valores faltantes com a **média** de cada coluna.

### **5. Substitua a coluna categórica por uma numérica**
Substitua `yes` por `1` e `no` por `0`.

### **6. Criação de Novas Colunas**

Crie uma nova coluna chamada `practice_per_hour`, que represente a razão entre o número de provas práticas realizadas (`Sample Question Papers Practiced`) e as horas de estudo (`Hours Studied`).

### **7. Normalização de Dados**

Aplique a **normalização z-score** em todas as colunas, exceto a alvo `Performance Index`, utilizando a fórmula:

$$
z = \frac{x - \mu}{\sigma}
$$

Onde:

* `x` é o valor original,
* `μ` é a média da coluna,
* `σ` é o desvio padrão da coluna.

### **8. Apresente as Informações do DataFrame Resultante**
**Garanta que o seu DataFrame final possui o seguinte Shape: (9904, 7)**

Mostre as primeiras linhas do DataFrame resultante e utilize o método `info()` para exibir um resumo das colunas, tipos de dados e valores não nulos.
Salve o dataset resultante em um arquivo CSV chamado `StudentPerformance_limpo.csv`. Utilize ele para todos os próximos passos.

# 2. Visualizando Dados
### Gere Gráficos para:
1. **Distribuição da Performance Index**: Crie um histograma para visualizar a distribuição da coluna `Performance Index` após a transformação logarítmica.
2. **Correlação entre Variáveis**: Utilize um mapa de calor (heatmap) para visualizar a correlação entre as variáveis numéricas do DataFrame, destacando a relação com a coluna `Performance Index`.
3. **Boxplot de Variáveis Numéricas**: Gere boxplots para visualizar a distribuição das variáveis numéricas, identificando possíveis outliers e a dispersão dos dados.

# 3. Modelagem de Dados
### Classe K-Nearest Neighbors (KNN)
O algoritmo K-Nearest Neighbors (KNN) é um método de aprendizado supervisionado utilizado para classificação e regressão. Ele funciona identificando os `k` vizinhos mais próximos de um ponto de dados e fazendo previsões com base nesses vizinhos. Para isto, seu treinamento se baseia em armazenar os dados de entrada e seus rótulos, enquanto as previsões são feitas com base na distância entre os pontos.

1. Crie uma classe chamada `KNNRegressor` que implementa o algoritmo K-Nearest Neighbors.
2. A classe deve ter um construtor que recebe o número de vizinhos `k` e um parâmetro opcional `metric` para definir a métrica de distância (padrão: 'euclidean').
   1. A métrica de distância deve ser qualquer função que receba dois vetores e retorne um número real representando a distância entre eles.
3. Implemente o método `fit(X, y)` para treinar o modelo com os dados de entrada `X` e os rótulos `y`.
4. Implemente o método `predict(X)` que recebe um conjunto de dados `X` e retorna as previsões baseadas nos vizinhos mais próximos.
   1. **Exclusivamente neste método, você pode utilizar laços para iterar sobre os dados de entrada e calcular as previsões.**
5. Implemente duas métricas de distância:
   - **Distância Euclidiana**: A distância padrão entre dois pontos no espaço euclidiano, calculada como:
     $$
     d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
     $$
   - **Dissimilaridade do Cosseno**: A diferença angular entre dois pontos no espaço, calculada como:
    $$
    d(x, y) = 1 - \frac{x \cdot y}{||x|| \cdot ||y||}
    $$

### Classe Linear Regression
A regressão linear é um método estatístico utilizado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. A equação normal é uma forma de calcular os coeficientes da regressão linear diretamente a partir dos dados, sem a necessidade de iterações.

1. Crie uma classe chamada `NormalLinearRegression` que implementa a regressão linear com aprendizado por meio da equação normal.
2. A classe deve ter um construtor que define os parâmetros de `coefficients` e `intercept` como `None`.
3. Implemente o método `fit(X, y)` que recebe os dados de entrada `X` e os rótulos `y`, e calcula os coeficientes da regressão linear usando a equação normal, onde $w$ representa um vetor contendo os pesos da regressão:
   $$
   w = (X^T X)^{-1} X^T y
   $$ 
4. A posição 0 do vetor `w` deve ser o `intercept` e as demais posições devem ser os `coefficients`.
5. Implemente o método `predict(X)` que recebe um conjunto de dados `X` e retorna as previsões baseadas nos coeficientes calculados.
**Dicas**: 
- Você precisará adicionar uma coluna de 1s aos dados de entrada `X` para simular o termo independente (`intercept`) na regressão linear.
- Para calcular a inversa de uma matriz, você pode utilizar a função `np.linalg.pinv()`.


In [None]:
class KNNRegressor:
    pass

In [None]:
class NormalLinearRegression:
    pass

# 4. Avalie os modelos gerados
1. Separe os dados em variáveis de entrada `X` e a variável alvo `y`, onde `X` contém todas as colunas, exceto `Performance Index`, e `y` contém apenas a coluna `Performance Index`.
2. Divida os dados em conjuntos de treinamento e teste, utilizando 80% dos dados para treinamento e 20% para teste.
3. Instancie os seguintes modelos:
   - `KNNRegressor` com `k=3` e métrica de distância euclidiana.
   - `KNNRegressor` com `k=5` e métrica de distância de dissimilaridade do cosseno.
   - `KNNRegressor` com `k=7` e métrica de distância euclidiana.
   - `NormalLinearRegression`.

Apresente um gráfico Scatter Plot comparando as previsões dos modelos com os valores reais do `Performance Index`.

# 5. Manipulação de Imagens

Carregue a imagem `mario.png` em um np.array e através de indexação e fatiamento, gere 6 visualizações: original, metade esquerda, metade superior, flip horizontal, flip vertical e a imagem em escala de cinza. Você deve concatená-las em uma única imagem e exibi-la, exatamente conforme o exemplo abaixo.

**Resultado esperado:**

<img src="arquivos/mario_changed.png"> 

# 5. Funções de Ativação e Custo:
Dois grupos de função muito utilizadas em redes neurais são as funções de Atvação e as funções de Custo. As funções de ativação são utilizadas para introduzir não-linearidades nas redes neurais, enquanto as funções de custo são utilizadas para medir o quão bem o modelo está se saindo em relação aos dados de treinamento. Neste cenário, considere as seguintes funções:

**Funções de Ativação:**

Eq. Sigmoide:
$$ \sigma(x) = \frac{1}{1 + e^{-x}} $$

Eq. ReLU:
$$ ReLU(x) = \max(0, x) $$

Eq. Tangente Hiperbólica:
$$ tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $$

Eq.GeLU:
$$ GeLU(x) = 0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.044715x^3))) $$

Eq. Leaky ReLU:
$$ LeakyReLU(x) = \max(0.01x, x) $$

Eq. Swish:
$$ Swish(x) = \frac{x}{1 + e^{-x}} $$

**Crie um gráfico que inclua as seis funções de ativação mencionadas. Elas devem todas ser geradas em uma única figura! Utilize 1000 valores de x indo de -5 a 5.**

**Saída esperada:**

<img src="arquivos/ativacoes.png">