# Trabalho Prático 1 - Implementação KNN

Neste notebook será implementado um algoritmo de KNN para criar um modelo, que será usado para prever quais passegeiros obreviveram ao naufágio do Titanic.

## Sumário
1. Implementação do Algoritmo KNN
2. Setup
3. Pré processamento
4. Aplicação e avaliação do modelo
5. Considerações finais

In [1]:
# importação das bibliotecas e pacotes usados neste notebook
import numpy as np
import seaborn as sns
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

### 1. Implementação do Algoritmo para criar um modelo KNN

In [2]:
class KNN():
    
    def __init(self):
        self.K = None
        self.X_train = None
        self.y_train = None
        self.vizinhos_index = None
        
    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train
        
    def predict(self, X, K=1):
        self.K = K
        classes = np.unique(self.y_train)
        y_pred = []
        dist_total = []
        self.vizinhos_index = []

        for xi in X:
            euclidistancias = -2 * xi @ self.X_train.T + (xi**2).sum() + (self.X_train**2).sum(axis=1)
            
            
            knn_index = np.argsort(euclidistancias)[0:K]
            self.vizinhos_index.append(knn_index)
            contagem = []
            dist_total = []
            
            for classe in classes:
                contagem.append((self.y_train[knn_index]==classe).sum())
                dist_classe = np.sum(euclidistancias[knn_index][self.y_train[knn_index]==classe])
                dist_total.append(dist_classe)
                
            contagem = np.array(contagem)
            
            #criar lista de classes empatadas
            indice_classes_empatadas = []
            for i in range(len(contagem)):
                if contagem[i] == max(contagem):
                    indice_classes_empatadas.append(i)
            
            # Popular y_pred com as duas regras de decisão: 
                # Se não empate: classe com maior votação
                # Se empate: classe com menor distância entre as classes empatadas
            
            dist_total = np.array(dist_total)

            if len(indice_classes_empatadas) == 1:
                pred_index = np.argmax(contagem)
                y_pred.append(classes[pred_index])
                
                
    
            else:
                # menor valor das distancias totais que estão com a mesma quantidade de votos
                menor_valor = np.min(dist_total[indice_classes_empatadas])
                
                # indice da menor distancia contando todas as distâncias
                indice_menor_dist = np.where(dist_total == menor_valor)[0][0]
                
                # Predição pra essa instância = Classe que tem a menor distancia
                y_pred.append(classes[indice_menor_dist])
            

            
        return np.array(y_pred)

### 2. Setup

### Dataset Titanic

#### Descrição dos dados:

* y (Target) → 0 = Não sobreviveu, 1 = Sobreviveu → Categórica (transformada em numérica)
* pclass → Classe do bilhete → 1: Primeira classe, 2: Segunda classe, 3: Terceira classe (Categórica em forma de números)
* sex → Sexo (Categórica)
* Age → Idade em anos (numérica)
* sibsp → Número de irmãos / cônjuges abordo do titanic (numérica discreta)
* parch → Número de pais / filhos abordo (numérica discreta)
* ticket → Número do ticket (categórica em forma de número)
* fare → Valor do bilhete (numérico)
* cabin → id da cabine (complexa / mista)
* embarked → porto do embarque → C = Cherbourg, Q = Queenstown, S = Southampton

In [3]:
from sklearn.datasets import fetch_openml
titanic = fetch_openml(name='titanic',version = 1,as_frame=True)

In [4]:
X = titanic.data
y = titanic.target

In [5]:
X.head(2)

Unnamed: 0,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"


In [6]:
X.shape

(1309, 13)

In [8]:
# Separando em treino e teste (25%)
X_train_, X_test, y_train_, y_test = train_test_split(X, y, test_size=0.25, random_state=13)
X_train_.shape, X_test.shape

((981, 13), (328, 13))

In [9]:
# Separando o treino em treino e validação (10% do treino)
X_train, X_val, y_train, y_val = train_test_split(X_train_, y_train_, test_size=0.10, random_state=13)
X_train.shape, X_val.shape

((882, 13), (99, 13))

In [10]:
# separar as variáveis numéricas e categóricas
    # Explorando as variáveis
X_train.dtypes

pclass        float64
name           object
sex          category
age           float64
sibsp         float64
parch         float64
ticket         object
fare          float64
cabin          object
embarked     category
boat           object
body          float64
home.dest      object
dtype: object

In [None]:
# Transformar pclass em categórica novamente (usar map)

In [None]:
#Separar X_num e X_cat