# Trabalho Prático 1
## Grupo:
* Gabriel Alves Reis, 
* Gabriel Castelo Branco Rocha Alencar Pinto, 2020006523
* Samuel Brísio, 


## Introdução

Neste notebook, foi implementado um algoritmo de Aprendizado de Máquina Supervisionado, ou seja, um algoritmo que, recebendo um determinado conjunto ou uma determinada base de dados, o algoritmo é capaz de aprender as características de diferentes amostras, permitindo-o classificar amostras desconhecidas em dois grupos. Outrossim, as tarefas do algoritmo são as seguintes:

* Dado um conjunto, separar uma porcentagem das tarefas para treinamento do modelo
* Estando o modelo treinado, a porcentagem restante é utilizada para poder validar o funcionamento do modelo, verificando se a capacidade de separação das amostras é válida.
* Concluídas ambas estas etapas e validado o modelo, o mesmo estará pronto para receber amostras aleatórias daqueles dados, de modo a classificá-las com certa acurácia.

In [None]:
# Importando Módulos para Funcionamento
import matplotlib.pyplot as plt
from random import randint, shuffle

from modules.functions import *
from modules.model import *

import pandas as pd
import numpy as np


## Classes
Foram declaradas as seguintes classes para uso nos algoritmos:

### Dot

Representa um ponto 2D que contem operações de '+', '-', '=' e  '<'.

O principal uso desta classe esta na ordenação dos pontos pela coordenada polar, necessário para o algoritmo de Graham.

No algoritmo de ordenação dos pontos ela coordenada polar: Após encontrar o âncora, utilizamos o operador '-' para centralizar o âncora na origem e todos os outros pontos em relação ao novo âncora. Isso porque o operador '<' tem como referência a origem (que agora é o ponto âncora). Após ordenar todos os pontos em relação ao âncora, voltamos os pontos para suas posições iniciais com o operador '+'.


### Endpoint

Representa um evento no algoritmo de varredura linear.

Esta classe contem uma representação do ponto (x, y), um índice que referencia um segmento em um array de segmentos (i.e. qual segmento o evento pertence) e se o evento é "ponto a esquerda" ou "ponto a direita".

Além disso, foi implementado o oprador de '<' para a ordenação dos eventos em relação ao eixo-x. Com critério de desempate: eixo-y, tipo de evento.

O operadofoi implementado para verificar se dois eventos estão no mesmo lugar no plano cartesiano e  pertencem a mesma semirreta. '=' .... SAMUEL



### Segment

Representa um segmento no algoritmo de varredura linear.

Essa classe tem dois pontos e um rótulo que referencia a envoltória que o segmento pertence.

O operador = foi necessario, para a saida de segmentos da arvore no algoritmo da Varredura.

In [None]:
from IPython import display
display.Image("./images/img1.jpg")

## Descrição dos Algoritmos

### Graham

Foi utilizado o algoritmo de Graham clássico para cálculo da envoltória convexa.

A preferência deste algoritmo é devido a sua estabilidade em relação a entrada e saída. Por exemplo, o algoritmo de Gift Wraping tem complexidade de tempo O(h*n) em que h é a quantidade de segmentos da envoltória, logo ele é preferível quando o número de segmentos da envoltória é proximo de log(n), em seu pior caso Gift Wraping é O(n²). Por isso optamos pela estabilidade do Graham.

Graham tem complexidade de O( n*log(n)) que é o custo de ordenar uma lista de pontos pela coordenada polar.

### Varredura Linear

O algoritmo de varredura linear foi utilizado para verificação de intercessão entre as envoltórias. Ou seja, caso duas envoltórias/classes não tenham intercessão, elas serão linearmente separáveis, logo é possível criar uma reta que separa as classes que será nosso classificador.

O algoritmo recebe uma lista ordenada de eventos e uma lista de segmentos, ambas representam as duas envoltórias.

O algoritmo de Varredura foi adaptado para o problema de intercessão de envoltórias. O problema era: dois segmentos consecultivos de uma envoltória se cruzam, logo criamos duas AVLs para garantir que será contado intercessão apenas em envoltórias diferentes. **SAMU**

### Modelo Ingênuo

Uma vez que as classes são separáveis, operamos da seguinte maneira:

1- Encontramos o menor segmento entre vértices das duas envoltórias, utilizando força bruta O(n²).

2- Encontramos a mediatriz da semirreta do passo 1. Para isso, foi necessário o cálculo do coeficiente angular desta mediatriz. O(1)

O modelo retorna a menor semirreta entre as envoltórias, mediatriz (reta que separa as envoltórias), e um valor boolena que diz se a primeira envoltória passada como argumento está a esquerda da mediatriz.

## Classificador

Uma vez que temos a semirreta que separa as envoltórias (i.e. nosso modelo), basta verificar para um novo ponto se ele realiza uma curva a esqueda, a direita ou é colinear. A depender do tipo de curva é atribuido um rótulo de classe para o ponto. Essa etapa é O(n) pois atribuimos classes para cada ponto de teste.

## Bancos de Dados

Falta realizar

colocar as legendas no grafico

    - Quais são as classes das Envoltorias

    - Qual é a equação da reta

### Banana

#### Carrega o banco de dados

In [None]:
banana = pd.read_csv('./data/banana.csv', delimiter=',')

Class = [1, -1]

X_train, X_test, y_train, y_test = test_train(banana, 'Class', Class[0], Class[1])

filtro = y_train == Class[0]

#### Plot das Envoltorias

In [None]:
fig, ax = plt.subplots()
dotList, envoltorias = plotEnvoltorias(X_train, ax, filtro, Class, withNoise=False)
plt.show()

#### Analise de Separabilidade

In [None]:
# Verifica se tem Interseção
endPointList, segmentsList = preProcessConvexHull(envoltorias[0], envoltorias[1])
hasIntersection = sweepLineIntersection(endPointList, segmentsList)

print(f'As envoltórias tem interssão: {hasIntersection}')

### Iris

#### Carrega o bando de dados e Separa em treino e teste

In [None]:
iris = pd.read_csv('./data/iris.csv', delimiter=',')
Class = ['Iris-setosa', 'Iris-versicolor']

iris = iris[['SepalLength', 'SepalWidth', 'Class']]

X_train, X_test, y_train, y_test = test_train(iris, 'Class', Class[0], Class[1])

filtro = y_train == Class[0]

#### Plot das envoltorias

In [None]:
fig, ax = plt.subplots()
dotList, envoltorias = plotEnvoltorias(X_train, ax, filtro, Class, withNoise=False)
plt.show()

#### Analise de separabilidade

In [None]:
# Verifica se tem Interseção
endPointList, segmentsList = preProcessConvexHull(envoltorias[0], envoltorias[1])
hasIntersection = sweepLineIntersection(endPointList, segmentsList)

print(f'As envoltórias tem interssão: {hasIntersection}')


#### Classificação do Modelo

In [None]:
fig, ax = plt.subplots()
model, firstConvexHullIsLeft = plotModel(X_train, ax, filtro, Class, withNoise=False)

left = Class[0] if firstConvexHullIsLeft else Class[1]
right = Class[1] if firstConvexHullIsLeft else Class[0]

plt.show()

#### Analise das metricas

In [None]:
# Classificao Gerada Pelo Nosso Modelo
y_pred = classificacao(X_test, compareCol1=1, compareCol2=2, model=model, whoIsLeft=left, whoIsRight=right)

f1 = f1_score(y_test.values, y_pred, pos_label=Class[0])
accuracy = accuracy_score(y_test.values, y_pred) 
recall = recall_score(y_test.values, y_pred, pos_label=Class[0])
precision = precision_score(y_test.values, y_pred, pos_label=Class[0])

print(f'''\t Anilise das metricas
f1 score: {f1}
precision score: {precision} 
recall score: {recall}
accuracy_score: {accuracy}''')

### wine quality

#### Carrega o banco de dados

In [None]:
wine = pd.read_csv('data/winequality-white.csv', delimiter=',')

wine = wine[['CitricAcid', 'Alcohol', 'Quality']]

Class = [4, 8]

X_train, X_test, y_train, y_test = test_train(wine, 'Quality', Class[0], Class[1])

filtro = y_train == Class[0]

#### Plot das Envoltorias

In [None]:
fig, ax = plt.subplots()
dotList, envoltorias = plotEnvoltorias(X_train, ax, filtro, Class, withNoise=True)
plt.show()

#### Analise de Separabilidade

In [None]:
# Verifica se tem Interseção
endPointList, segmentsList = preProcessConvexHull(envoltorias[0], envoltorias[1])
hasIntersection = sweepLineIntersection(endPointList, segmentsList)

print(f'As envoltórias tem interssão: {hasIntersection}')

### Thyroid

#### Carrega o bando de dados e Separa em treino e teste

In [None]:
thyroid = pd.read_csv('./data/thyroid.csv', delimiter=',')
thyroid = thyroid[['TSH', 'FTI', 'Class']]

Class = [1, 2]

X_train, X_test, y_train, y_test = test_train(thyroid, 'Class', Class[0], Class[1])

filtro = y_train == Class[0]

#### Plot das envoltorias

In [None]:
fig, ax = plt.subplots()
dotList, envoltorias = plotEnvoltorias(X_train, ax, filtro, Class, withNoise=False)
plt.show()

#### Analise de separabilidade

In [None]:
# Verifica se tem Interseção
endPointList, segmentsList = preProcessConvexHull(envoltorias[0], envoltorias[1])
hasIntersection = sweepLineIntersection(endPointList, segmentsList)

print(f'As envoltórias tem interssão: {hasIntersection}')


#### Classificação do Modelo

In [None]:
fig, ax = plt.subplots()
model, firstConvexHullIsLeft = plotModel(X_train, ax, filtro, Class, withNoise=False)

left = Class[0] if firstConvexHullIsLeft else Class[1]
right = Class[1] if firstConvexHullIsLeft else Class[0]

plt.show()

#### Analise das metricas

In [None]:
# Classificao Gerada Pelo Nosso Modelo
y_pred = classificacao(X_test, model=model, whoIsLeft=left, whoIsRight=right)

f1 = f1_score(y_test.values, y_pred, pos_label=Class[0])
accuracy = accuracy_score(y_test.values, y_pred) 
recall = recall_score(y_test.values, y_pred, pos_label=Class[0])
precision = precision_score(y_test.values, y_pred, pos_label=Class[0])

print(f'''\t Anilise das metricas
f1 score: {f1}
precision score: {precision} 
recall score: {recall}
accuracy_score: {accuracy}''')

### Phoneme


#### Carrega o banco de dados

In [None]:
phoneme = pd.read_csv('data/phoneme.csv', delimiter=',')
phoneme = phoneme[['Ao', 'Dcl', 'Class']]


Class = [0, 1]

X_train, X_test, y_train, y_test = test_train(phoneme, 'Class', Class[0], Class[1])

filtro = y_train == Class[0]

#### Plot das Envoltorias

In [None]:
fig, ax = plt.subplots()
dotList, envoltorias = plotEnvoltorias(X_train, ax, filtro, Class, withNoise=True)
plt.show()

#### Analise de Separabilidade

In [None]:
# Verifica se tem Interseção
endPointList, segmentsList = preProcessConvexHull(envoltorias[0], envoltorias[1])
hasIntersection = sweepLineIntersection(endPointList, segmentsList)

print(f'As envoltórias tem interssão: {"Sim" if hasIntersection else "Não"}')

### Breast Cancer Wisconsin

In [None]:
cancer = pd.read_csv('./data/wdbc.csv', delimiter=',')

aType = cancer[cancer['Class'] == 'M']
bType = cancer[cancer['Class'] == 'B']

col = (aType.shape)[1]

# for i in range(col):
#     for j in range(col):

#         fig, ax = plt.subplots()
#         plotClass(aType, ax, dotType='rx', envType='r-', compareCol1=i, compareCol2=j)
#         plotClass(bType, ax, dotType='g.', envType='g-', compareCol1=i, compareCol2=j)

#         plt.show()

### Ionosphere

In [None]:
ionosphere = pd.read_csv('./data/ionosphere.csv', delimiter=',')

aType = ionosphere[ionosphere['Class'] == 'b']
bType = ionosphere[ionosphere['Class'] == 'g']


# fig, ax = plt.subplots()
# a = 24
# b = 15

# plotClass(aType, ax, dotType='rx', envType='r-', compareCol1=a, compareCol2=b)
# plotClass(bType, ax, dotType='g.', envType='g-', compareCol1=a, compareCol2=b)

# plt.show()

aType[['Pulse24', 'Pulse27']]

### Coil2000

In [None]:
coil2000 = pd.read_csv('./data/coil2000.csv', delimiter=',')

aType = coil2000[coil2000['CARAVAN'] == 0]
bType = coil2000[coil2000['CARAVAN'] == 1]


fig, ax = plt.subplots()

# col = (aType.shape)[1]

# for i in range(col):
#     for j in range(col):

#         fig, ax = plt.subplots()
#         plotClass(aType, ax, dotType='rx', envType='r-', compareCol1=i, compareCol2=j)
#         plotClass(bType, ax, dotType='g.', envType='g-', compareCol1=i, compareCol2=j)
#         plt.show()


### movement_libras

In [None]:
movement_libras = pd.read_csv('./data/movement_libras.csv', delimiter=',')

aType = movement_libras[movement_libras['Class'] == 1]
bType = movement_libras[movement_libras['Class'] == 12]

# fig, ax = plt.subplots()

# col = (aType.shape)[1]
# col = (bType.shape)[1]

# for i in range(col):
#     for j in range(col2):

#         fig, ax = plt.subplots()
#         plotClass(aType, ax, dotType='rx', envType='r-', compareCol1=i, compareCol2=j)
#         plotClass(bType, ax, dotType='g.', envType='g-', compareCol1=i, compareCol2=j)
#         print(i, j)
#         plt.show()