# Testando em duas dimensões

In [None]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/1b7d5475863c15f484ac495bd70975cf/raw/16aff7a0aee67e7c100a2a48b676a2d2d142f646/projects.csv"
dados = pd.read_csv(uri)
dados.head()
# nao_finalizado > sites finalizados ou não
# horas_esperadas > horas para fazer o site
# preco > preço do site

In [None]:
a_renomear = {
    'expected_hours' : 'horas_esperadas',
    'price' : 'preco',
    'unfinished' : 'nao_finalizado'
}
dados = dados.rename(columns = a_renomear)
dados.head()

In [None]:
troca = {
    0 : 1,
    1 : 0
}
dados['finalizado'] = dados.nao_finalizado.map(troca)
dados.head()

In [None]:
dados.shape

In [None]:
import seaborn as sns

sns.scatterplot(x="horas_esperadas", y="preco", data=dados)

In [None]:
sns.scatterplot(x="horas_esperadas", y="preco", hue="finalizado", data=dados)


In [None]:
sns.relplot(x="horas_esperadas", y="preco", col="finalizado", data=dados)

In [None]:
sns.relplot(x="horas_esperadas", y="preco", hue="finalizado", col="finalizado", data=dados)


In [None]:
x = dados[['horas_esperadas', 'preco']]
y = dados['finalizado']

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20
# SEED = 5

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
import numpy as np
previsoes_do_marcelo = np.ones(540)
acuracia = accuracy_score(teste_y, previsoes_do_marcelo) * 100
print("A acurácia do Marcelo foi %.2f%%" % acuracia)

Ou seja, com esse algoritmo simples, tivemos um resultado de 52.59% - um valor muito próximo ao do algoritmo anterior, com uma diferença de apenas 1,67%. Isto é, ele é pouco melhor do que sempre prever 1.

O que chamamos de previsoes_do_marcelo, na verdade é a linha de base, ou baseline, e é o parâmetro que devemos superar quando construímos estimadores. Devemos ser muito melhores que as porcentagens apresentadas na baseline, e por isso é muito importante que ele exista ainda que teste sempre a mesma classe. Nas próximas aulas iremos analisar detalhadamente o que erramos para termos um acurácia tão baixa.

# Curva de decisão

In [None]:
sns.scatterplot(x="horas_esperadas", y="preco", hue=teste_y, data=teste_x)

In [None]:
x_min = teste_x.horas_esperadas.min()
x_max = teste_x.horas_esperadas.max()
y_min = teste_x.preco.min()
y_max = teste_x.preco.max()
print(x_min, x_max,y_min,y_max)

In [None]:
pixels = 100
np.arange(x_min, x_max, (x_max - x_min)/pixels)

In [None]:
pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min)/ pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min)/ pixels)
eixo_y

In [None]:
xx, yy = np.meshgrid(eixo_x, eixo_y)
xx

In [None]:
xx, yy = np.meshgrid(eixo_x, eixo_y)
yy

In [None]:
xx, yy = np.meshgrid(eixo_x, eixo_y)
xx.ravel()[:100]

In [None]:
xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]
pontos

In [None]:
Z = modelo.predict(pontos)

In [None]:
Z = modelo.predict(pontos)
Z.shape

In [None]:
xx.shape

In [None]:
Z = modelo.predict(pontos)
Z = Z.reshape(xx.shape)
Z

In [None]:
import matplotlib.pyplot as plt

plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y)

In [None]:
import matplotlib.pyplot as plt

plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)

In [None]:
# plt.contourf(xx, yy, Z, alpha=0.3)
# plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)

#### Nós poderíamos obter um novo resultado executando novamente o código com alterações no SED (a variância de ordenação), mas ainda assim teríamos um resultado nada satisfatório. No caso abaixo, por exemplo (SEED = 5), a curva de decisão (decision boundary) mostra que todos os projetos receberam a classificação 0.

In [None]:
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)

# Atualização do modelo SVC

In [None]:
from sklearn.svm import SVC

SEED = 5
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = SVC(gamma='auto')

In [None]:
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC(random_state=SEED)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
SEED = 5
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
from sklearn.svm import SVC

SEED = 5
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = SVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
x_min = teste_x.horas_esperadas.min()
x_max = teste_x.horas_esperadas.max()
y_min = teste_x.preco.min()
y_max = teste_x.preco.max()

pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min) / pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min) / pixels)

xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]

Z = modelo.predict(pontos)
Z = Z.reshape(xx.shape)

import matplotlib.pyplot as plt

plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)

# DECISION BOUNDARY

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

scaler = StandardScaler()
scaler.fit(raw_treino_x)
treino_x = scaler.transform(raw_treino_x)
teste_x = scaler.transform(raw_teste_x)

modelo = SVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
# x_min = teste_x.horas_esperadas.min()
# x_max = teste_x.horas_esperadas.max()
# y_min = teste_x.preco.min()
# y_max = teste_x.preco.max()

# pixels = 100
# eixo_x = np.arange(x_min, x_max, (x_max - x_min) / pixels)
# eixo_y = np.arange(y_min, y_max, (y_max - y_min) / pixels)

# xx, yy = np.meshgrid(eixo_x, eixo_y)
# pontos = np.c_[xx.ravel(), yy.ravel()]

# Z = modelo.predict(pontos)
# Z = Z.reshape(xx.shape)

# import matplotlib.pyplot as plt

# plt.contourf(xx, yy, Z, alpha=0.3)
# plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)

# DECISION BOUNDARY
# PLOT NÃO FUNCIONA

In [None]:
treino_x

In [None]:
raw_treino_x

In [None]:
data_x = teste_x[:,0]
data_y = teste_x[:,1]

In [None]:
data_x = teste_x[:,0]
data_y = teste_x[:,1]

x_min = data_x.min()
x_max = data_x.max()
y_min = data_y.min()
y_max = data_y.max()

pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min) / pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min) / pixels)

xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]

Z = modelo.predict(pontos)
Z = Z.reshape(xx.shape)

import matplotlib.pyplot as plt

plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(data_x, data_y, c=teste_y, s=1)