In [None]:
import pandas as pd

url = "https://gist.githubusercontent.com/LuisFelipeFrancisco/ffea1691e4e7396a2bf5428403dccb9e/raw/01b49526fe15bced36b089410af6f1eb4492b655/hours.csv"

dados = pd.read_csv(url)
dados.head(3)

In [None]:
rename = {
    "unfinished" : "nao_finalizado",
    "expected_hours": "horas_esperadas",
    "price": "preco"
}

dados = dados.rename(columns = rename)
dados.head(3)

In [None]:
change = {
    1 : 0,
    0 : 1
}

dados['finalizado'] = dados.nao_finalizado.map(change)

dados.head()

In [None]:
dados.tail() # Retorna as 5 últimas linhas do DataFrame

In [None]:
%pip install seaborn # Instala a biblioteca seaborn para visualização de dados estatísticos

In [None]:
import seaborn as sns

sns.scatterplot(x="horas_esperadas", y="preco", data=dados) # Gráfico de dispersão entre as variáveis horas_esperadas e preco


In [None]:
sns.scatterplot(x="horas_esperadas", y="preco", hue="finalizado", data=dados) # hue vai colorir os pontos de acordo com a variável passada

In [None]:
sns.relplot(x="horas_esperadas", y="preco", col="finalizado", data=dados) # relplot é um gráfico de dispersão com mais de uma variável categórica

In [None]:
x = dados[['horas_esperadas', 'preco']]
y = dados['finalizado']

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

seed = 5

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    random_state = seed, 
                                                    test_size = 0.25, 
                                                    stratify = y)

print (f'Treinaremos com {len(train_x)} elementos e testaremos com {len(test_x)} elementos.')

model = LinearSVC()
model.fit(train_x, train_y)
predictions = model.predict(test_x)

accuracy = accuracy_score(test_y, predictions) * 100

print (f'A acurácia foi de {accuracy:.2f}%.')

Baseline

In [None]:
import numpy as np

baseline = np.ones(540)

accuracy = accuracy_score(test_y, baseline) * 100

print (f'A acurácia do baseline foi de {accuracy:.2f}%.')

In [None]:
sns.scatterplot(x="horas_esperadas", y="preco", hue=test_y, data=test_x)

In [None]:
x_min = test_x.horas_esperadas.min()
x_max = test_x.horas_esperadas.max()

y_min = test_x.preco.min()
y_max = test_x.preco.max()

print (x_min, x_max, y_min, y_max)

In [None]:
pixels = 100

x_axis = np.arange(x_min, x_max, (x_max - x_min) / pixels) # Cria um array com 100 elementos entre x_min e x_max
y_axis = np.arange(y_min, y_max, (y_max - y_min) / pixels) # Cria um array com 100 elementos entre y_min e y_max

In [None]:
xx, yy = np.meshgrid(x_axis, y_axis) # Cria uma matriz com os valores de x_axis e y_axis
concat = np.c_[xx.ravel(), yy.ravel()] # Concatena os valores de xx e yy em uma matriz
print (concat)

In [None]:
Z = model.predict(concat)
Z.shape

In [None]:
xx.shape

In [None]:
Z = model.predict(concat)
Z = Z.reshape(xx.shape)
Z

Decision Boundary

In [None]:
import matplotlib.pyplot as plt


plt.contourf(xx, yy, Z, alpha=0.3)

plt.scatter(test_x.horas_esperadas, test_x.preco, c=test_y, s=1)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

print (f'Treinaremos com {len(train_x)} elementos e testaremos com {len(test_x)} elementos.')

model = LinearSVC()
model.fit(train_x, train_y)
predictions = model.predict(test_x)

accuracy = accuracy_score(test_y, predictions) * 100

print (f'A acurácia foi de {accuracy:.2f}%.')

In [None]:
from sklearn.svm import SVC

SEED = 10
np.random.seed(SEED)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        test_size = 0.25,
                                                        stratify = y)

print (f'Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos.')

model = SVC(gamma='auto')
model.fit(treino_x, treino_y)
predictions = model.predict(teste_x)

accuracy = accuracy_score(teste_y, predictions) * 100

print (f'A acurácia foi de {accuracy:.2f}%.')

In [None]:
x_min = teste_x.horas_esperadas.min()
x_max = teste_x.horas_esperadas.max()
y_min = teste_x.preco.min()
y_max = teste_x.preco.max()

pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min) / pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min) / pixels)

xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]

Z = model.predict(pontos)
Z = Z.reshape(xx.shape)

import matplotlib.pyplot as plt

plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(teste_x.horas_esperadas, teste_x.preco, c=teste_y, s=1)


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

SEED = 10
np.random.seed(SEED)

raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        test_size = 0.25,
                                                        stratify = y)

print (f'Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos.')

scaler = StandardScaler()
scaler.fit(raw_treino_x)
treino_x = scaler.transform(raw_treino_x)
teste_x = scaler.transform(raw_teste_x)


model = SVC(gamma='auto')
model.fit(treino_x, treino_y)
predictions = model.predict(teste_x)

accuracy = accuracy_score(teste_y, predictions) * 100

print (f'A acurácia foi de {accuracy:.2f}%.')


data_x = teste_x[:, 0]
data_y = teste_x[:, 1]

x_min = data_x.min()
x_max = data_x.max()
y_min = data_y.min()
y_max = data_y.max()

pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min) / pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min) / pixels)

xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]

Z = model.predict(pontos)
Z = Z.reshape(xx.shape)

import matplotlib.pyplot as plt

plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(data_x, data_y, c=teste_y, s=1)
