# Lendo dados da internet e manipulando os mesmos

In [None]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head()
# 0 == acessou e 1 == não acessou
# 0 == não comprou e 1 == não comprou
# home > site principal
# how_it_works > site como funciona
# contact > site de contato
# bought > comprou produto

In [None]:
dados.shape[0]

In [None]:
dados.shape[1]

In [None]:
dados.describe()

In [None]:
list(dados.columns)

In [None]:
dados[['home', 'how_it_works', 'contact']].head(5)

In [None]:
x = dados[["home","how_it_works","contact"]]
y = dados[["bought"]]
y.head(5)

In [None]:
mapa = { 
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}
dados = dados.rename(columns = mapa)
dados.head()

In [None]:
x = dados[["principal","como_funciona","contato"]]
y = dados[["comprou"]]

x.head()

In [None]:
y.head()

In [None]:
dados.shape

In [None]:
# assim separamos o treino dos testes
treino_x = x[:75]
treino_x.shape

In [None]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]
teste_y.shape

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

In [None]:
from sklearn.svm import LinearSVC

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Por meio desse exemplo, tivemos um contato mais realista com tratamentos de algorítimos de machine learning, uma vez que importamos a fonte de dados e realizamos os tratamentos necessários, renomeando colunas e separando os dados de treino e teste até que finalmente executamos o modelo.

# Estratificando splits

In [None]:
# assim separamos o treino do teste
from sklearn.model_selection import train_test_split

train_test_split(x, y, test_size =0.25)

In [None]:
from sklearn.model_selection import train_test_split

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size =0.25)
print(treino_x.shape)
print(teste_x.shape)

#### abaixo usando biblioteca para separar treino e teste

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
# assim definimos um número inicial de números aleatórios, SEED é a semente inicial, assim retiramos a aleatoriedade da separação de treinos e testes
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
treino_y.value_counts()

In [None]:
teste_y.value_counts()

In [None]:
# assim estratificamos pelo y

from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25, stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

In [None]:
treino_y.value_counts()

In [None]:
teste_y.value_counts()

#### acima temos uma proporção de 2 pra 1 no treino e no teste