Este projeto vai usar um novo dataset que possui **quatro** colunas diferentes.
Cada item (ou cada linha) representa um usuário que acessou um determinado site. Neste site, temos três páginas diferentes: a "**home**" ("principal"); a "**how it works**" ("como_funciona"), que explica o funcionamento do site; e a "**contact**" ("contato"), para entrar em contato.
Cada uma dessas três columnas são as "**features**", que possuem o valor 1 ou 0, indicando se um usuário específico acessou essa página ou não, respectivamente.
Existe também uma quarta coluna ("**bought**"), indicando se esse usuário comprou o produto (1) ou não (0).

In [None]:
# importa a biblioteca Pandas e lê o dataset
import pandas as pd

uri = r"./csvs/tracking.csv"
dados = pd.read_csv(uri)

#lista os 5 primeiros registros (linhas) do dataset
dados.head()

In [None]:
# os nomes das colunas estão em inglês. Então vamos alterar para português
mapa = {
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}
dados = dados.rename(columns = mapa)

In [None]:
# separa as três primeiras colunas (as features)
x = dados[["principal","como_funciona","contato"]]
x.head()

In [None]:
# separa a última coluna (que será os "labels")
y = dados["comprou"]
y.head()

In [None]:
dados.shape

In [None]:
# precisamos separar os dados de treinamento dos dados de teste
# usaremos a proporção 75 para treinamento e 25 para teste.

treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print(f"Treinaremos com {len(treino_x)} elementos (registros) e testaremos com {len(teste_x)} elementos")

In [None]:
# vamos treinar o modelo
# e depois vamos calcular a taxa de acerto (i.e. acurácia)

from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi {acuracia:.2f}%")

# **Desafio**

Altere o algoritmo de ML para o de "Árvore de Decisão" usado na apresentação de Introdução ao ML.

Depois imprima a árvore de decisão


---



In [None]:
from sklearn import tree
from sklearn.metrics import accuracy_score

modelo = tree.DecisionTreeClassifier()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi {acuracia:.2f}%")

In [None]:
tree.plot_tree(modelo)