In [1]:
import pandas as pd

In [2]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)

In [3]:
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [4]:
# Renomeando as colunas da base:

mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}

dados.rename(columns = mapa, inplace=True)

In [5]:
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [6]:
# Separando a base entre variáveis explicativas e explicada.
x = dados[["principal", "como_funciona", "contato"]]
y = dados["comprou"]

In [7]:
# Separando a base em dados de treino e teste:
dados.shape # Quantas linhas e colunas a base tem?

(99, 4)

In [8]:
# Como vai ser essa separação da base? Vamos propor 25% para teste e 75% para treino...
treino_x = x[:75]
treino_x.shape

(75, 3)

In [9]:
treino_y = y[:75]
treino_y.shape

(75,)

In [10]:
teste_x = x[75:]
teste_x.shape

(24, 3)

In [11]:
teste_y = y[75:]
teste_y.shape

(24,)

In [12]:
print("Treinaremos com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos.


In [13]:
from sklearn.svm import LinearSVC

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC()

In [14]:
previsoes = modelo.predict(teste_x)

In [15]:
from sklearn.metrics import accuracy_score

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%." % acuracia)

A acurácia foi 95.83%.


In [16]:
# Separação dos dados de treino e teste no próprio pacote Sklearn:
from sklearn.model_selection import train_test_split

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

Treinaremos com 74 elementos e testaremos com 25 elementos.


In [17]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20 # Uma forma de tirar a aleatoriedade da separação da base em dados de treino e teste é o uso 
          # da semente e do random_state na função

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, random_state=SEED)
print("Treinaremos com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%." % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos.
A acurácia foi 96.00%.


In [18]:
# Proporções diferentes de classes (comprou, não comprou) na separação da base: 
treino_y.value_counts(normalize=True)

0    0.635135
1    0.364865
Name: comprou, dtype: float64

In [19]:
teste_y.value_counts(normalize=True)

0    0.76
1    0.24
Name: comprou, dtype: float64

In [20]:
# Mantendo a proporção equivalente na separação da base (stratify):
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20 

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, random_state=SEED, stratify=y)
print("Treinaremos com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%." % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos.
A acurácia foi 96.00%.


In [21]:
treino_y.value_counts(normalize=True)

0    0.662162
1    0.337838
Name: comprou, dtype: float64

In [22]:
teste_y.value_counts(normalize=True)

0    0.68
1    0.32
Name: comprou, dtype: float64