Primeiro eu vou importar um SDV de dados e definir os dados de treinamento e as label

In [8]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from utils import UtilsDescriptions

url = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'

data = pd.read_csv(url)
data_x = data[['home', 'how_it_works', 'contact']]
data_y = data['bought']


### Separando os dados

Agora vamos separar os dados para trabalharmos com a previsao, separando em 25 / 75
isso significa que 75% dos dados vão ser usado com treino e o restante (25%) serão os dados que vamos tentar prever.

exemplo:
    Supondo que nossa lista tenha 99 linhas, a funcao train_test_split
    faz o equivalente a isso:

````python
def train_test_split(x, y, test_size):
    train_x = data_x[:75]
    train_y = data_y[:75]
    test_x = data_x[75:]
    test_y = data_y[75:]

    return (train_x , test_x, train_y, test_y )
````

In [9]:


train_x , test_x, train_y, test_y = train_test_split(
    data_x, 
    data_y, 
    test_size=0.25, # 25%
)



### Fator de aleatoriedade na separação

é importante lembrar que por padrão, essa separação é aleatórios. por isso definimos um "padrão de aleatoriedade" para opininar nessa aleatoriedade e termos uma acuracia mais replicável.

In [10]:
SEED = 20
train_x , test_x, train_y, test_y = train_test_split(
    data_x, 
    data_y, 
    random_state=SEED,  
    test_size=0.25,
)


## Fator de proporcionalidade

Precisamos ter em mente que se os dados de treino não forem proporcionais aos dados que serão testados, os valores poderão ser comprometidos. Veja o exemplo:

In [11]:
log = UtilsDescriptions()


SEED = 20
_ , _ , train_y, test_y  = train_test_split(
    data_x, 
    data_y, 
    random_state=SEED,  
    test_size=0.25,
)

log.represent_to_proportions(train_y,test_y)


A proporcão do treino é de 2 para 1
Equnadom  a proporção do teste é de 3 para 1


Perceba então que as proporções não batem. 2/1 e 3/1. 
Então, para trabalhar com os dois dados mais proporcionais, usamos o atributo *stratify* que vai extratificar os dados de x em relação y

In [12]:
log = UtilsDescriptions()

SEED = 20
train_x , test_x, train_y, test_y = train_test_split(
    data_x, 
    data_y, 
    random_state=SEED,  
    test_size=0.25,
    stratify=data_y
)

log.represent_to_proportions(train_y,test_y)

A proporcão do treino é de 2 para 1
Equnadom  a proporção do teste é de 2 para 1


Perceba que agora, tanto os dados de teste como o dados de treino, foram ordenados de forma que ambos estejam nas proporcoes de 2/1

Agora vamos fazer o treinamento

In [13]:


model = LinearSVC()
model.fit(train_x, train_y)
predictions = model.predict(test_x)
accuracy_score = accuracy_score(
    test_y,
    predictions
) * 100

print(predictions)
print("hit_rate %.2f" % accuracy_score)


[0 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 1 0 1]
hit_rate 96.00


Fonte de aprendizagem: [https://www.alura.com.br/?utm_term=&utm_campaign=%5Bfundo%5D+teste+performance+max&utm_source=adwords&utm_medium=ppc&hsa_acc=7722097246&hsa_cam=18663119163&hsa_grp=&hsa_ad=&hsa_src=x&hsa_tgt=&hsa_kw=&hsa_mt=&hsa_net=adwords&hsa_ver=3&gclid=Cj0KCQjwteOaBhDuARIsADBqReg4_THqhgJIZ6CRucR2ZYWbr8zA8MxTFRfNB3UGa8_UBEEwe7zRwnoaAvMSEALw_wcB](http://https://www.alura.com.br/?utm_term=&utm_campaign=%5Bfundo%5D+teste+performance+max&utm_source=adwords&utm_medium=ppc&hsa_acc=7722097246&hsa_cam=18663119163&hsa_grp=&hsa_ad=&hsa_src=x&hsa_tgt=&hsa_kw=&hsa_mt=&hsa_net=adwords&hsa_ver=3&gclid=Cj0KCQjwteOaBhDuARIsADBqReg4_THqhgJIZ6CRucR2ZYWbr8zA8MxTFRfNB3UGa8_UBEEwe7zRwnoaAvMSEALw_wcB "https://www.alura.com.br/?utm_term=&utm_campaign=%5Bfundo%5D+teste+performance+max&utm_source=adwords&utm_medium=ppc&hsa_acc=7722097246&hsa_cam=18663119163&hsa_grp=&hsa_ad=&hsa_src=x&hsa_tgt=&hsa_kw=&hsa_mt=&hsa_net=adwords&hsa_ver=3&gclid=Cj0KCQjwteOaBhDuARIsADBqReg4_THqhgJIZ6CRucR2ZYWbr8zA8MxTFRfNB3UGa8_UBEEwe7zRwnoaAvMSEALw_wcB")