In [35]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 


from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [36]:
# Importando a base de Dados

uri='https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'

dados = pd.read_csv(uri)

In [37]:
# Verificando os ultimos dados 
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [38]:
# Verificando tipos de Dados
#  - Todos são do tipo numérico
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   home          99 non-null     int64
 1   how_it_works  99 non-null     int64
 2   contact       99 non-null     int64
 3   bought        99 non-null     int64
dtypes: int64(4)
memory usage: 3.2 KB


In [39]:
# Verificando a existencia de dados nulos
dados.isnull().sum()

home            0
how_it_works    0
contact         0
bought          0
dtype: int64

In [40]:
# Nomes da colunas que quero definir
colunas = {
    'home':'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'

}

In [41]:
# Renomeando as colunas do DataFrame
dados = dados.rename(columns=colunas)
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [42]:
# Separando dados entre preditores e variável alvo
x = dados.drop(['comprou'], axis = 1)
y = dados['comprou']

In [78]:
# Separando os dados entre treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size= .50, random_state= 20 ,stratify= y)

In [79]:
# Verificando dimensões dos dados de treino
x_train.shape, y_train.shape

((49, 3), (49,))

In [80]:
# Verificando dimensões dos dados de teste
x_test.shape, y_test.shape

((50, 3), (50,))

In [81]:
# Instanciando a classe do Modelo
svm = LinearSVC()

In [82]:
# Fitando o Modelo
svm.fit(x_train, y_train)

In [83]:
# Predições do Modelo
previsoes = svm.predict(x_test)

In [84]:
# Verificando Acurácia do Modelo
accuracy_score(y_test,previsoes) * 100

98.0

In [85]:
confusion_matrix(y_test, previsoes)

array([[33,  0],
       [ 1, 16]])

### **Observações**

É muito importante que a proporção entre os dados de treino e teste sejam parecidas, pois caso exista uma desbalanceamente, podemos esta colocando em risco a performance do modelo com um todo.

Para Resolver isso, basta utilizar o método <font color = 'red'><strong>stratify</strong></font> do train_test_split

In [86]:
y_train.value_counts()

0    33
1    16
Name: comprou, dtype: int64

In [87]:
y_train.value_counts()[0] / y_train.value_counts()[1]

2.0625

---

In [88]:
y_test.value_counts()

0    33
1    17
Name: comprou, dtype: int64

In [89]:
y_test.value_counts()[0] / y_test.value_counts()[1]

1.9411764705882353