# `Alura`
## `Formação Machine Learning`
## `Curso 01 - Machine Learning: Classificação com SKLearn`
---
## `Projeto 02: Tracking`

In [1]:
import pandas as pd 
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt 

In [2]:
dados = pd.read_csv('datasets/tracking.csv')
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [3]:
mapa = {
       "home": "principal",
       "how_it_works": "como_funciona",
       "contact": "contato",
       "bought": "comprou"}
dados = dados.rename(columns=mapa)
dados

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0
...,...,...,...,...
94,0,0,1,0
95,1,1,1,1
96,0,0,1,0
97,0,1,0,0


In [4]:
X = dados[["principal", "como_funciona", "contato"]]
X
y = dados["comprou"]
y

0     0
1     0
2     0
3     0
4     0
     ..
94    0
95    1
96    0
97    0
98    0
Name: comprou, Length: 99, dtype: int64

In [5]:
dados.shape

(99, 4)

In [6]:
treino_X = X[:75]
treino_y = y[:75]

teste_X = X[75:]
teste_y = y[75:]

In [7]:
treino_X.shape, treino_y.shape

((75, 3), (75,))

In [8]:
teste_X.shape, teste_y.shape

((24, 3), (24,))

In [9]:
print(f'Treinaremos com {len(treino_X)} elementos e testaremos com {len(teste_X)} elementos')

Treinaremos com 75 elementos e testaremos com 24 elementos


In [10]:
from sklearn.svm import LinearSVC

In [11]:
model = LinearSVC()
model.fit(treino_X, treino_y)

In [12]:
previsoes = model.predict(teste_X)

In [13]:
teste_y

75    0
76    0
77    0
78    0
79    1
80    0
81    0
82    0
83    1
84    1
85    0
86    0
87    0
88    0
89    1
90    1
91    0
92    0
93    0
94    0
95    1
96    0
97    0
98    0
Name: comprou, dtype: int64

In [14]:
corretos = (previsoes == teste_y).sum()
corretos

23

In [15]:
from sklearn.metrics import accuracy_score
acuracia = accuracy_score(teste_y, previsoes)
print(f'Acurácia: {acuracia * 100:.2f}%')

Acurácia: 95.83%


---
### Usando train_test_split


In [16]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_X, teste_X, treino_y, teste_y = train_test_split(X, y, test_size=0.25)

model = LinearSVC()
model.fit(treino_X, treino_y)

previsoes = model.predict(teste_X)
corretos = (previsoes == teste_y).sum()
acuracia = accuracy_score(teste_y, previsoes)
print(f'Acurácia: {acuracia * 100:.2f}%')

Acurácia: 100.00%


### Por que os resultados de acurácia são diferentes a cada vez que executo o código?
Utilizando o train_test_split os resultados de acurácia quase sempre serão diferentes.
Isso acontece porque a separação dos dados, utilizando este algoritmo, são aleatórios. Logo, todas as vezes que o código for executado, os dados de treino e teste serão diferentes. Isso pode ser corrigido com o `Random State`. 
<br><br>Veja no exemplo abaixo:

In [17]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_X, teste_X, treino_y, teste_y = train_test_split(X, y, test_size=0.25, random_state=SEED)

model = LinearSVC()
model.fit(treino_X, treino_y)

previsoes = model.predict(teste_X)
corretos = (previsoes == teste_y).sum()
acuracia = accuracy_score(teste_y, previsoes)
print(f'Acurácia: {acuracia * 100:.2f}%')

Acurácia: 96.00%


In [18]:
treino_y.value_counts()

comprou
0    47
1    27
Name: count, dtype: int64

In [19]:
teste_y.value_counts()

comprou
0    19
1     6
Name: count, dtype: int64

Repara que nos dados de treino, a proporção de quem comprou para quem não comprou (47/27) está totalmente desproporcional à proporção dos dados de teste (19/6). Vamos corrigir isso!

In [20]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_X, teste_X, treino_y, teste_y = train_test_split(X, y, test_size=0.25, random_state=SEED, stratify=y)

# stratify = separar proporcionalmente de acordo com uma variável, no nosso caso, o y

model = LinearSVC()
model.fit(treino_X, treino_y)

previsoes = model.predict(teste_X)
corretos = (previsoes == teste_y).sum()
acuracia = accuracy_score(teste_y, previsoes)
print(f'Acurácia: {acuracia * 100:.2f}%')

Acurácia: 96.00%


In [21]:
treino_y.value_counts()

comprou
0    49
1    25
Name: count, dtype: int64

In [22]:
teste_y.value_counts()

comprou
0    17
1     8
Name: count, dtype: int64