# Aula 2

Analisando tabelas (csv), primeiro lemos e depois imprimimos só os primeiros itens para ter uma referência

In [1]:
import pandas as pd

uri="https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


Podemos renomear as colunas Para facilitar o trabalho, usando o "rename" do Pandas

In [2]:
mapa = {
    "home": "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}

dados = dados.rename(columns = mapa)

#### Organização do documento

Nas 3 primeiras colunas temos o feature (O x) eles que irão nos dizer se o usuário comprou ou não o item (A 4ª coluna representa se ela comprou ou não, 0 -> não comprou, 1 -> comprou) (O y)

Selecionamos o que vamos querer dos dados, por serem vários itens, tem que se passar as colunas por um array do python

In [3]:
x = dados[["principal", "como_funciona", "contato"]]
y = dados["comprou"]

Quando se pensa em treinar, temos que separar dados de treinos e testes, pois precisamos ter base para comparar resultados<br>
Selecionamos a quantidade de elementos <br>
Para verificar a quantidade de elementos usa <code>.shape</code>

In [4]:
treino_x = x[:75] # 0 - 74
treino_y = y[:75]
teste_x  = x[75:]
teste_y  = y[75:]

### Treinando o modelo com o SKLearn

In [5]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Verificando acertos

In [6]:
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print ("%2.f%%" % acuracia)

96%


# Segunda parte

## Separando os dados de teste de uma maneira mais efetiva

Usando split do treino do SK, ele separa a porcentagem que quer treinar em colunas, passando os parametros, eles recebem o valor
##### ELE SEPARA OS DADOS ALEATORIAMENTE

Para evitar essa separação aleatória definimos uma semente, referência, para que a separação seja sempre a mesma durante a execução

In [7]:
from sklearn.model_selection import train_test_split 

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)

In [8]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print ("%2.f%%" % acuracia)

96%


Para ter uma separação de dados (quantidade de termos repetidos)

In [9]:
teste_y.value_counts()

0    19
1     6
Name: comprou, dtype: int64

In [10]:
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

Por se obter uma distorção grande de pessoas que compraram e não, podemos separar a análise utilizando uma referência, para que se tenha um dado médio. Para isso divimos com a referência qualquer usando o parâmetro <code>stratify</code>

In [11]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split 

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state = SEED, 
                                                        test_size = 0.25,
                                                        stratify = y)

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print ("%2.f%%" % acuracia)

96%


Agora obtemos uma divisão mais proporcional

In [12]:
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [13]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64