<a href="https://colab.research.google.com/github/jonnes-nascimento/machine_learning/blob/master/Introdu%C3%A7%C3%A3o_a_Machine_Learning_e_Classifica%C3%A7%C3%A3o_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
# importa a biblioteca pandas e le o arquivo CSV disponibilizado na URI

import pandas as pd

uri='https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(uri)


In [15]:
# renomeia as colunas para um melhor entendimento (opcional)

mapa = {
    'home' : 'principal',
    'how_it_works' : 'como_funciona',
    'contact' : 'contato',
    'bought' : 'comprou'
}

dados = dados.rename(columns = mapa)

print(dados.shape)

(99, 4)


In [4]:
# como estamos lidando com uma base de dados unica, devemos separar os dados que serao usados como features e os dados usados resultados

x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

In [6]:
# como preciso de dados para testar o modelo, vou separar os dados que tenho em, aproximadamente, 25% para teste 
# e 75% para treino. Caso eu treinasse meu modelo com 100% dos dados, nao teria mais dados para testar e, como o 
# modelo ja conheceria 100% dos dados, qualquer terte que eu fizesse com algum desses dados, seria enviesado.

treino_x = x[:75]
treino_y = y[:75]

teste_x = x[75:]
teste_y = y[75:]

print("Treinaremos com %d elementos e testaremos %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos 24 elementos


In [13]:
# importa o modelo LinearSVC do sklearn (svm = support vector machine; svc = support vector classification)
# e treina com os dados obtidos. Apos isso, ja podemos fazer nossas previsoes com os itens de teste

from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi de %.2f%%" % acuracia)

A acurácia foi de 95.83%


# Utilizando o train_test_split e definindo um random seed

In [23]:
# Executa todos os passos ja realizados acima mas utilizando o metodo train_test_split para separar os modelos de teste e treino.
# Como o algoritmo do train_test_split utiliza um gerador de numeros aleatorios para fazer a separacao dos itens dos modelos,
# precisamos definir um seed e passar esse seed para o metodo train_test_split. Com isso, se garante a mesma separacao em todas as execuções.

from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size=0.25)

print("Treinaremos com %d elementos e testaremos %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acurácia foi de %2.f%%" % acuracia)

Treinaremos com 74 elementos e testaremos 25 elementos
A acurácia foi de 96%


# Análise da estratificação dos dados

In [31]:
# Analisando a estratificação dos dados, verificamos que temos um problema: a quantidade de pessoas que não compraram, nos dados de
# treino e teste são muito discrepante. Isso pode trazer um problema pois o modelo pode ser ter aprendido que as pessoas não compram (por
# não ter recebido ensinamento de que elas compram) e sempre predizer dessa forma.

treino_y.value_counts()

print("No modelo de treino, %.2f pessoas não compraram para cada 1 que comprou" % (47/27))

teste_y.value_counts()

print("No modelo de testes, %.2f pessoas não compraram para cada 1 que comprou" % (19/6))

No modelo de treino, 1.74 pessoas não compraram para cada 1 que comprou
No modelo de testes, 3.17 pessoas não compraram para cada 1 que comprou


# Utilizando o parâmetro stratify para estratificar os dados de forma proporcional

In [33]:
# o metodo train_test_split recebe os dados y no parametro stratify para fazer a proporcionalidade na separacao dos dados de treino e teste

from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state=SEED, 
                                                        test_size=0.25,
                                                        stratify = y)

print("Treinaremos com %d elementos e testaremos %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acurácia foi de %2.f%%" % acuracia)

Treinaremos com 74 elementos e testaremos 25 elementos
A acurácia foi de 96%


In [39]:
# fazendo uma nova análise dos dados de treino e testes, podemos ver que a proporção (2 para 1) se mantém entre os dois conjuntos de dados

treino_y.value_counts()

print("No modelo de treino, %.2f pessoas não compraram para cada 1 que comprou" % (49/25))

teste_y.value_counts()

print("No modelo de testes, %.2f pessoas não compraram para cada 1 que comprou" % (17/8))

No modelo de treino, 1.96 pessoas não compraram para cada 1 que comprou
No modelo de testes, 2.12 pessoas não compraram para cada 1 que comprou
