# Introdução a Machine Learning e Conceitos dos métodos de Classificação - 2

Aqui, queremos realizar uma previsão, se determinada pessoal irá comprar ou não um ímovel

In [None]:
import pandas as pd

# As três primeiras colunas são nossas Features, Características, e a última é nosso Target (o que vamos classifica-lo)

arq = "/content/drive/MyDrive/projetos/projetos-de-machine-learning/tracking.csv"
dados = pd.read_csv(arq)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [None]:
mapa = { 
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}

dados = dados.rename(columns = mapa)

In [None]:
x = dados[["principal", "como_funciona", "contato"]]
y = dados["comprou"]
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

Precisamos sempre separar os dados em conjunto de treino e de teste, para que o modelo não fique overfitado, isso é "viciado", e já saiba todas as respostas. Isso é ruim que porque se passarmos algo fora do que já apresentamos para ele, o modelo será incapaz de classifica-lo.

In [None]:
dados.shape

(99, 4)

In [None]:
# Dividindo os dados de treino e teste, como mencionado anteriormente
treino_x = x[: 75]
treino_y = y[: 75]
teste_x = x[75:]
teste_y = y[75:]

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x,), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f" % acuracia, "%")

A acurácia foi 95.83 %


------------------------------------------------------
Abaixo, iremos refazer a parte de separação de dados em treino e teste, de uma forma muito mais inteligente, visto que utilizaremos já uma biblioteca criada para isso, ao invés de termos que calcular sempre a mão, como feito anteriormente


In [None]:
from sklearn.model_selection import train_test_split

# Esse número SEED é utilizado para definir a ordem dos números aleatórios
# isso é feito para que sempre que ele rode, de o mesmo valor de acuáracia, e não cada hora um valor diferente
# justamente por termos definido por meio do parâmetro rando_state a ordem dos números escolhidos, por meio da variável SEED

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x,), len(teste_x)))

Treinaremos com 74 elementos e testaremos com 25 elementos


In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f" % acuracia, "%")

A acurácia foi 96.00 %


In [None]:
treino_y.value_counts()
# 0 não comprou, 1 comprou

# 2 pessoas não compram a cada 1 pessoa que comprou

0    47
1    27
Name: comprou, dtype: int64

In [None]:
teste_y.value_counts()

# 3 pessoas não compram a cada 1 pessoa que comprou

0    19
1     6
Name: comprou, dtype: int64

Como visto acima, a proporção do nosso target está um pouco diferente para o modelo de treino e o modelo de teste. Portanto agora iremos incluir um parâmetro a mais na fórmula de train_test_split, chamada stratify. Ela é super importante e utilizada, para que a proporção de target que estamos obtendo no treino, seja parecida com a proporção de target que estamos tendo no teste. Isso faz para que o modelo sempre olhe para o todo, e não fique viciado em dar apenas uma resposta a todo momento.

In [None]:
from sklearn.model_selection import train_test_split

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25,
                                                        stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x,), len(teste_x)))

Treinaremos com 74 elementos e testaremos com 25 elementos


In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f" % acuracia, "%")

A acurácia foi 96.00 %


In [None]:
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [None]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64

In [13]:
import pandas as pd
import numpy as np

# Criar um exemplo de dataframe com intervalos quebrados
date_rng = pd.date_range(start='1/1/2020', end='1/10/2020', freq='2H')
df = pd.DataFrame(date_rng, columns=['date'])
df['data'] = np.random.randint(0,100,size=(len(date_rng)))

df.head(30)

Unnamed: 0,date,data
0,2020-01-01 00:00:00,31
1,2020-01-01 02:00:00,80
2,2020-01-01 04:00:00,33
3,2020-01-01 06:00:00,12
4,2020-01-01 08:00:00,31
5,2020-01-01 10:00:00,15
6,2020-01-01 12:00:00,66
7,2020-01-01 14:00:00,12
8,2020-01-01 16:00:00,64
9,2020-01-01 18:00:00,79
