Exploração de dados com Pandas<br>
Visualização de dados com Seaborn <br>
Classificação dos dados com SKLearn

### Aprendizado supervisionado
O aprendizado supervisionado é uma abordagem de inteligência artificial onde um modelo é treinado com um conjunto de dados rotulados, ou seja, os dados de entrada já possuem as classes definidas. O objetivo é ensinar a máquina a reconhecer padrões e fazer previsões sobre novos dados.

### Classificação binária
A classificação binária é um tipo específico de problema de aprendizado supervisionado, onde existem apenas duas classes possíveis. Exemplos incluem classificar e-mails como "spam" ou "não spam" e identificar se um animal é um porco ou um cachorro. Nesse contexto, o modelo aprende a partir das características (features) dos dados para estimar a probabilidade de cada classe e fazer previsões.


##Exemplo simples de treinamento de algoritmo
Criar um modelo capaz de identificar se o "animal misterioso" é um porco ou um cachorro.


In [2]:
# features [1 sim, 0 nao]
# pelo longo?
# perna curta?
# faz auau?

porco1 = [0, 1, 0]
porco2 = [0, 1, 1]
porco3 = [1, 1, 0]

cachorro1 = [0, 1, 1]
cachorro2 = [1, 0, 1]
cachorro3 = [1, 1, 1]

# 1 -> porco, 0 -> cachorro
dados = [porco1, porco2, porco3, cachorro1, cachorro2, cachorro3]
classes = [1, 1, 1, 0, 0, 0]

In [3]:
dados

[[0, 1, 0], [0, 1, 1], [1, 1, 0], [0, 1, 1], [1, 0, 1], [1, 1, 1]]

In [4]:
#definindo um estimador com um modelo de máquina com algoritmos matemáticos que nunca calculou nada

from sklearn.svm import LinearSVC

modelo = LinearSVC()
modelo.fit(dados, classes)

In [5]:
animal_misterioso = [0, 1, 1]
previsao = modelo.predict([animal_misterioso])
previsao

array([0])

In [6]:
misterio1 = [1, 1, 1]
misterio2 = [1, 1, 0]
misterio3 = [0, 1, 1]

testes = [misterio1, misterio2, misterio3]
previsoes = modelo.predict(testes)
previsoes

array([0, 1, 0])

In [7]:
testes_classes = [0, 1, 1]

In [8]:
previsoes == testes_classes

array([ True,  True, False])

In [11]:
corretos = (previsoes == testes_classes).sum() #verdadeiros = 1, falsos = 0
total = len(testes)
taxa_de_acertos = corretos / total*100

print(f"Acurácia: {taxa_de_acertos:.2f}%")

Acurácia: 66.67%


In [12]:
from sklearn.metrics import accuracy_score

In [14]:
taxa_de_acertos = accuracy_score(testes_classes, previsoes)*100
print(f"Acurácia: {taxa_de_acertos:.2f}%")

Acurácia: 66.67%


Geralmente os dados usados para treino são chamados de "treino_x" e as classes que são retornadas são chamadas de "treino_y". Dessa forma:
- Dados -> treino_x
- Classes -> treino_y

###Exemplo de visitas em um site

In [38]:
import pandas as pd

In [39]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/b9dd8e4b62b9e22ebcb9c8e89c271de4/raw/c69ec4b708fba03c445397b6a361db4345c83d7a/tracking.csv"

In [48]:
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,inicial,palestras,contato,comprou,patrocinio
0,1,1,0,0,0
1,1,1,0,0,0
2,1,1,0,0,0
3,1,1,0,0,0
4,1,1,0,0,0


In [49]:
y = dados['comprou']
y.head()

Unnamed: 0,comprou
0,0
1,0
2,0
3,0
4,0


In [50]:
x = dados[["inicial", "palestras", "contato",	"patrocinio"]]
x.head()

Unnamed: 0,inicial,palestras,contato,patrocinio
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [56]:
dados.shape

(99, 5)

In [57]:
from sklearn.svm import LinearSVC

In [58]:
treino_x = x[:75]
treino_y = y[:75]

teste_x = x[75:]
teste_y = y[75:]

print(f"Treinaremos com {len(treino_x)} elementos")
print(f"Testaremos com {len(teste_x)} elementos")

Treinaremos com 75 elementos
Testaremos com 24 elementos


In [59]:
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

A acurácia foi de 95.83%


###Usando a biblioteca para separar treino e teste

In [60]:
from sklearn.model_selection import train_test_split

In [82]:
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x,y, random_state = SEED, stratify=y) #stratify torna proporcional
print(f"Treinaremos com {len(treino_x)} elementos")
print(f"Testaremos com {len(teste_x)} elementos")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

Treinaremos com 74 elementos
Testaremos com 25 elementos
A acurácia foi de 96.00%


In [83]:
treino_y.value_counts()

Unnamed: 0_level_0,count
comprou,Unnamed: 1_level_1
0,49
1,25


In [84]:
teste_y.value_counts()


Unnamed: 0_level_0,count
comprou,Unnamed: 1_level_1
0,17
1,8


####Metodos de divisão
- **Aleatória**: consiste em separar os dados de forma totalmente randômica. Isso significa que cada dado tem a mesma chance de ser incluído no conjunto de treino ou no conjunto de teste, sem qualquer consideração adicional. Esse método é útil quando os dados são balanceados, ou seja, quando as classes no conjunto de dados estão representadas de forma proporcional.

- **Estratificada**: garante que as proporções das diferentes classes sejam mantidas nos conjuntos de treino e teste. Por exemplo, se 30% dos seus e-mails são spam, 30% dos dados de treino e de teste também deverão ser spam. Esse método é especialmente importante em problemas de classificação com classes desbalanceadas. Manter as proporções das classes ajuda a garantir que o modelo seja treinado e avaliado de forma justa, evitando cenários onde, por exemplo, o modelo vê muito mais exemplos de uma classe do que da outra.