# 0 - Experimento

Neste projeto, vamos criar um modelo de classificação utilizando Support Vector Classifier (SVC) linear para distinguir entre homens e mulheres com base em características específicas.

O objetivo é treinar o modelo para reconhecer padrões nos dados que nos permitirão fazer previsões sobre o gênero de uma pessoa com base nessas características. Para isso, iremos alimentar o modelo com um conjunto de dados que contém exemplos de homens e mulheres, juntamente com as características associadas a cada um.

# 1 - Criando Data-set

In [4]:
# features / características 

# Nosso modelo deve prever se de acordo com as features a classe pertence a 
# um homem ou uma mulher 
# É importante lembrar que estes dados podem não refletir a realidade, servem apenas para estudo.

# Features (x) = (1 = True e 0 = False)

# 1 - Possui cabelo longo ?
# 2 - Utiliza maquiagem ?
# 3 - Curte futebol ?
# 4 - Gosta de ler ?
# 5 - Assisti novelas e series ?

Homem1 = [0, 0, 1, 0, 1]
Homem2 = [0, 0, 1, 0, 0]
Homem3 = [1, 0, 0, 1, 0]

Mulher1 = [1, 1, 0, 1, 1]
Mulher2 = [1, 0, 0, 1, 1]
Mulher3 = [1, 1, 1, 1, 1]



# 2 - Definindo bases para treino e teste

In [20]:
# Definindo dataset de treino e teste

treino_x = [Homem1, Homem2, Homem3, Mulher1, Mulher2, Mulher3]

# classe (y) = (1 = Homem ou 0 = Mulher)

# Nesta etapa devo dar ao modelo supervisionado a instrução, 
# ou seja de acordo com os dados que fornecemos como característica
# devo instruir se pertece a uma mulher ou a um Homem.

treino_y = [ 1, 1, 1, 0, 0, 0] #Estes dados podemos chamar de labels ou etiquetas

# treino_y = [ 1(Homem), 1(Homem), 1(Homem), 0(Mulher), 0(Mulher), 0(Mulher)]

# Para facilitar no aprendizado, estamos dizendo que os dados 
# de treino X são as característica e  dados de treino y é a classe que 
# característica pertence
#X = Dados caractisticos 
#Y = Classes

De forma ilustrativa, declaramos os dados da seguinte forma:

![image.png](attachment:image.png)

# 3 - Treinar Modelo

In [12]:
# Para começar a treinar nosso modelo de ML Devemos importar a 
# classe LinearSVC do módulo svm que pertence ao pacote sklearn

# model.fit(1 - Devemos sempre fornecer uma lista com os dados caracteristicos, 
# 2 - Devemos sempre fornecer uma lista com as classes que estes dados 
# pertencem para treinarmos o modelo de forma correta.)

# LinearSVC é um classificador de máquina de vetores de suporte linear, 
# que é uma técnica de aprendizado de máquina para classificação de dados.

from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(treino_x, treino_y)

# Após a execução deste comando podemos considerar que nosso modelo está
# treinado e podemos usar a previsão

# 4 - Previsões

In [42]:
#Primeira previsão

# O comando model.predict() é usado para fazer previsões usando um modelo treinado.

# Dentro do comando predict a variável precisa estar entre parenteses e colchetes, 
# porque o predict precisa receber um array com um item e este 
# item contem as features que temos e a apartir dela que queremos prever
# se pertence a um homem ou mulher.

pessoa_misteriosa = [0, 0, 1, 0, 1] 
# Propositalmente coloquei as features de homem, então o 
# resultado esperado deve ser 1 = Homem

primeira_previsao = int(model.predict([pessoa_misteriosa]))

if primeira_previsao == 1:
    print("Resultado da previsão é que de acordo com os dados fornecidos são de um Homen")
elif primeira_previsao == 2:
    print("Resultado da previsão é que de acordo com os dados fornecidos são de uma Mulher")


Resultado da previsão é que de acordo com os dados fornecidos são de um Homen


  primeira_previsao = int(model.predict([pessoa_misteriosa]))


Podemos afirmar que nosso modelo previu corretamente, de acordo com os dados de entrada nosso modelo previu que o resultado esperado seria 1 (1 = Homem)

In [43]:
# Segunda previsão

# Agora com uma lista maior podemos prever todos de uma unica vez.

pessoa_misterio1 = [1, 1, 0, 1, 1] # Resultado esperado 0 = Mulher
pessoa_misterio2 = [1, 0, 0, 0, 1] # Resultado dele é errar, forneci 
# features de um homem que não treinei no modelo
pessoa_misterio3 = [1, 0, 0, 1, 0] # Resultado esperado 1 = Homem

# Agrupar todas as features dentro de uma variável
pessoas_misteriosas = [pessoa_misterio1, pessoa_misterio2, pessoa_misterio3]

# testes_y é classificacao real feita por mim, servira para 
# medir se acurácia do modelo, no processo de criação do modelo
# isso é de grande importância
testes_y = [0, 1, 1]

In [15]:
# Vamos rodar o modelo com os novos dados de entrada fornecido no ultimo caderno.

model.predict(pessoas_misteriosas)

array([0, 0, 1])

Resultado após rodar o código:

![image.png](attachment:image.png)

Desta vez podemos observar que a pessoa misteriosa 1 modelo previu como se as features fosse de uma mulher = 0 e sim está correto a previsão, para a pessoa misteriosa 3 nosso modelo previu como se features fosse de um omem = 1 e está correto, podemos observar que a pessoa misteriosa 2 está marcada como 0 = Mulher, mas existe um erro de previsão porque as característica que inseri para a pessoa misteriosa 2 são totalmente diferentes dos dados que treinei meu modelo, ele inseriu o valor 0 = Mulher porque é a previsão mais provável de acordo com a estatística feito de trás dos panos, este erro é muito interessante porque é muito importante para um modelo que ele seja treinado por diversas vezes e com inserção de dados bons, em resumo treinar o modelo vai ter levar a ter uma acurácia maior.

Em alguns casos vale apena trocar o modelo de ML que está sendo usado, diversos casos para melhor a minha taxa de acertos posso mudar para um modelo que melhor se encaixe no meu cenário

In [16]:
# Para entender se o meu modelo está bom podemos usar 
# uma ferramenta para calcular a taxa de acertos

from sklearn.metrics import accuracy_score

# Em Python, a função accuracy_score está disponível no 
# módulo metrics da biblioteca scikit-learn (sklearn)

In [17]:
#Utilizando o accuracy - score

# A função accuracy_score é uma métrica de avaliação comumente 
#utilizada em problemas de classificação. 
# Ela é utilizada para calcular a acurácia do modelo, ou seja, 
# a proporção de exemplos classificados corretamente 
# pelo modelo em relação ao número total de exemplos.

# Alguns blocos de código criei a variável testes_y com as classes corretas
# para que a agora pudessemos calcular a acúracia

previsoes = model.predict(pessoas_misteriosas)
# Vamos criar uma variável chamada de previsoes, e ela vai ser o resultado
# previsao do nosso modelo.

taxa_de_acerto = accuracy_score(testes_y, previsoes)
print("taxa de acertos = %.2f" % (taxa_de_acerto * 100))

# Neste exemplo acima, testes_y são as verdadeiros das 
# classes e previsoes são os rótulos previstos pelo modelo

taxa de acertos = 66.67


Obtivemos uma taxa de acertos de aproximadamente 67%, posso afirmar que este não é um resultado muito bom, podemos considerar que uma taxa entre 85% — 90% se torna bom e 91% — 100% podemos afirmar como excelente, como comentei anteriormente uma das saídas para melhorar a precisão do modelo é fornecer mais exemplos e treinar mais vezes.

Vamos lá, em seguida vou criar um novo bloco de código inserindo mais exemplos no treinamento e treinar novamente meu modelo de classificação:

# 5 - Melhorando Modelo

In [18]:
Homem1 = [0, 0, 1, 0, 1]
Homem2 = [0, 0, 1, 0, 0]
Homem3 = [1, 0, 0, 1, 0]
Homem4 = [1, 0, 1, 1, 0]
Homem5 = [1, 0, 1, 0, 0]

Mulher1 = [1, 1, 0, 1, 1]
Mulher2 = [1, 0, 0, 1, 1]
Mulher3 = [1, 1, 1, 1, 1]
Mulher4 = [0, 1, 1, 0, 1]
Mulher5 = [1, 0, 1, 0, 0]

treino_x_v2 = [Homem1, Homem2, Homem3, Homem4, Homem5, Mulher1, Mulher2, Mulher3, Mulher4, Mulher5]

treino_y_v2 = [ 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

model_2 = LinearSVC()
model.fit(treino_x_v2, treino_y_v2)

pessoa_misterio1 = [1, 1, 0, 1, 1] # Resultado esperado 0 = Mulher
pessoa_misterio2 = [1, 1, 0, 1, 0] # Resultado dele é errar, forneci 
# features de um homem que não treinei no modelo
pessoa_misterio3 = [0, 1, 1, 0, 1] # Resultado esperado 0 = Mulher
pessoa_misterio4 = [1, 0, 1, 0, 0] # Resultado esperado 1 = Homem
pessoa_misterio5 = [1, 0, 1, 0, 0] # Resultado esperado 1 = Homem
pessoa_misterio6 = [0, 1, 1, 0, 1] # Resultado esperado 0 = Mulher
pessoa_misterio7 = [1, 0, 1, 0, 0] # Resultado esperado 1 = Homem

pessoas_misteriosas_v2 = [pessoa_misterio1, pessoa_misterio2, pessoa_misterio3, pessoa_misterio4, pessoa_misterio5, pessoa_misterio6
, pessoa_misterio7]

testes_y_v2 = [0, 1, 0, 1, 1, 0, 1]

model.predict(pessoas_misteriosas_v2)

previsoes_v2 = model.predict(pessoas_misteriosas_v2)

taxa_de_acerto = accuracy_score(testes_y_v2, previsoes_v2)
print("taxa de acertos = %.2f" % (taxa_de_acerto * 100))

taxa de acertos = 85.71


Após o trabalho de inserir novos dados e treinar meu modelo podemos observar que acurácia teve uma elevação, então está pode ser uma alternativa, fornecer mais dados e treinar seu modelo novamente, dessa forma podemos tornar o modelo mais preciso.

Para melhorar a performance da previsão vale a pena testar outro problemas, é comum do trabalho de um cientista de dados utilizar mais de um modelo para treinar os dados.