**Estudo prático**

Para darmos início à temática do Machine Learning, vamos supor um exemplo onde almejamos que o nosso algoritmo possa fazer a distinção entre um porco e um cachorro.

Algumas características do porco:
* tem pelo longo?
* tem perna curta?
* faz "auau"?

**IMPORTANTE:** para considerar ou desconsiderar cada uma dessas características, tomamos por base que o valor **0** indica a presença da característica e o valor **1** indica a ausência da característica.

In [None]:
porco1 = [0, 1, 0]
porco2 = [0, 1, 1]
porco3 = [1, 1, 0]

cachorro1 = [0, 1, 1]
cachorro2 = [1, 0, 1]
cachorro3 = [1, 1, 1]

# logo podemos incluir em um array ou lista todos os nossos animais
animais = [porco1, porco2, porco3, cachorro1, cachorro2, cachorro3]

Em Machine Learning não se pode simplesmente pegar informações e pedir para o algoritmo fazer e pronto! Calma aí...kk

Para que possamos usufruir dessa tecnologia a três conceitos importantes a se definirem:

a) Treino: é o conjunto de dados que serão utilizados para treinar o algoritmo e assim permitir que ele tenha um certo "conhecimento", do que é um cachorro e um porco; no nosso caso o treino será a variável **animais** definida anteriormente.

b) Teste: é o conjunto de dados que, após treinar o algoritmo, será utilizado para fazer a validação do mesmo, ou seja, é por meio dos dados de teste que podemos analisar a eficácia ou precisão do nosso algoritmo.

c) Classificação: são as classes ou grupos em que o meu algoritmo deve aprender a classificar, nesse caso as classes são o cachorro e o porco.

In [None]:
# Aqui serão definidas as classes em que se deve fazer a classificação, onde o porco é da classe 1 e o cachorro da classe 0
classificacao = [1, 1, 1, 0, 0, 0]

Entretanto, na programação o nome atribuído às variáveis de treino e classificação são dados por : **treino_x** e **treino_y**. Em nosso exemplo, esses variáveis serão, respectivamente, **animais** e **classificacao**.

In [None]:
# substituindo o nome das variaveis
treino_x = animais # ou se preferir pode atribuir como na variavel animais
treino_y = classificacao

#verificando as novas variaveis
print(treino_x)

[[0, 1, 0], [0, 1, 1], [1, 1, 0], [0, 1, 1], [1, 0, 1], [1, 1, 1]]


In [None]:
print(treino_y)

[1, 1, 1, 0, 0, 0]


**Construindo nosso algoritmo**

A documentação do Python oferece uma gama de possibilidade, mas quando falamos de Machine Learning (ML), uma biblioteca em particular se destaca: **Scikit-Learn**.

Por meio dela podemos utilizar diversos recursos ou algoritmos de classificação para podermos aplicar o conceito de ML. 

Por isso fica a dica lá na documentação: https://scikit-learn.org/stable/

In [None]:
# importando a biblioteca sklearn que eh a mesma do Scikit-Learn
from sklearn.svm import LinearSVC # o classificador que estamos importando eh um bem simples chamado LinearSVC
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Quando instanciamos o modelo ao qual queremos trabalhar, ele atuará como um cérebro vazio onde não se tem conhecimento de "nadica de nada". Por isso, o nosso modelo definido na variável **modelo** deve ser treinado e realizamos isso por meio do método **fit**, na qual passamos as duas variáveis de treino anteriormente definidas: treino_x e treino_y.

Pronto! O nosso algoritmo/modelo está treinado.

**Bom, mas e agora?**

Bora ver como o nosso algoritmo se sai...

Para isso vamos definir um outro animal, na qual não sabemos inicialmente a que classe ele pertence e vamos pedir para o nosso algoritmo dizer o que ele acha que é.

In [None]:
animal_misterioso = [1, 1, 1 ] #isso definimos de forma aleatória

#pedimos para o nosso algoritmo predizer o que seria esse tal animal misterioso
que_animal_e_esse = modelo.predict([animal_misterioso]) #note que coloquei nossa variavel dentro de colchetes, pois por padrao o metodo predict rece uma lista

if que_animal_e_esse == 0:
  print('Cachorro')
else:
  print('Porco')

Cachorro


Uau! Como no nosso conhecimento sabíamos que seria um cachorro a partir das características, o algoritmo preveu corretamente.

Mas vamos "tornar mais difícil" para o algoritmo. Vamos definir vários animais para ele classificar e depois medirmos uma métrica chamada **acurácia** onde verificamos a taxa de acerto sobre o total de dados.

In [None]:
misterio1 = [1, 0, 0]
misterio2 = [0, 0, 0]
misterio3 = [1, 1, 0]

teste_x = [misterio1, misterio2, misterio3]
teste_y = [1, 1, 1] #essa eh a classificacao que damos por que sabemos a partir das caracteristicas atribuidas

classifique_para_mim = modelo.predict(teste_x)

for classe in classifique_para_mim:
  if classe == 0:
    print('Cachorro')
  else:
    print('Porco')

Porco
Porco
Porco


Veja que o nosso algoritmo acertou em cheio tudo o que pedimos para ele, mas tome muito cuidado pois é impossível que haja tanta precisão assim logo de cara. Se isso acontecer, algo está errado!

Mas como isso é um exemplo da funcionalidade vamos deixar passar...

In [None]:
from sklearn.metrics import accuracy_score #importanto metodo para avaliar a acuracia

print('Acurácia = ', accuracy_score(teste_y, classifique_para_mim))

Acurácia =  1.0


Mano, mas temos que toda hora ficar dividindo os nossos dados em treino e teste? A resposta é SIM e NÃO. Em python, há um método chamado **train_test_split** onde ele realiza esse trabalho para nós. Para ficar mais claro, veja o seguinte:

In [14]:
from sklearn.model_selection import train_test_split
modelo = LinearSVC()
treino_x, teste_x, treino_y, teste_y = train_test_split(animais, classificacao)

modelo.fit(treino_x, treino_y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

In [15]:
previsoes = modelo.predict(teste_x)
print('Acurácia', accuracy_score(teste_y, previsoes))

Acurácia 0.5


Veja que o valor da acurácia já houve uma brusca diferenciação, me relação ao modo manual que havíamos feito. É importante lembrar que o método **train_test_split** possui inúmeros parâmetros que podem ser passados e que aqui não cabe ser comentado; para verificar isso acesse a documentação do **sklearn**.

**Matriz de Confusão**

Por fim venho trazer um conceito muito interessante e importante do Machine Learning, que é a Matriz de Confusão. Ela é, como o próprio nome diz, uma matriz onde conseguimos analisar os resultados obtidos por um algoritmo por meio de quatro parâmetros: Verdadeiro Positivo (VP), Verdadeiro Negativo (VN), Falso Positivo (FP) e Falso Negativo (FN).

Conseguimos acessar essa funcionalidade por meio da própria biblioteca **sklearn**. Vamos lá?

In [19]:
from sklearn.metrics import confusion_matrix

confusao = confusion_matrix(teste_y, previsoes)

print(confusao)

[[1 0]
 [1 0]]


Parece meio bizarro como a matrix é gerada, mas essa é uma visualização bem simples, podendo ter outros parâmetros. Mas nas suas características gerais, ela pode ser interpretada da seguinte forma:

* as linhas indicam a verdadeira classe dos animais;
* as colunas indicam as classes preditas por nosso algoritmo.

Ou seja, na posição (0,0) da matriz vemos que era porco e o algoritmo disse que era porco. Na posição (0,1) da matriz vemos que não era um porco e o algoritmo também disse que não era; o mecanismo é tratado dessa forma para todas as posições, mas calma que o algoritmo faz isso por você!

Se voltar um pouquinho nesse estudo, você vai ver que a acurácia havia dado 50% (0.5) utilizando a função **train_test_split** e claramente vemos que ela é visível na matriz de confusão, onde o "erro' gerado pelo algoritmo está na posição (1,0) da matriz.