# [Aula 4] Introdução a Machine Learning

<img src="imagens/machine_learning.jpg" alt="Drawing" style="width: 300px;"/>

Machine Learning é basicamente um algoritmo(modelo) de computador capaz de aprender uma determinada tarefa, seja reconhecer uma imagem, classificar um cliente em bom ou ruim ou qualquer outra tarefa através da forma aproximada de uma função.

Exemplo: Mínimos quadrados

<img src="imagens/mmq.gif" alt="Drawing" style="width: 300px;"/>


### Existem 3 tipos de modelos básicos:

**1. Classificação**: Quero dizer que classe minha observação pertence (viveu/morreu, gato/cachorro, etc...)

<img src="imagens/classification.png" alt="Drawing" style="width: 300px;"/>

**3. Regressão**: Quero dizer qual o valor da minha observação (idade, dinheiro, etc...)

<img src="imagens/regression.png" alt="Drawing" style="width: 300px;"/>

**3. Clusterização**: Quero montar grupos com observações parecidas entre si mas diferentes entre os grupos (segmentação de clientes, tópico de notícias etc...)

<img src="imagens/clusterization.png" alt="Drawing" style="width: 300px;"/>

<br>


### Todo modelo de machine learning consiste nas seguintes etapas para funcionar:

<br>

1. **Dados**: informações que descrevem seu problema <br>
2. **Função**: uma função matemática capaz de medir o quão bom o modelo está fazendo aquela tarefa<br>
3. **Minimização (treinamento)**: uma maneira de determinar o ponto em que eu erro a menor quantidade de vezes possível<br>

Muito genérico?

Basicamente, dado um conjunto de dados:

<img src="imagens/dados.jpg" alt="Drawing" style="width: 300px;"/>

Eu quero achar a melhor função que descreve esses dados:

<center> <img href=""> </center>

<img src="imagens/core.gif" alt="Drawing" style="width: 300px;"/>

Lembra Lab1 certo? Mínimos quadrados....

Mínimos quadrados é a ideia primordial de um dos modelos mais simples que existe: a Regressão Linear!

Atenção! Não necessariamente a melhor função será uma reta, tudo dependerá de qual algoritmo estou usando.

Mas como eu acho essa melhor função?

Basicamente, dado que eu sei o que eu quero prever na minha base (no caso do titanic por exemplo era se a pessoa sobreviveu ou não) eu posso construir uma função que me da uma resposta e com essa função genérica posso definir uma função $\gamma$ que é o erro associado a cada observação:

<img src="imagens/custo.png" alt="Drawing" style="width: 300px;"/>

A partir dela posso calcular a derivar em relação aos coeficientes que quero determinar e encontrar os pontos críticos:

<img src="imagens/derivada.png" alt="Drawing" style="width: 300px;"/>

Determinado esse mínimo, consigo achar qual é essa função que melhor descreve meus dados!

Na prática esse mínimos é encontrado através de métodos numéricos.

<img src="imagens/gradiente.png" alt="Drawing" style="width: 300px;"/>

### Nesse curso introdutório iremos abordar os seguintes algoritmos:

- KNN
- Regressão Logística
- Árvore de Decisão
- Redes Neurais(*)

Para isso existem diversos pacotes específicos para desenvolvimento de modelos, como:

1. **Scikitlearn**
2. TensorFlow
3. MLlib
4. NLTK

O foco nesse curso será dar um direcionamento no uso do SciKitLearn, pacote mais simples e mais utilizado para cursos introdutórios.

## 1 - Importando pacotes

Aqui iremos importar todos os pacotes que serão utilizados no curso

In [2]:
# Import de bibliotecas padrões
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Import de modelo de Regressão Logística
from sklearn.linear_model import LogisticRegression

# Import do modelo de KNN
from sklearn.neighbors import KNeighborsClassifier

# Import do modelo de árvore de decisão
from sklearn.tree import DecisionTreeClassifier

# Import de função que calcula uma métrica para avaliar se um modelo está bom ou não
from sklearn.metrics import accuracy_score

# Import de função que particiona uma base em base de treino e de validação
from sklearn.model_selection import train_test_split

Testaremos os modelos no dataset do Breast Cancer

Consiste basicamente na classificação de 3 tipos de plantas a partir do tamanho das suas folhas

In [51]:
# Lendo a base de dados própria do sklearn
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

# Separando a base de dados e a variável de interesse
X = cancer.data
y = cancer.target

In [44]:
# Repartindo a base em uma base para treinar e uma para testar

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

## 2 - Modelos

Aqui abordaremos cada um dos modelos citados.

* Todo modelo de ML em python segue um fluxo de desenvolvimento, descrito a seguir:

     1. Inicialização de um objeto modelo. Ex: meu_modelo = Modelo_Machine_Learning(*parâmetros)
     2. Treinar o modelo com uma base de dados (X) e a variável resposta (y : a ser predita): Ex: meu_modelo.fit(X,y)
     3. Prever uma nova informação, ou conjunto de informação. Ex: meu_modelo.predict(X_novo)

### 2.1 - KNN

O KNN (K Nearest Neighborhood) é um dos modelos mais simples. Sua ideia é basicamente classificar um ponto pelos mais comuns ao seu redor.

<img src="imagens/knn.png" alt="Drawing" style="width: 300px;"/>

**Algoritmo**
1. Receba um dado novo
2. Calcule a distância desse ponto para todos os pontos da sua base de dados (com variável resposta)
3. Pegue os k pontos com distâncias menores
4. Marque essa observação com a classe que aparece mais vezes desses k pontos

In [54]:
# Aplicando o modelo nos moldes dado acima

# Inicializando meu modelo com o parâmetro n_neighbors = 3, o que quer dizer que vou considerar os 3 vizinhos mais próximos
meu_knn = KNeighborsClassifier(n_neighbors=3)
# Treinando o modelo com os dados de treino
meu_knn.fit(X_train, y_train)
# Prevendo os resultados do teste
meu_knn.predict(X_test)

array([0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1])

In [55]:
# A função "score" dos modelos permite testar o modelo em um conjunto de dados, vamos utilizar para os dados de teste então
meu_knn.score(X_test, y_test)

0.94152046783625731

### 2.2 - Regressão Logística

A regressã logística é um modelo de classificação que busca encontrar o melhor hyper plano $ z = b_0 + b_1.x_1 + b_2.x_2 + ... + b_n.x_n$ que separa meus dados de acordo com as classes desejadas. A partir disso ele utiliza a função sigmoid para "explodir" o valor para 1 ou 0, como mostra a figura.

<img src="imagens/sigmoid.png" alt="Drawing" style="width: 300px;"/>

**Algoritmo**

1. Minimize a função de erro
2. Encontre os parâmetros do hyperplano que melhor separa os dados
3. Aplique a função sigmoid para classificar os dados em 1 ou 0
4. Em um novo dado calcule a região do hyperplano ele cai e classifique usando a função sigmoid

In [47]:
# Aplicando o modelo nos moldes dado acima

# Inicializando meu modelo com o parâmetro n_neighbors = 3, o que quer dizer que vou considerar os 3 vizinhos mais próximos
minha_reglog = LogisticRegression(random_state = 42)
# Treinando o modelo com os dados de treino
minha_reglog.fit(X_train, y_train)
# Prevendo os resultados do teste
minha_reglog.predict(X_test)



array([1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1])

In [48]:
minha_reglog.score(X_test, y_test)

0.96491228070175439

### 2.3 - Árvore de decisão

A árvore de decisão é um algoritmo que busca criar regras que classifiquem os dados, ela faz isso buscando sempre criar uma sequencia de quebras em variáveis que maximizem a separação das classes esperadas.

<img src="imagens/arv.jpg" alt="Drawing" style="width: 300px;"/>

**Algoritmo**
1. Cheque a variável da base que melhor separa a variável resposta
2. Crie uma regra nessa variável e repita os passos 1 e 2 até que as regras separem a variável resposta
3. Aplique as regras em uma nova observação e toma uma decisão

In [49]:
# Aplicando o modelo nos moldes dado acima

# Inicializando meu modelo com o parâmetro n_neighbors = 3, o que quer dizer que vou considerar os 3 vizinhos mais próximos
minha_arvore = DecisionTreeClassifier(random_state = 42)
# Treinando o modelo com os dados de treino
minha_arvore.fit(X_train, y_train)
# Prevendo os resultados do teste
minha_arvore.predict(X_test)

array([1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1])

In [50]:
minha_arvore.score(X_test, y_test)

0.94152046783625731

Fonte de informções muito boas e intuitivas: https://towardsdatascience.com/