# Machine Learning
É um campo da **Inteligência Artificial** cujo propósito é desenvolver e usar algorítmos que aprendem a partir de dados.

Apesar de ser um tema muito falado nestas primeiras décadas do século XXI, pesquisas relacionadas ao aprendizado de máquina datam de meados do século XX.

Para trabalhar neste ramo é necessário um conjunto de conhecimentos:
* **Linguagem de programação**: Conhecer uma linguagem de programação que tenha embarcado um ecossistema (ou framework) de machine learning é essencial. Atualmente, Python é uma das opções disponívels.
* **Matemática**: principalmente nas áreas de matemática elementar, álgebra linear, geometria analítica e cálculo.
* **Estatística**: saber minimamente tópicos de estátistica descritiva e inferência estatística.
* **Pensamento analítico**: ter capacidade de analisar e interpretar resultados além de elaborar, testar, validar ou rejeitar hipóteses.
* **Storytelling**: Contar histórias a partir dos dados que ajudem a responder perguntas de negócios que supportem os tomadores de decisões.

Dependendo da empresa, um profissional que trabalha com aprendizado de máquina pode ter os seguintes títulos: **Especialista, Engenheiro ou Cientista de Dados**.

## Tipos de Machine Learning
Os principais tipos de aprendizados de máquina são:

| Tipo                | Descrição | Aplicações |
| ------------------- | --------- | ---------- |
| Supervised Learning | Dado um conjunto de dados com uma variável resposta ou dependente (normalmente chamada de **y**) é possivel construir algorítmos que usam as varíaveis independentes (chamadas de **X**) para aprender a respeito de como a variável depende se comporta. | Problemas de previsão e classificação |
| Unsupervised Learning | Identifcar padrões nos dados sem considerar variáveis dependentes. | Agrupamentos, redução de dimensionalidade e detecção de anomalias |
| Semisupervided Learning | Combinação dos dois tipos de aprendizados acima | Chabots |
| Reinforcement Learning | Um tipo de aprendizado que estuda o ambiente e trata acertos e erros como recompensas que retroalimentam o próprio ambiente de aprendizado.  | Carros autônomos, assistentes virtuais |

## Exemplos de algorítmos de Machine Learning
Os algorítmos disponíveis para executar tarefas de Machine Learning estão em constante expansão e aprimoramento. Mesmo assim é possivel identificar os casos mais clássicos no contexto de aprendizado de máquina

| Tipo | Algorítmo |
| ---- | --------- |
| Supervised Learning | k-Nearest Neighbors, Linear Regression, Logistic Regression, Support Vector Machines (SVMs), Decision Trees and, Random Forests Neural networks |
| Unsupervised Learning | K-Means, DBSCAN, Hierarchical Cluster Analysis (HCA), One-class SVM, Isolation Forest, Principal Component Analysis (PCA), Kernel PCA, Locally Linear Embedding (LLE), t-Distributed Stochastic Neighbor Embedding (t-SNE),  Apriori, Eclat |
| Semisupervised Learning | Deep belief networks (DBNs), Restricted Boltzmann machines (RBMs) |


## Tarefas básicas
Trabalhar com Machine Learning consiste em criar modelos que aprender a partir dos dados.

Para o uso correto das técnicas de Machine Learning há algumas tarefas que são essenciais e um especialista (ou engenheiro) de Machine Learning necessita conhecer:
* Entender as variáveis que necessitamos estudar, buscando conhecer suas características e natureza dos dados.
* Aplicar Análise Exploratória de Dados.
* Lidar com casos de exceção, como por exemplo missing e outliers. 
* Aplicar Feature Engineering

### Variáveis do estudo (ou experimento)
Basicamente há quatro tipos de variáveis:

| Varíável | Descrição | Exemplo |
| -------- | ---------------| --------------------- |
| Discreta | São variáveis **quantitativas** ou **numéricas** e expressam valores inteiros | quantidade de filhos, quantidade de latas de refrigerante  |
| Contínua | São variáveis **quantitativas** ou **numéricas** e expressam valores racionais | Peso, salário, renda familiar |
| Nominal | São variáveis **qualitativas** ou **categóricas** e expressam categorias ou classes | Tipo de veículo, tipo de renda.  |
| Ordinal |São variáveis **qualitativas** ou **categóricas** e expressam ordens de grandeza. | Classe social, grau de escolaridade |

### Análise Exploratória de Dados
É uma ferramenta estatística que permite avaliar cada varíavel obtendo uma comprensão clara dos dados, suas medidas (média, mediana, moda), suas variabilidades (amplitude e dispersão), suas distribuições bem como suas possíveis relações.

### Lidar com Exceções
Exceções (missing, outliers e etc) precisam ser tratados antes de iniciar qualquer tipo de trabalho relacionado com Machine Learning.

Para casos missing é possivel assumir um valor arbritário, como por exemplo a **moda** (valor mais recorrente para variáveis categóricas) ou a **média** (para variáveis numéricas). Outra opção é remover tais casos da base desconsiderando o registro inteiro ou apenas a varíável missing.

Para outliers é preciso uma análise que permita identificar quais são os valores atípicos e assim decidir se é melhor mantê-los, remover o registro inteiro ou apenas a variável com outliers. Uma boa forma de analisar outliers é usar limites inferiores e superiores a partir do intervalo interquartil. Desta forma, você considera tudo que está fora destes limites como possiveis outliers. Os limites podem ser definido como: 

\begin{align}
L_{inf} = \bar{x} - 1.5 * (Q3-Q1) 
\end{align}
\begin{align}
L_{sup} = \bar{x} + 1.5 * (Q3-Q1) 
\end{align}

Ao lidar com as exceções deve-se primeiramente alinhar a decisão com todos os envolvidos e registrar detalhadamente o tipo de ação que foi tomada.

### Aplicar Feature Engineering
O uso de determinado tipo de algorítmo depende do problema de negócio que se queira resolver. A maioria dos algorítmos necessita que as variáveis usadas na criação de um modelo tenham determinadas caraterísticas para que funcionem corretamente, por exemplo, ser numérica ao invés de categórica.

O trabalho de criar e adaptar as variáveis para que possam ser usadas nos modelos chama-se Feature Engineering. Este tipo de trabalho chega ser mais arte que ciência e varia muito conforme a experiência do Engenheiro de Machine Learning e o tipo de dado que se deseja usar.

Há várias técnicas, mas duas são as mais comuns: Transformar as variáveis categóricas (ou qualitativas) para variáveis dummy e Redimennsionar ou escalar o dado.

As duas técnicas mais comuns para escalar os dados são: **z-score normalization** e **min-max scalling**.

Fórmula para z-score normalization:

$z = \frac{x-\mu}{\sigma}$

Fórmula para min-max scalling:

$ X_{adj} = \frac{X -X_{min}}{X_{max} - X_{min}}  $

## Importante
É aqui onde a maior parte do tempo é gasto, pois trata-se de tarefas demoradas. 

Todo o trabalho realizado deve ser muito bem documentado. 

Nenhum dado deve ser sobrescrito ou apagado para não perder a rastreabilidade bem como possibilidade de reproduzir todo o processo do início ao fim.