# Machine Learning

**Aspectos Importantes**

- Álgebra Linear, Cálculo, Estatística e Probabilidade

**Entendendo termos importantes na Ciência de Dados**

- Dados são basicamente coleções de fatos: medidas, observações, números, palavras, etc
- Dados são armazenados em colunas e linhas

**Linha:** Observação

**Coluna:** Features ou variável

## Variáveis Dependentes e Independentes

- A variável dependente **y** é aquela que desejamos prever
- As variáveis independentes X nos ajudarão a prever y

$y = f(X)$

## População e Amostra

- O Objetivo dos algoritmos de Machine Learning é encontrar parâmetros que possam fazer o mapeamento em toda a população baseado em uma dada amostra

## Dados Faltantes

- Solução 1: Removê-los
- Solução 2: Imputação de Dados

1. Características numéricas:
     - Substituir os valores faltantes com a média, mediana ou moda
     - Substituir os valores faltantes com amostras de valores aleatórios
     - Substituir com o valor de regressão
     
2. Características categóricas:
     - Substituir com a moda
     - Substituir com o valor de previsão KNN

# Conexão entre Inteligência Artificial, Machine Learning e Deep Learning

![img](https://raw.githubusercontent.com/the-akira/DataScience/master/imagens/compare_AI_ML_DL.png)

## Como os algoritmos de Machine Learning aprendem?

- Modelos de Machine Learning aprendem da mesma maneira, vejamos um exemplo baseado em uma fruta:
    - O formato e a cor da fruta são chamados de **características**
    - O tipo de fruta é chamado de **rótulo**
    - Cada instância de par input-output é chamado de observação
    
## Tipos de Aprendizado em Machine Learning

1. Supervised Learning (Aprendizado Supervisionado)
    - Quando temos as variáveis **x e y**
    - Classificação
    - Regressão
2. Unsupervised Learning (Aprendizado Não-Supervisionado)
    - Clusterização
    - Redução de Dimensionalidade
3. Reinforcement Learning (Aprendizado Reforçado)
    - Aquisição de Habilidade
    - Aprendizado baseado em recompensas de acordo com as interações com o ambiente

# Termos de Modelagem (Ciência de Dados)

## Dividindo nosso conjunto de Dados

Em Machine Learning nós sempre dividimos nossos dados em dois:
    - Dados de Treinamento
    - Dados de Teste

Inicialmente treinamos nosso modelo com os dados de treinamento e depois fazemos testes utilizando os dados de teste, caso nosso modelo consiga fazer boas previsões, significa que estamos no caminho correto para prever novos dados.

## Overfitting e Underfitting

- **Overfitting**: Quando a lacuna entre erros de treinamento e teste são grandes porque o modelo é muito complexo
    - Alta variância
    - Bias baixo
- **Underfitting**: Quando o erro de treinamento é grande porque o modelo é muito simples
    - Variância baixa
    - Bias alto

## Extração de Features e Seleção

- Extração de features e engenharia de features nos ajudará transformando dados não-tratados em features adequadas para a modelagem
- Seleção de features irá ajudar removendo features desnecessárias durante o passo de processamento de dados

# Modelos de Regressão

- Regressão é utilizada para identificar a relação entre uma variável dependente e variáveis independentes
- A variável dependente é sempre uma variável contínua
- O modelo tenta ajustar uma curva os pontos de dados

# Modelos de Classificação

- Modelos de classificação são usados para prever o alvo que tem valores discretos (cachorro/gato) (sim/não) (maligno/benigno)
- Regressão e Classificação são considerados modelos Supervised Learning

# Modelos Unsupervised

- Clusterização lida com a busca de uma estrutura em uma coleção de dados não-rotulados
- Clusterização é a organização de objetos em grupos no qual os membros são similares de alguma maneira
- Modelos de Análise de Associação descobrem relaões em grandes conjuntos de dados

# Modelos de Machine Learning

| Variável de Output | Unsupervised Learning | Supervised Learning |
| --- | --- | --- |
| Contínuo | **Clusterização e Redução de Dimensionalidade:** PCA, K-Means | **Regressão:** Linear Regression, Decision Trees, Random Forest, SVM |
| Categórico | **Análise de Associação:** Apriori, FP-Growth | **Classificação:** Logistic Regression, KNN, Decision Trees, SVM, Naive Bayes |

# Parâmetro e Hiperparâmetro

- Um parâmetro de modelo é requerido pelo modelo e é estimado baseado nos dados
    - weights
    - coeficientes
- Um hiperparâmetro de modelo são apenas para ajudar a estimar os parâmetros de modelo e eles são especificados pelo praticante

# O que é a Regressão Linear?

A Regressão Linear nos ajuda a especificar uma relação linear para prever o valor numérico de uma variável dependente (Y) para um dado valor de variáveis independentes (X), para isso é utilizado uma **linha reta**

A Regressão Linear nos ajudará a fazer uma previsão baseado em algumas informações:

- Previsão da variável dependente Y
- Algumas informações de variáveis independentes X

## Regressão Linear Questionamentos

1. Há uma relação linear entre X e Y?
2. Qual variável X tem a maior contribuição?

## Modelo de Regressão Linear

Regressão Linear Simples

$y = b_0 + bX + e$

Regressão Linear Múltipla

$y = b_0 + b_1 X_1 + b_2 X_2 + ... + e$

- $b_0$ é o intercept
- $b$ é o coeficiente associado a X
- $e$ ou erro denota todas as informações restantes sobre y que não foram explicadas por X

## Exemplo

A estimativa da média de pontuação de um estudante é baseado no número de horas que eles passaram estudando (30 horas)

y = 'a média de pontuação do estudante'
X = 'horas de estudo' que é igual a 30

O modelo de regressão mais simples é: $Pontuação = b_0 + b_1 \times horasestudo$

$Pontuação = b_0 + b_1 \times 30$

O modelo de regressão linear múltipla é:

$Pontuação = b_0 + b_1 \times horasestudo + b_2 \times exercicios$

$b_0$, $b_1$ e $b_2$ são parâmetros necessários a serem estimados baseados em nossos dados históricos

# Modelo de Decision Trees (Árvores de Decisão)

- Uma Decision Tree é como uma série de condições if-else que nos levam a uma decisão.
- Um node de decisão tem dois ou mais galhos
- Um leaf node representação uma classificação ou decisão
- A decisão mais ao topo corresponde ao melhor previsor chamado de root node

## Decision Tree na Prática

Três passos importantes na construção de uma árvore de decisão:

- Divisão
- Podar ou diminuir os galhos da árvore
- Seleção da árvore

## Hiperparâmetros do Modelo

- Profundidade máxima da árvore
- O número máximo de leaf nodes
- O número mínimo de pontos de dados requeridos para dividir o node além

## Vantagens e Desvantagens

- Árvores de decisão são de baixo custo computacional para serem usadas, fácil para humanos compreenderem os resultados e pode lidar com características irrelevantes
- Suas desvatagens é que ela está propensa a Overfitting e provê uma perfomance de generalização pobre. As vezes nos fornece uma acurácia baixa em previsão

# Support Vector Machines

- Support Vector Machines são muito utilizadas para tarefas de classificação
- Duas Support Vector Machines
    - SVC para Classificação
    - SVR para Regressão
- SVM são baseadas na ideia de buscar um hiperplano que melhor divide o conjunto de dados em duas classes

## O Hiperplano SVM

- O hiperplano é uma linha que separa e classifica linearmente nossos dados em dois
- O objetivo é escolher um hiperplano com a maior possível margem entre o hiperplano

## Vantagens e Desvantagens

- SVM pode fornecer uma grande acurácia e pode trabalhar muito bem com conjuntos de dados pequenos e limpos
- Entretanto, se você tiver um conjunto de dados muito grande, não é recomendado, uma vez que o tempo de treinamento pode se tornar muito longo

# K-Nearest Neighbors (KNN)

- KNN é um algoritmo de aprendizado lazy porque o cálculo é 'atrasado' até que a previsão seja requerida
- Os pontos de dados que estão próximos aos novos pontos de dados são usados para o cálculo do modelo e para a previsão de novas classes para novos pontos de dados

## Pontos Próximos

- O algoritmo KNN utiliza a distância para avaliar qual ponto está próximo aos novos dados
- Para características contínuas é calculada a distância Euclidiana
- Para características categóricas é calculada a distância Hamming

## Hiperparâmetros

- O número de vizinhos K, tendo 5 como padrão

## Vantagens e Desvantagens

- KNN é simples e trabalha bem com dados representativos suficientes
- KNN é consumidor de espaço porque para cada previsão o cálculo é feito separadamente

# Regressão Logística

- Regressão logística é utilizada para resolver um problema de classificação
- Regressão logística é semelhante a regressão linear
- Regressão logística extende a ideia da regressão linear para uma situação onde a variável resultante é categórica

# O que é um neurônio?

Um neurônio recebe alguns inputs, aplica alguma lógica e traz um resultado como output.

**Neurônio** = **Função**

$f(x) = y$

- X é o input
- y é o output
- f é a função do neurônio

## Rede Neural

Uma rede neural é uma rede de neurônios

Redes neurais nos ajudam a fazer regressão, clusterização e classificação

![img](https://raw.githubusercontent.com/the-akira/DataScience/master/imagens/NeuralNetwork.png)

### Como uma rede neural funciona?

- Máquinas aprendem por exemplos
- A rede neural aprende a reconhecer padrões dos dados existentes
- Isso seria o que chamamos de treinamento em conjuntos de dados existentes

# Algumas Aplicações de Clusterização

- Marketing (Segmentação de clientes)
- Biologia (Classificação de plantas)
- Seguro (Detecção de Fraudes)
- Planejamento de Cidades
- Estudos de terremotos
- Classificação de Documentos
- Identificar localidades de crimes
- Desenhos de perfil de criminosos

# Clusterização K-Means

- K-Means tenta encontrar centros de clusters que representam certas regiões dos dados
- A clusterização K-Means é um processo de dois passos:
    - Atribuir cada ponto de dado para o centro de dados mais próximo
    - Setar o centro do cluster como a média dos pontos de dados atribuídos ao cluster
- O algoritmo mantém a execução desses passos até que a atribuição dos pontos de dados aos clusters não altere mais

## Vantagens e Desvantagens

- K-means é relativamente um método eficiente
- Necessário especificar a quantidade de clusters com antecedência