# Capítulo 1: O Cenário do Aprendizado de Máquina

O Aprendizado de Máquina é a ciência (e a arte) de programar computadores para que eles possam aprender com os dados. Mineração de Dados por sua vez é a aplicação de técnicas de Aprendizado de Máquina com o objetivo de analisar grandes volumes de dados visando ajudar a descobrir padrões que não são visualmente aparentes.

Existem alguns tipos diferentes de sistemas de Aprendizado de Máquina que é útil classificá-los em categorias amplas com base em: 
- Se eles são ou não treinados com supervisão humana (supervisionado, não supervisionado, semi-supervisionado e aprendizado por reforço) 
- Se eles podem ou não podem aprender de forma incremental em tempo real (online ou aprendizado batch) 
- Se eles trabalham simplesmente comparando novos pontos de dados a pontos de dados conhecidos, ou, em vez disso, detectem padrões nos dados de treinamento e construam um modelo preditivo, muito parecido com o que os cientistas fazem (modelo baseado em instância ou modelo baseado em aprendizagem)

**Aprendizado Supervisionado**: No aprendizado supervisionado, os dados de treinamento que você fornece ao algoritmo incluem as soluções desejadas, chamadas de rótulos (labels). Uma tarefa típica de aprendizagem supervisionada é a classificação. O filtro de spam é um bom exemplo disso: ele é treinado com muitos e-mails de exemplo junto com sua classe (spam ou não spam) e deve aprender a classificar novos e-mails. 
Outra tarefa típica é prever um valor numérico alvo, como o preço de um carro, dado um conjunto de características (features) (quilometragem, idade, marca, etc.) chamado preditores (predictors). Este tipo de tarefa é chamada de regressão. Para treinar este modelo, você precisaria fornecer a ele muitos exemplos de carros, incluindo seus preditores e seus rótulos (ou seja, seus preços).

Alguns dos principais algoritmos para aprendizado supervisionado são: k-Nearest Neighbors (KNN), Linear Regression, Logistic Regression, Support Vector Machines (SVMs), Decision Trees e Random Forest.

**Aprendizado Não Supervisionado**: No aprendizado não supervisionado, os dados de treinamento não são rotulados. O sistema tenta aprender sem um professor.

Alguns dos principais algoritmos para aprendizado supervisionado são: K-Means, DBSCAN, HCA (Hierarchical Cluster Analysis) para clusterização, One-class SVM e Isolation Forest para detecção de anomalias e novidade, PCA (Principal Component Analysis, Kernel PCA, LLE (Locally-Linear Embedding e t-SNE (t-distributed Stochastic Neighbor Embedding para visualização e redução de dimensionalidade e Apriori e Eclat para aprendizado via regras de associação.

**Aprendizado Semi-Supervisionado**: No aprendizado semi-supervisionado, os algoritmos lidam com dados de treinamento parcialmente rotulados, onde geralmente muitos dados estão não rotulados e um pouco dos dados estão rotulados.

A maioria dos algoritmos semi supervisionados são combinações de algoritmos supervisionados e não supervisionados.

**Aprendizado por Reforço**: Aprendizagem por Reforço é bem diferente. O sistema de aprendizagem, chamado de agente (agent) neste contexto, pode observar o ambiente, selecionar e executar ações e obter recompensas (rewards) em troca (ou penalidades na forma de recompensas negativas). Ele deve então aprender por si mesmo qual é a melhor estratégia, chamada de política (policy), para obter a maior recompensa ao longo do tempo. Uma política define qual ação o agente deve escolher quando estiver em uma determinada situação.

Outro critério usado para classificar sistemas de aprendizado de máquina é se o sistema pode ou não aprender incrementalmente a partir de um fluxo de dados de entrada.

**Aprendizado em Lote (Batch Learning)**: No aprendizado em lote, o sistema é incapaz de aprender de forma incremental: ele deve ser treinado usando todos os dados disponíveis. Isso geralmente leva muito tempo e recursos de computação, portanto, normalmente é feito offline. Primeiro o sistema é treinado e, em seguida, é lançado em produção e funciona sem aprender mais; apenas aplica o que aprendeu. Isso é chamado de aprendizagem offline.

**Aprendizado Online**: No aprendizado online, você treina o sistema de forma incremental, alimentando-o com instâncias de dados sequencialmente, individualmente ou por pequenos grupos chamados mini-batches. Cada etapa de aprendizado é rápida e barata, então o sistema pode aprender sobre novos dados rapidamente, assim que eles chegarem. 
Um parâmetro importante dos sistemas de aprendizado online é a rapidez com que devem se adaptar aos dados variáveis: isso é chamado de taxa de aprendizagem (learning rate). Se você definir uma alta taxa de aprendizado, seu sistema se adaptará rapidamente aos novos dados, mas também tenderá a esquecer rapidamente os dados antigos. Por outro lado, se você definir uma taxa de aprendizado baixa, o sistema terá mais inércia; ou seja, ele aprenderá mais lentamente, mas também será menos sensível a ruídos nos novos dados ou a sequências de pontos de dados não representativos (outliers).



Outra maneira de categorizar os sistemas de aprendizado de máquina é pela maneira como eles generalizam. A maioria das tarefas de aprendizado de máquina é sobre fazer previsões. Isso significa que, dado uma série de exemplos de treinamento, o sistema precisa ser capaz de generalizar para exemplos que nunca viu antes. Ter uma boa medida de desempenho nos dados de treinamento é bom, mas insuficiente; o verdadeiro objetivo é ter um bom desempenho em novas instâncias.
Existem duas abordagens principais para a generalização: aprendizado baseado em instâncias e aprendizado baseado em modelos.

**Aprendizado Baseado em Instâncias**: No aprendizado baseado em instâncias, o sistema aprende os exemplos de cor e, em seguida, generaliza para novos casos comparando-os com os exemplos aprendidos (ou um subconjunto deles), usando alguma medida de similaridade.


<p align="center">
    <img alt="Tela Gerenciador" src="images/landscape/Figura1.png">
</p>
<p align="center">
<b>Figura 1.</b> Aprendizado Baseado em Instâncias.
</p>

**Aprendizado Baseado em Modelos**: Outra maneira de generalizar a partir de um conjunto de exemplos é construir um modelo desses exemplos e, em seguida, usar esse modelo para fazer previsões. Esta abordagem é então denominada de aprendizado baseado em modelos.

<p align="center">
    <img alt="Tela Gerenciador" src="images/landscape/Figura2.png">
</p>
<p align="center">
<b>Figura 2.</b> Aprendizado Baseado em Modelos.
</p>

Um projeto de aprendizado de máquina clássico é composto pelos seguintes passos: 
- Estudo dos dados. 
- Seleção de um modelo. 
- Treinamento do modelo usando os dados de treinamento (ou seja, o algoritmo de aprendizagem pesquisou os valores dos parâmetros do modelo que minimizam uma função de custo).
- Aplicação do modelo para fazer previsões sobre novos casos (isso é chamado de inferência), esperando que esse modelo generalize bem.

Principais Desafios do Aprendizado de Máquina: Em resumo, como a tarefa principal é selecionar um algoritmo de aprendizado e treiná-lo com alguns dados, as duas coisas que podem dar errado são “algoritmo ruim” e “dados ruins”. Vamos começar com exemplos de dados ruins.
1. Quantidade insuficiente de dados de treinamento;
2. Dados de treinamento não representativos;
3. Dados de baixa qualidade;
4. Features irrelevantes;
Agora alguns exemplos de algoritmos ruins.
1. Sobreajuste (Overfitting) dos dados de treinamento;
2. Sub Ajuste (Underfitting) dos dados de treinamento;

**Teste e Validação**
A única maneira de saber quão bem um modelo irá generalizar para novos casos é realmente experimentá-lo em novos casos. Uma maneira de fazer isso é colocar seu modelo em produção e monitorar seu desempenho. Isso funciona bem, mas se o seu modelo for terrivelmente ruim, os usuários reclamarão - o que não é a melhor ideia.
Uma opção melhor é dividir seus dados em dois conjuntos: o conjunto de treinamento e o conjunto de teste. Como esses nomes indicam, você treina seu modelo usando o conjunto de treinamento e o testa usando o conjunto de teste. A taxa de erro em novos casos é chamada de erro de generalização e, avaliando seu modelo no conjunto de teste, você obtém uma estimativa desse erro. Este valor informa o quão bem o seu modelo executará em instâncias que nunca viu antes.
Se o erro de treinamento for baixo (ou seja, seu modelo comete poucos erros no conjunto de treinamento), mas o erro de generalização for alto, significa que seu modelo está com overfitting dos dados de treinamento. É comum usar 80% dos dados para treinamento e reservar 20% para teste.

**Tuning de Hiperparâmetros e Seleção de Modelos**
Suponha que você esteja em dúvida entre dois modelos (digamos, um modelo linear e um modelo polinomial): como você irá escolher? Uma opção é treinar ambos e comparar quão bem eles generalizam usando o conjunto de teste.

Agora suponha que o modelo linear generalize melhor, mas você deseja aplicar alguma regularização para evitar o sobreajuste. A questão é: como você escolhe o valor do hiperparâmetro de regularização? Uma opção é treinar 100 modelos diferentes usando 100 valores diferentes para este hiperparâmetro. Suponha que você encontre o melhor valor de hiperparâmetro que produz um modelo com o menor erro de generalização, digamos apenas 5% de erro.

Então, você coloca este modelo em produção, mas infelizmente ele não funciona tão bem quanto o esperado e produz 15% de erros. O que acabou de acontecer?

O problema é que você mediu o erro de generalização várias vezes no conjunto de teste e adaptou o modelo e os hiperparâmetros para produzir o melhor modelo para aquele conjunto específico. Isso significa que é improvável que o modelo tenha um desempenho tão bom com novos dados.

Uma solução comum para esse problema é chamada holdout validation: você simplesmente exibe parte do conjunto de treinamento para avaliar vários modelos candidatos e selecionar o melhor. O novo conjunto retido é chamado de conjunto de validação. Mais especificamente, você treina vários modelos com vários hiperparâmetros no conjunto de treinamento reduzido (ou seja, o conjunto de treinamento completo menos o conjunto de validação) e seleciona o modelo com melhor desempenho no conjunto de validação. Após esse processo, você treina o melhor modelo no conjunto de treinamento completo (incluindo o conjunto de validação) e isso dá a você o modelo final. Por último, você avalia este modelo final no conjunto de testes para obter uma estimativa do erro de generalização.