## Mãos a Obra: Aprendizado de Máquina com Scikit-Learn, Keras e TensorFlow
#### CONCEITOS, FERRAMENTAS E TÉCNICAS PARA A CONSTRUÇÃO DE SISTEMAS INTELIGENTES
O Aprendizado de Máquina foi primeiro introduzido como *Reconhecimento Ótico de Caracteres (OCR)* em alguns aplicativos específicos, mas o que mais conquistou e melhorou a vida de centenas de milhares de pessoas foi o *filtro de spam* que hoje aprendeu tão bem que pode ser classificado tecnicamente como Aprendizado de Máquina (uma máquina que aprendeu tão bem que raramente é necessário marcar um e-mail como spam).

#### O que é Aprendizado de Máquina?
Aprendizado de Máquina é a ciência (e a arte) da programação de computadores de modo que possam aprender com os dados. 

#### Termos de Aprendizado de Máquina
- **Conjuntos de treinamentos:** Exemplos utilizados para o sistema para o aprendizado.
- **Instância de treinamento:** Cada exemplo de treinamento.
- **'ham':** Não spam.
- **Acurácia:** A tarefa T sinaliza os e-mails novos como spam, a experiência E é o dado de treinamento e a medida de desempenho P precisa ser definida; por exemplo, você pode utilizar a proporção de e-mails sinalizados corretamente. Essa medida de desempenho particular se chama *acurácia* e é usada frequentemente em tarefas de classificação. (precisão)
- **Mineração de dados:** Uma vez que o filtro foi treinado para o spam, ele pode simplesmente ser inspecionado e evidenciar uma lista de palavras e combinações previstas que ele acredita serem as mais prováveis. Ás vezes, isso revelará correlações não esperadas, ou tendências novas, resultando em uma melhor compreensão do problema. Aplicar técnicas do AM para se aprofundar em grandes quantidades de dados pode ajudar na descoberta de padrões que não eram explícitos. Isso se chama *mineração de dados*. 

#### Resumindo, o aprendizado de máquina é ótimo para:
- **Problemas para os quais as soluções atuais exigem muitos ajustes finos ou extensas listas de regras:** Um algoritmo de aprendizado de máquina geralmente simplifica e tem um desempenho melhor do que a abordagem tradicional.
- **Problemas complexos para os quais não existe uma boa solução quando utilizamos uma abordagem tradicional:** Talvez as melhores técnicas de aprendizado de máquina encontrem uma solução.
- **Adaptabilidade de ambientes:** Um sistema de aprendizado de máquina pode se adaptar a novos dados.
- **Entendimento de problemas complexos e grandes quantidades de dados.**

Os exemplos de aplicações do AM estão nas páginas 6 e 7.

### Tipos de Sistemas de Aprendizado de Máquina
**Existem tantos tipos de sistemas no AM, que é preferível classificá-los por:**
- Serem ou não treinados com supervisão humana (aprendizado supervisionado, não supervisionado e semissupervisionado e supervisionado com esforço).
- Se podem ou não aprender gradativamente em tempo real (aprendizado online vs aprendizado em batch).
- Se funcionam simplesmente comparando novos pontos de dados com pontos de dados conhecidos, ou se detectam padrões em dados de treinamento e criam um modelo preditivo, como os cientistas (aprendizado baseado em instâncias vs aprendizado baseado em modelo).

### Aprendizado Supervisionado - Não Supervisionado - Semissupervisionado
Os sistemas de aprendizado de máquina podem ser classificados de acordo com a quantidade de acordo com a quantidade e o tipo de supervisão que recebem durante o treinamento. Existem 4 categorias principais de aprendizado: *supervisionado*, *não supervisionado*, *semissupervisionado* e *aprendizado por reforço*.

- **Aprendizado Supervisionado**<br>
No aprendizado supervisionado, o conjunto de treinamento que você fornece ao algoritmo inclui as soluções desejadas, chamadas de *rótulos* ou *labels*.

![image.png](attachment:d1233b4e-6aaa-4369-b079-55436b5955fe.png)<br>
*Figura 1-5. Um conjunto de treinamento rotulado para classificação de spam (um exemplo de aprendizado supervisionado)*

A *classificação* é uma típica tarefa de aprendizado supervisionado. O filtro de spam é um bom exemplo: ele é treinado com muitos exemplos de e-mails junto ás classes (spam ou ham) e deve aprender a classificar e-mails novos. Outra típica tarefa é prever um valor númerico *alvo [target]*, como o preço de um carro, dado um conjunto de *características [features]* (quilometragem, tempo de uso, marca, etc.) chamados *preditores*. Esse tipo de tarefa se chama *regressão*(Figura 1-6). Para treinar o sistema, é necessário fornecer muitos exemplos de carros, incluindo seus *preditores* e *rótulos* (ou seja, seus preços).

![image.png](attachment:d9ab1d0a-c7c6-47ba-ac06-f11fd1ca9303.png)<br>
*Figura 1-6. Um problema de regressão: prever um valor, dada a entrada de uma característica - feature (geralmente existem diversas entradas de característica e, ás vezes, diversos valores de saída)*

In [2]:
quilometragem = 15000
# feature = value

Alguns algoritmos de regressão também podem ser utilizados para classificação e vice-versa. Por exemplo, a regressão logística é comumente utilizada para classificação, pois consegue gerar um valor correspondente a probabilidade de pertencer a uma determinada classe (por exemplo, 20% de chance de ser spam).
> Seguem alguns dos algoritmos mais importantes do aprendizado supervisionado (abordados neste livro):
> - K-ésimo vizinho mais próximo.
> - Regressão linear.
> - Máquinas de vetores de suporte (SVMs).
> - Árvores de decisão e florestas aleatórias.
> - Redes neurais (maioria).

- **Aprendizado não supervisionado**<br>
No aprendizado não supervisionado os dados de treinamento não são rotulados(Figura 1-7). O sistema tenta aprender sem um professor.
<br>![image.png](attachment:5463d8d0-2c61-45f0-9291-ceec447366fd.png)<br>
*Figura 1-7. Conjunto de treinamento não rotulado para aprendizado não supervisionado*

> Seguem alguns dos algoritmos mais importantes de aprendizado não supervisionado (a maioria deles é abordada nos capítulos 8 e 9):
> - Clusterização
> - Detecção de anomalias e de novidades
> - Visualização e redução da dimensionalidade 
> - Aprendizado de regras por associação<br>(Mais completo na pág. 10)
![image.png](attachment:44470109-ad91-41f7-bcc2-cf5fd9ad92d7.png)<br>
*Clusterização: de acordo com os gostos do usuário para ajudar a direcionar as postagens para cada grupo.*
> - Algoritmos de visualização.

A *redução da dimensionalidade* é uma tarefa relacionada cujo objetivo é simplificar os dados sem perder muita informação. Para tal você deve fazer o merge de diversas características correlacionadas em uma. Isso se chama *extração de características*.

![image.png](attachment:84cfc44a-2ac2-490c-999a-28ac031c8421.png)<br>
*Figura 1-9. Exemplo de uma visualização t-SNE destacando cluster semântico*<br>
![image.png](attachment:e8d7be1b-2848-43ea-898f-c8a4d0a5c178.png)<br>
*Figura 1-10. Detecção de anomalia*


- **Aprendizado Semissupervisionado**<br>
Como rotular os dados geralmente consome tempo e dinheiro, você terá uma grande quantidade de instâncias não rotuladas e poucas instâncias rotuladas. Alguns algoritmos podem lidar com dados parcialmente rotulados. Isso se chama *aprendizado semissupervisionado* (Figura 1-11).
![image.png](attachment:50a8200c-b1df-4d1e-9e90-68bc9096edc0.png)<br>
*Figura 1-11. Aprendizado semissupervisionado com duas classes (triângulos e quadrados). Os exemplos não rotulados (círculos) ajudam a classificar uma instância nova (a cruz) na classe triângulo em vez na classe quadrado, ainda que esteja mais próxima dos quadrados rotulados*