# Capítulo 1 - O Cenário do Aprendizado de Máquina

Códigos disponíveis em https://github.com/ageron/handson-ml

### O que é aprendizado de máquina?

Melhorar o desempenho de um algoritmo em alguma tarefa a partir dos dados, sem intuições humanas.

### Por que utilizar o aprendizado de máquina?

Porque algumas tarefas são ou muito complexas para a formulação manual, ou tediosas e repetitivas. Nesses casos os algoritmos de AM podem aprender padrões escondidos e se atualizarem automaticamente sem a interveção humana eterna.

### Notas

#### Mineração de Dados

Aplicação de técnicas de AM para se aprofundar em grandes quantidades de dados afim de descobrir padrões que não são aparentes. Isso é fruto da inspeção do aprendizado dos algorítmos, entender como e o que eles aprenderam.

#### Regressão

Prever um *alvo* de valor numérico, por exemplo o preço de um carro, a partir de um conjunto de características (quilometragem, idade, marca, etc.) denominadas *previsores*. Para treinar um sistema desses supervisionado, é preciso fornecer muitos exemplos de carros incluindo seus previsores e seus *labels* (ou seja, seus preços).

Alguns algoritmos de regressão podem ser utilizados para classificação, como por exemplo *Regressão Logística*. Nesse caso, a regressão pode produzir um valor que corresponde à probabilidade de pertencer a uma determinada classe (por exemplo, 20% de chance de um e-mail ser spam).

#### Extração de características e/ou Redução da dimensionalidade

Redução da dimensionalidade tem o objetivo de simplificar os dados sem perder muita informação. Faz isso mesclando várias características correlacionadas em uma. Por exemplo, a quilometragem de um carro pode estar diretamente relacionada ao seu tempo de uso, de modo que o algoritmo de redução de dimensionalidade irá mesclá-los em uma única característica, representando assim o desgaste do carro. Isso se chama *extração de características*.

Essa extração de características é comum antes do treinamento de algoritmos supervisionados, faz com que ele execute mais rápido, com menor peso de armazenamento e, em alguns casos, pode melhorar o desempenho.

#### Aprendizado em Lote

Aprendizado em lote é quando o sistema realiza o seu treinamento no conjunto inteiro de dados. Ele aprende de forma offline e depois disso é normalmente lançado em produção para executar com o que já foi aprendido, sem aprender com os novos dados. Nesses casos normalmente é feito de forma offline, pois requer um grande volume de recursos computacionais, como CPU, rede e memória. Quando é preciso aprender novamente, esse tipo de sistema deve ser treinado novamente com o conjunto inteiro dos dados, tanto os novos exemplos como os antigos.

#### Aprendizado online

No aprendizado online, o treinamento é feito de forma incremental, a partir de subconjuntos dos dados chamados de *minilotes*. Dessa forma é possível treinar o sistema de forma rápida e barata, sendo possível alimentá-lo com novos dados assim que eles forem gerados. O termo online não significa "conectado na rede", mas sim literalmente "em linha", no que tange ser sequencial e incremental.

Essa abordagem é muito boa quando não há muita potência computacional, ou quando os dados são gerados e variam de forma frequente, por exemplo no mercado de ações.

#### Taxa de aprendizado

É a rapidez com que os sistemas de aprendizado online devem se adaptar às mudanças dos dados.

Uma taxa de aprendizado alta significará que o sistema irá aprender e se adaptar rapidamente aos novos dados, mas pode esquecer o que foi aprendido com os mais antigos. Uma taxa baixa de aprendizado quer dizer que o sistema irá demorar mais para aprender com as novas amostras de dados, mas manterá uma maior consistência e não irá ser tão impactado com as novas amostras, que podem incluir anomalias.

#### Generalização

É a habilidade do sistema de conseguir prever ou classificar um dado que ele ainda não conhece.

"Dada uma série de exemplos de treinamento, o sistema precisa ser capaz de generalizar em exemplos que nunca viu antes."

#### Aprendizado baseado em instância

O sistema aprende de acordo com o que ele já aprendeu, comparando as amostras novas com as antigas que ele já sabe. Isso requer uma *medida de similaridade*, isso é, o quão parecido o novo exemplo é de algum dos exemplos conhecidos.

#### Aprendizado baseado em modelo e Regressão Linear

A partir de um conjunto de exemplos, é construído um modelo desses exemplos, capaz de fazer *previsões*.

#### Regressão Linear

Esse modelo pode ser uma função linear por exemplo, que o engenheiro acredita que possa ser utilizada para representar o problema. Esse ato é chamado de *seleção de modelo*. O engenheiro selecionou um modelo linear para um determinado problema. Esse modelo pode representar qualquer função linear, basta ajustar os *parâmetros do modelo*.

Para descobrir qual é a melhor funcão linear para seu problema, é necessário descobrir quais são os melhores parâmetros. Para isso, é necessário especificar uma medida de desempenho. Essa medida pode ser uma *função de utilidade* (ou *função fitness*) que mede o quão bom o modelo é, ou pode ser uma *função de custo*, que mede o quão *ruim* ele é.

Problemas de regressão linear normalmente utilizam uma função de custo que mede a distância entre as previsões do modelo linear e os exemplos de treinamento, com o objetivo de minimizar essa distância.

Ao alimentar com exemplos de treinamento um algoritmo de regressão linear, ele encontra os parâmetros que tornam o modelo linear mais adequado para os dados. Isso é chamado de *treinar* o modelo.

#### Inferência

Aplicar o modelo para fazer previsões em novos casos.

## Principais Desafios do Aprendizado de Máquina

### Quantidade Insuficiente de Dados de Treinamento

Algoritmos de aprendizado de máquina necessitam de milhares ou até milhões de exemplos para aprenderem. Em 2001, pesquisadores da Microsoft mostraram como diferentes algoritmos conseguem desempenho similar ao serem alimentados com grandes quantidades de dados. Isso levanta uma discussão entre o que é mais vantajoso, melhorar os algoritmos ou desenvolver mais o *corpus*. No artigo de 2009 de Perter Norvig, intitulado "The Unreasonable Effectiveness of Data", ele aponta que, para problemas complexos, os dados são mais importantes do que os algoritmos.

### Dados de Treinamento não Representativos

Os dados à disposição precisam representar o problema em que se deseja resolver. Nos casos em que há poucos exemplos, ou mesmo com muitos exemplos porém não representativos, o modelo irá aprender uma função que não corresponde com a realidade.

"Ao utilizar um conjunto de treinamento não representativo, treinamos um modelo que dificilmente fará previsões precisas."

Se a amostra for muito pequena, existirá *ruído de amostragem*, isso é, dados não representativos como resultado do acaso.

Mesmo com amostras muito grandes, elas podem não ser representativas, **se o método de amostragem for falho**. Isso é chamado de *viés de amostragem*.

#### Viés de amostragem

Esse viés acontece quando os dados são recolidos de forma enviesada. Por exemplo, ao buscar informações tendenciosas, como a intenção de voto em uma eleição, é possível que as amostras fiquem enviesadas, de acordo com o método utilizado para a coleta da mesma. Se o método de coleta for via e-mail por exemplo, os dados serão enviesados ao assumir que todas as pessoas utilizam e possuem e-mail, e não aquelas com maior grau econômico. Nesse caso há um viés de amostragem, pois o resultado provavelmente favorecerá o candidato da classe alta, podendo ele não ser o favorito.

### Dados de Baixa Qualidade

Se os dados de treinamento estiverem cheios de erros, outliers e ruídos, devido a medições de baixa qualidade, o sistema terá mais dificuldade de detectar padrões subjacentes, e com isso, menos propício a um bom funcionamento.

Muitas vezes vale a pena perder um tempo limpando os dados de treinamento. A maioria dos cientistas de dados gasta uma parte significativa de seu tempo fazendo isso.

### Características Irrelevantes

O sistema só será capaz de aprender se os dados de treinamento contiverem características relevantes suficientes e poucas características irrelevantes. Uma parte crítica do sucesso de um projeto de Aprendizado de Máquina é criar um bom conjunto de características para o treinamento, processo chamado de *feature engineering*.

#### Feature Engineering

Esse processo envolve:
- *Seleção das características*: selecionar as mais úteis para treinar entre as existentes;
- *Extração das características*: combinar características existentes para produzir uma mais útil;
- Criação de novas características ao coletar novos dados.

### Sobreajustando os dados de treinamento

**Sobreajuste**: O modelo funciona bem nos dados de treinamento, mas não generaliza tão bem e com isso não consegue fazer previsões acuradas.

Quando o conjunto de treinamento possui um número reduzido de amostras, e/ou um número grande de ruído e outliers, os algoritmos de aprendizado de máquina podem detectar padrões incorretos que não fazem sentido para o problema, acontecendo assim um sobreajuste.

"O sobreajuste acontece quando o modelo é muito complexo em relação à quantidade e ao ruído dos dados de treinamento"

As possíveis soluções incluem:
- Simplificar o modelo ao selecionar um com menos parâmetros, reduzino o número de atributos nos dados de treinamento ou restringindo o modelo;
- Coletar mais dados de treinamento;
- Reduzir o ruído nos dados de treinamento, corrigindo erros de dados e removendo outliers.

**Regularização**: Quando restringimos um modelo para simplificar e reduzir o risco de sobreajuste.

Por exemplo, um modelo linear com dois parâmetros pode ajustar a sua linha tanto em relação à altura como ao à inclinação. Um modelo com apenas um parâmetros poderia somente ajustar sua altura, reduzindo demais assim a sua capacidade de se ajustar aos dados. Já um modelo com 3 ou mais parâmetros, poderia se ajustar perfeitamente ao conjunto de dados, porém não seria genérico o suficiente para lidar com novas amostras.

"Queremos encontra o equilíbrio certo entre o ajuste perfeito dos dados e a necessidade de manter o modelo simples o suficiente para garantir que ele generalize bem."

#### Hiperparâmetro

É um parâmetro de um algoritmo de *aprendizado*, e não do *modelo*. Como tal, não é afetado pelo próprio algoritmo de aprendizado; deve ser definido antes do treinamento e permanecer constante durante ele.

### Subajustando os dados de Treinamento

Ao contrário do sobreajuste, o subajuste ocorre quando o modelo é **muito simples** para o aprendizado da estrutura subjacente dos dados. A realidade é mais complexa do que o modelo, por isso suas previsões tendem a ser imprecisas mesmo nos exemplos de treinamento.

As principais opções para resolver esses problemas são:
- Selecionar um modelo mais poderoso, com mais parâmetros;
- Alimentar o algoritmo de aprendizado com melhores características (*feature engineering*);
- Reduzir as restrições no modelo (por exemplo, reduzindo o hiperparâmetro de regularização).

### Testando e Validando

A taxa de erro em novos casos é chamada de *erro de generalização*(ou *erro fora da amostra*). Ao avaliar o modelo no conjunto de teste, obtêm-se uma estimativa desse erro.

"Se o erro de treinamento for baixo (ou seja, seu modelo comete alguns erros no conjunto de treinamento), mas seu erro de generalização é alto, isso significa que seu modelo está se sobreajustando aos dados de treinamento."

Para evitar o sobreajuste você pode optar por ajustar os hiperparâmetros de regularização, porém assim você acaba sobreajustando o modelo no conjunto de teste, que por sua vez pode não condizer com a realidade. Para resolver esse problema, é possível utilizar um segundo conjunto de retenção chamado de *conjunto de validação*.

Você treina vários modelos com vários hiperparâmetros utilizando o conjunto de treinamento, seleciona o modelo e os hiperparâmetros que atuam melhor no conjunto de validação e, quando estiver satisfeito, executa um único teste final no conjunto de teste para obter uma estimativa do erro de generalização.

#### Validação Cruzada

Para evitar "desperdiçar" muitos dados de treinamento, é possível utilizar validação cruzada: O conjunto de treino é dividido em subconjuntos, sendo que cada modelo é treinado com uma combinação distinta desses subconjuntos, posteriormente sendo validado com os conjuntos restantes. O melhor modelo e seus hiperparâmetros são finalmente treinados com o conjunto completo de treinamento e o erro generalizado é medido no conjunto de testes.

### Exercícios

#### 1) Como você definiria o Aprendizado de Máquina?

A ciência de aperfeiçoar a solução de um problema a partir de exemplos de dados.

#### 2) Você saberia nomear quatro tipos de problemas nos quais o AM se destaca?

Classificação, previsão, agrupamento, segmentação.

*problemas complexos que não temos solução algorítmica, para substituir longas listas de regras ajustadas à mão, para construir sistemas que se adaptam a ambientes flutuantes e para ajudar humanos a aprender.*

#### 3) O que é um conjunto de treinamento rotulado?

É um conjunto de amostras de dados acompanhadas pela sua categorização.

#### 4) Quais são as duas tarefas supervisionadas mais comuns?

Classificação e regressão.

#### 5) Você consegue nomear quatro tarefas comuns sem supervisão?

Agrupamento, normalização, ...

*Clustering, visualização, redução da dimensionalidade e aprendizado de regras de associação.*

#### 6) Que tipo de algoritmo de Aprendizado de Máquina você utilizaria para permitir que um robô ande em vários terrenos desconhecidos?

Um algoritmo não supervisionado, online e baseado em instância. Porque assim ele poderia aprender instantâneamente com os novos terrenos, utilizando como base o que ele já viu, e classificando puramente a partir do que ele está vendo.

*Aprendizado por Reforço*

#### 7) Que tipo de algoritmo você utilizaria para segmentar seus clientes em vários grupos?

Um algoritmo semi-supervisionado, em lotes e baseado em modelo. Assim ele vai criar seus próprios agrupamentos, aprendendo a partir dos dados mas também com as sugestões e correções dos clientes. Re aprendendo a cada dia que passa e elaborando um modelo que se encaixa melhor nessa distribuição, prevendo assim os próximos clientes que viriam chegando.

#### 8) Você enquadraria o problema da detecção de spam como um problema de aprendizado supervisionado ou sem supervisão?

Depende, já que isso é um problema conhecido a priori, pode ser considerado supervisionado, pois o engenheiro é capaz de descrever o problema com clareza e assim elaborar um algoritmo bom. Mas caso o spam seja algo novo e ainda não explorado, poderia ser visto como um caso de sem supervisão, deixando o algoritmo como encarregado de detectar. Eu diria que em um primeiro momento ele é semi-supervisionado, agrupando com o que ele já tem e posteriormente aprendendo no decorrer da utilização dos usuários e suas classificações manuais.

#### 9) O que é um sistema de aprendizado online?

É um sistema que aprende de forma incremental, que recebe os dados de forma sequencial e em pequenos pedaços, aprendendo assim sucessivamente no decorrer da alimentação de exemplos e dados.

#### 10) O que é o *out-of-core learning*?

É o aprendizado a partir de pedaços sequenciais dos dados que não estão presentes na máquina local, sendo requisitados de forma externa.

#### 11) Que tipo de algoritmo de aprendizado depende de uma medida de similaridade para fazer previsões?

O algoritmo não supervisionado.

#### 12) Qual a diferença entre um parâmetro de modelo e o hiperparâmetro do algoritmo de aprendizado?

O hiperparâmetro do algoritmo de aprendizado é uma constante utilizada para ajustar o valor do parâmetro de modelo.

#### 13) O que os algoritmos de aprendizado baseados em modelos procuram? Qual é a estratégia mais comum que eles utilizam para ter sucesso? Como fazem previsões?

Esses algoritmos procuram uma função que represente de forma genérica porém com acurácia os dados esperados. A estratégia mais comum que eles utilizam para ter sucesso é o ajuste dos parâmetros a partir de uma função de perda que seja capaz de quantificar o quão próximo estão do resultado esperado. Eles fazem previsões a partir da função modelada no treinamento.

#### 14) Você pode citar quatro dos principais desafios no Aprendizado de Máquina?

Dados que não representam bem o problema, dados com baixa qualidade, poucos dados e sobreajuste dos modelos.

#### 15) Se o seu modelo é ótimo nos dados de treinamento, mas generaliza mal para novas instâncias, o que está acontecendo? Você pode nomear três soluções possíveis?

Está ocorrendo o sobreajuste. O seu modelo está muito específico para os dados de treino e não generalizam bem. Para corrigir isso é possível obter mais amostras, simplificar o modelo ou melhorar as características dos dados.

#### 16) O que é um conjunto de testes e por que você o utilizaria?

Um conjunto de testes é um conjunto que não foi utilizado para treinar o modelo e possui amostras de dados que o modelo desconhece. Eu utilizaria esse conjunto para avaliar na prática o quão bom o meu modelo conseguiu generalizar o problema, estimando assim o quão eficaz e acurado o meu modelo é em produção.

#### 17) Qual é o propósito de um conjunto de validação?

Validar os hiperparâmetros do modelo que foi treinado. Assim é possível ajustar o modelo sem que ele fique sobreajustado ao conjunto de teste.

#### 18) O que pode dar errado se você ajustar os hiperparâmetros utilizando o conjunto de teste?

É possível que ele fique sobreajustado ao conjunto de teste e assim não generalize bem com as novas amostras.

#### 19) O que é validação cruzada e por que você preferiria usá-la ao invés de um conjunto de validação?

A validação cruzada é a técnica de dividir o conjunto de treino em subconjuntos e treinar cada um dos modelos com uma combinação variada deles. Posteriormente os conjuntos que sobram são utilizados para a validação. O melhor modelo é treinado por fim com o conjunto completo de treino e depois validado uma única vez no conjunto de teste. É preferível utilizar esse tipo de validação para assim não desperdiçar muitas amostras de teste(?).