# Introdução

Um dos primeiros sucessos comerciais em Inteligência Artificial foram os Sistemas Especialistas. Estes almejam substituir um tomador de decisão humano (o especialista) por meio da extração e formalização do processo decisório. Nestes sistemas o conhecimento é codificado em uma série de fatos e regras formais (frequentemente regras se…então), que são utilizados para realizar inferências utilizando a lógica.

<img src="imgs/expert_systems.png" alt="expert_systems" width="500" style="display:block; margin:auto"/>

<div align="center">
Fluxo de dados em um sistema especialista.
</div>

<br>

Entretanto existem problemas para os quais as regras não são bem definidas. Andar de bicicleta por exemplo, não existe uma definição sobre a sequência de passos a ser seguida para nos equilibrarmos, fazer curvas, desviar de buracos, etc. Neste tipo de problema, foco da área de aprendizado de máquina, a solução se dá através da tentiva e erro.

Os algoritmos de aprendizado de máquina ao invés de extrair as regras do especialista, coletam o histórico de informações acessíveis e as ações desejadas para então criar "regras" que procuram gerar as mesmas ações a partir das informações dadas. Ao invés de explicarmos como reconhecemos uma pessoa, apenas rotulamos dezenas ou centenas de imagens da pessoa, algo muito mais fácil ainda que tedioso, e deixamos um algoritmo de aprendizado de máquina descobrir como reconhecê-la em novas fotos futuras.

## O que é Aprendizado de Máquina ?

Muito se discute sobre o que deve ser considerado como Inteligência Artificial e o que são simplesmente sistemas de automação. Entretanto, no que se refere ao termo aprendizado de máquina seu conceito é bem definido: 

Primeiro conceito: O Campo de estudo que dá aos computadores a habilidade de aprender sem que sejam explicitamente programados. [\[Samuel, 1959\]](https://www.cs.virginia.edu/~evans/greatworks/samuel1959.pdf)

Formalização: Diz-se que um programa de computador aprende com a experiência E no contexto de alguma tarefa T e alguma medida de performance P, se seu desempenho em T, como foi medido por P, melhora com a experiência E. [\[Mitchel, 1998\]](https://www.cin.ufpe.br/~cavmj/Machine%20-%20Learning%20-%20Tom%20Mitchell.pdf)

Em um filtro de spam, segundo Mitchel, a experiência E é caracterizada pelo monitoramento dos emails que o usuário marca como spam, a tarefa T pelo processo de classificação dos emails e a performance P pela quantidade de emails classificados corretamente.

A etapa de aprendizado dos algoritmos também denominada de treinamento divide os algoritmos em dois grandes grupos: Supervisionados e Não Supervisionados.

## Aprendizado Supervisionado

Classe de problemas em que existe rotulação dos dados, ou seja, para pelo menos uma fração dos dados de entrada é conhecida a saída desejada. A execução destes algoritmos é divida em duas etapas. A primeira, denominada de treinamento, compreende o fornecimento dos dados rotulados ao algoritmo para que seja estimado um modelo que mapeia as entradas nas saídas. A segunda, denominada de generalização, consiste em utilizar o modelo estimado para obter saídas adequadas também para entradas não presentes durante a fase de treinamento.

<img src="imgs/supervised_learning_flow.png" alt="supervised_learning_flow" width="300" style="display:block; margin:auto"/>

<div align="center">
Fluxo de dados em um algoritmo de aprendizado de máquina treinado de forma supervisionada.
</div>

## Aprendizado Não Supervisionado

Classe de problemas em que não existe rotulação prévia dos dados, ou seja, possuímos somente as entradas para o algoritmo. Em nenhum momento é informado ao algoritmo a qual categoria as entradas pertencem. Nestes problemas normalmente são empregadas estratégias de agrupamento baseadas na similaridade das entradas. 

<img src="imgs/unsupervised_learning_grouping.png" alt="unsupervised_learning_grouping" width="200" style="display:block; margin:auto"/>

<div align="center">
Agrupamento das entradas em função da similaridade.
</div>

<br>

São exemplos de aprendizado não supervisionado: o google news que agrupa notícias de sites distintos que se referem a um mesmo tema e o facebook que estima quais são seus amigos mais próximos em função da sua interação com eles.

Outro exemplo de algoritmo não supervisionado é o que separa o áudio de duas fontes distintas [Cocktail Party Algorithm](https://en.wikipedia.org/wiki/Cocktail_party_effect). Em nenhum momento é informado ao algoritmo qual trecho do áudio pertence a qual fonte. Uma generalização ocorre quando após aprender a separar a voz de duas pessoas, o algoritmo também passa a separar a voz de uma música de fundo.

Os algoritmos de aprendizado de máquina ainda podem ser classificados conforme a natureza da variável de saída do algoritmo, novamente dois grupos são formados, os algoritmos destinados aos problemas de regressão e os destinados aos problemas de classificação.

## Regressão

Os algoritmos de aprendizado destinados aos problemas de regressão tem como saída do modelo um valor **contínuo**.

<img src="imgs/regression.png" alt="regression" width="400" style="display:block; margin:auto"/>

<div align="center">
Exemplo de problema de regressão.
</div>

<br>

Um exemplo de problema de regressão consiste em estimar o valor de venda de um imóvel em função do seu tamanho. Durante o treinamento é fornecido ao algoritmo uma relação de tamanhos de imóveis para os quais o preço é conhecido. Posteriormente é esperado que o algoritmo generalize fornecendo o valor de venda para tamanhos de imóvel que não foram fornecidos durante o treinamento.

## Classificação

Os algoritmos de aprendizado destinados aos problemas de classificação tem como saída do modelo um valor **discreto**.

Nestes casos o objetivo consiste em mapear a entrada em um determinado grupo de tamanho finito. A figura abaixo ilustra um algoritmo de classificação que determina, baseado no tamanho do tumor e na idade da pessoa, se o câncer é maligno. 

<img src="imgs/classification.png" alt="classification" width="300" style="display:block; margin:auto"/>

<div align="center">
Exemplo de problema de classificação.
</div>

<br>

No exemplo dado a decisão é decisão binária, portanto, discreta. 


## Notação

Durante o restante deste livro a seguinte notação é empregada:

* $x$ -> entradas
* $y$ -> saída
* $\theta$ -> parâmetros do modelo
* $h(\theta)$ -> modelo estimado no treinamento
* $J(\theta)$ -> função custo
* $m$ -> número de conjuntos de treinamento
* $(x^{i}, y^{i})$ -> i-ésimo conjunto de treinamento em que $i \in [1, m]$
* $(\theta^{k}_{0}, \theta^{k}_{1})$ -> k-ésimo conjunto de parâmetros
* $n$ -> número de entradas
* $x_{j}$ -> j-ésima entrada em que $j \in [1, n]$
* $x_{j}^{i}$ -> i-ésimo dado de treinamento da j-ésima entrada
