<a href="https://colab.research.google.com/github/crdamke1984/studyML/blob/main/studyML_Chapter1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aprendizado de Máquina (Machine Learning)**
> O que é o ML? \\
> É a ciência da programação de computadores para que eles possam *aprender com os dados* (Aurélien Géron, 2019) \\
---
> *Conjuntos de Treinamentos* são os exemplos utilizados pelo sistema para o aprendizado
---
> *Instância de Treinamento (ou Amostra ou Exemplo)* é cada exemplo do conjunto de treiamento. É um objeto de interesse a ser observado.
---
> *Acurácia* é a medida de desempenho de uma dada tarefa
---
> **Aprendizado Supervisionado** -> Neste aprendizado, o algoritmo de ML recebe os exemplos pré-rotulados e tenta obter o melhor classificador $f: X ⟶ Y$ possível. Neste caso, é possível prever o rótulo, para exemplos invisíveis com precisão.
---
>**Aprendizado Não Supervisionado** -> Está associado ao processo de construção de modelos após análise de semelhanças entre os dados de entrada.












## **Aprendizado Supervisionado**
>Como abordado anteriormente, o objetivo do aprendizado supervisionado é obter o melhor classificador $f: X ⟶ Y$ possível para um dado problema. O algoritmo responsável por obter tal classificador é chamado de *algoritmo classificador*. Este classificador $f$ calcula para cada *exemplo* de entrada $x \in X$ uma única classe $y\in Y$. A pergunta é: 'Como buscar esse classificador?'

### Exemplo
> Considere um banco que recebe diversos pedidos para emissão de cartão de crédito. Essa emissão deve levar em conta diversos fatores (salário anual, anos de residência, empréstimos pendentes, etc) e tais informações devem estar em um banco de dados. Estes dados devem orientar a construção de uma fórmula que decidirá a emissão ou não de um cartão de crédito. Vamos para nomenclatura matemática: \\
Seja $ x $ as informações do cliente, o aprendizado de máquina procura obter uma função, chamada de **função alvo** $$f: X ⟶ Y $$, que no exemplo é a fórmula ideal para aprovação do crédito, onde $ X$ é o conjunto (ou espaço) de todas as possíveis entradas $x$ e $Y$ é o conjunto (ou espaço) de todas as possíves saídas, no caso do exemplo, seria 'sim' ou 'não'. \\
Considere um conjunto de dados (dataset ou *conjunto de treinamento*) $D =\{ (x_1,y_1), (x_2,y_2), \cdots , (x_n,y_n) \}$, onde $ y_n = f(x_n)$, formado por clientes anteriores e as respectivas decisões de emissão de cartão de crédito. Cada exemplo de $D$ é uma *amostra ou instância de treinamento*.\\
Logo, existe um algoritmo de aprendizagem que usa o conjunto de treinamento $D$ para escolher uma fórmula $g: X ⟶ Y$ que aproxima a função alvo $f$. \\
O algoritmo de ML escolhe $g$ de um conjunto de funções candidatas à fórmula, que é denotado por *conjunto de hipóteses* $H$. Por exemplo, o conjuto de hipóteses $H$ poderia ser o conjunto de todas as funções lineares nas quais o algoritmo escolheria o melhor ajuste linear dos dados. \\
Voltando ao exemplo do banco, quando um cliente fosse pedir um cartão de crédito ao banco, ele iria utilizar a função $g$ para a tomada de decisão e não a função alvo $f$ que é a função ideal e é desconhecida.

### Exercício
Especifique cada uma das seguintes tarefas na estrutura de dados a partir de dados, especificando o espaço de entrada $X$, o espaço de saída $Y$, a função alvo $f: X ⟶ Y$, e as especificidades do conjunto de dados no qual aprenderemos:
*   Diagnóstico médico: Um paciente chega com um histórico médico e alguns sintomas e você quer identificar o problema;
> $X =$ exames laboratoriais \\
$Y=$ lista de possíveis doenças \\
$f$ coleta uma amostra $x$ de $X$ e indica qual doença o paciente possui. \\
As amostras do Conjunto de treinamento poderiam ser históricos médicos de pacientes que estão armazenados/arquivados.  
*   Reconhecimento de dígitos manuscritos (reconhecimento de CEP)
> $X = $ CEP manuscrito \\
$Y=$ O endereço referente ao CEP \\




## Um modelo simples de aprendizado
>Dado um problema específico de aprendizagem, a função alvo e os dados de treinamento são informados pelo problema. Por outro lado, o algoritmo de aprendizagem e o conjunto de hipósteses não os são, e essas são as ferramentas que podemos escolher. O conjunto de hipóteses e o algoritmo de aprendizagem são chamados informalmente de *modelo de aprendizagem*.
### O modelo
> Sejam $X = \mathbb{R}^d$ um espaço de entrada e o espaço de chegada $Y = \{-1,+1\}$ (sim ou não na decisão). Observe que $Y$ é um espaço binário. Nosso conjunto de hipóteses $H$ é formado por funcionais $h \in H$ compartilhados. \\
O funcional $h(x)$ que aqui escolhemos, dá pesos diferentes para as coordenadas $x=(x_1, \cdots , x_d ) $ refletindo a sua importância na tomada de decisão (Recorde o exemplo do banco, as coordenadas de $x=(x_1, \cdots , x_d ) $ são o salário, anos de residência, número de dívidas, etc. Estas coordenadas têm pesos diferentes no nosso modelo). As coordenadas ponderadas são combinadas para assim formar um *score de crédito* e o resultado é comparado com um valor limite. Se a aplicação limite passa o limite, então o crédito é aprovado, caso contrário é negado. Matemáticamente:
*   Crédito aprovado se: $\displaystyle  \sum_{i=1}^{d} w_i x_i > L$
*   Crédito reprovado se: $\displaystyle  \sum_{i=1}^{d} w_i x_i < L $ \\
>onde $w_i$ são os pesos e $L$ o limite \\
Podemos reescrever compactamente essa função como
$$ h(x) = sign \Bigg( \Big(\sum_{i=1}^{d} w_i x_i \Big) +b \Bigg)$$
$$ h(x) = \left\{ \begin{array}{rl}+1,& se \,\,\, \Big( \sum_{i=1}^{d}w_i x_i \Big) +b > 0 \\ -1, & se \,\,\,  \Big(\sum_{i=1}^{d} w_i x_i \Big) +b <0  \end{array} \right.$$  
> onde $b=-L$ é chamado de tendência ou viés (bias). Este modelo do conjunto de hipóteses $H$ é conhecido como *perceptron* e está inserido no contexto da Inteligência Artificial. O algortimo de aprendizagem irá procurar em $H$ através dos pesos e tendências (viés) que funcionam bem no conjunto de dados. O valor do limite $L$ vai refletir o quão o banco é rigoroso na análise do crédito. A escolha ótima dos pesos e viés define a hipótese final $g \in H$ que o algoritmo produz.


