# Aprendizado de Máquina

+ Aprendizado de Máquina é uma área de IA cujo objetivo é o desenvolvimento de técnicas computacionais sobre o aprendizado bem como a construção de sistemas capazes de adquirir conhecimento de forma automática
+ Um sistema de aprendizado é um programa de computador que toma decisões baseado em experiências acumuladas através da solução bem sucedida de problemas anteriores
+ Nas últimas décadas o aprendizado de máquina tornou-se um dos pilares em tecnologia da informação
+ Embora hoje seja parte central do nosso cotidiano, seus conceitos não são claros para a maioria da pessoas

## Exemplos

+ Ranqueamento de páginas web
    + Em uma busca na web o motor de busca retorna os resultados mais relevantes
    + Como classificar a relevância das páginas encontradas?
![alt_text](ranqueamento.png)    

## Exemplos

+ Filtro colaborativo
    + Livrarias como a Amazon ou serviços de streaming como o Netflix usam essa informação para sugerir livros, filmes ou séries
    + Essa sugestão pode ser "aprendida" com base em compras passadas do próprio usuário ou de decisões tomadas por usuários parecidos
![alt_text](filtro_colaborativo.png)        

## Exemplos

+ Tradução automática
    + Documentos traduzidos podem servir de exemplo para a aprendizagem de um tradutor automático
+ Reconhecimento de discurso
    + Traduzir um áudio em texto
    + Traduzir um texto escrito a mão em um texto digitado    

## Exemplos

+ Classificador
    + Dada a foto de uma pessoa um sistema de segurança pode tentar identificar em sua base de dados quem é aquela pessoa
    + Ou ainda, o sistema pode verificar se aquela pessoa é quem realmente diz ser
![alt_text](verificacao.png)

[![O dilema das fritas enroladas](video.png)](https://www.ted.com/talks/jennifer_golbeck_the_curly_fry_conundrum_why_social_media_likes_say_more_than_you_might_think?language=pt-br#t-1752 "O dilema das fritas enroladas")

### Classificação

+ Problema comum em aprendizado de máquina
+ Exemplo: filtro de spam
    + Depende do usuário a classificação de um e-mail em spam ou não
+ Exemplo: Diagnosticar câncer em um paciente com base em dados histológicos
+ Estes são exemplos de classificação binária
![alt_text](classificacao_binaria.png)

### Dados

+ É útil caracterizar os problemas de aprendizagem de acordo com o tipo de dados que eles trabalham
+ Isso possibilita que quando novos desfios são encontrados com tipos de dados similares, técnicas similares possam ser utilizadas
+ Por exemplo, processamento de linguagem natural e bioinformática usam técnicas bastante similares para tratarem as strings enconytradas nos textos de linguagem natural e nas sequências de DNA
+ Os **vetores** constituem a entidade básica para codificar os dados trabalhados em aprendizado de máquina.

### Dados

+ Por exemplo, para uma companhia de seguro de vida seria interessante obter um vetor de variáveis  (pressão sanguínea, batimentos cardíacos, altura, peso, nível de colesterol, fumante, gênero) para inferir a expectativa de vida de um cliente em potencial.
+ Um engenheiro pode querer descobrir dependências entre pares (voltagem, corrente).

### Dados

+ Referência: http://dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Conceitos-Definicoes.pdf
+ De maneira geral, dados pares (x,f(x)), inferir f.
![alt_text](dados.png)

### Dados

+ Dada uma amostra finita, normalmente é impossível determinar a verdadeira função f.
+ Abordagem: Encontre uma hipótese ( modelo ) nos exemplos de treinamento e assuma que a hipótese se repita para exemplos futuros também

### Exemplos

+ [Chemistry world](https://www.chemistryworld.com/1616.tag)
    + [Ligand selector steers C–N cross-couplings down most sustainable path](Ligand.pdf)
    + [Neural network folds proteins a million times faster than its competitors](Neural.pdf)
    + [Algorithm accurately predicts mechanical properties of existing and theoretical MOFs](MOF.pdf)
    + [Lithium–ion battery book written by machine learning algorithm](Lithium.pdf)


### Dados

![alt_text](dados2.png)
+ $f: X_1 \times X_2 \times X_3 \times X_4 \rightarrow Y$

## Problemas

+ Classificação binária
+ Classificação multiclasse
+ Estimativa estruturada
+ Regressão
+ Detecção de novidades

## Hierarquia do aprendizado
![alt_text](hierarquia_aprendizado.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado2.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado3.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado4.png)

## AS X AnS
+ Aprendizado Supervisionado
    + Compreender o relacionamento entre os atributos e a classe
    + Predizer a classe de novos exemplos o melhor possível
+ Aprendizado Não Supervisionado
    + Encontrar representações úteis dos exemplos, tais como:
        + Encontrar agrupamentos (clusters)
        + Redução da dimensão
        + Encontrar as causas ou as fontes ocultas dos exemplos
        + Modelar a densidade dos exemplos

## Exemplo, Atributo e Classe
+ Exemplo
    + Exemplo, caso, registro ou instância
    + É um conjunto fixo de atributos
    + Um exemplo descreve o objeto de interesse, tal como um paciente, exemplos médicos sobre uma determinada doença ou histórico de clientes de uma dada companhia
+ Atributo
    + Atributo, campo ou característica (feature)
    + Uma única característica de um exemplo
+ Classe
    + Atributo especial que descreve o fenômeno de interesse (somente no Aprendizado Supervisionado)

## Exemplo, Atributo e Classe
![alt_text](exemplos.png)

## Conjuntos de Exemplos

+ Em geral, um conjunto de exemplos é dividido em dois subconjuntos disjuntos:
    + conjunto de treinamento que é usado para o aprendizado do conceito e o
    + conjunto de teste que é usado para medir o grau de efetividade do conceito aprendido
+     Os subconjuntos são disjuntos para assegurar que as medidas obtidas utilizando o conjunto de teste sejam de um conjunto diferente do usado para realizar o aprendizado, tornando a medida estatisticamente válida

## Erro aparente
![alt_text](erro1.png)

## Erro verdadeiro
![alt_text](erro2.png)

## Preparação de dados

+ Fase que antecede o processo de aprendizagem, para facilitar ou melhorar o processo.
+ Exemplos:
    + remover exemplos incorretos
    + transformar o formato dos exemplos para que possam ser usados com um determinado indutor
    + selecionar um subconjunto de atributos relevantes (FSS – Feature Subset Selection)

## Sobreajuste (overfitting)

+ A hipótese extraída a partir dos exemplos é muito específica para o conjunto de treinamento
+ A hipótese apresenta um bom desempenho para o conjunto de treinamento, mas um desempenho ruim para os casos fora desse conjunto
![alt_text](overfitting.png)

## Subajuste (underfitting)

+ A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento como no de teste
![alt_text](overfitting_underfitting.png)

## Dado, Informação, Conhecimento

+ Dado: é a estrutura fundamental sobre a qual um sistema de informação é construído
+ Informação: a transformação de dados em informação é freqüentemente realizada através da apresentação dos dados em uma forma compreensível ao usuário
+ Conhecimento:
    + Fornece a capacidade de resolver problemas, inovar e aprender baseado em experiências prévias
    + Uma combinação de instintos, idéias, regras e procedimentos que guiam as ações e decisões

## Estrutura
![alt_text](estrutura.png)

## Importante

+ Dado não é Informação
+ Informação não é Conhecimento
+ Conhecimento não é Inteligência
+ Inteligência não é Sabedoria

## Quimiometria

+ Talvez a principal aplicação de aprendizado de máquina em química se dê no campo de pesquisa conhecido como **quimiometria**.
+ Algumas definições de quimiometria:
    + A quimiometria é a aplicação de ferramentas matemáticas e estatísticas à química (Bruce Kowalski).
    + Quimiometria é a aplicação de estatística  à análise de dados químicos (de química orgânica, analítica ou de química medicinal) e o planejamento de experimentos químicos e simulações (IUPAC).
    + Quimiometria é a disciplina química que usa métodos matemáticos e estatísticos para:
        + planejar ou otimizar procedimentos experimentais; e
        + extrair o máximo da informação química relevante, através da análise dos dados (Bruce Kowalski).
    + Quimiometria é o que os quimiometristas fazem (Quimiometrista anônimo).

## Quimiometria

+ Na parte de análise de dados os principais métodos usados em quimiometria são:
    + Análise exploratória (aprendizado não supervisionado)
        + HCA
        + PCA
    + Métodos de regressão (aprendizado supervisionado)
        + MLR
        + PCR
        + PLS
    + Métodos de classificação (aprendizado supervisionado)
        + KNN
        + SIMCA
        + PLS-DA
        + SVM