# Semana 6: Predição e KNN (K-Nearest Neighbors)

**Video-aula:**
<a href="https://www.youtube.com/watch?v=wZ4XDI4PQ2E" target="_blank">Predição de Dados</a> | 
<a href="https://www.youtube.com/watch?v=4Dpf76AB9Js" target="_blank">Algoritmo KNN e Avaliação de Modelos</a> | 
<a href="https://www.youtube.com/watch?v=AaJB3sqtAME" target="_blank">Entrevista com Renata Castanha</a>

## Predição de dados

_"Anunciar antecipadamente o que deve acontecer"_

- Todas as vezes que se lê, assiste ou escuta uma abordagem sobre DS, rapidamente o termo "Predição" é colocado em pauta.
- É também esse termo que __cria__ uma relação de __diferença entre estudos de BI e de DS__, visto que tanto BI quanto DS __têm processos muito parecidos__, inclusive no contexto de Big Data, entretanto, entende-se que o __BI__ fomenta a __tomada de decisão__ baseado no que __já aconteceu__ e o __DS__ projeta a __tomada decisão__ baseado no que __aconteceu, e no que PREVÊ que acontecerá__.

### Análise preditiva
A __análise preditiva__, é a __capacidade de prever resultados e gerar insights futuros, com base em dados do passado (e do presente), com o uso de machine learning e modelagem estatística__.

- É um dos principais recursos e objetos de desejo de quem estuda DS.
- A análise preditiva tem sido utilizada pelas maiores empresas do mundo para tomar decisões nos mais variados segmentos e está atrelada a uma diversidade de aplicações e de possibilidades, que torna impossível enumerá-las.
  - Novas perspectivas nunca são demais. Quanto mais você consegue enxergar, melhores se tornam suas decisões — e __ficar no escuro não é uma boa opção__.
  - É preciso __saber o que o espera__, preferencialmente __antes das outras pessoas__.
    - _Exemplo: É como participar de um programa de TV em que você precisa escolher uma das portas para ganhar um prêmio surpresa. Elas são todas iguais, então tudo o que pode fazer é arriscar seu melhor palpite — a escolha depende de você e da sorte. Mas e se você tivesse uma vantagem — a capacidade de espiar pela fechadura? A análise preditiva proporciona essa vantagem._

- Resumindo, imagine um mundo em que seja possível maximizar o potencial de cada momento de sua vida. A vida seria produtiva, eficiente e poderosa.
- Você teria (de certo modo) superpoderes — e pouparia muito tempo.
- Esse mundo pode parecer um pouco chato para pessoas que gostam de assumir riscos não calculados, mas não para uma organização que visa lucros.
- As empresas gastam milhões em gerenciamento de riscos. E se existir algo que as ajude a gerenciar riscos, otimizar operações e maximizar lucros, com certeza você deveria conhecer.
<br>__Esse é o mundo da análise preditiva!__

### Predizendo
Podemos modelar comportamentos e predizer ações.

- Quais produtos os clientes visualizaram antes de comprar?
- Quais páginas os clientes visualizaram antes de comprar?
- Clientes que compraram olham descrições?
- Clientes que compraram leram comentários?
- Clientes que compraram leram comentários positivos e negativos?
- Compraram algum produto além do que estavam buscando?
- As casas vendidas em um determinado bairro têm algo em comum que as que não foram vendidas não têm?
- Clientes que cancelaram um plano (de algum produto ou serviço) tiveram que comportamento antes de solicitar o cancelamento?
- Produtos que venceram (ou chegaram perto disso) no estoque foram comprados em que período? Eles atendem uma demanda sazonal? Eles atendem ao fluxo de caixa da empresa?
- Produtos que foram comprados na "Promoção" do fornecedor realmente valeram a pena?
- O aumento da visibilidade de um produto ou serviço foi impactado diretamente pelo marketing pago nas redes sociais?

#### Oportunidade
__Organizações__ de todo o mundo esforçam-se para se __aprimorar, competir e economizar__.

- Buscam tornar seu __processo de planejamento mais ágil__, investigam como administrar inventários e otimizar as alocações de recursos para ter mais benefícios, e buscam __agir nas oportunidades__ conforme surgem em tempo real.
- A __análise preditiva pode tornar todos esses objetivos mais atingíveis__. Os domínios em que a análise preditiva pode ser aplicada são ilimitados; o campo está aberto, e vale tudo!

#### Compreensão para predizer
Quando se quer __prever um evento com alguma precisão__, é __necessário conhecer o passado e entender a situação atual__. 

Isso requer diversos processos:
  - Extrair os __fatos__ que estão __acontecendo no momento__.
  - __Distinguir os fatos passados daqueles que acabaram de acontecer__.
  - __Deduzir possíveis cenários__ (criar hipóteses) que poderiam ocorrer.
  - __Classificar os cenários__ (modelos de ML) de acordo com a probabilidade de acontecerem.

#### Combinar para predizer
As análises preditivas geralmente __nascem de três ingredientes principais__:

  - _Conhecimento de negócios_.
  - _Equipe de ciência de dados e tecnologia_.
  - _Os dados_.
- Embora a proporção desses três ingredientes varie de um negócio para outro, todos são necessários para uma solução de análise preditiva bem-sucedida que resulte em insights acionáveis!

#### Realizar a predição

- Já vimos várias etapas de um projeto de DS. Para executar o processo do ML, efetivar a predição, os passos são:
  - Carregar os dados.
  - Escolher um algoritmo que realize a tarefa de predição.
  - Treinar o modelo.
  - Visualizar o modelo.
  - Testar o modelo.
  - Avaliar o modelo.

### Como escolher o algoritmo?

- Essa é uma das __principais tarefas do cientista de dados__, _compreender a necessidade e as características dos projetos_ para poder decidir qual é o melhor algoritmo a ser utilizado.
- __Existe uma regra, uma tabela, uma dica?__
  - Pode até existir, mas __geralmente é a experiência__ com o uso e aplicação dos algoritmos que fortalece o conhecimento do cientista de dados sobre caminhos a serem seguidos.
  - Saber escolher o algoritmo __(sim, precisa testar mais de um)__, é uma das tarefas árduas do cientista de dados.
- É importante saber que os __algoritmos podem realizar tarefas diversas__.
- A __escolha__ dos algoritmos depende do __tipo de modelo__ adequado (supervisionado ou não supervisionado), que depende dos dados que se têm, e da __hipótese__ que se tem em mente.
- É importante também __compreender se é preciso fazer uma regressão, uma classificação, um agrupamento__.
- Há algoritmos que têm capacidade de implementar todos esses tipos de modelos.
- Uma __boa dica__ é começar os primeiros __estudos e projetos__ com algum __tipo de algoritmo_, e identificar se ele atende às necessidades, lembrando que mudanças nos atributos (dados de entrada), uso de diferentes técnicas de regularização, mudança nos parâmetros dos algoritmos (e muitos deles têm vários parâmetros) podem representar resultados muito diferentes.
- Observe: estamos tratando aqui apenas de mudanças para um algoritmo, em várias situações estarão disponíveis uma gama de algoritmos que realizam tarefas semelhantes com resultados diferentes.
- __A experiência e o aprofundamento__ no conhecimento sobre o __funcionamento de cada algoritmo vai tornar a tarefa da escolha mais fácil__, entretanto, a prática sempre mostra que alguns algoritmos, com customizações adequadas (com a experiência do profissional), vai sempre levar aos melhores resultados.
  - _Conhecer com profundidade tudo que um algoritmo pode entregar e quais são as características que impactam diretamente nos resultados é muito importante_.

#### SVM (Support Vector Machines)

Há muitas possibilidades para se aplicar modelos que possam gerar os melhores resultados. __Algoritmo SVM, da Scikit-Learn__.
- O algoritmo __serve para classificação, regressão e também para detecção de outliers__ (pode ser usado para pré-processamento).
- Veja que ele indica __vantagens__ de ser usado para __conjuntos de dados com dimensões grandes__ (muitos atributos) e ainda sugere eficácia para conjuntos de dados que a dimensão é maior que a amostra (mais atributos que linhas de dados).

### Finalizando

- Predição é __um dos objetivos a serem alcançados em projetos de DS__.
- A predição pode vir __por meio de uma regressão, de uma classificação, de um algoritmo x ou y__.
- Há uma __infinidade de algoritmos__, e _muitas características que determinam sua escolha_ (mesmo antes de se iniciar uma modelagem).
- O objetivo aqui não foi descrever cada um dos algoritmos, mas facilitar a compreensão de que é necessário experimentar e testar algoritmos para os projetos.
- Na próxima aula vamos nos dedicar a um algoritmo específico para trabalhar, o KNN (K-Nearest Neighbors).

## KNN (K-Nearest Neighbors)

_K-Vizinhos mais próximos_

### Conceitos

- KNN, também chamado de K-Vizinhos mais Próximos é um algoritmo bastante utilizado em vários projetos de DS.
- Veja que a Biblioteca Scikit-Learn disponibiliza uma grande variação de aplicações para o algoritmo.
- Pode ser __utilizado nos mais variados segmentos__ (áreas de negócios), veja que pode ser utilizado tanto para __classificação__ quanto para __regressão__.
  - Na __classificação__ a máquina irá dizer a que __grupo determinado registro faz parte__, dentro obviamente de um contexto de negócio.
  - Já a __regressão__ irá nos fornecer __um número/valor__, por exemplo o valor de mercado de uma determinada casa que será colocada à venda.
- O KNN é um dos __modelos preditivos mais simples__ que existem. Ele não possui premissas matemáticas e não requer nenhum tipo de maquinário pesado. Ele apenas requer:
  - Noção de distância
  - Premissa de que pontos que estão perto um do outro são similares.
- O KNN __determina pontos para cada registro__ e __estabelece unidades de distância entre esses pontos__.
- Algumas medidas de distância podem ser utilizadas:
  - Distância Euclidiana
  - Distância de Hamming
  - Distância Manhattan
  - Distância de Markowski
- Posteriormente, __para cada novo ponto, ele calcula a distância entre os K vizinhos mais próximos__.
  - _Procure sempre usar um K ímpar. E de acordo com os mais próximos ele é capaz de decidir sobre o novo ponto.

#### Avaliação de modelos

- De maneira geral, pode-se afirmar que não existe técnica universal, ou seja, não é possível estabelecer, a priori, que uma técnica de ML em particular se sairá melhor na resolução de qualquer tipo de problema.
- Por exemplo, em domínios em que os exemplos possuem alta dimensionalidade, as SVMs são boas candidatas, enquanto o algoritmo KNN usando a distância euclidiana pode, a princípio, não parecer uma escolha adequada.
- Mesmo com o uso dessas heurísticas, __diversos algoritmos podem ser candidatos__ à solução de um problema.
- Ainda que um único algoritmo seja escolhido, pode-se realizar __ajustes em seus parâmetros livres__, o que leva à obtenção de múltiplos modelos para os mesmos dados.
- Fica clara a necessidade de experimentação.
- Dessa forma, é recomendável seguir __procedimentos que garantam a correção, a validade e a reprodutibilidade dos experimentos__ realizados e, mais importante, das conclusões obtidas a partir de seus resultados.
- Essa __avaliação experimental__ de um algoritmo de ML pode ser realizada segundo diferentes aspectos, tais como:
  - _acurácia do modelo gerado, compreensibilidade do conhecimento extraído, tempo de aprendizado, requisitos de armazenamento do modelo, desempenho obtido nas predições realizadas, entre outros_.

#### Métricas

- A avaliação de um algoritmo de ML supervisionado é normalmente realizada por meio da análise do desempenho do preditor gerado por ele na rotulação de novos objetos, não apresentados previamente em seu treinamento.
- Métricas diferentes podem ser aplicadas para classificação, para regressão e também várias outras alternativas como amostragem, bootstrap, validação cruzada, curva roc, entre muitos outros.

##### Classificação

- Para classificação pode-se utilizar a acurácia, que é uma métrica que informa a porcentagem de vezes que o modelo acertou. Há outras alternativas mais complexas e que podem ser utilizadas também, como matriz de confusão, que permite determinar revocação e precisão por exemplo.

##### Regressão

- Para regressão é comum usar métricas que determinem a diferença de valor entre o valor previsto e o valor correto. Algumas medidas como distância média absoluta (Mean Absolute Distance - MAD) e erro quadrático médio (Mean Square Error - MSE), além das suas variações normalizadas, podem ser utilizadas.

##### Amostragem

- Uma métrica bastante utilizada é dividir os dados disponíveis em duas partes. Utiliza-se muito a proporção 75/25, mas não é regra (vai depender dos seus dados).
- Neste caso, utiliza-se a parte maior, chamada TREINO, para treinar o modelo e depois realiza-se a predição com a outra parte dos dados, chamada TESTE. Esse é um passo interessante antes de se colocar dados novos para testar o modelo.

##### Validação cruzada

- Essa métrica é conhecida como r-fold cross-validation.
- Métrica muito interessante, que usa o processo semelhante ao de amostragem, entretanto ele divide em vários subconjuntos de dados e repete o treinamento nos vários conjuntos.
- O desempenho final do preditor é dado pela média dos desempenhos observados entre cada conjunto de teste.

### Finalizando

- Abordamos o KNN, que é um algoritmo simples e que permite realizar vários tipos de operação (classificação, regressão…).
- Já conseguiu entender a diferença entre classificação e regressão? Pense sempre em um valor categórico (label) para classificação e um valor numérico para a regressão.
- As medidas para avaliação dos modelos são muito importantes.
- Na última semana nos dedicaremos a um projeto completo, com abordagem sobre todos esses elementos!

### Demonstração

## Quiz

1. Qual dos algoritmos apresentado na videoaula é capaz de fazer classificação, regressão e detecção de outliers?

- __Correta:__ Support Vector Machines.
- Naive Bayes.
- KNN.
- Kernel Ridge Regression.
- Decision Tree.

__Comentário da resposta:__ Você acertou! Essa é a alternativa correta. O algoritmo Support Vector Machines (SVM) é capaz de fazer classificação, regressão e detecção de outliers.

2. Qual é o nome do atributo alvo do dataset Iris Flower, usado para realizar o processo de classificação de dados?
- Sepal Width.
- __Correta:__ Target_name.
- Petal Length.
- Sepal Length.
- Petal Width.

__Comentário da resposta:__ Você acertou! Essa é a alternativa correta. O atributo é o Target_name que serve como alvo para o processo de classificação.

3. Na entrevista realizada com a Renata Castanha, ela falou um pouco da atuação como cientista de dados em uma das maiores empresas do Brasil, qual empresa é essa?
- USP
- Banco Itaú
- Google
- Nestlé
- __Correta: Ambev__

__Comentário da resposta:__ Você acertou! Essa é a alternativa correta. A Renata atua na Ambev.