# Predição - o uso mais comum em Machine Learning

A tarefa da **predição** (**prediction**) é uma das mais importantes que podem ser feitas utilizando métodos de Machine Learning.

### 1. Definição e exemplos

Em inglês você encontrará quatro termos: **prediction, prevision, foresight** e **forecast**. Apenas não se preocupe, os três últimos significam a mesma coisa. O padrão utilizado pela comunidade é o seguinte:
- Em português utilizamos **predição** e **previsão**.
- Em inglês utilizamos **prediction** e **forecast**.

Vamos diferenciar de maneira simples entre esses dois termos:
1. A **predição** realiza a estimação de resultados/dados futuros sem precisar de dados temporais atualizados;
2. Já a **previsão** realiza a mesma tarefa, porém exige **dados do momento**.

Fica mais fácil ainda de entender exemplificando com aplicações reais:

#### **Predições**:
1. predizer o tempo que leva uma rota no Maps, ou uma viagem no Uber **levando em conta a distância e meio de transporte**;
2. predizer quantas e quais pessoas clicarão em um anúncio ou realizarão uma compra **levando em conta dados obtidos no passado**.

#### **Previsões**
1. Prever o clima, qualidade do ar, risco de chuva em dias e até semanas. Para isso necessita de dados **em tempo real**;
2. Prever o tempo que leva uma rota no Maps, ou uma viagem no Uber **levando em conta o trânsito e o risco de chuva em tempo real**.


### 2. Etapas para realizar uma predição com ML

Para realizar uma predição com Machine Learning, precisamos passar por algumas etapas:
1. Definir **o que queremos predizer**;
2. Colher e preparar os **dados** (pode ser o passo número um também);
	1. Caso não tenhamos dados suficientes, **voltar à etapa 1**, colher mais dados ou escolher algo diferente a predizer.
3. **Treinar e avaliar modelos** de predição;
	1. Caso necessário, **voltar à etapa 2**, modificar o dataset (acrescentar dados, colunas, manipular dados) para que o treinamento tenha mais eficiência.
4. **Predizer** um evento com base em dados (que não foram utilizados no treinamento) através do modelo criado.
	1. **Voltar à etapa 3** para realizar mais treinamentos e melhorar a eficácia do modelo de predição.
    
    
Percebeu como essas etapas se cruzam constantemente? É comum voltar alguns passos atrás durante a criação de um modelo de predição. A última etapa, a da **predição** não é o objetivo final. É nela que executamos o modelo com base em um _dataset_ que não foi utilizado no treinamento, então observamos o que pode ser melhorado em relação aos dados e à eficiência e eficácia do treinamento.

Por fim, o que mais interessa nesse processo é o **modelo** final, com uma boa **performance de predição**. É através dele que realizaremos as predições futuras. 

Exemplo: um mês depois, novos dados são colhidos e utilizando o mesmo modelo, predições são feitas com uma performance semelhante.

**ATENÇÃO**: É importante notar que quanto maior o número de dados, mais diversas são as variantes e as relações entre elas. Com o passar do tempo, a eficiência do modelo **tende a diminuir**. Novos treinamentos podem ser feitos com base em novos dados!

Os métodos e algoritmos de Machine Learning trabalham para encontrar **a predição mais provável matematicamente**. Quanto maior o _dataset_, mais alta a chance de acerto. Uma predição só acertará 100% das vezes se todos os dados do mundo real estiverem disponíveis e se não depender de elementos que desviem os resultados. Exemplo:
1. Um modelo que prevê o resultado de um dado (de jogos de tabuleiro) nunca chegará em 100%, a menos que o treinamento utilize um dado viciado em um só número.
2. A predição de que uma pessoa é mais alta do que a outra só é possível se os dados estiverem atualizados com a altura dessa pessoa no momento.
3. Se uma mesma bola é solta no ar e cai ao chão 100 vezes, a predição será de 100%. 
    1. A porcentagem de acertos será 0% quando a gravidade da terra chegar a 0. Um novo treinamento deverá ser feito para que a taxa de acertos suba para 100% novamente.
    2. Caso um outro tipo de bola surja (uma que flutua por conta de gás hélio), realizaremos um treinamento com os dois tipos de bolas. A predição de que ela cairá ao chão será **próxima a 50%**.
    

No geral, quanto maior for o número de variantes e variáveis, **mais cai** as chances de um modelo predizer um evento. Através do treinamento, essas chances aumentam e podem alcançar **taxas incríveis**! 90% é uma taxa de acerto ótima, e em alguns casos **humanamente impossível**. 

Duas reflexões:
1. Quanto tempo um ser humano levaria para calcular a rota exata de uma viagem ao redor do mundo?
2. Quanto tempo um modelo de predição levaria para calcular a mesma rota? Dica: o tempo é menor do que uma volta ao redor do mundo.

Concluímos esse capítulo dizendo que o **Machine Learning** tem o poder de **predizer em segundos e com ótima eficácia** o que poderia levar **anos de uma equipe de cientistas de dados e matemáticos**.