# Aula 1 - Machine Learning - Introdução

____________

A partir da aula de hoje, iniciaremos nossos estudos em Machine Learning.

Antes de começarmos, vamos dar uma olhada novamente em alguns conceitos, e no que vamos aprender neste módulo!

_______________

Anteriormente, vimos qual é a jornada de um projeto de data science:

<img src="https://www.abgconsultoria.com.br/blog/wp-content/uploads/img33-768x242.png" width=700>

## O que é "modelagem"?

Já vimos anteriormente do que se trata machine learning, em um sentido mais amplo.

Agora, o que exatamente é a "modelagem"? Ou melhor, **o que queremos alcançar ao construir um modelo?** 

Ou ainda, **o que um modelo representa?**

Em linhas gerais, construímos um modelo com o objetivo de **representar a realidade** de maneira quantitativa e matemática.

> Um modelo é uma descrição matemática/quantitativa de algum aspecto do problema que desejamos resolver

Muitaz vezes, nos interessa **descobrir relações** em nosso universo de interesse, como, por exemplo, como as variáveis **se relacionam para produzir determinado resultado** ou **como elas estão estruturadas**.

> É possível descobrir essas relações e estruturas partindo de uma **teoria**, em uma abordagem que chama-se **theory-driven**. Neste caso, partimos de **princípios fundamentais** para explicar o universo de interesse.

> Como a abordagem acima é quase sempre extremamente complexa ou inpraticável, partimos para a aboragem **data-driven**, na qual **coletamos amostras do universo de interesse**, e essa amostra é utilizada para que tiremos conclusões, descubramos relações, etc.

Observação: muitas vezes, **ambas as abordagens são utilizadas simultaneamente!** Elas não são exludentes!

Ambas as abordagens resultam em **um modelo** para descrever a realidade.

Mas, a segunda abordagem é **muito mais dependente da estatística**, para que seja possível avaliar **o quanto você pode confiar no modelo que você construiu**, ou ainda, **o quão útil ele é**.

## <i>"All models are wrong. But some are useful."


_______

Imagem da generalização para termos em mente:

<img src="https://phhp-faculty-cantrell.sites.medinfo.ufl.edu/files/2012/07/mod10-big_picture_inference.gif">

Quando utilizamos **Machine Learning** para construir um modelo, os detalhes desta representação são **determinados (“aprendidos”)** a partir de dados, empiricamente, em contraste a uma abordagem theory-driven.

Em geral, resolver um problema utilizando técnicas de ML é uma boa ideia se:

    • Há dados disponíveis sobre o problema em questão;

    • Existe um padrão que é refletido nos dados;

    • Uma descrição teórica não é praticável.

No fim, todo modelo será representado **por uma equação matemática**.

No entanto, essa equação pode ser extremamente complexa, de modo que raramente seremos capazes de escrever a equação completa. Mas não se preocupe com isso!

<img src="https://miro.medium.com/max/2404/1*yLvf2jr_TNkEe9PKYOBDkA.png" width=500>

<img src="https://st3.ning.com/topology/rest/1.0/file/get/2808372468?profile=original" width=500>

____

Muitas vezes, um modelo complexo não é necessário. 

Há problemas que são resolvidos com uma simples média!!

Então, é muito importante que você como cientista de dados **foque em resolver o problema**, não importa como você fará isso. **Não tente matar uma mosca com um canhão!**

É importante, sim, que você **tenha conhecimentos amplos** sobre o maior número possível de técnicas e ferramentas!


Mas isso não quer dizer que você **precisa** de machine learning sempre! 

Então, novamente: foco no problema, não na técnica pela técnica com fim em si mesma!

____

Vamos focar agora um pouco mais no **ciclo de modelagem** e alguns de seus elementos importantes:

<!-- <img src="https://techblog.cdiscount.com/assets/images/DataScience/automl/ML_process.png" width=650> -->

<img src="https://miro.medium.com/max/656/0*FKrWuLRbB_MiEIKh">

- **Conjunto de dados de treino**: são os dados utilizados para a construção do modelo, os dados que o modelo utilizará "para aprender"


- **Treinamento do modelo/aprendizagem**: é a etapa em que cálculos matemáticos são feitos para que a equação que descreve o modelo seja criada! É assim que "o modelo aprende!". Não se preocupe: usaremos bibliotecas para fazer isso!


- **Conjunto de dados de teste**: conjunto de dados utilizado para testar o modelo após ele ter sido treinado.


- **Avaliação do modelo**: forma de avaliar a performance do modelo. Há várias métricas e formas diferentes de avaliação, que conheceremos melhor mais tarde.

Além dos elementos discutidos acima, há dois conceitos importantes, que veremos em maiores detalhes mais adiante no curso:

- **Conjunto de dados de validação**: conjunto de dados usados para testar o modelo ainda em desenvolvimento, sobretudo com o objetivo de otimização de hiperparâmetros. Vamos discutir melhor sua importância quando falarmos de validação cruzada.

- **Seleção de hiperparâmetros/seleção de modelo**: etapa em que os hiperperâmetros que constituem o modelo são selecionados. Aqui, técnicas como **grid search** e **cross validation** são muito importantes! Falaremos disso mais tarde.


<img src="https://cdn-images-1.medium.com/max/1000/1*ZiYvylk60EY2XG7ck1lqJA.png" width=400>

___________

No esquema acima, fica evidente que há duas grandes etapas no **ciclo de modelagem**:

### Passo 1: construção do modelo

### Passo 2: avaliação do modelo

No decorrer do curso, vamos entender a fundo cada uma destas etapas, e as ferramentas associadas a cada uma delas!

___________

Nas aulas seguintes vamos estudar exemplos específicos de como iterar no ciclo de machine learning.

Veremos que, de forma geral, o processo consiste em:

- 0) Conhecer os dados com os quais estamos trabalhando --- fazer todo o processo de EDA, etc., etc.


- 1) Importar a **classe do estimador que se deseja treinar** - escolher a hipótese!
    - Usaremos a biblioteca [scikit-learn](https://scikit-learn.org/stable/)
  
  
- 2) Instanciar a classe do estimador, **escolhendo os hiperparâmetros desejados**
    - Para a primeira versão do modelo, pode ser uma boa escolha utilizar os hiperparâmetros default;
    - Veremos mais pra frente como escolher os hiperparâmetros adequadamente;
   
   
- 3) Separe os dados em **dados de treino** e **dados de teste**.
    - Em alguns casos, pode ser interessante criar também um conjunto de **dados de validação**
    - Para fazer a separação, usamos o [train-test split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
    
    
- 4) Treine o modelo, usando **os dados de treino**


- 5) Use o modelo treinado para **fazer previsões** usando os **dados de teste** (ou **de validação**)


- 6) **Avalie a performance do modelo com base nas previsões acima**


- 7) Se necessário, reinicie o ciclo!


- 8) Quando o modelo estiver suficientemente bom, faça o **deploy**

_____

Antes de criarmos qualquer modelo, precisamos nos perguntar: **que tipo de problema estou querendo resolver?**

Pois o algoritmo de ML que você vai utilizar depende diretamente do tipo de problema que você deseja resolver!

Como um guia inicial, a imagem a seguir é muitíssimo útil:

<img src="https://scikit-learn.org/stable/_static/ml_map.png" width=900>

[Clique Aqui](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) para a versão interativa online com links para as páginas de cada estimador!

___________

Inicialmente, focaremos em métodos de **aprendizagem supervisionada**, que nos auxiliarão a endereçar problemas de **regressão** e **classificação**, que se diferem de maneira muito simples:

> Um problema de regressão tem **target contínuo**;

> Um problema de classificação **tem target discreto**;

<img src=https://static.javatpoint.com/tutorial/machine-learning/images/regression-vs-classification-in-machine-learning.png width=400>

<img src=https://miro.medium.com/max/1400/1*wH09k0DhF4JQhVMymtVQHQ.jpeg width=400>

A diferenciação entre problemas de classificação e regressão é muito importante (e muito simples de fazer, conforme indicado acima!), sendo nosso principal guia para a determinação dos métodos a serem utilizados tanto na construção quanto na avaliação de um modelo!

____

Nas próximas aulas, vamos ver exemplos específicos de algoritmos e problemas que eles resolvem.

Nossa abordagem será prática e direta. Falaremos brevemente da teoria, mas evitaremos detalhes matemáticos desnecessariamente profundos.

Para quem tiver interessado em descobrir mais a fundo sobre os modelos que vamos discutir, recomendo [este livro](https://www.statlearning.com/) para uma primeira exposição, e [este livro](https://web.stanford.edu/~hastie/ElemStatLearn/) para uma abordagem ainda mais profunda e detalhada!

Durante as aulas, tocaremos em alguns conceitos da chamada **teoria de aprendizagem estatística**, que é a teoria matemática que fundamenta o que é feito em ML. Aos interessados em maior formalização matemática, indico [este curso](https://work.caltech.edu/telecourse), para uma introdução com rigor matemático, mas acessível; e indico [este livro](https://cs.nyu.edu/~mohri/mlbook/) para quem quiser se aprofundar mais na matemática.

______

E para quem quise descobir um pouco mais sobre estatística, inferência, e as bases para ML, recomendo alguns dos livros [deste site](https://www.openintro.org/book/stat/). O site também tem ótimos tutoriais e um fórum!