# Aula 21 - Machine Learning - Introdução

Na aula de hoje, vamos explorar os seguintes tópicos:

- 1) O que é um modelo?
- 2) Quando devemos construir modelos de ML?
- 3) Generalização e o ciclo de modelagem
- 4) Tipos de problema na aprendizagem supervisionada
- 5) Referências adicionais

____________

### Problema gerador 1: como precificar uma casa?

Você foi contratado como cientista de dados de uma grande imobiliária, e seu primeiro trabalho será criar alguma solução capaz de precificar casas a partir de seus atributos. Naturalmente, este é um problema importantíssimo para o seu negócio. Como resolvê-lo?

<img src="https://cdn-icons-png.flaticon.com/512/69/69901.png" width=300>

____________
____________
____________

### Problema gerador 2: como ter um diagnóstico preciso de câncer de mama?

Você é a mais nova cientista de dados de um importante centro de pesquisa e tratamendo de câncer. Para apoiar o diagnóstico médico, a equipe está determinado em criar uma solução capaz de identificar se uma amostra de tecido é de um tumor maligno ou benigno, com base em atributos extraídos de imagens médicas. Como resolver este problema?

<img src="https://miro.medium.com/v2/resize:fit:1358/1*pxFCmhRFTighUn88baLcSA.png" width=600>

_________

## 1) O que é um modelo?

Anteriormente, vimos qual é a jornada de um projeto de data science:

![img33-768x242.png](attachment:img33-768x242.png)

Seja nesta imagem, ou em algum outro momento, você já deve ter ouvido falar que em ciência de dados muitas vezes temos interesse em "construir modelos".

Agora, o que exatamente é a "modelagem"? Ou melhor, **o que queremos alcançar ao construir um modelo?** 

Ou ainda, **o que um modelo representa?**

Em linhas gerais, construímos um modelo com o objetivo de **representar a realidade** de maneira quantitativa e matemática.

> Um modelo é uma descrição matemática/quantitativa de algum aspecto do problema que desejamos resolver

Você pode estar se perguntando: "tá, mas por que pode ser interessante termos uma representação matemática do problema que desejamos resolver?"

Ótima pergunta! 

> Em geral, descrições matemáticas são utilizadas pelo fato de **proporcionatem poder preditivo**, em termos quantitativos; ou, mais genericamente, como uma forma de **automática e quantitativa de automatizar um processo de tomada de decisão.**

Muitas vezes, nos interessa **descobrir relações** em nosso universo de interesse, como, por exemplo, como as variáveis **se relacionam para produzir determinado resultado** ou **como elas estão estruturadas**. Descrições matemáticas são muito adequadas para estes fins!

Há, essencialmente, duas maneiras diferentes de **produzir descrições matemáticas** de um determinado contexto:

> É possível descobrir essas relações e estruturas partindo de uma **teoria**, em uma abordagem que chama-se **theory-driven**. Neste caso, partimos de **princípios fundamentais** para explicar o universo de interesse.

> Como a abordagem acima é quase sempre extremamente complexa ou inpraticável, partimos para a aboragem **data-driven**, na qual **coletamos amostras do universo de interesse**, e essa amostra é utilizada para que tiremos conclusões, descubramos relações, etc.

Observação: muitas vezes, **ambas as abordagens são utilizadas simultaneamente!** Elas não são exludentes!

Ambas as abordagens resultam em **um modelo** para descrever a realidade.

Mas, a segunda abordagem é **muito mais dependente da estatística**, para que seja possível avaliar **o quanto você pode confiar no modelo que você construiu**, ou ainda, **o quão útil ele é**.

## <i>"All models are wrong. But some are useful."
\- George Box
_______

Quando utilizamos **Machine Learning** (ML) para construir um modelo, os detalhes desta representação são **determinados (“aprendidos”)** a partir de dados, empiricamente, em contraste a uma abordagem theory-driven.

<img src="https://miro.medium.com/max/2404/1*yLvf2jr_TNkEe9PKYOBDkA.png" width=500>

<img src="https://st3.ning.com/topology/rest/1.0/file/get/2808372468?profile=original" width=500>

No fim, todo modelo será representado **por uma equação matemática**.

No entanto, essa equação pode ser extremamente complexa, de modo que raramente seremos capazes de escrever a equação completa. Mas não se preocupe com isso!
____

## 2) Quando devemos construir modelos de ML?

Antes de qualquer coisa, é necessário nos perguntarmos se **a construção de um modelo é algo necessário**. 

Isso porque nem sempre temos interesse em uma descrição que nos dê poder preditivo, ou alguma forma de automatizar um processo de tomada de decisão. Assim sendo, nem sempre um modelo é necessário. 

> Há problemas que são resolvidos com uma EDA bem feita!

Então, é muito importante que você como cientista de dados **foque em resolver o problema**, não importa como você fará isso. **Não tente matar uma mosca com um canhão!**

É importante, sim, que você **tenha conhecimentos amplos** sobre o maior número possível de técnicas e ferramentas!

Mas isso não quer dizer que você **precisa** de machine learning sempre! 

Então, novamente: foco no problema, não na técnica pela técnica com fim em si mesma!

Mas, uma vez determinado que a construção de um modelo de fato é necessária, a próxima pergunta natural é **como** o modelo será construído (isso é, seguindo qual abordagem).

Em geral, resolver um problema utilizando técnicas de ML é uma boa ideia se:

    • Há dados disponíveis sobre o problema em questão;

    • Existe um padrão que é refletido nos dados;

    • Uma descrição teórica não é praticável.

Vamos voltar para nossos problemas geradores.

Dada a dificuldade de produzir modelos teóricos, vamos partir para a abordagem data-driven proporcionada por técnicas de ML. E tudo começa com os dados!

In [1]:
import pandas as pd

In [2]:
df_casa = pd.read_csv("./datasets/house_prices.csv")

df_casa

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [3]:
df_bc = pd.read_csv("./datasets/breast_cancer.csv")

df_bc

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,842517,M,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,84300903,M,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,84358402,M,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,926424,M,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,926682,M,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,926954,M,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,927241,M,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


_________

## 3) Generalização e o ciclo de modelagem

Em ML, utilizamos uma **amostra de dados** para a construção de nosso modelo.

Mas, claro, nosso objetivo é que a relação quantitativa aprendida seja válida **para observações fora da amostra**, afinal, é assim que ganhamos poder preditivo!

> Queremos construir modelos que sejam **generalizáveis** para a população de interesse.

Isso soa familiar?

<img src="https://phhp-faculty-cantrell.sites.medinfo.ufl.edu/files/2012/07/mod10-big_picture_inference.gif" width=600>

Para que possamos construir modelos que possam generalizar, é importantíssimo que sejamos capazes de **avaliar a capacidade de generalização** dos modelos, não é mesmo?

Afinal, como aprenderemos, existem muitas técnicas diferentes para a construção de modelos. Isso é, mesmo que utilizemos sempre o mesmo conjunto de dados, modelos construídos com técnicas diferentes podem ser completamente diferentes, inclusive no que diz respeito à sua performance de generalização!

Assim, para sermos capazes de avaliar modelos candidatos, precisamos passar, durante a etapa de **construção/desenvolvimento do modelo**, pelo chamado **ciclo de modelagem**:

<img src="https://miro.medium.com/max/656/0*FKrWuLRbB_MiEIKh">

Alguns termos e conceitos importantes:

- **Conjunto de dados de treino**: são os dados utilizados para a construção do modelo, os dados que o modelo utilizará "para aprender os padrões desejados" (i.e., determinar a estrutura quantitativa do modelo);<br><br>

- **Treinamento do modelo/aprendizagem**: é a etapa em que cálculos matemáticos são feitos para que a equação que descreve o modelo seja criada! É assim que "o modelo aprende!". Não se preocupe: usaremos bibliotecas para fazer isso!<br><br>

- **Conjunto de dados de teste**: conjunto de dados utilizado para testar o modelo após ele ter sido treinado. Isso é necessário para estimarmos a capacidade de **generalização** de um modelo.<br><br>

- **Avaliação do modelo**: forma de avaliar a performance do modelo. Há várias métricas e formas diferentes de avaliação, que conheceremos melhor mais tarde.

No esquema acima, fica evidente que há duas grandes etapas no **ciclo de modelagem**:

### Passo 1: construção do modelo

### Passo 2: avaliação do modelo

No decorrer do curso, vamos entender a fundo cada uma destas etapas, e as ferramentas associadas a cada uma delas!

___________

## 4) Tipos de problema na aprendizagem supervisionada

Agora que entendemos o que de fato é um modelo, e (ainda que no alto nível) qual o procedimento para a sua construção, antes de criarmos qualquer modelo precisamos nos perguntar: **que tipo de problema estou querendo resolver?**

E isso é importante porque o algoritmo de ML que você vai utilizar depende diretamente do tipo de problema que você deseja resolver!

De fato, a própria **aprendizagem de máquina** se divide em três grandes áreas, cada uma caracterizada por uma abordagem e escopo específicos:

<img src="https://i.pinimg.com/originals/67/70/5d/67705d8c7aee0c6b601c16548076e924.png" width=700>

___________

Inicialmente, focaremos em métodos de **aprendizagem supervisionada**, que nos auxiliarão a endereçar problemas de **regressão** e **classificação**, que se diferem de maneira muito simples:

> Um problema de regressão tem **variável resposta (target) contínua**;

> Um problema de classificação tem **variável resposta (target) discreta**;

<img src=https://static.javatpoint.com/tutorial/machine-learning/images/regression-vs-classification-in-machine-learning.png width=400>

<img src=https://miro.medium.com/max/1400/1*wH09k0DhF4JQhVMymtVQHQ.jpeg width=400>

A diferenciação entre problemas de classificação e regressão é muito importante (e muito simples de fazer, conforme indicado acima!), sendo nosso principal guia para a determinação dos métodos a serem utilizados tanto na construção quanto na avaliação de um modelo!

[Clique Aqui](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) para a versão interativa online com links para as páginas de cada estimador!

In [4]:
!pip install scikit-learn



____

## 5) Referências adicionais

Nas próximas aulas, vamos ver exemplos específicos de algoritmos e problemas que eles resolvem.

Nossa abordagem será prática e direta. Falaremos brevemente da teoria, mas evitaremos detalhes matemáticos desnecessariamente profundos.

Para quem tiver interessado em descobrir mais a fundo sobre os modelos que vamos discutir, recomendo [este livro](https://www.statlearning.com/) para uma primeira exposição, e [este livro](https://web.stanford.edu/~hastie/ElemStatLearn/) para uma abordagem ainda mais profunda e detalhada!

Durante as aulas, tocaremos em alguns conceitos da chamada **teoria de aprendizagem estatística**, que é a teoria matemática que fundamenta o que é feito em ML. Aos interessados em maior formalização matemática, indico [este curso](https://work.caltech.edu/telecourse), para uma introdução com rigor matemático, mas acessível; e indico [este livro](https://cs.nyu.edu/~mohri/mlbook/) para quem quiser se aprofundar mais na matemática.

E para quem quise descobir um pouco mais sobre estatística, inferência, e as bases para ML, recomendo alguns dos livros [deste site](https://www.openintro.org/book/stat/). O site também tem ótimos tutoriais e um fórum!