# Aula 2 - Fundamentos da aprendizagem supervisionada

____________

Conforme vimos anteriormente, dividimos ML em 3 grandes abordagens:

<img src="https://i.pinimg.com/originals/67/70/5d/67705d8c7aee0c6b601c16548076e924.png" width=600>

Neste curso, trataremos sobre a aprendizagem supervisionada e não supervisionada.

Inicialmente, vamos introduzir e explorar a fundo a **aprendizagem supervisionada**. 

Após seus conceitos e técnicas estarem bem fundamentados, veremos que a aprendizagem não-supervisionada será bem facilmente compreendida, o que faremos nos módulos seguintes.

Vamos apresentar a aprendizagem supervisionada segundo a seguinte figura:

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/dfc2968c-b9a9-43a9-a531-e24e34c2e270.png>

Podemos resumir a informação acima no seguinte diagrama:

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/70da0385-e3fc-4fda-ba15-0004cc3b68ae.PNG>

Esquematicamente, vamos dividir cada "passada no ciclo" de modelagem em dois grandes passos:

## Passo 1: construção do modelo

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/23769bcb-a364-4d7b-a68f-04b3dfcde684.png>

## Passo 2: avaliação do modelo

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/8de84cf0-adb1-4203-921c-bc8dec07df55.png>

Agora que temos estas noções claras, vamos concretizar, nas próximas aulas, as etapas do ciclo de modelagem (passos de 1) a 7)):

- 0) Conhecer os dados com os quais estamos trabalhando --- fazer todo o processo de EDA, etc., etc.


- 1) Importar a **classe do estimador que se deseja treinar** - escolher a hipótese!
    - Usaremos a biblioteca [scikit-learn](https://scikit-learn.org/stable/)
  
  
- 2) Instanciar a classe do estimador, **escolhendo os hiperparâmetros desejados**
    - Para a primeira versão do modelo, pode ser uma boa escolha utilizar os parâmetros default;
    - Veremos mais pra frente como escolher os hiperparâmetros adequadamente;
   
   
- 3) Separe os dados em **dados de treino** e **dados de teste**.
    - Em alguns casos, pode ser interessante criar também um conjunto de **dados de validação**
    - Para fazer a separação, usamos o [train-test split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
    
    
- 4) Treine o modelo, usando **os dados de treino**


- 5) Use o modelo treinado para **fazer previsões** usando os **dados de teste** (ou **de validação**)


- 6) **Avalie a performance do modelo com base nas previsões acima**


- 7) Se necessário, reinicie o ciclo!


- 8) Quando o modelo estiver suficientemente bom, faça o **deploy**

## Exercício 1: USA Housing

1a - Construa um modelo de Regressão Linear para prever o preço das casas do USA Housing (enviado no discord)

1b - Pesquise sobre as métricas para algoritmos de regressão. Avalie a métrica R² do modelo, e também discuta se o modelo de preços é um modelo que faria sentido em produção

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

### Leitura e tratamento dos dados

In [None]:
houses = pd.read_csv('usa_housing.csv')

In [None]:
# Analisemos os dados

### Modelagem: Criação do modelo de regressão linear

In [None]:
# Escolhemos variáveis a serem usadas

In [None]:
# Dividimos dados de treino e teste usando 'train_test_split'

In [None]:
# Criamos e treinamos nosso modelo de regressão linear

In [None]:
# Realizamos o teste

In [None]:
# Visualizamos resultados. Como?

### Avaliação: Análise das métricas

In [None]:
# Metrica R2

In [None]:
# Metricas MSE e MAE

Podemos observar a diferença entre o erro absoluto e a raiz do quadrático, **qual pode ser o motivo?**

## Exercício 2: Penguins

2a - Construa um modelo de Regressão Logistica para classificar os penguins por espécie e depois por ilha

2b - Pesquise sobre as métricas de comparação de modelos de classificação. Compare ambos em relação as suas métricas e discuta qual deles está performando melhor (podem abstrair que estão fazendo classificações diferentes!)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
from mlxtend.plotting import plot_decision_regions
from mlxtend.plotting import plot_confusion_matrix

### Leitura do dataset e exploração inicial

In [None]:
penguins  = sns.load_dataset('penguins')

In [None]:
# Analisamos os dados

In [None]:
# Analisamos dados nulos (e tratamos!)

### Modelagem: Criação do modelo de regressão logistica

Dado que foi solicitado classificar os penguins por espécie e por ilha, precisamos deixar nossos dados prontos para lidar com ambos os targets.

In [None]:
# Criamos conjuntos de dados para alvos ('targets'): especies e ilhas

In [None]:
# Analisamos os dados

- Vamos a realizar a modelagem tendo como alvo a variável 'especie'

In [None]:
# Dividimos dados de treino e teste usando 'train_test_split'

In [None]:
# Criamos e treinamos nosso modelo de regressão logistica para o target especie

In [None]:
# Realizamos o teste

### Avaliação: Matriz de confusão e métricas para o dataset por especie

- Agora realizamos a modelagem tendo como alvo a variável 'ilha'

In [None]:
# Dividimos dados de treino e teste usando 'train_test_split'

In [None]:
# Criamos e treinamos nosso modelo de regressão logistica para o target ilha

In [None]:
# Realizamos o teste

### Matriz de confusão e métricas para o dataset por ilha

## Exercícios

__1)__ O arquivo fish.csv consiste em um dataset com registro de características de 7 espécies diferentes de peixes comuns nas vendas do mercado de peixes. Com este conjunto de dados, um modelo de Regressão Linear para estimar o peso (Weight) dos peixes.

Não esqueça de explorar os dados, realizar o tratamento dos dados (analise o tipo dos dados, por exemplo), fazer a separação dos dados de treino e teste; e, por fim, avaliar a precisão do seu modelo.

__1)__ O arquivo fish.csv consiste em um dataset com registro de características de 7 espécies diferentes de peixes comuns nas vendas do mercado de peixes. Com este conjunto de dados, um modelo de Regressão Linear para estimar o peso (Weight) dos peixes.

Não esqueça de explorar os dados, realizar o tratamento dos dados (analise o tipo dos dados, por exemplo), fazer a separação dos dados de treino e teste; e, por fim, avaliar a precisão do seu modelo.

__2)__ COVID: Esses dados estão no dataset COVID.csv e nele encontramos alguns dados sobre os casos de Covid no México, onde têm os sintomas e caractéristicas dos pacientes além do resultado do teste para Covid.

A descrição das variáveis estão indicadas abaixo:<br>
 - **id**: Identificação do paciente<br>
 - **sex**: Sexo do Paciente (0 - Homem / 1 - Mulher) <br>
 - **patient_type**: Se o paciente foi dispensado para casa (1) ou se foi internado (0) <br>
 - **intubed**: Seo paciente foi intubado ou não<br>
 - **pneumonia**: Se o paciente apresentou pneumonia ou não<br>
 - **age**: Idade do Paciente<br>
 - **pregnancy**: Se a paciente estava grávida ou não (para pacientes mulheres)<br>
 - **diabetes**: Se o paciente tem diabetes ou não<br>
 - **copd**: Se opaciente tem COPD ou não<br>
 - **asthma**: Se o paciente tem Asma ou não<br>
 - **inmsupr**: Se o paciente apresentou Imunosupressão ou não<br>
 - **hypertension**: Se o paciente tem hipertensão ou não<br>
 - **ohter_disease**: Se o paciente tem outras doenças ou não<br>
 - **cardiovascular**: Se o paciente tem doenças cardiácas ou não<br>
 - **obesity**: Se o paciente tem obesidade ou não<br>
 - **renal_chronic**: Se o paciente tem problemas renais ou não<br>
 - **tobacco**: Se o paciente é fumante ou não<br>
 - **contact_other_covid**: Se o paciente teve contato com outras pessoas diagnosticadas com covid<br>
 - **icu**: Se o paciente precisou ser internado na UTI<br>
 - **covid_res**: Se o resultado do teste foi Positivo ou Negativo<br>


In [None]:
# Exercicio 1

In [None]:
# Exercicio 2

## Desafio

__3)__ Carregue os dados contidos no arquivo who-life-expectancy.csv (link abaixo), o qual contém diversas informações sobre os países do mundo inteiro, incluindo a expectativa de vida de sua população, entre os anos de 2000 e 2015. Seu objetivo é criar um modelo de Regressão Linear capaz de estimar a expectativa de vida da população de um país (em um determinado ano) dadas as demais informações sobre esse país.

Dica: Você deverá notar que esse dataset possui muitos dados ausentes (NaN), portanto, neste caso, será necessário realizar uma limpeza nos dados.