# 03 - Trade-Off Viés-Variância, Métricas de Avaliação e Regressão Logística

Nessa aula, iremos tratar dos seguintes conteúdos:
- Trade-Off Viés-Variância;
- Métricas de Avaliação;
- Regressão Logística.

<img src="https://miro.medium.com/max/4056/1*ohfuav_OOrDTNQRUKpBQDA.png" width=800>

###  

## Trade-Off Viés-Variância

Veremos agora um dos conceitos mais importantes em apredizado de maquina.

Muitas vezes alguns modelos têm 100% de acerto nos dados de **treino**, mas **na base de teste** a performance cai para menos de 50%.

Isso pode acontecer porque o modelo fica **especialista apenas no conjunto de treino**, não conseguindo **generalizar os padrões para além dos dados vistos**.

<img src="https://miro.medium.com/max/1125/1*_7OPgojau8hkiPUiHoGK_w.png" width=800>

O overfitting está intimamente ligado com o conceito de **viés** (bias) e **variância** (variance):

>**Viés**<br>
É a diferença entre o que o modelo prediz, e o valor correto a ser predito.<br>
Modelos com alto viés são muito simples, de modo a **não conseguir capturar as relações que os dados de treino exibem** (underfit).<br>
Issso faz com que ambos os erros de treino e de teste sejam altos.
<br><br>
Em outras palavras:<br>
**Incapacidade de um modelo de capturar a verdadeira relação entre features e target**


> **Variância**<br>
Variância se refere à variabilidade das predições de um modelo.<br>
Modelos com alta variância são muito complexos, por **aprenderem demais as relações  exibidas nos dados de treino** (overfit).<br>
Isso faz com que os erros de treino sejam baixos, mas os erros de teste sejam altos.
<br><br>
Em outras palavras:<br>
**Incapacidade de um modelo performar bem em outros datasets diferentes do usado no treinamento**. 

<img src="https://www.learnopencv.com/wp-content/uploads/2017/02/Bias-Variance-Tradeoff-In-Machine-Learning-1.png" width=500>

<img src="https://miro.medium.com/max/1494/1*C7ZKM93QVdpeSCGbF5TjIg.png" width=800>


## Regressão Logística

Vimos que no caso mais amplo da regressão linear, temos o modelo como: <br><br>
$$
\begin{equation}
Y = \beta_0 + \beta_1 X_1  + \beta_2 X_2 + ... + \beta_n X_n = \beta^{T}X
\end{equation}
$$

Mas em regressão linear, temos como resposta do nosso modelo valores contínuos. E se ao invés disso, o nosso modelo devolve-se uma resposta binário ou classificação?<br><br>
É exatamente isso que buscamos com a Regressão Logística, ser capaz de classificar ou distinguir se o conjunto de dados pertence a uma classe ou não, ou mesmo para o caso de múltiplas classes.

Para poder fazer isso, vamos utilizar o auxílio da função logística, representada a seguir:<br><br>
$$
\begin{equation}
f(z) = \frac{e^{z}}{1 + e^{z}}
\end{equation}
$$

In [1]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import os
from pathlib import Path

print("***** Bibliotecas importadas com sucesso *****")

***** Bibliotecas importadas com sucesso *****


In [2]:
def caminho_dos_dados(projeto):
    '''
    Função que retorna o caminho dos dados atual acrescido do nome do projeto
    '''
    return str(Path(os.getcwd()).parent) + projeto

Conhecendo a função logística e a definição generalizada para regressão linear, define-se a função que descreve a regressão logística como:<br><br>
$$
\begin{equation}
P(Y | x) = \frac{e^{\beta^{T}X}}{1 + e^{\beta^{T}X}}
\end{equation}
$$<br><br>
Colocando uma definição mais formal seria que o objetivo da regressão logística é modelar a **probabilidade** $P(Y|x)$, onde dado x (variáveis) qual é a probabilidade dessas variáveis pertencerem a classe Y. Para o aprendizado do nosso modelo, a tarefa resumi-se em estimar os parâmetros $\beta^{T}$.

Naturalmente, $0 \le P(Y|x) \le 1$. Assim, por exemplo, se:
- $P(Y|x) \ge 0,5$: x pertence à classe 1
- $P(Y|x) < 0,5$: x pertence à classe 0

**Obs.:** este valor de 0,5 (50%) é usualmente chamado de *cutoff* ou *threshold*, e embora que o valor padrão para esse parâmetro seja de 50% na regressão logística, isso vai depender do tipo de problema que iremos tratar na modelagem!

Agora vamos pensar nos casos de estar contido ou não na classe Y, utilizando $P(Y|x)$ para determinar a probabilidade de pertencer a uma classe:<br><br>
$$
\begin{equation}
P(Y = 1  |  x) = \frac{e^{\beta^{T}X}}{1 + e^{\beta^{T}X}}
\end{equation}
$$<br><br>
Agora para determinar a probabilidade de $ P(Y = 0 | x)$:<br><br>
$$
\begin{equation}
P(Y = 0  |  x) = 1 - P(Y = 1  |  x) = \frac{1}{1 + e^{\beta^{T}X}}
\end{equation}
$$<br><br>
Por fim, vamos analisar e determinar o limiar onde vai ocorrer a separação da classe, esse ponto será onde $ P(Y = 1 | x) = P(Y = 0 | x)$:<br><br>
$$
\begin{equation}
\frac{e^{\beta^{T}X}}{1 + e^{\beta^{T}X}} = \frac{1}{1 + e^{\beta^{T}X}}
\end{equation}
$$<br><br>
Para a condição acima ser satisfeita, a equação $\beta^{T}X = 0$ tem que ser verdadeira. A solução para isso é na forma de hiperplanos, mas o mais importante aqui é se a superfície de separação linear!

### Exemplo

No exemplo prático, iremos utilizar um dataset de marketing (propagandas/advertising), que está disponível no <a href="https://www.kaggle.com/fayomi/advertising">Kaggle</a>. Este é um dataset artificial e didático, com os dados bem separáveis, o que é ótimo para ilustração!<br>

Visite o Kaggle e procure por "advertising" para datasets relacionados reais e ainda mais interessantes

A base que utilizaremos contém as seguintes colunas:

* **'Daily Time Spent on Site':** tempo que o cliente ficou no site (em minutos);
* **'Age':** idade do cliente (em anos);
* **'Area Income':** média salarial (por ano) da região geográfica do cliente;
* **'Daily Internet Usage':** tempo médio (em minutos) que o cliente fica na internet;
* **'Ad Topic Line':** título do anúncio;
* **'City':** cidade do cliente;
* **'Male':** dummy indicando se o cliente é do sexo masculino (1) ou não (0);
* **'Country':** país do cliente;
* **'Timestamp':** marcação de tempo em que o cliente clickou no anúncio OU fechou a página
* **'Clicked on Ad':** dummy indicando se o cliente clickou no anúncio (1) ou não (0).

Nosso objetivo é criar um modelo que possa prever se um determinado usuário clickará em um anúncio online ou não, com base em suas características pessoais/comportamentais, bem como informações relativas ao anúncio.

Tomamos como variáveis independentes (preditores/features) as primeiras 9 colunas, enquanto nossa variável dependente (target) é a última coluna ("Clicked on Ad").

Ou seja, nosso modelo deve ser capaz de dizer se um usuário com um conjunto particular das 9 features clickará no anúncio ou não.

## 

## Métricas de Avaliação

Um importante processo durante a modelagem e termos alguma forma de avalairmos a qaulidade do que modelamos, e para isso utlizamos de **métricas de avaliação**.

No caso de problemas de classificação, existem **métricas específicas**, e também um importante conceito chamado de **Matriz de Confusão**.

A **matriz de confusão** leva em consideração as **classes preditas** e as **classes verdadeiras** da base de **teste**, e contabiliza a performance do modelo:

<img src=https://diegonogare.net/wp-content/uploads/2020/04/matrizConfusao-600x381.png height="400" width="400">

No Sklearn, a notação muda um pouco:

<img src="https://static.packt-cdn.com/products/9781838555078/graphics/C13314_06_05.jpg" width=400>

Note que a diagonal principal são as observações que o modelo acertou! Temos:

- Verdadeiros Positivos (VP): classificação correta da classe positivo;
- Verdadeiros Negativos (VN): classificação correta da classe negativo;
- Falsos Positivos (FP, erro tipo I): correto: negativo. Previsto: positivo.
- Falsos Negativos (FN, erro tipo II): correto: positivo. Previsto: negativo.

Um jeito fácil de lembrar os tipos de erros:


<img src="https://i.pinimg.com/originals/f6/9b/11/f69b111014ef466fe541a393346d2c3a.jpg" height="400" width="400">


Visto isso, as seguintes métricas numéricas de avaliação são bastante comuns na avaliação de modelos de classificação:

- Acurácia (Accuracy): porcentagem de classificações CORRETAS do modelo;

- Precisão (Precision): das respostas retornadas, quantas são relevantes? -- é a razão entre verdadeiros positivos e o  número de **preditos positivos**, isto é, positivos quanto à **label predita pelo modelo**.

- Revocação/Sensibilidade (Recall/Sensitivity): das respostas relevantes, quantas são retornadas? -- é a razão entre verdadeiros positivos e o  número de **verdadeiramente positivos**, isto é, positivos quanto à **label real**.

- F1-Score: média harmônica de precision e recall.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/1200px-Precisionrecall.svg.png" width=450>

Devido ao <a href="https://medium.com/opex-analytics/why-you-need-to-understand-the-trade-off-between-precision-and-recall-525a33919942">tradeoff entre precision e recall</a>, a métrica a ser otimizada é o F1! 


<img src="https://miro.medium.com/max/1080/1*t1vf-ofJrJqtmam0KSn3EQ.png" height="400" width="400">

Quando começarmos a modelar com modelos de classificação daremos uma olhada mais a fundo nas métricas!

## 

Acurácia: 
$$
\begin{equation}
Acurácia = \frac{TP + TN}{TP + TN + FP + FN}
\end{equation}
$$

Precision: 
$$
\begin{equation}
Precision = \frac{TP}{TP + FP}
\end{equation}
$$

Recall: 
$$
\begin{equation}
Recall = \frac{TP}{TP+FN}
\end{equation}
$$

F1-Score: 
$$
\begin{equation}
F1 = 2*\frac{precision * recall}{precision + recall}
\end{equation}
$$

## 

## Exercícios

Serão 3 datasets para praticar os conceitos de Regressão Logística. Usem de tudo que já aprendemos EDA, Limpeza e Preparação dos Dados. A descrição dos Datasets estão a seguir:

**1)** [COVID](https://www.kaggle.com/tanmoyx/covid19-patient-precondition-dataset?select=covid.csv): Esses dados estão no dataset *COVID.csv* e nele encontramos alguns dados sobre os casos de Covid no México, onde têm os sintomas e caractéristicas dos pacientes além do resultado do teste para Covid.

A descrição das variáveis estão indicadas abaixo:<br>
 - **id**: Identificação do paciente<br>
 - **sex**: Sexo do Paciente (0 - Homem / 1 - Mulher) <br>
 - **patient_type**: Se o paciente foi dispensado para casa (1) ou se foi internado (0) <br>
 - **intubed**: Seo paciente foi intubado ou não<br>
 - **pneumonia**: Se o paciente apresentou pneumonia ou não<br>
 - **age**: Idade do Paciente<br>
 - **pregnancy**: Se a paciente estava grávida ou não (para pacientes mulheres)<br>
 - **diabetes**: Se o paciente tem diabetes ou não<br>
 - **copd**: Se opaciente tem COPD ou não<br>
 - **asthma**: Se o paciente tem Asma ou não<br>
 - **inmsupr**: Se o paciente apresentou Imunosupressão ou não<br>
 - **hypertension**: Se o paciente tem hipertensão ou não<br>
 - **ohter_disease**: Se o paciente tem outras doenças ou não<br>
 - **cardiovascular**: Se o paciente tem doenças cardiácas ou não<br>
 - **obesity**: Se o paciente tem obesidade ou não<br>
 - **renal_chronic**: Se o paciente tem problemas renais ou não<br>
 - **tobacco**: Se o paciente é fumante ou não<br>
 - **contact_other_covid**: Se o paciente teve contato com outras pessoas diagnosticadas com covid<br>
 - **icu**: Se o paciente precisou ser internado na UTI<br>
 - **covid_res**: Se o resultado do teste foi Positivo ou Negativo<br>

## 

**2)** [Admissão em Faculdades para Estudantes Indianos](https://www.kaggle.com/mohansacharya/graduate-admissions): Esses dados estão no dataset *Admission_Predict.csv* e nele encontramos alguns dados sobre estudantes indianos que tem interesse em ingressar na Universidade. As variáveis que estão disponíveis são:

- GRE Scores
- TOEFL Scores
- University Rating
- SOP: Statement of Purpose 
- LOR: Letter of Recommendation Strength
- CGPA: Undergraduate GPA
- Research Experience
- Chance of Admit

**DICA:** Vocês irão perceber que o valor da target 'Chance of Admit ' não vai estar em binário, para transformar os dados vocês podem utilizar a função [np.where](https://numpy.org/doc/stable/reference/generated/numpy.where.html) com um threshold de 0.5

## 

**3)** Dataset Iris: Dataset bem conhecido a respeito de 3 tipos da Iris, onde no dataset *Iris.csv* temos alguns dados sobre caractéristicas da flor e a marcação da *species*

## 