## Classificação

**Problemas de classificação** são aqueles em que queremos determinar a que **categoria ou classe** dentro de um **conjunto discreto de classes** uma dada observação pertence, com base em suas features.

Para isso, construímos um **classificador**: modelo que tem como input as features (contínuas ou discretas) e como output uma entre as classes (discretas).

> Principal diferença entre problemas de regressão e classificação:
> - Regressão: valores contínuos;
> - Classificação: valores (classes) discretas (binárias ou não).

<img src="https://i.pinimg.com/originals/71/8e/6a/718e6a40e1782bead960e58d3c52663b.png" width=300>



Problemas de classificação são comumente divididos com relação ao **número de classes** a serem preditas (isto é, com relação à estrutura do espaço de target):

- Classificação binária: duas classes (0 e 1);
- Classificação multiclasse: $n$ classes (0, 1, ..., $n-1$), com $n > 2 \in \mathbb{N}$

Exemplos de problemas de classificação:
- **Detecção de e-mails SPAM**: um e-mail é SPAM ou não?;
    - **Features**: palavras contidas no corpo do e-mail; remetente; assunto;
- **Detecção de doenças**: que codição médica a pessoa tem?
    - **Features**: sintomas fisiológicos; resultados de exames (medidas de variáveis biológicas);
- **Detecção do tipo de documento**: secreto, confidencial ou não-sensível?
    - **Features**: palavras no corpo do texto; título;
- **Detecção de fraudes de cartão de crédito**: uma operação é fraudulenta ou não?;
    - **Features**: histórico de transações; hora, local e frequência das transações; tipo de compra;
- **Modelo de risco de crédito**: qual é a chance de determinada pessoa não pagar seu empréstimo?
    - **Features**: histórico de pagamento; score de crédito;
    
    
<img src="https://developers.google.com/machine-learning/guides/text-classification/images/TextClassificationExample.png" width=500>



Veremos hoje um dos mais simples e importantes classificadores: a **Regressão Logística!**

## Regressão logística

**Conceito:**
> Técnica de aprendizagem de máquina que busca `estimar o valor` de uma variável numérica a partir do `ajuste dos coeficientes` de uma `função logística` construída com um conjunto de `variáveis de entrada`.

**Objetivo:**
> **modelar a probabilidade $P(\vec{x})$ de dada observação (com features $\vec{x}$) pertencer à classe 1**, ou seja, queremos modelar:



$$ P( y = 1 | \vec{x}) $$

Naturalmente, $0 \le P(\vec{x}) \le 1$. 

> Lembre-se que: $ P( y = 0 | \vec{x}) = 1 - P( y = 1 | \vec{x}) $

Uma vez que tivermos uma função que modele a probabilidade acima, podemos tomar a decisão de classificação da seguinte maneira:

- $P(\vec{x}) \ge 0.5$: x pertence à classe 1
- $P(\vec{x}) < 0.5$: x pertence à classe 0

Obs.: este valor de 0.5 (50%) é chamado de "cutoff", e pode ser ajustado, embora seja comum fixá-lo em 50%!

#### Exemplo: Crédito bancário

A distribuição de valores x de um conjunto de clientes de uma empresa de crédito pode ser ilustrada pela imagem abaixo de acordo com a classe de cada amostras:

<img src="https://i0.wp.com/datavizpyr.com/wp-content/uploads/2020/03/overlapping_histograms_with_matplotlib_Python.png?resize=576%2C432&ssl=1" width=500>

O subconjunto das amostras em azul é formado pelos clientes que não estão aptos a receber crédito. Já o grupo na cor laranja é formado por clientes de crédito.

Podemos tentar aproximar os valores dos rótulos das amostras por meio de uma regressão linear, como mostrado a seguir.

<figure>
    <img src="https://s3-sa-east-1.amazonaws.com/lcpi/70189f79-2886-4e59-893b-1dac9dd64078.png" height="400" width="400">
</figure> 

O resultado é um conjunto de probabilidades muito distante dos dados amostrais devido ao uma curva que não é capaz de se ajustar aos dados. Agora, vejamos o comportamento de uma função sigmóide. 

<figure>
    <img src="https://s3-sa-east-1.amazonaws.com/lcpi/6d54529a-d295-47a3-8a11-1f426fde7229.png" height="400" width="400">
</figure> 

Temos uma curva que está bem mais próxima aos dados e que pode ser ajustada para descrever seu comportamento.

#### Função logística (função sigmoidal)

<img src="https://miro.medium.com/max/970/1*Xu7B5y9gp0iL5ooBj7LtWw.png" width=400>

Note que:

- $z \in \mathbb{R}$
- $0 \le \phi(z) \le 1$

Para incorporar a ideia da regressão linear na regressão logística, tomamos:

- $z = b_0 + b_1x$, que é o modelo de regressão linear (uma variável);

E substituímos na função logística:

- $\phi(x) = \frac{1}{1 + e^{-(b_0 + b_1 x)}}$

Com isso, tomamos qualquer output real do modelo linear e transformamos em um valor entre 0 e 1, como queríamos!

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/e5ecf372-6790-49db-9bad-95bc4b19df27.png" width="500">

### Modelagem

Crescimento populacional

<img src="https://cdn.kastatic.org/ka-perseus-images/d9a7c4a6837c9c5718a9b91f695fae7626f72370.png" width=600>

#### > Classificação dos dados

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/ba4a71cb-4567-4bb4-9dc6-7f96f9f8e6d3.png" width=500>

#### Aprendizado

Faça [aqui](https://www.geogebra.org/m/KFBFTNPF) o ajuste dos coeficientes.

___

### Função de perda e algoritmo de aprendizagem

A função de perda para a regressão logística é a famosa [binary cross-entropy](https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a), também conhecida como [log loss](https://developers.google.com/machine-learning/crash-course/logistic-regression/model-training)

Esta função será de enorme importância no estudo de **redes neurais**.

As principais implementações do algoritmo de aprendizagem da regressão logística se baseia no [método de máxima verossimilhança](https://pt.wikipedia.org/wiki/M%C3%A1xima_verossimilhan%C3%A7a). 

Para maiores detalhes sobre o algoritmo de aprendizagem, veja [este vídeo](https://youtu.be/yIYKR4sgzI8) e [esta série de vídeos](https://youtu.be/vN5cNN2-HWE), do ótimo canal StatQuest!


_________

### Estudo de caso

Fonte: <a href="https://www.kaggle.com/datasets/gabrielsantello/advertisement-click-on-ad">Kaggle</a>. 
Este é um dataset artificial e didático, com os dados bem separáveis, o que é ótimo para ilustração!<br>

Visite o Kaggle e procure por "advertising" para datasets relacionados reais e ainda mais interessantes

A base que utilizaremos contém as seguintes colunas:

* 'Daily Time Spent on Site': tempo que o cliente ficou no site (em minutos);
* 'Age': idade do cliente (em anos);
* 'Area Income': média salarial (por ano) da região geográfica do cliente;
* 'Daily Internet Usage': tempo médio (em minutos) que o cliente fica na internet;
* 'Ad Topic Line': título do anúncio;
* 'City': cidade do cliente;
* 'Male': dummy indicando se o cliente é do sexo masculino (1) ou não (0);
* 'Country': país do cliente;
* 'Timestamp': marcação de tempo em que o cliente clickou no anúncio OU fechou a página
* 'Clicked on Ad': dummy indicando se o cliente clickou no anúncio (1) ou não (0).

Nosso objetivo é criar um modelo que possa prever se um determinado usuário clickará em um anúncio online ou não, com base em suas características pessoais/comportamentais, bem como informações relativas ao anúncio.

Tomamos como variáveis independentes (preditores/features) as primeiras 9 colunas, enquanto nossa variável dependente (target) é a última coluna ("Clicked on Ad").

#### Bibliotecas