# üéØ Aula 7 - Gr√°ficos An√°lises Multivariadas üéØ

# Caso real:

A empresa Na+T√™, provedora de servi√ßos de ch√° por assinatura, est√° buscando entender os cancelamentos das assinaturas (_churn_) ao longo do ano passado. Eles t√™m dados sobre a quantidade de clientes que cancelaram suas assinaturas e a quantidade de dias desde a inscri√ß√£o em que o cancelamento ocorreu. 

<center><img src="./img/churn_example.png" alt="histograma de churn" width="350rm"></center>

A empresa solicitou a voc√™, analista de dados, para observar fornecer insights sobre os padr√µes de cancelamento ao longo do tempo e poss√≠veis estrat√©gias para reduzir o churn. O objetivo √© melhorar a reten√ß√£o de clientes e a satisfa√ß√£o geral.

Qual o poss√≠vel n√≠vel de dados que voc√™ est√° vendo? Quais os poss√≠veis campos envolvidos?

Agora que j√° entendemos melhor os tipo de dados que estamos vendo, qual o poss√≠vel insight que podemos levantar para a empresa?

---
# Correla√ß√£o entre Vari√°veis

A correla√ß√£o entre vari√°veis √© uma medida estat√≠stica que descreve a extens√£o da rela√ß√£o entre duas vari√°veis quantitativas. Compreender a correla√ß√£o √© essencial em muitos campos, pois ajuda a identificar rela√ß√µes potenciais que podem ser exploradas em an√°lises mais profundas.

## Calculando e interpretando a correla√ß√£o

A fun√ß√£o .corr √© um m√©todo em Python usado para calcular a correla√ß√£o entre pares de vari√°veis em um DataFrame. Ela retorna uma matriz de correla√ß√£o que apresenta os coeficientes de correla√ß√£o para cada par de vari√°veis.

### Interpreta√ß√£o do Output

- **Valores Pr√≥ximos a 1 positivo:** Indicam uma forte correla√ß√£o positiva (quando uma vari√°vel aumenta, a outra tamb√©m aumenta).
- **Valores Pr√≥ximos a 1 negativo:** Indicam uma forte correla√ß√£o negativa (quando uma vari√°vel aumenta, a outra diminui).
- **Valores Pr√≥ximos a 0:** Indicam uma falta de correla√ß√£o linear.

```python
import pandas as pd

# Dados de exemplo
df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Calculando a correla√ß√£o
df.corr()
```

![Output da correla√ß√£o](https://s3-sa-east-1.amazonaws.com/lcpi/5cf6867f-af49-425c-964a-86d9fc39ca6e.png)

## Visualiza√ß√£o com Heatmap

Ap√≥s calcular a matriz de correla√ß√£o com .corr, uma maneira eficiente e intuitiva de visualiz√°-la √© por meio de um heatmap. Um heatmap usa cores para representar os valores num√©ricos, facilitando a identifica√ß√£o de padr√µes de correla√ß√£o.

### Uso do Heatmap no Seaborn

O Seaborn oferece a fun√ß√£o heatmap para criar heatmaps. Esta fun√ß√£o transforma os n√∫meros da matriz de correla√ß√£o em um gradiente de cores, onde cada cor representa um valor de correla√ß√£o.

```python
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Calculando a matriz de correla√ß√£o
correlacao = df.corr()

# Criando um heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlacao, annot=True, fmt=".2f", cmap='coolwarm')
```

**Explica√ß√£o dos Par√¢metros**
- **'annot=True' exibe os valores de correla√ß√£o no heatmap.**
- **'fmt=".2f"' formata os n√∫meros para duas casas decimais.**
- **'cmap' define o mapa de cores.**

![Output do Heatmap](https://s3-sa-east-1.amazonaws.com/lcpi/0d968953-2d08-4cb6-8b76-a9c2951d3b42.png)

Neste heatmap, valores mais altos (pr√≥ximos a +1 ou -1) indicam uma correla√ß√£o mais forte, enquanto valores pr√≥ximos a 0 indicam pouca ou nenhuma correla√ß√£o. A escolha das cores ('coolwarm' neste caso) ajuda a destacar visualmente as diferen√ßas nas correla√ß√µes.

A combina√ß√£o da fun√ß√£o .corr com a visualiza√ß√£o em heatmap proporciona uma compreens√£o r√°pida e clara das rela√ß√µes entre as vari√°veis em um conjunto de dados. Esta abordagem √© essencial em an√°lise explorat√≥ria de dados para identificar potenciais √°reas de interesse para an√°lises mais aprofundadas. Se precisar de mais informa√ß√µes ou ajustes, estou √† disposi√ß√£o para ajudar.

## Scatterplot
### O que √© Scatterplot

Um scatterplot √© um gr√°fico bidimensional que mostra a rela√ß√£o entre duas vari√°veis cont√≠nuas. Cada ponto no scatterplot representa um par de valores.

### Para que Serve
- Visualizar a rela√ß√£o entre duas vari√°veis.
- Identificar padr√µes, tend√™ncias ou correla√ß√µes.
### Aplica√ß√µes
- An√°lise de correla√ß√£o em estudos cient√≠ficos ou de mercado.
- Visualiza√ß√£o de rela√ß√µes em conjuntos de dados grandes.
### Como Fazer no Seaborn

O Seaborn fornece a fun√ß√£o scatterplot para criar gr√°ficos de dispers√£o de maneira f√°cil e intuitiva.

```python
import seaborn as sns

df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Criando um scatterplot
sns.scatterplot(x='variavel1', y='variavel2', data=df)
```

**Explica√ß√£o dos Par√¢metros**
- **'x' e 'y' definem as vari√°veis dos eixos.**
- **'data' especifica o DataFrame com os dados.**

![Output do scatterplot](https://s3-sa-east-1.amazonaws.com/lcpi/ef0653da-5b34-422b-be1e-3d5e217366f3.png)

### Interpreta√ß√£o
A posi√ß√£o e a distribui√ß√£o dos pontos no scatterplot podem indicar o tipo e a for√ßa da rela√ß√£o entre as duas vari√°veis. Pode-se analisar algumas coisas como:

1. Rela√ß√£o entre Vari√°veis:
- Positiva: Pontos ascendentes da esquerda para a direita indicam que, √† medida que uma vari√°vel aumenta, a outra tamb√©m aumenta.
- Negativa: Pontos descendentes indicam que, √† medida que uma vari√°vel aumenta, a outra diminui.
- Sem Rela√ß√£o: Dispers√£o aleat√≥ria dos pontos sugere falta de rela√ß√£o linear.

2. For√ßa da Rela√ß√£o:

- Forte: Pontos pr√≥ximos de uma linha reta (ascendente ou descendente).
- Fraca: Pontos espalhados, sem seguir uma linha clara.

3. Outliers:

- Pontos que se desviam significativamente do padr√£o geral. Podem indicar erros ou propriedades √∫nicas.

4. Forma da Rela√ß√£o:

- Pode ser linear, quadr√°tica, exponencial etc. Observada pela curvatura do padr√£o formado pelos pontos.


### Par√¢metro hue

O par√¢metro hue em Seaborn permite adicionar uma dimens√£o categ√≥rica aos gr√°ficos, diferenciando os pontos por cores. Dessa forma, fica poss√≠vel avaliar uma vari√°vel adicional em uma certa visualiza√ß√£o.

```python
df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Adicionando o par√¢metro hue ao scatterplot
sns.scatterplot(x='variavel1', y='variavel2', hue='variavel3', data=df)
```

![Output do scatterplot com hue](https://s3-sa-east-1.amazonaws.com/lcpi/b7e7ba65-9f56-4ad4-88c6-48defe47dcbd.png)

No exemplo acima, o 'hue' categoriza os pontos de dados baseados em 'variavel3', adicionando profundidade √† an√°lise. Assim, o scatterplot n√£o apenas mostra a rela√ß√£o entre 'variavel1' e 'variavel2', mas tamb√©m como 'variavel3' afeta essa rela√ß√£o.


## Refer√™ncias

[Documenta√ß√£o Pandas](https://pandas.pydata.org/docs/)

[Documenta√ß√£o do Seaborn](https://seaborn.pydata.org/)

<!-- Revisor, alguma sugest√£o de refer√™ncia sobre interpreta√ß√£o de correla√ß√£o entre vari√°veis? --!>

# Hands-on