# 🎯 Aula 7 - Gráficos Análises Multivariadas 🎯

# Caso real:

A empresa Na+Tê, provedora de serviços de chá por assinatura, está buscando entender os cancelamentos das assinaturas (_churn_) ao longo do ano passado. Eles têm dados sobre a quantidade de clientes que cancelaram suas assinaturas e a quantidade de dias desde a inscrição em que o cancelamento ocorreu. 

<center><img src="./img/churn_example.png" alt="histograma de churn" width="350rm"></center>

A empresa solicitou a você, analista de dados, para observar fornecer insights sobre os padrões de cancelamento ao longo do tempo e possíveis estratégias para reduzir o churn. O objetivo é melhorar a retenção de clientes e a satisfação geral.

Qual o possível nível de dados que você está vendo? Quais os possíveis campos envolvidos?

Agora que já entendemos melhor os tipo de dados que estamos vendo, qual o possível insight que podemos levantar para a empresa?

---
# Correlação entre Variáveis

A correlação entre variáveis é uma medida estatística que descreve a extensão da relação entre duas variáveis quantitativas. Compreender a correlação é essencial em muitos campos, pois ajuda a identificar relações potenciais que podem ser exploradas em análises mais profundas.

## Calculando e interpretando a correlação

A função .corr é um método em Python usado para calcular a correlação entre pares de variáveis em um DataFrame. Ela retorna uma matriz de correlação que apresenta os coeficientes de correlação para cada par de variáveis.

### Interpretação do Output

- **Valores Próximos a 1 positivo:** Indicam uma forte correlação positiva (quando uma variável aumenta, a outra também aumenta).
- **Valores Próximos a 1 negativo:** Indicam uma forte correlação negativa (quando uma variável aumenta, a outra diminui).
- **Valores Próximos a 0:** Indicam uma falta de correlação linear.

```python
import pandas as pd

# Dados de exemplo
df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Calculando a correlação
df.corr()
```

![Output da correlação](https://s3-sa-east-1.amazonaws.com/lcpi/5cf6867f-af49-425c-964a-86d9fc39ca6e.png)

## Visualização com Heatmap

Após calcular a matriz de correlação com .corr, uma maneira eficiente e intuitiva de visualizá-la é por meio de um heatmap. Um heatmap usa cores para representar os valores numéricos, facilitando a identificação de padrões de correlação.

### Uso do Heatmap no Seaborn

O Seaborn oferece a função heatmap para criar heatmaps. Esta função transforma os números da matriz de correlação em um gradiente de cores, onde cada cor representa um valor de correlação.

```python
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Calculando a matriz de correlação
correlacao = df.corr()

# Criando um heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlacao, annot=True, fmt=".2f", cmap='coolwarm')
```

**Explicação dos Parâmetros**
- **'annot=True' exibe os valores de correlação no heatmap.**
- **'fmt=".2f"' formata os números para duas casas decimais.**
- **'cmap' define o mapa de cores.**

![Output do Heatmap](https://s3-sa-east-1.amazonaws.com/lcpi/0d968953-2d08-4cb6-8b76-a9c2951d3b42.png)

Neste heatmap, valores mais altos (próximos a +1 ou -1) indicam uma correlação mais forte, enquanto valores próximos a 0 indicam pouca ou nenhuma correlação. A escolha das cores ('coolwarm' neste caso) ajuda a destacar visualmente as diferenças nas correlações.

A combinação da função .corr com a visualização em heatmap proporciona uma compreensão rápida e clara das relações entre as variáveis em um conjunto de dados. Esta abordagem é essencial em análise exploratória de dados para identificar potenciais áreas de interesse para análises mais aprofundadas. Se precisar de mais informações ou ajustes, estou à disposição para ajudar.

## Scatterplot
### O que é Scatterplot

Um scatterplot é um gráfico bidimensional que mostra a relação entre duas variáveis contínuas. Cada ponto no scatterplot representa um par de valores.

### Para que Serve
- Visualizar a relação entre duas variáveis.
- Identificar padrões, tendências ou correlações.
### Aplicações
- Análise de correlação em estudos científicos ou de mercado.
- Visualização de relações em conjuntos de dados grandes.
### Como Fazer no Seaborn

O Seaborn fornece a função scatterplot para criar gráficos de dispersão de maneira fácil e intuitiva.

```python
import seaborn as sns

df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Criando um scatterplot
sns.scatterplot(x='variavel1', y='variavel2', data=df)
```

**Explicação dos Parâmetros**
- **'x' e 'y' definem as variáveis dos eixos.**
- **'data' especifica o DataFrame com os dados.**

![Output do scatterplot](https://s3-sa-east-1.amazonaws.com/lcpi/ef0653da-5b34-422b-be1e-3d5e217366f3.png)

### Interpretação
A posição e a distribuição dos pontos no scatterplot podem indicar o tipo e a força da relação entre as duas variáveis. Pode-se analisar algumas coisas como:

1. Relação entre Variáveis:
- Positiva: Pontos ascendentes da esquerda para a direita indicam que, à medida que uma variável aumenta, a outra também aumenta.
- Negativa: Pontos descendentes indicam que, à medida que uma variável aumenta, a outra diminui.
- Sem Relação: Dispersão aleatória dos pontos sugere falta de relação linear.

2. Força da Relação:

- Forte: Pontos próximos de uma linha reta (ascendente ou descendente).
- Fraca: Pontos espalhados, sem seguir uma linha clara.

3. Outliers:

- Pontos que se desviam significativamente do padrão geral. Podem indicar erros ou propriedades únicas.

4. Forma da Relação:

- Pode ser linear, quadrática, exponencial etc. Observada pela curvatura do padrão formado pelos pontos.


### Parâmetro hue

O parâmetro hue em Seaborn permite adicionar uma dimensão categórica aos gráficos, diferenciando os pontos por cores. Dessa forma, fica possível avaliar uma variável adicional em uma certa visualização.

```python
df = pd.DataFrame({
    'variavel1': [1, 2, 3, 4, 5],
    'variavel2': [5, 4, 3, 2, 1],
    'variavel3': [2, 3, 2, 3, 2]
})

# Adicionando o parâmetro hue ao scatterplot
sns.scatterplot(x='variavel1', y='variavel2', hue='variavel3', data=df)
```

![Output do scatterplot com hue](https://s3-sa-east-1.amazonaws.com/lcpi/b7e7ba65-9f56-4ad4-88c6-48defe47dcbd.png)

No exemplo acima, o 'hue' categoriza os pontos de dados baseados em 'variavel3', adicionando profundidade à análise. Assim, o scatterplot não apenas mostra a relação entre 'variavel1' e 'variavel2', mas também como 'variavel3' afeta essa relação.


## Referências

[Documentação Pandas](https://pandas.pydata.org/docs/)

[Documentação do Seaborn](https://seaborn.pydata.org/)

<!-- Revisor, alguma sugestão de referência sobre interpretação de correlação entre variáveis? --!>

# Hands-on