# Aula 7 - Análise Exploratória de dados

Uma habilidade **MUITO** importante que cientistas/analista de dados devem ter é a de **olhar para os dados**, ou seja explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais.

Faremos isso nesta e na próxima aula, aprendendo conjuntamente sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

____

## Dataset escolhido: Medical Insurance

- **age:** Idade do beneficiário principal;
- **sex:** Gênero do contratante;
- **bmi:** O IMC (massa/altura**2);
- **children:** Número de filhos/dependentes cobertos;
- **smoker:** Se a pessoa é fumante;
- **region:** Área residencial do beneficiário (EUA): nordeste, sudeste, sudoeste, noroeste;
- **charges:** Custos médicos individuais cobrados pelo seguro.

In [None]:
#Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#Lendo o dataframe
df_insurance = pd.read_csv('../datasets/Medical_insurance.csv')

### Familiarizando com o Dataset

In [None]:
# Primeiras 5 linhas


In [None]:
# Quantos dados existem nesse dataset?


In [None]:
# Quais características temos no nosso conjunto de dados?


Visualizando informações gerais sobre as colunas:

In [None]:
# Informações sobre todas as colunas


Percebemos que nenhuma coluna tem dados nulos. Mas, podemos verificar, como fizemos na aula passada.

In [None]:
#Visualizar a proporção


In [None]:
#Visualizar a estatística descritiva


In [None]:
#Vamos ver as colunas duplicadas e duplicá-las


## Processamento dos dados

Vimos que não temos dados faltantes, mas, temos dados categóricos.

In [None]:
#Quais são as variáveis categóricas?


#### Encoding de variáveis categóricas

Muitas vezes, é bastante útil termos uma maneira de mapear variáveis categóricas qualitativas em variáveis categóricas numéricas. Vejamos algumas formas de fazê-lo, a seguir.

#### One-hot encoding

Uma forma muito comum de utilizar variáveis categóricas é através da criação de **variáveis mudas** (dummy variables / dummies)

<img src="https://miro.medium.com/max/2474/1*ggtP4a5YaRx6l09KQaYOnw.png" width=700>

Isso é facilmente feito com o pandas utilizando a função [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

A informação acima é fundamental para diferenciarmos quais colunas contêm dados **categóricos** e quais contêm dados **numéricos**

- **Dados categóricos/qualitativos**: são dados qualitativos, quase sempre expressos na forma de **strings**. Praticamente todos os modelos não conseguem lidar com dados categóricos diretamente. Por isso, se quisermos utilizá-los, teremos que fazer algum procedimento que trasnforme os dados categórios em dados numéricos. Veremos como fazer isso mais pra frente.

- **Dados numéricos**: são dados numéricos, que podemos utilizar diretamente!

In [None]:
#Vendo os valores da variável sex


In [None]:
#Transformar variável sex para números


In [None]:
#Como fazemos com o get_dummies?


In [None]:
#Podemos ainda desconsiderar a primeira


Para retornar valores numéricos?

In [None]:
#Podemos ainda desconsiderar a primeira


### Outras funções importantes em pandas:

#### 'iat' e 'at':

Ambas são usadas para acessar e modificar valores específicos em um dataframe:
- 'iat': acessa um único valor no DF, especificando o índice da linha e o número da coluna;
- 'at': similar ao 'iat', mas usa os rótulos e nomes das colunas.

In [None]:
# Criando um DataFrame


# Acessando e modificando valores


#### Replace

- Utilizada para substituir valores em um DataFrame ou Series.
- Substitui um valor por outro especificado.

In [None]:
#Substituir na coluna 'sex' tudo que encontra por male por 1


#### np.where:

- Utilizada para aplicar uma condição e atribuir valores em um DataFrame ou Series.
- Substitui valores baseados em uma condição.

In [None]:
#Exemplo, substituir idade acima de 60 por idoso


#### applymap:

- Aplica uma função a cada elemento de um DataFrame.
- É usada para operações elemento a elemento em todo o DataFrame.

In [None]:
  # Multiplica cada elemento por 2

## Análise descritiva da base de dados

### Coluna 'Sex':

In [None]:
#Verificando a proporção de homens e mulheres


Temos 50,49 % de pessoas do sexo male, e 49,51 % do sexo female.

Podemos também colocar a informação acima em forma gráfica:

Ainda podemos fazer esse mesmo gráfico de outras 2 formas:

In [None]:
#Com o matplotlib


**E se quisermos a proporção?**

Podemos ver, por exemplo, a média de valores pelo sexo:

Podemos agrupar várias colunas: Se quisermos saber a diferença entre homens e mulheres que fumam:

Vamos ver isso graficamente:

Percebemos que no geral, fumar faz elevar o preço do seguro, mas isso não faz diferença, se compararmos o sexo masculino com o feminino.

Podemos querer apresentar essa informação em mais de uma coluna e fazemos isso com a função **crosstab()**.

Vamos avaliar, por exemplo, a contagem de entradas no dataset para cada sexo e região.

Podemos mostrar a mesma informação na forma de uma matriz, colorindo os elementos de acordo com a intensidade da ocorrência na tabela.

### Coluna 'age':

Como é um valor numérico, vamos avaliar primeiro a distribuição desses dados.

Temos um mínimo de 18 e um máximo de 64, com média de 39.22 e mediana de 39. Vamos analisar a distribuição usando um **histograma:**

Separando por sexo

Observamos que não há diferença entre idade e sexo. Aparentemente, há a mesma distribuição para a idade em ambos os sexos.

Será que há alguma relação da idade com o preço?

#### bmi

#### Childen

In [None]:
#Vamos ver a relação agrupada pela média do custo


Será que tem diferença se for homem ou mulher?

Vamos fazer o scatter:

#### Smoker

#### Region

Será que tem mais pessoas que fumam em uma região?

## Temos outliers nos dados?

Uma etapa importante em uma análise exploratória é a verificação por outliers. Como já mencionado em notebooks anteriores, estes são amostras que destoam muito do restante da distribuição. 

Existem vários critérios para determinação de outliers (ou seja, definir o que seria "destoar muito da distribuição").

In [None]:
def identificar_outliers(df, coluna):
    # Calculando o primeiro e terceiro quartis
    Q1 = df[coluna].quantile(0.25) #Primeiro Quartil
    Q3 = df[coluna].quantile(0.75) #Terceiro Quartil
    
    # Calculando o IQR (Intervalo Interquartil)
    IQR = Q3 - Q1
    
    # Calculando os limites superior e inferior para identificar os outliers
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    # Identificando outliers na coluna especificada
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    
    return outliers

In [None]:
#Exemplo para a coluna charges


## Relações entre as colunas e distribuições das variáveis

Uma outra exploração que poderíamos fazer consiste em tentar entender relações entre as variáveis do nosso dataset, bem como avaliar, mais especificamente, como estas estão relacionadas.

Antes de procedermos, podemos utilizar o **pairplot** do seaborn para avaliar visualmente algumas distribuições e os scatter plots entre as colunas, par a par.

O pairplot nos indica, na diagonal, como está a distribuição daquela característica e, nos elementos cruzados (ou seja, fora da diagonal), a relação entre as variáveis da linha e da coluna resultante nesta "matriz" da figura.

Que conclusões vocês são capazes de extrair desta visualização?

### Correlações

**Covariância**
Medida estatística que mensura a **variabilidade conjunta** de duas variáveis aleatórias. Intuitivamente, podemos pensar na covariância como a tendência de valores superiores de uma variável estarem, também, associados a valores maiores da outra; e vice-versa.

*Definição matemática da covariância*
$cov(X,Y) = \sum_{i=1}^{n} \frac{(x_{i} - \mu_{x})(y_{i} - \mu_{y})}{n-1}$

<img src="https://dpbnri2zg3lc2.cloudfront.net/en/wp-content/uploads/2021/05/positive_negative_weak_covariance.jpg" alt="Alternative text" />

**Correlação**
Medida estatística de dependência entre duas variáveis. Pode ser vista sob alguns tipos de metodologias.

É muito comum encontrar a ideia de correlação associada à *correlação de Pearson*, que expressa a **dependência linear** entre duas variáveis a partir de suas **covariâncias**.

Cálculo da correlação de Pearson:

$\rho_{X,Y} = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}$.

<img src="https://www.scribbr.de/wp-content/uploads/2021/08/01-correlation-types-1024x415.png" alt="Alternative text" />

A correlação de Pearson **normaliza** as covariâncias no intervalo [0,1].

Vale ressaltar que *existem outras métricas de correlação*. A correlação de Spearman, por exemplo, pode capturar relações de monotonia **não-lineares** entre duas variáveis.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/4e/Spearman_fig1.svg/1200px-Spearman_fig1.svg.png" width = 400 />

O Pandas possui uma função para avaliarmos diretamente a correlação entre as colunas do conjunto de dados:

O resultado indica a correlação, par a par, entre as colunas do dataset (e, por isso, é simétrico em relação à diagonal principal).

Para a nossa análise, vamos lembrar que:
- Vimos que fazia sentido excluir algumas colunas (por isso ele está menor que originalmente);
- Falamos sobre enconding de variáveis categóricas, que não aparecem, por padrão, no cálculo da correlação acima.

Vamos encodá-las, como nos testes que fizemos anteriormente?

Nossa matriz de correlações aumentou, porque, agora, temos como quantificar correlações com as variáveis que, antes, eram qualitativas!

Assim, como fizemos com a crosstable mais acima, podemos utilizar o heatmap do seaborn para deixar o resultado das correlações mais visual.

Podemos refinar ainda mais a visualização: dada sua simetria em torno da diagonal principal da matriz, podemos escolher por manter apenas os elementos acima, ou abaixo, desta diagonal.

Para isto, podemos criar uma **máscara** com numpy, e passá-la como argumento da matriz, conforme abaixo.

Temos, assim, uma matriz de booleanos indicando os elementos da matriz que serão mantidos no heatmap.

In [None]:
# Podemos alterar o estilo das cores, também


E assim obtemos uma visualização um pouco mais simplificada e simpels de interpretar.

Vale ressaltar que o mesmo resultado pode ser obtido passando diretamente a máscara que criamos em numpy na chamda da função.

Vemos, assim, que: 
- A maior correlação (em valores absolutos) se dá entre "charges" e "smoker_yes"; razoavelmente intuitivo, já que faz sentido que o fumante tenha maior valor no seguro;
- A correlação de 0.30 é interessante entre a idade e charges;
- Há também outra correlação entre o valor e o bmi (IMC).

In [None]:
# Calculemos a correlação em valores absolutos e dropemos o índice da própria coluna charges, pois a correlação será 1


Vemos, assim, as variáveis mais associadas ao preço. Vemos que, no geral, houve há tendência em preços maiores para:
- Fumante;
- Com elevada idade;
- Que possuem elevado bmi.

## Sumarizando

Neste notebook, enfocamos a discussão majoritariamente em abordagens de processamento e manipulação dos dados, mas também demos alguns exemplos de conclusões que poderiam ser extraídas deste dataset em uma Análise Explroatória de Dados (mas note que há várias outras análises que poderíamos fazer!).

A ideia é clarificar este procedimento e o raciocínio das principais etapas de uma EDA. O aprofundamento na análise, tipos de relações que podem ser estabelecidas, processamentos etc são todos muito dependentes da criatividade e da nossa capacidade de formular boas perguntas norteadores e hipóteses para o problema. 

Lembrem-se de que há várias abordagens possíveis em uma EDA, desde que sejamos coerentes com as hipóteses assumidas pelos modelos e operações com os quais trabalharemos!