# Aula 7 - Análise Exploratória de dados

Uma habilidade **MUITO** importante que cientistas/analista de dados devem ter é a de **olhar para os dados**, ou seja explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais.

Faremos isso nesta e na próxima aula, aprendendo conjuntamente sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

____

## Dataset escolhido: Medical Insurance

- **age:** Idade do beneficiário principal;
- **sex:** Gênero do contratante;
- **bmi:** O IMC (massa/altura**2);
- **children:** Número de filhos/dependentes cobertos;
- **smoker:** Se a pessoa é fumante;
- **region:** Área residencial do beneficiário (EUA): nordeste, sudeste, sudoeste, noroeste;
- **charges:** Custos médicos individuais cobrados pelo seguro.

In [0]:
#Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [0]:
#Lendo o dataframe
df_insurance = pd.read_csv('../datasets/Medical_insurance.csv')

### Familiarizando com o Dataset

In [0]:
# Primeiras 5 linhas
df_insurance.head()

In [0]:
# Quantos dados existem nesse dataset?
df_insurance.shape

In [0]:
# Quais características temos no nosso conjunto de dados?
df_insurance.columns

Visualizando informações gerais sobre as colunas:

In [0]:
# Informações sobre todas as colunas
df_insurance.info()

Percebemos que nenhuma coluna tem dados nulos. Mas, podemos verificar, como fizemos na aula passada.

In [0]:
df_insurance.isnull().sum()

In [0]:
#Visualizar a proporção
df_insurance.isnull().mean()

In [0]:
#Visualizar a estatística descritiva
df_insurance.describe()

In [0]:
#Vamos ver as linhas duplicadas e eliminá-las
df_insurance = df_insurance[~df_insurance.duplicated()]

In [0]:
df_insurance.info()

## Processamento dos dados

Vimos que não temos dados faltantes, mas, temos dados categóricos.

In [0]:
#Quais são as variáveis categóricas?
df_insurance.select_dtypes('object').columns

#### Encoding de variáveis categóricas

Muitas vezes, é bastante útil termos uma maneira de mapear variáveis categóricas qualitativas em variáveis categóricas numéricas. Vejamos algumas formas de fazê-lo, a seguir.

#### One-hot encoding

Uma forma muito comum de utilizar variáveis categóricas é através da criação de **variáveis mudas** (dummy variables / dummies)

<img src="https://miro.medium.com/max/2474/1*ggtP4a5YaRx6l09KQaYOnw.png" width=700>

Isso é facilmente feito com o pandas utilizando a função [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

A informação acima é fundamental para diferenciarmos quais colunas contêm dados **categóricos** e quais contêm dados **numéricos**

- **Dados categóricos/qualitativos**: são dados qualitativos, quase sempre expressos na forma de **strings**. Praticamente todos os modelos não conseguem lidar com dados categóricos diretamente. Por isso, se quisermos utilizá-los, teremos que fazer algum procedimento que trasnforme os dados categórios em dados numéricos. Veremos como fazer isso mais pra frente.

- **Dados numéricos**: são dados numéricos, que podemos utilizar diretamente!

In [0]:
#Vendo os valores da variável sex
df_insurance['sex'].value_counts()

In [0]:
#Transformar variável sex para números
mapeamento = {'female':0,'male':1}
df_insurance['sex'].map(lambda x: mapeamento[x])

In [0]:
#Como fazemos com o get_dummies?
pd.get_dummies(df_insurance['sex'])

In [0]:
#Podemos ainda desconsiderar a primeira
pd.get_dummies(df_insurance['sex'], drop_first= True)

Para retornar valores numéricos?

In [0]:
#Podemos ainda desconsiderar a primeira
pd.get_dummies(df_insurance['sex'], drop_first= True, dtype='bool')

### Outras funções importantes em pandas:

#### 'iat' e 'at':

Ambas são usadas para acessar e modificar valores específicos em um dataframe:
- 'iat': acessa um único valor no DF, especificando o índice da linha e o número da coluna;
- 'at': similar ao 'iat', mas usa os rótulos e nomes das colunas.

In [0]:
# Criando um DataFrame
data = {'A':[1,2,3],
        'B':[4,5,6],
        'C':[7,8,9]}
df = pd.DataFrame(data)
df

In [0]:
# Acessando e modificando valores
valor = df.iat[1,2]
print(valor)
#Acessar e alterar o valor da linha 1 e a coluna 'C'
df.at[1,'C'] = 10

In [0]:
df

#### Replace

- Utilizada para substituir valores em um DataFrame ou Series.
- Substitui um valor por outro especificado.

In [0]:
#Substituir na coluna 'sex' tudo que encontra por male por 1
df_insurance['sex'].replace('male',1.0)

#### np.where:

- Utilizada para aplicar uma condição e atribuir valores em um DataFrame ou Series.
- Substitui valores baseados em uma condição.

In [0]:
#Exemplo, substituir idade acima de 60 por idoso
np.where(df_insurance['age']>60, 'Idoso', np.nan)

#### applymap:

- Aplica uma função a cada elemento de um DataFrame.
- É usada para operações elemento a elemento em todo o DataFrame.

In [0]:
  # Multiplica cada elemento por 2
  df_insurance.applymap(lambda x: x*2)

## Análise descritiva da base de dados

### Coluna 'Sex':

In [0]:
#Verificando a proporção de homens e mulheres
df_insurance['sex'].value_counts(normalize = True)

Temos 50,49 % de pessoas do sexo male, e 49,51 % do sexo female.

Podemos também colocar a informação acima em forma gráfica:

In [0]:
df_insurance['sex'].value_counts(normalize = True).plot(kind='bar')

Ainda podemos fazer esse mesmo gráfico de outras 2 formas:

In [0]:
#Com o matplotlib
plt.bar(df_insurance['sex'].value_counts(normalize = True).index,df_insurance['sex'].value_counts(normalize = True).values)
#Alegorias do gráfico
plt.title('Distribuição dos sexos')
plt.xlabel('Sexo')
plt.ylabel('Quantidade')
plt.show()

In [0]:
#Usando o seaborn
#Criando uma figura com o matplotlib
plt.figure(figsize = (6,6))
sns.countplot(df_insurance['sex'])
#Alegorias do gráfico
plt.title('Distribuição dos sexos')
plt.xlabel('Sexo')
plt.ylabel('Quantidade')
plt.show()

**E se quisermos a proporção?**

In [0]:
plt.figure(figsize = (6,6))
sns.barplot(df_insurance['sex'].value_counts(normalize = True).index,df_insurance['sex'].value_counts(normalize = True).values)
#Alegorias do gráfico
plt.title('Distribuição dos sexos')
plt.xlabel('Sexo')
plt.ylabel('Quantidade')
plt.show()

Podemos ver, por exemplo, a média de valores pelo sexo:

In [0]:
df_insurance.groupby('sex')['charges'].agg('mean')

Podemos agrupar várias colunas: Se quisermos saber a diferença entre homens e mulheres que fumam:

In [0]:
df_insurance.groupby(['sex','smoker'])['charges'].agg('mean')

Vamos ver isso graficamente:

In [0]:
ax = df_insurance.groupby(['sex','smoker'])['charges'].agg('mean').unstack().plot(kind='bar',
                                                                             title = 'Custo de seguro por sexo e condição de fumante',
                                                                             xlabel = 'Sexo',
                                                                             ylabel = 'Preço')            

Percebemos que no geral, fumar faz elevar o preço do seguro, mas isso não faz diferença, se compararmos o sexo masculino com o feminino.

Podemos querer apresentar essa informação em mais de uma coluna e fazemos isso com a função **crosstab()**.

Vamos avaliar, por exemplo, a contagem de entradas no dataset para cada sexo e região.

In [0]:
pd.crosstab(df_insurance['sex'],df_insurance['region'],margins=True)

Podemos mostrar a mesma informação na forma de uma matriz, colorindo os elementos de acordo com a intensidade da ocorrência na tabela.

In [0]:
sns.heatmap(pd.crosstab(df_insurance['sex'],df_insurance['region'],margins=True))

In [0]:
df_insurance['sex'].value_counts().values

In [0]:
df_insurance['sex'].value_counts().index

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Gráfico de pizza
plt.pie(df_insurance['sex'].map({'male': 0, 'female': 1}).value_counts(normalize=True), labels=df_insurance['sex'].value_counts(normalize=True).index, autopct='%1.1f%%', startangle=90)
# Adornos do gráfico
plt.title('Distribuição de Gêneros')
plt.show()

### Coluna 'age':

Como é um valor numérico, vamos avaliar primeiro a distribuição desses dados.

In [0]:
df_insurance['age'].describe()

Temos um mínimo de 18 e um máximo de 64, com média de 39.22 e mediana de 39. Vamos analisar a distribuição usando um **histograma:**

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Histograma
sns.histplot(df_insurance['age'],bins=10)
# Adornos do gráfico
plt.title('Idade')
plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.show()

Separando por sexo

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Histograma
sns.histplot(df_insurance, x = 'age',bins=10, hue = 'sex')
# Adornos do gráfico
plt.title('Idade')
plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.show()

Observamos que não há diferença entre idade e sexo. Aparentemente, há a mesma distribuição para a idade em ambos os sexos.

Será que há alguma relação da idade com o preço?

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Gráfico de dispersão
sns.scatterplot(data = df_insurance, x = 'age', y = 'charges', hue = 'sex')
# Adornos do gráfico
plt.title('Dispersão da idade x preço')
plt.xlabel('Idade')
plt.ylabel('Preço')
plt.show()

#### bmi

In [0]:
df_insurance['bmi'].describe()

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Histograma
sns.histplot(df_insurance, x = 'bmi',bins=10, hue = 'sex')
# Adornos do gráfico
plt.title('Distribuição de bmi por sexo')
plt.xlabel('bmi')
plt.ylabel('Quantidade')
plt.show()

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Gráfico de dispersão
sns.scatterplot(data = df_insurance, x = 'bmi', y = 'charges', hue = 'sex')
# Adornos do gráfico
plt.title('Dispersão da bmi x preço')
plt.xlabel('bmi')
plt.ylabel('Preço')
plt.show()

#### Childen

In [0]:
df_insurance['children'].value_counts()

In [0]:
df_insurance['children'].value_counts().plot(kind='bar')

In [0]:
#Vamos ver a relação agrupada pela média do custo
df_insurance.groupby('children')['charges'].agg('mean')

Será que tem diferença se for homem ou mulher?

In [0]:
df_insurance.groupby(['children','sex'])['charges'].agg('mean')

Vamos fazer o scatter:

In [0]:
# Supondo que você já tenha transformado 'sex' em valores numéricos
plt.figure(figsize=(6, 6))
# Gráfico de dispersão
sns.scatterplot(data = df_insurance, x = 'children', y = 'charges', hue = 'sex')
# Adornos do gráfico
plt.title('Dispersão da de dependentes x preço')
plt.xlabel('children')
plt.ylabel('Preço')
plt.show()

#### Smoker

In [0]:
df_insurance['smoker'].value_counts(normalize=True)

In [0]:
#Criar uma contagem normalizada dos valores
count_norm = df_insurance['smoker'].value_counts(normalize=True)

#Criar o gráfico de barras
ax = count_norm.plot(kind='bar')

#Adicionar os rótulos
for index, value in enumerate(count_norm):
    ax.annotate(f'{value:.2f}',xy = (index,value),va='center',ha = 'center')

In [0]:
df_insurance.groupby('smoker')['charges'].agg('mean')

#### Region

In [0]:
df_insurance['region'].value_counts(normalize=True)

In [0]:
#Criar uma contagem normalizada dos valores
count_norm = df_insurance['region'].value_counts(normalize=True)

#Criar o gráfico de barras
ax = count_norm.plot(kind='bar')

#Adicionar os rótulos
for index, value in enumerate(count_norm):
    ax.annotate(f'{value:.2f}',xy = (index,value),va='center',ha = 'center')

Será que tem mais pessoas que fumam em uma região?

In [0]:
df_insurance.groupby('region')['smoker'].agg('count')

In [0]:
df_insurance.groupby('region')['charges'].agg('mean')

## Temos outliers nos dados?

Uma etapa importante em uma análise exploratória é a verificação por outliers. Como já mencionado em notebooks anteriores, estes são amostras que destoam muito do restante da distribuição. 

Existem vários critérios para determinação de outliers (ou seja, definir o que seria "destoar muito da distribuição").

In [0]:
df_insurance.head()

In [0]:
colunas_numericas = df_insurance.select_dtypes(['int64','float64']).columns.to_list()

In [0]:
colunas_numericas

In [0]:
def identificar_outliers(df, coluna):
    # Calculando o primeiro e terceiro quartis
    Q1 = df[coluna].quantile(0.25) #Primeiro Quartil
    Q3 = df[coluna].quantile(0.75) #Terceiro Quartil
    
    # Calculando o IQR (Intervalo Interquartil)
    IQR = Q3 - Q1
    
    # Calculando os limites superior e inferior para identificar os outliers
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    # Identificando outliers na coluna especificada
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    
    return outliers

In [0]:
#Exemplo para a coluna charges
df_2 = identificar_outliers(df_insurance,colunas_numericas[3])

In [0]:
df_2.describe()

## Relações entre as colunas e distribuições das variáveis

Uma outra exploração que poderíamos fazer consiste em tentar entender relações entre as variáveis do nosso dataset, bem como avaliar, mais especificamente, como estas estão relacionadas.

Antes de procedermos, podemos utilizar o **pairplot** do seaborn para avaliar visualmente algumas distribuições e os scatter plots entre as colunas, par a par.

In [0]:
sns.pairplot(df_insurance,hue='smoker')

O pairplot nos indica, na diagonal, como está a distribuição daquela característica e, nos elementos cruzados (ou seja, fora da diagonal), a relação entre as variáveis da linha e da coluna resultante nesta "matriz" da figura.

Que conclusões vocês são capazes de extrair desta visualização?

### Correlações

**Covariância**
Medida estatística que mensura a **variabilidade conjunta** de duas variáveis aleatórias. Intuitivamente, podemos pensar na covariância como a tendência de valores superiores de uma variável estarem, também, associados a valores maiores da outra; e vice-versa.

*Definição matemática da covariância*
$cov(X,Y) = \sum_{i=1}^{n} \frac{(x_{i} - \mu_{x})(y_{i} - \mu_{y})}{n-1}$

<img src="https://dpbnri2zg3lc2.cloudfront.net/en/wp-content/uploads/2021/05/positive_negative_weak_covariance.jpg" alt="Alternative text" />

**Correlação**
Medida estatística de dependência entre duas variáveis. Pode ser vista sob alguns tipos de metodologias.

É muito comum encontrar a ideia de correlação associada à *correlação de Pearson*, que expressa a **dependência linear** entre duas variáveis a partir de suas **covariâncias**.

Cálculo da correlação de Pearson:

$\rho_{X,Y} = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}$.

<img src="https://www.scribbr.de/wp-content/uploads/2021/08/01-correlation-types-1024x415.png" alt="Alternative text" />

A correlação de Pearson **normaliza** as covariâncias no intervalo [0,1].

Vale ressaltar que *existem outras métricas de correlação*. A correlação de Spearman, por exemplo, pode capturar relações de monotonia **não-lineares** entre duas variáveis.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/4e/Spearman_fig1.svg/1200px-Spearman_fig1.svg.png" width = 400 />

O Pandas possui uma função para avaliarmos diretamente a correlação entre as colunas do conjunto de dados:

In [0]:
df_insurance.info()

In [0]:
df_insurance.corr()

O resultado indica a correlação, par a par, entre as colunas do dataset (e, por isso, é simétrico em relação à diagonal principal).

Para a nossa análise, vamos lembrar que:
- Vimos que fazia sentido excluir algumas colunas (por isso ele está menor que originalmente);
- Falamos sobre enconding de variáveis categóricas, que não aparecem, por padrão, no cálculo da correlação acima.

Vamos encodá-las, como nos testes que fizemos anteriormente?

In [0]:
df_insurance_2 = pd.get_dummies(df_insurance,columns=['sex','smoker','region'],drop_first=True)

In [0]:
df_insurance_2.info()

In [0]:
df_insurance_2.corr()

Nossa matriz de correlações aumentou, porque, agora, temos como quantificar correlações com as variáveis que, antes, eram qualitativas!

Assim, como fizemos com a crosstable mais acima, podemos utilizar o heatmap do seaborn para deixar o resultado das correlações mais visual.

In [0]:
sns.heatmap(round(df_insurance_2.corr(),2), annot = True)

Podemos refinar ainda mais a visualização: dada sua simetria em torno da diagonal principal da matriz, podemos escolher por manter apenas os elementos acima, ou abaixo, desta diagonal.

Para isto, podemos criar uma **máscara** com numpy, e passá-la como argumento da matriz, conforme abaixo.

In [0]:
mask = np.zeros_like(df_insurance_2.corr(),dtype=np.bool_)
mask[np.triu_indices_from(mask)] = True
mask

Temos, assim, uma matriz de booleanos indicando os elementos da matriz que serão mantidos no heatmap.

In [0]:
corr = df_insurance_2.corr().mask(mask)

In [0]:
corr

In [0]:
# Podemos alterar o estilo das cores, também
sns.heatmap(round(corr,2), annot = True)

E assim obtemos uma visualização um pouco mais simplificada e simpels de interpretar.

Vale ressaltar que o mesmo resultado pode ser obtido passando diretamente a máscara que criamos em numpy na chamda da função.

Vemos, assim, que: 
- A maior correlação (em valores absolutos) se dá entre "charges" e "smoker_yes"; razoavelmente intuitivo, já que faz sentido que o fumante tenha maior valor no seguro;
- A correlação de 0.30 é interessante entre a idade e charges;
- Há também outra correlação entre o valor e o bmi (IMC).

In [0]:
# Calculemos a correlação em valores absolutos e dropemos o índice da própria coluna charges, pois a correlação será 1


Vemos, assim, as variáveis mais associadas ao preço. Vemos que, no geral, houve há tendência em preços maiores para:
- Fumante;
- Com elevada idade;
- Que possuem elevado bmi.

## Sumarizando

Neste notebook, enfocamos a discussão majoritariamente em abordagens de processamento e manipulação dos dados, mas também demos alguns exemplos de conclusões que poderiam ser extraídas deste dataset em uma Análise Explroatória de Dados (mas note que há várias outras análises que poderíamos fazer!).

A ideia é clarificar este procedimento e o raciocínio das principais etapas de uma EDA. O aprofundamento na análise, tipos de relações que podem ser estabelecidas, processamentos etc são todos muito dependentes da criatividade e da nossa capacidade de formular boas perguntas norteadores e hipóteses para o problema. 

Lembrem-se de que há várias abordagens possíveis em uma EDA, desde que sejamos coerentes com as hipóteses assumidas pelos modelos e operações com os quais trabalharemos!