<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Análise Exploratória dos Dados em `Python`

**Bem vindo!** Neste notebook serão discutidas ferramentas para a Análise Exploratória dos Dados. Ao final, espera-se que você seja capaz de você usar as ferramentas de captura, limpeza, análise e visualização dos dados. 

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
        <li> Introdução </li>  
        <li> Gráficos de Dispersão </li> 
        <li> Correlação </li>   
        <li> Fundamentos de Regressão Linear </li> 
</div>

<hr>

# Introdução

A ﬁnalidade da Análise Exploratória de Dados (AED) é permitir que o analista tenha um entendimento básico de seus dados e das relações existentes entre as variáveis analisadas.  Trata-se, portanto, de uma etapa fundamental que precede a  modelagem por algoritmos de *Machine Learning*.

No nosso curso, para melhor organização, separamos essa etapa da fase de pré-processamento (aula anterior), em que aprendemos conceitos como: i) agrupamento dos dados; tratamento de valores ausentes e normalização de dados. 

O objetivo da AED é, portanto, utilizar síntese estatística e técnicas de visualização para entender melhor os dados e identificar insights sobre tendências e a qualidade dos dados, bem como para formular hipóteses a serem investigadas.

Inicialmente, fazemos o carregamento dos pacotes `Python` necessários:

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pylab as plt

Vamos carregar o nosso dataset, o mesmo usado no módulo anterior.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/APL-Data-Intelligence/AcelerAI/main/Curso_NEED/datasets/dados.csv")
print(df.head())

## Gráficos de Dispersão
Como vimos anteriormente, gráficos de dispersão são fornecidos pela biblioteca `Pandas`. 

No nosso exemplo, vamos ver a relação entre o _Preço_ e o _Area_.

In [None]:
df.plot.scatter(x='preco', y='area')

## Matriz de gráficos de dispersão
Objetivo de visualizar se existe correlação entre cada par de atributos. 

No nosso exemplo vamos usar as variáveis contínuas: _condomínio_, _preço_, _preço/m2_ e _área_.

In [None]:
pd.plotting.scatter_matrix(df[['condominio', 'preco', 'pm2', 'area']]);

### Gráficos de distribuição conjunta fornecidos pela biblioteca `Seaborn`. 
No nosso exemplo vamos ver a distribuição conjunta  entre o _Preço_ e o _Area_, exibindo uma relação entre essas duas variáveis, assim como perfis 1D (histogramas) nas laterais dos eixos.

In [None]:
sns.jointplot(data=df, x='preco', y='area', alpha=0.4);

### Matriz de dispersão da biblioteca `Seaborn`
No nosso exemplo vamos usar as variáveis contínuas: _condomínio_, _preço_, _preço/m2_ e _área_.

In [None]:
sns.pairplot(df[['condominio', 'preco', 'pm2', 'area']])

# Correlação vs Causalidade
**Correlação**: uma medida da extensão da interdependência entre as variáveis.

**Causalidade**: a relação entre causa e efeito entre duas variáveis.

É importante saber a diferença entre os dois e que a **correlação não implica causalidade**. Determinar a correlação é muito mais simples do que determinar a causalidade.

Calculando a **correlação** entre as features do nosso dataset.

In [None]:
df.corr().round(2)

A visualização por meio de uma figura pode facilitar nossa análise. Ovserve que as tonalidades de diferentes cores auxiliam na identificação do valor da **correlação**. A discussão de **causalidade** está fora do noso escopo neste momento.

In [None]:
fig, ax = plt.subplots(figsize=(8, 8))
ax = sns.heatmap(df.corr(), vmin=-0, vmax=1, annot=True,
                 cmap=sns.diverging_palette(20, 220, as_cmap=True),
                 ax=ax)

plt.show()

Pela análise desse gráfico pode-se observar que existe uma correlação alta entre a _area_ e o _preco_ (residências com maior área construída tendem a possuir um maior preço). Também existe uma correlação alta entre o valor do _condominio_ e _preço_. 

Por outro lado,  existe uma correlação fraca entre a variável _vagas_ e _pm2_ (preço/m2). E uma correlação mais fraca ainda (quase nula) entre _quartos_ e _pm2_. Em outras palavras, outras features contribuem mais para o valor do preço/m2 que o numero de quartos e a quantidade de vagas.

## Fundamentos de Regressão Linear

O conceito de Regressão Linear pode ser entendido como um conjunto de ferramentas que tenta estabelecer uma relação linear entre variáveis. Graficamente, processo de traçar uma reta através dos dados em um diagrama de dispersão. Portanto, pode complementar a análise de correlação. 

Pela análise do gráfico de correlação, pôde-se observar uma correlação alta tanto entre a _area_ e o _preco_ quanto entre o valor do _condominio_ e _preço_. Isso é confirmado pela análise dos gráficos a seguir: _area_ vs _preco_ (esquerda) e _condominio_ vs _preço_ (direita).

In [None]:
sns.pairplot(df, x_vars=["area", "condominio"], y_vars=["preco"], height=4, aspect=1, kind="reg");

Ainda, pela análise do gráfico de correlação, pôde-se observar uma correlação fraca entre a variável _vagas_ e _pm2_. E uma correlação quase nula entre _quartos_ e _pm2_. Isso é confirmado pela análise dos gráficos a seguir.

Observe que a inclinação do gráfico _quartos_ vs _pm2_ (esquerda) é menor que a inclinação no gráfico _vagas_ vs  _pm2_ (direita).

In [None]:
sns.pairplot(df, x_vars=["quartos", "vagas"], y_vars=["pm2"], height=4, aspect=1, kind="reg");

### Detalhando a relação entre _vagas_ e _preço/m2_ em relação ao _bairro_.

Os gráficos a seguir detalham a relação entre _vagas_ e _pm2_ em função do bairro.

In [None]:
sns.lmplot(x="vagas", y="pm2", col='bairro', data=df,col_wrap=4, height=3)

Outra forma de se visualizar essa relação é por meio de uma tabela que relaciona: Bairro, numero de vagas e Preço/m2

In [None]:
df_1 = df[['bairro','pm2','vagas']]
grouped_test1 = df_1.groupby(['bairro','vagas'],as_index=False).mean()
grouped_pivot = grouped_test1.pivot(index='bairro',columns='vagas')
grouped_pivot.round(2)

O valor `NaN` indica que não existe um valor numérico. 

Dessa forma, na base de dados utilizada, não existem residências com 3 vagas em Copacana. Assim como não existem residências com 4 vagas nos bairros de Botafogo, Grajaú, Gávea e Tijuca.

Observa-se que quase não existe variação do Preço/m2 no Bairro de Copacabana em função do numero de vagas, por isso a inclinação do reta é quase nulano gráfico correspondente. O mesmo vale para os bairros de Grajaú e Tijuca.

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).