## Aula 3 - Visualização

Conhecendo os conjuntos de dados para realizar a análise exploratória.

Alguns gráficos que facilitam o entendimento das variáveis são:

- Histograma (Distribuição)
- Diagrama de dispersão (Relação entre as variáveis)
- Box-plot  (Diferenças entre grupos)
- Gráficos de linhas
- Gráfico de simetria

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('preco_casas_final.csv', sep=';', encoding='utf-8')

In [None]:
df.head(3)

In [None]:
len(df)

O Pandas permite plotar gráficos utilizando um DataFrame ou Series. Isso só é possível pois ele utilizar a biblioteca ```matplotlib```.

In [None]:
%matplotlib notebook
df.preco.plot()

In [None]:
%matplotlib inline
df.preco.plot()

O gráfico está indexado pelo quantidade de linhas (X) dos Dataframe. Note que apenas a coluna preço foi definida, pois utilizamos ela para realizar a plotagem.

Nesse gráfico podemos tirar alguns **Insights**, o primeiro deles é que a maioria dos imóveis ficam na faixa de 600 a 700 mil reais.

Agora que sabemos o básico de como criar os gráficos iremos focar:

- Histograma (Distribuição)
- Diagrama de dispersão (Relação entre as variáveis)
- Box-plot  (Diferenças entre grupos)
- Gráficos de linhas
- Gráfico de simetria

### Histograma

In [None]:
%matplotlib notebook
# Para ter uma controle maior sobre o objeto de plotagem podemos importar o módulo
# de plotagem para adicionar novos elementos.
import matplotlib.pyplot as plt

df.preco.hist(bins=10, 
              color='red', 
              alpha=0.7, 
              grid=False,
              edgecolor='white', 
              linewidth=1)
plt.title('Histograma de Preço' )
plt.xlabel('Bins')
plt.ylabel('Quantidade')

Também podemos criar o histograma com várias colunas:

In [None]:
%matplotlib notebook

df[['qtde_quartos', 'qtde_banheiros']].hist(bins=5, alpha=0.5, 
                                            color='green',
                                            grid=False,
                                            edgecolor='white', 
                                            linewidth=1)

**[Responda]** Quais insights podemos tirar desse gráfico?

```Clique aqui duas vezes para adicionar sua resposta```:

### Diagrama de dispersão

Podemos utilizar o diagrama de dispersão para visualizar a relação entre as variáveis

In [None]:
%matplotlib notebook

df.plot(x='qtde_quartos', y='preco', 
        kind='scatter', 
        title='Quantidade de Quartos x Preço', 
        color='green')

**[Responda]** Quais insights podemos tirar desse gráfico?

```Clique aqui duas vezes para adicionar sua resposta```: 

Podemos verificar essa distribuição para todas as colunas numéricas para isso, podemos:

In [None]:
%matplotlib notebook

for col in df.describe().columns:
    if col != 'preco':
        df.plot(x=col, y='preco', 
        kind='scatter', 
        title='{} x preço'.format(col), 
        color='green')

Para facilitar a visualização, podemos utilizar a biblioteca Seaborn para facilitar a criação da varificação por pares das variáveis.

In [None]:
!pip install seaborn

In [None]:
import seaborn as sns

In [None]:
%matplotlib inline
sns.pairplot(df)

### Box-Plot

In [None]:
%matplotlib notebook
df.boxplot(column='qtde_banheiros')

Esse gráfico mostra várias informações relevantes, como: o valor médio dos dados, o valor máximo e mínimo do conjunto de dados e também os **outliers**.

Como podemos visualizar que existe um ponto que se distancia bastante, esse valor é considerado um **outlier**.

Podemos plotar um gráfico do tipo BoxPlot de uma coluna agrupado por outra coluna:

In [None]:
%matplotlib notebook

df.boxplot(column='preco', by='qtde_quartos')

Esse gráfico permite visualizar os imóveis pela quantidade de quartos e seus respectivos preços.

### Correlação de Variáveis

É importante verificar se existe alguma correlação entre o número de quartos do imóvel e o seu preço?

Ou, o número de banheiros com o preço?

Para isso, podemos utilizar o método do pandas chamado corr() para que seja possível calcular a correlação entre todas as colunas do conjunto de dados.

In [None]:
df.corr()

A correlação utilizada por padrão é a de Pearson.

Este coeficiente assume valores entre -1 e 1, onde um valor 1 significa uma correlação positiva perfeita entre as variáveis e um valor -1 uma correlação negativa perfeita entre as variáveis.

O valor 0 significa que não há uma correlação entre as variáveis.

Também é possível utilizar a correlação de **Spearman** que utilizar a correlação **não linear** entre as variáveis.

In [None]:
df.corr('spearman')

Para facilitar o entendimento, iremos selecionar algumas variáveis:

In [None]:
df.columns

In [None]:
df[['forma_terreno', 
    'ano_construcao',
    'ano_venda',
    'qtde_banheiros', 
    'qualidade_cozinha', 
    'qtde_quartos', 
    'tam_garagem', 
    'tam_sala_estar', 
    'qualidade_aquecedor', 
    'preco']].corr()

Podemos visualizar que a variável ano_venda teve uma baixa correlação com o preço, ao contrário do tam_sala_estar.

In [None]:
%matplotlib inline
df[['forma_terreno', 
    'ano_construcao',
    'ano_venda',
    'qtde_banheiros', 
    'qualidade_cozinha', 
    'qtde_quartos', 
    'tam_garagem', 
    'tam_sala_estar', 
    'qualidade_aquecedor', 
    'preco']].corr().plot(rot=90)

### Tabulação Cruzada (crosstab)

Podemos utilizar essa funcionalidade para cruzar os valores das variáveis.

In [None]:
pd.crosstab(df.qtde_quartos, df.condicao)

Analisando a tabela acima vemos que o **maior** número de imoveis na condição 5 são os imóveis com 3 quartos (462).

Também podemos visualizar esses dados em um gráfico de barras.

In [None]:
tabela = pd.crosstab(df.qtde_quartos, df.condicao)

In [None]:
%matplotlib notebook
tabela.plot(kind='bar', width=1.0)