## Aula 3 - Parte 2 - Análise Exploratória de Dados

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('preco_casas_final.csv', sep=';', encoding='utf-8')

In [None]:
df.head(3)

In [None]:
# Essa opção do pandas format os tipos floats com duas casas decimais.
pd.options.display.float_format = "{:.2f}".format

In [None]:
len(df)

In [None]:
df.head(5)

### Variável Qualitativa e Variável Quantitativa

**Variável Qualitativa Nominal**

In [None]:
df.zoneamento.unique()

**Variável Qualitativa Ordinal**

In [None]:
df.qualidade_cozinha.unique()

**Variável Quantitativa Discreta**

In [None]:
df.qtde_quartos.unique()

**Variável Quantitativa Contínua**

In [None]:
df.preco[:4]

### Medidas de posição

O método describe fornece as estatísticas descritivas (```quantidade, média, desvio padrão, mínimo, máximo, percentis```) que apresentam a tendência central, a dispersão e a forma da distribuição do conjunto de dados.

In [None]:
df.describe()

Para as medidas Modo e Mediana, podemos aplicá-las em uma ou várias colunas especificas.

In [None]:
df.qtde_quartos.mode()

In [None]:
df[['qtde_quartos', 'qtde_lareiras']].median()

### Medidas de dispersão

A finalidade é encontrar um valor que resuma a variabilidade de um conjunto de dados. Essas medidas indicam o quão espalhados os dados estão, ou como eles variam.

In [None]:
df_desc = df.describe()

#### Amplitude

Diferença entre o valor máximo e o valor mínimo.

In [None]:
df_desc.loc['max'] - df_desc.loc['min']

#### Intervalo Interquartil

É a diferença entre o terceiro e o primeiro quartil (Q3 - Q1)

In [None]:
df_desc.loc['75%'] - df_desc.loc['25%']

#### Variância 

A variância é uma medida que expressa quanto os dados de um conjunto estão afastados de seu valor esperado. O cálculo é feito pela média dos quadrados dos desvios em relação a média aritmética.

Quanto maior for a variância, mais distantes da média estarão os valores, e quanto menor for a variância, mais próximos os valores estarão da média. As vezes é importante visualizar essa discrepancia seja mais perceptível e por isso utiliza-se a variância.

In [None]:
df.var()

In [None]:
df.mean()

**Desvio Padrão**

O desvio padrão também é uma medida de dispersão e indica o quanto os dados estão adastados da média. Ao contrário da variância, em alguns cenários não é necessário que a discrpancia seja perceptível, pois esse valor pode ser considerado com um erro. E desta forma, se utilizassemos a variância para o erro, os valores mais discrepantes da média teriam um erro desproporcional e prejudicaria o experimento em questão.

Nesse cenário que podemos utilizar o desvio padrão.

O cálculo do desvio padrão é dado pela raiz da variância.

In [None]:
df.std()

In [None]:
df.preco.var()

In [None]:
import numpy as np

In [None]:
np.sqrt(df.preco.var())

** Coeficiente de variação**

Mede a variabilidade numa escala percentual independente da unidade de medida ou da ordem de grandeza da variável.

In [None]:
cv = (df.preco.std()/df.preco.mean())*100
print(cv)

## Explorando nosso conjunto de dados

Para saber a quantidade de imóveis pela quantidade de banheiros, podemos utilizar o comando abaixo que realizar a contagem.

In [None]:
pd.value_counts(df.qtde_banheiros)

**[Responda]** Quantos imóveis tem 3 quartos? Lembre-se da diferença entre o .loc e .iloc visto na aula anterior.

**[Responda]** Quantos imóveis têm 2 banheiros?

**[Responda]** Quantos imóveis tem 3 banheiros e 3 quartos?

Para ordenar o conjunto de dados com base em uma coluna, podemos:

Para ordenar de forma descresente (maior para o menor) podemos:

Podemos criar novas colunas que podemos facilitar o nosso entendimento dos dados!

Por exemplo, quantas casas são pequenas, médias e grandes? 
- Como podemos adicionar essa informações dentro do nosso conjunto de dados? 
- Qual coluna disponível podemos utilizar?

Primeiro passo é pegar a coluna referente ao tamanho da casa em metros quadrados, podemos utilizar a variável ```tam_terreno```.

Vamos criar uma função que identifica o tamanho do terreno e define:

    - pequeno: se menor ou igual 500
    - media: se maior que 500 e menor que 1000
    - grande: se maior ou igual a 1000

In [None]:
def categorizar(tam):
    if tam >=1000:
        return 'grande'
    elif tam > 500 and tam < 1000:
        return 'medio'
    elif tam <= 500:
        return 'pequeno'

In [None]:
# Testando
print(categorizar(50))
print(categorizar(501))
print(categorizar(5000))

Agora temos que aplicar para todas as linhas do nosso conjunto de dados para que cada linha tenha uma categorização do tamanho do terro.

In [None]:
df['categoria_terreno'] = df.tam_terreno.apply(categorizar)

In [None]:
df.head()

**[Responda]** Quantos imóveis tem o terreno pequeno?

**[Responda]** Quantos imóveis tem o terreno médio?

**[Responda]** Quantos imóveis tem o terreno grande?

In [None]:
# Uma outra forma de realizar essa contagem de maneira geral
pd.value_counts(df.categoria_terreno)

Para facilitar e ter uma visualização geral do conjunto de dados podemos utilizar a biblioteca ```pandas_profiling``` que permite visualizar um relatório do conjunto de dados. Primeiro precisamos instalar essa biblioteca:

In [None]:
!pip install pandas-profiling

In [None]:
import pandas_profiling

In [None]:
relatorio = pandas_profiling.ProfileReport(df)

In [None]:
relatorio.to_file('relatorio_conjunto_dados.html')

In [None]:
relatorio