---
**Autor**: Profs. Dino Magri e João Nogueira

**Contato**: `professor.dinomagri@gmail.com`, `joaonogueira@fisica.ufc.br`

**Licença deste notebook**: 
<br>
<img align="left" width="80" src="https://licensebuttons.net/l/by/3.0/88x31.png" />

<br>
<br>

[Clique aqui para saber mais sobre a licença CC BY v4.0](https://creativecommons.org/licenses/by/4.0/legalcode.pt)


---

# Parte 2 - Análise Exploratória de Dados

In [1]:
import pandas as pd

In [4]:
df = pd.read_csv('/content/drive/MyDrive/projeto-ia-codigos/projeto-ia-datasets/preco_casas_final.csv', sep=';')

In [None]:
# Essa opção do pandas formata a visualização dos valores das colunas com o tipo 
# float (decimal) com duas casas decimais.
# pd.options.display.float_format = "{:.2f}".format

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
df.head()

Unnamed: 0,zoneamento,tam_terreno,forma_terreno,qualidade_geral,condicao,ano_construcao,qualidade_aquecedor,ar_condicionado,tam_primeiro_andar,tam_segundo_andar,tam_sala_estar,qtde_quartos,qualidade_cozinha,qtde_banheiros,qtde_comodos,qtde_lareiras,qtde_carros_garagem,tam_garagem,tam_piscina,qualidade_piscina,mes_venda,ano_venda,preco
0,RL,785.03035,Reg,7,5,2003,Ex,Y,79.524968,79.339162,158.86413,3,Gd,30,8,0,2,50.910844,0.0,NotAv,2,2008,846510.0
1,RL,891.8688,Reg,6,8,1976,Ex,Y,117.243586,0.0,117.243586,3,TA,2,6,1,2,42.73538,0.0,NotAv,5,2007,661780.0
2,RL,1045.15875,IR1,7,5,2001,Ex,Y,85.47076,80.453998,165.924758,3,Gd,2,6,1,2,56.485024,0.0,NotAv,9,2008,907410.0
3,RL,887.22365,IR1,7,5,1915,Gd,Y,89.279783,70.234668,159.514451,3,Gd,1,7,1,3,59.643726,0.0,NotAv,2,2006,568400.0
4,RL,1324.79678,IR1,8,5,2000,Ex,Y,106.373935,97.826859,204.200794,4,Gd,2,9,1,3,77.666908,0.0,NotAv,12,2008,1015000.0


### Variável Qualitativa e Variável Quantitativa

**Variável Qualitativa Nominal**

Quando não há ordenação entre valores!

In [6]:
df.zoneamento.unique()

array(['RL', 'RM', 'C (all)', 'FV', 'RH'], dtype=object)

**Variável Qualitativa Ordinal**

Quando há ordenação entre os valores.

In [None]:
df.qualidade_cozinha.unique()

array(['Gd', 'TA', 'Ex', 'Fa', 'missing'], dtype=object)

In [None]:
df.dtypes

zoneamento              object
tam_terreno            float64
forma_terreno           object
qualidade_geral          int64
condicao                 int64
ano_construcao           int64
qualidade_aquecedor     object
ar_condicionado         object
tam_primeiro_andar     float64
tam_segundo_andar      float64
tam_sala_estar         float64
qtde_quartos             int64
qualidade_cozinha       object
qtde_banheiros           int64
qtde_comodos             int64
qtde_lareiras            int64
qtde_carros_garagem      int64
tam_garagem            float64
tam_piscina            float64
mes_venda                int64
ano_venda                int64
preco                  float64
dtype: object

Tanto `qualidade_cozinha` quanto `zoneamento` são do tipo objeto. Podemos então utilizar o método `describe(include='object')` para obtermos estatísticas dessas variáveis: 

In [7]:
df[['zoneamento', 'qualidade_cozinha']].describe()

Unnamed: 0,zoneamento,qualidade_cozinha
count,1458,1458
unique,5,4
top,RL,TA
freq,1149,735


Podemos também com o mesmo método obter informações de todas as variáveis qualitativas de uma só vez:

In [None]:
df.describe(include='object')

Unnamed: 0,zoneamento,forma_terreno,qualidade_aquecedor,ar_condicionado,qualidade_cozinha
count,1459,1459,1459,1459,1459
unique,5,4,5,2,5
top,RL,Reg,Ex,Y,TA
freq,1150,924,740,1364,735


**Variável Quantitativa Discreta**

Assumem valores dentro de um conjunto finito.

In [None]:
df.qtde_quartos.unique()

array([3, 4, 1, 2, 0, 5, 6, 8])

**Variável Quantitativa Contínua**

Assumem valores em uma escala contínua.

In [None]:
df.preco[:4]

0    846510.000000
1    734478.354431
2    907410.000000
3    568400.000000
Name: preco, dtype: float64

### Medidas de posição

O método describe fornece as estatísticas descritivas (```quantidade, média, desvio padrão, mínimo, máximo, percentis```) que apresentam a tendência central, a dispersão e a forma da distribuição do conjunto de dados.

In [None]:
df.describe()

Unnamed: 0,tam_terreno,qualidade_geral,condicao,ano_construcao,tam_primeiro_andar,tam_segundo_andar,tam_sala_estar,qtde_quartos,qtde_banheiros,qtde_comodos,qtde_lareiras,qtde_carros_garagem,tam_garagem,tam_piscina,mes_venda,ano_venda,preco
count,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0
mean,976.860145,6.098012,5.575737,1971.245374,108.01346,32.174684,140.731489,2.865661,1.583276,6.516107,0.612748,1.766278,43.927391,0.256486,6.320082,2007.816998,734121.9
std,927.580526,1.382574,1.113079,30.201088,35.927398,40.499526,48.782217,0.815517,0.925419,1.62465,0.644808,0.746873,19.862835,3.733866,2.703643,1.327699,322351.2
min,120.7739,1.0,1.0,1872.0,31.029602,0.0,31.029602,0.0,0.0,2.0,0.0,0.0,0.0,0.0,1.0,2006.0,141694.0
25%,701.324747,5.0,5.0,1954.0,81.940446,0.0,104.887487,2.0,1.0,5.0,0.0,1.0,30.936699,0.0,5.0,2007.0,527597.0
50%,880.441731,6.0,5.0,1973.0,100.892658,0.0,136.009992,3.0,2.0,6.0,1.0,2.0,44.59344,0.0,6.0,2008.0,661780.0
75%,1077.6748,7.0,6.0,2000.0,129.274524,67.633384,164.995728,3.0,2.0,7.0,1.0,2.0,53.512128,0.0,8.0,2009.0,868840.0
max,19996.906235,10.0,9.0,2010.0,435.900876,191.844695,524.158726,8.0,30.0,14.0,3.0,4.0,131.736454,68.562414,12.0,2010.0,3065300.0


Para as medidas Moda e Mediana, podemos aplicá-las em uma ou várias colunas especificas.

In [None]:
df.qtde_quartos.mode()

0    3
dtype: int64

In [None]:
df[['qtde_quartos', 'qtde_lareiras']].median()

qtde_quartos     3.0
qtde_lareiras    1.0
dtype: float64

### Medidas de dispersão

A finalidade é encontrar um valor que resuma a variabilidade de um conjunto de dados. Essas medidas indicam o quão espalhados os dados estão, ou como eles variam.

In [8]:
df_desc = df.describe()

#### Amplitude

Diferença entre o valor máximo e o valor mínimo.

In [9]:
df_desc.loc['max'] - df_desc.loc['min']

tam_terreno            1.987613e+04
qualidade_geral        9.000000e+00
condicao               8.000000e+00
ano_construcao         1.380000e+02
tam_primeiro_andar     4.048713e+02
tam_segundo_andar      1.918447e+02
tam_sala_estar         4.931291e+02
qtde_quartos           8.000000e+00
qtde_banheiros         3.000000e+01
qtde_comodos           1.200000e+01
qtde_lareiras          3.000000e+00
qtde_carros_garagem    4.000000e+00
tam_garagem            1.317365e+02
tam_piscina            6.856241e+01
mes_venda              1.100000e+01
ano_venda              4.000000e+00
preco                  2.923606e+06
dtype: float64

#### Intervalo Interquartil

É a diferença entre o terceiro e o primeiro quartil (Q3 - Q1)

In [None]:
df_desc.loc['75%'] - df_desc.loc['25%']

tam_terreno               376.350053
qualidade_geral             2.000000
condicao                    1.000000
ano_construcao             46.000000
tam_primeiro_andar         47.334078
tam_segundo_andar          67.633384
tam_sala_estar             60.108241
qtde_quartos                1.000000
qtde_banheiros              1.000000
qtde_comodos                2.000000
qtde_lareiras               1.000000
qtde_carros_garagem         1.000000
tam_garagem                22.575429
tam_piscina                 0.000000
mes_venda                   3.000000
ano_venda                   2.000000
preco                  341243.000000
dtype: float64

#### Variância 

A variância é uma medida que expressa quanto os dados de um conjunto estão afastados de seu valor esperado. O cálculo é feito pela média dos quadrados dos desvios em relação a média aritmética.

Quanto maior for a variância, mais distantes da média estarão os valores, e quanto menor for a variância, mais próximos os valores estarão da média. As vezes é importante visualizar essa discrepancia seja mais perceptível e por isso utiliza-se a variância.

In [None]:
df.var()

tam_terreno            8.604056e+05
qualidade_geral        1.911512e+00
condicao               1.238945e+00
ano_construcao         9.121057e+02
tam_primeiro_andar     1.290778e+03
tam_segundo_andar      1.640212e+03
tam_sala_estar         2.379705e+03
qtde_quartos           6.650683e-01
qtde_banheiros         8.564005e-01
qtde_comodos           2.639487e+00
qtde_lareiras          4.157770e-01
qtde_carros_garagem    5.578195e-01
tam_garagem            3.945322e+02
tam_piscina            1.394176e+01
mes_venda              7.309686e+00
ano_venda              1.762784e+00
preco                  1.039103e+11
dtype: float64

In [None]:
df.mean()

tam_terreno               976.860145
qualidade_geral             6.098012
condicao                    5.575737
ano_construcao           1971.245374
tam_primeiro_andar        108.013460
tam_segundo_andar          32.174684
tam_sala_estar            140.731489
qtde_quartos                2.865661
qtde_banheiros              1.583276
qtde_comodos                6.516107
qtde_lareiras               0.612748
qtde_carros_garagem         1.766278
tam_garagem                43.927391
tam_piscina                 0.256486
mes_venda                   6.320082
ano_venda                2007.816998
preco                  734121.903680
dtype: float64

**Desvio Padrão**

O desvio padrão também é uma medida de dispersão e indica o quanto os dados estão adastados da média. Ao contrário da variância, em alguns cenários não é necessário que a discrpancia seja perceptível, pois esse valor pode ser considerado com um erro. E desta forma, se utilizassemos a variância para o erro, os valores mais discrepantes da média teriam um erro desproporcional e prejudicaria o experimento em questão.

Nesse cenário que podemos utilizar o desvio padrão.

O cálculo do desvio padrão é dado pela raiz da variância.

In [None]:
df.std()

tam_terreno               927.580526
qualidade_geral             1.382574
condicao                    1.113079
ano_construcao             30.201088
tam_primeiro_andar         35.927398
tam_segundo_andar          40.499526
tam_sala_estar             48.782217
qtde_quartos                0.815517
qtde_banheiros              0.925419
qtde_comodos                1.624650
qtde_lareiras               0.644808
qtde_carros_garagem         0.746873
tam_garagem                19.862835
tam_piscina                 3.733866
mes_venda                   2.703643
ano_venda                   1.327699
preco                  322351.178121
dtype: float64

In [None]:
df.preco.var()

103910282035.9178

In [None]:
import numpy as np

In [None]:
np.sqrt(df.preco.var())

322351.17812087765

**Coeficiente de variação**

Mede a variabilidade numa escala percentual independente da unidade de medida ou da ordem de grandeza da variável.

In [None]:
cv = (df.preco.std() / df.preco.mean()) * 100
print(cv)

43.909761649267814


### Tabulação Cruzada (crosstab)

Podemos utilizar essa funcionalidade para cruzar os valores das variáveis.

In [None]:
pd.crosstab(df.qtde_quartos, df.condicao)

condicao,1,2,3,4,5,6,7,8,9
qtde_quartos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,0,0,0,1,3,1,0,0,1
1,1,1,3,1,31,5,3,5,0
2,0,2,7,14,195,63,57,17,3
3,0,1,7,24,462,149,112,38,11
4,0,1,6,13,117,31,28,9,7
5,0,0,2,2,8,2,4,3,0
6,0,0,0,2,4,1,0,0,0
8,0,0,0,0,0,0,1,0,0


Analisando a tabela acima vemos que o **maior** número de imoveis na condição 5 são os imóveis com 3 quartos (462).

## Exercícios para explorar os dados

Para saber a quantidade de imóveis pela quantidade de banheiros, podemos utilizar o comando abaixo que realizar a contagem.

In [None]:
pd.value_counts(df.qtde_banheiros)

2     767
1     650
3      32
0       9
30      1
Name: qtde_banheiros, dtype: int64

**<span style="color:blue">[Responda]</span>**  Quantos imóveis tem 3 quartos?

In [11]:
pd.value_counts(df.qtde_banheiros == 3)

False    1426
True       32
Name: qtde_banheiros, dtype: int64

**<span style="color:blue">[Responda]</span>**  Quantos imóveis têm 2 banheiros?

In [13]:
pd.value_counts(df.qtde_banheiros == 2)

True     767
False    691
Name: qtde_banheiros, dtype: int64

**<span style="color:blue">[Responda]</span>**  Quantos imóveis tem 3 banheiros e 3 quartos?

In [None]:
pd.value_counts(df.qtde_banheiros == 3)

Podemos criar novas colunas que podem facilitar o nosso entendimento dos dados!

Por exemplo, quantas casas são pequenas, médias e grandes? 
- Como podemos adicionar essa informações dentro do nosso conjunto de dados? 
- Qual coluna disponível podemos utilizar?

**<span style="color:blue">[Responda]</span>** Crie uma função que identifica o tamanho do terreno com as seguintes condições:

    - pequeno: se menor ou igual 500
    - media: se maior que 500 e menor que 1000
    - grande: se maior ou igual a 1000

In [None]:
def categorizar(tam):
  # adicione seu codigo aqui

In [None]:
# Testando
print(categorizar(50))
print(categorizar(501))
print(categorizar(5000))

Crie uma nova coluna no DataFrame chamado 'categoria_terreno' e aplique a função criada anteriormente para todas as linhas do DataFrame. Lembre-se do método .apply que existe em uma Serie.

**<span style="color:blue">[Responda]</span>** Imprima as 5 primeiras linhas do DataFrame `df` apenas para as colunas `tam_terreno` e `categoria_terreno`.

**<span style="color:blue">[Responda]</span>**  Quantos imóveis tem o terreno pequeno?

**<span style="color:blue">[Responda]</span>**  Quantos imóveis tem o terreno médio?

**<span style="color:blue">[Responda]</span>** Quantos imóveis tem o terreno grande?