# Análise Exploratória

A finalidade é entender a estrutura dos dados e avaliar quais mudanças devem ser feitas.

## Agenda
        Identificando os desafios.
        1 - pe.olx
            1.1 - ['Preço']
            1.2 - ['Localizações']
            1.3 - ['Outros']
        2 - redeimoveispe
            2.1 - ['Preço']
            2.2 - ['Localizações']
            2.3 - ['Outros']
        3 - vivareal
            3.1 - ['Preço']
            3.2 - ['Localizações']
            3.3 - ['Outros']

In [1]:
import pandas as pd

Temos 3 arquivos para explorar e limpar. Farei isso separadamente, já que há algumas diferenças entre eles que talvez exijam abordagens diferentes.

**Identificando os desafios.**

As tarefas se resumem a: 
    
    1 Penso em separar os dados por bairro. Assim teremos uma noção melhor
      deles, principalmente por a localização ser um fator importante no 
      preço de um apartamento.
    2 Transformar e criar as colunas numéricas, para podermos fazer os 
      cálculos com elas.

Para isso vamos entender como os dados estão estruturados e pensar em como modificá-los.

## 1 - pe.olx

    Todas as numéricas estão no formato object (str, dict ou list...). 
    Teremos que converter futuramente, sem contar com as separação dos 
    dados da coluna ['other'].
    
    E também temos alguns dados ausentes para lidar.

In [20]:
raw_data = pd.read_csv('0 - Apartamentos Dados (Bruto).csv', index_col=0)
raw_data.head()

Unnamed: 0,prices,locations,other
0,R$ 750.000,"Recife, Boa Viagem",3 quartos | 130m² | 1 vaga
1,R$ 200.000,"Jaboatão dos Guararapes, Candeias",2 quartos | 61m² | 1 vaga
2,R$ 300.000,"Recife, Cordeiro",2 quartos | 50m² | Condomínio: R$ 1 | 1 vaga
3,R$ 128.000,"Paulista, Nossa Senhora do Ó",2 quartos | 63m² | 1 vaga
4,R$ 125.000,"Recife, Areias",2 quartos | 62m² | Condomínio: R$ 140 | 1 vaga


In [33]:
raw_data.shape

(4919, 3)

In [45]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4919 entries, 0 to 4918
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   prices     4837 non-null   object
 1   locations  4917 non-null   object
 2   other      4917 non-null   object
dtypes: object(3)
memory usage: 153.7+ KB


In [46]:
raw_data.isna().sum()

prices       82
locations     2
other         2
dtype: int64

### 1.1 - ['Preço']

Ao observar .head() e sabendo que há muito valores únicos, vou assumir que aparentemente só precisamos tratar dos "R$" (e pontos). Em seguida tentaremos converter seu tipo para numérico e caso esteja errado na minha hipótese, teremos um pouco mais de sujeira para resolver.

In [23]:
len(raw_data.prices.unique())

2342

### 1.2 - ['Localizações']

Os bairros parecem estar na final das strings, então separar na vírgula provavelmente já será uma boa resolução. Testaremos.

In [43]:
raw_data.locations.head()

0                   Recife, Boa Viagem
1    Jaboatão dos Guararapes, Candeias
2                     Recife, Cordeiro
3         Paulista, Nossa Senhora do Ó
4                       Recife, Areias
Name: locations, dtype: object

In [44]:
raw_data.locations.tail()

4914                   Paulista, Paratibe
4915                      Recife, Caxangá
4916    Jaboatão dos Guararapes, Candeias
4917                   Recife, Boa Viagem
4918             Camaragibe, Alberto Maia
Name: locations, dtype: object

### 1.3 - ['Outros']

O "|" será bem útil para separarmos os elementos. O real problema é o fato de às vezes essa divisão resultar em 3 ou 4 elementos.

    3 quartos     | 130m²     | 1 vaga
    2 quartos     | 50m²      | Condomínio: R$ 1     | 1 vaga
    
Sem contar que não temos informações sobre o número de banheiros \o\|o|/o/

In [55]:
raw_data.other.head()

0                        3 quartos | 130m² | 1 vaga
1                         2 quartos | 61m² | 1 vaga
2      2 quartos | 50m² | Condomínio: R$ 1 | 1 vaga
3                         2 quartos | 63m² | 1 vaga
4    2 quartos | 62m² | Condomínio: R$ 140 | 1 vaga
Name: other, dtype: object

## 2 - redeimoveispe

    Sem dados ausentes \o\|o|/o/

In [26]:
raw_data1 = pd.read_csv('0.1 - Apartamentos Dados (Bruto).csv', index_col=0)
raw_data1.head()

Unnamed: 0,prices,locations,other
0,R$ 80.000,Campo Grande,2quartos2banheiros1vaga67m²
1,R$ 130.000,Boa Vista,"1quarto1banheiro 58,40m²"
2,R$ 130.000,Linha do Tiro,2quartos1banheiro 1vaga65m²
3,R$ 132.000R$ 630/ano,Várzea,2quartos1banheiro 1vaga50m²
4,R$ 140.000,Tejipió,2quartos1banheiro 80vagas41m²


In [32]:
raw_data1.shape

(1236, 3)

In [47]:
raw_data1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1236 entries, 0 to 1235
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   prices     1236 non-null   object
 1   locations  1236 non-null   object
 2   other      1236 non-null   object
dtypes: object(3)
memory usage: 38.6+ KB


In [48]:
raw_data1.isna().sum()

prices       0
locations    0
other        0
dtype: int64

### 2.1 - ['Preço']

Os componentes se mostram como um desafio um pouco maior que os preços da tabela anterior. A princípio faremos o mesmo tratamento e caso seja necessário (dependendo do volume de dados) daremos mais atenção a eles.

In [29]:
len(raw_data1.prices.unique())

437

In [58]:
for price in raw_data1.prices.unique()[:15]:
    print(price)

R$ 80.000
R$ 130.000
R$ 132.000R$ 630/ano
R$ 140.000
R$ 145.000R$ 720/ano
R$ 150.000
R$ 160.000
R$ 168.000
R$ 170.000
Preço de vendaSob consultaR$ 1.450/mês
R$ 174.000
R$ 180.000
R$ 182.000
R$ 186.000
R$ 190.000


### 2.2 - ['Localizações']

( \*-\*) Lindo de ver, os bairros já estão prontos, limpinhos. Aprecie!

In [59]:
raw_data1.locations.head()

0     Campo Grande
1        Boa Vista
2    Linha do Tiro
3           Várzea
4          Tejipió
Name: locations, dtype: object

In [60]:
raw_data1.locations.tail()

1231          Pina
1232    Boa Viagem
1233      Apipucos
1234    Boa Viagem
1235      Monteiro
Name: locations, dtype: object

### 2.3 - ['Outros']

Já aqui... acredito que terei que fazer essa divisão por etapas.

In [64]:
raw_data1.other.head()

0      2quartos2banheiros1vaga67m²
1         1quarto1banheiro 58,40m²
2      2quartos1banheiro 1vaga65m²
3      2quartos1banheiro 1vaga50m²
4    2quartos1banheiro 80vagas41m²
Name: other, dtype: object

## 3 - vivareal

In [28]:
raw_data2 = pd.read_csv('0.2 - Apartamentos Dados (Bruto).csv', index_col=0)
raw_data2.head()

Unnamed: 0,prices,locations,other
0,R$ 1.700.000,"Avenida Dezessete de Agosto, 2720 - Casa Fort...",207 Área m² 4 Quartos 4 Suíte...
1,Sob Consulta,"Rua Eurico de Souza Leão, 541 - Cordeiro, Rec...",55-73 Área m² 1-3 Quartos 1 B...
2,R$ 780.000,"Rua Wilfrid Rússel Shorto, 61 - Boa Viagem, R...",250 Área m² 4 Quartos 2 Suíte...
3,R$ 450.000,"Estrada do Encanamento, 1342 - Casa Forte, Re...",82 Área m² 3 Quartos 1 Suíte ...
4,R$ 350.000,"Rua Doutor Luiz Inácio Pessoa de Melo, 81 - B...",70 Área m² 2 Quartos 1 Suíte ...


In [31]:
raw_data2.shape

(10764, 3)

In [50]:
raw_data2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10764 entries, 0 to 10763
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   prices     10764 non-null  object
 1   locations  10764 non-null  object
 2   other      10764 non-null  object
dtypes: object(3)
memory usage: 336.4+ KB


In [51]:
raw_data2.isna().sum()

prices       0
locations    0
other        0
dtype: int64

### 3.1 - ['Preço']

Tal qual a primeira tabela. O estranho é termos 10764 linhas e apenas 31 valores únicos. Deve haver duplicatas? Muitas delas? Hummmm...  

In [65]:
len(raw_data2.prices.unique())

31

In [66]:
raw_data2.prices.unique()

array(['      R$ 1.700.000    ', '    Sob Consulta   ',
       '      R$ 780.000    ', '      R$ 450.000    ',
       '      R$ 350.000    ', '      R$ 620.000    ',
       '      R$ 429.000    ', '      R$ 400.000    ',
       '      R$ 520.000    ', '      R$ 275.000    ',
       '      R$ 1.550.000    ', '      R$ 590.000    ',
       '      R$ 399.000    ', '      R$ 1.100.000    ',
       '      R$ 630.000    ', '      R$ 1.500.000    ',
       '      R$ 950.000    ', '      R$ 99.999.999    ',
       '      R$ 415.000    ', '      R$ 550.000    ',
       '      R$ 430.000    ', '      R$ 2.300.000    ',
       '      R$ 290.000    ', '      R$ 302.900    ',
       '      R$ 220.000    ', '      R$ 420.000    ',
       '      R$ 1.106.000    ', '      R$ 720.000    ',
       '      R$ 340.000    ', '      R$ 670.000    ',
       '      R$ 709.999    '], dtype=object)

### 3.2 - ['Localizações']
        

In [70]:
raw_data2.locations[0]

' Avenida Dezessete de Agosto, 2720 - Casa Forte, Recife - PE '

In [71]:
raw_data2.locations[1]

' Rua Eurico de Souza Leão, 541 - Cordeiro, Recife - PE '

In [84]:
# KKK Sim. Duplicatas.

raw_data2.locations[20]

' Travessa Maria Carolina, 816 - Boa Viagem, Recife - PE '

In [80]:
raw_data2.locations[200]

' Travessa Maria Carolina, 816 - Boa Viagem, Recife - PE '

In [81]:
raw_data2.locations[2000]

' Travessa Maria Carolina, 816 - Boa Viagem, Recife - PE '

### 3.3 - ['Outros']

Estes espaços " " podem ser úteis, na verdade estou pensando qual seria a forma mais eficiente de se tratar esse tipo de dado.

In [89]:
raw_data2.other.head()

0       207   Área m²     4   Quartos     4   Suíte...
1       55-73   Área m²     1-3   Quartos     1   B...
2       250   Área m²     4   Quartos     2   Suíte...
3       82   Área m²     3   Quartos     1   Suíte ...
4       70   Área m²     2   Quartos     1   Suíte ...
Name: other, dtype: object

In [91]:
len(raw_data2.other.unique())

35

In [92]:
raw_data2.other.unique()

array(['   207   Área m²     4   Quartos     4   Suítes     5   Banheiros     3   Vagas   ',
       '   55-73   Área m²     1-3   Quartos     1   Banheiro     1-2   Vagas   ',
       '   250   Área m²     4   Quartos     2   Suítes     4   Banheiros     1   Vaga   ',
       '   82   Área m²     3   Quartos     1   Suíte     3   Banheiros     2   Vagas   ',
       '   70   Área m²     2   Quartos     1   Suíte     2   Banheiros     1   Vaga   ',
       '   88   Área m²     3   Quartos     1   Suíte     2   Banheiros     2   Vagas   ',
       '   75   Área m²     3   Quartos     1   Suíte     2   Banheiros     1   Vaga   ',
       '   48   Área m²     2   Quartos     1   Suíte     2   Banheiros     1   Vaga   ',
       '   84   Área m²     3   Quartos     2   Banheiros     2   Vagas   ',
       '   76   Área m²     3   Quartos     1   Suíte     1   Banheiro     1   Vaga   ',
       '   203   Área m²     4   Quartos     4   Suítes     5   Banheiros     3   Vagas   ',
       '   110   Área

Agora que sabemos parte do tamanho do problema, vamos iniciar a limpeza dos dados com o objetivo de torná-los usáveis e obter informações deles.