# Data Wrangling
* Nesse arquivo, pegamos os dados na sua forma bruta, como foram extraídos do [Zap Imóveis](https://www.zapimoveis.com.br), e os transformamos para a forma apropriada para as próximas etapas do pipeline do projeto.
* Resolvemos os missing data
* Resolvemos as formatações inapropriadas.

In [None]:
import pandas as pd
import numpy as np

In [336]:
file_names = ['barao_icarai.csv',
             'cruz_lima.csv',
             'fernando_osorio.csv', 
             'honorio_barros.csv', 
             'marques_abrantes.csv', 
             'marques_parana.csv',
             'oswaldo_cruz.csv',
             'princesa_januaria.csv',
             'rui_barbosa.csv',
             'senador_euzebio.csv',
             'senador_vergueiro.csv'
            ]


li = []
for file_name in file_names:
    _df = pd.read_csv("data/" + file_name, index_col=None, header=0)
    li.append(_df)
    
df = pd.concat(li, axis=0, ignore_index=True)

In [337]:
df

Unnamed: 0,Address,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price
0,"Rua das Laranjeiras, Laranjeiras",\n 71 - 201 m²\n,\n 2 - 4 \n,\n 1 \n,,,,\n Sob consulta\n
1,"Rua Voluntários da Pátria, Botafogo",\n 113 - 116 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,,,\n R$ 1.665.000\n /venda
2,"Rua Pereira da Silva, Laranjeiras",\n 73 - 124 m²\n,\n 2 - 3 \n,\n 3 \n,\n 1 - 2 \n,,,\n R$ 960.000\n /venda
3,"Rua Barão de Icaraí, Flamengo",\n 160 m²\n,\n 2 \n,\n 3 \n,\n 2 \n,R$ 1.200,R$ 433,\n R$ 1.800.000\n /venda
4,"Rua Barão de Icaraí, Flamengo",\n 100 m²\n,\n 2 \n,\n 1 \n,\n 2 \n,R$ 950,R$ 280,\n R$ 1.050.000\n /venda
...,...,...,...,...,...,...,...,...
2884,"Rua Senador Vergueiro, Flamengo",\n 385 m²\n,\n 5 \n,\n 3 \n,\n 1 \n,R$ 3.680,R$ 878,\n R$ 2.500.000\n /venda
2885,"Rua Senador Vergueiro, Flamengo",\n 198 m²\n,\n 4 \n,\n 4 \n,\n 1 \n,R$ 1.600,R$ 491,\n R$ 1.800.000\n /venda
2886,"Rua Senador Vergueiro, Flamengo",\n 160 m²\n,\n 3 \n,\n 3 \n,\n 1 \n,R$ 1.500,R$ 3.840,\n R$ 2.030.000\n /venda
2887,"Rua Senador Vergueiro, Flamengo",\n 220 m²\n,\n 4 \n,\n 3 \n,\n 1 \n,R$ 1.555,R$ 46.440,\n R$ 2.240.000\n /venda


Perceba, acima, como várias colunas, que representam valores, possuem o código de quebra de linha '\n'. Outras linhas possuem o símbolo 'R$'. Vamos consertar essa formatação mais à frente.

Além disso, Todas as ruas possuem também o baixo, o que é indesejado. Vamos criar uma outra coluna, somente com as ruas de nosso interesse, já numa formatação apropriada:

In [338]:
def extract_street(x):
    x = x.lower()
    if 'icaraí' in x:
        return 'Barão de Icaraí'
    elif 'lima' in x:
        return 'Cruz Lima'
    elif 'fernando' in x:
        return 'Fernando Osório'
    elif 'barros' in x:
        return 'Honório de Barros'
    elif 'abrantes' in x:
        return 'Marquês de Abrantes'
    elif 'paraná' in x:
        return 'Marquês de Paraná'
    elif 'oswaldo' in x:
        return 'Oswaldo Cruz'
    elif 'januaria' in x:
        return 'Princesa Januaria'
    elif 'barbosa' in x:
        return 'Rui Barbosa'
    elif 'euzebio' in x:
        return 'Senador Euzebio'
    elif 'vergueiro' in x:
        return 'Senador Vergueiro'
    else:
        return np.NaN

In [339]:
df['Street'] = df['Address'].apply(extract_street)

In [340]:
df.head()

Unnamed: 0,Address,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price,Street
0,"Rua das Laranjeiras, Laranjeiras",\n 71 - 201 m²\n,\n 2 - 4 \n,\n 1 \n,,,,\n Sob consulta\n,
1,"Rua Voluntários da Pátria, Botafogo",\n 113 - 116 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,,,\n R$ 1.665.000\n /venda,
2,"Rua Pereira da Silva, Laranjeiras",\n 73 - 124 m²\n,\n 2 - 3 \n,\n 3 \n,\n 1 - 2 \n,,,\n R$ 960.000\n /venda,
3,"Rua Barão de Icaraí, Flamengo",\n 160 m²\n,\n 2 \n,\n 3 \n,\n 2 \n,R$ 1.200,R$ 433,\n R$ 1.800.000\n /venda,Barão de Icaraí
4,"Rua Barão de Icaraí, Flamengo",\n 100 m²\n,\n 2 \n,\n 1 \n,\n 2 \n,R$ 950,R$ 280,\n R$ 1.050.000\n /venda,Barão de Icaraí


In [341]:
df.Street.value_counts()

Senador Vergueiro      550
Marquês de Abrantes    437
Rui Barbosa            401
Oswaldo Cruz           367
Barão de Icaraí         78
Cruz Lima               67
Senador Euzebio         62
Honório de Barros       41
Fernando Osório         35
Princesa Januaria       32
Marquês de Paraná       29
Name: Street, dtype: int64

A coluna 'Street' possui somente as nossas ruas de interesse, já na formatação apropriada. Mas algumas ruas ficaram como nulas nessa coluna. Veremos agora o por quê.

# Ruas que não satisfazem nosso filtro
O Zap exibe apartamentos patrocinados no resultado de nossas buscas que não necessariamente satisfazem os critérios de nossos filtros. Por isso, temos apartamentos em ruas e bairros que não nos interessavam. Ao criarmos a coluna Street, esses apartamentos ficaram como NaN, pois não pertenciam a nenhuma das ruas estipuladas na função extract_street().

Vemos abaixo que 798 anúnios se encaixam nessa categoria. Portanto, vamos eliminá-los da análise.

In [342]:
#linhas nulas na coluna Street
print(f'linhas nulas na coluna Street: {df.isna().sum().Street}')

linhas nulas na coluna Street: 790


In [343]:
#Eliminando todas as linhas que não estão em uma das ruas estudadas
df = df.dropna(axis = 0, subset=['Street'])
df

Unnamed: 0,Address,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price,Street
3,"Rua Barão de Icaraí, Flamengo",\n 160 m²\n,\n 2 \n,\n 3 \n,\n 2 \n,R$ 1.200,R$ 433,\n R$ 1.800.000\n /venda,Barão de Icaraí
4,"Rua Barão de Icaraí, Flamengo",\n 100 m²\n,\n 2 \n,\n 1 \n,\n 2 \n,R$ 950,R$ 280,\n R$ 1.050.000\n /venda,Barão de Icaraí
5,"Rua Barão de Icaraí, Flamengo",\n 78 m²\n,\n 2 \n,\n 2 \n,\n 1 \n,R$ 790,R$ 2.202,\n R$ 949.999\n /venda,Barão de Icaraí
6,"Rua Barão de Icaraí, Flamengo",\n 102 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,R$ 1.100,R$ 214,\n R$ 973.000\n /venda,Barão de Icaraí
7,"Rua Barão de Icaraí, Flamengo",\n 130 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,R$ 1.650,R$ 295,\n R$ 1.150.000\n /venda,Barão de Icaraí
...,...,...,...,...,...,...,...,...,...
2884,"Rua Senador Vergueiro, Flamengo",\n 385 m²\n,\n 5 \n,\n 3 \n,\n 1 \n,R$ 3.680,R$ 878,\n R$ 2.500.000\n /venda,Senador Vergueiro
2885,"Rua Senador Vergueiro, Flamengo",\n 198 m²\n,\n 4 \n,\n 4 \n,\n 1 \n,R$ 1.600,R$ 491,\n R$ 1.800.000\n /venda,Senador Vergueiro
2886,"Rua Senador Vergueiro, Flamengo",\n 160 m²\n,\n 3 \n,\n 3 \n,\n 1 \n,R$ 1.500,R$ 3.840,\n R$ 2.030.000\n /venda,Senador Vergueiro
2887,"Rua Senador Vergueiro, Flamengo",\n 220 m²\n,\n 4 \n,\n 3 \n,\n 1 \n,R$ 1.555,R$ 46.440,\n R$ 2.240.000\n /venda,Senador Vergueiro


## Imóveis na Planta
Parte dos anúncios patrocinados continham prédios ainda em construção ou recém prontos, que têm várias opções de apartamentos. 

### Banheiros
Por isso temos, como vemos abaixo, valores para Baths do tipo "1 - 3" (8 anúncios) ou "2 - 3" (8 anúncios): são anúncios de imobiliárias que possuem várias opções naquele prédio. Precisamos deletar essas linhas, pois serão incompatíveis com nossa modelagem.

In [344]:
#exibindo os valores existentes na coluna Baths, e quantas vezes cada um aparece
print(df.Baths.value_counts().index)
df.Baths.value_counts()

Index(['\n        2 \n        ', '\n        3 \n        ',
       '\n        1 \n        ', '\n        4 \n        ',
       '\n        5 \n        ', '\n        6 \n        ',
       '\n        7 \n        ', '\n        1 - 3 \n        ',
       '\n        2 - 3 \n        ', '\n        8 \n        ',
       '\n        11 \n        ', '\n        9 \n        '],
      dtype='object')


\n        2 \n                667
\n        3 \n                658
\n        1 \n                385
\n        4 \n                247
\n        5 \n                 82
\n        6 \n                 28
\n        7 \n                  9
\n        1 - 3 \n              8
\n        2 - 3 \n              8
\n        8 \n                  3
\n        11 \n                 1
\n        9 \n                  1
Name: Baths, dtype: int64

In [345]:
#deleta os anúncios que são imcompatíveis com nossa modelagem (mais de uma opção de apartamento no anúncio)
df = df[df['Baths'] != '\n        2 - 3 \n        ']
df = df[df['Baths'] != '\n        1 - 3 \n        ']

In [346]:
#verificando que não temos mais esse tipo de anúncio indesejado
df.Baths.value_counts()

\n        2 \n             667
\n        3 \n             658
\n        1 \n             385
\n        4 \n             247
\n        5 \n              82
\n        6 \n              28
\n        7 \n               9
\n        8 \n               3
\n        11 \n              1
\n        9 \n               1
Name: Baths, dtype: int64

### Dormitórios

Na coluna dormitórios, encontramos 3 anúncios com o mesmo problema apontado acima. Vamos deletá-los.

In [347]:
#exibe os valores existentes na coluna Dorms, e quantas vezes cada um aparece
print(df.Dorms.value_counts().index)
df.Dorms.value_counts()

Index(['\n        3 \n        ', '\n        2 \n        ',
       '\n        4 \n        ', '\n        1 \n        ',
       '\n        5 \n        ', '\n        6 \n        ',
       '\n        2 - 3 \n        ', '\n        7 \n        '],
      dtype='object')


\n        3 \n                946
\n        2 \n                500
\n        4 \n                438
\n        1 \n                166
\n        5 \n                 16
\n        6 \n                 13
\n        2 - 3 \n              3
\n        7 \n                  1
Name: Dorms, dtype: int64

In [348]:
#deleta os anúncios que são imcompatíveis com nossa modelagem (mais de uma opção de apartamento no anúncio)
df = df[df['Dorms'] != '\n        2 - 3 \n        ']

In [349]:
#verificando que não temos mais de uma opção de dormitório por anúncio
df.Dorms.value_counts()

\n        3 \n            946
\n        2 \n            500
\n        4 \n            438
\n        1 \n            166
\n        5 \n             16
\n        6 \n             13
\n        7 \n              1
Name: Dorms, dtype: int64

### Vagas de Garagem

Na coluna 'Parking Slots', não temos o problema de mais de uma opção de imóvel no mesmo anúncio.

In [350]:
#verificando que não temos mais de uma opção de vaga de garagem por anúncio
df['Parking Slots'].value_counts()

\n        1 \n            1136
\n        2 \n             248
\n        3 \n              28
\n        4 \n               1
Name: Parking Slots, dtype: int64

### Área

Na coluna 'Area', não temos o problema de mais de uma opção de imóvel no mesmo anúncio.

In [351]:
#verificando que não temos mais de uma opção de area por anúncio (somente parte dos valores são exibidos abaixo, para não "sujar" a tela)
df.Area.value_counts().index

Index(['\n        90 m²\n        ', '\n        80 m²\n        ',
       '\n        100 m²\n        ', '\n        120 m²\n        ',
       '\n        130 m²\n        ', '\n        110 m²\n        ',
       '\n        150 m²\n        ', '\n        95 m²\n        ',
       '\n        98 m²\n        ', '\n        525 m²\n        ',
       ...
       '\n        435 m²\n        ', '\n        359 m²\n        ',
       '\n        31 m²\n        ', '\n        398 m²\n        ',
       '\n        203 m²\n        ', '\n        133 m²\n        ',
       '\n        63 m²\n        ', '\n        375 m²\n        ',
       '\n        178 m²\n        ', '\n        554 m²\n        '],
      dtype='object', length=231)

### Condomínio
Na coluna 'Condomínio', não temos o problema de mais de uma opção de imóvel no mesmo anúncio.

In [352]:
#verificando que não temos mais de uma opção de valor de condominio por anúncio (somente parte dos valores são exibidos abaixo, para não "sujar" a tela)
df['Condominio'].value_counts().index

Index(['R$ 1.200', 'R$ 1.800', 'R$ 800', 'R$ 1.500', 'R$ 1.000', 'R$ 900',
       'R$ 1.100', 'R$ 2.000', 'R$ 1.300', 'R$ 850',
       ...
       'R$ 3.243', 'R$ 1.580', 'R$ 912', 'R$ 968', 'R$ 1.286', 'R$ 1.361',
       'R$ 1.041', 'R$ 2.047', 'R$ 3.638', 'R$ 959'],
      dtype='object', length=583)

### IPTU
Na coluna 'IPTU', não temos o problema de mais de uma opção de imóvel no mesmo anúncio.

In [353]:
#verificando que não temos mais de uma opção de valor de IPTU por anúncio (somente parte dos valores são exibidos abaixo, para não "sujar" a tela)
df['IPTU'].value_counts().index

Index(['R$ 2.000', 'R$ 1.800', 'R$ 1.200', 'R$ 1.500', 'R$ 1.700', 'R$ 200',
       'R$ 4.000', 'R$ 2.200', 'R$ 1.600', 'R$ 180',
       ...
       'R$ 309', 'R$ 2.680', 'R$ 2.547', 'R$ 6.186', 'R$ 99', 'R$ 6.731',
       'R$ 1.586', 'R$ 695', 'R$ 9.396', 'R$ 3.839'],
      dtype='object', length=961)

### Price
Na coluna 'Price', não temos o problema de mais de uma opção de imóvel no mesmo anúncio.

In [354]:
#verificando que não temos mais de uma opção de valor de Preço por anúncio (somente parte dos valores são exibidos abaixo, para não "sujar" a tela)
df['Price'].value_counts().index

Index(['\n    R$ 1.100.000\n    /venda', '\n    R$ 850.000\n    /venda',
       '\n    R$ 1.800.000\n    /venda', '\n    R$ 950.000\n    /venda',
       '\n    R$ 1.200.000\n    /venda', '\n    R$ 1.490.000\n    /venda',
       '\n    R$ 1.900.000\n    /venda', '\n    R$ 890.000\n    /venda',
       '\n    R$ 650.000\n    /venda', '\n    R$ 1.600.000\n    /venda',
       ...
       '\n    R$ 2.695.000\n    /venda', '\n    R$ 3.360.000\n    /venda',
       '\n    R$ 1.470.000\n    /venda', '\n    R$ 1.198.000\n    /venda',
       '\n    R$ 3.750.000\n    /venda', '\n    R$ 1.290.000\n    /venda',
       '\n    R$ 960.000\n    /venda', '\n    R$ 1.488.000\n    /venda',
       '\n    R$ 585.000\n    /venda', '\n    R$ 635.000\n    /venda'],
      dtype='object', length=391)

# Formatação
Por inspeção visual, vemos acima que nossas features estão com uma formatação inapropriada. Por exemplo, a coluna 'Dorms' possui strings como '\\', 'n' e espaços nos seus valores.

Vamos consertar a formatação, criando uma função que recebe cada um desses valores (em formato de string) e devolve apenas os números (em formato de string) contidos naquela string, que é o que nos interessa.

In [355]:
#função que retorna somente os digitos presentes numa string.
def extract_numbers(string):
    
    #caso o argumento seja NaN, retorna NaN
    #importante porque ainda não tratamos os valores nulos de nossos dados
    if pd.isna(string):
        return np.NaN
    
    else:
        _digits = ''
        for c in string:
            if c in [str(i) for i in range (10)]:
                _digits = _digits + c
        return _digits

In [356]:
#extraindo somente os números das colunas numéricas
df['Area_'] = df.Area.apply(extract_numbers)
df['Dorms_'] = df.Dorms.apply(extract_numbers)
df['Baths_'] = df.Baths.apply(extract_numbers)
df['Parking Slots_'] = df['Parking Slots'].apply(extract_numbers)
df['Condominio_'] = df.Condominio.apply(extract_numbers)
df['IPTU_'] = df.IPTU.apply(extract_numbers)
df['Price_'] = df.Price.apply(extract_numbers)

df.head()

Unnamed: 0,Address,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price,Street,Area_,Dorms_,Baths_,Parking Slots_,Condominio_,IPTU_,Price_
3,"Rua Barão de Icaraí, Flamengo",\n 160 m²\n,\n 2 \n,\n 3 \n,\n 2 \n,R$ 1.200,R$ 433,\n R$ 1.800.000\n /venda,Barão de Icaraí,160,2,3,2,1200,433,1800000
4,"Rua Barão de Icaraí, Flamengo",\n 100 m²\n,\n 2 \n,\n 1 \n,\n 2 \n,R$ 950,R$ 280,\n R$ 1.050.000\n /venda,Barão de Icaraí,100,2,1,2,950,280,1050000
5,"Rua Barão de Icaraí, Flamengo",\n 78 m²\n,\n 2 \n,\n 2 \n,\n 1 \n,R$ 790,R$ 2.202,\n R$ 949.999\n /venda,Barão de Icaraí,78,2,2,1,790,2202,949999
6,"Rua Barão de Icaraí, Flamengo",\n 102 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,R$ 1.100,R$ 214,\n R$ 973.000\n /venda,Barão de Icaraí,102,3,2,1,1100,214,973000
7,"Rua Barão de Icaraí, Flamengo",\n 130 m²\n,\n 3 \n,\n 2 \n,\n 1 \n,R$ 1.650,R$ 295,\n R$ 1.150.000\n /venda,Barão de Icaraí,130,3,2,1,1650,295,1150000


# Data Types
Todos os valores do dataframe são strings. Vamos alterar os valores para numéricos das colunas apropriadas.

observação: como algumas colunas possuem valores nulos, não podem ser transformadas para int, somente para float (pandas).

In [357]:
#Alterando o datatypes para float
df['Area_'] = df.Area_.astype(float)
df['Dorms_'] = df.Dorms_.astype(float)
df['Baths_'] = df.Baths_.astype(float)
df['Parking Slots_'] = df['Parking Slots_'].astype(float)
df['Condominio_'] = df.Condominio_.astype(float)
df['IPTU_'] = df.IPTU_.astype(float)
df['Price_'] = df.Price_.astype(float)

#Verificando:
df.dtypes

Address            object
Area               object
Dorms              object
Baths              object
Parking Slots      object
Condominio         object
IPTU               object
Price              object
Street             object
Area_             float64
Dorms_            float64
Baths_            float64
Parking Slots_    float64
Condominio_       float64
IPTU_             float64
Price_            float64
dtype: object

Vamos eliminar as colunas originais dos dados e ficar somente com as colunas tratadas:

In [358]:
#Pegando apenas as colunas tratadas
df = df[['Street', 'Area_', 'Dorms_', 'Baths_', 'Parking Slots_', 'Condominio_', 'IPTU_', 'Price_']]

#Renomeando essas colunas
df = df.rename(columns={'Area_': 'Area',
               'Dorms_': 'Dorms',
               'Baths_': 'Baths',
               'Parking Slots_': 'Parking Slots',
               'Condominio_': 'Condominio',
               'IPTU_': 'IPTU',
               'Price_': 'Price'})

df.head()

Unnamed: 0,Street,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price
3,Barão de Icaraí,160.0,2.0,3.0,2.0,1200.0,433.0,1800000.0
4,Barão de Icaraí,100.0,2.0,1.0,2.0,950.0,280.0,1050000.0
5,Barão de Icaraí,78.0,2.0,2.0,1.0,790.0,2202.0,949999.0
6,Barão de Icaraí,102.0,3.0,2.0,1.0,1100.0,214.0,973000.0
7,Barão de Icaraí,130.0,3.0,2.0,1.0,1650.0,295.0,1150000.0


# Linhas Duplicadas
Alguns anúncios pagam para ganhar o status de "destacado" e aparecer em múltiplicas páginas da busca, acima dos demais anúncios. Nesse caso, nosso data scrapper pegou mais de uma vez o mesmo anúncio. Esses anúncios destacados vão aparecer como linhas duplicadas em nosso dataframe.

Vamos remover as linhas duplicadas (e ficar somente com uma cópia de cada).

In [359]:
print(f"Quantidade de Linhas: {len(df.index)}")
print(f"Quantidade de Linhas Duplicadas: {len(df[df.duplicated()].index)}")

#Eliminando as linhas duplicadas
df = df[~df.duplicated()]

print(f"Quantidade de Linhas Restantes: {len(df.index)}")

Quantidade de Linhas: 2080
Quantidade de Linhas Duplicadas: 92
Quantidade de Linhas Restantes: 1988


Possuíamos 92 linhas duplicadas. É possível que dois apartamentos diferentes tivesse todas as informações idênticas. Entretanto, acredito que a maior parte das linhas duplicadas se referissem ao mesmo apartamento, que pagou para ser 'destacado'. Por isso, deletei todos esses duplicados.

# Valores Nulos (Missing Data)
Vamos tratar, agora, os valores nulos em nosso conjunto de dados.

Abaixo, vemos a quantidade de missing data em cada coluna.

In [360]:
df.isna().sum()

Street             0
Area               0
Dorms              0
Baths              2
Parking Slots    656
Condominio        64
IPTU             225
Price              0
dtype: int64

#### Parking Slots
Temos 656 apartamentos sem informação de Vagas de Garagem.

Abaixo, vemos que nenhum anúncio possui vagas de garagem = 0. Logo, suspeito que, quando um apartamento não tem vagas de garagem, o anúncio no Zap não exibe essa informação. Assim, nosso data scrapper não enxergou esse dado, e ele ficou como nulo.

Desse modo, vamos colocar o valor de 0 no lugar dos valores nulos.

In [361]:
#Contagem de cada valor possível para 'Parking Slots'
df['Parking Slots'].value_counts()

1.0    1073
2.0     232
3.0      26
4.0       1
Name: Parking Slots, dtype: int64

In [362]:
#substituindo os valores nulos por 0
df['Parking Slots'] = df['Parking Slots'].fillna(0)

In [363]:
#Nova contagem para verificar que os 656 valores que eram nulos agora são 0
df['Parking Slots'].value_counts()

1.0    1073
0.0     656
2.0     232
3.0      26
4.0       1
Name: Parking Slots, dtype: int64

#### Banheiros
Temos apenas 2 apartamentos sem informação de quantidade de banheiros. Como é uma quantidade de baixíssima relevância, vamos eliminar essas 2 linhas de nosso dataframe.

In [364]:
#removendo dos dados as linhas com valor nulo de Baths
df = df.dropna(axis = 0, subset=['Baths'])

In [365]:
df

Unnamed: 0,Street,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price
3,Barão de Icaraí,160.0,2.0,3.0,2.0,1200.0,433.0,1800000.0
4,Barão de Icaraí,100.0,2.0,1.0,2.0,950.0,280.0,1050000.0
5,Barão de Icaraí,78.0,2.0,2.0,1.0,790.0,2202.0,949999.0
6,Barão de Icaraí,102.0,3.0,2.0,1.0,1100.0,214.0,973000.0
7,Barão de Icaraí,130.0,3.0,2.0,1.0,1650.0,295.0,1150000.0
...,...,...,...,...,...,...,...,...
2884,Senador Vergueiro,385.0,5.0,3.0,1.0,3680.0,878.0,2500000.0
2885,Senador Vergueiro,198.0,4.0,4.0,1.0,1600.0,491.0,1800000.0
2886,Senador Vergueiro,160.0,3.0,3.0,1.0,1500.0,3840.0,2030000.0
2887,Senador Vergueiro,220.0,4.0,3.0,1.0,1555.0,46440.0,2240000.0


#### Condomínio
Temos 63 apartamentos sem informação sobre o valor do condomínio, que representa cerca de 3% de nossos dados. Como a quantidade é de pouca significância, vamos eliminar as linhas.

In [366]:
#removendo dos dados as linhas com valor nulo de Condominio
df = df.dropna(axis = 0, subset=['Condominio'])

In [367]:
df

Unnamed: 0,Street,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price
3,Barão de Icaraí,160.0,2.0,3.0,2.0,1200.0,433.0,1800000.0
4,Barão de Icaraí,100.0,2.0,1.0,2.0,950.0,280.0,1050000.0
5,Barão de Icaraí,78.0,2.0,2.0,1.0,790.0,2202.0,949999.0
6,Barão de Icaraí,102.0,3.0,2.0,1.0,1100.0,214.0,973000.0
7,Barão de Icaraí,130.0,3.0,2.0,1.0,1650.0,295.0,1150000.0
...,...,...,...,...,...,...,...,...
2880,Senador Vergueiro,385.0,5.0,3.0,1.0,3680.0,8787.0,2450000.0
2884,Senador Vergueiro,385.0,5.0,3.0,1.0,3680.0,878.0,2500000.0
2885,Senador Vergueiro,198.0,4.0,4.0,1.0,1600.0,491.0,1800000.0
2886,Senador Vergueiro,160.0,3.0,3.0,1.0,1500.0,3840.0,2030000.0


#### IPTU
Ficamos com 168 apartamentos sem informação sobre o valor do IPTU, que representa cerca de 9% dos dados restantes.

Por enquanto, vamos manter esses valores como nulos. Assim, mais à frente, temos como opções:
1. Usar um modelo xgboost, que sabe trabalhar com valores nulos.
2. Criar um modelo secundário que prevê o valor de do IPTU com base nas outras features, e usar essa previsão no lugar dos valores nulos
3. Substituir o valores nulos pela média do IPTU de outros apartamentos que tenham características similares àquele de IPTU nulo.

In [368]:
print(f"Quantidade de Linhas com IPTU NaN: {df.isna().sum().IPTU}")

Quantidade de Linhas com IPTU NaN: 168


#### Dados após tratamento de missing data
Abaixo, verificamos que ficamos com 1922 linhas restantes. Dessas, os únicos missing data que ainda temos são 168 linhas sem informação do IPTU.

In [369]:
print(f"Quantidade de Linhas Restantes: {len(df.index)}")

#missing data restantes
df.isna().sum()

Quantidade de Linhas Restantes: 1922


Street             0
Area               0
Dorms              0
Baths              0
Parking Slots      0
Condominio         0
IPTU             168
Price              0
dtype: int64

# Datatypes inteiros
Havíamos convertido algumas colunas numéricas que deveriam ser do tipo 'int' para 'float', pois somente o 'float' admite missing data. Agora que essas colunas não possuem mais missing data, vamos convertê-las para 'int'.

In [None]:
#convertendo para inteiro, ao invés de float
df['Dorms'] = df.Dorms.astype(int)
df['Baths'] = df.Baths.astype(int)
df['Parking Slots'] = df['Parking Slots'].astype(int)

In [371]:
df.dtypes

Street            object
Area             float64
Dorms              int32
Baths              int32
Parking Slots      int32
Condominio       float64
IPTU             float64
Price            float64
dtype: object

# Partindo para a Análise Exploratória de Dados
Agora que nossos dados estão com formato apropriado, podemos fazer a análise exploratória de dados e, depois, a modelagem.

Vamos exportar esses dados tratados para um .csv.

In [372]:
df.to_csv('data/wrangled_data.csv', index=False)

Abaixo, verificamos algumas informações sobre nossos dados finais.

In [373]:
df.head(3)

Unnamed: 0,Street,Area,Dorms,Baths,Parking Slots,Condominio,IPTU,Price
3,Barão de Icaraí,160.0,2,3,2,1200.0,433.0,1800000.0
4,Barão de Icaraí,100.0,2,1,2,950.0,280.0,1050000.0
5,Barão de Icaraí,78.0,2,2,1,790.0,2202.0,949999.0


In [374]:
df.Dorms.value_counts()

3    852
2    467
4    414
1    159
5     16
6     13
7      1
Name: Dorms, dtype: int64

In [375]:
df.Baths.value_counts()

2     632
3     595
1     363
4     219
5      73
6      26
7       9
8       3
11      1
9       1
Name: Baths, dtype: int64

In [376]:
df['Parking Slots'].value_counts()

1    1052
0     640
2     204
3      25
4       1
Name: Parking Slots, dtype: int64

In [377]:
df.Street.value_counts()

Senador Vergueiro      528
Marquês de Abrantes    408
Oswaldo Cruz           353
Rui Barbosa            347
Senador Euzebio         60
Barão de Icaraí         56
Cruz Lima               53
Honório de Barros       39
Fernando Osório         34
Marquês de Paraná       28
Princesa Januaria       16
Name: Street, dtype: int64