# Avaliação Imobiliária
## Preparação dos Dados
### Importações

In [1]:
import pandas as pd

### Importação dos Dados
Pode-se definir o tipo das colunas ao importar os dados.

Nesse caso, os valores que não forem do tipo ocasionarão um erro.

Talvez seja necessário revisar os dados com o LibreOffice antes de importar os dados.

In [2]:
amostra = pd.read_csv("amostra_bruta.csv", sep=';', decimal=",", thousands='.')

### Descrição dos Dados

In [3]:
amostra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Endereco   270 non-null    object 
 1   Bairro     270 non-null    object 
 2   Area       270 non-null    object 
 3   Quartos    269 non-null    object 
 4   Banheiros  256 non-null    object 
 5   Vagas      145 non-null    float64
 6   Preco      270 non-null    object 
 7   Cond.      251 non-null    float64
 8   Link       270 non-null    object 
 9   Publicado  269 non-null    float64
dtypes: float64(3), object(7)
memory usage: 21.2+ KB


### Converter colunas para numéricas
Os valores não numéricos serão transformados em NaN.

In [4]:
amostra['Area']      = pd.to_numeric(amostra['Area'], errors='coerce')
amostra['Quartos']   = pd.to_numeric(amostra['Quartos'], errors='coerce')
amostra['Banheiros'] = pd.to_numeric(amostra['Banheiros'], errors='coerce')
amostra['Vagas']     = pd.to_numeric(amostra['Vagas'], errors='coerce')
amostra['Preco']     = pd.to_numeric(amostra['Preco'], errors='coerce')
amostra['Cond.']     = pd.to_numeric(amostra['Cond.'], errors='coerce')

### Substitui NaNs na coluna 'Vagas' por 0

In [5]:
amostra['Vagas'] = amostra['Vagas'].fillna(0)

### Adicionando coluna Unitario

In [6]:
amostra['Unitario'] = amostra['Preco'] / amostra['Area']

### Exibindo os Dados

In [7]:
amostra.head(10)

Unnamed: 0,Endereco,Bairro,Area,Quartos,Banheiros,Vagas,Preco,Cond.,Link,Publicado,Unitario
0,Rua São Clemente,"Botafogo, Rio de Janeiro",72.0,2.0,2.0,0.0,900000.0,930.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,12500.0
1,"Rua Dezenove de Fevereiro,","Botafogo, Rio de Janeiro",180.0,3.0,2.0,2.0,2780000.0,3300.0,https://www.imovelweb.com.br/propriedades/cobe...,0.0,15444.444444
2,Rua Voluntários da Pátria,"Botafogo, Rio de Janeiro",65.0,2.0,2.0,1.0,745000.0,1574.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,11461.538462
3,Rua Voluntários da Pátria,"Botafogo, Rio de Janeiro",70.0,2.0,1.0,0.0,620000.0,896.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,8857.142857
4,"Rua Marquês de Olinda,","Botafogo, Rio de Janeiro",100.0,3.0,1.0,1.0,1500000.0,1200.0,https://www.imovelweb.com.br/propriedades/vist...,0.0,15000.0
5,Rua Professor Álvaro Rodrigues,"Botafogo, Rio de Janeiro",138.0,3.0,2.0,2.0,2157440.0,1418.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,15633.623188
6,Rua Professor Álvaro Rodrigues,"Botafogo, Rio de Janeiro",131.0,3.0,2.0,2.0,2069360.0,1418.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,15796.641221
7,Praia Botafogo,"Botafogo, Rio de Janeiro",100.0,2.0,2.0,0.0,800000.0,1180.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,8000.0
8,Rua Dezenove de Fevereiro,"Botafogo, Rio de Janeiro",202.0,3.0,2.0,1.0,1660000.0,1800.0,https://www.imovelweb.com.br/propriedades/apar...,0.0,8217.821782
9,RUA DEZENOVE DE FEVEREIRO 135,"Botafogo, Rio de Janeiro",216.0,3.0,2.0,2.0,3250000.0,2350.0,https://www.imovelweb.com.br/propriedades/bota...,0.0,15046.296296


### Excluindo Campos

In [8]:
amostra = amostra.drop(['Endereco'], axis=1)
amostra = amostra.drop(['Bairro'], axis=1)
amostra = amostra.drop(['Preco'], axis=1)
amostra = amostra.drop(['Cond.'], axis=1)
amostra = amostra.drop(['Publicado'], axis=1)
amostra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Area       269 non-null    float64
 1   Quartos    266 non-null    float64
 2   Banheiros  242 non-null    float64
 3   Vagas      270 non-null    float64
 4   Link       270 non-null    object 
 5   Unitario   269 non-null    float64
dtypes: float64(5), object(1)
memory usage: 12.8+ KB


### Verificando Dados com Valores Ausentes

In [9]:
amostra.isnull().sum()

Area          1
Quartos       4
Banheiros    28
Vagas         0
Link          0
Unitario      1
dtype: int64

### Excluindo Dados com Valores Ausentes

In [10]:
amostra = amostra.dropna()
amostra = amostra.reset_index(drop=True)
amostra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 242 entries, 0 to 241
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Area       242 non-null    float64
 1   Quartos    242 non-null    float64
 2   Banheiros  242 non-null    float64
 3   Vagas      242 non-null    float64
 4   Link       242 non-null    object 
 5   Unitario   242 non-null    float64
dtypes: float64(5), object(1)
memory usage: 11.5+ KB


### Exclui Dados Repetidos

In [11]:
amostra = amostra.drop_duplicates()
amostra = amostra.drop(['Link'], axis=1)
amostra.info()

<class 'pandas.core.frame.DataFrame'>
Index: 241 entries, 0 to 241
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Area       241 non-null    float64
 1   Quartos    241 non-null    float64
 2   Banheiros  241 non-null    float64
 3   Vagas      241 non-null    float64
 4   Unitario   241 non-null    float64
dtypes: float64(5)
memory usage: 11.3 KB


### Exclui Dados Discrepantes

In [12]:
#amostra = amostra.drop(3359)
#amostra = amostra[amostra['Área'] >= 15]
#amostra = amostra[amostra['Área'] <= 500]
#amostra = amostra[amostra['Quartos'] == 3]
amostra = amostra[amostra['Banheiros'] >= 0]
#amostra = amostra[amostra['Vagas'] == 0]
#amostra = amostra[amostra['Unitário'] >= 1000]
#amostra = amostra[amostra['Unitário'] < 100000]
amostra = amostra.reset_index(drop=True)
amostra.describe()

Unnamed: 0,Area,Quartos,Banheiros,Vagas,Unitario
count,240.0,240.0,240.0,240.0,240.0
mean,98.783333,2.341667,1.933333,0.8,12243.648557
std,55.611275,0.891577,0.855534,0.793277,3550.854847
min,18.0,1.0,1.0,0.0,2400.0
25%,64.5,2.0,1.0,0.0,9708.044383
50%,90.0,2.0,2.0,1.0,11875.0
75%,123.0,3.0,2.0,1.0,14968.75
max,360.0,4.0,5.0,4.0,25974.025974


### Salva Amostra Inicial

In [14]:
amostra.to_csv('amostra.csv', sep=';', decimal=",", index=False)