# Bibliotecas

In [5]:
#### Libs necessárias ####
import pandas as pd
import numpy as np

#### Libs gráficas ####
import matplotlib.pyplot as plt
import seaborn as sns

#### Remoção de Avisos ####
import warnings
warnings.filterwarnings('ignore')

#### Confirações gerais no pandas ####
pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', 100)

#### Configurações gerais no Matplotlib ####
plt.rcParams['figure.figsize'] = (15, 6)
plt.style.use('seaborn-darkgrid')

# Exploração dos dados

### **Pergunta norteadora: "Quanto vale o aluguel da sua casa?"**

## Lendo dados

In [6]:
nome_arquivo = 'house_data.csv'
df_dados = pd.read_csv(nome_arquivo)

## Primeiras informações

In [7]:
print('Quantidade de colunas:', df_dados.shape[0])
print('Quantidade de linhas:', df_dados.shape[1])

#### Primeiros 5 registros para visualização ####
df_dados.head()


Quantidade de colunas: 10692
Quantidade de linhas: 13


Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836


## Limpeza dos dados

In [11]:
#### Removeremos as colunas 'fire insurance' pois tal informação seria variavel dependendo da corretora e 'total' pois é o que queremos determinar. 

In [10]:
df_dados.drop(columns=['fire insurance (R$)','total (R$)'], inplace=True)
df_dados.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25


In [16]:
#### Checando para determinar se há algum valor nulo ####
#### Utilizando o sort_values com ascending = False para ordenar os valores pela quantidade caso houvessem valores nulos ####
df_dados.isnull().sum().sort_values(ascending=False).reset_index()

Unnamed: 0,index,0
0,city,0
1,area,0
2,rooms,0
3,bathroom,0
4,parking spaces,0
5,floor,0
6,animal,0
7,furniture,0
8,hoa (R$),0
9,rent amount (R$),0


In [18]:
#### Quantidade de valores únicos ####
df_dados.nunique().reset_index()

Unnamed: 0,index,0
0,city,5
1,area,517
2,rooms,11
3,bathroom,10
4,parking spaces,11
5,floor,35
6,animal,2
7,furniture,2
8,hoa (R$),1679
9,rent amount (R$),1195


In [22]:
#### Informações das colunas ####
#### Para informações mais completas podemos utilizar a função info()
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10692 entries, 0 to 10691
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   city               10692 non-null  object
 1   area               10692 non-null  int64 
 2   rooms              10692 non-null  int64 
 3   bathroom           10692 non-null  int64 
 4   parking spaces     10692 non-null  int64 
 5   floor              10692 non-null  object
 6   animal             10692 non-null  object
 7   furniture          10692 non-null  object
 8   hoa (R$)           10692 non-null  int64 
 9   rent amount (R$)   10692 non-null  int64 
 10  property tax (R$)  10692 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 919.0+ KB


In [25]:
#### Para determinar apenas os tipos dos dados das colunas podemos utilizar dtypes ####
df_dados.dtypes

city                 object
area                  int64
rooms                 int64
bathroom              int64
parking spaces        int64
floor                object
animal               object
furniture            object
hoa (R$)              int64
rent amount (R$)      int64
property tax (R$)     int64
dtype: object

# Exploração Analítica (EDA)

In [43]:
#### Separando pelos tipos de colunas ####
colunas_categoricas = df_dados.columns[df_dados.dtypes == object]
colunas_numericas = df_dados.columns[df_dados.dtypes != object]

In [46]:
df_dados_categoricos = df_dados[colunas_categoricas]
df_dados_categoricos.head()

Unnamed: 0,city,floor,animal,furniture
0,São Paulo,7,acept,furnished
1,São Paulo,20,acept,not furnished
2,Porto Alegre,6,acept,not furnished
3,Porto Alegre,2,acept,not furnished
4,São Paulo,1,not acept,not furnished


In [47]:
df_dados_numericos = df_dados[colunas_numericas]
df_dados_numericos.head()

Unnamed: 0,area,rooms,bathroom,parking spaces,hoa (R$),rent amount (R$),property tax (R$)
0,70,2,1,1,2065,3300,211
1,320,4,4,0,1200,4960,1750
2,80,1,1,1,1000,2800,0
3,51,2,1,0,270,1112,22
4,25,1,1,0,0,800,25


## Análise dos campos categóricos

In [None]:
#### Podemos realizar o procedimento abaixo em um loop para cada coluna porém ####
#### optei por realizar cada de forma separada para que a visualização fosse mais clara ####

In [56]:
df_dados_categoricos.head()

Unnamed: 0,city,floor,animal,furniture
0,São Paulo,7,acept,furnished
1,São Paulo,20,acept,not furnished
2,Porto Alegre,6,acept,not furnished
3,Porto Alegre,2,acept,not furnished
4,São Paulo,1,not acept,not furnished


### Distribuição por cidades

In [54]:
(df_dados_categoricos['city'].value_counts(normalize=True) * 100).reset_index()

Unnamed: 0,index,city
0,São Paulo,55.059858
1,Rio de Janeiro,14.038533
2,Belo Horizonte,11.765806
3,Porto Alegre,11.157875
4,Campinas,7.977927


### Distribuição dos andares

In [58]:
(df_dados_categoricos['floor'].value_counts(normalize=True) * 100).reset_index()

Unnamed: 0,index,floor
0,-,23.017209
1,1,10.110363
2,2,9.212495
3,3,8.707445
4,4,6.995885
5,5,5.611672
6,6,5.041152
7,7,4.648335
8,8,4.582866
9,9,3.451178


In [None]:
#### Note que temos uma das opções no andar 301 porém realizando uma breve pesquisa podemos checar que o prédio mais alto do mundo possui 163 andares, ####
#### portanto, iremos realizar a correção do dado para andar 30 supondo que tal foi um erro de digitação. ####
#### Poderíamos optar por remover o mesmo como uma opção porém neste momento não quero remover dados da nossa base. ####

In [67]:
#### Corrigindo o valor do andar ####
df_dados_categoricos.loc[df_dados_categoricos['floor'] == '301', 'floor'] = 30

In [69]:
#### Checando a correção ####
df_dados_categoricos.loc[df_dados_categoricos['floor'] == '301']

Unnamed: 0,city,floor,animal,furniture


In [71]:
#### Note também que temos um dos andares com o valor '-', neste caso iremos trocar para que seja andar '0' ####
df_dados_categoricos.loc[df_dados_categoricos['floor'] == '-', 'floor'] = 0

In [72]:
#### Checando a correção ####
df_dados_categoricos.loc[df_dados_categoricos['floor'] == '-']

Unnamed: 0,city,floor,animal,furniture


In [74]:
#### Visualizando a base com as alterações realizadas ####
(df_dados_categoricos['floor'].value_counts(normalize=True) * 100).reset_index()

Unnamed: 0,index,floor
0,0,23.017209
1,1,10.110363
2,2,9.212495
3,3,8.707445
4,4,6.995885
5,5,5.611672
6,6,5.041152
7,7,4.648335
8,8,4.582866
9,9,3.451178


### Distribuição de aceitação de animais

In [60]:
(df_dados_categoricos['animal'].value_counts(normalize=True) * 100).reset_index()

Unnamed: 0,index,animal
0,acept,77.777778
1,not acept,22.222222


### Distribuição por locais mobiliados ou não

In [62]:
(df_dados_categoricos['furniture'].value_counts(normalize=True) * 100).reset_index()

Unnamed: 0,index,furniture
0,not furnished,75.626637
1,furnished,24.373363
