In [2]:
# Libs necessárias
import pandas as pd
import numpy as np

# Libs Gráficas
import matplotlib.pyplot as plt
import seaborn as sns

# Remover Avisos
import warnings
warnings.filterwarnings('ignore')

# configuração no Pandas
pd.set_option('display.max_rows', 200) # Simplifica a quantidade de linhas e colunas, afim de não alocar tanto espaço e memória
pd.set_option('display.max_columns', 100)

# Configurações no Matplotlib
plt.rcParams['figure.figsize'] = (15, 6) # Ajustando o tamanho padrão
plt.style.use('seaborn-darkgrid')

# **Exploração dos Dados**

In [3]:
# Pergunta em aberto...
# Quanto vale o aluguel da sua casa?

In [4]:
# Abrindo o arquivo
Base_Dados = pd.read_csv('house_data.csv')

# Dimensão
Base_Dados.shape

(10692, 13)

In [5]:
# Verificar
Base_Dados.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836


In [6]:
# Removendo Colunas
Base_Dados.drop(columns=['fire insurance (R$)', 'total (R$)'], inplace=True)

In [7]:
# Verificar
Base_Dados.shape

(10692, 11)

In [8]:
# Verifica se cada célula da tabela tem valor nulo
Base_Dados.isnull()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$)
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
10687,False,False,False,False,False,False,False,False,False,False,False
10688,False,False,False,False,False,False,False,False,False,False,False
10689,False,False,False,False,False,False,False,False,False,False,False
10690,False,False,False,False,False,False,False,False,False,False,False


In [9]:
# Fazendo a soma, podemos ver que não há valores nulos
Base_Dados.isnull().sum()

city                 0
area                 0
rooms                0
bathroom             0
parking spaces       0
floor                0
animal               0
furniture            0
hoa (R$)             0
rent amount (R$)     0
property tax (R$)    0
dtype: int64

In [10]:
# Se caso eu tivesse valores desordenados, eu poderia usar:
Base_Dados.isnull().sum().sort_values(ascending=False)

city                 0
area                 0
rooms                0
bathroom             0
parking spaces       0
floor                0
animal               0
furniture            0
hoa (R$)             0
rent amount (R$)     0
property tax (R$)    0
dtype: int64

In [11]:
# Campos únicos
Base_Dados.nunique()

city                    5
area                  517
rooms                  11
bathroom               10
parking spaces         11
floor                  35
animal                  2
furniture               2
hoa (R$)             1679
rent amount (R$)     1195
property tax (R$)    1243
dtype: int64

## Temos 5 cidades, 517 tipos de registros de area, 11 tipos de registros de banheiros, garagens, andares, etc.

In [12]:
# Tipos das colunas
Base_Dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10692 entries, 0 to 10691
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   city               10692 non-null  object
 1   area               10692 non-null  int64 
 2   rooms              10692 non-null  int64 
 3   bathroom           10692 non-null  int64 
 4   parking spaces     10692 non-null  int64 
 5   floor              10692 non-null  object
 6   animal             10692 non-null  object
 7   furniture          10692 non-null  object
 8   hoa (R$)           10692 non-null  int64 
 9   rent amount (R$)   10692 non-null  int64 
 10  property tax (R$)  10692 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 919.0+ KB


In [13]:
# Tipo das colunas
Base_Dados.dtypes

city                 object
area                  int64
rooms                 int64
bathroom              int64
parking spaces        int64
floor                object
animal               object
furniture            object
hoa (R$)              int64
rent amount (R$)      int64
property tax (R$)     int64
dtype: object

In [14]:
# Tipo das colunas
Base_Dados.dtypes.value_counts()

int64     7
object    4
dtype: int64

# **Exploração Analítica (EDA)**

In [18]:
# Filtrar os tipos de colunas
colunas_categoricas = Base_Dados.columns[Base_Dados.dtypes == object]
colunas_numericas = Base_Dados.columns[Base_Dados.dtypes != object]

colunas_categoricas, colunas_numericas

(Index(['city', 'floor', 'animal', 'furniture'], dtype='object'),
 Index(['area', 'rooms', 'bathroom', 'parking spaces', 'hoa (R$)',
        'rent amount (R$)', 'property tax (R$)'],
       dtype='object'))

In [19]:
# Retorna todas as colunas da base de dados
# Base_Dados.columns

# Filtrar as colunas do tipo Object
# Base_Dados.columns[Base_Dados.dtypes == object]

# Filtra o que for diferente de object
# Base_Dados.columns[Base_Dados.dtypes != object]