In [37]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [38]:
# Carregando dados
df = pd.read_csv('house_data.csv')
df

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10687,Porto Alegre,63,2,1,1,5,not acept,furnished,402,1478,24,22,1926
10688,São Paulo,285,4,4,4,17,acept,not furnished,3100,15000,973,191,19260
10689,Rio de Janeiro,70,3,3,0,8,not acept,furnished,980,6000,332,78,7390
10690,Rio de Janeiro,120,2,2,2,8,acept,furnished,1585,12000,279,155,14020


In [39]:
# deletando colunas que não serão utilizadas
df.drop(columns=['fire insurance (R$)','total (R$)'], inplace=True)
df.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25


In [40]:
df.rename(columns={
    'city':'Cidade',
    'area':'Area',
    'rooms':'Quartos',
    'bathroom':'Banheiros',
    'parking spaces':'Vagas Estacionamento',
    'floor':'Piso',
    'animal':'Animais',
    'furniture':'Mobilia',
    'hoa (R$)':'Condominio',
    'rent amount (R$)':'Valor Aluguel',
    'property tax (R$)':'Taxa da propriedade'
}, inplace=True)

df.head()

Unnamed: 0,Cidade,Area,Quartos,Banheiros,Vagas Estacionamento,Piso,Animais,Mobilia,Condominio,Valor Aluguel,Taxa da propriedade
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25


In [41]:
# Verificar campos vazios
df.isnull().sum()

Cidade                  0
Area                    0
Quartos                 0
Banheiros               0
Vagas Estacionamento    0
Piso                    0
Animais                 0
Mobilia                 0
Condominio              0
Valor Aluguel           0
Taxa da propriedade     0
dtype: int64

In [42]:
# Verificar campos unicos
df.nunique()

Cidade                     5
Area                     517
Quartos                   11
Banheiros                 10
Vagas Estacionamento      11
Piso                      35
Animais                    2
Mobilia                    2
Condominio              1679
Valor Aluguel           1195
Taxa da propriedade     1243
dtype: int64

In [43]:
# tipos das colunas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10692 entries, 0 to 10691
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Cidade                10692 non-null  object
 1   Area                  10692 non-null  int64 
 2   Quartos               10692 non-null  int64 
 3   Banheiros             10692 non-null  int64 
 4   Vagas Estacionamento  10692 non-null  int64 
 5   Piso                  10692 non-null  object
 6   Animais               10692 non-null  object
 7   Mobilia               10692 non-null  object
 8   Condominio            10692 non-null  int64 
 9   Valor Aluguel         10692 non-null  int64 
 10  Taxa da propriedade   10692 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 919.0+ KB


In [44]:
#tipo das colunas simplificados
df.dtypes

Cidade                  object
Area                     int64
Quartos                  int64
Banheiros                int64
Vagas Estacionamento     int64
Piso                    object
Animais                 object
Mobilia                 object
Condominio               int64
Valor Aluguel            int64
Taxa da propriedade      int64
dtype: object

# Exploração Analítica 

In [45]:
colunasCategoricas = df.columns[df.dtypes == object]
colunasNumericas = df.columns[df.dtypes != object]

colunasCategoricas,colunasNumericas

(Index(['Cidade', 'Piso', 'Animais', 'Mobilia'], dtype='object'),
 Index(['Area', 'Quartos', 'Banheiros', 'Vagas Estacionamento', 'Condominio',
        'Valor Aluguel', 'Taxa da propriedade'],
       dtype='object'))

In [46]:
# Análise da coluna cidade
df['Cidade'].value_counts()

São Paulo         5887
Rio de Janeiro    1501
Belo Horizonte    1258
Porto Alegre      1193
Campinas           853
Name: Cidade, dtype: int64