### Pergunta a ser respondida
<p> Quanto vale o aluguel da sua casa?</p>

In [1]:
# Bibliotecas
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [2]:
# Confiração no pandas
pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', 100)

# Configuração no Matplotlib
plt.rcParams['figure.figsize'] = (15, 6)
plt.style.use('seaborn-darkgrid')

### Exploração dos dados

In [3]:
# Lendo os dados
base_dados = pd.read_csv('data/house_data.csv')

In [4]:
# Dimensão
base_dados.shape

(10692, 13)

In [5]:
# Verificando os dados
base_dados.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836


In [6]:
# Removendo colunas
base_dados.drop(columns=['fire insurance (R$)','total (R$)'], inplace=True)

In [7]:
base_dados.columns

Index(['city', 'area', 'rooms', 'bathroom', 'parking spaces', 'floor',
       'animal', 'furniture', 'hoa (R$)', 'rent amount (R$)',
       'property tax (R$)'],
      dtype='object')

In [8]:
# Analisar campos vazios
base_dados.isnull().sum().sort_values( ascending=False )

property tax (R$)    0
rent amount (R$)     0
hoa (R$)             0
furniture            0
animal               0
floor                0
parking spaces       0
bathroom             0
rooms                0
area                 0
city                 0
dtype: int64

In [9]:
# Campo unicos
base_dados.nunique()

city                    5
area                  517
rooms                  11
bathroom               10
parking spaces         11
floor                  35
animal                  2
furniture               2
hoa (R$)             1679
rent amount (R$)     1195
property tax (R$)    1243
dtype: int64

In [10]:
# Tipos das columns
base_dados.dtypes

city                 object
area                  int64
rooms                 int64
bathroom              int64
parking spaces        int64
floor                object
animal               object
furniture            object
hoa (R$)              int64
rent amount (R$)      int64
property tax (R$)     int64
dtype: object

In [11]:
base_dados.dtypes.value_counts()

int64     7
object    4
dtype: int64

### Exploração Analítica (EDA)

In [12]:
# Filtar os tipos de dados
colunas_categoricas = base_dados.columns[base_dados.dtypes == object ]
colunas_numericas = base_dados.columns[base_dados.dtypes != object ]

In [13]:
colunas_categoricas, colunas_numericas

(Index(['city', 'floor', 'animal', 'furniture'], dtype='object'),
 Index(['area', 'rooms', 'bathroom', 'parking spaces', 'hoa (R$)',
        'rent amount (R$)', 'property tax (R$)'],
       dtype='object'))

### Mudança do modelo no tempo
<p>Por exemplo:</p>
<ul>
<li>No primeiro semestre: 90% das casas aceitava animal.</li>
<li>No segundo semestre: 50% das casas aceitava animal.</li>
    <li><b>Resultado:</b> modif. os padrões da base de dados. == <b>Piorar o resultado do modelo</b></li>
</ul>

#### Fazer uma fotografia da base de dados no TEMPO
<p>Caso a base de dados tenha o tempo, ajudará.</p>
<p>Caso não tenha, faça uma <b>fotografia</b></p>

In [15]:
# Analise dos campos Object
# city
base_dados['city'].value_counts()

São Paulo         5887
Rio de Janeiro    1501
Belo Horizonte    1258
Porto Alegre      1193
Campinas           853
Name: city, dtype: int64

In [17]:
# normalize
base_dados['city'].value_counts( normalize=True )
base_dados['city'].value_counts( normalize=True ) * 100

São Paulo         55.059858
Rio de Janeiro    14.038533
Belo Horizonte    11.765806
Porto Alegre      11.157875
Campinas           7.977927
Name: city, dtype: float64