### Importando a Base de Dados

In [None]:
import pandas as pd

dados = pd.read_csv('data/aluguel.csv', sep=';')
dados.head(10)

### Análise Exploratória dos Dados

In [None]:
# Explorando o Tipo de Dado do Modelo
type(dados)

In [None]:
# Conhecendo os Campos
dados.info()

In [None]:
# Verificando o Número de Linhas e Colunas
dados.shape

In [None]:
# Explorando o Tipo de Dado de Cada Campo
dados.dtypes

In [None]:
# Explorando o Modelo como DataFrame
tipos_de_dados = pd.DataFrame(dados.dtypes, columns = ['Tipos de Dados'])
tipos_de_dados.columns.name = 'Variáveis'
tipos_de_dados

In [None]:
print(f'A Base de Dados apresenta {dados.shape[0]} linhas e {dados.shape[1]} variáveis.')

### Tipos de Imóveis

In [None]:
tipo_de_imovel = dados['Tipo']
tipo_de_imovel.drop_duplicates(inplace = True)
tipo_de_imovel = pd.DataFrame(tipo_de_imovel)
tipo_de_imovel.index
tipo_de_imovel.shape[0]
tipo_de_imovel.index = range(tipo_de_imovel.shape[0])
tipo_de_imovel.columns.name = 'ID'
tipo_de_imovel

### Séries

In [None]:
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
series

In [None]:
index = ['Linha ' + str(i+1) for i in range(len(data))]
index

In [None]:
series = pd.Series(data = data, index = index)
series

In [None]:
data = {'Linha ' + str(i+1): i + 1 for i in range(len(data))}
data

In [None]:
series = pd.Series(data)
series

In [None]:
series1 = series + 2
series1

In [None]:
series2 = series + series1
series2

### DataFrame

In [None]:
data = [[1, 2, 3], 
        [4, 5, 6], 
        [7, 8, 9]]
data

In [None]:
df1 = pd.DataFrame(data)
df1

In [None]:
index = ['Linha ' + str(i+1) for i in range(len(data))]
index

In [None]:
df1 = pd.DataFrame(data, index = index)
df1

In [None]:
columns = ['Coluna ' + str(i+1) for i in range(len(data[0]))]
columns

In [None]:
df1 = pd.DataFrame(data, index = index, columns = columns)
df1

In [None]:
data = {'Coluna 1': {'Linha 1': 1, 'Linha 2': 4, 'Linha 3': 7},
        'Coluna 2': {'Linha 1': 2, 'Linha 2': 5, 'Linha 3': 8},
        'Coluna 3': {'Linha 1': 3, 'Linha 2': 6, 'Linha 3': 9}}
data

In [None]:
df2 = pd.DataFrame(data)
df2

In [None]:
data = [(1, 2, 3), 
        (4, 5, 6), 
        (7, 8, 9)]
data

In [None]:
df3 = pd.DataFrame(data, index = index, columns = columns)
df3

In [None]:
df1[df1 > 0] = 'A'
df1

In [None]:
df2[df2 > 0] = 'B'
df2

In [None]:
df3[df3 > 0 ] = 'C'
df3

In [None]:
df4 = pd.concat([df1, df2, df3])
df4

### Imóveis Residenciais

In [None]:
dados = pd.read_csv('data/aluguel.csv', sep=';')
dados.head(10)

In [None]:
list(dados['Tipo'].drop_duplicates())

In [None]:
residencial = ['Quitinete',
 'Casa',
 'Apartamento',
 'Casa de Condomínio',
 'Casa Comercial',
 'Casa de Vila']


In [None]:
selection = dados['Tipo'].isin(residencial)
selection

In [None]:
dados_residencial = dados[selection]
dados_residencial

In [None]:
list(dados_residencial['Tipo'].drop_duplicates())

In [None]:
dados_residencial.index = range(dados_residencial.shape[0])
dados_residencial

### Exportando a Base de Dados

In [None]:
dados_residencial.to_csv('data/aluguel_residencial.csv', sep=';', index=False)

In [None]:
dados_residencial_2 = pd.read_csv('data/aluguel_residencial.csv', sep=';')
dados_residencial_2

### Organizando DataFrames

In [None]:
data = [[1,2,3], [4,5,6], [7,8,9]]
data

In [None]:
list('321')

In [None]:
df = pd.DataFrame(data, list('321'), list('ZYX'))
df

In [None]:
df.sort_index(inplace = True)
df

In [None]:
df.sort_index(inplace = True, axis = 1)
df

In [None]:
df.sort_values(by = 'X', inplace = True)
df

In [None]:
df.sort_values(by = '3', axis = 1, inplace = True)
df

In [None]:
df.sort_values(by = ['X', 'Y'], inplace = True)
df

### Seleção e Frequência

In [None]:
# Selecione somente os imóveis classificados com tipo 'Apartamento'
selection = dados['Tipo'] == 'Apartamento'
n1 = dados[selection].shape[0]
n1

In [None]:
# Selecione somente os imóveis classificados com tipo 'Casa', 'Casa de Condomínio' ou 'Casa de Vila'
selection = (dados['Tipo'] == 'Casa') | (dados['Tipo'] == 'Casa de Condomínio') | (dados['Tipo'] == 'Casa de Vila')
n2 = dados[selection].shape[0]
n2

In [None]:
# Selecione os imóveis com área entre 60 e 100 metros quadrados, incluindo os limites
# 60  <= Area <= 100
selection = (dados['Area'] >= 60) & (dados['Area'] <= 100)
n3 = dados[selection].shape[0]
n3

In [None]:
# Selecione os imóveis que tenham pelo ou menos 4 quartos e aluguel menor que R$ 2.000,00
selection = (dados['Quartos'] >= 4) & (dados['Valor'] < 2000)
n4 = dados[selection].shape[0]
n4

In [None]:
print(f"Número de Imóveis Classificados com Tipo 'Apartamento': {n1}")
print(f"Número de Imóveis classificados com Tipos 'Casa', 'Casa de Condomínio' ou 'Casa de Vila': {n2}")
print(f"Número de Imóveis com Área entre 60 e 100 metros quadrados, incluindo os limites: {n3}")
print(f"Número de Imóveis que tenham pelo ou menos 4 quartos e aluguel menor que R$ 2.000,00: {n4}")

### Formas de Seleção

In [None]:
'l1 l2 l3'.split()

In [None]:
data = [(1, 2, 3, 4), 
        (5, 6, 7, 8), 
        (9, 10, 11, 12), 
        (13, 14, 15, 16)]
df = pd.DataFrame(data, 'l1 l2 l3 l4'.split(), 'c1 c2 c3 c4'.split())
df

In [None]:
# A diferença entre Série...
type(df['c1'])

In [None]:
# ... e DataFrame.
type(df[['c3', 'c1']])

In [None]:
# Usando o ':' para delimitar a seleção
# Mostrar todas as linhas depois da primeira e antes da última
df[1:3]

In [None]:
# A seleção de Colunas também é possível
# Inclusive, junto com a seleção de Linhas
df[1:3][['c1', 'c3']]

In [None]:
# O 'loc' permite que selecionemos linhas e colunas por nome
df.loc[['l3', 'l2']]

In [None]:
# Podemos ainda selecionar um valor específico com o 'loc'
df.loc['l1', 'c2']

In [None]:
# Podemos selecionar um valor específico com o 'iloc'
df.iloc[0, 1]

In [None]:
# Podemos selecionar uma matriz de dados com 'loc'
df.loc[['l3', 'l1'], ['c4', 'c1']]

In [None]:
# O 'iloc' faz a mesma coisa, só que com índices
df.iloc[[2,0], [3,0]]

### Tratamento de Dados Faltantes

In [None]:
dados = pd.read_csv('data/aluguel_residencial.csv', sep=';')
dados.head(10)

In [None]:
# Podemos identificar os dados nulos
dados.isnull()

In [None]:
# Podemos identificar os dados não nulos
dados.notnull()

In [None]:
# Podemos identificar os dados nulos por coluna pela diferença entre os dados nulos e os dados não nulos
dados.info()

In [None]:
dados[dados['Valor'].isnull()]

In [None]:
A = dados.shape[0]
dados.dropna(subset = ['Valor'], inplace = True)
B = dados.shape[0]
A - B

In [None]:
dados[dados['Valor'].isnull()]

In [None]:
dados[dados['Condominio'].isnull()].shape[0]

In [None]:
selection = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

In [None]:
A = dados.shape[0]
dados = dados[~selection]
B = dados.shape[0]
A - B

In [None]:
dados[dados['Condominio'].isnull()].shape[0]

In [None]:
dados = dados.fillna({'Condominio': 0, 'IPTU': 0})
dados[dados['Condominio'].isnull()].shape[0]

In [None]:
dados[dados['IPTU'].isnull()].shape[0]

In [None]:
dados.info()

In [None]:
dados.to_csv('data/aluguel_residencial.csv', sep=';', index = False)

### Métodos de Interpolação

In [None]:
data = [0.5, None, None, 0.52, 0.54, None, None, 0.59, 0.6, None, 0.7]
s = pd.Series(data)
s

In [None]:
s.fillna(0)

In [None]:
s.fillna(method = 'ffill')

In [None]:
s.fillna(method = 'bfill')

In [None]:
s.fillna(s.mean())

In [None]:
s.fillna(method = 'ffill', limit = 1)

In [None]:
s.fillna(method = 'bfill', limit = 1)

### Criando Novas Variáveis

In [None]:
dados = pd.read_csv('data/aluguel_residencial.csv', sep=';')
dados.head(10)

In [None]:
dados['Valor Bruto'] = dados['Valor'] + dados['Condominio'] + dados['IPTU']
dados.head(10)

In [None]:
dados['Valor m2'] = (dados['Valor Bruto'] / dados['Area']).round(2)
dados.head(10)

In [None]:
dados['Valor Bruto m2'] = (dados['Valor Bruto'] / dados['Area']).round(2)
dados.head(10)

In [None]:
casa = ['Casa', 'Casa de Condomínio', 'Casa de Vila']
dados['Tipo Agregado'] = dados['Tipo'].apply(lambda x: x if x in casa else 'Apartamento')
dados

### Excluindo Variáveis

In [None]:
dados_aux = pd.DataFrame(dados[['Tipo Agregado', 'Valor m2', 'Valor Bruto', 'Valor Bruto m2']])
dados_aux.head(10)

In [None]:
del dados_aux['Valor Bruto']
dados_aux.head(10)

In [None]:
dados_aux.pop('Valor Bruto m2')
dados_aux

In [None]:
dados.drop(['Valor Bruto m2', 'Valor Bruto'], axis = 1, inplace = True)
dados

In [592]:
dados.to_csv('data/aluguel_residencial.csv', sep=';', index = False)