# Conhecendo a base de dados

## Importando os dados


In [23]:
import pandas as pd

In [24]:
df = pd.read_csv("aluguel.csv")

In [25]:
# --- PASSO 0: Carregar os Dados ---
# Usamos o separador ';' (ponto e vírgula)
df = pd.read_csv("aluguel.csv", sep=";")

In [26]:
# --- PASSO 1: Limpeza da Variável-Alvo e Outliers de Qualidade ---
# 1.1. Remover Linhas com 'Valor' Ausente (NaN)
df_limpo = df.dropna(subset=['Valor'])

In [27]:
# 1.2. Remover Outliers óbvios na 'Area' (Área = 0)
df_limpo = df_limpo[df_limpo['Area'] > 0]

In [28]:
# --- PASSO 2: Filtragem de Tipos de Imóveis (Foco Residencial) ---
tipos_residenciais = [
    'Apartamento', 'Casa', 'Casa de Condomínio', 'Quitinete',
    'Casa de Vila', 'Loft', 'Studio', 'Flat'
]

In [29]:
# Aplicar o filtro
df_residencial = df_limpo[df_limpo['Tipo'].isin(tipos_residenciais)].copy()

In [30]:
# --- PASSO 3: Tratamento de valores ausentes em Condomínio e IPTU
# 3.1 Preencher valores ausentes (Nan) com 0
df_residencial['Condominio'] = df_residencial['Condominio'].fillna(0)
df_residencial['IPTU'] = df_residencial['IPTU'].fillna(0)

In [31]:
# --- 3.2 Converter as colunas para o tipo (int)
df_residencial['Condominio'] = df_residencial['Condominio'].astype(int)
df_residencial['IPTU'] = df_residencial['IPTU'].astype(int)

In [32]:
# --- PASSO 4: Remoção de Outliers na variável 'Valor' (Aluguel)
# 4.1 Calcular os quartis e o IQR
Q1 = df_residencial['Valor'].quantile(0.25)
Q3 = df_residencial['Valor'].quantile(0.75)
IQR = Q3 - Q1

In [33]:
# 4.2 Definir o limite superior (Q3 + 1.5 * IQR)
limite_superior = Q3 + 1.5 * IQR

In [34]:
# 4.3 Filtrar o DataFrame, mantendo apenas os valores abaixo do limite
df_final = df_residencial[df_residencial['Valor'] <= limite_superior]

In [35]:
# --- Passo 5: Verificação e Salvamento de Resultado
print("--- Estatísticas Finais de 'Valor' após limpeza completa ---")
print(df_final['Valor'].describe().round(2).to_string())

print(f"\nTotal de Registros Final: {df_final.shape[0]}")

--- Estatísticas Finais de 'Valor' após limpeza completa ---
count    20922.00
mean      3198.60
std       2324.22
min        100.00
25%       1500.00
50%       2500.00
75%       4200.00
max      10900.00

Total de Registros Final: 20922


In [36]:
# Salvar o DataFrame final limpo
df_final.to_csv('aluguel_final_limpo_reexecutado.csv', index=False, sep=';')

In [37]:
df.describe()

Unnamed: 0,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
count,32960.0,32960.0,32960.0,32960.0,32943.0,28867.0,22723.0
mean,1.77139,1.749059,0.665777,231.901547,12952.66,2388.062,2364.41
std,1.717869,20.380402,1.176525,1135.254152,667522.0,39184.96,179564.1
min,0.0,0.0,0.0,0.0,75.0,1.0,1.0
25%,0.0,0.0,0.0,55.0,1500.0,590.0,110.0
50%,2.0,1.0,0.0,87.0,2800.0,990.0,250.0
75%,3.0,2.0,1.0,170.0,6500.0,1800.0,697.0
max,100.0,1966.0,70.0,90000.0,120000000.0,6552570.0,27053070.0


In [38]:
df.tail()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


In [39]:
df.sample()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
3840,Apartamento,Copacabana,2,1,0,85,2990.0,850.0,170.0


## Características gerais da base de dados

In [40]:
df.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...
32955,False,False,False,False,False,False,False,False,False
32956,False,False,False,False,False,False,False,False,False
32957,False,False,False,False,False,False,False,False,False
32958,False,False,False,False,False,False,False,False,True


In [41]:
df.isnull().sum()

Tipo              0
Bairro            0
Quartos           0
Vagas             0
Suites            0
Area              0
Valor            17
Condominio     4093
IPTU          10237
dtype: int64

# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

## Removendo os imóveis comerciais

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

### **Selecionando apenas os imóveis do tipo apartamento**

# Tratando e filtrando os dados

## Lidando com dados nulos

## Removendo registros

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

## Salvando os dados

# Manipulando os dados

## Criando colunas numéricas

## Criando colunas categóricas