# Conhecendo a base de dados

## Importando os dados


In [1]:
import pandas as pd

In [38]:
df = pd.read_csv('../datasets/aluguel.csv', sep=';')

In [7]:
df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [12]:
df.tail()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


## Características gerais da base de dados

In [8]:
df.shape

(32960, 9)

In [9]:
df.columns

Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [11]:
df.describe()

Unnamed: 0,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
count,32960.0,32960.0,32960.0,32960.0,32943.0,28867.0,22723.0
mean,1.77139,1.749059,0.665777,231.901547,12952.66,2388.062,2364.41
std,1.717869,20.380402,1.176525,1135.254152,667522.0,39184.96,179564.1
min,0.0,0.0,0.0,0.0,75.0,1.0,1.0
25%,0.0,0.0,0.0,55.0,1500.0,590.0,110.0
50%,2.0,1.0,0.0,87.0,2800.0,990.0,250.0
75%,3.0,2.0,1.0,170.0,6500.0,1800.0,697.0
max,100.0,1966.0,70.0,90000.0,120000000.0,6552570.0,27053070.0


In [13]:
# Verificando valores ausentes
df.isnull().sum()

Tipo              0
Bairro            0
Quartos           0
Vagas             0
Suites            0
Area              0
Valor            17
Condominio     4093
IPTU          10237
dtype: int64

In [15]:
# Conta linhas totalmente duplicadas
df.duplicated().sum()

np.int64(1160)

In [16]:
# Ver as linhas duplicadas
df[df.duplicated(keep=False)]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
25,Flat,Leblon,1,0,0,56,4500.0,1900.0,1500.0
27,Apartamento,Ipanema,3,1,1,125,7000.0,2100.0,463.0
73,Apartamento,Ipanema,3,1,1,140,7900.0,2900.0,500.0
100,Quitinete,Centro,0,0,0,30,800.0,505.0,
102,Apartamento,Ipanema,3,1,1,120,7000.0,1800.0,370.0
...,...,...,...,...,...,...,...,...,...
32788,Conjunto Comercial/Sala,Centro,0,0,0,406,19500.0,9194.0,1998.0
32801,Loja/Salão,Barra da Tijuca,0,1,0,49,3000.0,864.0,
32806,Apartamento,Ipanema,4,2,1,257,8000.0,2800.0,680.0
32879,Conjunto Comercial/Sala,Recreio dos Bandeirantes,0,1,0,32,1500.0,360.0,130.0


# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

In [55]:
# Remover linhas sem valor de aluguel
df = df.dropna(subset=['Valor'])

# Substituir zeros e valores menores que um limite
df.loc[df['Area'] <= 0, 'Area'] = 1

# Ou considerar valores muito pequenos também
df.loc[df['Area'] < 1, 'Area'] = 1

# Converter para numérico, transformando não-numéricos em NaN
df['Valor'] = pd.to_numeric(df['Valor'], errors='coerce')
df['Area'] = pd.to_numeric(df['Area'], errors='coerce')

# Calcular a média do valor do aluguel por area
df['Valor_por_m2'] = df['Valor'] / df['Area']

In [56]:
df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_m2
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,42.5
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,,70.0
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,34.666667
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.333333
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,,16.666667


In [None]:
df.Tipo.unique()

In [59]:
def remover_outliers_por_grupos(df, coluna_valor, colunas_grupo):
    """
    Remove outliers usando IQR agrupando por múltiplas colunas
    
    Args:
        df: DataFrame
        coluna_valor: coluna para detectar outliers
        colunas_grupo: lista de colunas para agrupar
    """
    df_limpo_list = []
    
    # Agrupar por todas as combinações
    for grupo, df_grupo in df.groupby(colunas_grupo):
        Q1 = df_grupo[coluna_valor].quantile(0.25)
        Q3 = df_grupo[coluna_valor].quantile(0.75)
        IQR = Q3 - Q1
        
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR
        
        # Filtrar outliers
        df_grupo_limpo = df_grupo[
            (df_grupo[coluna_valor] >= limite_inferior) & 
            (df_grupo[coluna_valor] <= limite_superior)
        ]
        
        df_limpo_list.append(df_grupo_limpo)
    
    # Concatenar todos os grupos
    df_sem_outliers = pd.concat(df_limpo_list, ignore_index=True)
    
    print(f"Registros originais: {len(df)}")
    print(f"Registros sem outliers: {len(df_sem_outliers)}")
    print(f"Outliers removidos: {len(df) - len(df_sem_outliers)}")
    
    return df_sem_outliers

# Usar
df_limpo = remover_outliers_por_grupos(df, 'Valor_por_m2', ['Tipo', 'Bairro'])

Registros originais: 32943
Registros sem outliers: 31526
Outliers removidos: 1417


In [61]:
df_limpo.describe()

Unnamed: 0,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_m2
count,31526.0,31526.0,31526.0,31526.0,31526.0,27803.0,21884.0,31526.0
mean,1.772283,1.696631,0.655903,227.484108,11505.32,2297.88,2365.241,42.213222
std,1.537728,20.724924,1.169629,1140.051258,676387.4,39862.64,182965.6,593.669269
min,0.0,0.0,0.0,1.0,75.0,1.0,1.0,0.021044
25%,0.0,0.0,0.0,55.0,1450.0,588.0,108.0,21.481481
50%,2.0,1.0,0.0,87.0,2700.0,980.0,250.0,31.25
75%,3.0,2.0,1.0,170.0,6000.0,1784.0,679.0,44.776119
max,32.0,1966.0,70.0,90000.0,120000000.0,6552570.0,27053070.0,100000.0


In [67]:
# Valor medio do aluguel por tipo de imóvel (apenas valores numéricos na coluna 'Valor')
def formatar_reais(valor):
    return f'R$ {valor:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.')

df_limpo.groupby(['Tipo', 'Bairro'])['Valor_por_m2'].mean().sort_values(ascending=False).apply(formatar_reais)

Tipo                   Bairro       
Prédio Inteiro         Jacarepaguá      R$ 33.368,98
Loteamento/Condomínio  Tijuca           R$ 25.000,00
Box/Garagem            Engenho Novo     R$ 15.000,00
Loteamento/Condomínio  Engenho Novo     R$ 14.000,00
Indústria              Vigário Geral     R$ 5.454,55
                                            ...     
Terreno Padrão         Jacarepaguá           R$ 1,40
Loja/Salão             Anchieta              R$ 1,29
Loteamento/Condomínio  Jacarepaguá           R$ 1,26
Terreno Padrão         Vargem Grande         R$ 1,24
Sítio                  Camorim               R$ 0,47
Name: Valor_por_m2, Length: 966, dtype: object

In [81]:
# Calcular médias (sem formatação primeiro)
media_area = df_limpo.groupby(['Tipo', 'Bairro'])['Area'].mean().sort_values(ascending=False)
media_sem_outliers = df_limpo.groupby(['Tipo', 'Bairro'])['Valor_por_m2'].mean().sort_values(ascending=False)

# Garantir que ambas as Series estão alinhadas
df_comparacao = pd.DataFrame({
    'Area_Media': media_area,
    'Aluguel_por_M2': media_sem_outliers
})

# Calcular a multiplicação depois
df_comparacao['Valor_Medio_Aluguel'] = df_comparacao['Area_Media'] * df_comparacao['Aluguel_por_M2']

# Calcular média
resultado = df_comparacao.groupby(['Tipo', 'Bairro'])['Valor_Medio_Aluguel'].mean().sort_values(ascending=False)

# Converter para DataFrame
resultado_df = resultado.reset_index()
resultado_df.columns = ['Tipo', 'Bairro', 'Valor_Medio_Aluguel']

# Agora pode formatar a coluna
resultado_df['Valor_Medio_Aluguel'] = resultado_df['Valor_Medio_Aluguel'].apply(formatar_reais)

print(resultado_df)

                        Tipo           Bairro Valor_Medio_Aluguel
0             Prédio Inteiro      Jacarepaguá    R$ 25.783.099,03
1                      Sítio        Guaratiba       R$ 800.497,58
2    Conjunto Comercial/Sala             Caju       R$ 563.795,56
3             Prédio Inteiro          Humaitá       R$ 430.731,40
4             Terreno Padrão     Campo Grande       R$ 298.408,74
..                       ...              ...                 ...
961              Box/Garagem      Laranjeiras           R$ 300,00
962              Box/Garagem  Barra da Tijuca           R$ 300,00
963              Box/Garagem            Méier           R$ 250,00
964              Box/Garagem         Flamengo           R$ 200,00
965              Box/Garagem       Bonsucesso           R$ 180,00

[966 rows x 3 columns]


## Removendo os imóveis comerciais

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

### **Selecionando apenas os imóveis do tipo apartamento**

# Tratando e filtrando os dados

## Lidando com dados nulos

## Removendo registros

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

## Salvando os dados

# Manipulando os dados

## Criando colunas numéricas

## Criando colunas categóricas