In [131]:
import pandas as pd
import numpy as np


df = pd.read_excel('imovel.xlsx')
df = df.drop(df.tail(5).index)

In [132]:
# Função de separar 2 números com - e retornar a média

def calcular_media_intervalo(valor):
    if pd.isna(valor):  
        return 0
    valor = str(valor)
    if '-' in valor:
        partes = valor.split('-')
        return np.mean([float(parte) for parte in partes])
    return float(valor) 

In [133]:
# Arrumar a coluna metragem, quartos, banheiros e vagas

df['metragem'] = df['metragem'].str.replace('Tamanho do imóvel\n', '', regex=False).str.replace('m²', '', regex=False)
df['metragem'] = df['metragem'].apply(calcular_media_intervalo)
df['metragem'] = df['metragem'].astype(float)

df['quartos'] = df['quartos'].str.replace('Quantidade de quartos\n', '', regex=False).fillna(0)
df['quartos'] = df['quartos'].apply(calcular_media_intervalo) 
df['quartos'] = df['quartos'].astype(float) 

df['banheiros'] = df['banheiros'].str.replace('Quantidade de banheiros\n', '', regex=False).fillna(0)
df['banheiros'] = df['banheiros'].apply(calcular_media_intervalo) 
df['banheiros'] = df['banheiros'].astype(float) 

df['vagas'] = df['vagas'].str.replace('Quantidade de vagas de garagem\n', '', regex=False).fillna(0)
df['vagas'] = df['vagas'].apply(calcular_media_intervalo) 
df['vagas'] = df['vagas'].astype(float) 

In [134]:
# Separando o IPTU e o condominio do valor e transformando em float

df['condominio'] = df['valor'].str.extract(r'Cond\. R\$ ([\d.,]+)')[0].str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float).fillna(0)
df['iptu'] = df['valor'].str.extract(r'IPTU R\$ ([\d.,]+)')[0].str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float).fillna(0)
df['valor'] = df['valor'].str.extract(r'R\$ ([\d.,]+)')[0].str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float)


In [135]:
# normalizando o nomeRua
df['nomeRua'] = df['nomeRua'].fillna('Rua não encontrada').str.capitalize().str.strip()


In [136]:
# Renomeando a coluna metragem
df.rename(columns={'metragem': 'metragem(m²)'}, inplace=True)

In [137]:
# visualização 
display(df)

Unnamed: 0,metragem(m²),quartos,banheiros,vagas,valor,nomeRua,condominio,iptu
0,52.0,2.0,1.0,2.0,270000.0,Rua ítalo bordini,380.0,85.0
1,604.0,4.0,7.0,3.0,11800000.0,Alameda mamoré,1659.0,873.0
2,60.0,2.0,2.0,1.0,395000.0,Rua marília,120.0,130.0
3,69.0,2.0,1.0,1.0,450000.0,Rua não encontrada,0.0,0.0
4,75.0,0.0,1.0,2.0,350000.0,Avenida valentim magalhães,0.0,0.0
...,...,...,...,...,...,...,...,...
95,149.0,3.0,3.0,2.0,790000.0,Rua contorno,300.0,0.0
96,72.0,2.0,2.0,1.0,290000.0,Rua estrela velha,0.0,0.0
97,20000.0,0.0,0.0,0.0,150000.0,Rua 1 chácara 106a conjunto c,0.0,0.0
98,67.0,3.0,1.0,1.0,280000.0,Rua não encontrada,387.0,54.0


In [138]:
# Salvar em um novo excel

df.to_excel('imovel_limpo.xlsx', index=False)