# An√°lise de Mercado Imobili√°rio

**Objetivo:** 
Estimar o pre√ßo m√©dio por m¬≤ de forma segmentada (por porte do im√≥vel e d√©cada de constru√ß√£o), indo al√©m da m√©dia simples para encontrar uma avalia√ß√£o que se aproxima da realidade utilizando dados p√∫blicos de transa√ß√µes reais (ITBI) e cadastro fiscal (IPTU).Trata-se de apenas estudo estat√≠stico, n√£o uma avalia√ß√£o oficial.

**Contexto:** Este √© um projeto pessoal, feito por algu√©m que n√£o √© especialista no tema, mas que busca uma base de clareza e autonomia na percep√ß√£o de mercado, utilizando o poder do python e de dados p√∫blicos. 

**Benef√≠cio:** A grande beleza deste projeto √© que ele √© um ponto de partida de c√≥digo aberto e pode ajudar outras pessoas. Se voc√™ desejar analisar seu pr√≥prio bairro, lembre-se: precisar√° adaptar o c√≥digo, os crit√©rios de limpeza e os filtros para a sua realidade. Este √© um convite para a explora√ß√£o e o aprendizado! :)

**Metodologia:**
1. Coleta e consolida√ß√£o de dados p√∫blicos da Prefeitura de S√£o Paulo.
2. Limpeza e padroniza√ß√£o de endere√ßos e tipos de im√≥veis.
3. Engenharia de dados para fus√£o de registros (Apartamentos + Garagens).
4. Segmenta√ß√£o anal√≠tica por porte e idade do im√≥vel.

**Desafio:**
Bases p√∫blicas s√£o ricas, mas necessitam de tratamento: Normalizar endere√ßos/nomes e,associar apartamentos aos valores de suas vagas de garagem (que, se vendidas separadamente, precisam ter o valor somado para se ter o pre√ßo real do im√≥vel por m¬≤) e decidir como tratar vendas parciais. Este caderno traz decis√µes de limpeza e filtragem simples(evitando outliers, removendo vendas parciais) para conseguir uma amostra relevante, n√£o exaustivas voltadas para o bairro de analise. Lembre-se este projeto √© um estudo, n√£o um laudo oficial. 

**Fonte:**
A base para esta jornada anal√≠tica s√£o os dados p√∫blicos de ITBI (Imposto sobre a Transmiss√£o de Bens Im√≥veis) e informa√ß√µes cadastrais do IPTU, disponibilizados pela Prefeitura de S√£o Paulo. Os dados de ITBI s√£o p√∫blicos e podem ser baixados no portal da Prefeitura, na se√ß√£o de Acesso √† Informa√ß√£o.
Link para a base original (Prefeitura de S√£o Paulo): https://prefeitura.sp.gov.br/web/fazenda/w/acesso_a_informacao/31501

‚ö†Ô∏è **Importante**‚ö†Ô∏è: 
1. Este projeto n√£o se prop√µe a ser um laudo oficial. Se voc√™ n√£o tem familiaridade com an√°lises de dados ou precisa de um valor com precis√£o legal ou profissional, √© fundamental buscar a consultoria adequada de um profissional da √°rea de avalia√ß√£o imobili√°ria.
2. Este estudo foi realizado exclusivamente para fins educacionais e de demonstra√ß√£o de t√©cnicas de engenharia de dados. Todos os dados utilizados s√£o p√∫blicos e foram tratados para remover informa√ß√µes sens√≠veis, conforme boas pr√°ticas de privacidade.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import unicodedata

# Configura√ß√µes de exibi√ß√£o
sns.set_theme(style="whitegrid") #fundo branco
pd.set_option('display.float_format', lambda x: '%.2f' % x) #decimal com duas casas
pd.set_option('display.max_columns', None) #mostra todas as colunas

# Par√¢metros do Projeto
ARQUIVO_EXCEL = 'GUIAS DE ITBI PAGAS XLS 28102025.xlsx'
BAIRROS_ALVO = [
    'VILA SANTA CATARINA', 'VILA STA CATARINA', 'V. SANTA CATARINA',
    'VL SANTA CATARINA', 'VL STA CATARINA', 'VL STA. CATARINA'
]
PADRAO_ABA_MES = re.compile(r'^[A-Z]{3,4}-\d{4}$')

# Defini√ß√£o de Schema (Colunas essenciais para garantir a consist√™ncia entre abas)
COLUNAS_TARGET = [
    'N¬∞ do Cadastro (SQL)', 'Nome do Logradouro', 'N√∫mero', 'Complemento',
    'Bairro', 'Refer√™ncia', 'CEP', 'Natureza de Transa√ß√£o',
    'Valor de Transa√ß√£o (declarado pelo contribuinte)', 'Data de Transa√ß√£o',
    'Valor Venal de Refer√™ncia', 'Propor√ß√£o Transmitida (%)',
    'Valor Venal de Refer√™ncia (proporcional)', 'Base de C√°lculo adotada',
    'Tipo de Financiamento', 'Valor Financiado', 'Cart√≥rio de Registro',
    'Matr√≠cula do Im√≥vel', 'Situa√ß√£o do SQL', '√Årea do Terreno (m2)',
    'Testada (m)', 'Fra√ß√£o Ideal', '√Årea Constru√≠da (m2)',
    'Uso (IPTU)', 'Descri√ß√£o do uso (IPTU)',
    'Padr√£o (IPTU)', 'Descri√ß√£o do padr√£o (IPTU)',
    'ACC (IPTU)', 'ACC (IPTU).1'
]

def limpar_nome_coluna(nome):
    """Padroniza nomes de colunas (min√∫sculo, sem acento, sem espa√ßos)."""
    if pd.isna(nome): return ""
    nfkd = unicodedata.normalize('NFKD', str(nome))
    limpo = "".join([c for c in nfkd if not unicodedata.combining(c)])
    return re.sub(r'[^\w]', '', limpo).lower()

def carregar_dados():
    print(">>> Iniciando carga e consolida√ß√£o de dados...")
    dfs = []
    try:
        excel = pd.ExcelFile(ARQUIVO_EXCEL)
        for aba in excel.sheet_names:
            if not PADRAO_ABA_MES.match(aba): continue

            dft = pd.read_excel(excel, sheet_name=aba)

            # Normaliza√ß√£o de colunas para garantir o schema
            dft.columns = dft.columns.str.strip()
            for col in COLUNAS_TARGET:
                if col not in dft.columns: dft[col] = np.nan
            dft = dft[COLUNAS_TARGET]

            # Tratamento da coluna Ano de Constru√ß√£o (ACC)
            # Prioriza ACC (IPTU).1 se existir dados, caso contr√°rio usa ACC (IPTU)
            acc1_numeric = pd.to_numeric(dft['ACC (IPTU).1'], errors='coerce')
            if not acc1_numeric.isnull().all():
                dft['ACC_FINAL'] = acc1_numeric.fillna(dft['ACC (IPTU)'])
            else:
                dft['ACC_FINAL'] = dft['ACC (IPTU)']

            dft = dft.drop(columns=['ACC (IPTU)', 'ACC (IPTU).1'])
            dft.columns = [limpar_nome_coluna(col) for col in dft.columns]
            dft['mes_ref'] = aba
            dfs.append(dft)

        if not dfs: return pd.DataFrame()

        df = pd.concat(dfs, ignore_index=True)

        # Filtro de Bairro e Convers√£o de Tipos
        df['bairro'] = df['bairro'].astype(str).str.upper().str.strip()
        df = df[df['bairro'].isin(BAIRROS_ALVO)].copy()

        df['datadetransacao'] = pd.to_datetime(df['datadetransacao'], errors='coerce')
        df['valordetransacaodeclaradopelocontribuinte'] = pd.to_numeric(df['valordetransacaodeclaradopelocontribuinte'], errors='coerce')
        df['areaconstruidam2'] = pd.to_numeric(df['areaconstruidam2'], errors='coerce')

        # Remove registros sem valor ou √°rea (essenciais para o c√°lculo do m¬≤)
        df.dropna(subset=['valordetransacaodeclaradopelocontribuinte', 'areaconstruidam2'], inplace=True)

        print(f">>> Carga conclu√≠da. Total de registros processados: {len(df)}")
        return df

    except Exception as e:
        print(f"Erro no processamento: {e}")
        return pd.DataFrame()

# Execu√ß√£o
df_bruto = carregar_dados()

In [None]:
# ==============================================================================
# CLASSIFICA√á√ÉO E HIGIENIZA√á√ÉO
#
# Objetivos:
# 1. Categorizar os im√≥veis (Apartamento, Casa, Terreno, Garagem).
# 2. Remover ru√≠dos: vendas parciais (<99%) e valores simb√≥licos (< R$ 10k).
# ==============================================================================

# C√≥pia de trabalho
df_analise = df_bruto.copy()
total_registros = len(df_analise)

# --- 1. Classifica√ß√£o Sem√¢ntica ---
def classificar_imovel(linha):
    """Define o tipo do im√≥vel com base na descri√ß√£o do IPTU."""
    desc = str(linha.get('descricaodousoiptu', '')).upper()
    desc_padrao = str(linha.get('descricaodopadraoiptu', '')).upper()
    padrao = str(linha.get('padraoiptu', '')).upper()

    # Ordem de prioridade
    if any(x in desc for x in ['GARAGEM', 'ESTACIONAMENTO', 'VAGA', 'BOX']):
        return 'Garagem'
    elif any(x in desc for x in ['LOJA', 'COMERCIAL', 'ESCRIT√ìRIO', 'CONSULT√ìRIO']):
        return 'Comercial'
    elif 'TERRENO' in desc:
        return 'Terreno'
    elif any(x in desc for x in ['APARTAMENTO', 'FLAT']) or 'VERTICAL' in desc_padrao:
        return 'Apartamento'
    elif any(x in desc for x in ['RESID√äNCIA', 'CASA']):
        # Corre√ß√£o: Casas cadastradas em condom√≠nio vertical geralmente s√£o apartamentos
        if 'VERTICAL' in desc_padrao or padrao.startswith('2'):
            return 'Apartamento'
        return 'Casa'
    else:
        return 'Outros'

print(">>> Classificando im√≥veis...")
df_analise['tipo_imovel'] = df_analise.apply(classificar_imovel, axis=1)

# --- 2. Filtragem de Ru√≠do (Limpeza) ---
print(">>> Aplicando filtros de consist√™ncia...")

# Regra 1: Remover vendas parciais (ex: venda de 50% do im√≥vel)
if 'proporcaotransmitida' in df_analise.columns:
    df_analise = df_analise[df_analise['proporcaotransmitida'] >= 99.0]

# Regra 2: Remover valores irris√≥rios (erros ou doa√ß√µes simb√≥licas)
df_analise = df_analise[df_analise['valordetransacaodeclaradopelocontribuinte'] >= 10000]

# --- Resultados ---
removidos = total_registros - len(df_analise)
print(f"Registros removidos (inconsistentes/parciais): {removidos} ({removidos/total_registros:.1%})")
print(f"Base final para an√°lise: {len(df_analise)} registros")

print("\nDistribui√ß√£o por Tipo:")
print(df_analise['tipo_imovel'].value_counts())

In [None]:
# ==============================================================================
# NORMALIZA√á√ÉO DE ENDERE√áOS (AGORA COM BAIRRO REFINADO!)
#
# Objetivo: Padronizar Rua, N√∫mero e Bairro para permitir o cruzamento (fus√£o).
# Corre√ß√£o: Normaliza√ß√£o mais agressiva para varia√ß√µes de "Vila", "Santa", etc.
# ==============================================================================

def normalizar_texto(texto):
    """
    Remove acentos, pontua√ß√£o e padroniza abrevia√ß√µes.
    Ex: 'Vila Santa Catarina' -> 'VL STA CATARINA'
    """
    if pd.isna(texto): return ""
    
    # 1. Desmonta caracteres acentuados (ex: '√£' vira 'a' + '~')
    nfkd = unicodedata.normalize('NFKD', str(texto))
    
    # 2. Filtra apenas os caracteres base (descarta os acentos) e p√µe em Mai√∫scula
    txt = "".join([c for c in nfkd if not unicodedata.combining(c)]).upper()
    
    # 3. Remove pontua√ß√£o (troca por espa√ßo)
    txt = txt.replace('.', ' ').replace(',', ' ').replace('-', ' ').replace('/', ' ')
    
    # 4. Padroniza√ß√£o de Termos Comuns (Regex)
    # \b garante que s√≥ substitua a palavra inteira
    
    # Tipos de Logradouro
    txt = re.sub(r'\bRUA\b', 'R', txt)
    txt = re.sub(r'\bAVENIDA\b', 'AV', txt)
    txt = re.sub(r'\bALAMEDA\b', 'AL', txt)
    txt = re.sub(r'\bTRAVESSA\b', 'TV', txt)
    txt = re.sub(r'\bESTRADA\b', 'EST', txt)
    txt = re.sub(r'\bPRACA\b', 'PC', txt)
    
    # Bairros e T√≠tulos (AQUI EST√Å A CORRE√á√ÉO PRINCIPAL)
    txt = re.sub(r'\bVILA\b', 'VL', txt)
    txt = re.sub(r'\bV\b', 'VL', txt)      # Pega "V." que virou "V " ap√≥s remover pontua√ß√£o
    txt = re.sub(r'\bSANTA\b', 'STA', txt) # Padroniza Santa -> STA
    txt = re.sub(r'\bSANTO\b', 'STO', txt)
    txt = re.sub(r'\bSAO\b', 'SAO', txt)   # Mant√©m SAO sem til
    txt = re.sub(r'\bJARDIM\b', 'JD', txt)
    txt = re.sub(r'\bPARQUE\b', 'PQ', txt)
    txt = re.sub(r'\bDOUTOR\b', 'DR', txt)
    txt = re.sub(r'\bPROFESSOR\b', 'PROF', txt)
    
    # Complementos
    txt = re.sub(r'\bAPARTAMENTO\b', 'AP', txt)
    txt = re.sub(r'\bAPTO\b', 'AP', txt)
    txt = re.sub(r'\bVAGA\b', 'VG', txt)
    txt = re.sub(r'\bGARAGEM\b', 'VG', txt)
    txt = re.sub(r'\bBOX\b', 'VG', txt)
    
    # Remove espa√ßos duplos criados pela limpeza
    return " ".join(txt.split())

def normalizar_numero(x):
    """Padroniza n√∫meros (remove zeros √† esquerda, trata S/N)."""
    if pd.isna(x) or x == 0: return "SN"
    s = str(x).upper().replace('.', '').replace(',', '').strip()
    if s.isdigit(): return str(int(s)) # "050" vira "50"
    return s

print(">>> Normalizando endere√ßos (Logradouro, Bairro e Complemento)...")

# Aplica a fun√ß√£o em todas as colunas de endere√ßo
df_analise['logradouro_norm'] = df_analise['nomedologradouro'].apply(normalizar_texto)
df_analise['bairro_norm'] = df_analise['bairro'].apply(normalizar_texto)
df_analise['complemento_norm'] = df_analise['complemento'].apply(normalizar_texto)
df_analise['numero_norm'] = df_analise['numero'].apply(normalizar_numero)


print("Exemplo de Normaliza√ß√£o:")
display(df_analise[['bairro', 'bairro_norm']].head(3))

In [None]:
# ==============================================================================
# MOTOR DE FUS√ÉO (PROCESSAMENTO)
#
# O QUE FAZ:
# 1. Cria a chave √∫nica (Rua + N√∫mero + Data).
# 2. Identifica pacotes "Apartamento + Garagem" comprados juntos.
# 3. Soma o valor das garagens ao valor do apartamento.
# 4. Salva tudo em mem√≥ria (df_analise) sem exibir dados sens√≠veis.
# ==============================================================================

def fundir_garagens_robusto(df):
    df_work = df.copy()
    
    print(">>> [MOTOR] Iniciando algoritmo de fus√£o...")
    
    # Garantia de Data
    df_work['datadetransacao'] = pd.to_datetime(df_work['datadetransacao'], errors='coerce')
    
    # 1. CRIA√á√ÉO DA CHAVE DE FUS√ÉO
    df_work['id_fusao'] = (
        df_work['logradouro_norm'] + "_" + 
        df_work['numero_norm'].astype(str) + "_" + 
        df_work['datadetransacao'].dt.strftime('%Y-%m-%d')
    )
    
    registros_finais = []
    sobras = []
    stats = {'Fundidos': 0, 'Originais': 0, 'Sobras': 0}
    
    # 2. LOOP DE AGRUPAMENTO
    # Agrupa por endere√ßo+data para ver quem comprou o que junto
    for id_evento, grupo in df_work.groupby('id_fusao'):
        
        aptos = grupo[grupo['tipo_imovel'] == 'Apartamento']
        garagens = grupo[grupo['tipo_imovel'] == 'Garagem']
        
        # CEN√ÅRIO A: FUS√ÉO (1 Apto + N Garagens na mesma compra)
        if len(aptos) == 1 and len(garagens) >= 1:
            row_apto = aptos.iloc[0].copy()
            
            # Soma valores
            valor_garagens = garagens['valordetransacaodeclaradopelocontribuinte'].sum()
            valor_original = row_apto['valordetransacaodeclaradopelocontribuinte']
            
            # Atualiza registro
            row_apto['valor_original'] = valor_original
            row_apto['valor_garagens_somadas'] = valor_garagens
            row_apto['valordetransacaodeclaradopelocontribuinte'] = valor_original + valor_garagens
            row_apto['status_fusao'] = 'FUNDIDO'
            
            registros_finais.append(row_apto.to_dict())
            stats['Fundidos'] += 1
            
            # Se tiver outros itens no pacote (ex: terreno), salva separado
            outros = grupo[~grupo['tipo_imovel'].isin(['Apartamento', 'Garagem'])]
            if not outros.empty: registros_finais.extend(outros.to_dict('records'))

        # CEN√ÅRIO B: SEM FUS√ÉO (Apto sozinho ou Garagem avulsa)
        else:
            # Im√≥veis principais (mant√©m como est√°)
            imoveis = grupo[grupo['tipo_imovel'] != 'Garagem']
            for _, row in imoveis.iterrows():
                row['valor_original'] = row['valordetransacaodeclaradopelocontribuinte']
                row['valor_garagens_somadas'] = 0.0
                row['status_fusao'] = 'ORIGINAL'
                registros_finais.append(row.to_dict())
                stats['Originais'] += 1
            
            # Garagens sem dono (sobras)
            sobras.extend(garagens.to_dict('records'))
            stats['Sobras'] += len(garagens)

    # Reconstr√≥i DataFrames
    df_final = pd.DataFrame(registros_finais)
    df_sobras = pd.DataFrame(sobras)
    
    # Recalcula Pre√ßo/m¬≤ com o valor novo (somado)
    if not df_final.empty:
        df_final['preco_m2'] = np.where(
            df_final['areaconstruidam2'] > 0,
            df_final['valordetransacaodeclaradopelocontribuinte'] / df_final['areaconstruidam2'],
            np.nan
        )

    print(f">>> [MOTOR] Processamento finalizado.")
    print(f"    - Apartamentos Fundidos: {stats['Fundidos']}")
    print(f"    - Im√≥veis Originais:     {stats['Originais']}")
    print(f"    - Garagens Soltas:       {stats['Sobras']}")
    
    return df_final, df_sobras

# Executa o motor e guarda na mem√≥ria
# df_analise √© a base vinda do bloco anterior
df_analise, df_sobras = fundir_garagens_robusto(df_analise)

In [None]:
# ==============================================================================
# AUDITORIA VISUAL (DADOS SENS√çVEIS)
#
# ATEN√á√ÉO: Esta c√©lula exibe endere√ßos e valores reais.
# >>> LIMPE O OUTPUT AP√ìS A CONFER√äNCIA <<<
# ==============================================================================

def exibir_auditoria(df_principal, df_sobras):
    # Filtra apenas os casos onde houve fus√£o para validar a matem√°tica
    df_sucesso = df_principal[df_principal['status_fusao'] == 'FUNDIDO'].copy()

    if not df_sucesso.empty:
        print("\n>>> AMOSTRA DE FUS√ïES REALIZADAS (Valor Apto + Valor Garagem):")
        
        cols_audit = [
            'nomedologradouro', 'numero', 'complemento', 
            'valor_original', 'valor_garagens_somadas', 
            'valordetransacaodeclaradopelocontribuinte'
        ]
        
        view = df_sucesso[cols_audit].rename(columns={
            'valordetransacaodeclaradopelocontribuinte': 'VALOR_FINAL',
            'valor_original': 'APTO',
            'valor_garagens_somadas': 'GARAGEM'
        })

        # Formata√ß√£o de Moeda
        display(view.head(5).style.format({
            'APTO': 'R$ {:,.2f}',
            'GARAGEM': 'R$ {:,.2f}',
            'VALOR_FINAL': 'R$ {:,.2f}'
        }).background_gradient(cmap='Greens', subset=['VALOR_FINAL']))
    else:
        print("\n(Nenhuma fus√£o autom√°tica ocorreu nesta amostra. Isso √© normal se os im√≥veis foram vendidos sem vaga separada)")

    if not df_sobras.empty:
        print("\n>>> GARAGENS N√ÉO PAREADAS (Sobras):")
        print("Verifique se o endere√ßo difere do apartamento ou se s√£o vendas avulsas.")
        display(df_sobras[['nomedologradouro', 'numero', 'complemento', 'valordetransacaodeclaradopelocontribuinte']].head(5))

# Mostra os dados
exibir_auditoria(df_analise, df_sobras)

In [None]:
# ==============================================================================
# TABELA DE PRECIFICA√á√ÉO POR PORTE
#
# Objetivo: Segmentar o mercado por tamanho para obter o pre√ßo m√©dio do m¬≤
# espec√≠fico para cada perfil de im√≥vel.
# ==============================================================================

import pandas as pd

# Defini√ß√£o das faixas de tamanho
BINS_AREA = [0, 50, 65, 85, 100, 150, 9999]
LABELS_PERFIL = [
    '1. Compacto (<50m¬≤)',
    '2. Funcional (50-65m¬≤)',
    '3. Padr√£o (66-85m¬≤)',
    '4. Amplo (86-100m¬≤)',
    '5. Premium (101-150m¬≤)',
    '6. Alto Padr√£o (>150m¬≤)'
]

def gerar_tabela_mercado(df):
    # Filtra apenas apartamentos
    df_apto = df[df['tipo_imovel'] == 'Apartamento'].copy()

    # Filtros de seguran√ßa (Pre√ßo e m¬≤ coerentes)
    df_apto = df_apto[
        (df_apto['valordetransacaodeclaradopelocontribuinte'] >= 100000) &
        (df_apto['preco_m2'] >= 2000) &
        (df_apto['preco_m2'] <= 50000)
    ].copy()

    if df_apto.empty:
        print("N√£o h√° dados suficientes de apartamentos ap√≥s a filtragem.")
        return None

    # Segmenta√ß√£o por Perfil
    df_apto['perfil'] = pd.cut(df_apto['areaconstruidam2'], bins=BINS_AREA, labels=LABELS_PERFIL)

    # Agrega√ß√£o (Sem Vagas)
    tabela = df_apto.groupby('perfil', observed=False).agg({
        'valordetransacaodeclaradopelocontribuinte': ['count', 'min', 'max', 'mean'],
        'preco_m2': 'mean'
    })

    # Renomeia colunas
    tabela.columns = ['Qtd Vendas', 'M√≠nimo (R$)', 'M√°ximo (R$)', 'Pre√ßo M√©dio (R$)', 'M√©dia m¬≤ (R$)']

    # M√©dia Geral Ponderada
    total_valor = df_apto['valordetransacaodeclaradopelocontribuinte'].sum()
    total_area = df_apto['areaconstruidam2'].sum()
    media_ponderada = total_valor / total_area if total_area > 0 else 0

    # Linha de Totais
    linha_geral = pd.DataFrame({
        'Qtd Vendas': [len(df_apto)],
        'M√≠nimo (R$)': [df_apto['valordetransacaodeclaradopelocontribuinte'].min()],
        'M√°ximo (R$)': [df_apto['valordetransacaodeclaradopelocontribuinte'].max()],
        'Pre√ßo M√©dio (R$)': [df_apto['valordetransacaodeclaradopelocontribuinte'].mean()],
        'M√©dia m¬≤ (R$)': [media_ponderada]
    }, index=['M√âDIA GERAL DO BAIRRO'])

    df_final = pd.concat([tabela, linha_geral])

    # Formata√ß√£o Visual
    return df_final.style.format({
        'M√≠nimo (R$)': 'R$ {:,.2f}',
        'M√°ximo (R$)': 'R$ {:,.2f}',
        'Pre√ßo M√©dio (R$)': 'R$ {:,.2f}',
        'M√©dia m¬≤ (R$)': 'R$ {:,.2f}'
    }).background_gradient(cmap='Blues', subset=['Qtd Vendas'])\
      .bar(subset=['M√©dia m¬≤ (R$)'], color='#5fba7d', vmin=0)

print(">>> Gerando Tabela de Precifica√ß√£o de Mercado...")
display(gerar_tabela_mercado(df_analise))

In [None]:
# ==============================================================================
# AUDITORIA DE EXEMPLOS (VALIDA√á√ÉO MICRO)
#
# Objetivo: Listar 3 exemplos reais de cada perfil (Compacto, Padr√£o, etc.)
# para confirmar se a classifica√ß√£o faz sentido com a realidade do bairro.
# ==============================================================================

def auditar_exemplos(df):
    # Filtra base de apartamentos com os mesmos crit√©rios da tabela
    df_audit = df[
        (df['tipo_imovel'] == 'Apartamento') &
        (df['valordetransacaodeclaradopelocontribuinte'] >= 100000) &
        (df['preco_m2'] >= 2000) &
        (df['preco_m2'] <= 50000)
    ].copy()

    # Recria os perfis para garantir a segmenta√ß√£o
    bins = [0, 50, 65, 85, 100, 150, 9999]
    labels = [
        '1. Compacto (<50m¬≤)', '2. Funcional (50-65m¬≤)', 
        '3. Padr√£o (66-85m¬≤)', '4. Amplo (86-100m¬≤)', 
        '5. Premium (101-150m¬≤)', '6. Alto Padr√£o (>150m¬≤)'
    ]
    df_audit['perfil'] = pd.cut(df_audit['areaconstruidam2'], bins=bins, labels=labels)

    # Colunas para visualiza√ß√£o
    cols_view = [
        'nomedologradouro', 'numero', 'complemento_norm', 
        'areaconstruidam2', 'valordetransacaodeclaradopelocontribuinte', 'preco_m2'
    ]

    print(">>> AMOSTRA DE IM√ìVEIS POR PERFIL <<<")

    for perfil in labels:
        subset = df_audit[df_audit['perfil'] == perfil]
        
        print(f"\nüìÇ {perfil}")
        if not subset.empty:
            # Seleciona 3 exemplos
            amostra = subset[cols_view].head(3).rename(columns={
                'nomedologradouro': 'Endere√ßo',
                'complemento_norm': 'Comp.',
                'areaconstruidam2': '√Årea',
                'valordetransacaodeclaradopelocontribuinte': 'Valor Total',
                'preco_m2': 'R$/m¬≤'
            })
            
            # Exibe formatado
            display(amostra.style.format({
                'Valor Total': 'R$ {:,.2f}',
                'R$/m¬≤': 'R$ {:,.2f}',
                '√Årea': '{:.0f} m¬≤'
            }).hide(axis='index'))
        else:
            print("   (Nenhum im√≥vel encontrado nesta faixa)")

# Execu√ß√£o
auditar_exemplos(df_analise)

In [None]:
# ==============================================================================
# AN√ÅLISE DE SAFRA (Idade x Pre√ßo)
#
# Objetivo: Identificar se im√≥veis mais novos t√™m um pr√™mio de pre√ßo (valoriza√ß√£o)
# em rela√ß√£o aos antigos, separando a tend√™ncia para Casas e Apartamentos.
# ==============================================================================

def analisar_safra(df):
    # 1. Prepara√ß√£o e Filtros
    # Foca apenas em residencial e garante que temos o ano de constru√ß√£o
    df_safra = df[
        (df['tipo_imovel'].isin(['Apartamento', 'Casa'])) &
        (df['acc_final'].notna())
    ].copy()

    # Converte ano para n√∫mero e remove ru√≠dos (ex: anos 0 ou futuros)
    df_safra['ano_construcao'] = pd.to_numeric(df_safra['acc_final'], errors='coerce')
    ano_atual = pd.Timestamp.now().year

    df_safra = df_safra[
        (df_safra['ano_construcao'] >= 1950) &
        (df_safra['ano_construcao'] <= ano_atual + 2) &
        (df_safra['preco_m2'] > 500)  # Remove valores simb√≥licos
    ]

    if df_safra.empty:
        print("Dados insuficientes de ano de constru√ß√£o para an√°lise.")
        return

    # 2. Visualiza√ß√£o Gr√°fica (Scatter + Regress√£o)
    plt.figure(figsize=(12, 8))

    # lmplot cria o gr√°fico de dispers√£o com a linha de tend√™ncia autom√°tica
    g = sns.lmplot(
        data=df_safra,
        x='ano_construcao',
        y='preco_m2',
        hue='tipo_imovel',
        height=7,
        aspect=1.5,
        palette={'Apartamento': '#2b7bba', 'Casa': '#e34a33'},
        scatter_kws={'s': 80, 'alpha': 0.6}
    )

    plt.title('Valoriza√ß√£o por Idade: Apartamentos vs Casas', fontsize=16)
    plt.xlabel('Ano de Constru√ß√£o', fontsize=12)
    plt.ylabel('Pre√ßo do Metro Quadrado (R$/m¬≤)', fontsize=12)
    plt.grid(True, alpha=0.3)

    # Formata eixo Y para moeda (R$)
    ax = plt.gca()
    ax.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, loc: "R$ {:,.0f}".format(x)))

    plt.show()

    # 3. Tabela Resumo por D√©cada
    df_safra['decada'] = (df_safra['ano_construcao'] // 10 * 10).astype(int)
    resumo = df_safra.groupby(['decada', 'tipo_imovel'])['preco_m2'].agg(['mean', 'count']).unstack()

    print("\nResumo de Pre√ßo M√©dio (m¬≤) por D√©cada:")
    # Formata√ß√£o condicional para facilitar a leitura
    display(resumo.style
        .format("R$ {:,.2f}", subset=[col for col in resumo.columns if col[0] == 'mean'])
        .format("{:.0f}", subset=[col for col in resumo.columns if col[0] == 'count'])
        .background_gradient(cmap='Reds', axis=None)
    )

# Execu√ß√£o
analisar_safra(df_analise)

In [None]:
# ==============================================================================
# MAPA DE PRE√áOS (DISPERS√ÉO GERAL)
#
# Objetivo: Visualizar a correla√ß√£o entre Tamanho e Pre√ßo Total.
# Permite identificar se o im√≥vel alvo est√° barato ou caro em rela√ß√£o aos vizinhos.
# ==============================================================================

import matplotlib.ticker as ticker

# --- PAR√ÇMETRO: DEFINE A √ÅREA DO SEU IM√ìVEL AQUI ---
SUA_AREA = 58  # Exemplo: 58m¬≤

def plotar_dispersao(df, area_alvo):
    # Filtra para focar no mercado residencial comum (at√© 300m¬≤)
    # Remove outliers extremos para melhorar a visualiza√ß√£o
    df_plot = df[
        (df['tipo_imovel'].isin(['Apartamento', 'Casa'])) &
        (df['valordetransacaodeclaradopelocontribuinte'] > 50000) &
        (df['areaconstruidam2'] < 300)
    ].copy()

    if df_plot.empty:
        print("Dados insuficientes para o gr√°fico de dispers√£o.")
        return

    plt.figure(figsize=(14, 9))

    # Plota os pontos (Transa√ß√µes Reais)
    sns.scatterplot(
        data=df_plot,
        x='areaconstruidam2',
        y='valordetransacaodeclaradopelocontribuinte',
        hue='tipo_imovel',
        style='tipo_imovel',   # Formas diferentes ajudam na leitura
        palette={'Apartamento': '#2b7bba', 'Casa': '#e34a33'},
        s=100,                 # Tamanho do ponto
        alpha=0.7,             # Transpar√™ncia
        edgecolor='k'          # Borda para destaque
    )

    # Linha de Refer√™ncia do SEU IM√ìVEL
    plt.axvline(area_alvo, color='green', linestyle='--', linewidth=2,
                label=f'Sua Refer√™ncia ({area_alvo}m¬≤)')

    # T√≠tulos e Labels
    plt.title(f'Raio-X do Mercado: Onde se encaixa um im√≥vel de {area_alvo}m¬≤?', fontsize=16)
    plt.xlabel('√Årea Constru√≠da (m¬≤)', fontsize=12)
    plt.ylabel('Valor Total da Transa√ß√£o (R$)', fontsize=12)

    # Formata o Eixo Y para dinheiro (R$)
    ax = plt.gca()
    ax.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, pos: 'R$ {:,.0f}'.format(x).replace(',', '.')))

    plt.legend(title='Legenda', fontsize=11)
    plt.grid(True, linestyle='--', alpha=0.4)
    plt.tight_layout()
    plt.show()

# Execu√ß√£o
plotar_dispersao(df_analise, SUA_AREA)

In [None]:
# ==============================================================================
# RANKING TOP 20 RUAS MAIS VALORIZADAS (CORRIGIDO)
#
# O QUE FAZ:
# 1. Agrupa por rua e calcula o pre√ßo m√©dio.
# 2. Filtra ruas com menos de 2 vendas.
# 3. Plota barras coloridas.
# 4. Escreve manualmente o PRE√áO e QUANTIDADE ao lado de cada barra (sem erro).
# ==============================================================================

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

def plotar_ranking_ruas(df_input, tipo_imovel, cor_barra):
    # Filtra pelo tipo de im√≥vel
    df_tipo = df_input[df_input['tipo_imovel'] == tipo_imovel].copy()
    
    # Agrupa e calcula
    stats_rua = df_tipo.groupby('logradouro_norm').agg({
        'preco_m2': 'mean',
        'valordetransacaodeclaradopelocontribuinte': 'count'
    }).rename(columns={'valordetransacaodeclaradopelocontribuinte': 'Qtd'})
    
    # Filtro de Relev√¢ncia (M√≠n 2 vendas)
    stats_rua = stats_rua[stats_rua['Qtd'] >= 2]
    
    # Top 20
    top_20 = stats_rua.sort_values(by='preco_m2', ascending=False).head(20)
    
    if top_20.empty:
        print(f"Dados insuficientes para {tipo_imovel} (m√≠n. 2 vendas por rua).")
        return

    # --- PLOTAGEM ---
    plt.figure(figsize=(14, 10)) # Aumentei a largura para caber o texto
    
    ax = sns.barplot(
        x=top_20['preco_m2'], 
        y=top_20.index, 
        palette=cor_barra,
        hue=top_20.index, 
        legend=False
    )
    
    # Linha de M√©dia
    media_cat = df_tipo['preco_m2'].mean()
    plt.axvline(media_cat, color='red', linestyle='--', linewidth=2, label=f'M√©dia do Bairro: R$ {media_cat:,.0f}')
    
    # T√≠tulos
    plt.title(f'TOP 20 Ruas Mais Valorizadas: {tipo_imovel.upper()} (M√≠n. 2 vendas)', fontsize=16)
    plt.xlabel('Pre√ßo M√©dio do m¬≤ (R$)', fontsize=12)
    plt.ylabel(None)
    plt.legend(loc='lower right')
    plt.grid(axis='x', linestyle='--', alpha=0.3)
    
    # --- ETIQUETAS (CORRE√á√ÉO ROBUSTA) ---
    # Escreve o texto manualmente em cada posi√ß√£o Y
    for i, (rua, row) in enumerate(top_20.iterrows()):
        preco = row['preco_m2']
        qtd = row['Qtd']
        texto = f" R$ {preco:,.0f} ({int(qtd)} un.)"
        
        # ax.text(x, y, texto, alinhamento_vertical)
        ax.text(
            x=preco, 
            y=i, 
            s=texto, 
            va='center', 
            fontweight='bold', 
            fontsize=10,
            color='black'
        )

    plt.tight_layout()
    plt.show()

# --- EXECU√á√ÉO ---

# 1. Ranking de APARTAMENTOS
print(">>> Gerando Ranking de Valoriza√ß√£o: APARTAMENTOS...")
plotar_ranking_ruas(df_analise, 'Apartamento', 'viridis')

# 2. Ranking de CASAS
print("\n>>> Gerando Ranking de Valoriza√ß√£o: CASAS...")
plotar_ranking_ruas(df_analise, 'Casa', 'magma')

In [None]:
# ==============================================================================
# PERFIL FINANCEIRO E JUR√çDICO
#
# Objetivo: Entender como os im√≥veis s√£o pagos (Financiamento vs √Ä Vista)
# e qual a natureza jur√≠dica das transa√ß√µes (Compra e Venda, Doa√ß√£o, etc.)
# ==============================================================================

def analisar_perfil_transacoes(df):
    # Filtra apenas o mercado residencial relevante
    df_plot = df[df['tipo_imovel'].isin(['Apartamento', 'Casa'])].copy()

    if df_plot.empty:
        print("Dados insuficientes para an√°lise financeira.")
        return

    # Tratamento de Nulos: Vazio no financiamento geralmente indica pagamento √† vista
    df_plot['tipodefinanciamento'] = df_plot['tipodefinanciamento'].fillna('√Ä Vista')

    # Configura√ß√£o da Figura (2 gr√°ficos lado a lado ou empilhados)
    fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 14))
    
    # Cores padr√£o
    paleta = {'Apartamento': '#2b7bba', 'Casa': '#e34a33'}

    # --- GR√ÅFICO 1: FORMA DE PAGAMENTO ---
    sns.countplot(
        data=df_plot,
        y='tipodefinanciamento', 
        hue='tipo_imovel',
        palette=paleta,
        ax=ax1,
        order=df_plot['tipodefinanciamento'].value_counts().index 
    )
    ax1.set_title('Como os im√≥veis s√£o pagos? (Perfil Financeiro)', fontsize=14)
    ax1.set_xlabel('Quantidade de Vendas')
    ax1.set_ylabel(None)
    ax1.legend(title='Tipo')
    ax1.grid(axis='x', linestyle='--', alpha=0.3)
    
    # R√≥tulos (N√∫meros nas barras)
    for container in ax1.containers:
        labels = [f'{v:.0f}' if v > 0 else '' for v in container.datavalues]
        ax1.bar_label(container, labels=labels, label_type='center', color='white', fontweight='bold')

    # --- GR√ÅFICO 2: NATUREZA DA TRANSA√á√ÉO ---
    # Filtra as Top 8 naturezas para o gr√°fico n√£o ficar polu√≠do com tipos raros
    top_naturezas = df_plot['naturezadetransacao'].value_counts().head(8).index
    df_natureza = df_plot[df_plot['naturezadetransacao'].isin(top_naturezas)]

    sns.countplot(
        data=df_natureza,
        y='naturezadetransacao',
        hue='tipo_imovel',
        palette=paleta,
        ax=ax2,
        order=top_naturezas
    )
    ax2.set_title('Tipo Jur√≠dico da Transa√ß√£o', fontsize=14)
    ax2.set_xlabel('Quantidade de Vendas')
    ax2.set_ylabel(None)
    ax2.legend(title='Tipo')
    ax2.grid(axis='x', linestyle='--', alpha=0.3)
    
    # R√≥tulos
    for container in ax2.containers:
        labels = [f'{v:.0f}' if v > 0 else '' for v in container.datavalues]
        ax2.bar_label(container, labels=labels, label_type='center', color='white', fontweight='bold')

    plt.tight_layout()
    plt.show()

# Execu√ß√£o
print(">>> Gerando Perfil Financeiro e Jur√≠dico...")
analisar_perfil_transacoes(df_analise)

In [None]:
# ==============================================================================
# MOTOR DE GEOCODIFICA√á√ÉO (CONVERS√ÉO ENDERE√áO -> GPS)
#
# Objetivo: Buscar Latitude e Longitude para cada im√≥vel.
# Estrat√©gia: Tenta endere√ßo exato -> Tenta sem bairro -> Tenta s√≥ rua.
# ==============================================================================

from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
from geopy.exc import GeocoderTimedOut, GeocoderUnavailable
from tqdm.notebook import tqdm
import time
import re

def limpar_para_busca(texto):
    """Prepara o texto para aumentar chances de match no OpenStreetMap"""
    if pd.isna(texto): return ""
    t = str(texto)
    # Expande abrevia√ß√µes comuns
    t = re.sub(r'\bR\b', 'RUA', t, flags=re.IGNORECASE) 
    t = re.sub(r'\bAV\b', 'AVENIDA', t, flags=re.IGNORECASE)
    return t

def buscar_coordenadas_smart(df_input):
    df_geo = df_input.copy()
    
    # Cria colunas auxiliares para busca
    df_geo['logradouro_busca'] = df_geo['nomedologradouro'].apply(limpar_para_busca)
    df_geo['bairro_busca'] = df_geo['bairro'].apply(limpar_para_busca)
    df_geo['numero_busca'] = df_geo['numero'].astype(str)
    
    # Identifica endere√ßos √öNICOS para n√£o buscar o mesmo pr√©dio 50 vezes
    # (Economiza tempo e recursos da API)
    chaves_unicas = df_geo[['logradouro_busca', 'numero_busca', 'bairro_busca']].drop_duplicates()
    
    print(f">>> Total de endere√ßos √∫nicos para buscar: {len(chaves_unicas)}")
    
    # Configura√ß√£o do Geocoder (Nominatim √© gratuito)
    geolocator = Nominatim(user_agent="analise_imob_sp_v2")
    geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1.2) # Delay seguro
    
    cache_coords = {}
    
    # Fun√ß√£o interna de tentativa segura
    def tentar_geo(query):
        try:
            return geocode(query, timeout=10)
        except (GeocoderTimedOut, GeocoderUnavailable):
            time.sleep(2)
            return None
        except Exception:
            return None

    # Loop com Barra de Progresso Visual
    print("Iniciando mapeamento...")
    for _, row in tqdm(chaves_unicas.iterrows(), total=len(chaves_unicas), desc="Mapeando"):
        
        rua = row['logradouro_busca']
        num = row['numero_busca']
        bairro = row['bairro_busca']
        
        chave_cache = f"{rua}_{num}"
        
        # Estrat√©gia 1: Completa (Rua, N√∫mero, Bairro)
        loc = tentar_geo(f"{rua}, {num}, {bairro}, S√ÉO PAULO, BRAZIL")
        
        # Estrat√©gia 2: Sem Bairro (√Äs vezes o bairro oficial difere do mapa)
        if not loc:
            loc = tentar_geo(f"{rua}, {num}, S√ÉO PAULO, BRAZIL")
            
        # Estrat√©gia 3: S√≥ Rua (Aproxima√ß√£o pelo centro da via)
        if not loc:
            loc = tentar_geo(f"{rua}, S√ÉO PAULO, BRAZIL")
            
        # Armazena no cache
        if loc:
            cache_coords[chave_cache] = (loc.latitude, loc.longitude)
        else:
            cache_coords[chave_cache] = (None, None)
            
    # Aplica os resultados no DataFrame original
    print("\n>>> Aplicando coordenadas encontradas...")
    
    def get_lat_lon(row):
        chave = f"{row['logradouro_busca']}_{row['numero_busca']}"
        return cache_coords.get(chave, (None, None))

    coords = df_geo.apply(get_lat_lon, axis=1)
    df_geo['Latitude'] = [x[0] for x in coords]
    df_geo['Longitude'] = [x[1] for x in coords]
    
    # Filtra apenas o que foi encontrado
    df_final = df_geo.dropna(subset=['Latitude', 'Longitude'])
    
    print(f">>> Sucesso! {len(df_final)} im√≥veis mapeados.")
    print(f">>> Perdidos: {len(df_geo) - len(df_final)}")
    
    return df_final

# Executa
df_mapa = buscar_coordenadas_smart(df_analise)

In [None]:
# ==============================================================================
# MAPA INTERATIVO (FOLIUM)
#
# Objetivo: Plotar os im√≥veis no mapa para an√°lise espacial.
# Requisito: Ter executado o bloco anterior (Geocodifica√ß√£o) para gerar 'df_mapa'.
# ==============================================================================

import folium
from folium.plugins import MarkerCluster

def gerar_mapa_vendas(df_geo, df_original):
    # 1. Auditoria de Sucesso
    total = len(df_original)
    encontrados = len(df_geo)
    print(f"=== RELAT√ìRIO DE MAPEAMENTO ===")
    print(f"Im√≥veis com endere√ßo localizado: {encontrados} de {total} ({(encontrados/total):.1%} de sucesso)")
    
    if df_geo.empty:
        print("ERRO: N√£o h√° coordenadas para plotar.")
        return None

    # 2. Configura√ß√£o do Mapa
    # Centraliza na m√©dia das coordenadas encontradas
    centro_lat = df_geo['Latitude'].mean()
    centro_lon = df_geo['Longitude'].mean()
    
    mapa = folium.Map(location=[centro_lat, centro_lon], zoom_start=15, tiles='OpenStreetMap')
    
    # Clusteriza√ß√£o (agrupa pontos pr√≥ximos para n√£o poluir a vis√£o)
    marker_cluster = MarkerCluster().add_to(mapa)
    
    # 3. Adi√ß√£o dos Pontos
    for _, row in df_geo.iterrows():
        
        # Define cor e √≠cone
        tipo = row.get('tipo_imovel', 'Outros')
        if tipo == 'Apartamento':
            cor, icone = 'blue', 'building'
        elif tipo == 'Casa':
            cor, icone = 'red', 'home'
        else:
            cor, icone = 'gray', 'info-sign'
            
        # Informa√ß√µes do Popup (HTML)
        texto_popup = f"""
        <b>{tipo}</b><br>
        Endere√ßo: {row['nomedologradouro']}, {row['numero']}<br>
        √Årea: {row['areaconstruidam2']:.0f} m¬≤<br>
        Valor: R$ {row['valordetransacaodeclaradopelocontribuinte']:,.2f}<br>
        Data: {row['datadetransacao'].strftime('%d/%m/%Y')}
        """
        
        # Tooltip simples (passar o mouse)
        texto_tooltip = f"{tipo} - {row['areaconstruidam2']:.0f}m¬≤ (R$ {row['valordetransacaodeclaradopelocontribuinte']:,.0f})"
        
        folium.Marker(
            location=[row['Latitude'], row['Longitude']],
            popup=folium.Popup(texto_popup, max_width=300),
            tooltip=texto_tooltip,
            icon=folium.Icon(color=cor, icon=icone)
        ).add_to(marker_cluster)
        
    return mapa

# Execu√ß√£o
print(">>> Gerando mapa...")
mapa = gerar_mapa_vendas(df_mapa, df_analise)

# Exibe no notebook
display(mapa)

# Salva em arquivo (opcional)
mapa.save("mapa_imoveis_vila_santa_catarina.html")
print(">>> Arquivo 'mapa_imoveis_vila_santa_catarina.html' salvo com sucesso.")

In [None]:
# ==============================================================================
# EXPORTA√á√ÉO FINAL (ARQUIVO CSV COMPLETO)
#
# Objetivo: Salvar o dataset tratado com todas as colunas originais e enriquecidas.
# - Mant√©m TODAS as colunas (ndocadastrosql, matricula, etc).
# - Integra coordenadas do mapa (se dispon√≠veis).
# - Renomeia apenas as colunas principais para facilitar leitura no Excel.
# ==============================================================================

print(">>> Preparando arquivo final para exporta√ß√£o...")

# 1. Cria√ß√£o de c√≥pia de seguran√ßa para n√£o alterar a an√°lise
df_export = df_analise.copy()

# 2. Integra√ß√£o de Coordenadas (Latitude/Longitude)
# Verifica se o mapeamento foi feito anteriormente
if 'df_mapa' in locals() and not df_mapa.empty:
    print(">>> Integrando coordenadas geogr√°ficas...")
    # Mapeia pelo √≠ndice para garantir a linha exata
    df_export['Latitude'] = df_export.index.map(df_mapa['Latitude'].to_dict())
    df_export['Longitude'] = df_export.index.map(df_mapa['Longitude'].to_dict())
else:
    print(">>> [AVISO] Base de mapa n√£o encontrada. O arquivo seguir√° sem colunas de GPS.")

# 3. Remo√ß√£o de coluna inconsistente (Solicitado)
if 'qtd_vagas' in df_export.columns:
    df_export = df_export.drop(columns=['qtd_vagas'])
    print(">>> Coluna 'qtd_vagas' removida.")

# 4. Ordena√ß√£o Cronol√≥gica (Mais recente primeiro)
if 'datadetransacao' in df_export.columns:
    df_export = df_export.sort_values(by='datadetransacao', ascending=False)

# 5. Renomea√ß√£o Amig√°vel (Apenas colunas chave)
# As colunas que N√ÉO est√£o nesta lista (como 'matriculadoimovel') ser√£o mantidas com o nome original.
mapa_nomes = {
    'datadetransacao': 'Data Venda',
    'tipo_imovel': 'Tipo',
    'nomedologradouro': 'Endere√ßo',
    'numero': 'N√∫mero',
    'complemento_norm': 'Complemento',
    'areaconstruidam2': '√Årea √ötil (m¬≤)',
    'valordetransacaodeclaradopelocontribuinte': 'Valor Venda (Total)',
    'preco_m2': 'Pre√ßo m¬≤',
    'acc_final': 'Ano Constru√ß√£o',
    'status_fusao': 'Status Fus√£o',
    'tipodefinanciamento': 'Financiamento',
    'naturezadetransacao': 'Natureza',
    'bairro': 'Bairro'
}
df_export = df_export.rename(columns=mapa_nomes)

# 6. Salvando o Arquivo
nome_arquivo = 'Relatorio_Final_Mercado_Imobiliario.csv'

df_export.to_csv(
    nome_arquivo, 
    index=False, 
    sep=';',             # Padr√£o Brasileiro/Excel
    decimal=',',         # Decimal brasileiro
    encoding='utf-8-sig' # Garante acentos (√ß, √£, √©) corretos no Windows
)

print(f"\n SUCESSO! Processamento conclu√≠do.")
print(f" Arquivo salvo: {nome_arquivo}")
print(f" Total de registros: {len(df_export)}")
print(f" Total de colunas: {len(df_export.columns)}")