In [1]:
import pandas as pd
import os

# Obtém o diretório atual
diretorio_atual = os.getcwd()

# Lista todos os arquivos que começam com "Pesquisa" no diretório
arquivos_pesquisa = [arquivo for arquivo in os.listdir(diretorio_atual) if arquivo.startswith('Pesquisa')]

# Lê cada arquivo encontrado
dataframes = []
for arquivo in arquivos_pesquisa:
    caminho_completo = os.path.join(diretorio_atual, arquivo)
    try:
        # Tenta ler como Excel primeiro
        df = pd.read_excel(caminho_completo)
        ano = int(arquivo.split('_')[1])
        print(ano)
        df["Ano"] = ano
    except:
        try:
            # Se falhar, tenta ler como CSV
            df = pd.read_csv(caminho_completo)
        except:
            print(f"Não foi possível ler o arquivo {arquivo}")
            continue
    dataframes.append(df)

# Se encontrou algum arquivo
if dataframes:
    # Concatena todos os dataframes em um só
    df_final = pd.concat(dataframes, ignore_index=True)
else:
    print("Nenhum arquivo começando com 'Pesquisa' foi encontrado no diretório")


In [44]:
df_final

Unnamed: 0,RGI,Código no Mapa,Empreendimento,Edifício,Zona de Valor,Endereço,Bairro,Distrito,Região,Cidade,...,Qtd em Estoque,VGV,Modalidade,Banco.1,Condições de pagamento,Responsabilidade do Comprador,Data Pesquisa,Observações,Ano,Unnamed: 74
0,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,7.0,8034336.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,
1,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,5.0,13625424.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,
2,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,2.0,4871568.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,
3,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,0.0,629556.0,Preço Fechado,,,,2023-05-25 00:00:00,,2020,
4,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,0.0,276368.0,Preço Fechado,,,,2023-04-25 00:00:00,,2020,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049829,36388224.0,241886,VIBRA ESTACAO FREGUESIA,,LIMAO,"NOSSA SENHORA DO O, 2070",Vila Palmeiras,FREGUESIA DO O,Norte,São Paulo,...,0.0,724000.0,Preço Fechado,CEF,,,2024-04-26 00:00:00,,2024,0.0
1049830,36388224.0,241887,VIBRA ESTACAO FREGUESIA,,LIMAO,"NOSSA SENHORA DO O, 2070",Vila Palmeiras,FREGUESIA DO O,Norte,São Paulo,...,0.0,1086000.0,Preço Fechado,CEF,,,2024-09-26 00:00:00,,2024,0.0
1049831,19962248.0,248649,LINE BARRA FUNDA - FASE 2,TORRE 3 (2º FASE),BARRA FUNDA,"Rua Inocêncio Tobias, 136",Parque Industrial Tomas Edson,BARRA FUNDA,Oeste,São Paulo,...,2.0,1943950.0,Preço Fechado,,,,2024-09-13 00:00:00,TOTAL DE 3 TORRES,2024,0.0
1049832,19962248.0,248650,LINE BARRA FUNDA - FASE 2,TORRE 3 (2º FASE),BARRA FUNDA,"Rua Inocêncio Tobias, 136",Parque Industrial Tomas Edson,BARRA FUNDA,Oeste,São Paulo,...,4.0,1958950.0,Preço Fechado,,,,2024-09-13 00:00:00,TOTAL DE 3 TORRES,2024,0.0


In [45]:
coordenadas = pd.read_excel('CoordenadasLookup.xlsx')

# add coordenadas matching RGI

df_final = df_final.merge(coordenadas, on='RGI', how='left')
# drop unnamed74
df_final = df_final.drop(columns=['Unnamed: 74'])
# change Status to capitalized
df_final['Status'] = df_final['Status'].str.capitalize()

df_final


Unnamed: 0,RGI,Código no Mapa,Empreendimento,Edifício,Zona de Valor,Endereço,Bairro,Distrito,Região,Cidade,...,VGV,Modalidade,Banco.1,Condições de pagamento,Responsabilidade do Comprador,Data Pesquisa,Observações,Ano,Latitude,Longitude
0,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,8034336.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,-23.526189,-46.489481
1,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,13625424.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,-23.526189,-46.489481
2,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,4871568.0,Preço Fechado,,,,2023-06-05 00:00:00,,2020,-23.526189,-46.489481
3,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,629556.0,Preço Fechado,,,,2023-05-25 00:00:00,,2020,-23.526189,-46.489481
4,35531621.0,1.0,3 COELHOS,,PONTE RASA,"ARICA-MIRIM, 449",BURGO PAULISTA,PONTE RASA,LESTE,SAO PAULO,...,276368.0,Preço Fechado,,,,2023-04-25 00:00:00,,2020,-23.526189,-46.489481
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049854,36388224.0,241886,VIBRA ESTACAO FREGUESIA,,LIMAO,"NOSSA SENHORA DO O, 2070",Vila Palmeiras,FREGUESIA DO O,Norte,São Paulo,...,724000.0,Preço Fechado,CEF,,,2024-04-26 00:00:00,,2024,,
1049855,36388224.0,241887,VIBRA ESTACAO FREGUESIA,,LIMAO,"NOSSA SENHORA DO O, 2070",Vila Palmeiras,FREGUESIA DO O,Norte,São Paulo,...,1086000.0,Preço Fechado,CEF,,,2024-09-26 00:00:00,,2024,,
1049856,19962248.0,248649,LINE BARRA FUNDA - FASE 2,TORRE 3 (2º FASE),BARRA FUNDA,"Rua Inocêncio Tobias, 136",Parque Industrial Tomas Edson,BARRA FUNDA,Oeste,São Paulo,...,1943950.0,Preço Fechado,,,,2024-09-13 00:00:00,TOTAL DE 3 TORRES,2024,,
1049857,19962248.0,248650,LINE BARRA FUNDA - FASE 2,TORRE 3 (2º FASE),BARRA FUNDA,"Rua Inocêncio Tobias, 136",Parque Industrial Tomas Edson,BARRA FUNDA,Oeste,São Paulo,...,1958950.0,Preço Fechado,,,,2024-09-13 00:00:00,TOTAL DE 3 TORRES,2024,,


In [46]:
colunas = df_final.columns
colunas


Index(['RGI', 'Código no Mapa', 'Empreendimento', 'Edifício', 'Zona de Valor',
       'Endereço', 'Bairro', 'Distrito', 'Região', 'Cidade', 'UF', 'CEP',
       'Zoneamento', 'Setor', 'Quadra', 'Data Lançamento', 'Data Entrega',
       'Data Ocupação', 'Data Projeto Aprovado', 'Tipologia',
       'Classificação do tipo', 'Padrão', 'Status', 'Área Terreno',
       'Área Total Construída', 'Torres', 'Nº de Elevadores',
       'Registro de Incorporação', 'Infraestrutura',
       'Grupo Incorporador Apelido', 'Grupo Incorporador', 'Incorporadora 1',
       'Incorporadora 2', 'Incorporadora 3', 'Incorporadora 4',
       'Construtora 1', 'Construtora 2', 'Vendedora 1', 'Vendedora 2',
       'Vendedora 3', 'Vendedora 4', 'Banco', 'Unidade', 'Dormitórios',
       'Suítes', 'Banheiros', 'Nº Vagas', 'Área Privativa', 'Área Total',
       'Nº Total de Unidades', 'Nº Unidades por Pavimento', 'Nº de Pavimentos',
       'Valor do Dolar no lançamento',
       '(VMU)Preço de venda da unidade no lançame

In [48]:
colunas_necessarias = [
    # Identificação
    "RGI",
    "Empreendimento",
    "Endereço",
    
    # Localização
    "Latitude",
    "Longitude",
    "Endereço",
    "Bairro",
    "Distrito",
    
    # Informações do Empreendimento
    "Status",
    "Torres",
    "Infraestrutura",
    "Grupo Incorporador Apelido",
    "Data Lançamento",
    
    # Métricas Importantes
    "Nº Total de Unidades",
    "Unidades Vendidas",
    "Qtd em Estoque",
    "(VMU)Preço de venda da unidade atualizado CUB",
    "(VUV)Preço m2 privativo atualizado CUB",
    "Dormitórios",
    "Unidade",
    "Área Total",
    "Nº Vagas",
    
    # Temporal
    "Ano"
]

df_final = df_final[colunas_necessarias]


In [49]:
coordenadas

Unnamed: 0,RGI,Latitude,Longitude
0,31678723,-23.576186,-46.638664
1,31634723,-22.966950,-47.137136
2,31377623,-23.542492,-46.355553
3,31968823,-23.603768,-46.665856
4,35948616,-23.604031,-46.558592
...,...,...,...
2237,348521223,-23.589431,-46.732924
2238,39330624,-23.592982,-46.730459
2239,39563724,-23.543159,-46.542650
2240,39430724,-23.527751,-46.528282


In [50]:
df_final.to_csv('mercado_imobiliario.csv', index=False)

In [51]:
coordenadas.to_csv('coordenadas_lookup.csv', index=False)