## Extract

Nesta parte do projeto, nosso objetivo é criar um modelo de dados robusto para fundos imobiliários (FIIs), utilizando a API **Found Explorer** e uma ferramenta adicional que permite acessar históricos de sites em anos anteriores. A seguir, detalhamos os principais passos e ferramentas que serão utilizadas no desenvolvimento desse modelo.

## 1. API **Found Explorer**

A API **Found Explorer** é uma ferramenta bem estabelecida no mercado, conhecida por oferecer dados detalhados e essenciais sobre FIIs. Ela disponibiliza uma série de informações relevantes, como:

- **Dados financeiros mensais**: Incluindo dividendos distribuídos, preço das cotas, valor patrimonial, e indicadores de rentabilidade.
- **Composição dos imóveis**: Listagem dos imóveis que fazem parte de cada FII, com detalhes como localização, área, tipo de imóvel (comercial, residencial, industrial), entre outros.
- **Histórico de performances**: Dados históricos que ajudam a entender a performance de cada FII ao longo do tempo.
- **Vacância e ocupação**: Percentual de vacância e ocupação dos imóveis ao longo do tempo, essencial para avaliar a saúde financeira do FII.

Essas variáveis são fundamentais para modelar e prever o comportamento dos FIIs em diferentes cenários econômicos.

## 2. Extração de Dados Históricos (2016-2024)

Para obter dados no período de 2016 até 2024, utilizaremos uma ferramenta que permite acessar versões antigas de sites, semelhante ao Web Archive. Esta ferramenta nos permitirá:

- **Acessar e extrair dados históricos**: Retornar dados que estavam disponíveis no **Found Explorer** entre 2016 e 2024.
- **Automação de consultas**: Implementaremos uma automação que permitirá selecionar o ano desejado (2016-2024) e retornar os dados correspondentes para cada FII de maneira eficiente.

## 3. Integração e Análise Imobiliária

Após coletar os dados de FIIs, nosso próximo passo é aprofundar a análise, identificando e avaliando os imóveis que compõem cada fundo:

- **Identificação dos Imóveis por Ano**: Para cada FII e em cada ano (2016, 2017, 2018, etc.), identificaremos quais imóveis faziam parte do portfólio do fundo naquele período.
- **Avaliação dos Imóveis**: Utilizando a **Google API**, realizaremos consultas para obter a avaliação de cada imóvel em cada ano específico. Por exemplo, para o imóvel "Shopping Interlagos" em 2016, obteremos sua avaliação e repetiremos o processo para 2017, 2018, e assim por diante.

## 4. API's a mais pessoal? Colocar aqui e sua descrição

- **Anbima API**: api referenciada: https://developers.anbima.com.br/pt/documentacao/fundos/apis-de-fundos/fundos-icvm-555/#lista-completa-de-fundos



### Importação das bibliotecas necessárias

In [3]:
import requests
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import date, datetime
import html5lib
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import pandas as pd
from bs4 import BeautifulSoup
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException
import json
import ast
api_key = 'AIzaSyDPTVrNGr6Jzb4bj6XrHX_oCKCl6FpHkIU'

### Funções do Projeto

In [16]:
def get_ativos_from_fundo(fundo_name):
    driver = None
    try:
        # Inicializa o driver do Chrome
        driver = webdriver.Chrome()
        
        # Construa a URL com base no nome do fundo
        url = f'https://investidor10.com.br/fiis/{fundo_name.lower()}/'
        
        # Acessa a URL
        driver.get(url)

        # Aguarda até que a seção com o conteúdo esteja presente no DOM
        try: 
            WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, 'properties-section'))
            )
        except (TimeoutException, NoSuchElementException, WebDriverException) as e:
            # Trata erros específicos do Selenium e retorna uma lista vazia
            return []

        # Modifica a classe da div para expandir o conteúdo
        script = """
        var readMoreDiv = document.getElementById('container-properties');
        if (readMoreDiv) {
            readMoreDiv.classList.remove('collapsed');
            readMoreDiv.classList.add('expanded');
        }
        """
        driver.execute_script(script)

        # Aguarda até que os elementos com as informações desejadas estejam visíveis
        elements = WebDriverWait(driver, 10).until(
            EC.visibility_of_all_elements_located((By.CSS_SELECTOR, 'div.card-propertie h3'))
        )

        # Extrai e retorna os nomes dos ativos em uma lista
        ativos = [element.text for element in elements]
        return ativos

    except (TimeoutException, NoSuchElementException, WebDriverException) as e:
        # Trata erros específicos do Selenium e retorna uma lista vazia
        return []
    except Exception as e:
        # Trata qualquer outro erro inesperado
        return []
    finally:
        # Garante que o driver seja encerrado, se foi iniciado
        if driver:
            driver.quit()

In [17]:
# Função para converter string de listas para listas reais
def converter_para_lista(ativos):
    # Se já for uma lista, retorna como está; caso contrário, converte string para lista
    if isinstance(ativos, str):
        return ast.literal_eval(ativos)  # Converte string de lista para lista real
    return ativos

In [34]:
# Função para calcular a média de Ratings
def calcular_media_ra(ratings):
    # Converte a string da lista em uma lista real
    ratings = ast.literal_eval(ratings)
    
    # Se a lista estiver vazia, retorna 0
    if not ratings:
        return 0
    
    # Converte valores e trata 'None' como 0
    ratings_convertidos = []
    for valor in ratings:
        if valor is None:
            ratings_convertidos.append(0)
        else:
            ratings_convertidos.append(float(valor))
    
    # Calcula e retorna a média
    if ratings_convertidos:
        return sum(ratings_convertidos) / len(ratings_convertidos)
    return 0

In [19]:

def get_place_details(api_key, place_name):
    # URL para buscar o place_id do lugar
    place_search_url = f"https://maps.googleapis.com/maps/api/place/findplacefromtext/json?input={place_name}&inputtype=textquery&fields=place_id&key={api_key}"
    
    try:
        response = requests.get(place_search_url)
        response.raise_for_status()  # Levanta uma exceção para códigos de status HTTP 4xx/5xx
    except requests.exceptions.RequestException as e:
        print(f"Erro na chamada para findplacefromtext: {e}")
        return None
    
    search_results = response.json().get('candidates')
    
    if not search_results:
        print(f"Nenhum candidato encontrado para o lugar: {place_name}")
        return None

    place_id = search_results[0].get('place_id')
    
    if not place_id:
        print(f"place_id não encontrado para o lugar: {place_name}")
        return None

    # URL para buscar os detalhes do lugar usando o place_id
    place_details_url = f"https://maps.googleapis.com/maps/api/place/details/json?place_id={place_id}&fields=rating,formatted_address,geometry&key={api_key}"
    
    try:
        response = requests.get(place_details_url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Erro na chamada para details: {e}")
        return None
    
    place_details = response.json().get('result')
    
    if not place_details:
        print(f"Detalhes não encontrados para o place_id: {place_id}")
        return None
    
    return place_details

In [20]:
# Função para extrair CEPs e ratings
def extrair_cep_rating(info_imovel):
    if info_imovel is None:
        return [], []  # Retorna listas vazias se o valor for None
    
    # Verifica se info_imovel é uma string, então faz a conversão
    if isinstance(info_imovel, str):
        imoveis = json.loads(info_imovel.replace("'", '"'))
    else:
        imoveis = info_imovel  # Assume que já é uma lista de dicionários
    
    # Inicializa listas para armazenar os CEPs e ratings
    ceps = []
    ratings = []
    
    for imovel in imoveis:
        if imovel is not None:
            # Extrai o CEP e o rating
            formatted_address = imovel.get('formatted_address', '')
            cep = formatted_address.split(',')[-2].strip().split(' ')[-1]
            rating = imovel.get('rating', None)
            
            # Adiciona à lista
            ceps.append(cep)
            ratings.append(rating)
    
    return ceps, ratings

In [21]:
# Função para obter informações sobre o CEP usando a API BrasilAPI
def get_cep_info(cep):
    # URL da API BrasilAPI para obter informações sobre o CEP
    brasilapi_url = f"https://brasilapi.com.br/api/cep/v1/{cep}"
    
    try:
        # Fazendo a solicitação para obter os detalhes do CEP
        response = requests.get(brasilapi_url)
        # Verificando se a resposta foi bem-sucedida
        if response.status_code == 200:
            data = response.json()
            # Retorna 'state' como estado e 'neighborhood' como localidade
            return {
                'estado': data.get('state'),
                'localidade': data.get('neighborhood')
            }
        else:
            return {'estado': None, 'localidade': None}
    except Exception as e:
        print(f"Erro ao buscar CEP {cep}: {e}")
        return {'estado': None, 'localidade': None}

# Função para obter estado e localidade para uma lista de CEPs
def get_state_and_locality(ceps):
    result = []
    for cep in ceps:
        # Remover hífen do CEP
        cep = cep.replace('-', '')
        # Obter informações do CEP
        info = get_cep_info(cep)
        result.append(info if info else {'estado': None, 'localidade': None})
    return result

In [22]:

# Função para obter informações sobre o CEP usando a API BrasilAPI
def get_cep_info(cep):
    brasilapi_url = f"https://brasilapi.com.br/api/cep/v1/{cep}"
    
    try:
        response = requests.get(brasilapi_url)
        
        if response.status_code == 200:
            data = response.json()
            
            return {
                'estado': data.get('state'),
                'localidade': data.get('neighborhood')
            }
        else:
            return {'estado': None, 'localidade': None}
    except Exception as e:
        return {'estado': None, 'localidade': None}

# Função para obter estado e localidade para uma lista de CEPs
def get_state_and_locality(ceps):
    result = []
    for cep in ceps:
        
        cep = cep.replace('-', '')
        info = get_cep_info(cep)
        if info:
            print("teste")
        else:
            print(f"Nenhuma informação encontrada para o CEP {cep}")  # Mensagem de depuração
        result.append(info if info else {'estado': None, 'localidade': None})
    return result

In [23]:
# Função para calcular a média de taxa_homicidios
def calcular_media(taxa_homicidios):
    # Converte a string da lista em uma lista real
    taxa_homicidios = ast.literal_eval(taxa_homicidios)
    
    # Se a lista estiver vazia, retorna 0
    if not taxa_homicidios:
        return 0
    
    # Converte valores para float e trata 'None' como 0
    taxas_convertidas = []
    for valor in taxa_homicidios:
        if valor is None:
            taxas_convertidas.append(0)
        else:
            # Substitui a vírgula por ponto e converte para float
            taxas_convertidas.append(float(valor.replace(',', '.')))
    
    # Calcula e retorna a média
    if taxas_convertidas:
        return sum(taxas_convertidas) / len(taxas_convertidas)
    return 0

In [24]:
def get_homicide_rate(estado_localidade_list, df_taxes):
    # Lista para armazenar as taxas encontradas
    taxas_encontradas = []
    
    # Iterar sobre cada dicionário de estado/localidade
    for entry in estado_localidade_list:
        estado = entry.get('estado')
        localidade = entry.get('localidade')
        
        # Verificar se localidade é uma string antes de usar str.contains()
        if isinstance(localidade, str):
            # Verificar se existe correspondência exata no DataFrame de homicídios
            taxa_encontrada = df_taxes.loc[
                (df_taxes['UF'] == estado) & (df_taxes['Município'].str.contains(localidade, case=False, na=False, regex=False)),
                'Taxa de Homicídios'
            ]
        else:
            taxa_encontrada = pd.Series()
        
        # Se encontrar uma correspondência exata
        if not taxa_encontrada.empty:
            taxas_encontradas.append(taxa_encontrada.iloc[0])
        else:
            # Caso não encontre a localidade, pegar a primeira taxa do estado
            taxa_estado = df_taxes.loc[df_taxes['UF'] == estado, 'Taxa de Homicídios']
            if not taxa_estado.empty:
                taxas_encontradas.append(taxa_estado.iloc[0])
            else:
                # Caso não encontre nem o estado, adicionar None ou uma taxa padrão
                taxas_encontradas.append(None)
    
    return taxas_encontradas

In [25]:
def calculate_average_rating(ativos):
    if not ativos:  # Se a lista de ativos estiver vazia, retorna None
        return None
    ratings = [get_place_details(api_key, ativo) for ativo in ativos]
    ratings = [r for r in ratings if r is not None]  # Filtra None
    return sum(ratings) / len(ratings) if ratings else None

In [26]:
def process_taxa_homicidios(row):
    # Converter a string da coluna taxa_homicidios para uma lista
    taxa_homicidios = ast.literal_eval(row['taxa_homicidios'])
    
    # Substituir None por 0 e converter a lista para floats
    taxa_homicidios = [0 if v is None else float(v) for v in taxa_homicidios]
    
    # Calcular a média das taxas
    if taxa_homicidios:
        media_taxa = sum(taxa_homicidios) / len(taxa_homicidios)
    else:
        media_taxa = 0  # Para listas vazias
    
    return media_taxa

In [27]:
# Função para obter as informações de cada imóvel da lista
def get_imovel_informacoes(api_key, imoveis):
    if not imoveis or imoveis == '[]':  # Se a lista de imóveis estiver vazia, retorna None
        return None
    
    informacoes_list = []
    total_imoveis = len(imoveis)
    
    for i, imovel in enumerate(imoveis, start=1):
        print(f"Processando imóvel {i} de {total_imoveis}: {imovel}")
        
        # Obtenção das informações do imóvel
        informacoes = get_place_details(api_key, imovel)
        
        # Verificação adicional para identificar se houve algum problema
        if informacoes is None:
            print(f"Não foram encontradas informações para o imóvel: {imovel}")
        else:
            print(f"Informações encontradas para o imóvel {i} de {total_imoveis}: {informacoes}")
        
        informacoes_list.append(informacoes)
    
    return informacoes_list

### Pegando informações de Taxa de Perigosidade Estado/Municipio no Brasil

In [5]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import csv

# Configuração do driver do Chrome
chrome_options = Options()
chrome_options.add_argument("--headless")  # Para rodar em modo headless (sem abrir a janela do navegador)
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

# Acesse a página
driver.get('https://infograficos.gazetadopovo.com.br/seguranca-publica/atlas-da-violencia-2019-por-municipios/')  # Substituir pela URL real

# Lista para armazenar os dados extraídos
tabela_dados = []

# Encontrar todas as linhas da tabela (cada linha <tr>)
linhas = driver.find_elements(By.CSS_SELECTOR, "tbody > tr")

# Percorra cada linha da tabela
for linha in linhas:
    # Pegue os dados de cada coluna
    uf = linha.find_element(By.CSS_SELECTOR, 'td.uf').text
    municipio = linha.find_element(By.CSS_SELECTOR, 'td.municipio').text
    taxa = linha.find_element(By.CSS_SELECTOR, 'td.taxa-estimada-de-homicidios').text
    # Adicione os dados capturados à lista
    tabela_dados.append([uf, municipio, taxa])

# Feche o navegador
driver.quit()

# Nome do arquivo CSV
arquivo_csv = 'dados_tabela_taxa.csv'

# Escreva os dados capturados no arquivo CSV
with open(arquivo_csv, mode='w', newline='', encoding='utf-8') as arquivo:
    escritor_csv = csv.writer(arquivo)
    # Escreva o cabeçalho
    escritor_csv.writerow(['UF', 'Município', 'Taxa de Homicídios'])
    # Escreva os dados da tabela
    escritor_csv.writerows(tabela_dados)

print(f'Dados salvos no arquivo {arquivo_csv}')


Dados salvos no arquivo dados_tabela_taxa.csv


### Pegando Fundos dentro do Founds Explorer sabendo que a página de 2024 é gerada via JavaScript

In [None]:
# Configurações do Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Executa em modo headless
driver = webdriver.Chrome(options=chrome_options)

# URL da página com a tabela
url = 'https://www.fundsexplorer.com.br/ranking'
driver.get(url)

# Aguarda a tabela ser carregada (ajuste o tempo conforme necessário)
driver.implicitly_wait(10)

# Obtém o HTML da página
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Encontra a tabela com base na classe fornecida
table = soup.find('table', {'class': 'default-fiis-table__container__table'}) ## cuidado dentro desta classe que pode mudar para cada situação 
rows = table.find('tbody').find_all('tr')

# Lista para armazenar os dados extraídos
data = []

# Itera sobre as linhas da tabela
for row in rows:
    cells = row.find_all('td')
    row_data = {
        'Título': cells[0].get_text(strip=True),
        'Setor': cells[1].get_text(strip=True),
        'Valor': cells[2].get_text(strip=True),
        'Liquidez Média Diária': cells[3].get_text(strip=True),
        'PVP': cells[4].get_text(strip=True),
        'Dividendo': cells[5].get_text(strip=True),
        'Yeld': cells[6].get_text(strip=True),
        'Soma Yield 3M': cells[7].get_text(strip=True),
        'Soma Yield 6M': cells[8].get_text(strip=True),
        'Soma Yield 12M': cells[9].get_text(strip=True),
        'Média Yield 3M': cells[10].get_text(strip=True),
        'Média Yield 6M': cells[11].get_text(strip=True),
        'Média Yield 12M': cells[12].get_text(strip=True),
        'Soma Yield Ano Corrente': cells[13].get_text(strip=True),
        'Variação Cotação Mês': cells[14].get_text(strip=True),
        'Rentabilidade Mês': cells[15].get_text(strip=True),
        'Rentabilidade': cells[16].get_text(strip=True),
        'Patrimônio': cells[17].get_text(strip=True),
        'VPA': cells[18].get_text(strip=True),
        'P/VPA': cells[19].get_text(strip=True),
        'VPA Yield': cells[20].get_text(strip=True),
        'VPA Change': cells[21].get_text(strip=True),
        'VPA Rent M': cells[22].get_text(strip=True),
        'VPA Rent': cells[23].get_text(strip=True),
        'Ativos': cells[24].get_text(strip=True),
        'Volatility': cells[25].get_text(strip=True),
        'Número Cotista': cells[26].get_text(strip=True),
        'Tx Gestão': cells[27].get_text(strip=True),
        'Tx Admin': cells[28].get_text(strip=True),
        'Tx Performance': cells[29].get_text(strip=True),
        'dt_inclusao': datetime(2024, datetime.now().month, 1).strftime('%Y-%m-%d')  # Data de inclusão
    }
    data.append(row_data)

# Cria o DataFrame com os dados
df = pd.DataFrame(data)
df.to_csv('fundos_explorer.csv')

### Chamando a função que pega Imóvel de Cada Fundo e adicionando valores dentro de um Data Frame do Pandas ... Depois extraindo para o CSV

In [None]:
# web scrapping QUE DEMORA BASTANTE
results = []

# Itera sobre os títulos do DataFrame
for titulo in df['Título']:
    ativos = get_ativos_from_fundo(titulo)
    results.append({'Título': titulo, 'Ativos': ativos})

# Cria um DataFrame a partir da lista de resultados
df_results = pd.DataFrame(results)

# Exporta para CSV
df_results.to_csv('resultados.csv', index=False)

### Realizando a captura de informações adicionais para cada imóvel
Ranking e Registros de CEP

In [15]:
df_imported = pd.read_csv('resultados.csv')

In [None]:
# Corrige a leitura da coluna 'Ativos' para listas reais (caso tenha sido lido como string)
df_imported['Ativos'] = df_imported['Ativos'].apply(lambda x: eval(x) if isinstance(x, str) and x.startswith('[') else x)

# Cria uma nova coluna 'informações_imovel' aplicando a função get_imovel_informacoes
df_imported['informações_imovel'] = df_imported['Ativos'].apply(lambda x: get_imovel_informacoes(api_key, x))

Processando imóvel 1 de 2: SHOPPING GRAND PLAZA
Informações encontradas para o imóvel 1 de 2: {'formatted_address': 'Av. Industrial, 600 - Centro, Santo André - SP, 09080-510, Brazil', 'geometry': {'location': {'lat': -23.6487368, 'lng': -46.5320388}, 'viewport': {'northeast': {'lat': -23.64427855000001, 'lng': -46.526875}, 'southwest': {'lat': -23.65393155, 'lng': -46.5372242}}}, 'rating': 4.5}
Processando imóvel 2 de 2: PRÉDIO COMERCIAL
Informações encontradas para o imóvel 2 de 2: {'formatted_address': 'Rua Giovanni Battista Pirelli, 271 - Vila Homero Thon, Santo André - SP, 09111-340, Brazil', 'geometry': {'location': {'lat': -23.6636831, 'lng': -46.5070473}, 'viewport': {'northeast': {'lat': -23.6625681197085, 'lng': -46.50550791970851}, 'southwest': {'lat': -23.6652660802915, 'lng': -46.50820588029151}}}, 'rating': 4.6}
Processando imóvel 1 de 2: STANDARD BUILDING
Informações encontradas para o imóvel 1 de 2: {'formatted_address': 'Av. Pres. Wilson, 118 - Centro, Rio de Janeiro -

In [None]:
# Exibe o DataFrame resultante
print(df_imported)

# Exporta para CSV
df_imported.to_csv('resultados_com_informacoes.csv', index=False)

### Capturando o registro de CEP (Estado_Localidade - Futuro uso em Perigosidade_Media), calculando quantidade de imóveis e RATING(média) de cada imóvel do FII 

In [14]:
# Ao ler o CSV, force as colunas problemáticas a serem lidas como strings
df_info = pd.read_csv('resultados_com_informacoes.csv', dtype={'informações_imovel': str, 'Ativos': str})
# Converter a coluna 'informações_imovel' de string para uma lista de dicionários
df_info['informações_imovel'] = df_info['informações_imovel'].apply(lambda x: ast.literal_eval(x) if pd.notnull(x) else x)
df_info['informações_imovel'] = df_info['informações_imovel'].apply(lambda x: [] if isinstance(x, float) and pd.isnull(x) else x)

In [15]:
# Aplica a função para criar as novas colunas
df_info[['CEPs', 'Ratings']] = df_info['informações_imovel'].apply(lambda x: pd.Series(extrair_cep_rating(x)))
df_imported = df_info.drop(columns=['informações_imovel'])
# retirando o hifen do CEP
df_imported['CEPs'] = df_imported['CEPs'].apply(lambda lista: [cep.replace('-', '') for cep in lista])

In [None]:
# Aplicar a função get_state_and_locality na coluna 'CEPs'
df_imported['estado_localidade'] = df_imported['CEPs'].apply(get_state_and_locality)

In [17]:
df_taxes = pd.read_csv('dados_tabela_taxa.csv')

In [18]:
# Supondo que df_taxes já está carregado corretamente
# Aplicar a função no DataFrame df_imported
df_imported['taxa_homicidios'] = df_imported['estado_localidade'].apply(lambda x: get_homicide_rate(x, df_taxes))

In [None]:
df_imported.to_csv('taxas_para_media.csv')

In [5]:
df_imported = pd.read_csv('taxas_para_media.csv')

In [10]:
# Cria a nova coluna com a média das taxas
df_imported['media_taxa_homicidios'] = df_imported['taxa_homicidios'].apply(calcular_media)

In [31]:
# Cria a nova coluna com a média dos ratings
df_imported['avaliacao_media_ativos_fundo'] = df_imported['Ratings'].apply(calcular_media_ra)

In [35]:
# Convertendo a coluna 'Ativos' de string para lista
df_imported['Ativos'] = df_imported['Ativos'].apply(converter_para_lista)

# Contando o número de imóveis na coluna 'Ativos'
df_imported['Quantidade_Imoveis'] = df_imported['Ativos'].apply(len)

In [43]:
Base_de_Dados_Final = df_imported.drop(columns=['estado_localidade','CEPs','taxa_homicidios','Ativos','Ratings'])

### Realizando o JOIN final - Informações Founds Explorer + Media_Homicidio_Cep + Media GOOGLE API (Avaliações)

In [38]:
df = pd.read_csv('fundos_explorer.csv')

In [40]:
df = df.dropna(axis=1, how='all') # removendo todas as colunas que só tem nulos

In [46]:
# Realiza o join entre os dois DataFrames usando a coluna 'Título'
AlgoraQuantix = pd.merge(Base_de_Dados_Final, df, on='Título', how='left') # 'NaN - Coloque 0 para estes registros'

In [48]:
AlgoraQuantix = AlgoraQuantix.drop(columns=['Unnamed: 0_x','Unnamed: 0_y'])

In [52]:
AlgoraQuantix.to_csv('Algora_Final_Pronta_Para_Analises_2024_09.csv')

In [53]:
AlgoraQuantix

Unnamed: 0,Título,media_taxa_homicidios,avaliacao_media_ativos_fundo,Quantidade_Imoveis,Setor,Valor,Liquidez Média Diária,PVP,Dividendo,Yeld,...,VPA,P/VPA,VPA Yield,VPA Change,VPA Rent M,VPA Rent,Ativos,Volatility,Número Cotista,dt_inclusao
0,AAGR11,0.000,0.0000,0,Indefinido,9786,"3.409,33",,117,"1,19 %",...,,,,,,,0,7120,0,2024-09-01
1,AAZQ11,0.000,0.0000,0,Indefinido,794,"393.550,55",092,010,"1,19 %",...,869,091,"1,27 %","0,00 %","0,00 %","0,00 %",0,1735,29.430,2024-09-01
2,ABCP11,36.100,4.3500,2,Shoppings,7228,"33.658,97",070,062,"0,85 %",...,10192,071,"0,34 %","11,00 %","11,38 %","19,31 %",1,1564,15.924,2024-09-01
3,AFHI11,0.000,0.0000,0,Papéis,9726,"600.223,74",101,095,"0,99 %",...,9631,101,"0,99 %","1,41 %","2,41 %","8,83 %",0,634,40.791,2024-09-01
4,AGRX11,0.000,0.0000,0,Outros,1010,"392.675,02",,013,"1,34 %",...,,,,,,,0,1577,0,2024-09-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
485,YUFI11B,0.000,0.0000,0,Indefinido,,,,063,"0,00 %",...,10553,,"0,60 %","-0,01 %","0,59 %","6,32 %",0,,0,2024-09-01
486,ZAGH11,0.000,0.0000,0,Serviços Financeiros Diversos,1198,45496,123,005,"0,42 %",...,,,,,,,0,2784,240,2024-09-01
487,ZAVC11,0.000,0.0000,0,Indefinido,1008,8993,101,012,"1,19 %",...,,,,,,,0,2186,122,2024-09-01
488,ZAVI11,27.075,3.1875,9,Indefinido,10805,"181.335,63",088,115,"0,96 %",...,,,,,,,10,3537,4.300,2024-09-01
