## Extract

Nesta parte do projeto, nosso objetivo é criar um modelo de dados robusto para fundos imobiliários (FIIs), utilizando a API **Found Explorer** e uma ferramenta adicional que permite acessar históricos de sites em anos anteriores. A seguir, detalhamos os principais passos e ferramentas que serão utilizadas no desenvolvimento desse modelo.

## 1. API **Found Explorer**

A API **Found Explorer** é uma ferramenta bem estabelecida no mercado, conhecida por oferecer dados detalhados e essenciais sobre FIIs. Ela disponibiliza uma série de informações relevantes, como:

- **Dados financeiros mensais**: Incluindo dividendos distribuídos, preço das cotas, valor patrimonial, e indicadores de rentabilidade.
- **Composição dos imóveis**: Listagem dos imóveis que fazem parte de cada FII, com detalhes como localização, área, tipo de imóvel (comercial, residencial, industrial), entre outros.
- **Histórico de performances**: Dados históricos que ajudam a entender a performance de cada FII ao longo do tempo.
- **Vacância e ocupação**: Percentual de vacância e ocupação dos imóveis ao longo do tempo, essencial para avaliar a saúde financeira do FII.

Essas variáveis são fundamentais para modelar e prever o comportamento dos FIIs em diferentes cenários econômicos.

## 2. Extração de Dados Históricos (2016-2024)

Para obter dados no período de 2016 até 2024, utilizaremos uma ferramenta que permite acessar versões antigas de sites, semelhante ao Web Archive. Esta ferramenta nos permitirá:

- **Acessar e extrair dados históricos**: Retornar dados que estavam disponíveis no **Found Explorer** entre 2016 e 2024.
- **Automação de consultas**: Implementaremos uma automação que permitirá selecionar o ano desejado (2016-2024) e retornar os dados correspondentes para cada FII de maneira eficiente.

## 3. Integração e Análise Imobiliária

Após coletar os dados de FIIs, nosso próximo passo é aprofundar a análise, identificando e avaliando os imóveis que compõem cada fundo:

- **Identificação dos Imóveis por Ano**: Para cada FII e em cada ano (2016, 2017, 2018, etc.), identificaremos quais imóveis faziam parte do portfólio do fundo naquele período.
- **Avaliação dos Imóveis**: Utilizando a **Google API**, realizaremos consultas para obter a avaliação de cada imóvel em cada ano específico. Por exemplo, para o imóvel "Shopping Interlagos" em 2016, obteremos sua avaliação e repetiremos o processo para 2017, 2018, e assim por diante.

## 4. API's a mais pessoal? Colocar aqui e sua descrição

- **Anbima API**: api referenciada: https://developers.anbima.com.br/pt/documentacao/fundos/apis-de-fundos/fundos-icvm-555/#lista-completa-de-fundos



### Importação das bibliotecas necessárias

In [37]:
import requests
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import date, datetime
import html5lib
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import pandas as pd
from bs4 import BeautifulSoup
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException
import json

### Função de Captura de informações para cada Imóvel

In [29]:

def get_place_details(api_key, place_name):
    # URL para buscar o place_id do lugar
    place_search_url = f"https://maps.googleapis.com/maps/api/place/findplacefromtext/json?input={place_name}&inputtype=textquery&fields=place_id&key={api_key}"
    
    try:
        response = requests.get(place_search_url)
        response.raise_for_status()  # Levanta uma exceção para códigos de status HTTP 4xx/5xx
    except requests.exceptions.RequestException as e:
        print(f"Erro na chamada para findplacefromtext: {e}")
        return None
    
    search_results = response.json().get('candidates')
    
    if not search_results:
        print(f"Nenhum candidato encontrado para o lugar: {place_name}")
        return None

    place_id = search_results[0].get('place_id')
    
    if not place_id:
        print(f"place_id não encontrado para o lugar: {place_name}")
        return None

    # URL para buscar os detalhes do lugar usando o place_id
    place_details_url = f"https://maps.googleapis.com/maps/api/place/details/json?place_id={place_id}&fields=rating,formatted_address,geometry&key={api_key}"
    
    try:
        response = requests.get(place_details_url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Erro na chamada para details: {e}")
        return None
    
    place_details = response.json().get('result')
    
    if not place_details:
        print(f"Detalhes não encontrados para o place_id: {place_id}")
        return None
    
    return place_details

In [44]:
# Função para extrair CEPs e ratings
def extrair_cep_rating(info_imovel):
    if info_imovel is None:
        return [], []  # Retorna listas vazias se o valor for None
    
    # Verifica se info_imovel é uma string, então faz a conversão
    if isinstance(info_imovel, str):
        imoveis = json.loads(info_imovel.replace("'", '"'))
    else:
        imoveis = info_imovel  # Assume que já é uma lista de dicionários
    
    # Inicializa listas para armazenar os CEPs e ratings
    ceps = []
    ratings = []
    
    for imovel in imoveis:
        if imovel is not None:
            # Extrai o CEP e o rating
            formatted_address = imovel.get('formatted_address', '')
            cep = formatted_address.split(',')[-2].strip().split(' ')[-1]
            rating = imovel.get('rating', None)
            
            # Adiciona à lista
            ceps.append(cep)
            ratings.append(rating)
    
    return ceps, ratings

In [22]:
# Função para obter informações sobre o CEP usando a API ViaCEP
def get_cep_info(cep):
    # URL da API ViaCEP para obter informações sobre o CEP
    via_cep_url = f"https://viacep.com.br/ws/{cep}/json/"
    
    # Fazendo a solicitação para obter os detalhes do CEP
    response = requests.get(via_cep_url)
    return response.json()

In [6]:
def calculate_average_rating(ativos):
    if not ativos:  # Se a lista de ativos estiver vazia, retorna None
        return None
    ratings = [get_place_details(api_key, ativo) for ativo in ativos]
    ratings = [r for r in ratings if r is not None]  # Filtra None
    return sum(ratings) / len(ratings) if ratings else None

In [31]:
# Função para obter as informações de cada imóvel da lista
def get_imovel_informacoes(api_key, imoveis):
    if not imoveis or imoveis == '[]':  # Se a lista de imóveis estiver vazia, retorna None
        return None
    
    informacoes_list = []
    total_imoveis = len(imoveis)
    
    for i, imovel in enumerate(imoveis, start=1):
        print(f"Processando imóvel {i} de {total_imoveis}: {imovel}")
        
        # Obtenção das informações do imóvel
        informacoes = get_place_details(api_key, imovel)
        
        # Verificação adicional para identificar se houve algum problema
        if informacoes is None:
            print(f"Não foram encontradas informações para o imóvel: {imovel}")
        else:
            print(f"Informações encontradas para o imóvel {i} de {total_imoveis}: {informacoes}")
        
        informacoes_list.append(informacoes)
    
    return informacoes_list

### TESTANDO FUNÇÕES DE RETORNO LUGARES GOOGLE / INFORMAÇÕES DE CEP

In [26]:
api_key = 'AIzaSyDPTVrNGr6Jzb4bj6XrHX_oCKCl6FpHkIU'

In [27]:
    
# Detalhes do lugar (Shopping Interlagos)
place_name = "SHOPPING PLAZA"

# Obtendo detalhes do lugar
place_details = get_place_details(api_key, place_name)

In [103]:
# Extraindo endereço formatado e CEP
formatted_address = place_details.get('result', {}).get('formatted_address', '')
components = formatted_address.split(',')
cep = components[-2].strip() if len(components) >= 2 else "N/A"

#extraindo a nota de avaliação do google
rating = result.get('rating')

#Extraindo informações sobre o cep
cep_info = get_cep_info(cep)
print(rating)
print(cep_info.get('localidade'))
print(cep_info.get('regiao'))
print(cep_info.get('bairro'))

4.3
None
None
None


### Realizando captura de informações sobre fundos no Founds Explorer, sabendo que a nova página 2024 é gerada por JavaScript

In [29]:
# Configurações do Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Executa em modo headless
driver = webdriver.Chrome()

# URL da página com a tabela
url = 'https://www.fundsexplorer.com.br/ranking'
driver.get(url)

# Aguarda a tabela ser carregada (ajuste o tempo conforme necessário)
driver.implicitly_wait(10)

# Obtém o HTML da página
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Encontra a tabela com base na classe fornecida
table = soup.find('tbody', {'class': 'default-fiis-table__container__table__body'})
rows = table.find_all('tr')

# Lista para armazenar os dados extraídos
data = []

# Itera sobre as linhas da tabela
for row in rows:
    cells = row.find_all('td')
    row_data = {
        'Título': cells[0].get_text(strip=True),
        'Setor': cells[1].get_text(strip=True),
        'Valor': cells[2].get_text(strip=True),
        'Liquidez Média Diária': cells[3].get_text(strip=True),
        'PVP': cells[4].get_text(strip=True),
        'Dividendo': cells[5].get_text(strip=True),
        'Yeld': cells[6].get_text(strip=True),
        'Soma Yield 3M': cells[7].get_text(strip=True),
        'Soma Yield 6M': cells[8].get_text(strip=True),
        'Soma Yield 12M': cells[9].get_text(strip=True),
        'Média Yield 3M': cells[10].get_text(strip=True),
        'Média Yield 6M': cells[11].get_text(strip=True),
        'Média Yield 12M': cells[12].get_text(strip=True),
        'Soma Yield Ano Corrente': cells[13].get_text(strip=True),
        'Variação Cotação Mês': cells[14].get_text(strip=True),
        'Rentabilidade Mês': cells[15].get_text(strip=True),
        'Rentabilidade': cells[16].get_text(strip=True),
        'Patrimônio': cells[17].get_text(strip=True),
        'VPA': cells[18].get_text(strip=True),
        'P/VPA': cells[19].get_text(strip=True),
        'VPA Yield': cells[20].get_text(strip=True),
        'VPA Change': cells[21].get_text(strip=True),
        'VPA Rent M': cells[22].get_text(strip=True),
        'VPA Rent': cells[23].get_text(strip=True),
        'Ativos': cells[24].get_text(strip=True),
        'Volatility': cells[25].get_text(strip=True),
        'Número Cotista': cells[26].get_text(strip=True),
        'Tx Gestão': cells[27].get_text(strip=True),
        'Tx Admin': cells[28].get_text(strip=True),
        'Tx Performance': cells[29].get_text(strip=True),
    }
    data.append(row_data)

df = pd.DataFrame(data)

### Capturando Informações sobre Ativos em Cada imóvel

In [28]:
def get_ativos_from_fundo(fundo_name):
    driver = None
    try:
        # Inicializa o driver do Chrome
        driver = webdriver.Chrome()
        
        # Construa a URL com base no nome do fundo
        url = f'https://investidor10.com.br/fiis/{fundo_name.lower()}/'
        
        # Acessa a URL
        driver.get(url)

        # Aguarda até que a seção com o conteúdo esteja presente no DOM
        try: 
            WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, 'properties-section'))
            )
        except (TimeoutException, NoSuchElementException, WebDriverException) as e:
            # Trata erros específicos do Selenium e retorna uma lista vazia
            return []

        # Modifica a classe da div para expandir o conteúdo
        script = """
        var readMoreDiv = document.getElementById('container-properties');
        if (readMoreDiv) {
            readMoreDiv.classList.remove('collapsed');
            readMoreDiv.classList.add('expanded');
        }
        """
        driver.execute_script(script)

        # Aguarda até que os elementos com as informações desejadas estejam visíveis
        elements = WebDriverWait(driver, 10).until(
            EC.visibility_of_all_elements_located((By.CSS_SELECTOR, 'div.card-propertie h3'))
        )

        # Extrai e retorna os nomes dos ativos em uma lista
        ativos = [element.text for element in elements]
        return ativos

    except (TimeoutException, NoSuchElementException, WebDriverException) as e:
        # Trata erros específicos do Selenium e retorna uma lista vazia
        return []
    except Exception as e:
        # Trata qualquer outro erro inesperado
        return []
    finally:
        # Garante que o driver seja encerrado, se foi iniciado
        if driver:
            driver.quit()

#### Chamando a função e adicionando valores dentro de um Data Frame do Pandas ... Depois extraindo para o CSV
A fim de evitar ficar realizando este processo várias vezes, como é ruim de performance 

In [None]:
results = []

# Itera sobre os títulos do DataFrame
for titulo in df['Título']:
    ativos = get_ativos_from_fundo(titulo)
    results.append({'Título': titulo, 'Ativos': ativos})

# Cria um DataFrame a partir da lista de resultados
df_results = pd.DataFrame(results)

# Exporta para Excel
df_results.to_excel('resultados.xlsx', index=False)

# Exporta para CSV
df_results.to_csv('resultados.csv', index=False)

### Realizando a captura de informações adicionais para cada imóvel
Ranking e Registros de CEP

In [18]:
df_imported = pd.read_csv('resultados.csv')
df_imported

Unnamed: 0,Título,Ativos
0,AAGR11,[]
1,AAZQ11,[]
2,ABCP11,"['SHOPPING GRAND PLAZA', 'PRÉDIO COMERCIAL']"
3,AFHI11,[]
4,AGRX11,[]
...,...,...
485,YUFI11B,[]
486,ZAGH11,[]
487,ZAVC11,[]
488,ZAVI11,"['ALVOAR', 'NISSEI', 'SERRA', 'SOUZA CRUZ', 'C..."


In [32]:
# Exemplo de DataFrame importado
df_imported = pd.read_csv('resultados.csv')

# Corrige a leitura da coluna 'Ativos' para listas reais (caso tenha sido lido como string)
df_imported['Ativos'] = df_imported['Ativos'].apply(lambda x: eval(x) if isinstance(x, str) and x.startswith('[') else x)

# Cria uma nova coluna 'informações_imovel' aplicando a função get_imovel_informacoes
df_imported['informações_imovel'] = df_imported['Ativos'].apply(lambda x: get_imovel_informacoes(api_key, x))

# Exibe o DataFrame resultante
print(df_imported)

# Exporta para CSV
df_imported.to_csv('resultados_com_informacoes.csv', index=False)

# Exporta para Excel
df_imported.to_excel('resultados_com_informacoes.xlsx', index=False)

Processando imóvel 1 de 2: SHOPPING GRAND PLAZA
Informações encontradas para o imóvel 1 de 2: {'formatted_address': 'Av. Industrial, 600 - Centro, Santo André - SP, 09080-510, Brazil', 'geometry': {'location': {'lat': -23.6487368, 'lng': -46.5320388}, 'viewport': {'northeast': {'lat': -23.64427855000001, 'lng': -46.526875}, 'southwest': {'lat': -23.65393155, 'lng': -46.5372242}}}, 'rating': 4.5}
Processando imóvel 2 de 2: PRÉDIO COMERCIAL
Informações encontradas para o imóvel 2 de 2: {'formatted_address': 'Av. Paulista, 726 - Bela Vista, São Paulo - SP, 01310-200, Brazil', 'geometry': {'location': {'lat': -23.5666185, 'lng': -46.6496314}, 'viewport': {'northeast': {'lat': -23.5654302197085, 'lng': -46.6483622697085}, 'southwest': {'lat': -23.5681281802915, 'lng': -46.6510602302915}}}, 'rating': 4.2}
Processando imóvel 1 de 2: STANDARD BUILDING
Informações encontradas para o imóvel 1 de 2: {'formatted_address': 'Av. Pres. Wilson, 118 - Centro, Rio de Janeiro - RJ, 20030-020, Brazil', 'g

### Capturando o registro de CEP e RATING daquele FII somente

In [47]:
# Aplica a função para criar as novas colunas
df_imported[['CEPs', 'Ratings']] = df_imported['informações_imovel'].apply(lambda x: pd.Series(extrair_cep_rating(x)))

# Exibe o DataFrame resultante
df_imported = df_imported.drop(columns=['informações_imovel'])


KeyError: 'informações_imovel'

In [48]:
df_imported

Unnamed: 0,Título,Ativos,CEPs,Ratings
0,AAGR11,[],[],[]
1,AAZQ11,[],[],[]
2,ABCP11,"[SHOPPING GRAND PLAZA, PRÉDIO COMERCIAL]","[09080-510, 01310-200]","[4.5, 4.2]"
3,AFHI11,[],[],[]
4,AGRX11,[],[],[]
...,...,...,...,...
485,YUFI11B,[],[],[]
486,ZAGH11,[],[],[]
487,ZAVC11,[],[],[]
488,ZAVI11,"[ALVOAR, NISSEI, SERRA, SOUZA CRUZ, COPOBRÁS, ...","[35590-000, 04010-100, Santo, 03074-000, 07270...","[4.5, 4.2, None, 4.4, 4.3, 3.4, None, 4.7]"
