## Extract

Nesta parte do projeto, nosso objetivo é criar um modelo de dados robusto para fundos imobiliários (FIIs), utilizando a API **Found Explorer** e uma ferramenta adicional que permite acessar históricos de sites em anos anteriores. A seguir, detalhamos os principais passos e ferramentas que serão utilizadas no desenvolvimento desse modelo.

## 1. API **Found Explorer**

A API **Found Explorer** é uma ferramenta bem estabelecida no mercado, conhecida por oferecer dados detalhados e essenciais sobre FIIs. Ela disponibiliza uma série de informações relevantes, como:

- **Dados financeiros mensais**: Incluindo dividendos distribuídos, preço das cotas, valor patrimonial, e indicadores de rentabilidade.
- **Composição dos imóveis**: Listagem dos imóveis que fazem parte de cada FII, com detalhes como localização, área, tipo de imóvel (comercial, residencial, industrial), entre outros.
- **Histórico de performances**: Dados históricos que ajudam a entender a performance de cada FII ao longo do tempo.
- **Vacância e ocupação**: Percentual de vacância e ocupação dos imóveis ao longo do tempo, essencial para avaliar a saúde financeira do FII.

Essas variáveis são fundamentais para modelar e prever o comportamento dos FIIs em diferentes cenários econômicos.

## 2. Extração de Dados Históricos (2016-2024)

Para obter dados no período de 2016 até 2024, utilizaremos uma ferramenta que permite acessar versões antigas de sites, semelhante ao Web Archive. Esta ferramenta nos permitirá:

- **Acessar e extrair dados históricos**: Retornar dados que estavam disponíveis no **Found Explorer** entre 2016 e 2024.
- **Automação de consultas**: Implementaremos uma automação que permitirá selecionar o ano desejado (2016-2024) e retornar os dados correspondentes para cada FII de maneira eficiente.

## 3. Integração e Análise Imobiliária

Após coletar os dados de FIIs, nosso próximo passo é aprofundar a análise, identificando e avaliando os imóveis que compõem cada fundo:

- **Identificação dos Imóveis por Ano**: Para cada FII e em cada ano (2016, 2017, 2018, etc.), identificaremos quais imóveis faziam parte do portfólio do fundo naquele período.
- **Avaliação dos Imóveis**: Utilizando a **Google API**, realizaremos consultas para obter a avaliação de cada imóvel em cada ano específico. Por exemplo, para o imóvel "Shopping Interlagos" em 2016, obteremos sua avaliação e repetiremos o processo para 2017, 2018, e assim por diante.


### Importação das bibliotecas necessárias

In [40]:
import requests
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import date, datetime
import html5lib
from bs4 import BeautifulSoup

In [21]:
# Função para obter detalhes do lugar usando a API do Google -- Só utilizar quando, LUGAR (Shopping, Agências e etc)
def get_place_details(api_key, place_name):
    # URL da API Places para buscar o ID do lugar
    place_search_url = f"https://maps.googleapis.com/maps/api/place/findplacefromtext/json?input={place_name}&inputtype=textquery&fields=place_id&key={api_key}"
    
    # Fazendo a solicitação para buscar o Place ID
    response = requests.get(place_search_url)
    place_id = response.json()['candidates'][0]['place_id']
    
    # URL da API Places para obter detalhes do lugar
    place_details_url = f"https://maps.googleapis.com/maps/api/place/details/json?place_id={place_id}&fields=rating,formatted_address,geometry&key={api_key}"
    
    # Fazendo a solicitação para obter os detalhes do lugar
    response = requests.get(place_details_url)
    return response.json()

In [22]:
# Função para obter informações sobre o CEP usando a API ViaCEP
def get_cep_info(cep):
    # URL da API ViaCEP para obter informações sobre o CEP
    via_cep_url = f"https://viacep.com.br/ws/{cep}/json/"
    
    # Fazendo a solicitação para obter os detalhes do CEP
    response = requests.get(via_cep_url)
    return response.json()

### TESTANDO FUNÇÕES DE RETORNO LUGARES GOOGLE / INFORMAÇÕES DE CEP

In [102]:
api_key = 'AIzaSyDPTVrNGr6Jzb4bj6XrHX_oCKCl6FpHkIU'
    
# Detalhes do lugar (Shopping Interlagos)
place_name = "ALVOAR"

# Obtendo detalhes do lugar
place_details = get_place_details(api_key, place_name)

In [103]:
# Extraindo endereço formatado e CEP
formatted_address = place_details.get('result', {}).get('formatted_address', '')
components = formatted_address.split(',')
cep = components[-2].strip() if len(components) >= 2 else "N/A"

#extraindo a nota de avaliação do google
rating = result.get('rating')

#Extraindo informações sobre o cep
cep_info = get_cep_info(cep)
print(rating)
print(cep_info.get('localidade'))
print(cep_info.get('regiao'))
print(cep_info.get('bairro'))

4.3
None
None
None


### Realizando captura de informações sobre fundos no Founds Explorer, sabendo que a nova página 2024 é gerada por JavaScript

In [69]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import pandas as pd
from bs4 import BeautifulSoup

# Configurações do Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Executa em modo headless
driver = webdriver.Chrome()

# URL da página com a tabela
url = 'https://www.fundsexplorer.com.br/ranking'
driver.get(url)

# Aguarda a tabela ser carregada (ajuste o tempo conforme necessário)
driver.implicitly_wait(10)

# Obtém o HTML da página
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Encontra a tabela com base na classe fornecida
table = soup.find('tbody', {'class': 'default-fiis-table__container__table__body'})
rows = table.find_all('tr')

# Lista para armazenar os dados extraídos
data = []

# Itera sobre as linhas da tabela
for row in rows:
    cells = row.find_all('td')
    row_data = {
        'Título': cells[0].get_text(strip=True),
        'Setor': cells[1].get_text(strip=True),
        'Valor': cells[2].get_text(strip=True),
        'Liquidez Média Diária': cells[3].get_text(strip=True),
        'PVP': cells[4].get_text(strip=True),
        'Dividendo': cells[5].get_text(strip=True),
        'Yeld': cells[6].get_text(strip=True),
        'Soma Yield 3M': cells[7].get_text(strip=True),
        'Soma Yield 6M': cells[8].get_text(strip=True),
        'Soma Yield 12M': cells[9].get_text(strip=True),
        'Média Yield 3M': cells[10].get_text(strip=True),
        'Média Yield 6M': cells[11].get_text(strip=True),
        'Média Yield 12M': cells[12].get_text(strip=True),
        'Soma Yield Ano Corrente': cells[13].get_text(strip=True),
        'Variação Cotação Mês': cells[14].get_text(strip=True),
        'Rentabilidade Mês': cells[15].get_text(strip=True),
        'Rentabilidade': cells[16].get_text(strip=True),
        'Patrimônio': cells[17].get_text(strip=True),
        'VPA': cells[18].get_text(strip=True),
        'P/VPA': cells[19].get_text(strip=True),
        'VPA Yield': cells[20].get_text(strip=True),
        'VPA Change': cells[21].get_text(strip=True),
        'VPA Rent M': cells[22].get_text(strip=True),
        'VPA Rent': cells[23].get_text(strip=True),
        'Ativos': cells[24].get_text(strip=True),
        'Volatility': cells[25].get_text(strip=True),
        'Número Cotista': cells[26].get_text(strip=True),
        'Tx Gestão': cells[27].get_text(strip=True),
        'Tx Admin': cells[28].get_text(strip=True),
        'Tx Performance': cells[29].get_text(strip=True),
    }
    data.append(row_data)

df = pd.DataFrame(data)

### Capturando Informações sobre Ativos em Cada imóvel

In [108]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

# URL que você deseja acessar
url = 'https://investidor10.com.br/fiis/zavi11/'

# Acessa a URL
driver.get(url)

# Encontra os elementos com as informações desejadas
elements = driver.find_elements(By.CSS_SELECTOR, 'div.card-propertie h3')

# Extrai e imprime os nomes dos ativos
for element in elements:
    print(element.text)

# Encerra o driver
driver.quit()

## Arrumar página HTML para conseguir pegar mais informações sobre o fundo please

ALVOAR
NISSEI
SERRA
SOUZA CRUZ
COPOBRÁS
MEDABIL



