## 1. Capturando tabela HTML

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import pandas as pd

# Create a Microsoft Edge webdriver instance
driver = webdriver.Edge()

# Open the website
driver.get("https://www.fundsexplorer.com.br/ranking")

# Find the table element using XPath
table = driver.find_element(By.XPATH, '//*[@id="upTo--default-fiis-table"]/div/table')

# Extract the text content of the table
table_text = table.text

# Split the table_text into lines
lines = table_text.split('\n')

# Extract the data from the remaining lines
data = [line.split() for line in lines[1:]]

# Print the extracted data
for row in data:
    print(row)

# Close the browser
driver.quit()

# Iterate through the data and remove '%' character
for row in data:
    row_without_percent = [item.replace('%', '') for item in row]
    print(row_without_percent)


In [None]:
!pip install beautifulsoup4
!pip install requests

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL da página da web que contém a tabela
url = "https://www.fundsexplorer.com.br/ranking"

# Fazer uma solicitação HTTP para obter o conteúdo da página
response = requests.get(url)

# Verificar se a solicitação foi bem-sucedida
if response.status_code == 200:
    # Analisar o conteúdo da página com BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Encontrar a tabela com base na classe 'default-fiis-table__container__table__body'
    table_body = soup.find('tbody', class_='default-fiis-table__container__table__body')

    # Encontrar todas as linhas da tabela ('tr' tags)
    rows = table_body.find_all('tr')

    # Inicializar uma lista vazia para armazenar os dados
    data = []

    # Iterar pelas linhas e extrair os valores das células ('td' tags)
    for row in rows:
        # Encontrar todas as células na linha atual
        cells = row.find_all('td')

        # Extrair os valores das células
        values = [cell.get_text('data-value', cell.text.strip()) for cell in cells]

        # Adicionar os valores à lista de dados
        data.append(values)

    # Criar um DataFrame pandas com os dados
    df = pd.DataFrame(data)

    # Definir nomes de coluna com base nos títulos das colunas
    th_tags = soup.find('thead').find_all('th')
    column_names = [th.text.strip() for th in th_tags]
    df.columns = column_names

# Imprimir o DataFrame
print(df)       

## 2. Exploração dos Dados

In [1]:
import openpyxl
import pandas as pd

df = pd.read_excel(r"C:\Users\Felipe\Documents\Codes_Python\fiis.xlsx", engine="openpyxl")
df = df[(df['SETOR'] != 'nan') & (df['SETOR'].notnull())]

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 406 entries, 0 to 407
Data columns (total 27 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   FUNDOS                   406 non-null    object 
 1   SETOR                    406 non-null    object 
 2   PREÇO ATUAL (R$)         373 non-null    float64
 3   LIQUIDEZ DIÁRIA (R$)     363 non-null    float64
 4   P/VP                     355 non-null    float64
 5   ÚLTIMO DIVIDENDO         406 non-null    float64
 6   DIVIDEND YIELD           387 non-null    float64
 7   DY (3M) ACUMULADO        387 non-null    float64
 8   DY (6M) ACUMULADO        387 non-null    float64
 9   DY (12M) ACUMULADO       387 non-null    float64
 10  DY (3M) MÉDIA            387 non-null    float64
 11  DY (6M) MÉDIA            387 non-null    float64
 12  DY (12M) MÉDIA           387 non-null    float64
 13  DY ANO                   386 non-null    float64
 14  VARIAÇÃO PREÇO           387 no

In [3]:
list(df['SETOR'].unique())

['INDEFINIDO',
 'SHOPPINGS',
 'PAPÉIS',
 'OUTROS',
 'LAJES CORPORATIVAS',
 'FUNDO DE FUNDOS',
 'MISTO',
 'IMÓVEIS RESIDENCIAIS',
 'IMÓVEIS INDUSTRIAIS E LOGÍSTICOS',
 'IMÓVEIS COMERCIAIS - OUTROS',
 'AGÊNCIAS DE BANCOS',
 'FUNDO DE DESENVOLVIMENTO',
 'VAREJO',
 'FIAGRO',
 'EDUCACIONAL',
 'HOSPITALAR',
 'HOTÉIS']

In [4]:
list(df.columns)

['FUNDOS',
 'SETOR',
 'PREÇO ATUAL (R$)',
 'LIQUIDEZ DIÁRIA (R$)',
 'P/VP',
 'ÚLTIMO DIVIDENDO',
 'DIVIDEND YIELD',
 'DY (3M) ACUMULADO',
 'DY (6M) ACUMULADO',
 'DY (12M) ACUMULADO',
 'DY (3M) MÉDIA',
 'DY (6M) MÉDIA',
 'DY (12M) MÉDIA',
 'DY ANO',
 'VARIAÇÃO PREÇO',
 'RENTAB. PERÍODO',
 'RENTAB. ACUMULADA',
 'PATRIMÔNIO LÍQUIDO',
 'VPA',
 'P/VPA',
 'DY PATRIMONIAL',
 'VARIAÇÃO PATRIMONIAL',
 'RENTAB. PATR. PERÍODO',
 'RENTAB. PATR. ACUMULADA',
 'VACÂNCIA FÍSICA',
 'VACÂNCIA FINANCEIRA',
 'QUANT. ATIVOS']

## 3. Limpeza e Formatação

In [5]:
# Transformar o tipo das colunas

col_string = ['FUNDOS', 
              'SETOR']
df[col_string] = df[col_string].astype('object')

col_float = ['PREÇO ATUAL (R$)',
            'LIQUIDEZ DIÁRIA (R$)',
            'P/VP',
            'ÚLTIMO DIVIDENDO',
            'DIVIDEND YIELD',
            'DY (3M) ACUMULADO',
            'DY (6M) ACUMULADO',
            'DY (12M) ACUMULADO',
            'DY (3M) MÉDIA',
            'DY (6M) MÉDIA',
            'DY (12M) MÉDIA',
            'DY ANO',
            'VARIAÇÃO PREÇO',
            'RENTAB. PERÍODO',
            'RENTAB. ACUMULADA',
            'PATRIMÔNIO LÍQUIDO',
            'VPA',
            'P/VPA',
            'DY PATRIMONIAL',
            'VARIAÇÃO PATRIMONIAL',
            'RENTAB. PATR. PERÍODO',
            'RENTAB. PATR. ACUMULADA',
            'VACÂNCIA FÍSICA',
            'VACÂNCIA FINANCEIRA']
df[col_float] = df[col_float].astype('float')

col_int = ['QUANT. ATIVOS']
df[col_int] = df[col_int].astype('int')

In [6]:
# Substituir todos os valores 'NaN' por 0
df.fillna(0, inplace=True)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 406 entries, 0 to 407
Data columns (total 27 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   FUNDOS                   406 non-null    object 
 1   SETOR                    406 non-null    object 
 2   PREÇO ATUAL (R$)         406 non-null    float64
 3   LIQUIDEZ DIÁRIA (R$)     406 non-null    float64
 4   P/VP                     406 non-null    float64
 5   ÚLTIMO DIVIDENDO         406 non-null    float64
 6   DIVIDEND YIELD           406 non-null    float64
 7   DY (3M) ACUMULADO        406 non-null    float64
 8   DY (6M) ACUMULADO        406 non-null    float64
 9   DY (12M) ACUMULADO       406 non-null    float64
 10  DY (3M) MÉDIA            406 non-null    float64
 11  DY (6M) MÉDIA            406 non-null    float64
 12  DY (12M) MÉDIA           406 non-null    float64
 13  DY ANO                   406 non-null    float64
 14  VARIAÇÃO PREÇO           406 no

## 4. Análises iniciais 

In [8]:
list(df.columns)

['FUNDOS',
 'SETOR',
 'PREÇO ATUAL (R$)',
 'LIQUIDEZ DIÁRIA (R$)',
 'P/VP',
 'ÚLTIMO DIVIDENDO',
 'DIVIDEND YIELD',
 'DY (3M) ACUMULADO',
 'DY (6M) ACUMULADO',
 'DY (12M) ACUMULADO',
 'DY (3M) MÉDIA',
 'DY (6M) MÉDIA',
 'DY (12M) MÉDIA',
 'DY ANO',
 'VARIAÇÃO PREÇO',
 'RENTAB. PERÍODO',
 'RENTAB. ACUMULADA',
 'PATRIMÔNIO LÍQUIDO',
 'VPA',
 'P/VPA',
 'DY PATRIMONIAL',
 'VARIAÇÃO PATRIMONIAL',
 'RENTAB. PATR. PERÍODO',
 'RENTAB. PATR. ACUMULADA',
 'VACÂNCIA FÍSICA',
 'VACÂNCIA FINANCEIRA',
 'QUANT. ATIVOS']

In [9]:
indicadores = ['SETOR',
                'P/VPA',
                'LIQUIDEZ DIÁRIA (R$)',
                'DY (12M) MÉDIA',
                'DY (12M) ACUMULADO',
                'VACÂNCIA FÍSICA',
                'QUANT. ATIVOS']

In [10]:
df_aux = df[indicadores]
media_setor = df_aux.groupby('SETOR').agg(["mean"])
media_setor

Unnamed: 0_level_0,P/VPA,LIQUIDEZ DIÁRIA (R$),DY (12M) MÉDIA,DY (12M) ACUMULADO,VACÂNCIA FÍSICA,QUANT. ATIVOS
Unnamed: 0_level_1,mean,mean,mean,mean,mean,mean
SETOR,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
AGÊNCIAS DE BANCOS,0.9925,566058.3,0.010525,0.12625,0.0,33.25
EDUCACIONAL,0.92,236709.7,0.006825,0.0817,0.0,3.0
FIAGRO,0.0,0.0,0.0,0.0,0.0,0.0
FUNDO DE DESENVOLVIMENTO,0.32475,571628.1,0.014527,0.161055,0.0,4.975
FUNDO DE FUNDOS,0.908235,585589.1,0.008682,0.098544,0.0,0.117647
HOSPITALAR,0.78,24557.2,0.0069,0.082767,0.0,1.666667
HOTÉIS,1.04,329724.0,0.007567,0.091133,0.0,12.0
IMÓVEIS COMERCIAIS - OUTROS,0.224,2092889.0,0.00408,0.04904,0.0,9.0
IMÓVEIS INDUSTRIAIS E LOGÍSTICOS,0.712683,1014869.0,0.007585,0.090993,0.0,8.341463
IMÓVEIS RESIDENCIAIS,0.7725,120903.5,0.01,0.120125,0.0,1.5


## 5. Estratégia

In [11]:
def oportunidade_media_setor(df, setor='Shoppings', label_setor='Setor'):
    
    media_setor = df_aux.groupby('Setor').agg(["mean", "std"])
    
    df_setor = df[df[label_setor].isin([setor])]
    
    filter_ = (df_setor['Quantidade Ativos'] > 5) &\
              (df_setor['Liquidez Diária'] > 5000) &\
              (df_setor['P/VPA'] < 1.0) &\
              (df_setor['DY (12M) Acumulado'] > media_setor.loc[setor, ('DY (12M) Acumulado', 'mean')])
    
    print('média do setor Yield: {}'.format(media_setor.loc[setor, ('DY (12M) Acumulado', 'mean')]))
    print('média do setor P/VPA: {}'.format(media_setor.loc[setor, ('P/VPA', 'mean')]))
    print('média do setor Ativos: {}'.format(media_setor.loc[setor, ('Quantidade Ativos', 'mean')]))
    
    return df_setor[filter_]

In [12]:
list(df['Setor'].unique())

KeyError: 'Setor'

In [None]:
oportunidade = oportunidade_media_setor(df_aux, setor='Shoppings')
oportunidade.sort_values('DY (12M) Acumulado', ascending = False, inplace=True)
oportunidade