### Preparação do ambiente com importação de bibliotecas padrão

In [168]:
import requests
import webbrowser
from bs4 import BeautifulSoup
import pandas as pd

### Acesso inicial ao site, requisição e extração das informações

In [22]:
# URL do site 
url = 'https://www.fundsexplorer.com.br/ranking'

# Abrir a página no navegador padrão
webbrowser.open(url)

True

Como parte de qualquer projeto de webscrapping, é essencial abrir o site e as ferramentas de desenvolvedor (F12) para compreender a estrutura do site e pensar em uma estratégia para extração dos dados. Isto é. Encontrar as informações desejadas, entender a estrutura HTML por trás das informações (div, table, a, etc), e posteriormente, escolher quais testes seletores podem ser utilizados (CSS Selector, XPath, Full Xpath, etc)

Através dessa exploração inicial, é possível perceber a presença de uma tabela contendo as informações de todos os fundos imobiliários, junto a ela, podemos observar que a tabela está dentro de um div, então, para a extração da tabela em si, teremos que contornar o div. Para a seleção dos elementos da página, estou utilizando o xpath, que geralmente identifica o elemento através do seu ID. 

In [1]:
# URL da página para extração
url = 'https://www.fundsexplorer.com.br/ranking'

# Cabeçalhos para simular uma requisição de navegador
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Fazer a requisição para a página
response = requests.get(url, headers=headers)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # Parsear o conteúdo HTML da página
    soup = BeautifulSoup(response.text, 'html.parser')

    # Localizar o contêiner principal do div
    div_container = soup.select_one('#upTo--default-fiis-table > div')

    if div_container:
        # Localizar a tabela dentro do div
        table = div_container.find('table')

        if table:
            # Extraindo cabeçalhos da tabela
            headers = [header.text.strip() for header in table.find_all('th')]

            # Extraindo dados das linhas da tabela
            rows = []
            for row in table.find_all('tr')[1:]:  # Ignorando o cabeçalho
                cols = row.find_all('td')
                if cols:
                    # Extraindo texto ou valores ocultos
                    cols_data = [col.text.strip() if col.text.strip() else col.get('data-value', '') for col in cols]
                    rows.append(cols_data)

            # Criando um DataFrame com os dados extraídos
            df = pd.DataFrame(rows, columns=headers)

            # Exibindo os primeiros registros
            print(df.head())

            # Salvando a tabela como um arquivo CSV
            df.to_csv('funds_ranking.csv', index=False)
            print("Tabela salva como 'funds_ranking.csv'")
        else:
            print("Tabela não encontrada dentro do div.")
    else:
        print("Div com o ID especificado não encontrado.")
else:
    print(f"Erro ao acessar a página: Status {response.status_code}")

  Fundos Setor Preço Atual (R$) Liquidez Diária (R$) P/VP Último Dividendo  \
0                                                                            
1                                                                            
2                                                                            
3                                                                            
4                                                                            

  Dividend Yield DY (3M) Acumulado DY (6M) Acumulado DY (12M) Acumulado  ...  \
0                                                                        ...   
1                                                                        ...   
2                                                                        ...   
3                                                                        ...   
4                                                                        ...   

  DY Patrimonial Variação Patrimonial Rentab. Patr

In [6]:
pd.read_csv('funds_ranking.csv')

Unnamed: 0,Fundos,Setor,Preço Atual (R$),Liquidez Diária (R$),P/VP,Último Dividendo,Dividend Yield,DY (3M) Acumulado,DY (6M) Acumulado,DY (12M) Acumulado,...,DY Patrimonial,Variação Patrimonial,Rentab. Patr. Período,Rentab. Patr. Acumulada,Quant. Ativos,Volatilidade,Num. Cotistas,Tax. Gestão,Tax. Performance,Tax. Administração
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
6,,,,,,,,,,,...,,,,,,,,,,
7,,,,,,,,,,,...,,,,,,,,,,
8,,,,,,,,,,,...,,,,,,,,,,
9,,,,,,,,,,,...,,,,,,,,,,


Encontramos um dataframe completamente vazio, que falha em baixar as informações dos fundos, mas que consegue fazer a extração da tabela. Vamos tentar extrair novamente as informações completas e adaptar o código para as configurações do site

### Adaptação ao ambiente de extração
Tendo em vista que os dados não foram encontrados na extração, vamos tentar extrair a página para entender se os dados são carregados junto ao HTML estático ou são carregados de forma dinâmica com algum script.

In [12]:
# URL da página
url = 'https://www.fundsexplorer.com.br/ranking'

# Cabeçalhos para simular uma requisição de navegador
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Fazer a requisição para a página
response = requests.get(url, headers=headers)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # Parsear o HTML da página
    soup = BeautifulSoup(response.text, 'html.parser')

    # Salvar o texto bruto em um arquivo para inspeção
    with open('pagina_bruta.html', 'w', encoding='utf-8') as file:
        file.write(soup.prettify())

    print("Página salva como 'pagina_bruta.html'.")

    # Tentativa de localizar a tabela diretamente
    div_container = soup.select_one('#upTo--default-fiis-table > div')

    if div_container:
        table = div_container.find('table')
        if table:
            # Extraindo texto puro de toda a tabela
            table_text = table.get_text(separator='\n', strip=True)
            print("Texto da tabela:")
            print(table_text)

            # Salvar o texto da tabela em um arquivo
            with open('tabela_bruta.txt', 'w', encoding='utf-8') as file:
                file.write(table_text)
            print("Texto da tabela salvo como 'tabela_bruta.txt'.")
        else:
            print("Tabela não encontrada no contêiner.")
    else:
        print("Div com a tabela não encontrado no HTML.")
else:
    print(f"Erro ao acessar a página: {response.status_code}")

Conteúdo HTML salvo como 'pagina_bruta.html'. Verifique o arquivo para entender melhor onde estão os dados.
Texto da tabela:
Fundos
Setor
Preço Atual (R$)
Liquidez Diária (R$)
P/VP
Último Dividendo
Dividend Yield
DY (3M) Acumulado
DY (6M) Acumulado
DY (12M) Acumulado
DY (3M) média
DY (6M) média
DY (12M) média
DY Ano
Variação Preço
Rentab. Período
Rentab. Acumulada
Patrimônio Líquido
VPA
P/VPA
DY Patrimonial
Variação Patrimonial
Rentab. Patr. Período
Rentab. Patr. Acumulada
Quant. Ativos
Volatilidade
Num. Cotistas
Tax. Gestão
Tax. Performance
Tax. Administração
Texto da tabela salvo como 'tabela_bruta.txt'.


In [13]:
pd.read_html('pagina_bruta.html')

[    Fundos  Setor  Preço Atual (R$)  Liquidez Diária (R$)  P/VP  \
 0      NaN    NaN               NaN                   NaN   NaN   
 1      NaN    NaN               NaN                   NaN   NaN   
 2      NaN    NaN               NaN                   NaN   NaN   
 3      NaN    NaN               NaN                   NaN   NaN   
 4      NaN    NaN               NaN                   NaN   NaN   
 5      NaN    NaN               NaN                   NaN   NaN   
 6      NaN    NaN               NaN                   NaN   NaN   
 7      NaN    NaN               NaN                   NaN   NaN   
 8      NaN    NaN               NaN                   NaN   NaN   
 9      NaN    NaN               NaN                   NaN   NaN   
 10     NaN    NaN               NaN                   NaN   NaN   
 11     NaN    NaN               NaN                   NaN   NaN   
 12     NaN    NaN               NaN                   NaN   NaN   
 13     NaN    NaN               NaN            

Lendo o html extraído, podemos confirmar que a página utiliza de scripts de carregamento dinâmico para as informações dos fundos. Para solucionar isso, vamos utilizar a biblioteca playwright para lidar com o script dinâmico.
Nota: É preciso instalar a playwright através do terminal do ambiente utilizado, neste caso, Anaconda/Jupyter Notebook, o comando para instalação é:
python -m playwright install

### Biblioteca para requisições com carregamento dinâmico (Playwright)
Após a instalação, vamos importar a biblioteca e criar uma requisição que consiga solucionar o carregamento

In [27]:
# Importação de bibliotecas utilizadas
from playwright.async_api import async_playwright
import pandas as pd
from bs4 import BeautifulSoup 


#Função usa o Playwright para acessa a página com carregamento dinâmico e o BeautifulSoup para extrair os dados da tabela. 
#Após extração, os dados são salvos em um arquivo csv e também em um DataFrame
async def fetch_table_with_playwright():
    # Iniciando o Playwright
    async with async_playwright() as p:
        # Lançando o navegador Chromium em modo headless (sem a necessidadade de abrir uma aba no nosso navegador, como o Selenium)
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        # Acessando o site
        await page.goto('https://www.fundsexplorer.com.br/ranking', timeout=60000)

        # Esperando o carregamento completo do elemento (div) que contém a tabela
        await page.wait_for_selector('div#upTo--default-fiis-table', timeout=20000)

        # Extraindo todo o HTML da página
        page_html = await page.content()

        # Fechando o navegador
        await browser.close()

        # Analisando o HTML com BeautifulSoup
        soup = BeautifulSoup(page_html, 'html.parser')

        # Localizando o div que contém a tabela
        div_container = soup.find('div', {'id': 'upTo--default-fiis-table'})

        # Verificando se o div foi encontrado
        if div_container:
            # Localizando a tabela dentro do div
            table = div_container.find('table')

            # Se a tabela for encontrada, extrair os dados
            if table:
                # Extraindo os cabeçalhos da tabela
                headers = [header.text.strip() for header in table.find_all('th')]

                # Extraindo as linhas da tabela
                rows = []
                for row in table.find_all('tr')[1:]:  # Ignorando a linha de cabeçalho
                    cols = row.find_all('td')
                    if len(cols) > 0:
                        cols = [col.text.strip() for col in cols]
                        rows.append(cols)

                # Criando um DataFrame com os dados extraídos
                df = pd.DataFrame(rows, columns=headers)

                # Exibindo as primeiras linhas do DataFrame
                print(df.head())

                # Salvando os dados em um arquivo CSV
                df.to_csv('funds_ranking.csv', index=False)
                print("Tabela salva como 'funds_ranking.csv'")
                return df
            else:
                print("Tabela não encontrada dentro do div.")
        else:
            print("Div com a tabela não encontrado.")
        
        # Retornando um DataFrame vazio caso não encontre dados
        return pd.DataFrame()

# Chamando a função assíncrona diretamente
df = await fetch_table_with_playwright()
print(df.head())

   Fundos       Setor Preço Atual (R$) Liquidez Diária (R$)  P/VP  \
0  AAGR11  Indefinido            97,00             7.877,36   N/A   
1  AAZQ11  Indefinido             6,82           455.521,09  0,79   
2  ABCP11   Shoppings            72,35            39.085,27  0,67   
3  AFHI11      Papéis            88,00           885.086,73  0,96   
4  AGRX11      Outros             7,37           176.410,00   N/A   

  Último Dividendo Dividend Yield DY (3M) Acumulado DY (6M) Acumulado  \
0             1,17         1,21 %            3,45 %            6,94 %   
1             0,13         1,90 %            4,66 %            8,43 %   
2             0,50         0,67 %            2,51 %            5,35 %   
3             0,95         1,03 %            3,08 %            6,04 %   
4             0,10         1,31 %            3,09 %            7,16 %   

  DY (12M) Acumulado  ... DY Patrimonial Variação Patrimonial  \
0            12,73 %  ...         0,00 %               0,00 %   
1            16,

Agora, vamos verificar as informações do DataFrame gerado, exibindo as 5 primeiras linhas

In [38]:
df.head()

Unnamed: 0,Fundos,Setor,Preço Atual (R$),Liquidez Diária (R$),P/VP,Último Dividendo,Dividend Yield,DY (3M) Acumulado,DY (6M) Acumulado,DY (12M) Acumulado,...,DY Patrimonial,Variação Patrimonial,Rentab. Patr. Período,Rentab. Patr. Acumulada,Quant. Ativos,Volatilidade,Num. Cotistas,Tax. Gestão,Tax. Performance,Tax. Administração
0,AAGR11,Indefinido,9700,"7.877,36",,117,"1,21 %","3,45 %","6,94 %","12,73 %",...,"0,00 %","0,00 %","0,00 %","0,00 %",0,6836,0.0,,,
1,AAZQ11,Indefinido,682,"455.521,09",79.0,13,"1,90 %","4,66 %","8,43 %","16,55 %",...,"1,10 %","0,00 %","0,00 %","0,00 %",0,2166,29.158,,,
2,ABCP11,Shoppings,7235,"39.085,27",67.0,50,"0,67 %","2,51 %","5,35 %","9,74 %",...,"0,65 %","16,88 %","17,64 %","26,02 %",1,1685,15.255,,,
3,AFHI11,Papéis,8800,"885.086,73",96.0,95,"1,03 %","3,08 %","6,04 %","12,14 %",...,"1,03 %","-3,22 %","-2,22 %","3,91 %",14,927,42.779,,,
4,AGRX11,Outros,737,"176.410,00",,10,"1,31 %","3,09 %","7,16 %","15,16 %",...,,,,,0,2931,0.0,,,


### Análise
Com o sucesso da parte inicial de extração dos dados, vamos agora poder analisar nosso dataframe. Tratando-se de uma tabela com 30 colunas, é essencial realizar uma limpeza nos dados, padronizando nomes de colunas, descartando itens indesejáveis e verificando a presença de itens nulos

In [35]:
df.columns

Index(['Fundos', 'Setor', 'Preço Atual (R$)', 'Liquidez Diária (R$)', 'P/VP',
       'Último Dividendo', 'Dividend Yield', 'DY (3M) Acumulado',
       'DY (6M) Acumulado', 'DY (12M) Acumulado', 'DY (3M) média',
       'DY (6M) média', 'DY (12M) média', 'DY Ano', 'Variação Preço',
       'Rentab. Período', 'Rentab. Acumulada', 'Patrimônio Líquido', 'VPA',
       'P/VPA', 'DY Patrimonial', 'Variação Patrimonial',
       'Rentab. Patr. Período', 'Rentab. Patr. Acumulada', 'Quant. Ativos',
       'Volatilidade', 'Num. Cotistas', 'Tax. Gestão', 'Tax. Performance',
       'Tax. Administração'],
      dtype='object')

Cada investidor tem sua própria estratégia, para os fins de demonstração deste código, vou adotar uma análise que visa maior dividendo yield, preços mais baixos e menor volatilidade. Seguindo com as seguintes colunas: 'Fundos', 'Setor', 'Preço Atual', 'Dividend Yield', 'DY (12M) Acumulado', 'Volatilidade'

Para economia de tempo, irei criar um novo dataframe somente com as colunas desejáveis, além de realizar a padronização do nome das colunas para facilitar a análise

In [178]:
fundos = df[['Fundos', 'Setor', 'Preço Atual (R$)', 'Dividend Yield', 'DY (12M) Acumulado', 'Volatilidade']]

In [180]:
fundos.rename(columns={'Fundos':'ticker', 'Setor':'setor', 'Preço Atual (R$)':'preco', 'Dividend Yield': 'dy', 'DY (12M) Acumulado': 'dy12m', 'Volatilidade':'volatilidade'}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fundos.rename(columns={'Fundos':'ticker', 'Setor':'setor', 'Preço Atual (R$)':'preco', 'Dividend Yield': 'dy', 'DY (12M) Acumulado': 'dy12m', 'Volatilidade':'volatilidade'}, inplace=True)


### Critérios
Agora com as colunas definidas, vou seguir a estratégia e definir critérios para a seleção dos fundos. Esses critérios serão somados e utilizados para criar uma coluna chamada 'Nota', onde teremos os fundos mais adequados de acordo com a estratégia.

1. **Setor:** Os fundos devem ser do setor "Papéis e Lajes Corporativas".   
2. **Preço:** O preço dos fundos deve ser **preferencialmente abaixo de 25 reais**.
3. **Dividend Yield (DY):** O Dividend Yield deve ser **maior ou igual a 1%**.
4. **DY 12M (Dividend Yield Acumulado nos últimos 12 meses):** Preferencialmente, os fundos devem ter **retornos acima de 12% ao ano**.
5. **Volatilidade:** Os fundos devem ter **valores de volatilidade mais próximos a 0**, indicando maior estabilidade.



Vamos verificar o tipo de dado das colunas e realizar as transformações necessárias para criar nosso filtro.

In [108]:
fundos.dtypes

ticker          object
setor           object
preco           object
dy              object
dy12m           object
volatilidade    object
dtype: object

As colunas estão denotadas como object (string), então vamos remover quaisquer símbolos e espaços, substituir vírgulas por pontos e converter para o tipo númerico

In [184]:
# Remover caracteres não numéricos (como 'R$', espaços extras) e substituir vírgulas por ponto
fundos['preco'] = fundos['preco'].replace({'R\$': '', ' ': '', ',': '.'}, regex=True)
# Agora, converte a coluna para numérico (float)
fundos['preco'] = pd.to_numeric(fundos['preco'], errors='coerce')

# Tratando a coluna 'Dividend Yield' (DY)
fundos['dy'] = fundos['dy'].replace({'%': '', ' ': '', ',': '.'}, regex=True)
fundos['dy'] = pd.to_numeric(fundos['dy'], errors='coerce')

# Tratando a coluna 'DY 12M' (DY 12M Acumulado)
fundos['dy12m'] = fundos['dy12m'].replace({'%': '', ' ': '', ',': '.'}, regex=True)
fundos['dy12m'] = pd.to_numeric(fundos['dy12m'], errors='coerce')

# Tratando a coluna 'Volatilidade'
fundos['volatilidade'] = fundos['volatilidade'].replace({'%': '', ' ': '', ',': '.'}, regex=True)
fundos['volatilidade'] = pd.to_numeric(fundos['volatilidade'], errors='coerce')

  fundos['preco'] = fundos['preco'].replace({'R\$': '', ' ': '', ',': '.'}, regex=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fundos['preco'] = fundos['preco'].replace({'R\$': '', ' ': '', ',': '.'}, regex=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fundos['preco'] = pd.to_numeric(fundos['preco'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.htm

In [193]:
# Definir os critérios para os filtros
setores_desejados = ['Papéis', 'Lajes Corporativas']
preco_max = 25
dy_minimo = 1
dy12m_minimo = 12 # Exemplo, você pode ajustar conforme necessário

# Aplicando todos os filtros com .loc
fundos_filtrados = fundos.loc[
    (fundos['setor'].isin(setores_desejados)) &  # Filtro para setor
    (fundos['preco'] <= preco_max) &  # Filtro para preço
    (fundos['dy'] >= dy_minimo) &  # Filtro para Dividend Yield
    (fundos['dy12m'] >= dy12m_minimo)]  # Filtro para DY 12M

# Exibindo os primeiros registros dos fundos filtrados
fundos_filtrados

Unnamed: 0,ticker,setor,preco,dy,dy12m,volatilidade
15,ARRI11,Papéis,7.66,1.1,13.57,13.35
67,BTCI11,Papéis,8.35,1.03,12.15,15.16
102,CPTS11,Papéis,6.26,1.16,12.23,18.41
182,HCTR11,Papéis,23.19,3.87,17.96,39.53
238,JBFO11,Papéis,15.03,43.82,110.98,266.4
282,LSPA11,Papéis,24.01,86.84,303.13,85.68
294,MCHY11,Papéis,8.58,1.39,13.89,26.95
306,MXRF11,Papéis,9.17,1.07,12.04,11.64
308,NCHB11,Papéis,7.34,1.25,14.22,14.86
310,NCRI11,Papéis,7.7,1.23,13.7,36.79


É possível notar a presença de alguns outliers, dados com valores muito distoantes dos outros, neste caso, são os fundos **JBFO11, LSPA11, PLRI11, RBVO11, RDPD11**. Estes valores podem ter sido causados por diversos fatores, como amortizações, desdobramentos, agrupamentos, etc. Para manter a análise justa, iremos remover estes valores da análise

In [200]:
# Lista de fundos a serem removidos
outliers = ['JBFO11', 'LSPA11', 'PLRI11', 'RBVO11', 'RDPD11']

# Removendo os outliers do DataFrame 'fundos_filtrados'
fundos_filtrados = fundos_filtrados[~fundos_filtrados['ticker'].isin(outliers)]

# Verificando o DataFrame após a remoção
fundos_filtrados

Unnamed: 0,ticker,setor,preco,dy,dy12m,volatilidade
15,ARRI11,Papéis,7.66,1.1,13.57,13.35
67,BTCI11,Papéis,8.35,1.03,12.15,15.16
102,CPTS11,Papéis,6.26,1.16,12.23,18.41
182,HCTR11,Papéis,23.19,3.87,17.96,39.53
294,MCHY11,Papéis,8.58,1.39,13.89,26.95
306,MXRF11,Papéis,9.17,1.07,12.04,11.64
308,NCHB11,Papéis,7.34,1.25,14.22,14.86
310,NCRI11,Papéis,7.7,1.23,13.7,36.79
351,PORD11,Papéis,7.57,1.13,13.14,16.48
418,SADI11,Papéis,8.06,1.09,12.59,10.47


### Normalização e Pontuação para a Coluna "Nota"
Neste trecho de código, calculamos uma pontuação para cada fundo com base em três critérios: 

- **Preço:** O preço do fundo deve ser o mais baixo possível, por isso, utilizamos a fórmula `preco_normalizado = min(preco) / preco`.
- **Dividend Yield (DY 12M):** O maior valor de DY 12M é considerado o melhor, então a fórmula utilizada é `dy12m_normalizado = dy12m / max(dy12m)`.
- **Volatilidade:** A menor volatilidade é preferida, então, a fórmula é `volatilidade_normalizada = min(volatilidade) / volatilidade`.

Cada um desses critérios é normalizado, ou seja, seus valores são ajustados para um intervalo entre 0 e 1, onde:
- O preço mais baixo recebe o valor 1.
- O maior DY 12M recebe o valor 1.
- A menor volatilidade recebe o valor 1.

Após calcular a pontuação de cada critério, somamos as pontuações normalizadas para obter uma **Nota Total** para cada fundo. Em seguida, normalizamos a coluna `Nota` para garantir que os valores fiquem entre 0 e 1.

A fórmula para a normalização da nota total é:

**Nota normalizada = (Nota - Nota mínima) / (Nota máxima - Nota mínima)**

Assim, o fundo com a maior pontuação (quanto mais baixo o preço, mais alto o DY e mais baixa a volatilidade) terá a maior nota, e o fundo com a menor pontuação terá a menor nota.

In [206]:
# Normalizando e pontuando cada critério
fundos_filtrados['preco_normalizado'] = (fundos_filtrados['preco'].min() / fundos_filtrados['preco'])
fundos_filtrados['dy12m_normalizado'] = (fundos_filtrados['dy12m'] / fundos_filtrados['dy12m'].max())
fundos_filtrados['volatilidade_normalizada'] = (fundos_filtrados['volatilidade'].min() / fundos_filtrados['volatilidade'])

# Calculando a nota total (soma dos critérios normalizados)
fundos_filtrados['Nota'] = (fundos_filtrados['preco_normalizado'] +
                            fundos_filtrados['dy12m_normalizado'] +
                            fundos_filtrados['volatilidade_normalizada'])

# Normalizando a coluna 'Nota' para que fique entre 0 e 1
fundos_filtrados['Nota'] = (fundos_filtrados['Nota'] - fundos_filtrados['Nota'].min()) / (fundos_filtrados['Nota'].max() - fundos_filtrados['Nota'].min())

# Exibindo o DataFrame com a nova coluna 'Nota'
fundos_filtrados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fundos_filtrados['preco_normalizado'] = (fundos_filtrados['preco'].min() / fundos_filtrados['preco'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fundos_filtrados['dy12m_normalizado'] = (fundos_filtrados['dy12m'] / fundos_filtrados['dy12m'].max())
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  f

Unnamed: 0,ticker,setor,preco,dy,dy12m,volatilidade,preco_normalizado,dy12m_normalizado,volatilidade_normalizada,Nota
15,ARRI11,Papéis,7.66,1.1,13.57,13.35,0.375979,0.755568,0.78427,0.600568
67,BTCI11,Papéis,8.35,1.03,12.15,15.16,0.34491,0.676503,0.690633,0.368248
102,CPTS11,Papéis,6.26,1.16,12.23,18.41,0.460064,0.680958,0.568713,0.365611
182,HCTR11,Papéis,23.19,3.87,17.96,39.53,0.124191,1.0,0.264862,0.0
294,MCHY11,Papéis,8.58,1.39,13.89,26.95,0.335664,0.773385,0.388497,0.123694
306,MXRF11,Papéis,9.17,1.07,12.04,11.64,0.314068,0.670379,0.899485,0.564214
308,NCHB11,Papéis,7.34,1.25,14.22,14.86,0.392371,0.791759,0.704576,0.569658
310,NCRI11,Papéis,7.7,1.23,13.7,36.79,0.374026,0.762806,0.284588,0.036902
351,PORD11,Papéis,7.57,1.13,13.14,16.48,0.380449,0.731626,0.635316,0.408543
418,SADI11,Papéis,8.06,1.09,12.59,10.47,0.35732,0.701002,1.0,0.763039


### Seleção dos top 5 fundos
Agora, vamos finalizar nossa análise ranqueando os fundos com melhor nota

In [219]:
fundos_filtrados.sort_values(by='Nota', ascending=False).head(5)

Unnamed: 0,ticker,setor,preco,dy,dy12m,volatilidade,preco_normalizado,dy12m_normalizado,volatilidade_normalizada,Nota
490,VSLH11,Papéis,2.88,1.0,14.15,21.89,1.0,0.787862,0.478301,1.0
418,SADI11,Papéis,8.06,1.09,12.59,10.47,0.35732,0.701002,1.0,0.763039
467,VCRI11,Papéis,6.43,1.27,14.27,13.33,0.4479,0.794543,0.785446,0.728344
473,VGIR11,Papéis,9.03,1.17,13.81,11.61,0.318937,0.768931,0.901809,0.684776
15,ARRI11,Papéis,7.66,1.1,13.57,13.35,0.375979,0.755568,0.78427,0.600568


## Conclusão

Durante o processo de webscraping, coletamos dados de fundos imobiliários de um site, utilizando ferramentas como **Playwright e BeautifulSoup** Enfrentamos desafios relacionados ao carregamento dinâmico da página, mas conseguimos contorná-los com sucesso, garantindo que todas as informações relevantes fossem extraídas corretamente.

Inicialmente, obtemos um DataFrame enorme, com 30 colunas, que abrangem várias métricas financeiras dos fundos, como preço, Dividend Yield (DY), volatilidade, e patrimônio líquido, entre outras.

A partir desse DataFrame, iniciamos o processo de organização e análise. Excluímos colunas desnecessárias, padronizamos os nomes das colunas para torná-las mais consistentes, e convertemos textos em valores númericos. Também **definimos nossos próprios parâmetros para filtrar os dados e pontuar os fundos com maior adequação a estratégia de investimento adotada**

Criamos uma coluna 'Nota', com uma pontuação que reflete a qualidade de cada fundo, de acordo com os parâmetros definidos. A normalização foi realizada para trazer os valores para uma escala comum, facilitando a comparação entre eles.

**É importante notar que este código e a análise realizada não devem ser considerados como recomendações de investimento. O código serve mais como um exemplo e inspiração para quem deseja personalizar sua própria análise, utilizando seus próprios parâmetros e critérios de avaliação. Quem utilizar esse código pode adaptá-lo conforme suas necessidades e objetivos, experimentando novos parâmetros e refinando a análise para obter insights mais específicos.**