# Como analisar os dados de rentabilidade?

Desafio:
Construir um código que faça um ranking dos melhores fundos em três períodos de rentabilidade diferentes. Iremos selecionar os 10 melhores posicionados no quesito rentabilidade no curto e no longo prazo.

Passo a passo:
Passo 1 - Puxar as tabelas igual na aula 2.

Passo 2 - Escolher quais períodos de rentabilidade iremos analisar.

Passo 3 - Retirar os dados faltantes. Fundos que não possuem os períodos necessários, ficarão de fora.

Passo 4 - Transformar as rentabilidades em números decimais, ao invés de string.

Passo 5 - Juntar as tabelas, igual na aula 2.

Passo 6 - Filtrar os ETFs alavancados.

Passo 7 - Fazer os rankings de rentabilidade por período e soma-los.

Passo 8 - Ordenar do menor ranking pro maior, encontrando os "melhores" ETFs.

# Passo 1: Realizar o webscraping

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import re

In [4]:
driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))

driver.get('https://www.etf.com/etfanalytics/etf-finder')

time.sleep(5)

botao_100 = driver.find_element('xpath',
                                '/html/body/div[5]/section/div/div[3]/section/div/div/div/div/div[2]/section[2]/div[2]/section[2]/div[1]/div/div[4]/button/label/span')

driver.execute_script('arguments[0].click();', botao_100)
#botao_100.click()

numero_paginas_element = driver.find_element('xpath', '//*[@id="totalPages"]')
numero_paginas_text = numero_paginas_element.text
match = re.search(r'(\d+)', numero_paginas_text)

elemento = driver.find_element('xpath', '//*[@id="finderTable"]')
html_tabela = elemento.get_attribute('outerHTML')
tabela = pd.read_html(str(html_tabela))[0]

lista_tabela_por_pagina = []

elemento = driver.find_element('xpath', '//*[@id="finderTable"]')


for pagina in range(1, numero_paginas + 1):
    
    html_tabela = elemento.get_attribute('outerHTML')
    
    tabela = pd.read_html(str(html_tabela))[0]
    
    lista_tabela_por_pagina.append(tabela)
    
    botao_avancar_pagina = driver.find_element('xpath', '//*[@id="nextPage"]')
    
    driver.execute_script('arguments[0].click();', botao_avancar_pagina)
    

tabela_cadastro_etfs = pd.concat(lista_tabela_por_pagina)

formulario_de_voltar_pagina = driver.find_element('xpath', '//*[@id="goToPage"]')

formulario_de_voltar_pagina.clear()
formulario_de_voltar_pagina.send_keys('1')
formulario_de_voltar_pagina.send_keys(u'\ue007')

botao_mudar_pra_performance = driver.find_element('xpath', '/html/body/div[5]/section/div/div[3]/section/div/div/div/div/div[2]/section[2]/div[2]/ul/li[2]/span')

driver.execute_script('arguments[0].click();', botao_mudar_pra_performance)

lista_tabela_por_pagina = []

elemento = driver.find_element('xpath', '//*[@id="finderTable"]')


for pagina in range(1, numero_paginas + 1):
    
    html_tabela = elemento.get_attribute('outerHTML')
    
    tabela = pd.read_html(str(html_tabela))[0]
    
    lista_tabela_por_pagina.append(tabela)
    
    botao_avancar_pagina = driver.find_element('xpath', '//*[@id="nextPage"]')
    
    driver.execute_script('arguments[0].click();', botao_avancar_pagina)
    

tabela_rentabilidade_etfs = pd.concat(lista_tabela_por_pagina)

driver.quit()

In [5]:
tabela_rentabilidade_etfs = tabela_rentabilidade_etfs.set_index('Ticker')

tabela_cadastro_etfs = tabela_cadastro_etfs.set_index('Ticker')

# Passo 2: Escolher quais períodos de rentabilidade iremos analisar.

In [7]:
tabela_rentabilidade_etfs = tabela_rentabilidade_etfs[['1 Year', '3 Years', '5 Years']]

# Passo 3: Retirar os dados faltantes. Fundos que não possuem os períodos necessários, ficarão de fora.

In [10]:
tabela_rentabilidade_etfs = tabela_rentabilidade_etfs.replace('--', pd.NA)

tabela_rentabilidade_etfs = tabela_rentabilidade_etfs.dropna()

# Passo 4: Transformar as rentabilidades em números decimais

In [11]:
for coluna in tabela_rentabilidade_etfs.columns:
    tabela_rentabilidade_etfs[coluna] = tabela_rentabilidade_etfs[coluna].str.rstrip('%').astype(float)/100

# Passo 5: Juntar as tabelas

In [13]:
base_final = tabela_cadastro_etfs.join(tabela_rentabilidade_etfs, how = "inner")

# Passo 6: Filtrar os ETFs alavancados.

In [15]:
base_final = base_final[~base_final['Segment'].str.contains("Leveraged")]

# Passo 7: Fazer os rankings de rentabilidade por período e soma-los.

In [18]:
base_final['rank_1_anos'] = base_final['1 Year'].rank(ascending = False)
base_final['rank_3_anos'] = base_final['3 Years'].rank(ascending = False)
base_final['rank_5_anos'] = base_final['5 Years'].rank(ascending = False)
base_final['rank_final'] = (base_final['rank_1_anos'] + 
                                  base_final['rank_3_anos'] + 
                                  base_final['rank_5_anos'])

# Passo 8: Ordenar do menor ranking pro maior, encontrando os "melhores" ETFs.

In [23]:
base_final = base_final.sort_values(by = "rank_final")

base_final.head(10)

Unnamed: 0_level_0,Name,Segment,Issuer,Expense Ratio,AUM,1 Year,3 Years,5 Years,rank_1_anos,rank_3_anos,rank_5_anos,rank_final
Ticker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
SVXY,ProShares Short VIX Short-Term Futures ETF,Inverse Alternatives:Volatility S&P 500 Short-...,ProShares,0.95%,$299.29M,0.1206,0.2715,0.0682,14.0,4.0,9.0,27.0
MLPO,Credit Suisse S&P MLP Index ETN,Equity: U.S. MLPs,Credit Suisse Group AG,0.95%,$29.76M,0.1246,0.4515,0.0419,13.0,1.0,13.0,27.0
TBT,ProShares UltraShort 20+ Year Treasury,"Inverse Fixed Income: U.S. - Government, Treas...",ProShares,0.90%,$530.33M,0.3456,0.217,-0.0485,3.0,5.0,33.0,41.0
TTT,ProShares UltraPro Short 20+ Year Treasury,"Inverse Fixed Income: U.S. - Government, Treas...",ProShares,0.95%,$285.07M,0.4461,0.2859,-0.1125,1.0,3.0,49.0,53.0
TBF,ProShares Short 20+ Year Treasury,"Inverse Fixed Income: U.S. - Government, Treas...",ProShares,0.92%,$227.17M,0.1926,0.1177,-0.0101,8.0,21.0,26.0,55.0
REGL,ProShares S&P MidCap 400 Dividend Aristocrats ETF,Equity: U.S. - Mid Cap,ProShares,0.40%,$1.66B,-0.0239,0.2081,0.0794,43.0,6.0,7.0,56.0
OUNZ,VanEck Merk Gold Trust,Commodities: Precious Metals Gold,VanEck,0.25%,$691.28M,0.0437,0.0734,0.0834,27.0,26.0,5.0,58.0
NOBL,ProShares S&P 500 Dividend Aristocrats ETF,Equity: U.S. - Large Cap,ProShares,0.35%,$11.20B,-0.0327,0.2013,0.1002,45.0,10.0,3.0,58.0
PST,ProShares UltraShort 7-10 Year Treasury,"Inverse Fixed Income: U.S. - Government, Treas...",ProShares,0.95%,$37.34M,0.1132,0.1016,-0.0142,16.0,22.0,27.0,65.0
RINF,ProShares Inflation Expectations ETF,Alternatives:Spreads Inflation,ProShares,0.30%,$41.53M,0.0002,0.1342,0.0412,39.0,19.0,14.0,72.0
