# Projeto 2 - Como pegar dados de um site com Python? - Pegando dados de ETFs do mundo inteiro.


### Desafio:

* Construir um código que vá no site etf.com e busque dados de todos os etfs do mercado americano e, consequentemente, do mundo. Rentabilidades, patrimônio, gestora, taxa...   
* Lembrar de sempre trazer outros tipos de cenários onde a pessoa precisa pegar dados de sites etc.


### Passo a passo:

   **Passo 1** - Definir um navegador que você irá utilizar para navegar com o Python.

   **Passo 2** - Importar os módulos e bibliotecas.
   
   **Passo 3** - Entender como funcionam requisições na internet.
   
   **Passo 4** - Conhecer e mapear o processo de coleta de dados no site do ETF.com. 
   
   **Passo 5** - Achar todos os elementos necessários dentro do HTML do site.
   
   **Passo 6** - Ler a tabela de dados.
   
   **Passo 7** - Construir a tabela final.

# Passo 1: Escolher o navegador.

No nosso caso, utilizaremos o Google Chrome. 

# Passo 2: Importar as bibliotecas.

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd

# Passo 3: Entender como funcionam requisições na internet.

In [2]:
driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))

driver.get('https://www.etf.com/etfanalytics/etf-finder')

# Passo 4: Conhecer e mapear o processo de coleta de dados no site do ETF.com.

# Passo 5.1: Achar todos os elementos necessários dentro do HTML do site - Expandindo a tabela para 100 itens.

In [3]:
time.sleep(5)

botao_100 = driver.find_element("xpath",
                               '/html/body/div[5]/section/div/div[3]/section/div/div/div/div/div[2]/section[2]/div[2]/section[2]/div[1]/div/div[4]/button/label/span')

botao_100.click()

#driver.execute_script("arguments[0].click();", botao_100)


# Passo 5.2: Achar todos os elementos necessários dentro do HTML do site - Pegando o número de páginas da tabela.

In [4]:
numero_paginas = driver.find_element("xpath", '//*[@id="totalPages"]')

numero_paginas = numero_paginas.text.replace("of ", "")

numero_paginas = int(numero_paginas)

numero_paginas

32

# Passo 6.1: Lendo a tabela de dados - Lendo a tabela de dados básicos.

In [5]:
elemento = driver.find_element("xpath", '//*[@id="finderTable"]')

html_tabela = elemento.get_attribute('outerHTML')

tabela = pd.read_html(str(html_tabela))[0]

tabela

Unnamed: 0,Ticker,Name,Segment,Issuer,Expense Ratio,AUM
0,SPY,SPDR S&P 500 ETF Trust,Equity: U.S. - Large Cap,State Street Global Advisors,0.09%,$370.35B
1,IVV,iShares Core S&P 500 ETF,Equity: U.S. - Large Cap,Blackrock,0.03%,$304.93B
2,VOO,Vanguard S&P 500 ETF,Equity: U.S. - Large Cap,Vanguard,0.03%,$285.54B
3,VTI,Vanguard Total Stock Market ETF,Equity: U.S. - Total Market,Vanguard,0.03%,$280.86B
4,QQQ,Invesco QQQ Trust,Equity: U.S. - Large Cap,Invesco,0.20%,$172.61B
...,...,...,...,...,...,...
95,BIV,Vanguard Intermediate-Term Bond ETF,"Fixed Income: U.S. - Broad Market, Broad-based...",Vanguard,0.04%,$14.14B
96,VXF,Vanguard Extended Market ETF,Equity: U.S. - Extended Market,Vanguard,0.06%,$13.83B
97,HYG,iShares iBoxx USD High Yield Corporate Bond ETF,"Fixed Income: U.S. - Corporate, Broad-based Hi...",Blackrock,0.48%,$13.76B
98,XLI,Industrial Select Sector SPDR Fund,Equity: U.S. Industrials,State Street Global Advisors,0.10%,$13.64B


In [6]:
lista_tabela_por_pagina = []

elemento = driver.find_element("xpath", '//*[@id="finderTable"]')

for pagina in range(1, numero_paginas + 1):
    
    html_tabela = elemento.get_attribute('outerHTML')
    
    tabela = pd.read_html(str(html_tabela))[0]
    
    lista_tabela_por_pagina.append(tabela)
    
    botao_avancar_pagina = driver.find_element("xpath", '//*[@id="nextPage"]')
    
    botao_avancar_pagina.click()
    
    
tabela_cadastro_etfs = pd.concat(lista_tabela_por_pagina)

tabela_cadastro_etfs

ElementClickInterceptedException: Message: element click intercepted: Element <span id="nextPage" class="nextPageActive pull-right pointer" type="button"></span> is not clickable at point (925, 539). Other element would receive the click: <p>...</p>
  (Session info: chrome=111.0.5563.64)
Stacktrace:
#0 0x55db24859243 <unknown>
#1 0x55db2461d7a6 <unknown>
#2 0x55db2466148f <unknown>
#3 0x55db2465f3e6 <unknown>
#4 0x55db2465cc9e <unknown>
#5 0x55db2465bd18 <unknown>
#6 0x55db2464fa65 <unknown>
#7 0x55db2467b082 <unknown>
#8 0x55db2464f2e3 <unknown>
#9 0x55db2467b24e <unknown>
#10 0x55db24693932 <unknown>
#11 0x55db2467ae53 <unknown>
#12 0x55db2464d9ea <unknown>
#13 0x55db2464eb2e <unknown>
#14 0x55db248add5e <unknown>
#15 0x55db248b1a80 <unknown>
#16 0x55db248938b0 <unknown>
#17 0x55db248b2b63 <unknown>
#18 0x55db24884f75 <unknown>
#19 0x55db248d5998 <unknown>
#20 0x55db248d5b27 <unknown>
#21 0x55db248f0c23 <unknown>
#22 0x7fcceb294b43 <unknown>


# Passo 6.2: Ler a tabela de dados - Preenchendo um campo no site pra voltar as páginas

In [None]:
formulario_de_voltar_pagina = driver.find_element("xpath", '//*[@id="goToPage"]')

formulario_de_voltar_pagina.clear()
formulario_de_voltar_pagina.send_keys("1")
formulario_de_voltar_pagina.send_keys(u'\ue007')

# Passo 6.3: Ler a tabela de dados - Lendo a tabela de dados de rentabilidade.

In [None]:
botao_mudar_pra_performance = driver.find_element("xpath", '/html/body/div[5]/section/div/div[3]/section/div/div/div/div/div[2]/section[2]/div[2]/ul/li[2]/span')

botao_mudar_pra_performance.click()

# a partir daqui é tudo igual

lista_tabela_por_pagina = []

elemento = driver.find_element("xpath", '//*[@id="finderTable"]')

for pagina in range(1, numero_paginas + 1):
    
    html_tabela = elemento.get_attribute('outerHTML')
    
    tabela = pd.read_html(str(html_tabela))[0]
    
    lista_tabela_por_pagina.append(tabela)
    
    botao_avancar_pagina = driver.find_element("xpath", '//*[@id="nextPage"]')
    
    driver.execute_script("arguments[0].click();", botao_avancar_pagina)
    
    
tabela_rentabilidade_etfs = pd.concat(lista_tabela_por_pagina)

tabela_rentabilidade_etfs

In [None]:
driver.quit()

In [None]:
tabela_cadastro_etfs

In [None]:
tabela_rentabilidade_etfs

# Passo 7: Construindo a tabela final.

In [None]:
tabela_rentabilidade_etfs = tabela_rentabilidade_etfs.set_index("Ticker")
tabela_rentabilidade_etfs = tabela_rentabilidade_etfs[['1 Year', '3 Years', '5 Years']]
tabela_cadastro_etfs = tabela_cadastro_etfs.set_index("Ticker")

In [None]:
base_de_dados_final = tabela_cadastro_etfs.join(tabela_rentabilidade_etfs, how = 'inner')

base_de_dados_final