#**Índia**
---



In [None]:
#Importa as funções de Beautiful Soup que vão parsear os dados obtidos do website
from bs4 import BeautifulSoup
#Importa a biblioteca usada para carregar o website
import requests

In [None]:
#Especifica a url e carrega o website e retorna o html para a variável 'page'
wiki = 'https://en.wikipedia.org/wiki/List_of_state_and_union_territory_capitals_in_India'
r = requests.get(wiki)

In [None]:
#Parseia a página ao beautifulsoup
soup = BeautifulSoup(r.content, 'html.parser')

In [None]:
soup

In [None]:
soup.a

In [None]:
soup.title.string

In [None]:
soup.find_all('a')

In [None]:
links = soup.find_all('a')
for link in links:
  print(link.get('href'))

In [None]:
tabelas = soup.find_all('table')
soup.find_all('table', class_='wikitable sortable plainrowheaders')

In [None]:
for c in tabelas:
  print(c.td.text)

#**Medium**
---

In [None]:
#importando as libs
from urllib.request import urlopen
#definindo a url alvo
url = 'http://pythonscraping.com/pages/page1.html'
#requisição para usar o html
html = urlopen(url)
#verificando o html
html.read()

In [None]:
from bs4 import BeautifulSoup
url = 'https://www.python.org'
html = urlopen(url)
#convertendo em bs
soup = BeautifulSoup(html, 'lxml')
#imprimindo uma parte do código
soup.title

In [None]:
#encontrando uma tag específica
h1 = soup.find_all('h1')
#contando o nº de ocorrências dessa tag
print(f'Há {len(h1)} ocorrências de h1')

In [None]:
#encontra a primeira ocorrência de uma tag
soup.find('h1')

In [None]:
#trocando url
url = 'https://www.wikipedia.org/'
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')
print(soup.find('span', class_="central-textlogo__image sprite svg-Wikipedia_wordmark"))
print(soup.find('span', class_="central-textlogo__image sprite svg-Wikipedia_wordmark").text)
#selecionando id (língua)
print(soup.find(id='js-link-box-pt').text)

In [None]:
print(soup.find(id='js-link-box-pt'))

In [None]:
#Selecionar todas as tags strong dentro de div
print(soup.select('div strong'))
print('\n')
#Agora todas as tags input dentro de forms dentro de divs
print(soup.select('div form input'))

In [None]:
#Aqui selecionamos pela classe pure-form todos os inputs dentro dela
print(soup.select('.pure-form input'))
print('\n')
#Aqui selecionamos pela classe pure-form todos os inputs dentro dela
print(soup.select('#search-form'))

#**Projeto**
---
Importar uma lista dos 250 filmes mais bem listados do IMDB

In [None]:
#importando as libs
import pandas as pd
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

In [None]:
#URL base
url = 'https://www.imdb.com/chart/top'

In [None]:
#Tratando erros
try:
  html = urlopen(url)
except HTTPError as e:
  #erros http
  print(e)
except URLError as e:
  print("The server couldn't be found!")

In [None]:
#Sopa
soup = BeautifulSoup(html, 'lxml')

#Imprimindo o título
filmes = soup.select('.lister-list tr')

In [None]:
#Fazendo as listas
titulos = []
diretores_escritores = []
anos = []
ratings = []

for filme in filmes:
  titulos.append(filme.find('td', class_='titleColumn').find('a').get_text())
  diretores_escritores.append(filme.find('td', class_='titleColumn').find('a')['title'])
  anos.append(filme.find('td', class_='titleColumn').find('span').get_text()[1:5])
  ratings.append(filme.find('td', class_='imdbRating').find('strong').get_text())

In [None]:
#pandas dataframe
df = pd.DataFrame({
    'Título' : titulos,
    'Diretores_Escritores' : diretores_escritores,
    'Ano' : anos,
    'Nota' : ratings})
df.head()

In [None]:
#criando um csv pelo pandas
from google.colab import files
df.to_csv('imdb_250.csv')
files.download('imdb_250.csv')

#**Ibov - B3**
---

In [None]:
#link base: http://www.b3.com.br/pt_br/produtos-e-servicos/negociacao/renda-variavel/fundos-de-investimentos/fii/fiis-listados/
from urllib.request import urlopen
import urllib
from bs4 import BeautifulSoup
#link
url = 'http://bvmf.bmfbovespa.com.br/Fundos-Listados/FundosListados.aspx?tipoFundo=imobiliario&Idioma=pt-br'

html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')

tabela = soup.select('table tr')

In [None]:
razao = list()
fundo = list()
segmento = list()
codigo = list()

for c in range(1, len(tabela)):
  razao.append(tabela[c].find('td').get_text())
  fundo.append(tabela[c].find('td').find_next('td').get_text())
  segmento.append(tabela[c].find('td').find_next('td').find_next('td').get_text())
  codigo.append(tabela[c].find('td').find_next('td').find_next('td').find_next('td').get_text())

In [None]:
cnpj = list()
classificação = list()
site = list()

for c in range(1, len(tabela)):
  link = 'http://bvmf.bmfbovespa.com.br/Fundos-Listados/' + tabela[c].find('a')['href']
  outros = urlopen(link)
  soup_others = BeautifulSoup(outros, 'html.parser')
  t = soup_others.find('tbody')
  #CNPJ
  try:
    cnpj.append(t.find(id='ctl00_contentPlaceHolderConteudo_ucFundoDetalhes_lblCNPJ').get_text())    
  except:
    cnpj.append('')
  #Classificação Setorial
  try:
    classificação.append(t.find(id='ctl00_contentPlaceHolderConteudo_ucFundoDetalhes_lblClassificacaoSetorial').get_text())    
  except:
    classificação.append('')
  #Site
  try:
    site.append(t.find(id='ctl00_contentPlaceHolderConteudo_ucFundoDetalhes_linhaSite').find('a')['href'])
  except:
    site.append('')

In [None]:
#classificação.append(t.find('tr').find_next('tr').find_next('tr').find_next('tr').find('td').find_next('td').get_text())
#site.append(t.find('tr').find_next('tr').find_next('tr').find_next('tr').find_next('tr').find('a')['href'])
#print(t.find('tr').find_next('tr').find_next('tr').find('td').find_next('td').get_text())

In [None]:
#pandas
import pandas as pd
df = pd.DataFrame({
    'Razão Social' : razao,
    'Fundo' : fundo,
    'Segmento' : segmento,
    'Código' : codigo,
    'CNPJ' : cnpj,
    'Classificação Setorial' : classificação,
    'Site' : site})
df.head()

In [None]:
from google.colab import files
df.to_csv('B3-Ibov-att.csv')
files.download('B3-Ibov-att.csv')

#**Ibov - B3 (2)**
---

In [None]:
#link base: http://www.b3.com.br/pt_br/produtos-e-servicos/negociacao/renda-variavel/fundos-de-investimentos/fii/fiis-listados/
import json
from urllib.request import urlopen
from bs4 import BeautifulSoup

#link
url = 'http://bvmf.bmfbovespa.com.br/Fundos-Listados/FundosListados.aspx?tipoFundo=imobiliario&Idioma=pt-br'

html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')

tabela = soup.select('table tr')

In [None]:
FII = list()
dic = dict()

for c in range(1, len(tabela)):
  proventos = list()
  dicprovento = dict()
  valor = list()
  #abrindo cada link individualmente
  link = 'http://bvmf.bmfbovespa.com.br/Fundos-Listados/' + tabela[c].find('a')['href']
  outros = urlopen(link)
  soup_others = BeautifulSoup(outros, 'html.parser')

  #coleta dos dados principais
  try: #informações gerais
    dic['fundo'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblNomeFundoValor').get_text()
    dic['segmento'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblSegmentoValor').get_text()
    dic['codigo'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblCodigoValor').get_text()
    dic['lote'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblLotePadraoNegValor').get_text()
    dic['cotacao'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblCotacaoUnitariaValor').get_text()
    dic['qtcotas'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblQtdeCotasValor').get_text()
    dic['formacotas'] = soup_others.find(id='ctl00_contentPlaceHolderConteudo_ucEventosCorporativos_lblFormaCotasValor').get_text()
  except:
    continue

  #coleta dos proventos
  prov = soup_others.select('tbody tr')
  for c in range(16, len(prov)):
    trat = prov[c].find('td').get_text()  
    if trat == 'RENDIMENTO':    
      try:
        dicprovento['isin'] = prov[c].find('td', align='left').get_text()
        dicprovento['deliberado_em'] = prov[c].find('td', align='center').get_text()
        dicprovento['valor'] = prov[c].find('td', align='right').get_text()
        dicprovento['relativo'] = prov[c].find('td', align='center').find_next('td').find_next('td', align='center').get_text()
        dicprovento['inicio_pag'] = prov[c].find('td', align='center').find_next('td').find_next('td', align='center').find_next('td').get_text()
      except:
        continue
    else:
      continue
    #colocando cada linha dentro de um dict, passando pra lista e limpando para coletar dados de outra linha
    proventos.append(dicprovento.copy())
    dicprovento.clear()


  #adicionando todas as informações dentro de um dict, colocando na lista dos FII's e limpando para adicionar mais dados
  if len(proventos) >= 1:
    dic['proventos'] = proventos[:]
  FII.append(dic.copy())
  dic.clear()
#convertendo p/ json file
with open('fiis.json', 'w') as json_file:
  json.dump(FII, json_file, indent=2)

In [None]:
#lendo o arquivo
!cat fiis.json

[
  {
    "fundo": "FII AUTONOMY",
    "segmento": "BOLSA",
    "codigo": "AIEC",
    "lote": "1",
    "cotacao": "19/02/2020",
    "qtcotas": "4.825.000",
    "formacotas": "Escritural - BANCO MODAL S.A"
  },
  {
    "fundo": "FII BC FUND ",
    "segmento": "BOLSA",
    "codigo": "BRCR",
    "lote": "1",
    "cotacao": "01/10/2012",
    "qtcotas": "26.638.202",
    "formacotas": "Escritural - BTG PACTUAL SERVI\u00c7OS FINANC. S.A. DTVM"
  },
  {
    "fundo": "FII EXCELLEN",
    "segmento": "BOLSA",
    "codigo": "FEXC",
    "lote": "1",
    "cotacao": "02/05/2017",
    "qtcotas": "3.421.945",
    "formacotas": "Escritural - BTG PACTUAL SERVI\u00c7OS FINANC. S.A. DTVM",
    "proventos": [
      {
        "isin": "BRFEXCCTF007",
        "deliberado_em": "08/09/2020",
        "valor": "0,50000000000",
        "relativo": "Agosto/2020",
        "inicio_pag": "15/09/2020"
      },
      {
        "isin": "BRFEXCR10M19",
        "deliberado_em": "08/09/2020",
        "valor": "0,01550168000

In [None]:
from google.colab import files
files.download('fiis.json')

In [None]:
#test
link = 'http://bvmf.bmfbovespa.com.br/Fundos-Listados/' + tabela[7].find('a')['href']
outros = urlopen(link)
soup_others = BeautifulSoup(outros, 'html.parser')

prov = soup_others.select('tbody tr')



for c in range(16, len(prov)):
  trat = prov[c].find('td').get_text()  
  if trat == 'RENDIMENTO':
    print(trat)
  #print(prov[c].find('td', align='left').get_text())
  #print(prov[c].find('td', align='center').get_text())
  #print(prov[c].find('td', align='right').get_text())
  #print(prov[c].find('td', align='center').find_next('td').find_next('td', align='center').get_text())
  #print(prov[c].find.find('td', align='center').find_next('td').find_next('td', align='center').find_next('td').get_text())