# Extraindo Dados de Qualquer Site

### Helder C. Silva

## Introdução

Nesse experimento o objetivo é demonstrar como extrair dados de qualquer site aplicando o método chamado **Web Scraping**.

O **web Scraping** (raspagem de rede), também conhecido como extração de dados da web, é o nome dado ao processo de coleta de dados estruturados da web de maneira automatizada. Via de regra, essa metodologia é uasada por pessoas e empresas que desejam usar uma vasta quantidade de dados da web disponíveis publicamente para tomar decisões mais inteligente. 

O processo de raspagem básico se consiste no ato de copiar e colar informações de um site para outro meio, a diferença é que a raspagem de rede faz isso em uma escala minúscula e com automação inteligente, para extrair milhões de dados de páginas da internet. 

Lembrando que é um processo legal, tendo em vista que os dados estão livremente disponíveis, tendo em vista que só vamos extrair os dados que estão ali na tela de forma automatizada.



## Sobre a fonte dos dados

Vamos extrair os dados do site: https://www.fundamentus.com.br/ que é um sitema on-line que disponibiliza informações financeiras e fundamentalistas das empresas com ações listadas na Bovespa. Tendo em vista que o mesmo apresenta um completo banco de dados apresentado de forma acessível para auxiliar o investidor a encontrar as melhores opções de investimento. 

In [1]:
#instalando a biblioteca

!pip install bs4



In [2]:
#importando bibliotecas
from urllib.request import urlopen, urlretrieve, Request
from urllib.error import URLError, HTTPError
from bs4 import BeautifulSoup
import pandas as pd
 
#Obtendo o HTML
url = "https://www.fundamentus.com.br/resultado.php"
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36"}
 
req = Request(url,headers=headers) 
response = urlopen(req) #abrir a url
html = response.read() #fazer a leitura do response
soup = BeautifulSoup(html,'html.parser') 


#Obtendo as TAGs de interesse ( topo das informações)
lista =soup.find('table') #procurar uma tabela e trazer os resultados pra dentro da lista


In [3]:
#quantidade ações
qtd = soup.findAll('span',class_='tips') 
qtd = range(int(len(qtd)-1)) #retira o ultimo registro para não ter erro
 
#Declarando variáveis cards
resumo = []

In [4]:
#pega as primeiras informações que não entram no for
papel =  lista.find('td').find('span',class_='tips').getText()
cotacao = lista.find('td').findNext('td').contents[0]
 
for i in qtd: #looping que vai fazer a verificação passando por todas as colunas
 
  acoes ={}
    
  PL = cotacao.findNext('td').contents[0]
  PVP = PL.findNext('td').contents[0]
  PSR = PVP.findNext('td').contents[0]
  DividendYied = PSR.findNext('td').contents[0]
  PAtivo = DividendYied.findNext('td').contents[0]
  PCapGiro = PAtivo.findNext('td').contents[0]
  PEbit= PCapGiro.findNext('td').contents[0]
  PAtivoCirc= PEbit.findNext('td').contents[0]
  EVEbit= PAtivoCirc.findNext('td').contents[0]
  EVEbita= EVEbit.findNext('td').contents[0]
  MrgEbit= EVEbita.findNext('td').contents[0]
  MrgLiq= MrgEbit.findNext('td').contents[0]
  LiqCorrente= MrgLiq.findNext('td').contents[0]
  ROIC= LiqCorrente.findNext('td').contents[0]
  ROE= ROIC.findNext('td').contents[0]
  Liq2Meses= ROE.findNext('td').contents[0]
  PatriLiquido= Liq2Meses.findNext('td').contents[0]
  DivBruta_por_Patri= PatriLiquido.findNext('td').contents[0]
  Cresc_5a= DivBruta_por_Patri.findNext('td').contents[0]
 
  acoes['id']= i
  acoes['Papel'] = papel
  acoes['Cotacao'] = cotacao
  acoes['PL'] = PL
  acoes['PVP']=PVP
  acoes['DividendYied']=DividendYied
  acoes['PAtivo']=PAtivo
  acoes['PCapGiro']=PCapGiro
  acoes['PEbit']=PEbit
  acoes['PAtivoCirc']=PAtivoCirc
  acoes['EVEbit']=EVEbit
  acoes['EVEbita']=EVEbita
  acoes['MrgEbit']=MrgEbit
  acoes['MrgLiq']=MrgLiq
  acoes['LiqCorrente']=LiqCorrente
  acoes['ROIC']=ROIC
  acoes['ROE']=ROE
  acoes['Liq2Meses']=Liq2Meses
  acoes['PatriLiquido']=PatriLiquido
  acoes['DivBruta_por_Patri']=DivBruta_por_Patri
  acoes['Cresc_5a']=Cresc_5a
 
  #Adiciona o dicionário de ações em uma lista
  resumo.append(acoes) #acabou uma linha adiciona no resumo
 
  #try retorna erro por a ultima linha não encontra o span
  try:
    papel = Cresc_5a.findNext('td').span.a.contents[0]
    cotacao = papel.findPrevious('td').findNext('td').contents[0]
 
  except HTTPError as e:
    print(e.status, e.reason)

In [5]:
#cria data frame
dataset = pd.DataFrame(resumo) #armazenar diversos campos
 
dataset.head(10000)

Unnamed: 0,id,Papel,Cotacao,PL,PVP,DividendYied,PAtivo,PCapGiro,PEbit,PAtivoCirc,...,EVEbita,MrgEbit,MrgLiq,LiqCorrente,ROIC,ROE,Liq2Meses,PatriLiquido,DivBruta_por_Patri,Cresc_5a
0,0,PORP4,240,000,000,"0,00%",0000,000,000,000,...,000,"0,00%","0,00%",000,"0,00%","-2,08%",000,"22.399.000,00",000,"13,66%"
1,1,PMET3,000,000,000,"0,00%",0000,000,000,000,...,000,"0,00%","0,00%",000,"0,00%","4,10%",000,"-290.863.000,00",000,"37,74%"
2,2,MNSA4,047,000,000,"0,00%",0000,000,000,000,...,000,"-208,15%","-362,66%",363,"-13,50%","145,70%",000,"-9.105.000,00",-652,"-41,11%"
3,3,CSTB4,14769,000,000,"0,00%",0000,000,000,000,...,000,"40,85%","28,98%",260,"22,40%","20,11%",000,"8.420.670.000,00",014,"31,91%"
4,4,CFLU4,"1.000,00",000,000,"0,00%",0000,000,000,000,...,000,"8,88%","10,72%",110,"17,68%","32,15%",000,"60.351.000,00",006,"8,14%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
981,981,LWSA3,1089,94361,218,"0,00%",1411,569,34307,1299,...,4396,"1,91%","0,69%",216,"0,61%","0,23%","91.481.200,00","2.959.030.000,00",003,"51,64%"
982,982,UBBR11,1475,"1.201,81",391,"0,00%",0000,000,000,000,...,000,"0,00%","0,00%",000,"0,00%","0,33%",000,"10.317.200.000,00",000,"10,58%"
983,983,UBBR3,1800,"1.466,61",477,"0,00%",0000,000,000,000,...,000,"0,00%","0,00%",000,"0,00%","0,33%",000,"10.317.200.000,00",000,"10,58%"
984,984,CALI4,5000,"4.770,51",3982,"0,86%",0803,162,5165,-275,...,7625,"4,83%","0,05%",358,"1,79%","0,83%",000,"4.672.000,00",2654,"107,87%"


## Tratamento dos Dados

In [6]:
#Todos os elementos que tem vírgula (,), vamos alterar para ponto(.), pois são valores. 
#conversão em float

#TRATAMENTO DE DADOS CAMPO PL  
dataset['PL'] = dataset['PL'].str.replace('.', '', regex=True).replace(',', '.', regex=True)
convert_dict = {'PL': float}
dataset['PL']  = dataset['PL'].astype(convert_dict)
 
#TRATAMENTO DE DADOS CAMPO ROE
dataset['ROE'] = dataset['ROE'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'ROE': float}
dataset['ROE']  = dataset['ROE'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS CAMPO MrgLiq
dataset['MrgLiq'] = dataset['MrgLiq'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'MrgLiq': float}
dataset['MrgLiq']  = dataset['MrgLiq'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS CAMPO DIVIDA BRUTA/PATRIMONIO  
dataset['DivBruta_por_Patri'] = dataset['DivBruta_por_Patri'].str.replace('.', '', regex=True).replace(',', '.', regex=True)
convert_dict = {'DivBruta_por_Patri': float}
dataset['DivBruta_por_Patri']  = dataset['DivBruta_por_Patri'].astype(convert_dict)
 
#TRATAMENTO DE DADOS CAMPO CAGER
dataset['Cresc_5a'] = dataset['Cresc_5a'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'Cresc_5a': float}
dataset['Cresc_5a']  = dataset['Cresc_5a'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS DIVIDEND YIED
dataset['DividendYied'] = dataset['DividendYied'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'DividendYied': float}
dataset['DividendYied']  = dataset['DividendYied'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS CAMPO ROIC
dataset['ROIC'] = dataset['ROIC'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'ROIC': float}
dataset['ROIC']  = dataset['ROIC'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS CAMPO ROIC
dataset['MrgEbit'] = dataset['MrgEbit'].str.replace('.', '', regex=True).replace(',', '.', regex=True).replace('%', '', regex=True)
convert_dict = {'MrgEbit': float}
dataset['MrgEbit']  = dataset['MrgEbit'].astype(convert_dict)/100
 
#TRATAMENTO DE DADOS CAMPO PVP  
dataset['PVP'] = dataset['PVP'].str.replace('.', '', regex=True).replace(',', '.', regex=True)
convert_dict = {'PVP': float}
dataset['PVP']  = dataset['PVP'].astype(convert_dict)
 
 
#TRATAMENTO DE DADOS CAMPO EVEbit
dataset['EVEbit'] = dataset['EVEbit'].str.replace('.', '', regex=True).replace(',', '.', regex=True)
convert_dict = {'EVEbit': float}
dataset['EVEbit']  = dataset['EVEbit'].astype(convert_dict)
 
#TRATAMENTO DE DADOS CAMPO EVEbita
dataset['EVEbita'] = dataset['EVEbita'].str.replace('.', '', regex=True).replace(',', '.', regex=True)
convert_dict = {'EVEbita': float}
dataset['EVEbita']  = dataset['EVEbita'].astype(convert_dict)

In [7]:
#Blacklist de ações descontinuadas
blacklist ={
    'PTPA3'
}
 
#Filtragem de dados
selecao = (dataset['PL'] >= 1) & (dataset['ROE'] > 0) & (dataset['ROE'] < 90) &  (dataset['MrgLiq'] > 0) & (dataset['DivBruta_por_Patri'] > 1.3) &  (dataset['Cresc_5a'] > 0.1)
 
melhores_acoes = dataset[selecao].sort_values('PL', ascending=False)
melhores_acoes

Unnamed: 0,id,Papel,Cotacao,PL,PVP,DividendYied,PAtivo,PCapGiro,PEbit,PAtivoCirc,...,EVEbita,MrgEbit,MrgLiq,LiqCorrente,ROIC,ROE,Liq2Meses,PatriLiquido,DivBruta_por_Patri,Cresc_5a
984,984,CALI4,5000,4770.51,39.82,0.0086,0803,162,5165,-275,...,76.25,0.0483,0.0005,358,0.0179,0.0083,000,"4.672.000,00",26.54,1.0787
980,980,CALI3,821,783.32,6.54,0.0526,0132,027,848,-045,...,36.40,0.0483,0.0005,358,0.0179,0.0083,"4.021,27","4.672.000,00",26.54,1.0787
959,959,CEPE3,12800,115.06,6.73,0.0000,0711,591,935,-119,...,11.52,0.1278,0.0104,168,0.0894,0.0585,000,"1.420.000.000,00",5.40,0.1456
935,935,RDOR3,3328,50.44,4.94,0.0126,1193,420,1731,-395,...,15.73,0.1788,0.0639,287,0.0946,0.0979,"168.898.000,00","13.542.900.000,00",2.19,0.2931
921,921,CEPE6,4300,38.65,2.26,0.1094,0239,198,314,-040,...,6.94,0.1278,0.0104,168,0.0894,0.0585,39944,"1.420.000.000,00",5.40,0.1456
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
419,419,PTBL4,259,1.61,0.81,0.0000,0164,153,094,-049,...,1.92,0.1830,0.1064,130,0.2448,0.5009,000,"453.307.000,00",1.61,0.2099
417,417,SUZB5,2113,1.58,1.03,0.0000,0224,123,150,-045,...,3.28,0.4077,0.3889,281,0.1814,0.6524,000,"27.951.700.000,00",2.72,0.3551
412,412,SUZB6,1788,1.33,0.87,0.0000,0189,104,127,-038,...,3.12,0.4077,0.3889,281,0.1814,0.6524,000,"27.951.700.000,00",2.72,0.3551
411,411,EBEN4,1751,1.27,0.75,0.0000,0106,215,067,-020,...,2.60,0.1733,0.0909,118,0.1964,0.5882,000,"914.931.000,00",3.34,0.1036


## Conclusão

Durante o experimento foi possível realizar a extração dos dados através de um site no caso em questão foi o **Fundamentus**, contudo poderia ser qualquer site.

A técnica utilizada (web scraping) possibilita a aquisição de grandes quantidades de dados em tempo reduzido, permitindo assim análises e estudos para desenvolvimento inclusive de modelos de inteligêncial artificial. 