# Web Scraping



* Scraping consiste em uma aplicação capaz de consultar um servidor web, solicitar dados, analisar e extrair as informações necessárias.
* A prática de Web Scraping normalmente é uma solução quando não há outras maneiras de coletar dados necessários a um projeto, mas em muitos casos também é a prática de acelerar um processo que antes era feito manualmente.
* Muitas vezes bases de dados públicos não estão disponíveis para serem consumidas, entretanto os dados estão disponíveis por meio de acesso às páginas Web, o Scraping funciona muito bem para esse tipo de proposta.
* Lembre-se sempre que com a LGPD a coleta de dados é
sempre algo que precisa ser pensado com muito cuidado.
Nem todo dado que está público pode ser consumido e
utilizado (como por exemplo os preços de um e-commerce)
* Ao pensar em Scraping, imagine um conjunto de dados que precisa coletar e juntar, e que um "robozinho" vai fazer isso pra você. Ahhh, e o robozinho é você quem vai fazer!!



## Biblioteca BeautifulSoup



*   A biblioteca BeautifulSoup para Python, é uma das bibliotecas mais utilizadas para fazer web scraping.
*   Há muitas outras bibliotecas para scraping, como **Selenium** e **Scrapy**, que também têm funcionalidades parecidas. Cada uma delas tem suas vantagens e desvantagens, entretanto uma grande vantagem entre elas é que a lógica de pensamento para operá-las tem alguma similaridade.
*   A biblioteca **BeautifulSoup** constrói uma árvore a partir de vários elementos de uma página e fornece uma interface simples para acessá-los.

Para poder utilizar a biblioteca BeautifulSoup vamos precisar da ajuda da **biblioteca Requests** e de um **parseador html**.


## Importar as Bibliotecas

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Vamos dar uma olhada na página que vamos fazer scraping

https://statisticstimes.com/tech/top-computer-languages.php

## Vamos coletar a página

In [3]:
html = requests.get("https://statisticstimes.com/tech/top-computer-languages.php").text
soup = BeautifulSoup(html, 'html5lib')

## Encontrar o primeiro parágrafo



In [4]:
# estou mandando procurar a tag P e colocar na variável primeiro_paragrafo
primeiro_paragrafo = soup.find('p')
primeiro_paragrafo

<p>Python is the top programming language in TIOBE and PYPL Index. C closely follow Top-ranked Python in TIOBE. 
In PYPL, a gap is wider as top-ranked Python has taken a lead of close to 10% from 2nd ranked Java.</p>

In [5]:
primeiro_paragrafo.text

'Python is the top programming language in TIOBE and PYPL Index. C closely follow Top-ranked Python in TIOBE. \nIn PYPL, a gap is wider as top-ranked Python has taken a lead of close to 10% from 2nd ranked Java.'

## Pegar todos os parágrafos (função find_all)

In [10]:
# find_all puxa uma lista com todos os parágrafos do site
todos_paragrafos = soup.find_all('p')
todos_paragrafos

[<p>Python is the top programming language in TIOBE and PYPL Index. C closely follow Top-ranked Python in TIOBE. 
 In PYPL, a gap is wider as top-ranked Python has taken a lead of close to 10% from 2nd ranked Java.</p>,
 <p><b>TIOBE:</b> Python, C, Java and C++ are way ahead of others in TIOBE Index. C++ is about to surpass Java.
 C# and Visual Basic are very close to each other at 5th and 6th number. These four have negative
 trends in the past five years: Java, C, C#, and PHP. PHP was at 3rd position in Mar 2010 is now at 13th. 
 Positions of Java and C have not been much affected, but their ratings are constantly declining. The rating
 of Java has declined from 26.49% in June 2001 to 10.47% in Jun 2022.</p>,
 <p><b>PYPL:</b> Acc to PYPL, which publishes separate ranking for five countries, Python is the top language in all five countries
 (US, India, Germany, United Kingdom, France). Python has taken a huge lead in these five countries over the 2nd number
 of Java, and its shares ar

In [12]:
todos_paragrafos[0]

<p>Python is the top programming language in TIOBE and PYPL Index. C closely follow Top-ranked Python in TIOBE. 
In PYPL, a gap is wider as top-ranked Python has taken a lead of close to 10% from 2nd ranked Java.</p>

## Agora vamos pegar todos os links

In [13]:
todos_links = soup.find_all('a')
todos_links

[<a href="/index.php">
 <img alt="statisticstimes" height="90" src="/statistics.png" width="200"/>
 </a>,
 <a href="/index.php">World</a>,
 <a href="/india.php">India</a>,
 <a href="/economy/world-statistics.php">World</a>,
 <a href="/economy/country-statistics.php">Country</a>,
 <a href="/economy/india-statistics.php">India</a>,
 <a href="/demographics/world-statistics.php">World</a>,
 <a href="/demographics/country-statistics.php">Country</a>,
 <a href="/demographics/india-statistics.php">India</a>,
 <a href="/health/coronavirus-statistics.php">Coronavirus</a>,
 <a href="/politics/india-statistics.php">India</a>,
 <a href="/geography/world-statistics.php">World</a>,
 <a href="/geography/india-statistics.php">India</a>,
 <a href="/tech/world-statistics.php">Tech</a>,
 <a href="/sports/world-statistics.php">World</a>,
 <a href="/sports/india-statistics.php">India</a>,
 <a href="/ranking/world-statistics.php">Ranking</a>,
 <a href="/article/world-statistics.php">World</a>,
 <a href="/ar

## Vamos inspecionar a tabela para pegar os dados da tabela "PLP Index (Worldwide)"

In [28]:
tabela = soup.find('table', {'id': 'table_id1'}).find('tbody')
tabela

<tbody>
<tr><td class="data1">1</td><td class="data1"></td><td class="name">Python</td><td class="data1"> 27.61 %</td><td class="data1">-2.8 %</td></tr>
<tr><td class="data1">2</td><td class="data1"></td><td class="name">Java</td><td class="data1"> 17.64 %</td><td class="data1">-0.7 %</td></tr>
<tr><td class="data1">3</td><td class="data1"></td><td class="name">JavaScript</td><td class="data1"> 9.21 %</td><td class="data1">+0.4 %</td></tr>
<tr><td class="data1">4</td><td class="data1"></td><td class="name">C#</td><td class="data1"> 7.79 %</td><td class="data1">+0.8 %</td></tr>
<tr><td class="data1">5</td><td class="data1"></td><td class="name">C/C++</td><td class="data1"> 7.01 %</td><td class="data1">+0.4 %</td></tr>
<tr><td class="data1">6</td><td class="data1"></td><td class="name">PHP</td><td class="data1"> 5.27 %</td><td class="data1">-1.0 %</td></tr>
<tr><td class="data1">7</td><td class="data1"></td><td class="name">R</td><td class="data1"> 4.26 %</td><td class="data1">+0.5 %</td

In [31]:
linhas = tabela.find_all('tr')

for linha in linhas:
  dado = linha.find_all('td')
  print(dado[0].text)
  print(dado[2].text)
  print(dado[3].text)
  print('-----')

1
Python
 27.61 %
-----
2
Java
 17.64 %
-----
3
JavaScript
 9.21 %
-----
4
C#
 7.79 %
-----
5
C/C++
 7.01 %
-----
6
PHP
 5.27 %
-----
7
R
 4.26 %
-----
8
TypeScript
 2.43 %
-----
9
Objective-C
 2.21 %
-----
10
Swift
 2.17 %
-----
11
Matlab
 1.71 %
-----
12
Kotlin
 1.57 %
-----
13
Go
 1.48 %
-----
14
Rust
 1.29 %
-----
15
Ruby
 1.1 %
-----
16
VBA
 1.07 %
-----
17
Ada
 0.95 %
-----
18
Scala
 0.73 %
-----
19
Visual Basic
 0.65 %
-----
20
Dart
 0.64 %
-----
21
Abap
 0.58 %
-----
22
Lua
 0.51 %
-----
23
Groovy
 0.48 %
-----
24
Perl
 0.44 %
-----
25
Julia
 0.41 %
-----
26
Cobol
 0.34 %
-----
27
Haskell
 0.29 %
-----
28
Delphi/Pascal
 0.16 %
-----


## Montar uma lista de linguagens e de porcentagem com os dados, para depois compor um dataframe

In [34]:
linguagem = []
pontos = []

for linha in linhas:
  dado = linha.find_all('td')
  linguagem.append(dado[2].text)
  pontos.append(dado[3].text)

In [35]:
print(linguagem)
print(pontos)

['Python', 'Java', 'JavaScript', 'C#', 'C/C++', 'PHP', 'R', 'TypeScript', 'Objective-C', 'Swift', 'Matlab', 'Kotlin', 'Go', 'Rust', 'Ruby', 'VBA', 'Ada', 'Scala', 'Visual Basic', 'Dart', 'Abap', 'Lua', 'Groovy', 'Perl', 'Julia', 'Cobol', 'Haskell', 'Delphi/Pascal']
[' 27.61 %', ' 17.64 %', ' 9.21 %', ' 7.79 %', ' 7.01 %', ' 5.27 %', ' 4.26 %', ' 2.43 %', ' 2.21 %', ' 2.17 %', ' 1.71 %', ' 1.57 %', ' 1.48 %', ' 1.29 %', ' 1.1 %', ' 1.07 %', ' 0.95 %', ' 0.73 %', ' 0.65 %', ' 0.64 %', ' 0.58 %', ' 0.51 %', ' 0.48 %', ' 0.44 %', ' 0.41 %', ' 0.34 %', ' 0.29 %', ' 0.16 %']


In [36]:
dados = pd.DataFrame(linguagem, columns = ['Linguagem'])
dados['Pontos'] = pontos
dados

Unnamed: 0,Linguagem,Pontos
0,Python,27.61 %
1,Java,17.64 %
2,JavaScript,9.21 %
3,C#,7.79 %
4,C/C++,7.01 %
5,PHP,5.27 %
6,R,4.26 %
7,TypeScript,2.43 %
8,Objective-C,2.21 %
9,Swift,2.17 %
