<a href="https://colab.research.google.com/github/danilopinho75/projetos-web-scraping/blob/main/web-scraping-e-sql.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exercício

Faça a extração de alguma tabela da Wikipedia utilizando a biblioteca BeautifulSoup

##Setup

In [1]:
!pip install jupysql
!pip install beautifulsoup4



In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import sqlite3

##Extração


In [3]:
#Fazer requisição GET e obter conteúdo HTML
url = "https://pt.wikipedia.org/wiki/Quadro_de_medalhas_dos_Jogos_Paral%C3%ADmpicos_de_Ver%C3%A3o_de_2024"
response = requests.get(url)
html = response.content

#Criar objeto Beautiful Soup
soup = BeautifulSoup(html, "html.parser")

#Encontrar tabela desejada
table = soup.find_all("table", class_="wikitable")[0]

# Extrair os dados para uma lista
data = []
for row in table.find_all("tr"):
  cols = row.find_all("td")
  if cols:
    values = [col.text.strip() for col in cols]
    data.append(values)

In [4]:
data

[['1', 'CHN China', '94', '76', '50', '220', '1'],
 ['2', 'GBR Grã-Bretanha', '49', '44', '31', '124', '2'],
 ['3', 'USA Estados Unidos', '36', '42', '27', '105', '3'],
 ['4', 'NED Países Baixos', '27', '17', '12', '56', '9'],
 ['–', 'NPA Atletas Paralímpicos Neutros', '26', '22', '23', '71', '–'],
 ['5', 'BRA Brasil', '25', '26', '38', '89', '4'],
 ['6', 'ITA Itália', '24', '15', '32', '71', '7'],
 ['7', 'UKR Ucrânia', '22', '28', '32', '82', '5'],
 ['8', 'FRA França', '19', '28', '28', '75', '6'],
 ['9', 'AUS Austrália', '18', '17', '28', '63', '8'],
 ['10', 'JPN Japão', '14', '10', '17', '41', '11'],
 ['11', 'GER Alemanha', '10', '14', '25', '49', '10'],
 ['12', 'CAN Canadá', '10', '9', '10', '29', '15'],
 ['13', 'UZB Uzbequistão', '10', '9', '7', '26', '19'],
 ['14', 'IRI Irã', '8', '10', '7', '25', '20'],
 ['15', 'SUI Suíça', '8', '8', '5', '21', '22'],
 ['16', 'POL Polônia', '8', '6', '9', '23', '21'],
 ['17', 'ESP Espanha', '7', '11', '22', '40', '12'],
 ['18', 'IND Índia', '7',

## Transformação

In [5]:
df = pd.DataFrame(data)

In [6]:
df

Unnamed: 0,0,1,2,3,4,5,6
0,1,CHN China,94,76,50,220,1
1,2,GBR Grã-Bretanha,49,44,31,124,2
2,3,USA Estados Unidos,36,42,27,105,3
3,4,NED Países Baixos,27,17,12,56,9
4,–,NPA Atletas Paralímpicos Neutros,26,22,23,71,–
...,...,...,...,...,...,...,...
81,79,MNE Montenegro,,,1,1,73
82,79,MRI Maurício,,,1,1,73
83,79,NEP Nepal,,,1,1,73
84,79,PAK Paquistão,,,1,1,73


In [7]:
df.columns = ["ordem", "pais", "medalha_de_ouro", "medalha_de_prata", "medalha_de_bronze", "total_de_medalhas", "ordem_por_total"]

In [8]:
df

Unnamed: 0,ordem,pais,medalha_de_ouro,medalha_de_prata,medalha_de_bronze,total_de_medalhas,ordem_por_total
0,1,CHN China,94,76,50,220,1
1,2,GBR Grã-Bretanha,49,44,31,124,2
2,3,USA Estados Unidos,36,42,27,105,3
3,4,NED Países Baixos,27,17,12,56,9
4,–,NPA Atletas Paralímpicos Neutros,26,22,23,71,–
...,...,...,...,...,...,...,...
81,79,MNE Montenegro,,,1,1,73
82,79,MRI Maurício,,,1,1,73
83,79,NEP Nepal,,,1,1,73
84,79,PAK Paquistão,,,1,1,73


In [9]:
df.set_index("ordem", inplace=True)

In [10]:
df

Unnamed: 0_level_0,pais,medalha_de_ouro,medalha_de_prata,medalha_de_bronze,total_de_medalhas,ordem_por_total
ordem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,CHN China,94,76,50,220,1
2,GBR Grã-Bretanha,49,44,31,124,2
3,USA Estados Unidos,36,42,27,105,3
4,NED Países Baixos,27,17,12,56,9
–,NPA Atletas Paralímpicos Neutros,26,22,23,71,–
...,...,...,...,...,...,...
79,MNE Montenegro,,,1,1,73
79,MRI Maurício,,,1,1,73
79,NEP Nepal,,,1,1,73
79,PAK Paquistão,,,1,1,73


In [11]:
print(df.dtypes)

pais                 object
medalha_de_ouro      object
medalha_de_prata     object
medalha_de_bronze    object
total_de_medalhas    object
ordem_por_total      object
dtype: object


In [12]:
colunas_numericas = ['medalha_de_ouro', 'medalha_de_prata', 'medalha_de_bronze', 'total_de_medalhas', 'ordem_por_total']

# Converte as colunas numéricas e substitui valores inválidos por NaN
df[colunas_numericas] = df[colunas_numericas].apply(pd.to_numeric, errors='coerce')

# Preencher os NaN com zero
df[colunas_numericas] = df[colunas_numericas].fillna(0).astype(int)

In [13]:
print(df.dtypes)

pais                 object
medalha_de_ouro       int64
medalha_de_prata      int64
medalha_de_bronze     int64
total_de_medalhas     int64
ordem_por_total       int64
dtype: object


In [14]:
df

Unnamed: 0_level_0,pais,medalha_de_ouro,medalha_de_prata,medalha_de_bronze,total_de_medalhas,ordem_por_total
ordem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,CHN China,94,76,50,220,1
2,GBR Grã-Bretanha,49,44,31,124,2
3,USA Estados Unidos,36,42,27,105,3
4,NED Países Baixos,27,17,12,56,9
–,NPA Atletas Paralímpicos Neutros,26,22,23,71,0
...,...,...,...,...,...,...
79,MNE Montenegro,0,0,1,1,73
79,MRI Maurício,0,0,1,1,73
79,NEP Nepal,0,0,1,1,73
79,PAK Paquistão,0,0,1,1,73


## Carregamento

In [15]:
%load_ext sql

In [16]:
%%sql sqlite://

In [17]:
%sql --persist df

In [18]:
%%sql
SELECT * FROM df;

ordem,pais,medalha_de_ouro,medalha_de_prata,medalha_de_bronze,total_de_medalhas,ordem_por_total
1,CHN China,94,76,50,220,1
2,GBR Grã-Bretanha,49,44,31,124,2
3,USA Estados Unidos,36,42,27,105,3
4,NED Países Baixos,27,17,12,56,9
–,NPA Atletas Paralímpicos Neutros,26,22,23,71,0
5,BRA Brasil,25,26,38,89,4
6,ITA Itália,24,15,32,71,7
7,UKR Ucrânia,22,28,32,82,5
8,FRA França,19,28,28,75,6
9,AUS Austrália,18,17,28,63,8


## Consultas SQL

#### RANKING TOP 5 Países GERAL

In [34]:
%%sql

SELECT
  pais,
  total_de_medalhas,
  ordem_por_total
FROM df
WHERE ordem_por_total > 0
GROUP BY ordem_por_total
LIMIT 5

pais,total_de_medalhas,ordem_por_total
CHN China,220,1
GBR Grã-Bretanha,124,2
USA Estados Unidos,105,3
BRA Brasil,89,4
UKR Ucrânia,82,5


Fiz a consulta dos top 5 países que melhor rankearam na ordem total, ou seja, que mais possuíram medalhas.

#### Países com mais medalhas de ouro

In [35]:
%%sql
SELECT
  pais,
  medalha_de_ouro,
  ordem_por_total
FROM df
ORDER BY medalha_de_ouro DESC

pais,medalha_de_ouro,ordem_por_total
CHN China,94,1
GBR Grã-Bretanha,49,2
USA Estados Unidos,36,3
NED Países Baixos,27,9
NPA Atletas Paralímpicos Neutros,26,0
BRA Brasil,25,4
ITA Itália,24,7
UKR Ucrânia,22,5
FRA França,19,6
AUS Austrália,18,8


Países baixos ficou em quarto de mais medalhas de ouro, mas não ficou entre os top 5 em quantidade de medalhas no geral

#### Percentual de medalhas