In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
def scraping(uf:str):
    uf_url = f'https://www.ibge.gov.br/cidades-e-estados/{uf}.html'
    browsers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome / 86.0.4240.198Safari / 537.36'}
    page = requests.get(uf_url, headers=browsers)

    soup = BeautifulSoup(page.content, 'html.parser')
    indicadores = soup.select('.indicador')

    uf_dict = {
        dado.select('.ind-label')[0].text: dado.select('.ind-value')[0].text 
        for dado in indicadores
    }

    return uf_dict

In [3]:
estado = scraping('sp')
estado

{'Governador': 'TARCISIO GOMES DE FREITAS\xa0\xa0\xa0[2023]',
 'Capital': 'São Paulo\xa0\xa0\xa0[2010]',
 'Gentílico': 'paulista',
 'Área Territorial': '248.219,485 km²\xa0\xa0\xa0[2022]',
 'População residente': '44.411.238 pessoas\xa0\xa0\xa0[2022]',
 'Densidade demográfica': '178,92 hab/km²\xa0\xa0\xa0[2022]',
 'Matrículas no ensino fundamental': '5.396.803 matrículas\xa0\xa0\xa0[2021]',
 'IDH Índice de desenvolvimento humano': '0,806\xa0\xa0\xa0[2021]',
 'Receitas realizadas': '232.822.496,57 R$ (×1000)\xa0\xa0\xa0[2017]',
 'Despesas empenhadas': '231.982.243,69 R$ (×1000)\xa0\xa0\xa0[2017]',
 'Rendimento mensal domiciliar per capita': '2.148 R$\xa0\xa0\xa0[2022]',
 'Total de veículos': '32.293.191 veículos\xa0\xa0\xa0[2022]'}

In [4]:
for indicador in estado:
    if ']' in estado[indicador]:
        estado[indicador] = estado[indicador].split(']')[0][:-8]

estado

{'Governador': 'TARCISIO GOMES DE FREITAS',
 'Capital': 'São Paulo',
 'Gentílico': 'paulista',
 'Área Territorial': '248.219,485 km²',
 'População residente': '44.411.238 pessoas',
 'Densidade demográfica': '178,92 hab/km²',
 'Matrículas no ensino fundamental': '5.396.803 matrículas',
 'IDH Índice de desenvolvimento humano': '0,806',
 'Receitas realizadas': '232.822.496,57 R$ (×1000)',
 'Despesas empenhadas': '231.982.243,69 R$ (×1000)',
 'Rendimento mensal domiciliar per capita': '2.148 R$',
 'Total de veículos': '32.293.191 veículos'}

In [5]:
df = pd.DataFrame(estado.values(), index = estado.keys())
df

Unnamed: 0,0
Governador,TARCISIO GOMES DE FREITAS
Capital,São Paulo
Gentílico,paulista
Área Territorial,"248.219,485 km²"
População residente,44.411.238 pessoas
Densidade demográfica,"178,92 hab/km²"
Matrículas no ensino fundamental,5.396.803 matrículas
IDH Índice de desenvolvimento humano,0806
Receitas realizadas,"232.822.496,57 R$ (×1000)"
Despesas empenhadas,"231.982.243,69 R$ (×1000)"


In [6]:
def scraping_utmb():
    url = 'https://utmb.world/utmb-index/runner-search'
    browsers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome / 86.0.4240.198Safari / 537.36'}
    page = requests.get(url, headers=browsers)

    soup = BeautifulSoup(page.content, 'html.parser')
    runners = soup.select('.my-table_row__nlm_j')

    dict_names = {
        i.find('a', attrs={'class': 'link_link__96ppl link-underline'}).text: [i.find('div', attrs={'class': 'my-table_cell__z__zN col-2'}).text,
        str(i.find('div', attrs={'data-label': "nationality"}))[180:182],
        i.find('div', attrs={'data-label': "Gender"}).text,
        i.find('div', attrs={'data-label': "Age Group"}).text, 
        'https://utmb.world/'+ str(i.find('a', attrs={'class': 'link_link__96ppl link-underline'})['href'])
        ]
        for i in runners
    }

    return dict_names

In [7]:
resultado = scraping_utmb()
resultado

{'Remi BONNET': ['943',
  'ch',
  'Men',
  '20-34',
  'https://utmb.world//en/runner/687094.remi.bonnet'],
 'Kilian JORNET BURGADA': ['941',
  'es',
  'Men',
  '35-39',
  'https://utmb.world//en/runner/2704.kilian.jornetburgada'],
 'Patrick KIPNGENO': ['941',
  'ke',
  'Men',
  '20-34',
  'https://utmb.world//en/runner/4595246.patrick.kipngeno'],
 'Jonathan ALBON': ['938',
  'gb',
  'Men',
  '35-39',
  'https://utmb.world//en/runner/527631.jonathan.albon'],
 'Jim WALMSLEY': ['936',
  'us',
  'Men',
  '20-34',
  'https://utmb.world//en/runner/485740.jim.walmsley'],
 'Philemon KIRIAGO': ['933',
  'ke',
  'Men',
  '20-34',
  'https://utmb.world//en/runner/4595248.philemon.kiriago'],
 'Stian ANGERMUND': ['932',
  'no',
  'Men',
  '35-39',
  'https://utmb.world//en/runner/493528.stian.angermund'],
 'Adam PETERMAN': ['932',
  'us',
  'Men',
  '20-34',
  'https://utmb.world//en/runner/3572577.adam.peterman'],
 'Petter ENGDAHL': ['927',
  'se',
  'Men',
  '20-34',
  'https://utmb.world//en/run

In [8]:
df = pd.DataFrame(resultado.values(), index=resultado.keys())
df = df.set_axis(['Posição', 'Nacionalidade', 'Gênero', 'Faixa Etária', 'Site'], axis=1)
df


Unnamed: 0,Posição,Nacionalidade,Gênero,Faixa Etária,Site
Remi BONNET,943,ch,Men,20-34,https://utmb.world//en/runner/687094.remi.bonnet
Kilian JORNET BURGADA,941,es,Men,35-39,https://utmb.world//en/runner/2704.kilian.jorn...
Patrick KIPNGENO,941,ke,Men,20-34,https://utmb.world//en/runner/4595246.patrick....
Jonathan ALBON,938,gb,Men,35-39,https://utmb.world//en/runner/527631.jonathan....
Jim WALMSLEY,936,us,Men,20-34,https://utmb.world//en/runner/485740.jim.walmsley
Philemon KIRIAGO,933,ke,Men,20-34,https://utmb.world//en/runner/4595248.philemon...
Stian ANGERMUND,932,no,Men,35-39,https://utmb.world//en/runner/493528.stian.ang...
Adam PETERMAN,932,us,Men,20-34,https://utmb.world//en/runner/3572577.adam.pet...
Petter ENGDAHL,927,se,Men,20-34,https://utmb.world//en/runner/1065223.petter.e...
Elhousine ELAZZAOUI,925,ma,Men,20-34,https://utmb.world//en/runner/2161523.elhousin...
