# Workshop Web Scraping (Semana 2 - Resolução Desafios)

**Desafio 1** - Raspe os dados do site: https://www.axi.com/int/blog/education/shares/largest-companies-in-the-world e:


1.   Liste as empresas com mais de 2 trilhões em valor de mercado
2.   Liste as empresas com menos de 1 trilhão em valor de mercado
3.   Encontre a media do valor de mercado entre todas empresas da lista


In [None]:
import requests
from bs4 import BeautifulSoup

URL_MARKET = 'https://www.axi.com/int/blog/education/shares/largest-companies-in-the-world'
page = requests.get(URL_MARKET)

bs = BeautifulSoup(page.content, 'html.parser')

table = bs.find('table')

rows = table.find_all('tr')

print(rows)

[<tr>
<td>
<h4>#</h4>
</td>
<td>
<h4>Company</h4>
</td>
<td>
<h4>Market capitalization</h4>
</td>
</tr>, <tr>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">1</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">Microsoft</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">$2.987 trillion</span></td>
</tr>, <tr>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">2</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">Apple</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">$2.611 trillion</span></td>
</tr>, <tr>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">3</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">NVIDIA</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">$2.217 trillion</span></td>
</tr>, <tr>
<td style="width: 33.3333%;"><span style="font-size: 12pt;">4</span></td>
<td style="width: 33.3333%;"><span style="font-size: 12

In [None]:
all_companies_market_cap: dict = {}
trillion_comp: dict = {}
billion_comp: dict = {}

for row in rows[1:]:
  row_td = row.find_all('td')
  company = row_td[1].text
  market_cap = row_td[2].text

  market_cap_only_number = float(market_cap.removeprefix('$').removesuffix(' trillion').removesuffix(' billion'))

  all_companies_market_cap[company] = market_cap_only_number

  if ' trillion' in market_cap:
    trillion_comp[company] = market_cap_only_number

  if ' billion' in market_cap:
    billion_comp[company] = market_cap_only_number * 0.001

for value in trillion_comp.items():
  if value[1] > 2.0:
    print(value)

for value in billion_comp.items():
  if value[1] < 1.0:
    print(value)

companies_market_cap_sum = sum(billion_comp.values()) + sum(trillion_comp.values())
print(companies_market_cap_sum)
companies_market_cap_avarage = companies_market_cap_sum / len(all_companies_market_cap)
print(companies_market_cap_avarage)

('Microsoft', 2.987)
('Apple', 2.611)
('NVIDIA', 2.217)
('Saudi Aramco', 2.042)
('Berkshire Hathaway', 0.8737)
('Eli Lilly', 0.7409)
('TSMC', 0.7343200000000001)
16.911920000000002
1.6911920000000003




---



---



**Desafio 2** - Busque no site: https://cultura.jundiai.sp.gov.br/agenda-cultural/ todos os evento que estão para acontcer em Jundiaí (inclusive das paginas sequintes 2 e 3) e forrmate os dados para que fiquem como no exemplo abaixo:

Evento: {Titulo do evento}

Local: {Local do evento}

Data: {Somente a data do evento: dd/mm/YYYY}

...

Extra: Calcular e adicionar a quantidade de dias que faltam para o evento contando a partir da data de hoje (Obs.: Será preciso importar a biblioteca datetime), ficando assim:

Evento: {Titulo do evento}

Local: {Local do evento}

Data: {Somente a data do evento: dd/mm/YYYY}

Faltam {x} dias para o evento


In [None]:
import requests
import datetime as dt
from bs4 import BeautifulSoup

EVENTS = {}

for i in range(1, 4):
  if(i == 1):
    URL = 'https://cultura.jundiai.sp.gov.br/agenda-cultural/'
  else:
    URL = f'https://cultura.jundiai.sp.gov.br/agenda-cultural/page/{i}/'

  page = requests.get(URL)
  soup = BeautifulSoup(page.content, 'html.parser')

  news_list = soup.find_all('div', {'class': 'noticia-lista'})

  for item in news_list:
    title = item.find('div', {'class': 'titulo-lista'}).text
    date = item.span.p.text
    date_split = date.split(' ', maxsplit=3)
    local = item.find('div', {'class': 'resumo-lista'}).text

    if(date_split[1] == 'De'):
      correct_date = date_split[2]
    else:
      correct_date = date_split[1]
    # print(date_split)

    EVENTS[title] = {'local': local, 'date': correct_date}

for event in EVENTS:
  local = EVENTS[event]['local']
  date =  EVENTS[event]['date']

  event = event
  today = dt.date.today()
  event_date = dt.datetime.strptime(date, '%d/%m/%Y').date()
  date_difference = event_date - today
  print(f'Evento: {event} \nLocal: {local} \nData: {date} \nFaltam {date_difference.days} dias para o evento', end='\n\n')


Evento: Glauber Cunha em “Dona S√¥nia: Eu n√£o digo √© nada” 
Local: Teatro Polytheama 
Data: 24/03/2024 
Faltam 0 dias para o evento

Evento: “La Piet√† o amor √© imbat√≠vel”, da Par√≥quia Nova Jerusal√©m 
Local: Teatro Polytheama 
Data: 26/03/2024 
Faltam 2 dias para o evento

Evento: M√∫sica & Hist√≥rias – Especial Renato Russo 
Local: Teatro Polytheama 
Data: 28/03/2024 
Faltam 4 dias para o evento

Evento: Conta√ß√£o de hist√≥ria ‘O Primeiro Ovo da P√°scoa’, com Rosangela Torrezin 
Local: F√°brica das Inf√¢ncias Japy 
Data: 30/03/2024 
Faltam 6 dias para o evento

Evento: “Entre Mares e Rios”, com a Cia. Alya 
Local: Biblioteca Municipal Professor Nelson Foot 
Data: 30/03/2024 
Faltam 6 dias para o evento

Evento: “O Concerto Hobbit”, com a Orquestra Filarm√¥nica de Jundia√≠ (OFJ)‚ÄÇ 
Local: Teatro Polytheama 
Data: 05/04/2024 
Faltam 12 dias para o evento

Evento: ‚ÄúNovo show‚Äù, com Renato Albani 
Local: Teatro Polytheama 
Data: 06/04/2024 
Faltam 13 dias para o evento

Evento:

# Desafio 2
No site: https://pt.wikipedia.org/wiki/Organiza%C3%A7%C3%A3o_para_a_Coopera%C3%A7%C3%A3o_e_Desenvolvimento_Econ%C3%B4mico

1 - Buscar a prinmeira tabela dos países membros do OCDE e listar os países e respectivos IDHs.

2 - Listar somente os países que estão no Quartil superior-médio, Quartil médio-baixo e Quartil baixo da coluna: desigualdade.

In [None]:
WIKI_URL = 'https://pt.wikipedia.org/wiki/Organiza%C3%A7%C3%A3o_para_a_Coopera%C3%A7%C3%A3o_e_Desenvolvimento_Econ%C3%B4mico'
page = requests.get(WIKI_URL)

bs = BeautifulSoup(page.content, 'html.parser')

table = bs.find_all('table', class_='wikitable sortable')
# table = bs.find_all('table', {'class': 'wikitable sortable'}) # Outra forma de buscar table (ou outra tag html) pelo atributo class
# table = bs.find('table', class_='wikitable sortable')


print(table)


In [None]:
rows = table[0].find_all('tr')
print(rows[1:])

In [None]:
ocde_countries: dict = {}
worst_inequality_rate: dict = {}
for row in rows[1:-2]:
  # print(row.find_all('td')[0].text)
  country: str = row.find_all('td')[0].text
  country = country.replace(u'\xa0', u' ') # nesse caso especifico o valor vem com caracter especial '\xa0', entao substitua com espaço ' '
  inequality: float = row.find_all('td')[5]
  # print(row.find_all('td')[5])
  ocde_countries[country] = inequality.text

  # print(inequality['style'])
  background_color = inequality['style'].replace('background:', '').replace(';','')

  # print(background_color)
  if(background_color in ('#FEFD65','#FECB98','#FF9865')):
    worst_inequality_rate[country] = inequality.text

print(worst_inequality_rate)