In [39]:
#Vamos importar as bibliotecas para trabalhar com o selenium. Precisamos importar um webdriver e o pacote ```By```, 
#que utilizaremos a seguir para definir a forma de busca dos elementos web.
from selenium import webdriver
from selenium.webdriver.common.by import By
from dataclasses import dataclass
import re
import json
import time



In [40]:
#Abaixo vamos inicializar uma sessão em um navegador Chrome utilizando o driver apropriado. Caso vá utilizar outro navegador, modifique o driver de acordo.
driver = webdriver.Chrome()
#O comando ```get()``` abaixo acessa a página web localizada no link passado como parâmetro no navegador.
driver.get("https://www.imdb.com")
driver.maximize_window()

In [41]:
#A função ```find_element()``` do Selenium encontra um elemento da árvore de acordo com algum tipo de localizador.
# ID = busca pelo atributo id
#    XPATH = busca pelo XPATH do elemento
#    LINK_TEXT = busca pelo texto de um link
#    PARTIAL_LINK_TEXT = busca pelo texto parcial de um link
#    NAME = busca pelo atributo "name"
#    TAG_NAME = busca pelo nome da tag
#    CLASS_NAME = busca pelo nome do atributo classe
#    CSS_SELECTOR = busca pelo nome do seletor CSS

#Lembrando que:
#-  ```'//'``` indica que o endereço inicia da raíz do objeto DOM
#- ```'*'``` indica que o elemento pode ter qualquer tag
#- ```'[@id="imdbHeader-navDrawerOpen"]'``` indica que o elemento deve possuir o atributo *id* com o valor *imdbHeader-navDrawerOpen*.
menu = driver.find_element(By.XPATH, r"//*[@id='imdbHeader-navDrawerOpen']")

In [42]:
#Podemos ver que o objeto retornado pela função ```find_element()``` é um objeto do tipo ```WebElement```,
#  uma classe implementada pela biblioteca Selenium para representar um elemento web html.
menu.tag_name
#Agora, vamos pedir para o driver realizar uma ação de clique no navegador no elemento que selecionamos.
menu.click()

In [43]:
#A função ```click()``` acima fez com que o menu fosse aberto no site, e, com isso, o código javascript ser executado dinamicamente 
#para gerar novos elementos web para criar os links no menu.
#Podemos agora procurar pelo elemento que armazena o link para página de filmes mais populares que queremos acessar.
#Desta vez, vamos utilizar como estratégia de localização o texto presente no link.
link_populares = driver.find_element(By.LINK_TEXT, "As 250 séries mais bem avaliadas")


In [44]:
#Podemos ver abaixo que a função ```find_element()``` retornou novamente um objeto ```WebElement```, 
#mas que agora que representa uma elemento do tipo *link* (TAG **a** do html).
link_populares.tag_name
#para a brir o link
url = link_populares.get_attribute("href")
#Com o link correto em mãos, podemos novamente pedir para o driver realizar uma ação no navegador e acessar a página de filmes mais populares.
driver.get(url)
tag_ul = driver.find_element(By.XPATH, r'//*[@id="__next"]/main/div/div[3]/section/div/div[2]/div/ul')
lista_series = tag_ul.find_elements(By.TAG_NAME, "li")

type(lista_series)
lista_series

for serie in lista_series:
    titulo =serie.find_element(By.CLASS_NAME, "ipc-title__text").text
    nota = serie.find_element(By.CLASS_NAME, "ipc-rating-star--rating").text#class="ipc-rating-star--rating"
    link = serie.find_element(By.CLASS_NAME, "ipc-title-link-wrapper").get_attribute("href")#<a href="/pt/title/tt0903747/?ref_=chttvtp_t_1" class="ipc-title-link-wrapper" tabindex="0"><h3 class="ipc-title__text ipc-title__text--reduced">1. Breaking Bad</h3></a>
    #Ano, Numero episodio e classificação indicada tem o mesmo metadata.
    #ano = serie.find_element(By.CLASS_NAME, "cli-title-metadata-item")[0].text#class="sc-15ac7568-7 cCsint cli-title-metadata-item"
    #numero_episodios= serie.find_element(By.CLASS_NAME, "cli-title-metadata-item")[1].text#class="sc-15ac7568-7 cCsint cli-title-metadata-item"
    #classificacao_indicada = serie.find_element(By.CLASS_NAME)
    diferenciar_atributos = serie.find_elements(By.CLASS_NAME, "cli-title-metadata-item")

    ano = None
    numero_episodios = None
    classificacao_indicada = None
    if len(diferenciar_atributos) > 0:
        ano = diferenciar_atributos[0].text
    if len(diferenciar_atributos) > 1:
        numero_episodios = diferenciar_atributos[1].text
    if len(diferenciar_atributos) > 2:
        classificacao_indicada = diferenciar_atributos[2].text

    print(f"{titulo} || Ano: {ano} || Nº Episódios: {numero_episodios} || Classificação: {classificacao_indicada} || Nota: {nota} || Link: {link}")



1. Breaking Bad || Ano: 2008–2013 || Nº Episódios: 62 episódios || Classificação: 16 || Nota: 9,5 || Link: https://www.imdb.com/pt/title/tt0903747/?ref_=chttvtp_t_1
2. Planeta Terra II || Ano: 2016 || Nº Episódios: 6 episódios || Classificação: 10 || Nota: 9,4 || Link: https://www.imdb.com/pt/title/tt5491994/?ref_=chttvtp_t_2
3. Planeta Terra || Ano: 2006 || Nº Episódios: 11 episódios || Classificação: Livre || Nota: 9,4 || Link: https://www.imdb.com/pt/title/tt0795176/?ref_=chttvtp_t_3
4. Irmãos de Guerra || Ano: 2001 || Nº Episódios: 10 episódios || Classificação: 14 || Nota: 9,4 || Link: https://www.imdb.com/pt/title/tt0185906/?ref_=chttvtp_t_4
5. Chernobyl || Ano: 2019 || Nº Episódios: 5 episódios || Classificação: 16 || Nota: 9,3 || Link: https://www.imdb.com/pt/title/tt7366338/?ref_=chttvtp_t_5
6. A Escuta || Ano: 2002–2008 || Nº Episódios: 60 episódios || Classificação: 16 || Nota: 9,3 || Link: https://www.imdb.com/pt/title/tt0306414/?ref_=chttvtp_t_6
7. Avatar: A Lenda de Aang 

In [None]:

link_populares.tag_name
url = link_populares.get_attribute("href")
driver.get(url)
tag_ul = driver.find_element(By.XPATH, r'//*[@id="__next"]/main/div/div[3]/section/div/div[2]/div/ul')
lista_series = tag_ul.find_elements(By.TAG_NAME, "li")

type(lista_series)
lista_series

for serie in lista_series:
    titulo =serie.find_element(By.CLASS_NAME, "ipc-title__text").text
    link = serie.find_element(By.CLASS_NAME, "ipc-title-link-wrapper").get_attribute("href")
    nota = serie.find_element(By.CLASS_NAME, "ipc-rating-star--rating").text

    popularidade = None
    pop_elem = driver.find_elements(By.XPATH, "//*[contains(text(),'Popularidade')]")

    


KeyboardInterrupt: 

In [33]:
#Importaremos a biblioteca ```dataclasses``` para usar o decorador ```@dataclass```, que irá adicionar alguns métodos automaticamente, como o construtor de classe.
from dataclasses import dataclass
@dataclass
class Serie:
    titulo: str
    ano: str
    classificacao: float
    pagina: str

In [22]:
#Vamos precisar utilizar uma regex (expressão regular) para extrair apenas o valor da nota do filme.
#biblioteca para expressões regulares
import re

def cria_filme(imdb_li_tag):
    titulo = imdb_li_tag.find_element(By.CLASS_NAME, "ipc-title__text").text #pegamos o texto do elemento
    ano = imdb_li_tag.find_element(By.XPATH, r'./div/div/div/div/div[2]/div[2]/span[1]').text 
    texto_classificacao = imdb_li_tag.find_element(By.CLASS_NAME, "ipc-rating-star").text #este texto está 'sujo', contém o número de votos também
    pagina = imdb_li_tag.find_element(By.CLASS_NAME, "ipc-title-link-wrapper").get_attribute("href")
    re_result = re.search(r'^\d\,\d',texto_classificacao) #aplicando a regex para extrair apenas o padrão 'digito ponto digito'
    
    classificacao = None
    if re_result:
        classificacao = re.search(r'^\d\,\d',texto_classificacao).group(0) #string resultante da regex
        classificacao = float(classificacao.replace(",", ".")) # Aletera o separador decimal
        
    return Filme(titulo, ano, classificacao, pagina)

In [24]:
#Vamos agora criar uma lista contendo todos os filmes que extraímos da página. 
#Para isto, vamos utilizar uma estrutura de lista em Python, a classe ```Filme``` e o méotodo ```cria_filme``` que criamos.
lista_de_filmes = []

for filme_tag in lista_filmes:
    # título
    titulo = filme_tag.find_element(By.CLASS_NAME, "ipc-title__text").text  

    # ano (primeiro span de metadata)
    ano = filme_tag.find_element(By.CSS_SELECTOR, ".cli-title-metadata-item").text  

    # classificação (nota do IMDb)
    classificacao = filme_tag.find_element(By.CLASS_NAME, "ipc-rating-star").text  

    # link da página do filme
    pagina = filme_tag.find_element(By.CLASS_NAME, "ipc-title-link-wrapper").get_attribute("href")

    lista_de_filmes.append({
        "titulo": titulo,
        "ano": ano,
        "classificacao": classificacao,
        "pagina": pagina
    })

# exemplo: imprimir os 10 primeiros
for filme in lista_de_filmes[:10]:
    print(filme)


{'titulo': 'Superman', 'ano': '2025', 'classificacao': '7,2\n (304 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt5950044/?ref_=chtmvm_t_1'}
{'titulo': 'A Hora do Mal', 'ano': '2025', 'classificacao': '7,6\n (158 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt26581740/?ref_=chtmvm_t_2'}
{'titulo': 'A Longa Marcha - Caminhe ou Morra', 'ano': '2025', 'classificacao': '7,3\n (21 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt10374610/?ref_=chtmvm_t_3'}
{'titulo': 'Uma Batalha Após a Outra', 'ano': '2025', 'classificacao': '8,6\n (8,1 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt30144839/?ref_=chtmvm_t_4'}
{'titulo': 'GOAT', 'ano': '2025', 'classificacao': '5,4\n (4,3 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt20990442/?ref_=chtmvm_t_5'}
{'titulo': 'Demon Slayer: Kimetsu no Yaiba - Castelo Infinito', 'ano': '2025', 'classificacao': '8,6\n (37 mil)', 'pagina': 'https://www.imdb.com/pt/title/tt32820897/?ref_=chtmvm_t_6'}
{'titulo': 'Invocação do Mal 4: O Último Ritual', 

In [26]:
#Vamos agora armazenar nossa lista de filmes em um objeto JSON e salvar em um arquivo.

#Precisaremos importar a biblioteca ```json``` 
#e converter nosso objeto ```Filme``` para um dicionário, pois é o tipo de estrutura de dados aceita pela função ```dump()```.
#O arquivo será salvo na mesma pasta em que o notebook está sendo executado.
import json

with open("filmes.json", "w", encoding="utf-8") as arquivo:
    json.dump(lista_de_filmes, arquivo, ensure_ascii=False, indent=4)

# fechar o navegador
driver.quit()
