<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Web Scraping Analytics</font>
### <font color='blue'>Parte 1 - Web Scraping</font>

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Instalando e Carregando Pacotes

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [2]:
!pip install -q selenium==4.24.0

In [3]:
!pip install -q beautifulsoup4==4.12.3

In [4]:
# Imports
import bs4
import selenium
import pandas as pd
import numpy as np
from selenium import webdriver
from bs4 import BeautifulSoup

In [5]:
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

selenium: 4.24.0
bs4     : 4.12.3
pandas  : 2.2.2
numpy   : 1.26.4



## Configurando o Web Driver Para Extrair Dados de Páginas Web

In [6]:
# Cria o web driver para o navegador Google Chrome
driver = webdriver.Chrome()

https://www.imdb.com

https://www.imdb.com/search/title/

https://www.imdb.com/search/title/?groups=top_1000

https://www.imdb.com/search/title/?groups=top_1000&sort=user_rating,desc

https://www.imdb.com/search/title/?groups=top_1000&count=100&sort=user_rating,desc

https://www.imdb.com/robots.txt

In [7]:
# Conecta na página e extrai o código fonte
driver.get("https://www.imdb.com/search/title/?groups=top_1000&count=100&sort=user_rating,desc")

In [8]:
type(driver)

selenium.webdriver.chrome.webdriver.WebDriver

## Formatando o Código Fonte Extraído com o Parser HTML

In [9]:
# Formata o código fonte com o parser html
soup = BeautifulSoup(driver.page_source, 'html.parser')

In [10]:
type(soup)

bs4.BeautifulSoup

In [11]:
print(soup)

<html class="scriptsOn nprogress-busy" lang="en-US" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraphprotocol.org/schema/"><head><script async="" src="https://sb.scorecardresearch.com/beacon.js"></script><script async="" crossorigin="anonymous" src="https://images-na.ssl-images-amazon.com/images/I/31bJewCvY-L.js"></script><meta charset="utf-8"/><meta content="width=device-width" name="viewport"/><script>if(typeof uet === 'function'){ uet('bb', 'LoadTitle', {wb: 1}); }</script><title>IMDb Top 1000 (Sorted by User rating Descending)</title><meta content="https://www.imdb.com/search/" property="og:url"/><meta content="IMDb" property="og:site_name"/><meta content="website" property="og:type"/><meta content="https://m.media-amazon.com/images/G/01/imdb/images/social/imdb_logo.png" property="og:image"/><meta content="1000" property="og:image:height"/><meta content="1000" property="og:image:width"/><meta content="en_US" property="og:locale"/><meta content="es_ES" property

In [12]:
# Fecha o navegador usado na extração dos dados
driver.quit()  

## Extraindo os Dados Relevantes da Página Web

In [13]:
# Listas de controle para receber os dados
title = []
years = []
duration = []
ratings = []
vote_count = []
description = []

In [14]:
# Extrai a tag com o título do filme
titulo_filme = soup.find_all('a', attrs = {'class':'ipc-title-link-wrapper'})

In [15]:
# Extrai o texto e armazena os dados na lista
for titulo in titulo_filme:
    nome = titulo.h3.text
    title.append(nome)

In [16]:
# Visualiza os primeiros registros
title[0:5]

['1. The Shawshank Redemption',
 '2. The Godfather',
 '3. The Dark Knight',
 '4. The Lord of the Rings: The Return of the King',
 "5. Schindler's List"]

In [17]:
# Tamanho da lista
len(title)

100

In [18]:
# Extraindo a tag div com outros detalhes do filme
outros_detalhes = soup.findAll('div', attrs = {'class':'sc-b189961a-7 btCcOY dli-title-metadata'})

In [19]:
# Loop para percorrer os detalhes de cada filme
for detalhe in outros_detalhes:
    
    # Encontra o elemento <span> que contém o ano do filme
    year_span = detalhe.span
    
    # Encontra o próximo elemento <span> que contém a duração do filme
    duration_span = year_span.find_next_sibling('span')
    
    # Adiciona o ano do filme à lista de anos
    years.append(year_span.text)
    
    # Adiciona a duração do filme à lista de durações
    duration.append(duration_span.text)

In [20]:
# Visualiza os primeiros registros
years[0:5]

['1994', '1972', '2008', '2003', '1993']

In [21]:
# Tamanho da lista
len(years)

100

In [22]:
# Visualiza os primeiros registros
duration[0:5]

['2h 22m', '2h 55m', '2h 32m', '3h 21m', '3h 15m']

In [23]:
# Tamanho da lista
len(duration)

100

In [24]:
# Extraindo os dados da tag span com as avaliações dos filmes
avaliacoes = soup.findAll('span', attrs = {'class':'ipc-rating-star ipc-rating-star--base ipc-rating-star--imdb ratingGroup--imdb-rating'})

In [25]:
# List comprehension para extrair o texto
avaliacoes = [aval.text for aval in avaliacoes]

In [26]:
# Loop para percorrer as avaliações de cada filme
for aval in avaliacoes:
    
    # Divide a string da avaliação em duas partes: nota e número de votos
    rating, vote = aval.split('\xa0')
    
    # Adiciona a nota do filme à lista de ratings
    ratings.append(rating)
    
    # Remove os parênteses do número de votos e adiciona à lista de contagem de votos
    vote_count.append(vote.strip('()'))

In [27]:
# Visualiza os primeiros registros
ratings[0:5]

['9.3', '9.2', '9.0', '9.0', '9.0']

In [28]:
# Tamanho da lista
len(ratings)

100

In [29]:
# Visualiza os primeiros registros
vote_count[0:5]

['2.9M', '2M', '2.9M', '2M', '1.5M']

In [30]:
# Tamanho da lista
len(vote_count)

100

In [31]:
# Extraindo a tag div com a descrição
des_lst = soup.findAll('div', attrs = {'class':'ipc-html-content-inner-div'})

In [32]:
# List comprehension para extrair o texto
descriptions = [des.text for des in des_lst]

In [33]:
# Visualiza os primeiros registros
descriptions[0:5]

['A banker convicted of uxoricide forms a friendship over a quarter century with a hardened convict, while maintaining his innocence and trying to remain hopeful through simple compassion.',
 'The aging patriarch of an organized crime dynasty transfers control of his clandestine empire to his reluctant son.',
 'When a menace known as the Joker wreaks havoc and chaos on the people of Gotham, Batman, James Gordon and Harvey Dent must work together to put an end to the madness.',
 "Gandalf and Aragorn lead the World of Men against Sauron's army to draw his gaze from Frodo and Sam as they approach Mount Doom with the One Ring.",
 'In German-occupied Poland during World War II, industrialist Oskar Schindler gradually becomes concerned for his Jewish workforce after witnessing their persecution by the Nazis.']

In [34]:
# Tamanho da lista
len(descriptions)

100

## Salvando o Resultado do Web Scraping

In [35]:
print(f"Tamanho de 'title': {len(title)}")
print(f"Tamanho de 'description': {len(descriptions)}")
print(f"Tamanho de 'release_year': {len(years)}")
print(f"Tamanho de 'duration': {len(duration)}")
print(f"Tamanho de 'ratings': {len(ratings)}")
print(f"Tamanho de 'votes_count': {len(vote_count)}")

Tamanho de 'title': 100
Tamanho de 'description': 100
Tamanho de 'release_year': 100
Tamanho de 'duration': 100
Tamanho de 'ratings': 100
Tamanho de 'votes_count': 100


In [36]:
# Prepara o dataframe final
df_movie_dsa = pd.DataFrame({'titulo': title, 
                             'descricao': descriptions, 
                             'ano_lancamento': years, 
                             'duracao': duration,
                             'avaliacao': ratings, 
                             'votos': vote_count})

In [37]:
# Shape
df_movie_dsa.shape

(100, 6)

In [38]:
# Visualiza os primeiros registros
df_movie_dsa.head()

Unnamed: 0,titulo,descricao,ano_lancamento,duracao,avaliacao,votos
0,1. The Shawshank Redemption,A banker convicted of uxoricide forms a friend...,1994,2h 22m,9.3,2.9M
1,2. The Godfather,The aging patriarch of an organized crime dyna...,1972,2h 55m,9.2,2M
2,3. The Dark Knight,When a menace known as the Joker wreaks havoc ...,2008,2h 32m,9.0,2.9M
3,4. The Lord of the Rings: The Return of the King,Gandalf and Aragorn lead the World of Men agai...,2003,3h 21m,9.0,2M
4,5. Schindler's List,"In German-occupied Poland during World War II,...",1993,3h 15m,9.0,1.5M


In [39]:
# Salva o dataframe em CSV
df_movie_dsa.to_csv("dataset.csv", index = False)

In [40]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



# Fim