<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Web Scraping Analytics</font>
### <font color='blue'>Parte 1 - Web Scraping</font>

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Instalando e Carregando Pacotes

In [3]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [4]:
!pip install -q selenium==4.24.0

In [5]:
!pip install -q beautifulsoup4==4.12.3

In [6]:
# Imports
import bs4
import selenium
import pandas as pd
import numpy as np
from selenium import webdriver
from bs4 import BeautifulSoup

In [7]:
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

json    : 2.0.9
selenium: 4.24.0
numpy   : 1.26.4
pandas  : 2.2.2
bs4     : 4.12.3



## Configurando o Web Driver Para Extrair Dados de Páginas Web

In [9]:
# Cria o web driver para o navegador Google Chrome
driver = webdriver.Chrome()

https://www.imdb.com

https://www.imdb.com/search/title/

https://www.imdb.com/search/title/?groups=top_1000

https://www.imdb.com/search/title/?groups=top_1000&sort=user_rating,desc

https://www.imdb.com/search/title/?groups=top_1000&count=100&sort=user_rating,desc

https://www.imdb.com/robots.txt

In [11]:
# Conecta na página e extrai o código fonte
driver.get("https://www.imdb.com/search/title/?groups=top_1000&count=100&sort=user_rating,desc")

In [12]:
type(driver)

selenium.webdriver.chrome.webdriver.WebDriver

## Formatando o Código Fonte Extraído com o Parser HTML

In [14]:
# Formata o código fonte com o parser html
soup = BeautifulSoup(driver.page_source, 'html.parser')

In [15]:
type(soup)

bs4.BeautifulSoup

In [16]:
print(soup)

<html class="scriptsOn" lang="en-US" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraphprotocol.org/schema/"><head><script async="" crossorigin="anonymous" src="https://images-na.ssl-images-amazon.com/images/I/31bJewCvY-L.js"></script><meta charset="utf-8"/><meta content="width=device-width" name="viewport"/><script>if(typeof uet === 'function'){ uet('bb', 'LoadTitle', {wb: 1}); }</script><title>Top 1000 do IMDb (Classificado por Classificação do usuário Decrescente)</title><meta content="https://www.imdb.com/search/" property="og:url"/><meta content="IMDb" property="og:site_name"/><meta content="website" property="og:type"/><meta content="https://m.media-amazon.com/images/G/01/imdb/images/social/imdb_logo.png" property="og:image"/><meta content="1000" property="og:image:height"/><meta content="1000" property="og:image:width"/><meta content="pt_BR" property="og:locale"/><meta content="en_US" property="og:locale:alternate"/><meta content="es_ES" property="og:locale:

In [17]:
# Fecha o navegador usado na extração dos dados
driver.quit()  

## Extraindo os Dados Relevantes da Página Web

In [19]:
# Listas de controle para receber os dados
title = []
years = []
duration = []
ratings = []
vote_count = []
description = []

In [20]:
# Extrai a tag com o título do filme
titulo_filme = soup.find_all('a', attrs = {'class':'ipc-title-link-wrapper'})

In [21]:
# Extrai o texto e armazena os dados na lista
for titulo in titulo_filme:
    nome = titulo.h3.text
    title.append(nome)

In [22]:
# Visualiza os primeiros registros
title[0:5]

['1. Um Sonho de Liberdade',
 '2. O Poderoso Chefão',
 '3. Batman: O Cavaleiro das Trevas',
 '4. O Senhor dos Anéis: O Retorno do Rei',
 '5. A Lista de Schindler']

In [23]:
# Tamanho da lista
len(title)

100

In [24]:
# Extraindo a tag div com outros detalhes do filme
outros_detalhes = soup.findAll('div', attrs = {'class':'sc-b189961a-7 btCcOY dli-title-metadata'})

In [25]:
# Loop para percorrer os detalhes de cada filme
for detalhe in outros_detalhes:
    
    # Encontra o elemento <span> que contém o ano do filme
    year_span = detalhe.span
    
    # Encontra o próximo elemento <span> que contém a duração do filme
    duration_span = year_span.find_next_sibling('span')
    
    # Adiciona o ano do filme à lista de anos
    years.append(year_span.text)
    
    # Adiciona a duração do filme à lista de durações
    duration.append(duration_span.text)

In [26]:
# Visualiza os primeiros registros
years[0:5]

['1994', '1972', '2008', '2003', '1993']

In [27]:
# Tamanho da lista
len(years)

100

In [28]:
# Visualiza os primeiros registros
duration[0:5]

['2h 22m', '2h 55m', '2h 32m', '3h 21m', '3h 15m']

In [29]:
# Tamanho da lista
len(duration)

100

In [30]:
# Extraindo os dados da tag span com as avaliações dos filmes
avaliacoes = soup.findAll('span', attrs = {'class':'ipc-rating-star ipc-rating-star--base ipc-rating-star--imdb ratingGroup--imdb-rating'})

In [31]:
# List comprehension para extrair o texto
avaliacoes = [aval.text for aval in avaliacoes]

In [32]:
print(avaliacoes)

['9,3\xa0(2,9\xa0mi)', '9,2\xa0(2,1\xa0mi)', '9,0\xa0(2,9\xa0mi)', '9,0\xa0(2\xa0mi)', '9,0\xa0(1,5\xa0mi)', '9,0\xa0(885\xa0mil)', '9,0\xa0(1,4\xa0mi)', '8,9\xa0(2\xa0mi)', '8,9\xa0(2,3\xa0mi)', '8,8\xa0(2,4\xa0mi)', '8,8\xa0(2,6\xa0mi)', '8,8\xa0(2,3\xa0mi)', '8,8\xa0(1,8\xa0mi)', '8,8\xa0(825\xa0mil)', '8,8\xa0(129\xa0mil)', '8,7\xa0(2,2\xa0mi)', '8,7\xa0(1,3\xa0mi)', '8,7\xa0(2,1\xa0mi)', '8,7\xa0(1,1\xa0mi)', '8,7\xa0(1,4\xa0mi)', '8,7\xa0(220\xa0mil)', '8,7\xa0(41\xa0mil)', '8,7\xa0(125\xa0mil)', '8,7\xa0(60\xa0mil)', '8,6\xa0(1,8\xa0mi)', '8,6\xa0(1,6\xa0mi)', '8,6\xa0(1,4\xa0mi)', '8,6\xa0(403\xa0mil)', '8,6\xa0(814\xa0mil)', '8,6\xa0(1,2\xa0mi)', '8,6\xa0(1,5\xa0mi)', '8,6\xa0(871\xa0mil)', '8,6\xa0(1,5\xa0mi)', '8,6\xa0(754\xa0mil)', '8,6\xa0(506\xa0mil)', '8,6\xa0(372\xa0mil)', '8,6\xa0(72\xa0mil)', '8,5\xa0(519\xa0mil)', '8,5\xa0(981\xa0mil)', '8,5\xa0(1,7\xa0mi)', '8,5\xa0(321\xa0mil)', '8,5\xa0(994\xa0mil)', '8,5\xa0(1\xa0mi)', '8,5\xa0(1,3\xa0mi)', '8,5\xa0(47\xa0mil)', 

In [33]:
# Loop para percorrer as avaliações de cada filme
for aval in avaliacoes:
    
    # Divide a string da avaliação em duas partes: nota e número de votos
    rating, vote, unidades = aval.split('\xa0')
    
    # Adiciona a nota do filme à lista de ratings
    ratings.append(rating)
    
    # Remove os parênteses do número de votos e adiciona à lista de contagem de votos
    vote_count.append(vote.strip('()'))

In [34]:
# Visualiza os primeiros registros
ratings[0:5]

['9,3', '9,2', '9,0', '9,0', '9,0']

In [35]:
# Tamanho da lista
len(ratings)

100

In [36]:
# Visualiza os primeiros registros
vote_count[0:5]

['2,9', '2,1', '2,9', '2', '1,5']

In [37]:
# Tamanho da lista
len(vote_count)

100

In [38]:
# Extraindo a tag div com a descrição
des_lst = soup.findAll('div', attrs = {'class':'ipc-html-content-inner-div'})

In [39]:
# List comprehension para extrair o texto
descriptions = [des.text for des in des_lst]

In [40]:
# Visualiza os primeiros registros
descriptions[0:5]

['Dois homens presos se reúnem ao longo de vários anos, encontrando consolo e eventual redenção através de atos de decência comum.',
 'O patriarca idoso de uma dinastia do crime organizado transfere o controle de seu império clandestino para seu filho relutante.',
 'Agora com a ajuda do tenente Jim Gordon e do promotor público Harvey Dent, Batman tem tudo para banir o crime de Gotham City de uma vez por todas. Mas em breve, os três serão vítimas do Coringa, que pretende lançar Gotham em uma anarquia.',
 'Gandalf e Aragorn lideram o Mundo dos Homens contra o exército de Sauron para desviar o olhar de Frodo e Sam quando eles se aproximam á Montanha da Perdição com o Um Anel.',
 'Na Polônia ocupada pelos alemães durante a Segunda Guerra Mundial, o industrial Oskar Schindler começa a ser preocupar com seus trabalhadores judeus depois de testemunhar sua perseguição pelos nazistas.']

In [41]:
# Tamanho da lista
len(descriptions)

100

## Salvando o Resultado do Web Scraping

In [43]:
print(f"Tamanho de 'title': {len(title)}")
print(f"Tamanho de 'description': {len(descriptions)}")
print(f"Tamanho de 'release_year': {len(years)}")
print(f"Tamanho de 'duration': {len(duration)}")
print(f"Tamanho de 'ratings': {len(ratings)}")
print(f"Tamanho de 'votes_count': {len(vote_count)}")

Tamanho de 'title': 100
Tamanho de 'description': 100
Tamanho de 'release_year': 100
Tamanho de 'duration': 100
Tamanho de 'ratings': 100
Tamanho de 'votes_count': 100


In [44]:
# Prepara o dataframe final
df_movie_dsa = pd.DataFrame({'titulo': title, 
                             'descricao': descriptions, 
                             'ano_lancamento': years, 
                             'duracao': duration,
                             'avaliacao': ratings, 
                             'votos': vote_count})

In [45]:
# Shape
df_movie_dsa.shape

(100, 6)

In [46]:
# Visualiza os primeiros registros
df_movie_dsa.head()

Unnamed: 0,titulo,descricao,ano_lancamento,duracao,avaliacao,votos
0,1. Um Sonho de Liberdade,Dois homens presos se reúnem ao longo de vário...,1994,2h 22m,93,29
1,2. O Poderoso Chefão,O patriarca idoso de uma dinastia do crime org...,1972,2h 55m,92,21
2,3. Batman: O Cavaleiro das Trevas,Agora com a ajuda do tenente Jim Gordon e do p...,2008,2h 32m,90,29
3,4. O Senhor dos Anéis: O Retorno do Rei,Gandalf e Aragorn lideram o Mundo dos Homens c...,2003,3h 21m,90,2
4,5. A Lista de Schindler,Na Polônia ocupada pelos alemães durante a Seg...,1993,3h 15m,90,15


In [47]:
# Salva o dataframe em CSV
df_movie_dsa.to_csv("dataset.csv", index = False)

In [48]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



# Fim