# Top 250 - IMDB (ETL)

Um pipeline ETL dos dados dos 250 filmes com a melhor pontuação no site IMDB.com, utilizando Web Scrapping com Beautiful Soup e Dataframes com pandas.

## Configuração de bibliotecas

In [1]:
from bs4 import BeautifulSoup
import pandas as pd
import requests

## EXTRACT

Requisição da URL com a biblioteca requests

In [2]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
source = requests.get('https://www.imdb.com/chart/top/?ref_=nv_mv_250', headers=headers)
source.raise_for_status() 

Sem erros, prosseguimos com Beautiful Soup para extrair os conteúdos do arquivo HTML e armazenar seu conteúdo em uma variável 

In [3]:
soup = BeautifulSoup(source.text, 'html.parser')

movies = soup.find('ul', class_="ipc-metadata-list ipc-metadata-list--dividers-between sc-3f13560f-0 sTTRj compact-list-view ipc-metadata-list--base").find_all('h3')

len(movies) # Checagem da quantidade de filmes na lista

250

Com 250 filmes armazenados, a extração prossegue

In [4]:
for movie in movies:
    print(movie)
    

<h3 class="ipc-title__text">1. Um Sonho de Liberdade</h3>
<h3 class="ipc-title__text">2. O Poderoso Chefão</h3>
<h3 class="ipc-title__text">3. Batman: O Cavaleiro das Trevas</h3>
<h3 class="ipc-title__text">4. O Poderoso Chefão II</h3>
<h3 class="ipc-title__text">5. 12 Homens e uma Sentença</h3>
<h3 class="ipc-title__text">6. A Lista de Schindler</h3>
<h3 class="ipc-title__text">7. O Senhor dos Anéis: O Retorno do Rei</h3>
<h3 class="ipc-title__text">8. Pulp Fiction - Tempo de Violência</h3>
<h3 class="ipc-title__text">9. O Senhor dos Anéis: A Sociedade do Anel</h3>
<h3 class="ipc-title__text">10. Três Homens em Conflito</h3>
<h3 class="ipc-title__text">11. Forrest Gump: O Contador de Histórias</h3>
<h3 class="ipc-title__text">12. Clube da Luta</h3>
<h3 class="ipc-title__text">13. O Senhor dos Anéis: As Duas Torres</h3>
<h3 class="ipc-title__text">14. A Origem</h3>
<h3 class="ipc-title__text">15. Star Wars: Episódio V - O Império Contra-Ataca</h3>
<h3 class="ipc-title__text">16. Matrix

Como a extração recuperou todo o conteúdo da tag html 'h3', faço uma limpeza para facilitar a leitura dos dados, passando as informações de texto para uma lista.

In [8]:
titulo = []
for movie in movies:
    titulo.append(movie.get_text(strip=True).split('.'))

print(titulo)


[['1', ' Um Sonho de Liberdade'], ['2', ' O Poderoso Chefão'], ['3', ' Batman: O Cavaleiro das Trevas'], ['4', ' O Poderoso Chefão II'], ['5', ' 12 Homens e uma Sentença'], ['6', ' A Lista de Schindler'], ['7', ' O Senhor dos Anéis: O Retorno do Rei'], ['8', ' Pulp Fiction - Tempo de Violência'], ['9', ' O Senhor dos Anéis: A Sociedade do Anel'], ['10', ' Três Homens em Conflito'], ['11', ' Forrest Gump: O Contador de Histórias'], ['12', ' Clube da Luta'], ['13', ' O Senhor dos Anéis: As Duas Torres'], ['14', ' A Origem'], ['15', ' Star Wars: Episódio V - O Império Contra-Ataca'], ['16', ' Matrix'], ['17', ' Os Bons Companheiros'], ['18', ' Um Estranho no Ninho'], ['19', ' Seven: Os Sete Crimes Capitais'], ['20', ' Homem-Aranha: Através do Aranhaverso'], ['21', ' A Felicidade Não se Compra'], ['22', ' Os Sete Samurais'], ['23', ' Interestelar'], ['24', ' O Silêncio dos Inocentes'], ['25', ' O Resgate do Soldado Ryan'], ['26', ' Cidade de Deus'], ['27', ' A Vida é Bela'], ['28', ' À Esp

Agora, temos o ranking e título de cada filme. Mas ainda é possível extrair mais dados para compor uma base mais robusta.

In [9]:
metadado_filmes = soup.find('ul', class_="ipc-metadata-list ipc-metadata-list--dividers-between sc-3f13560f-0 sTTRj compact-list-view ipc-metadata-list--base").find_all('span', class_="sc-6fa21551-8 bnyjtW cli-title-metadata-item")

metadado = []
for filme in metadado_filmes:
    metadado.append(filme.get_text(strip=True))

print(metadado)
len(metadado)


['1994', '2h 22m', '16', '1972', '2h 55m', '14', '2008', '2h 32m', '12', '1974', '3h 22m', '14', '1957', '1h 36m', 'Livre', '1993', '3h 15m', '14', '2003', '3h 21m', '14', '1994', '2h 34m', '18', '2001', '2h 58m', '12', '1966', '2h 41m', '14', '1994', '2h 22m', '14', '1999', '2h 19m', '18', '2002', '2h 59m', '12', '2010', '2h 28m', '14', '1980', '2h 4m', 'Livre', '1999', '2h 16m', '14', '1990', '2h 25m', '14', '1975', '2h 13m', '16', '1995', '2h 7m', '14', '2023', '2h 20m', '10', '1946', '2h 10m', 'Livre', '1954', '3h 27m', '10', '2014', '2h 49m', '10', '1991', '1h 58m', '14', '1998', '2h 49m', '14', '2002', '2h 10m', '18', '1997', '1h 56m', 'Livre', '1999', '3h 9m', '18', '1977', '2h 1m', 'Livre', '1991', '2h 17m', '14', '1985', '1h 56m', 'Livre', '2001', '2h 5m', 'Livre', '2002', '2h 30m', '14', '1960', '1h 49m', '14', '2019', '2h 12m', '16', '2000', '2h 35m', '14', '1994', '1h 28m', 'Livre', '1994', '1h 50m', '14', '1998', '1h 59m', '14', '2006', '2h 31m', '18', '2014', '1h 46m', '1

750

Com isso, temos a extração do ranking, título, ano, duração e classificação indicativa dos 250 melhores filmes conforme a lista IMDB. Agora, vamos para a segunda parte do pipeline para transformar esses dados em um dataframe pandas. 

## TRANSFORM

In [10]:
ranking_filmes = pd.DataFrame(titulo)
ranking_filmes

Unnamed: 0,0,1,2,3,4
0,1,Um Sonho de Liberdade,,,
1,2,O Poderoso Chefão,,,
2,3,Batman: O Cavaleiro das Trevas,,,
3,4,O Poderoso Chefão II,,,
4,5,12 Homens e uma Sentença,,,
...,...,...,...,...,...
245,246,Os Incompreendidos,,,
246,247,Quando Duas Mulheres Pecam,,,
247,248,A Vida de Brian,,,
248,249,Aladdin,,,


Temos as primeiras informações carregadas no Dataframe, mas ainda é necessário renomear colunas e acrescentar o restante das informações.

In [13]:
ranking_filmes.columns = ['Ranking', 'Título', 'Ano', 'Duração', 'Classificação Indicativa']

ranking_filmes

Unnamed: 0,Ranking,Título,Ano,Duração,Classificação Indicativa
0,1,Um Sonho de Liberdade,,,
1,2,O Poderoso Chefão,,,
2,3,Batman: O Cavaleiro das Trevas,,,
3,4,O Poderoso Chefão II,,,
4,5,12 Homens e uma Sentença,,,
...,...,...,...,...,...
245,246,Os Incompreendidos,,,
246,247,Quando Duas Mulheres Pecam,,,
247,248,A Vida de Brian,,,
248,249,Aladdin,,,


Para acrescentar os demais dados, realizo uma iteração pelo dataframe para adicioná-los ao registro correto, conforme a ordem de extração

In [14]:
for i, valor in enumerate(metadado):
    linha = i // 3  # Calcula o número da linha
    coluna = 2 + (i % 3)  # Calcula a coluna a partir da terceira coluna

    # Adiciona o valor ao DataFrame
    ranking_filmes.iloc[linha, coluna] = valor


ranking_filmes


Unnamed: 0,Ranking,Título,Ano,Duração,Classificação Indicativa
0,1,Um Sonho de Liberdade,1994,2h 22m,16
1,2,O Poderoso Chefão,1972,2h 55m,14
2,3,Batman: O Cavaleiro das Trevas,2008,2h 32m,12
3,4,O Poderoso Chefão II,1974,3h 22m,14
4,5,12 Homens e uma Sentença,1957,1h 36m,Livre
...,...,...,...,...,...
245,246,Os Incompreendidos,1959,1h 39m,12
246,247,Quando Duas Mulheres Pecam,1966,1h 25m,14
247,248,A Vida de Brian,1979,1h 34m,14
248,249,Aladdin,1992,1h 30m,Livre


Com o dataframe devidamente alimentado, entramos na última etapa do pipeline, salvando-o como um arquivo .csv que poderá ser utilizado futuramente para análise de dados.

## LOAD

In [15]:
ranking_filmes.to_csv('top_250_imdb.csv', index=False)

## Conclusão 

Com o uso da biblioteca Beautiful Soup foi possível recuperar informações de texto diretamente de uma url. Após algum tratamento utilizando as funções da biblioteca pandas, foi possível transformar esse conjunto de informações em um dataset simples e o salvamos em formato .csv para possíveis análises futuras.