# Primeira Aplicação WebScraping

### TODO List

- 1 - Importar as libs
- 2 - Validar a URL dos filmes
- 3 - Extrair os dados do site
- 4 - Transferir os dados para um DataSet
- 5 - Salvar os dados em um arquivo CSV ou XLSX

In [1]:
# 1 - Importando as Libs
import pandas as pd # Criar o dataset
from urllib.request import urlopen # Ler a url e o seu conteúdo
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

In [2]:
# 2 - Validar a URL
filmesCaminho = 'https://www.imdb.com/chart/top/'

try:
    html = urlopen(filmesCaminho)
except HTTPError as e:
    # Erros de HTTP
    print(e)
except URLError as e:
    # URL Incorreta
    print('URL está incorreta!')

In [3]:
# 3 - Extrair os dados do site

# Criando a instância(apelido de uma lib ou elemento)
bs = BeautifulSoup(html, 'lxml')

movies = bs.select('.lister-list tr') 
# Lister list - lista de filmes
# Componente do site
# TR = Table Row - linha da Tabela

In [4]:
# Criar as listas aonde iremos armazenar os dados
titles = []
directors_writers = []
years = []
ratings = []

In [5]:
# Preenchendo as lista com os dados
for movie in movies:
    titles.append(movie.find('td', class_='titleColumn').find('a').get_text())
    directors_writers.append(movie.find('td', class_='titleColumn').find('a')['title'])
    years.append(movie.find('td', class_='titleColumn').find('span').get_text()[1:5])
    ratings.append(movie.find('td', class_='imdbRating').find('strong').get_text())

In [8]:
# 4 - Transferir os dados para um DataSet
df = pd.DataFrame({"titulo":titles, 
                   "ano de lançamento":years, 
                   "classificação": ratings, 
                   "diretores e roteiristas":directors_writers
                  })

In [9]:
df.head(10)

Unnamed: 0,titulo,ano de lançamento,classificação,diretores e roteiristas
0,Um Sonho de Liberdade,1994,9.2,"Frank Darabont (dir.), Tim Robbins, Morgan Fre..."
1,O Poderoso Chefão,1972,9.1,"Francis Ford Coppola (dir.), Marlon Brando, Al..."
2,O Poderoso Chefão II,1974,9.0,"Francis Ford Coppola (dir.), Al Pacino, Robert..."
3,Batman: O Cavaleiro das Trevas,2008,9.0,"Christopher Nolan (dir.), Christian Bale, Heat..."
4,12 Homens e uma Sentença,1957,8.9,"Sidney Lumet (dir.), Henry Fonda, Lee J. Cobb"
5,A Lista de Schindler,1993,8.9,"Steven Spielberg (dir.), Liam Neeson, Ralph Fi..."
6,O Senhor dos Anéis: O Retorno do Rei,2003,8.9,"Peter Jackson (dir.), Elijah Wood, Viggo Morte..."
7,Pulp Fiction: Tempo de Violência,1994,8.8,"Quentin Tarantino (dir.), John Travolta, Uma T..."
8,Três Homens em Conflito,1966,8.8,"Sergio Leone (dir.), Clint Eastwood, Eli Wallach"
9,O Senhor dos Anéis: A Sociedade do Anel,2001,8.8,"Peter Jackson (dir.), Elijah Wood, Ian McKellen"


In [11]:
# 5 - Salvar os dados em um arquivo CSV ou XLSX

# Salvando os dados em CSV
df.to_csv('WebScrap_Filmes.csv')

In [12]:
# Salvando os dados em  XLSX(Excel)
df.to_excel('WebScrap_Filmes.xlsx')