In [22]:
# Import libraries
import pandas as pd
import numpy as np
import os

### Dados Tabulares
Arquivos simples contém dados tabulares em formato de texto simples com um registro de dados por linha e cada registro ou linha possuindo um ou mais campos. Esses campos são separados por delimitadores, como dois-pontos, tabulações ou vírgulas.

**Vantagens dos arquivos simples incluem**:

- Eles são arquivos de texto e, portanto, legíveis aos humanos.
- São leves.
- Simples de entender.
- Softwares que podem ler/escrever arquivos de texto são polivalentes, como editores de texto.
- Ótimo para pequenos conjuntos de dados.

**Desvantagens dos arquivos simples, em comparação aos bancos de dados relacionais, por exemplo, incluem:**

- Falta de padrões.
- Redundância de dados.
- O compartilhamento de dados pode ser trabalhoso.
- Não é ótimo para grandes conjuntos de dados (veja "Quando o pequeno se torna grande?" no link da Cornell em Mais informações).


In [2]:
# Lendo um arquivo separado por 'tab'
df = pd.read_csv('bestofrt.tsv', sep='\t')

In [3]:
df.head()

Unnamed: 0,ranking,critic_score,title,number_of_critic_ratings
0,1,99,The Wizard of Oz (1939),110
1,2,100,Citizen Kane (1941),75
2,3,100,The Third Man (1949),77
3,4,99,Get Out (2017),282
4,5,97,Mad Max: Fury Road (2015),370


### Web Scraping

**As duas maneiras principais de se trabalhar com arquivos HTML são:**

- Salvar o arquivo HTML em sua biblioteca do computador (usando a biblioteca Requests, por exemplo) e ler esse arquivo em um construtor BeautifulSoup
- Ler o conteúdo de resposta HTML diretamente em um construtor BeautifulSoup (novamente usando a biblioteca Requests por exemplo)

A pasta rt_html contém o HTML da Rotten Tomatoes para cada um dos 100 melhores filmes de todos os tempos, da maneira que a lista estava na atualização mais recente desta aula. Estou dando esses arquivos históricos a você porque as classificações mudam ao longo do tempo e vai haver inconsistências com os vídeos gravados dessa aula. Além disso, uma página HTML da web é conhecida por mudar ao longo do tempo. O código de scraping pode parar de funcionar facilmente quando ocorre uma reformulação da página da web, o que torna o scraping frágil e não recomendado para projetos de grande longevidade. Então utilize esses arquivos HTML fornecidos a você e finja que os salvou você mesmo com um dos métodos descritos acima.

In [4]:
import requests

In [6]:
et_url = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial'
response = requests.get(et_url)

In [7]:
with open ("et_the_extraterrestrial.html", mode='wb') as file:
    file.write(response.content)

### Beautiful Soup
Beautiful Soup is a Python library for pulling data out of `HTML` and `XML` files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.

In [10]:
from bs4 import BeautifulSoup

Making the soup:

In [11]:
with open('rt_html/et_the_extraterrestrial.html') as file:
    soup = BeautifulSoup(file, 'lxml')

Getting the title:

In [21]:
title = soup.find('title').contents[0][:-len(' - Rotten Tomatoes')]
print('{}'.format(title))

E.T. The Extra-Terrestrial (1982)


### Exercício
Extrair o título, nota do público e número de classificação dada pelo público em cada arquivo HTML de modo que cada trio possa ser acrescentado como um dicionário em df_list.

In [45]:
df_list = []
folder = 'rt_html'
for movie_html in os.listdir(folder):
    with open(os.path.join(folder, movie_html)) as file:
        soup = BeautifulSoup(file, 'lxml')
        title = soup.find('title').contents[0][:-len(' - Rotten Tomatoes')]
        audience_score = soup.find('div', class_='audience-score meter').find('span').contents[0][:-1]
        user_ratings = soup.find('div', class_='audience-info hidden-xs superPageFontColor')
        user_ratings = user_ratings.find_all('div')[1].contents[2].strip().replace(',', '')
        df_list.append({'title': title, 
                       'audience_score': int(audience_score),
                       'user_ratings': int(user_ratings)})
df = pd.DataFrame(df_list, columns = ['title', 'audience_score', 'user_ratings'])
df.head()

Unnamed: 0,title,audience_score,user_ratings
0,Zootopia (2016),92,98633
1,The Treasure of the Sierra Madre (1948),93,25627
2,All Quiet on the Western Front (1930),89,17768
3,Rear Window (1954),95,149458
4,Selma (2015),86,60533
