# APS Análise de Texto de Fontes Desestruturadas e Web

## Membros do grupo: Gustavo Sales, João Pianna, Leonardo Nepomuceno

---

O propósito deste trabalho é coletar dados do website [IMDB](https://www.imdb.com), um dos sites mais renomados no que se refere à avaliação popular de películas. O trabalho consiste na coleta dos dados dos 250 filmes com melhor avaliação, incluindo dados de rating, diretores e principais estrelas do filme.

Em seguida, criaremos uma sinopse para cada filme utilizando inteligência artificial. A plataforma que utilizaremos é a [Open AI](https://openai.com), uma empresa que produz softwares de AI open source, conhecida por sua capacidade de interpretação e respostas precisas.

Por último, realizaremos uma análise de _topic models_, seguida de uma modelagem que busca prever o rating de cada filme com base nas palavras utilizadas em sua sinopse.

In [None]:
!pip install openai

In [None]:
# Bibliotecas para puxar dados da web

import bs4
from bs4 import BeautifulSoup

import requests

import pandas as pd

# Bibliotecas para manipulação de texto

import re

import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

# Leitura de dados e utilização de AI

import os
import json
import openai

# Bibliotecas para modelagem

import gensim
from gensim import corpora
from gensim import models

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Chave utilizada pelo Open AI

openai.api_key = "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"

Este trecho puxa o código html da página com os top 250 filmes no IMDB. Em seguida, filtra e mantém apenas os dados dos filmes.

In [26]:
url = "https://www.imdb.com/chart/top/?ref_=nv_mv_250"
req = requests.get(url)

soup = BeautifulSoup(req.text, 'html.parser')
movies = soup.find_all("tr")[1:]

Em seguida, extraímos os nomes, ratings, número de avaliações e o link da página de cada um dos filmes.

In [None]:
imdb_link = 'https://www.imdb.com'
lista_links = []
lista_nomes = []
lista_ratings = []
lista_n_ratings = []

for movie in movies:
  temp = movie.find("a")
  link = imdb_link + temp["href"]
  nome = temp.find("img")["alt"]
  
  rating_str = movie.find("td", class_="ratingColumn").find("strong")["title"]
  temp = [x.replace(",","") for x in re.findall(r'\b\d+[^ ]*\d+', rating_str)]
  rating = temp[0]
  n_ratings = temp[1]

  lista_links.append(link)
  lista_nomes.append(nome)
  lista_ratings.append(rating)
  lista_n_ratings.append(n_ratings)

Com esses dados foi possível criar o seguinte Data Frame:

In [None]:
df = pd.DataFrame({"Nome": lista_nomes, "Rating": lista_ratings, "Avaliações": lista_n_ratings, "Link": lista_links})
df

Unnamed: 0,Nome,Rating,Avaliações,Link
0,The Shawshank Redemption,9.2,2577915,https://www.imdb.com//title/tt0111161/
1,The Godfather,9.2,1774936,https://www.imdb.com//title/tt0068646/
2,The Dark Knight,9.0,2546248,https://www.imdb.com//title/tt0468569/
3,The Godfather: Part II,9.0,1227203,https://www.imdb.com//title/tt0071562/
4,12 Angry Men,8.9,761385,https://www.imdb.com//title/tt0050083/
...,...,...,...,...
245,The Help,8.0,448871,https://www.imdb.com//title/tt1454029/
246,Beauty and the Beast,8.0,440757,https://www.imdb.com//title/tt0101414/
247,The Batman,8.0,400241,https://www.imdb.com//title/tt1877830/
248,Rififi,8.0,33703,https://www.imdb.com//title/tt0048021/


Em seguida, utilizamos o link obtido para coletar o nome dos diretores e das 3 principais estrelas de cada filme, com o mesmo método utilizado nos blocos de código anteriores. Ademais, utilizamos o Open AI para criar uma sinopse para cada filme da base. Esse processo é realizado com a simples operação de inserir o nome do filme na frase ```Write a synopsis of the movie { }"```.

Também fizemos pequenos ajustes em relação ao formato dos dados a serem analisados, além de salvarmos a base para aumentar a eficiência do código.

In [None]:
def get_director(url):
  req = requests.get(url)
  soup = BeautifulSoup(req.text, 'html.parser')
  return soup.find('a', class_='ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link').text

def get_stars(url):
  req = requests.get(url)
  soup = BeautifulSoup(req.text, 'html.parser')
  result = [x.text for x in soup.find_all("ul", class_="ipc-inline-list ipc-inline-list--show-dividers ipc-inline-list--inline ipc-metadata-list-item__list-content baseAlt")[2].find_all('li')]

  return result[0], result[1], result[2]

def write_synopsis(movie):
  response = openai.Completion.create(
  engine="text-davinci-002",
  prompt="Write a synopsis of the movie {}".format(movie),
  temperature=0.7,
  max_tokens=3000,
  top_p=1,
  frequency_penalty=0,
  presence_penalty=0
  )

  return response.to_dict_recursive()["choices"][0]["text"]

In [None]:
df["Director"] = [get_director(link) for link in df.Link]
star = [get_stars(link) for link in df.Link]

df["Star_1"] = [x[0] for x in star]
df["Star_2"] = [x[1] for x in star]
df["Star_3"] = [x[2] for x in star]

df["Synopsis"] = [write_synopsis(movie) for movie in df.Nome]

In [None]:
df["Rating"] = df.Rating.apply(float)
df["Avaliações"] = df.Avaliações.apply(int)
df["Synopsis"] = [re.sub('\n', '', text) for text in df.Synopsis]

In [None]:
df.columns = ['name', 'rating', 'n', 'link', 'director', 'star_1', 'star_2', 'star_3', 'synopsis']

In [None]:
# df.to_csv('imdb_movies.csv', index=False)

In [None]:
df

Unnamed: 0,Nome,Rating,Avaliações,Link,Director,Star_1,Star_2,Star_3,Synopsis
0,The Shawshank Redemption,9.2,2577915,https://www.imdb.com//title/tt0111161/,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,The Shawshank Redemption is a 1994 American dr...
1,The Godfather,9.2,1774936,https://www.imdb.com//title/tt0068646/,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,The Godfather is a 1972 American crime drama d...
2,The Dark Knight,9.0,2546248,https://www.imdb.com//title/tt0468569/,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,The Dark Knight is a 2008 superhero film direc...
3,The Godfather: Part II,9.0,1227203,https://www.imdb.com//title/tt0071562/,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,The Godfather Part II is a 1974 American epic ...
4,12 Angry Men,8.9,761385,https://www.imdb.com//title/tt0050083/,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,A group of 12 jurors are tasked with deciding ...
...,...,...,...,...,...,...,...,...,...
245,The Help,8.0,448871,https://www.imdb.com//title/tt1454029/,Tate Taylor,Emma Stone,Viola Davis,Octavia Spencer,Based on the best-selling novel by Kathryn Sto...
246,Beauty and the Beast,8.0,440757,https://www.imdb.com//title/tt0101414/,Gary Trousdale,Paige O'Hara,Robby Benson,Jesse Corti,A young woman named Belle is taken prisoner by...
247,The Batman,8.0,400241,https://www.imdb.com//title/tt1877830/,Matt Reeves,Robert Pattinson,Zoë Kravitz,Jeffrey Wright,"The movie is about Bruce Wayne, who becomes Ba..."
248,Rififi,8.0,33703,https://www.imdb.com//title/tt0048021/,Jules Dassin,Jean Servais,Carl Möhner,Robert Manuel,"In Rififi, a group of four criminals come toge..."


In [4]:
df = pd.read_csv("imdb_movies.csv")

Aqui neste bloco de código realizamos 3 operações:

1) Excluir caracteres que não nos interessam, como pontuações e números

2) Excluir stop words, presentes na biblioteca nltk, além de palavras adicionais que não seriam de interesse para a análise

3) Reduzir as palavras à sua raiz, de forma a centralizar diferentes variações da mesma palavra

In [31]:
extra_stops = ["film", "movie", "star"]
stemmer = SnowballStemmer('english')

def clean_str(txt, stem=True):
  txt = re.sub("[^A-ù -]","", txt.lower())
  words = [x for x in word_tokenize(txt) if x not in stopwords.words('english') and x not in extra_stops]
  if stem:
    words = [stemmer.stem(word) for word in words]
  return words

# Topic models: movie genre

---

Em seguida, realizamos uma análise de topic models. O propósito dessa análise é identificar diferentes gêneros de filme com base em suas sinopses. Para tal, primeiro criamos um corpus, i.e., um array indicando a presença de palavras dentro de cada sinopse.


In [32]:
token_txt = df.synopsis.apply(clean_str)
dic = corpora.Dictionary(token_txt)
corpus = [dic.doc2bow(token) for token in token_txt]

Depois, aplicamos um modelo de Latent Dirichlet Allocation (LDA) nas palavras, separando então os filmes em 5 grupos. As palavras que definem esses grupos nos indicam os possíveis gêneros que foram identificados pelo modelo.

In [33]:
lda = models.ldamodel.LdaModel(corpus, num_topics=5, id2word=dic, passes=25, random_state=1, iterations=100)

topic_list = lda.print_topics(num_words=8)

for topic in topic_list:
    print(topic)

(0, '0.008*"life" + 0.008*"man" + 0.007*"find" + 0.005*"best" + 0.004*"stori" + 0.004*"star" + 0.004*"direct" + 0.004*"woman"')
(1, '0.006*"stori" + 0.006*"life" + 0.006*"new" + 0.005*"becom" + 0.005*"one" + 0.005*"two" + 0.005*"young" + 0.005*"bud"')
(2, '0.007*"war" + 0.007*"american" + 0.005*"kill" + 0.005*"aveng" + 0.005*"direct" + 0.004*"live" + 0.004*"help" + 0.004*"men"')
(3, '0.006*"find" + 0.005*"one" + 0.005*"name" + 0.005*"time" + 0.004*"follow" + 0.004*"tri" + 0.004*"end" + 0.004*"set"')
(4, '0.009*"find" + 0.008*"way" + 0.008*"father" + 0.007*"young" + 0.006*"son" + 0.006*"stori" + 0.006*"man" + 0.005*"help"')


Aqui podemos observar, por exemplo, que o 3º grupo encontrado, que conta com palavras como "war", "american" e "kill", parece identificar filmes de um gênero de guerra. Já o último parece identificar um gênero de aventura, em que o pai busca encontrar o filho em alguma situação perigosa.

# Predicting IMDB score

---

Por último, buscamos prever a performance de um filme com base nas palavras de sua sinopse. O processo é similar ao realizado anteriormente, com duas principais diferenças:

1) Utilizaremos apenas as 1.000 palavras mais frequentes para nossa análise

2) Criaremos uma matriz de frequência das palavras por filme analisado

Neste primeiro bloco de código criamos um vetor com todas as palavras observadas nas 250 sinopses.

In [16]:
words = []

token_txt = df.synopsis.apply(lambda x: clean_str(x, False))
dic = corpora.Dictionary(token_txt)
corpus = [dic.doc2bow(token) for token in token_txt]

for token in token_txt:
  for word in token:
    words.append(word)

Em seguida, contamos a frequência de cada palavra e as ordenamos, de forma a encontrar 1.000 palavras mais frequentes.

In [17]:
freq_dic = dict()

for word in words:
  if word in freq_dic.keys():
    freq_dic[word] += 1
  else:
    freq_dic[word] = 1

In [18]:
word_df = pd.DataFrame({'words': freq_dic.keys(), 'count': freq_dic.values()})
top_1000_words = word_df.sort_values('count', ascending=False).words[:1000]

In [19]:
top_1000_words

25          life
20         story
127          one
208         find
332          man
          ...   
1698    ensemble
1697     mcfeely
1351     society
2207      bodies
2442      memory
Name: words, Length: 1000, dtype: object

Depois, treinamos o Count Vectorizer para identificar a presença das 1.000 palavras desejadas. Utilizamos essa instância do Count Vectorizer para criar a matriz ```df_mod```, que idenfica a frequência das palavras nas sinopses dos 250 filmes.

In [20]:
exvec = CountVectorizer()
exvec.fit_transform(top_1000_words.tolist())
mat = exvec.transform(df.synopsis).toarray()

In [21]:
df_mod = pd.DataFrame(mat)
df_mod.columns = exvec.get_feature_names()
df_mod



Unnamed: 0,abducted,ability,able,academy,accident,accused,achieve,across,action,actor,...,world,would,write,written,wrong,year,years,york,young,zain
0,0,0,0,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,2,...,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3,0,0,0,1,0,0,0,0,0,0,...,1,0,0,1,0,0,0,2,2,0
4,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
245,0,0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,0
246,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
247,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
248,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0


Também separamos nossa base em treino e teste, de forma a permitir a análise da performance do modelo.

In [22]:
X = df_mod.reset_index(drop=True)
y = df.rating.reset_index(drop=True)

X_trn, X_tst, y_trn, y_tst = train_test_split(X, y, train_size = 0.2)

Utilizaremos os modelos de Decision Tree, Random Forest e Gradient Boosting para buscar qual deles performaria melhor

In [23]:
dt = DecisionTreeRegressor()
rf = RandomForestRegressor()
boost = GradientBoostingRegressor()

dt.fit(X_trn, y_trn)
rf.fit(X_trn, y_trn)
boost.fit(X_trn, y_trn)

GradientBoostingRegressor()

In [24]:
y_pred_dt = dt.predict(X_tst)
y_pred_rf = rf.predict(X_tst)
y_pred_boost = boost.predict(X_tst)

print(f"Decision Tree Error: {round(mean_squared_error(y_tst, y_pred_dt, squared=False), 2)}")
print(f"Random Forest Error: {round(mean_squared_error(y_tst, y_pred_rf, squared=False), 2)}")
print(f"Gradient Boosting Error: {round(mean_squared_error(y_tst, y_pred_boost, squared=False), 2)}")

Decision Tree Error: 0.35
Random Forest Error: 0.24
Gradient Boosting Error: 0.26


Ao final, conseguimos um RMSE de 0.24 com o Modelo de Random Forest, o que parece um bom resultado dado que a escala dos ratings vai de 0 a 10. Portanto, parece que a sinopse gerada pelo AI pode ser um bom preditor da qualidade do filme.