# Comparação de Filmes pelas Reviews no IMDB

## Processamento de Linguagem Natural

Maira Zabuscha de Lima

21008214

Professor Jesús P. Mena-Chalco

### Bibliotecas

In [1]:
import re
import csv
import requests
import numpy
from scipy.spatial import distance

### Entrada de usuário

Preencha o código e nome do filme a ser comparado.

In [2]:
movie = 'tt4786282'
name = 'Lights Out'

### Exprexssões Regulares

Aqui são definidas duas expressões regulares:
* tag - Localiza o texto das reviews dentro de sua tag HTML.
* regex - Localiza todas as palavras dentro de cada review.

In [3]:
tag = re.compile(r'<div class="text show-more__control">(.+?)</div>', re.DOTALL)

regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+"

### Stopwords

O arquivo stopwords.txt contém uma lista de palavras em inglês para serem ignoradas na leitura das reviews.

In [4]:
Stopwords = set([]) 
sw = open("stopwords.txt",'r')
for s in sw.readlines():
    Stopwords.add(s.strip().lower())
sw.close()
print("{0} stopwords".format(len(Stopwords)))

379 stopwords


### Filmes classificados

O arquivo ratings.csv pode ser obtido em sua página de usuário do IMDB em uma url do tipo:

https://www.imdb.com/user/ur24136776/ratings

In [6]:
f = open('ratings-short.csv', 'r')
reader = csv.reader(f)
lines = list(reader)
f.close()
lines = lines[1:]
print("{0} filmes".format(len(lines)))

53 filmes


### Variáveis

As seguintes variáveis vão guardar as informações que o algoritmo utilizará:
* Document - dicionário com elementos do tipo ('código do filme', list()) onde a lista contém as palavras retiradas das reviews exceto as stopwords.
* Title - dicionário com elementos do tipo ('código do filme', 'título do filme').
* Rating - dicionário com elementos do tipo ('código do filme', 'rating do filme').
* Vocabulary - conjunto com todas as palavras do vocabulário de todos os filmes.

In [7]:
Document = dict([])
Title = dict([])
Rating = dict([])
Vocabulary = set([])

### Função leFilme

Essa função acessa o site imdb.com e retira as reviews de todos os filmes listados em ratings.csv, preenchendo as variáveis acima.

In [10]:
def leFilme(movieCode, movieTitle, movieRating):
    url = 'https://www.imdb.com/title/' + movieCode + '/reviews'
    #print(url)
    res = requests.get(url)
    words = list()
    if res.status_code == requests.codes.ok:
        conteudo = res.text
        reviews = tag.findall(conteudo)
        if len(reviews) > 0:
            txt = '\n'.join(reviews).replace('&#39;', '\'').replace('<br/>', ' ').replace('&quot;', '\"').replace('&amp;', '&')
            txt = re.sub(r'[^\x00-\x7f]',r'', txt)
            words = re.findall(regex, txt)
    if len(words) > 0:
        Document[movieCode] = list()
        for w in words:
            if w not in Stopwords and len(w)>=3:
                Document[movieCode].append(w.lower())
        if len(Document[movieCode]) > 0:
            Vocabulary.update(Document[movieCode])
            Title[movieCode] = movieTitle
            Rating[movieCode] = movieRating
        else:
            del Document[movieCode]

### Leitura das reviews

Aqui a função acima é chamada para cada filme, inclusive o filme provido pelo usuário.

In [11]:
for line in lines:
    leFilme(line[0], line[3], line[1])
leFilme(movie, name, '0')

D = len(Document)
V = len(Vocabulary)
print("{} documentos".format(D))
print("{} palavras".format(V))

54 documentos
20200 palavras


### Matriz de freqüências

A matriz de freqüências M é uma matriz com V linhas, para cada palavra, e D colunas, para cada filme. Cada coluna é o vetor de um filme, com cada elemento do vetor sendo a freqüência de uma palavra do vocabulário nesse filme.

Essa etapa pode ser bem demorada.

In [12]:
M = numpy.zeros((V, D))
documents  = list(Document.keys())
vocabulary = list(Vocabulary)
for j in range(0, D):
    d = documents[j]       
    #print("{0:.0f}%".format(((j/D)*100)), end=' ')
    for i in range(0, V):
        w = vocabulary[i]       
        M[i,j] = float(Document[d].count(w))

### Matriz TF-IDF

TF (Term-Frequency) é o vetor do documento normalizado pelo seu tamanho.

IDF (Inverse Document Frequency) é um vetor cujo tamanho é o tamanho do vocabulário e pra cada palavra do vocabulário calcula:

idf(w) = log(D / D(w)), onde D(w) é a quantidade de documentos que contém w.

Quanto mais comum for a palavra, mais seu valor de IDF tenderá a zero.

A matriz TF-IDF é obtida, então, multiplicando-se cada vetor TF pelo vetor IDF e concatenado-os.

In [13]:
idf = numpy.count_nonzero(M, axis=1)
idf = [D / x for x in idf]
idf = numpy.log(idf)
Sd = numpy.sum(M, axis=0)
TFIDF = numpy.copy(M)
for j in range(0, D): 
    TFIDF[:,j] = [x / Sd[j] for x in TFIDF[:,j]]
    TFIDF[:,j] = numpy.multiply(TFIDF[:,j], idf)

### Medidas de distância

Aqui definimos dois dicionários para administrar todas as medidas de distância disponíveis para, então, avaliarmos a diferença que a escolha da medida causa no resultado.

In [15]:
dist_f = {'euclidean': distance.euclidean, 
          'chebyshev': distance.chebyshev, 
          'cosine': distance.cosine}
dist = {'euclidean': numpy.ones(D-1) * numpy.nan, 
          'chebyshev': numpy.ones(D-1) * numpy.nan, 
          'cosine': numpy.ones(D-1) * numpy.nan,
          'tf-idf': numpy.ones(D-1) * numpy.nan}

### Cálculo da distância

O cálculo da distância é repetido para todas as medidas acima na matriz M e também para a distância cosseno na matriz TF-IDF.

In [16]:
for i in range(0, D-1): 
    for df in dist_f.keys():
        dist[df][i] = dist_f[df](M[:,i], M[:,-1])
    
    dist['tf-idf'][i] = distance.cosine(TFIDF[:,i], TFIDF[:,-1])

### Cálculo da similaridade

A similaridade é calculada como (1 - distancia normalizada).

In [17]:
similarity = dict()
for df in dist.keys():
    similarity[df] = 1 - (dist[df] - numpy.nanmin(dist[df])) / (numpy.nanmax(dist[df]) - numpy.nanmin(dist[df]))

### Resultados

Os 5 filmes mais similares por cada uma das medidas é exbido, além de sua nota extraída de ratings.csv. Em parênteses o valor da similaridade.

In [18]:
for df in dist.keys():
    idx = numpy.argsort(similarity[df])
    txt = '\nTitulos mais similares a ' + name + ' por distancia ' + df + ' e suas notas:'
    for i in range(-1, -6, -1):
        txt += '\n{1} - {0} ({2:.2f})'.format(Title[documents[idx[i]]], Rating[documents[idx[i]]].rjust(2), similarity[df][idx[i]])
    
    print(txt)


Titulos mais similares a Lights Out por distancia euclidean e suas notas:
 6 - The Ritual (1.00)
 8 - The Void (0.91)
 7 - Get Out (0.91)
10 - Grave Encounters (0.88)
 5 - As Above, So Below (0.87)

Titulos mais similares a Lights Out por distancia chebyshev e suas notas:
 6 - The Tunnel (1.00)
 8 - The Void (0.99)
 5 - As Above, So Below (0.99)
10 - The Skeleton Key (0.97)
 5 - Gok-seong (0.97)

Titulos mais similares a Lights Out por distancia cosine e suas notas:
 6 - The Ritual (1.00)
 8 - The Cabin in the Woods (0.91)
 6 - It Follows (0.90)
 5 - Chernobyl Diaries (0.89)
 5 - Gok-seong (0.89)

Titulos mais similares a Lights Out por distancia tf-idf e suas notas:
10 - Grave Encounters (1.00)
 6 - It Follows (0.92)
 7 - Get Out (0.80)
 5 - Paranormal Activity 3 (0.76)
 6 - The Ritual (0.53)
