# Dependências

In [2]:
import re
import json
import unicodedata
from enum import Enum
import nltk

# Funções auxiliares

Aqui são criados classes e métodos auxiliares para a tokenização e classificação dos documentos.

In [61]:
def attrs_by_freq(extractions):
    attrs = {}
    for index, extraction in enumerate(extractions):
        for attr in extraction.keys():
            if attr not in attrs:
                attrs[attr] = []
            attrs[attr].append(index)

    attr_index = list(attrs.items())

    # Sort by frequency (higher to lower)
    attr_index.sort(key=lambda x: len(x[1]), reverse=True)

    return attr_index

## Tokenização

Aqui são definidos duas classes, a primeira é um `Enum` que organiza os possíveis tipos de tokens. A segunda é um tokenizador, capaz de remover _stopwords_, utilizando o nltk, além de filtrar apenas os tipos de tokens desejados.

In [6]:
class ETokenType(Enum):
    """
    Enumerable class with all token's types.
    Update this enum every time a new regex group is added to WordTokenizer._token_pattern
    The order of the values must match with WordTokenizer._token_pattern regexes' order
    """
    EMAIL = 0
    URL = 1
    GLUED_TITLES = 2
    GLUED_WORD = 3
    GLUED_LOWER = 4
    TELEPHONE_CEP = 5
    VALUE = 6
    DATE = 7
    GLUED_VALUE = 8
    WORD = 9
    NON_WORD = 10

class WordTokenizer(object):

    # _token_pattern holds its state across instances of WordTokenizer
    # Every time a new regex group is added to _token_pattern, ETokenType must be updated
    # The order of the regexes' order must match with ETokenType values' order
    _token_pattern = r"""(?x)           # Set flag to allow verbose regexps
        ([\w\.-]+@[\w\.-]+(?:\.[\w]+)+) # E-mail regex
        | (                             # URL regex
            (?:http(?:s)?(?::)?(?:\\\\)?)?  # Optional http or https followed by optional : and //
            (?:[a-z0-9_-]+\.)?              # Optional domain
            [a-z0-9_-]+                     # host
            (?:\.
                (?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)
            )+
            (?::[0-9]+)?                    # Optional port
            (?!\w)(?:\/(?:[^\s\.,]|[\.,][^\s\.,])+)*(?![^\.,]$)  # Optional relative URI
        )
        | ([A-Z][a-z]+(?=\.?(?:[A-Z][A-Za-z]|\d)+)) # Capture titles glued to digits or other words
        | ([A-Z][A-Za-z]+(?=\.?(?:[A-Z][a-z]|\d)+)) # Capture words glued to digits or other words
        | ([a-z]+(?=\.?(?:[A-Z]|\d)+))              # Capture lower words glued to digits or captalized words
        | (         # Capture telephones and CEPs
            (?:         # Asserts telephones
                (?:(?:\(?\ *)\d{2,3}(?:\ *\))?)?    # Gets the DDD
                (?:\ *9\ *(?:\.|-|\/|\\)?)?         # Optional ninth digit
                (?!(?:1|2)\d{3})        # Negative lookahead to prevent from getting years
                \d{4}(?:\.|-|\/|\\)?        # First 4 telephone digits with optional separator
                \d{4}                       # Last 4 digits
            ) | (?:     # Asserts CEPs
                \d{2}(?:\.|-|\/|\\)?    # First two digits, followed by an optional separator
                \d{3}(?:\.|-|\/|\\)?    # Following three digits, followed by an optional separator
                \d{3}                   # Last three digits
            )   # Since the CEPs regex gets some telephones as false positives
        )       # both regexes are in same group
        | (             # Capture values (as in currencies, percentage, measures...)
            (?<![\d\.\/\\-])        # Negative lookbehind for digits or separators
            (?:(?:R?\$|€)(?:\ )*)?  # Currencies symbols
            (?!(?:1|2)\d{3})        # Negative lookahead to prevent from getting years
            \d+                     # Proper digits
            (?:
                (?:\.|,)            # Punctuation
                (?!(?:1|2)\d{3})    # Negative lookahead to prevent from getting years
                \d+                 # After punctuation digits
            )*
            (?:%|\w{1,3}\b)?        # Percentage or measures abbreviations
            # (?![\d\.\/\\-])         # Negative lookahead for digits or separators TODO: Fix it by 15%15%9999999999911111 199999999999999 12-1999 janeiro/2000 09/9/2000
        )
        | (         # Date regex
            # (?<![\d])   # Negative lookbehind for digits
            (?:(?:0?[1-9]|[1-2][0-9]|3[0-1])(?!\d)(?:\.|-|\/|\\))?    # Asserts the first of three parts of a date (optional)
            (?:(?:[A-Za-z_]+|0?[1-9]|[1-2][0-9]|3[0-1])(?!\d)(?:\.|-|\/|\\))?   # Asserts the second part, can be either a word or one to two digits (optional)
            (?:(?:(?:1|2)\d{3})|[0-9]{2})(?!\d)                       # Asserts the year
        )
        | (     # Capture (glued) values (as in currencies, percentage, measures...)
            (?:(?:R?\$|€)(?:\ )*)?  # Currencies symbols
            \d+                     # Proper digits
            (?:(?:\.|,)\d+)*        # Punctuation
            (?:%|\w{1,3}\b)?        # Percentage or measures abbreviations
        )       # This second search aims to get values that were glued to digits or separators
        | ((?:\w+\.?)*(?:\w+))   # Words and abbreviations with optional : at the end
        | ([^A-Za-z0-9\ \n])    # Every thing that is not a letter, a digit, space or line break
    """

    @property
    def token_pattern(self):
        """
        Read-only property. This property holds its state across instances of WordTokenizer.
        """
        return self._token_pattern

    @property
    def stopwords(self):
        # TODO: Set self.remove_stopwords setter to also set self._stopwords considering the lang
        #       Also set the lang setter to change self._stopwords accordingly
        """
        Read-only property. Returns the list of stopwords if and only if
        self._remove_stopwords is True
        """
        if self.remove_stopwords:
            if self._stopwords is None:
                self._stopwords = nltk.corpus.stopwords.words(self.lang)
            return self._stopwords

        return None

    def __init__(self, lang, remove_stopwords=False, lower_case=False, do_stemming=False):
        self.lang = lang
        self.remove_stopwords = remove_stopwords
        self.lower_case = lower_case
        self.do_stemming = do_stemming
        self._stopwords = None

        if self.remove_stopwords:
            self._stopwords = nltk.corpus.stopwords.words(lang)
        if do_stemming:
            self.stemmer = nltk.stem.RSLPStemmer()

    def _extract_text(self, html):
        ## Regexes for html pages splitting
        #  Remove script tags and its content
        SCRIPT_TAG_REGEX = re.compile(r'<script.+?>(.|\n)+?</script>')
        STYLE_TAG_REGEX = re.compile(r'<style.+?>(.|\n)+?</style>')
        # Remove remaining tags, leaving content
        HTML_TAGS_REGEX = re.compile(r'<[^>]*>')

        return HTML_TAGS_REGEX.sub(' ', SCRIPT_TAG_REGEX.sub(' ', html))

    def _shave_marks(self, text):
        """
        Removes all diacritic marks from the given string
        """
        if text is None:
            return ''

        norm_text = unicodedata.normalize('NFD', text)
        shaved = ''.join(char for char in norm_text if not unicodedata.combining(char))
        return unicodedata.normalize('NFC', shaved)

    def _tag_tokens(self, document_tokens):
        typed_tokens = []
        for match_group in document_tokens:
            typed_group = []
            for index, match in enumerate(match_group):
                if match:
                    typed_group.append((ETokenType(index), match))

            # if typed_group:
            assert len(typed_group) > 0, "Token with no match, probably missing parenthesis on regex"
            assert len(typed_group) == 1, "Multiple matches for a single token %r" % ' '.join(match_group)
            typed_tokens.append(typed_group[0])

        return typed_tokens

    def tokenize(self, html, ignored_token_types=[], min_token_size=2):
        """
        Tokenize a string by: e-mail, url, date, glued words, values, abbreviations, words and
        every thing that isn't a letter, digit, blank space or line break.

        Returning only tokens of desirable types
        """

        # Extract text from html document
        text = self._extract_text(html)

        # Remove diacritcs
        shaved_text = self._shave_marks(text)
        
        # Returns an array where every position has a tuple with one position to
        # every regex on token_pattern
        document_tokens = nltk.regexp_tokenize(shaved_text, self._token_pattern)

        # Transform the array of tuples into another array of tuples where
        # the first position is the token_type and the second is the token itself
        document_tokens = self._tag_tokens(document_tokens)

        # Filter token types
        document_tokens = [token for token_type, token in document_tokens
                           if token_type not in ignored_token_types]

        if self.remove_stopwords:
            # Keeps tokens that has at least one captalized letter (even if is a stopword)
            # Since only lower case words test the second condition, there is no need to lower the token
            document_tokens = [token for token in document_tokens
                               if not token.islower() or not token in self._stopwords]

        if self.lower_case:
            document_tokens = [token.lower() for token in document_tokens]

        document_tokens = [token.strip() for token in document_tokens if len(token.strip()) >= min_token_size]

        if self.do_stemming:
            document_tokens = [self.stemmer.stem(token) for token in document_tokens]
        
        return document_tokens

# Leitura e análise dos dados

Como resultado do projeto anterior, foi gerado um `json` contendo as extrações dos documentos classificados como relevantes.

In [57]:
with open('../extractor/extracao.json', 'r') as f:
    extractions = json.load(f)

Abaixo, temos os atributos das extrações ordenados ela sua frequência. A lista começa do atributo mais frequente até o que menos aparece nas extrações.

In [62]:
# Print ordered list of attrs
for attr, indices in attrs_by_freq(extractions):
    print(attr + ':', len(indices))

id: 3892
nome: 3892
link: 3892
diretorio: 3892
elenco: 3735
roteiro: 3501
ano: 3112
direcao: 3037
duracao: 2175
fotografia: 1422
producao: 1374
distribuidora: 1158
genero: 1067
estudio: 775
diretor: 757
trilha sonora: 744
montagem: 703
montador: 653
classificacao: 646
design de producao: 580
musica: 522
figurino: 507
direcao de arte: 278
titulo original: 43
lancamento: 38
nacionalidade: 35
info: 14
uma frase: 12
graus de kb: 12
elenco (vozes originais): 10
arte: 8
data de lancamento: 7
elenco (vozes): 6
arte-final: 5
letras: 5
paginas: 5
cores: 5
canal: 4
generos: 4
capas: 3
editoria: 3
vozes originais: 3
artista: 2
pais: 2
gravadora: 2
estilo: 2
editora original: 2
datas originais de publicacao: 2
autor: 2
editora (nos eua): 2
data de publicacao: 2
contendo: 2
efeitos visuais: 1
producao e direcao: 1
com: 1
criado por: 1
datas de escrita e publicacao originais: 1
publicacao original: 1
 direcao: 1
 roteiro: 1
capa: 1
elenco (vozes no original): 1
elenco (versao original): 1
elenco (ed

O `json` contendo as extrações, contém 3 atributos obrigatórios que não dizem respeito às informações extraídas: `'id'`, `'link'` e `'diretorio'`. Este último é o caminho para o documento original, que será útil durante a criação do íncide invertido. 

Como pode-se notar, existem campos de extração com o mesmo significado, porém com grafias diferentes, como é o caso de `'direcao'`, `' direcao'` e `'diretor'`. Existem ainda campos com informações adicionais, tais informações aparecem - na maioria das vezes - entre parênteses. Outros campos representam múltiplas informações ao mesmo tempo, como por exemplo: `'producao e direcao'`.
___

# Pré-processamento

Nesta etapa serão tratados os casos citados na seção anterior. Adicionalmente, durante esta fase, dados na forma de valores reais serão discretizados.

Para normalização dos campos de extração, três providências precisam ser tomadas:
- Remoção de informações adicionais;
- Remoção da pontuação e espaços adicionais;
- Lemmatização de termos similares (sinônimos).

## Limpeza das *strings*

Em seguida, temos a remoção das informações dentro de parênteses e remoção da pontuação e espaços adicionais.

In [59]:
# Instantiate the tokenizer and auxiliar variables
tokenizer = WordTokenizer('portuguese', remove_stopwords=True, lower_case=True, do_stemming=False)
min_token_size = 2
ignored_token_types = [
    ETokenType.EMAIL,
    ETokenType.URL,
    ETokenType.TELEPHONE_CEP,
    ETokenType.DATE,
    ETokenType.NON_WORD
]

# Create new list to hold processed extractions
proc_extractions = []

for extraction in extractions:

    # Create new dict to hold processed extraction
    proc_extraction = {}

    for key in extraction.keys():
        # Remove information between parentheses. They are always in the end of the string
        proc_key = (re.split("[\(\)]", key)[0])

        # Some keys will have information of multiple extraction fields
        # In this case, there will always be an ' e '
        splited_keys = proc_key.split(' e ')

        for proc_key in splited_keys:
            # Remove any additional space
            proc_key = proc_key.strip()

            # Process the key and make the whole key be considered a single token
            proc_key = '_'.join(
                tokenizer.tokenize(
                    proc_key,
                    ignored_token_types=ignored_token_types,
                    min_token_size=min_token_size
                )
            )

            # Check if proc_extraction already has values for proc_key
            if proc_key in proc_extraction:
                # Preserve the current value
                proc_extraction[proc_key] = [proc_extraction[proc_key]]
                # Append new value
                proc_extraction[proc_key].append(extraction[key])
            else:
                # Add first value for proc_key
                proc_extraction[proc_key] = extraction[key]

    proc_extractions.append(proc_extraction)

Após a limpeza, já é possível perceber que alguns campos de extração foram combinados, porém nada tão significativo a ponto de mudar a ordem dos mais frequentes.

In [63]:
# Print ordered list of attrs
for attr, indices in attrs_by_freq(proc_extractions):
    print(attr + ':', len(indices))

id: 3892
nome: 3892
link: 3892
diretorio: 3892
elenco: 3753
roteiro: 3503
ano: 3112
direcao: 3040
duracao: 2175
fotografia: 1422
producao: 1375
distribuidora: 1158
genero: 1067
estudio: 775
diretor: 757
trilha_sonora: 744
montagem: 703
montador: 653
classificacao: 646
design_producao: 580
musica: 522
figurino: 507
direcao_arte: 278
titulo_original: 43
lancamento: 38
nacionalidade: 35
info: 14
frase: 12
graus_kb: 12
arte: 8
data_lancamento: 7
arte_final: 5
letras: 5
paginas: 5
cores: 5
canal: 4
generos: 4
capas: 3
editoria: 3
editora: 3
vozes_originais: 3
artista: 2
pais: 2
gravadora: 2
estilo: 2
editora_original: 2
datas_originais_publicacao: 2
autor: 2
data_publicacao: 2
contendo: 2
efeitos_visuais: 1
: 1
criado: 1
datas_escrita: 1
publicacao_originais: 1
publicacao_original: 1
capa: 1
brasil: 1
edicoes: 1
entrevistados: 1
editora_brasil: 1
elenco_original: 1
nacionalidades: 1
vozes: 1
site: 1
comentarios_seguir_falam_sobre_acontecimentos_narrados_filme_vingadores: 1
elenco_vozes: 1


## Lematização dos campos

Agora, os campos com significados parecidos serão combinados. Isso é feito para evitar a descentralização de informações no índice invertido.

A seguir, temos um dicionário onde a chave é o `lemma` e o valor é uma lista com todos os sinônimos presentes no corpus. A partir dele, um pequeno índice invertido é criado para ajudar na normalização.

In [68]:
synonyms = {
    'direcao': ['diretor'],
    'montagem': ['montador'],
    'trilha_sonora': ['musica'],
    'titulo': ['titulo_original', 'nome'],
    'lancamento': ['data_lancamento', 'ano'],
    'generos': ['genero'],
    'arte': ['arte_final'],
    'elenco': ['editora_brasil', 'editora_original', 'vozes', 'elenco_vozes', 'vozes_originais'],
    'producao': ['design_producao'],
    'nacionalidade': ['pais', 'nacionalidades']
}

synonyms_index = {}
for lemma, synonyms in synonyms.items():
    synonyms_index[lemma] = lemma
    for synonym in synonyms:
        synonyms_index[synonym] = lemma

In [69]:
# Create new list to hold lemmatized extractions
lem_extractions = []

for proc_extraction in proc_extractions:
    # Create new dict to hold lemmatized extraction
    lem_extraction = {}

    for proc_key in proc_extraction:
        lem_key = synonyms_index.get(proc_key, proc_key)
        
        # Check if lem_extraction already has values for lem_key
        if lem_key in lem_extraction:
            # Preserve the current value
            lem_extraction[lem_key] = [lem_extraction[lem_key]]
            # Append new value
            lem_extraction[lem_key].append(proc_extraction[proc_key])
        else:
            # Add first value for lem_key
            lem_extraction[lem_key] = proc_extraction[proc_key]

    lem_extractions.append(lem_extraction)

In [70]:
# Print ordered list of attrs
for attr, indices in attrs_by_freq(lem_extractions):
    print(attr + ':', len(indices))

id: 3892
titulo: 3892
link: 3892
diretorio: 3892
direcao: 3797
elenco: 3760
roteiro: 3503
lancamento: 3157
duracao: 2175
producao: 1484
fotografia: 1422
montagem: 1356
trilha_sonora: 1266
distribuidora: 1158
generos: 1071
estudio: 775
classificacao: 646
figurino: 507
direcao_arte: 278
nacionalidade: 38
info: 14
frase: 12
graus_kb: 12
arte: 8
letras: 5
paginas: 5
cores: 5
canal: 4
capas: 3
editoria: 3
editora: 3
artista: 2
gravadora: 2
estilo: 2
datas_originais_publicacao: 2
autor: 2
data_publicacao: 2
contendo: 2
efeitos_visuais: 1
: 1
criado: 1
datas_escrita: 1
publicacao_originais: 1
publicacao_original: 1
capa: 1
brasil: 1
edicoes: 1
entrevistados: 1
elenco_original: 1
site: 1
comentarios_seguir_falam_sobre_acontecimentos_narrados_filme_vingadores: 1


# Pré-processamento dos dados

Após as etapas de normalização dos campos de extração, é possível determinar - com certeza - quais os mais frequentes no corpus. São eles:
- Título
- Direção
- Elenco
- Roteiro
- Lançamento

Para os campos de `direcao`, `elenco` e `roteiro`, onde múltiplos nomes podem estar associados ao mesmo `titulo`, os dados serão transformados em listas de tokens para facilitar a criação do índice invertido. Adicionalmente, o campo de `lancamento` será discretizado. Os outros atributos serão tratados como palavras comuns. Sendo assim, receberão o mesmo tratamento de tokenização aplicado para o documento original.

Outro ponto que merece atenção é que para diversos filmes, o ano e local de lançamento estão descritos no campo `generos`. O `WordTokenizer` será utilizado para extrair valores numéricos deste atributo para que possam ser adicionados no campo correto.

In [165]:
# Instantiate the tokenizer and auxiliar variables
tokenizer = WordTokenizer('portuguese', remove_stopwords=True, lower_case=True, do_stemming=True)
min_token_size = 2
ignore_non_values = [
    ETokenType.EMAIL,
    ETokenType.URL,
    ETokenType.GLUED_TITLES,
    ETokenType.GLUED_WORD,
    ETokenType.GLUED_LOWER,
    ETokenType.TELEPHONE_CEP,
    ETokenType.WORD,
    ETokenType.NON_WORD
]
valuable_attr = [
    'id', 'link', 'diretorio',
    'titulo', 'direcao', 'elenco', 'roteiro', 'lancamento'
]

# Create new list to hold final extractions
clean_extractions = []

for lem_extraction in lem_extractions:
    # Create new dict to hold final extraction
    clean_extraction = {}

    # Save all valuables attributes
    for attr in valuable_attr:
        if attr in lem_extraction:
            if attr in clean_extraction:
                clean_extraction[attr] = [clean_extraction[attr]]
            else:
                clean_extraction[attr] = lem_extraction[attr]

    # Extract launch date from 'generos'
    if 'generos' in lem_extraction:
        launch = tokenizer.tokenize(
            lem_extraction['generos'],
            ignored_token_types=ignore_non_values,
            min_token_size=min_token_size
        )

        if launch:
            clean_extraction['lancamento'] = launch

    clean_extractions.append(clean_extraction)

## Tokenização das extrações

In [171]:
# Instantiate the tokenizer and auxiliar variables
tokenizer = WordTokenizer('portuguese', remove_stopwords=True, lower_case=True, do_stemming=False)
min_token_size = 2
ignore_noise = [
    ETokenType.EMAIL,
    ETokenType.URL,
    ETokenType.TELEPHONE_CEP,
    ETokenType.NON_WORD
]

# Attributes that can have multiple values for the same id
multivalues = ['direcao', 'elenco', 'roteiro']

# Attributes to be ignored by tokenization
ignore = ['id', 'link', 'diretorio']

# Create new list to hold final extractions
final_extractions = []

for clean_extraction in clean_extractions:
    # Create new dict to hold final extraction
    final_extraction = {}

    for attr in clean_extraction:
        if attr in ignore:
            final_extraction[attr] = clean_extraction[attr]
            continue

        value = clean_extraction[attr]

        if type(value) == list:
            value = ' '.join(value)

        if attr in multivalues:
            many = value.split(',')

            final_extraction[attr] = []
            for one in many:
                final_extraction[attr].extend(
                    tokenizer.tokenize(
                        one,
                        ignored_token_types=ignore_noise,
                        min_token_size=min_token_size
                    )
                )
        else:
            final_extraction[attr] = tokenizer.tokenize(
                value,
                ignored_token_types=ignore_noise,
                min_token_size=min_token_size
            )

    final_extractions.append(final_extraction)

## Discretização dos dados numéricos

In [172]:
for final_extraction in final_extractions:
    if 'lancamento' in final_extraction:
        try:
            launch = int(final_extraction['lancamento'][0])
        except (ValueError, IndexError):
            continue
        else:
            if launch < 1950:
                discrete_launch = '_1950'
            elif launch < 1960:
                discrete_launch = '1950_1959'
            elif launch < 1970:
                discrete_launch = '1960_1969'
            elif launch < 1980:
                discrete_launch = '1970_1979'
            elif launch < 1990:
                discrete_launch = '1980_1989'
            elif launch < 2000:
                discrete_launch = '1990_1999'
            elif launch < 2005:
                discrete_launch = '2000_2004'
            elif launch < 2010:
                discrete_launch = '2005_2009'
            elif launch < 2013:
                discrete_launch = '2010_2012'
            elif launch < 2016:
                discrete_launch = '2013_2015'
            elif launch < 2017:
                discrete_launch = '2016_2017'
            else:
                discrete_launch = '2017_2018'

            final_extraction['lancamento'] = [discrete_launch]

In [173]:
# Print ordered list of attrs
for attr, indices in attrs_by_freq(final_extractions):
    print(attr + ':', len(indices))

id: 3892
link: 3892
diretorio: 3892
titulo: 3892
direcao: 3797
elenco: 3760
roteiro: 3503
lancamento: 3171


In [174]:
final_extractions[0]

{'id': 1,
 'link': 'brasil.elpais.com/brasil/2014/01/30/cultura/1391104485_938514.html',
 'diretorio': './crawler/pages/heuristic_2/positive_files/pag1.html',
 'titulo': ['pele', 'de', 'venus'],
 'direcao': ['roman', 'polanski'],
 'elenco': ['mathieu', 'amalric', 'emmanuelle', 'seigner'],
 'lancamento': ['2013_2015']}

# Índice Invertido

In [186]:
# Attributes that can have multiple values for the same id
multivalues = ['direcao', 'elenco', 'roteiro']

# Attributes to be ignored by the inverted index
ignore = ['id', 'link', 'diretorio']

inverted_index = {}
for final_extraction in final_extractions:
    extraction_id = final_extraction['id']

    for attr in final_extraction:
        if attr in ignore:
            continue

        for token in final_extraction[attr]:
            attr_token = attr + '.' + token

            if attr_token not in inverted_index:
                inverted_index[attr_token] = (0, [])

            inverted_index[attr_token] = (
                inverted_index[attr_token][0] + 1,
                inverted_index[attr_token][1]
            )

            inverted_index[attr_token][1].append(extraction_id)

    final_extraction['diretorio'] = '.' + final_extraction['diretorio']
    with open(final_extraction['diretorio'], 'r') as f:
        content = f.read()
        tokens = tokenizer.tokenize(
            content,
            ignored_token_types=ignore_noise,
            min_token_size=min_token_size
        )

        for token in tokens:
            if token not in inverted_index:
                inverted_index[token] = (0, {})

            inverted_index[token] = (
                inverted_index[token][0] + 1,
                inverted_index[token][1]
            )

            if extraction_id not in inverted_index[token][1]:
                inverted_index[token][1][extraction_id] = 0
            inverted_index[token][1][extraction_id] += 1

In [187]:
file_ = open('inverted_index.json', 'w+')
file_.write(json.dumps(inverted_index, indent=4))
file_.close()

In [188]:
len(inverted_index.keys())

118993