In [1]:
from lxml import etree
from unicodedata import normalize

In [2]:
parser = etree.HTMLParser()
root = './pages/pag'

#### Método para a busca do conteúdo textual de um componente HTML de forma recursiva

In [3]:
# run into the element recursively getting the text
def get_element_text(elem):
    if len(elem) == 0:
        if elem != []:
            if elem.tag == "br":
                return "\n"
            elif elem.text == None:
                return ""
            else:
                return elem.text
        else:
            return ""
    else:
        if elem[0].tag == 'br':
            return "\n" + ("" if elem[0].tail == None else elem[0].tail.strip()) + get_element_text(elem[1:])
        if elem[0].tail != None and elem[0].tail.strip() != "":
            return (elem.text.strip() if isinstance(elem, etree._Element) and elem.text != None else "") + ("" if elem[0].text == None else elem[0].text) + ("" if len(elem[0]) == 0 else get_element_text(elem[0][:])) + elem[0].tail + get_element_text(elem[1:])
        else:
            return (elem.text.strip() if isinstance(elem, etree._Element) and elem.text != None else "") +  ("" if elem[0].text == None else elem[0].text) + ("" if len(elem[0]) == 0 else get_element_text(elem[0][:])) + get_element_text(elem[1:])

#### Métodos para remoção de acentos e normalização de caracteres

In [4]:
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

def text_normalize(text):
    return normalize("NFKD",text)

#### Método para encontrar o elemento HTML que concentra as informações estruturadas do filme

A partir da detecção de um par de informação característico como Diretor e Elenco, esse método tenta encontrar o elemento HTML "pai" que pode estar com as demais informações do filme. A partir de um par, ele sobre até 3 níveis na hierarquia da DOM Tree, considerando pelo menos 2 informações importantes: Elenco e Diretor, Elenco e Roteiro, Diretor e Gênero, e Diretor e Roteiro.

In [5]:
cast_check_list = ["Intérpretes", "Elenco"]
director_check_list = ["Direção", "Diretor"]
script_check_list = ["Roteiro"]
genre_check_list = ["Gênero"]
def get_all_information(elem, depth):
    if depth < 3:
        cast = any(cast in get_element_text(elem) for cast in cast_check_list)
        director = any(direc in get_element_text(elem) for direc in director_check_list)
        script = any(sct in get_element_text(elem) for sct in script_check_list)
        genre = any(gen in get_element_text(elem) for gen in genre_check_list)
        
        if (cast and (director or script)) or (director and (genre or script)):
            return elem
        else:
            return get_all_information(elem.getparent(), depth+1)
    else:
         return None

#### Especificação de palavras boas e ruins para a extração

As top_words são os termos chave para a informação estruturada dos filmes, foram concentradas todas as que ocorrem nos 10 domínios analisados, facilitando no momento da extração de qualquer página desses sites.

As bad_words são os termos que ocorrem na extração, mas que não fazem parte da informação estruturada desejada, sendo assim ignoradas no processo de extração

In [6]:
# todas as possíveis categorias mapeadas para os domínios (forma de categorizar a informação extraída mais facil)
top_words = ("Diretor","Direção","Elenco","Intérpretes","Gênero","Duração","Classificação","Roteiro","Ano","Produção","Fotografia","Trilha Sonora","Estúdio","Montador","Montagem","Distribuidora","Música","Design de Produção","Figurino","Censura","Nacionalidade","Lançamento")
# todas as palavras que estão na extração, mas não servem e podem atrapalhar a categorização das informações
bad_words = ("Ficha técnica","Equipe técnica", "Data de lançamento")

def which_top_words_startswith(text):
    if text.startswith(top_words):
        for top in top_words:
            if text.startswith(top):
                return top
    else:
        return None

#### Processo de identificação dos títulos dos filmes

Como a maior parte dos domínios não disponibilizam o título dos filmes junto com a informação estruturada, foi necessário um método de busca a parte, uma "heurística". Infelizmente nem todos os domínios usam algum tipo de identificador nos elementos que carregam o título dos filmes, como 'id' e 'class'. Assim, foram consideradas três formas de abordar a situação, sendo ordenadas por efetividade.

In [7]:
def just_text(item):
    if item.text != None and item.text.strip() != "":
        return item.text

def get_movie_title_pt1(tree):
    titulos = []
    for item in tree.iter():
        if item.get("class") != None:
            if item.get("class") == "title":
                titulos.append(just_text(item))
    if len(titulos) == 2:
        return text_normalize(titulos[0])
    else:
        return None

def get_movie_title_pt2(tree):
    titulos = []
    for item in tree.iter():
        if item.get("class") != None:
            if item.get("class").endswith("titulo"):
                titulos.append(just_text(item))
    if len(titulos) > 0:
        return text_normalize(titulos[0])
    else:
        return None
    
def get_movie_title_pt3(tree):
    titulos = []
    for item in tree.iter():
        if item.get("class") != None:
            if item.get("class").endswith("title"):
                titulos.append(just_text(item))
    if len(titulos) > 0:
        for t in titulos:
            if t != None:
                return text_normalize(t)
        return None
    else:
        return None
    
def get_movie_title(tree):
    titulo = get_movie_title_pt1(tree)
    if titulo == None:
        titulo = get_movie_title_pt2(tree)
        if titulo == None:
            titulo = get_movie_title_pt3(tree)
            if titulo != None:
                titulo = titulo.strip()
            else:
                titulo = None
        else:
            titulo = titulo.strip()
    else:
        titulo = titulo.strip()
    
    return titulo

#### Extração da informação por quebra de linha (\n)

A extração da informação dos filmes em poucos sites já vem "pré-estruturada", com os pares de informação divididos com quebras de linha (\n). Assim, esse método é responsável por essa forma de extração.

In [8]:
def extract_by_breakline(element,i):    
    info = get_element_text(element).split("\n")
    filme = {}
    filme['id'] = i
    title_flag = True
    for item in info:
        categoria = which_top_words_startswith(item)
        if categoria != None:            
            if title_flag == True:                            
                filme['nome'] = get_movie_title(tree)
            title_flag = False
            item = item[len(categoria):].strip() # apenas a informação
            if item.startswith(":"):
                item = item[1:].strip() # apenas a informação, sem ':'
                if item: # não vazio...
                    filme[remover_acentos(categoria).lower()] = text_normalize(item)
        elif title_flag == True and not item.startswith(bad_words):
            title_flag = False
            titulo = item
            if titulo.startswith("Título Original"):
                titulo = titulo[len("Título Original")+1:].strip()
            filme['nome'] = titulo
    return filme

#### Breve descrição da lógica proposta para o extrator geral

In [9]:
# > Se houver categoria e ':' e algum texto depois disso, é uma informação a ser extraída [OK]
# 	> Considera o termo antes de ':' como a categoria, e o que houver depois de ':' a informação

# > Se for uma categoria e não tiver ":" mas tem texto a seguir [OK]
# 	> considera a categoria, remove-a do texto -> strip() -> e atribui o restante como informação

# > Se for uma categoria e não tiver ":" nem texto a seguir, a informação referente pode estar por vir...
# 	> Enquanto não aparecer uma linha em branco, ou uma nova categoria, ou uma stopword, adicionar à ultima categoria vista

# > Se for uma linha vazia, pode considerar que uma nova informação está por vir...
# 	> ignora...

# > Se for uma categoria e tiver ":" mas não houver texto a seguir OU se for uma categoria, não tiver ":" e a próxima linha for em branco, a forma de extração está errada para esse caso
# 	> Chamar o método get_element_text para o div pai, dar split em '\n' e realizar as condições acima

### Extrator geral

#### Primeira etapa
A primeira etapa realiza a identificação de pelo menos um par de informação considerado relevante: Elenco e Diretor. A busca é feita verificando caso o texto do elemento alvo comece com alguma dessas duas palavras, ou seja exatamente elas.

Caso não seja encontrado dessa forma, é buscado se há a ocorrência de pelo menos um dos três termos: Elenco, Diretor e Roteiro, agora totalizando 3 termos relevantes.

Ao ser identificado um par, esse é passado como parâmetro para o método "get_all_information", explicado anteriormente, o qual tenta identificar o elemento "pai" que carrega todas as informações estruturadas.
#### Segunda etapa
A segunda etapa é apenas para a estruturação da informação identificada e coletada na etapa anterior. Primeiramente verifica se é o caso da informação ser simplesmentes estruturada por quebras de linha (\n). Caso não seja dessa maneira, ocorre a descrição da lógica proposta citada acima. O que basicamente utiliza das top_words para reconhecer as informações que devem ser extraídas, e evitando as bad_words. Trata alguns padrões de como é disposto os pares nos domínios trabalhados, como a utilização ou não de ":" e que nem sempre a informação dos pares é na mesma "linha".

In [10]:
# categorias obrigatórias para seleção de elemento da DOM
list_word = ["intérpretes", "elenco","diretor","direção"]
# 4-tupla para a função startswith
search_words = ("intérpretes:", "elenco:","diretor:","direção:")
# para um caso em específico onde a informação está contida em um parágrafo
second_effort = ("Intérpretes:", "Elenco:", "Diretor:", "Direção:", "Roteiro:")

filmes=[]
for i in range(1,101):
    tree = etree.parse(root + str(i) + '.html', parser)
    check = False
    content = None
    # percorre cada elemento da arvore DOM
    for item in tree.iter():
        # busca o elemento que tenha uma das search_words/list_words
        if item.text != None and ((item.text.lower().startswith(search_words) or item.text.lower() in list_word) or (len([ch for ch in second_effort if ch in item.text]) > 1)) and not check:
            # get_all_information busca o elemento pai que contem todas os pares a serem extraidos
            result = get_all_information(item, 0)
            if result != None: # controle para caso confirme a busca do pai
                content = result
                check=True
                break            
                
    if content != None:
        filme = {}
        filme['id'] = i
        ultima_categoria = {"status": False, "value": ""}
        trigger_error = False
        title_flag = True
        if len(content) == 0:
            if content.text:
                filme = extract_by_breakline(content,i)
        else:
            for x in content: # percorre cada filho, buscando os pares a ser extraido
                info = get_element_text(x).replace("Ã§Ã£","çã").strip()
                if info:
                    categoria = which_top_words_startswith(info)
                    if categoria != None:
                        if title_flag == True:                            
                            filme['nome'] = get_movie_title(tree)
                        title_flag = False
                        ultima_categoria['status'] = False # para a atribuição iterativa, começa uma nova categoria
                        
                        info = info[len(categoria):].strip() # apenas a informação
                        if info.startswith(":"):
                            info = info[1:].strip() # apenas a informação, sem ':'
                            if info: # não vazio...
#                                 print("com ':'", categoria, info)
                                filme[remover_acentos(categoria).lower()] = info
                            else: # vazio, pode indicar ERRO
                                # tentativa de correção
                                # essa categoria pode ser dita como vazia, mas se houver outra ocorrencia,
                                # deve ser redirecionado
                                if trigger_error == False:
#                                     print("erro trigado...")
                                    trigger_error = True
                                    filme[remover_acentos(categoria).lower()] = ""
                                else:
#                                     print("erro... redirecionando...")
                                    filme = extract_by_breakline(content,i)
                                    break
                        else:
                            if info: # não vazio...
#                                 print("sem ':'", categoria, info)
                                filme[remover_acentos(categoria).lower()] = info
                            else: # vazio, informação nas proximas linhas
                                ultima_categoria['status'] = True
                                ultima_categoria['value'] = categoria
                    elif ultima_categoria['status'] == True and info not in bad_words:
                        cat = remover_acentos(ultima_categoria['value']).lower()
                        if cat not in filme:
                            filme[cat] = []
                        filme[cat].append(info)
                    elif trigger_error == True:
#                         print("erro... redirecionando...")
                        filme = extract_by_breakline(content,i)
                        break
                    elif title_flag == True and not info.startswith(bad_words):
                        title_flag = False
#                         print(info)
                        filme['nome'] = info.strip()
                else: # vazio
#                     print("linha vazia...")
                    if trigger_error == True:
#                         print("erro... redirecionando...")
                        filme = extract_by_breakline(content,i)
                        break
                    ultima_categoria['status'] = False
        filme['nome'] = filme['nome'].replace("Crítica | ", "") if filme['nome'] != None else None
        filmes.append(filme)
#         print(filme)
print(filmes)

[{'id': 1, 'nome': 'HOMEM-FORMIGA E A VESPA', 'direcao': 'Peyton Reed.', 'interpretes': 'Paul Rudd, Evangeline Lilly, Michael Douglas, Michelle Pfeiffer.', 'genero': 'ação. EUA, 2018.', 'duracao': '118 minutos.'}, {'id': 2, 'nome': 'NICO, 1988', 'direcao': 'Susanna Nicchiarelli.', 'interpretes': 'Tryne Dyrholm, John Gordon Sinclair, Anamaria Marinca, Sandor Funtek.', 'genero': 'musical. Itália, 2017.', 'duracao': '93 minutos.'}, {'id': 3, 'nome': 'HOTEL TRANSILVÂNIA 3:\xa0 FÉRIAS MONSTRUOSAS', 'direcao': 'Genndy Tartakovsky.', 'genero': 'comédia. Estados Unidos, 2018.', 'duracao': '97 minutos.'}, {'id': 4, 'nome': 'MAMMA MIA! LÁ VAMOS NÓS DE NOVO', 'direcao': 'Ol Parker.', 'elenco': 'Lily James, Amanda Seyfried, Christine Baranski, Pierce Brosnan.', 'genero': 'musical. Reino Unido, 2018.', 'duracao': '114 minutos.'}, {'id': 5, 'nome': 'MISSÃO IMPOSSÍVEL − EFEITO FALLOUT', 'direcao': 'Christopher McQuarrie.', 'interpretes': 'Tom Cruise, Sean Harris, Henry Cavill, Rebecca Ferguson.', 'ge

#### Tratamento das variações de categoria

Como existe a ocorrência de sinônimos nas categorias, como por exemplo: Elenco e Intérpretes, Diretor e Direção, é necessário unificar e deixar de acordo com o padrão utilizado nos extratores específicos.

In [11]:
general = [{'id': 1, 'nome': 'HOMEM-FORMIGA E A VESPA', 'direcao': 'Peyton Reed.', 'genero': 'ação. EUA, 2018.', 'duracao': '118 minutos.', 'elenco': 'Paul Rudd, Evangeline Lilly, Michael Douglas, Michelle Pfeiffer.'}, {'id': 2, 'nome': 'NICO, 1988', 'direcao': 'Susanna Nicchiarelli.', 'genero': 'musical. Itália, 2017.', 'duracao': '93 minutos.', 'elenco': 'Tryne Dyrholm, John Gordon Sinclair, Anamaria Marinca, Sandor Funtek.'}, {'id': 3, 'nome': 'HOTEL TRANSILVÂNIA 3:\xa0 FÉRIAS MONSTRUOSAS', 'direcao': 'Genndy Tartakovsky.', 'genero': 'comédia. Estados Unidos, 2018.', 'duracao': '97 minutos.'}, {'id': 4, 'nome': 'MAMMA MIA! LÁ VAMOS NÓS DE NOVO', 'direcao': 'Ol Parker.', 'elenco': 'Lily James, Amanda Seyfried, Christine Baranski, Pierce Brosnan.', 'genero': 'musical. Reino Unido, 2018.', 'duracao': '114 minutos.'}, {'id': 5, 'nome': 'MISSÃO IMPOSSÍVEL − EFEITO FALLOUT', 'direcao': 'Christopher McQuarrie.', 'genero': 'thriller.', 'duracao': '147 minutos.', 'elenco': 'Tom Cruise, Sean Harris, Henry Cavill, Rebecca Ferguson.'}, {'id': 6, 'nome': 'Escobar – A Traição', 'direcao': 'Fernando León de Aranoa.', 'elenco': 'Javier Bardem, Penélope Cruz, Peter Sarsgaard.', 'genero': '‘biopic’. Espanha, 2017.', 'duracao': '123 minutos.'}, {'id': 7, 'nome': 'Seleccione Edição', 'direcao': 'Ryan Coogler.', 'elenco': 'Chadwick Boseman, Michael B. Jordan, Lupita Nyong’o, Danai Gurira.', 'genero': 'ficção científica. Estados Unidos, 2018.', 'duracao': '134 minutos.'}, {'id': 8, 'nome': 'TRAMA FANTASMA', 'direcao': 'Paul Thomas Anderson.', 'elenco': 'Daniel Day-Lewis, Lesley Manville, Vicky Krieps, Richard Graham.', 'genero': 'drama. EUA, 2017.', 'duracao': '130 minutos.'}, {'id': 9, 'nome': 'Seleccione Edição', 'direcao': 'Jason Reitman.', 'genero': 'drama. EUA, 2018.', 'duracao': '95 minutos.', 'elenco': 'Charlize Theron, Mackenzie Davis, Rum Livingston, Mark Duplass.'}, {'id': 10, 'nome': 'SUBMERSÃO', 'direcao': 'Wim Wenders.', 'genero': 'drama. Alemanha, 2017.', 'duracao': '111 minutos.', 'elenco': 'James McAvoy, Alicia Vikander, Alexander Siddig, Celyn Jones.'}, {'id': 11, 'nome': 'Hotel Artemis', 'direcao': 'Drew Pearce', 'roteiro': 'Drew Pearce', 'elenco': 'Zachary Quinto, Jenny Slate, Jeff Goldblum, Sofia Boutella, Sterling K. Brown, Jodie Foster'}, {'id': 12, 'nome': 'Nasce Uma Estrela', 'direcao': 'Bradley Cooper', 'roteiro': 'Bradley Cooper, Will Fetters, Irene Mecchi, Christopher Wilkinson, Stephen J. Rivele', 'elenco': 'Bradley Cooper, Lady Gaga, Sam Elliott'}, {'id': 13, 'nome': 'Red Joan', 'direcao': 'Trevor Nunn', 'elenco': 'Tom Hughes, Stephen Campbell Moore, Sophie Cookson, Judi Dench'}, {'id': 14, 'nome': 'Destroyer', 'direcao': 'Karyn Kusama', 'roteiro': 'Matt Manfredi, Phil Hay', 'elenco': 'Toby Kebbell, Tatiana Maslany, Nicole Kidman'}, {'id': 15, 'nome': 'O Predador', 'direcao': 'Shane Black', 'elenco': 'Olivia Munn, Thomas Jane, Boyd Holbrook, Sterling K. Brown, Keegan-Michael Key'}, {'id': 16, 'nome': 'Mid90s', 'direcao': 'Jonah Hill', 'roteiro': 'Jonah Hill', 'elenco': 'Katherine Waterston, Lucas Hedges, Sunny Suljic'}, {'id': 17, 'nome': 'A Primeira Noite de Crime', 'direcao': 'Gerard McMurray', 'roteiro': 'James DeMonaco', 'elenco': "John P. McGinty, Cloé Xhauflaire, Jessica Bell, Geoff Schuppert, Qurrat Ann Kadwani, Christian Robinson, David Breda, Lex Scott Davis, Y'lan Noel"}, {'id': 18, 'nome': 'O MistÃ©rio do RelÃ3gio na Parede', 'direcao': 'Eli Roth', 'roteiro': 'Eric Kripke', 'elenco': 'Kyle MacLachlan, Owen Vaccaro, Cate Blanchett, Jack Black'}, {'id': 19, 'nome': 'American Woman', 'direcao': 'Jake Scott', 'roteiro': 'Brad Ingelsby', 'elenco': 'Macon Blair, Will Sasso, Amy Madigan, Sienna Miller, Aaron Paul, Christina Hendricks'}, {'id': 20, 'nome': 'Buscando...', 'direcao': 'Aneesh Chaganty', 'roteiro': 'Sev Ohanian, Aneesh Chaganty', 'elenco': 'Sara Sohn, John Cho'}, {'id': 21, 'nome': 'O Predador', 'direcao': ['Shane Black'], 'roteiro': 'Fred Dekker, Jim Thomas, John Thomas, Shane Black', 'producao': 'Blondel Aidoo, John Davis, Lawrence Gordon', 'fotografia': 'Larry Fong', 'trilha sonora': 'Henry Jackman', 'montador': 'Harry B. Miller III', 'distribuidora': 'Fox Film', 'elenco': 'Alfie Allen, Andrew Jenkins, Augusto Aguilera, Boyd Holbrook, Crystal Mudry, Edward James Olmos, Inka Malovic, Jacob Tremblay, Jake Busey, Keegan-Michael Key, Lochlyn Munro, Niall Matter, Olivia Munn, Patrick Sabongui, Paul Lazenby, RJ Fetherstonhaugh, Sterling K. Brown, Thomas Jane, Trevante Rhodes, Yvonne Strahovski'}, {'id': 22, 'nome': None, 'direcao': ['Corin Hardy'], 'roteiro': 'Gary Dauberman, James Wan', 'producao': 'James Wan, Michael Clear, Peter Safran', 'fotografia': 'Maxime Alexandre', 'trilha sonora': 'Abel Korzeniowski', 'montador': 'Michel Aller', 'distribuidora': 'Warner', 'elenco': 'Ani Sava, August Maturo, Boiangiu Alma, Bonnie Aarons, Charlotte Hope, Demián Bichir, Emma Appleton, Flynn Hayward, Ingrid Bisu, Jamie Muscato, Jared Morgan, Jonas Bloquet, Jonny Coyne, Lourdes Nadres, Mark Steger, Natalie Creek, Samson Marraccino, Sandra Rosko, Sandra Teles, Scarlett Hicks, Simon Rhee, Taissa Farmiga'}, {'id': 23, 'nome': 'Buscando...', 'direcao': ['Aneesh Chaganty'], 'roteiro': 'Aneesh Chaganty, Sev Ohanian', 'producao': 'Adam Sidman, Congyu E, Natalie Qasabian, Sev Ohanian, Timur Bekmambetov', 'fotografia': 'Juan Sebastian Baron', 'trilha sonora': 'Torin Borrowdale', 'montador': 'Nicholas D. Johnson, Will Merrick', 'distribuidora': 'Sony Pictures', 'elenco': 'Alex Jayne Go, Ashley Edner, Benjamin J. Cain Jr., Brad Abrell, Courtney Lauren Cummings, Debra Messing, Erin Henriques, Gabriel D. Angell, Gage Biltoft, John Cho, Joseph Lee, Kyle Austin Brown, Lasaundra Gibson, Melissa Disney, Michelle La, Morgan Peter Brown, Rasha Goel, Reed Buck, Roy Abramsohn, Sara Sohn, Steven Michael Eich, Thomas Barbusca'}, {'id': 24, 'nome': None, 'direcao': ['Jonathan Baker, Josh Baker'], 'roteiro': 'Daniel Casey, Jonathan Baker, Josh Baker', 'producao': 'Dan Cohen, David Gross, Jeff Arkuss, Jesse Shapira, Shawn Levy', 'fotografia': 'Larkin Seiple', 'trilha sonora': 'Mogwai', 'montador': 'Mark Day', 'distribuidora': 'Paris Filmes', 'elenco': 'Attila Sebesy, Bree Wasylenko, Carleigh Beverly, Carlos Pinder, Carrie Coon, Carson Manning, Dennis Quaid, Eli Ham, Gavin Fox, Ian Matthews, Ivan Sherry, Ivan Wanis-Ruiz, Jack Reynor, James Franco, Jonathan Cherry, Khalid Klein, Lily Gao, Myles Truitt, Romano Orzari, Shawn J. Hamilton, Stella Acquisto, Zoë Kravitz'}, {'id': 25, 'nome': None, 'direcao': ['Aly Muritiba'], 'roteiro': 'Aly Muritiba, George Moura, Jessica Candal', 'producao': 'Ana Catarina, Antonio Júnior, Fernando Meirelles, Guel Arraes', 'fotografia': 'Rui Poças', 'trilha sonora': 'Fabian Oliver', 'montador': 'João Menna Barreto', 'distribuidora': 'Olhar Distribuição', 'elenco': 'Clarissa Kiste, Dudah Azevedo, Enrique Diaz, Giovanni de Lorenzi, Igor Augustho, Pedro Inoue, Tifanny Dopke'}, {'id': 26, 'nome': 'Os Jovens Titãs Em Ação! Nos Cinemas', 'direcao': ['Aaron Horvath, Peter Rida Michail'], 'roteiro': 'Aaron Horvath, Arnold Drake, Bob Brown, Bob Haney, Bruno Premiani, George Perez, Harry G. Peter, Marv Wolfman, Michael Jelenic', 'producao': 'Peggy Regan, Peter Rida Michail, Will Arnett', 'trilha sonora': 'Jared Faber', 'montador': 'Nick Kenway', 'distribuidora': 'Warner Bros', 'elenco': 'Dana Snyder, Greg Cipes, Halsey, Hynden Walch, James Corden, Jimmy Kimmel, Khary Payton, Kristen Bell, Lil Yachty, Nicolas Cage, Scott Menville, Tara Strong, Will Arnett'}, {'id': 27, 'nome': None, 'direcao': ['Sylvain White'], 'roteiro': 'David Birke, Victor Surge', 'producao': 'Andrea Ajemian, Bradley J. Fischer, James Vanderbilt, Robyn Meisinger, Sarah Snow, William Sherak', 'fotografia': 'Luca Del Puppo', 'trilha sonora': 'Brandon Campbell, Ramin Djawadi', 'montador': 'Jake York', 'distribuidora': 'Sony', 'elenco': "Adrian M. Mompoint, Alex Fitzalan, Angela Hope Smith, Annalise Basso, Damon D'Amico Jr, Javier Botet, Jaz Sinclair, Jeffrey Corazzini, Jessica Blank, Joey King, Julia Goldani Telles, Kallie Tabor, Kayla Caulfield, Kevin Chapman, Kris Sidberry, Michael Reilly Burke, Michael Tow, Miguel Nascimento, Oscar Wahlberg, Remington Keyes, Taylor Richardson"}, {'id': 28, 'nome': None, 'direcao': ['Susanna Fogel'], 'roteiro': 'David Iserson, Susanna Fogel', 'producao': 'Brian Grazer, Erica Huggins', 'fotografia': 'Barry Peterson', 'trilha sonora': 'Tyler Bates', 'montador': 'Jonathan Schwartz', 'distribuidora': 'Paris Filmes', 'elenco': 'Attila C. Arpa, Barnabás Réti, Dustin Demri-Burns, Fred Melamed, Genevieve McCarthy, Gillian Anderson, Hasan Minhaj, Ivanna Sakhno, Justin Theroux, Justine Wachsberger, Kate McKinnon, Kev Adams, Lolly Adefope, Maria Z. Wilson, Mila Kunis, Nick Vorsselman, Nick Wittman, Ólafur Darri Ólafsson, Roderick Hill, Ruby Kammer, Sam Heughan'}, {'id': 29, 'nome': None, 'direcao': ['Marc Forster'], 'roteiro': 'A.A. Milne, Alex Ross Perry, Allison Schroeder, Tom McCarthy', 'producao': 'Brigham Taylor, Steve Gaub', 'fotografia': 'Matthias Koenigswieser', 'trilha sonora': 'Geoff Zanelli, Jon Brion', 'montador': 'Matt Chesse', 'distribuidora': 'Disney', 'elenco': "Adrian Scarborough, Bern Collaco, Brad Garrett, Bronte Carmichael, Chris O'Dowd, Evie Wray, Ewan McGregor, Gintare Beinoraviciute, Hayley Atwell, Jim Cummings, Katy Carmichael, Mark Gatiss, Nick Mohammed, Oliver Ford Davies, Paul Chahidi, Peter Capaldi, Roger Ashton-Griffiths, Shola Adewusi, Sophie Okonedo, Toby Jones, Tristan Sturrock"}, {'id': 30, 'nome': None, 'direcao': ['Antoine Fuqua'], 'roteiro': 'Michael Sloane, Richard Lindheim, Richard Wenk', 'producao': 'Alex Siskin, Denzel Washington, Jason Blumenthal, Mace Neufeld, Steve Tisch, Todd Black, Tony Eldridge', 'fotografia': 'Oliver Wood', 'trilha sonora': 'Harry Gregson-Williams', 'montador': 'Conrad Buff IV', 'distribuidora': 'Sony Pictures', 'elenco': "Abigail Marlowe, Alexa Giuffre, Alin Halajian, Andrei Arlovski, Annie Pisapia, Ashton Sanders, Bill Pullman, Caroline Day, Denzel Washington, Donald Cerrone, Enku Gubaie, Eric Ian, Heidi Garrow, Jay Hieron, Jonathan Scarfe, Karen Strong, Lexie Roth, Melissa Leo, Patty O'Neil, Pedro Pascal, Sakina Jaffrey, Tamara Hickey"}, {'id': 31, 'nome': None, 'direcao': ['Wes Anderson'], 'elenco': ['Bryan Cranston',  'Koyu Rankin',  'Edward Norton',  'Scarlett Johansson',  'Bob Balaban',  'Greta Gerwig',  'Akira Takayama',  'Yoko Ono',  'Akira Ito',  'Fisher Stevens',  'Liev Schreiber',  'Courtney B. Vance',  'Roman Coppola',  'Anjelica Huston',  'Ken Watanabe',  'F. Murray Abraham',  'Tilda Swinton',  'Frances McDormand',  'Harvey Keitel',  'Jeff Goldblum',  'Bill Murray'], 'roteiro': ['Wes Anderson'], 'producao': ['Wes Anderson', 'Jeremy Dawson', 'Scott Rudin', 'Steven Rales'], 'fotografia': ['Tristan Oliver'], 'musica': ['Alexandre Desplat'], 'montagem': ['Andrew Weisblum', 'Edward Bursch', 'Ralph Foster'], 'design de producao': ['Adam Stockhausen', 'Paul Harrod']}, {'id': 32, 'nome': None, 'direcao': ['Stefano Sollima'], 'elenco': ['Benicio Del Toro',  'Josh Brolin',  'Isabela Moner',  'Catherine Keener',  'Jeffrey Donovan',  'Matthew Modine',  'Shea Whigham',  'Manuel Garcia-Rulfo',  'Elijah Rodriguez',  'Bruno Bichir',  'Raoul Trujillo'], 'roteiro': ['Taylor Sheridan'], 'producao': ['Basil Iwanyk',  'Thad Luckinbill',  'Trent Luckinbill',  'Edward L. McDonnell',  'Molly Smith'], 'fotografia': ['Dariusz Wolski'], 'musica': ['Hildur Guðnadóttir'], 'montagem': ['Matthew Newman'], 'design de producao': ['Kevin Kavanaugh'], 'figurino': ['Deborah Lynn Scott']}, {'id': 33, 'nome': None, 'direcao': ['Brad Bird'], 'elenco': ['Holly Hunter',  'Craig T. Nelson',  'Sarah Vowell',  'Samuel L. Jackson',  'Huck Milner',  'Catherine Keener',  'Bob Odenkirk',  'Brad Bird',  'Sophia Bush',  'Phil LaMarr',  'John Ratzenberger',  'Barry Bostwick',  'Adam Rodriguez',  'Kimberly Adair Clark',  'Paul Eiding',  'Jonathan Banks',  'Isabella Rossellini'], 'roteiro': ['Brad Bird'], 'producao': ['John Walker', 'Nicole Paradis Grindle'], 'fotografia': ['Mahyar Abousaeedi', 'Erik Smitt'], 'musica': ['Michael Giacchino'], 'montagem': ['Stephen Schaffer'], 'design de producao': ['Ralph Eggleston'], 'figurino': ['Deanna Marsigliese']}, {'id': 34, 'nome': None, 'direcao': ['Juliana Rojas'], 'elenco': ['Isabél Zuaa',  'Marjorie Estiano',  'Cida Moreira',  'Andréa Marquee',  'Felipe Kenji',  'Nina Medeiros',  'Neusa Velasco',  'Gilda Nomacce',  'Naloana Lima',  'Miguel Lobo'], 'roteiro': ['Marco Dutra', 'Juliana Rojas', 'Marco Dutra'], 'producao': ['Sara Silveira', 'Clément Duboin', 'Frédéric Corvez'], 'fotografia': ['Rui Poças'], 'musica': ['Guilherme Garbato', 'Gustavo Garbato'], 'montagem': ['Caetano Gotardo'], 'design de producao': ['Fernando Zuccolotto'], 'figurino': ['Kiki Orona']}, {'id': 35, 'nome': None, 'direcao': ['Ari Aster'], 'elenco': ['Toni Collette',  'Gabriel Byrne',  'Alex Wolff',  'Milly Shapiro',  'Mallory Bechtel',  'David Stanley',  'Ann Dowd'], 'roteiro': ['Ari Aster'], 'producao': ['Lars Knudsen', 'Kevin Scott Frakes', 'Buddy Patrick'], 'fotografia': ['Pawel Pogorzelski'], 'musica': ['Colin Stetson'], 'montagem': ['Jennifer Lame', 'Lucian Johnston'], 'design de producao': ['Grace Yun'], 'figurino': ['Olga Mill']}, {'id': 36, 'nome': None, 'direcao': ['François Ozon'], 'elenco': ['Marine Vacth',  'Jérémie Renier',  'Jacqueline Bisset',  'Myriam Boyer',  'Dominique Reymond'], 'roteiro': ['François Ozon', 'Philippe Piazzo'], 'producao': ['Eric Altmayer', 'Nicolas Altmayer'], 'fotografia': ['Manuel Dacosse'], 'musica': ['Philippe Rombi'], 'montagem': ['Laure Gardette'], 'design de producao': ['Sylvie Olivé'], 'figurino': ['Pascaline Chavanne']}, {'id': 37, 'nome': None, 'direcao': ['J.A. Bayona'], 'elenco': ['Chris Pratt',  'Bryce Dallas Howard',  'Ted Levine',  'Toby Jones',  'James Cromwell',  'BD Wong',  'Rafe Spall',  'Daniella Pineda',  'Justice Smith',  'Isabella Sermon',  'Geraldine Chaplin',  'Jeff Goldblum'], 'roteiro': ['Colin Trevorrow', 'Derek Connolly'], 'producao': ['Patrick Crowley', 'Belén Atienza', 'Frank Marshall'], 'fotografia': ['Oscar Faura'], 'musica': ['Michael Giacchino'], 'montagem': ['Bernat Vilaplana'], 'design de producao': ['Andy Nicholson'], 'figurino': ['Sammy Sheldon']}, {'id': 38, 'nome': None, 'direcao': ['Aleksey German'], 'elenco': ['Milan Maric',  'Danila Kozlovsky',  'Helena Sujecka',  'Artur Beschastny',  'Elena Lyadova',  'Anton Shagin',  'Svetlana Khodchenkova',  'Piotr Gasowski',  'Eva Gerr',  'Hanna Sleszynska'], 'roteiro': ['Aleksey German', 'Yulia Tupikina'], 'producao': ['Dariusz Jablonski',  'Violetta Kaminska',  'Miroslav Mogorovich',  'Isabella Wojcik'], 'fotografia': ['Lukasz Zal'], 'montagem': ['Sergey Ivanov', 'Daria Gladysheva'], 'design de producao': ['Elena Okopnaya'], 'figurino': ['Elena Okopnaya']}, {'id': 39, 'nome': None, 'direcao': ['Maria Finitzo'], 'roteiro': ['Maria Finitzo'], 'producao': ['Maria Finitzo', 'Mary Morrissette'], 'fotografia': ['Peter Gilbert'], 'montagem': ['Katerina Simic']}, {'id': 40, 'nome': None, 'direcao': ['Lynne Ramsay'], 'elenco': ['Joaquin Phoenix',  'Ekaterina Samsonov',  'Alex Manette',  'John Doman',  'Dante Pereira-Olson',  'Judith Roberts',  'Alessandro Nivola'], 'roteiro': ['Lynne Ramsay'], 'producao': ['Pascal Caucheteux',  "Rebecca O'Brien",  'Lynne Ramsay',  'Rosa Attab',  'James Wilson'], 'fotografia': ['Thomas Townend'], 'musica': ['Jonny Greenwood'], 'montagem': ['Joe Bini'], 'design de producao': ['Tim Grimes'], 'figurino': ['Malgosia Turzanska']}, {'id': 41, 'nome': 'O Mistério do Relógio na Parede', 'genero': 'Fantasia, Mistério, Terror', 'censura': '10 - Não recomendado para menores de dez anos', 'duracao': '104 min', 'elenco': 'Cate Blanchett, Colleen Camp, Jack Black, Kyle MacLachlan, Renée Elise Goldsberry'}, {'id': 42, 'nome': 'Buscando...', 'genero': 'Drama, Mistério, Thriller', 'censura': '14 - Não recomendado para menores de catorze anos', 'duracao': '102 min', 'elenco': 'Brad Abrell, Debra Messing, Gabriel D. Angell, John Cho, Joseph Lee, Michelle La, Roy Abramsohn, Sara Sohn'}, {'id': 43, 'nome': 'Benzinho', 'genero': 'Drama', 'censura': '12 - Não recomendado para menores de doze anos', 'duracao': '97 min', 'elenco': 'Adriana Esteves, Arthur Teles Pizzi, César Troncoso, Francisco Teles Pizzi, Karine Teles, Konstantinos Sarris, Luan Teles, Mateus Solano, Otávio Müller, Vicente Demori'}, {'id': 44, 'nome': '22 Milhas', 'genero': 'Ação', 'censura': '14 - Não recomendado para menores de catorze anos', 'duracao': '94 min', 'elenco': 'Iko Uwais, John Malkovich, Lauren Cohan, Mark Wahlberg, Ronda Rousey, Terry Kinney'}, {'id': 45, 'nome': 'Os Jovens Titãs em Ação! Nos Cinemas', 'genero': 'Ação, Animação, Comédia', 'elenco': 'Greg Cipes, Hynden Walch, Khary Payton, Kristen Bell, Nicolas Cage, Scott Menville, Tara Strong, Will Arnett'}, {'id': 46, 'nome': 'O Candidato Honesto 2', 'genero': 'Comédia', 'censura': '14 - Não recomendado para menores de catorze anos', 'duracao': '108 min', 'elenco': 'Flávia Garrafa, Leandro Hassum, Rosane Mulholland'}, {'id': 47, 'nome': 'O Predador – A Caçada Evoluiu', 'genero': 'Ação, Aventura, Terror', 'censura': '18 - Não recomendado para menores de dezoito anos', 'duracao': '107 min', 'elenco': 'Boyd Holbrook, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Sterling K. Brown, Trevante Rhodes'}, {'id': 48, 'nome': 'Crô em Família', 'genero': 'Comédia', 'censura': '12 - Não recomendado para menores de doze anos', 'duracao': '87 min', 'elenco': 'Arlete Salles, Fabiana Karla, Marcelo Serrado, Marcos Caruso, Marcus Majella, Mateus Solano, Tonico Pereira'}, {'id': 49, 'nome': 'Alfa', 'genero': 'Ação, Aventura, Drama', 'censura': '10 - Não recomendado para menores de dez anos', 'duracao': '97 min', 'elenco': 'Jens Hultén, Jóhannes Haukur Jóhannesson, Kodi Smit-McPhee, Leonor Varela, Mercedes de la Zerda, Natassia Malthe'}, {'id': 50, 'nome': 'Ilha dos Cachorros', 'genero': 'Animação, Aventura, Comédia', 'censura': '12 - Não recomendado para menores de doze anos', 'duracao': '101 min', 'elenco': 'Bill Murray, Bryan Cranston, Edward Norton, Frances McDormand, Greta Gerwig, Jeff Goldblum, Scarlett Johansson, Tilda Swinton'}, {'id': 51, 'nome': 'O Predador  (2018)', 'roteiro': 'Fred Dekker, Shane Black', 'elenco': 'Boyd Holbrook, Trevante Rhodes, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Thomas Jane, Alfie Allen, Sterling K. Brown, Augusto Aguilera, Jake Busey, Yvonne Strahovski, Edward James Olmos, Niall Matter, Dean Redman, Steve Wilder, Nikolas Dukic, Andrew Jenkins, Crystal Mudry, Paul Lazenby, Lochlyn Munro'}, {'id': 52, 'nome': 'Benzinho  (2018)', 'roteiro': 'Gustavo Pizzi, Karine Teles', 'elenco': 'Karine Teles, Otávio Müller, Adriana Esteves, Konstantinos Sarris, César Troncoso, Mateus Solano, Camilo Pellegrini, Ariclenes Barroso, Pablo Riera, Lucas Gouvêa, Ingrid Guimarães'}, {'id': 53, 'nome': 'A Barraca do Beijo  (2018)', 'roteiro': 'Vince Marcello', 'elenco': 'Joey King, Joel Courtney, Jacob Elordi, Molly Ringwald, Carson White, Frances Sholto-Douglas, Nathan Lynn, Meganne Young, Byron Langley, D. David Morin, Dan Elijah Rudin, Robbie Tucker, Jessica Sutton, Michelle Allen, Joshua Daniel Eady, Judd Krok, Chase Dallas, Celina Caroto, Ben Lillie, Megan du Plessis'}, {'id': 54, 'nome': 'Meu Ex é um Espião  (2018)', 'roteiro': 'Susanna Fogel, David Iserson', 'elenco': 'Mila Kunis, Kate McKinnon, Justin Theroux, Gillian Anderson, Sam Heughan, Hasan Minhaj, Ivanna Sakhno, Fred Melamed, Jane Curtin, Paul Reiser, James Fleet, Carolyn Pickles, Kev Adams, Lolly Adefope, Dustin Demri-Burns, Justine Wachsberger, Ólafur Darri Ólafsson, Attila Árpa, Ruby Kammer, Genevieve McCarthy'}, {'id': 55, 'nome': 'A Freira  (2018)', 'roteiro': 'Gary Dauberman', 'elenco': 'Bonnie Aarons, Demián Bichir, Taissa Farmiga, Charlotte Hope, Ingrid Bisu, Manuela Ciucur, Jonas Bloquet, Jonny Coyne, Jared Morgan, Sandra Teles, Boiangiu Alma, August Maturo'}, {'id': 56, 'nome': 'Mamma Mia! Lá Vamos Nós de Novo  (2018)', 'roteiro': 'Ol Parker, Richard Curtis, Catherine Johnson', 'elenco': 'Amanda Seyfried, Lily James, Dominic Cooper, Christine Baranski, Julie Walters, Pierce Brosnan, Colin Firth, Stellan Skarsgård, Andy García, Cher, Meryl Streep, Jessica Keenan Wynn, Alexa Davies, Jeremy Irvine, Hugh Skinner, Josh Dylan, Omid Djalili, Celia Imrie, Maria Vacratsis, Panos Mouzourakis'}, {'id': 57, 'nome': 'Onde Está Você, João Gilberto?  (2018)', 'roteiro': '', 'elenco': 'João Gilberto'}, {'id': 58, 'nome': 'Slender Man: Pesadelo Sem Rosto  (2018)', 'roteiro': 'David Birke', 'elenco': 'Joey King, Javier Botet, Julia Goldani Telles, Jaz Sinclair, Kevin Chapman, Annalise Basso, Talitha Bateman, Alex Fitzalan, Michael Reilly Burke, Kayla Caulfield, Jessica Blank, Jeffrey Corazzini, Adrian M. Mompoint, Michael Tow'}, {'id': 59, 'nome': 'Perfeita Pra Você  (2018)', 'roteiro': 'Bess Wohl', 'elenco': "Gugu Mbatha-Raw, Michiel Huisman, Christopher Walken, Steve Coogan, Jacki Weaver, Claire Holt, Timothy Simons, Gayle Rankin, Kate McKinnon, Tamara Tunie, Jessie Ennis, Brian Tyree Henry, Glenn Fleshler, Zabryna Guevara, Richard Holmes, Sawyer Barth, Celeste O'Connor, Alyssa Cheatham, Zachary Hernandez, Grace Rex"}, {'id': 60, 'nome': 'O Banquete  (2018)', 'roteiro': 'Daniela Thomas', 'elenco': 'Caco Ciocler, Drica Moraes, Bruna Linzmeyer, Rodrigo Bolzan, Georgette Fadel, Fabiana Gugli, Mariana Lima, Gustavo Machado, Chay Suede'}, {'id': 61, 'nome': 'Funny Girl – Uma Garota Genial (Funny Girl) – EUA, 1968', 'direcao': 'William Wyler', 'roteiro': 'Isobel Lennart (baseado em Funny Girl, escrito por Isobel Lennart, Jule Stynne e Bob Merrill)', 'elenco': 'Barbra Streisand, Omar Sharif, Kay Medford, Anne Francis, Walter Pidgeon, Lee Allen, Mae Questel, Gerald Mohr, Frank Faylen, Alena Johnston, Thordis Brandt, Arthur Tovey', 'duracao': '149 min.'}, {'id': 62, 'nome': 'Simplesmente Martha (Bella Martha/Alemanha, 2001)', 'direcao': 'Sandra Nettelbeck', 'roteiro': 'Sandra Nettelbeck', 'elenco': 'Antonio Wannek, August Zirner, Diego Ribon, Idil Üner, Katja Studt, Martina Gedeck, Maxime Foerste, Oliver Broumis, Sergio Castellitto, Sibylle Canonica, Ulrich Thomsen', 'duracao': '103 min.'}, {'id': 63, 'nome': 'O Mistério do Relógio na Parede (The House with a Clock in Its Walls) EUA, 2018', 'direcao': 'Eli Roth', 'roteiro': 'Eric Kripke, John Bellairs', 'elenco': 'Owen Vaccaro, Jack Black, Cate Blanchett, Kyle MacLachlan, Collen Camp, Sunny Suljic, Lorenza Izzo, Braxton Bjerken, Vanessa Anne Williams, Charles Green, De’Jon Watts, Aaron Beelner, Joshua Phillips, Christian Calloway', 'duracao': '105 min.'}, {'id': 64, 'nome': 'Batman – O Retorno (Batman Returns, EUA/ Reino Unido – 1992)', 'direcao': 'Tim Burton', 'roteiro': 'Daniel Waters (baseado em história dele e de Sam Hamm)', 'elenco': 'Michael Keaton, Danny DeVito, Michelle Pfeiffer, Christopher Walken, Michael Gough, Michael Murphy, Cristi Conaway, Andrew Bryniarski, Pat Hingle, Vincent Schiavelli, Steve Witting, Jan Hooks', 'duracao': '126 min.'}, {'id': 65, 'nome': 'Uma Questão Pessoal (Una questione privata) — Itália, França, 2017', 'direcao': 'Paolo Taviani', 'roteiro': 'Paolo Taviani, Vittorio Taviani (baseado na obra de Beppe Fenoglio)', 'elenco': 'Luca Marinelli, Lorenzo Richelmy, Valentina Bellè, Francesca Agostini, Jacopo Olmo Antinori, Antonella Attili, Giulio Beranek, Mario Bois, Marco Brinzi, Fabrizio Costella, Mauro Conte, Lorenzo Demaria, Andrea Di Maria, Guglielmo Favilla, Anna Ferruzzo', 'duracao': '84 min.'}, {'id': 66, 'nome': 'A Nova Onda do Imperador (The Emperor’s New Groove) – EUA, 2000', 'direcao': 'Mark Dindal', 'roteiro': 'David Reynolds, Mark Dindal, Chris Williams, Roger Allers', 'elenco': 'David Spade, John Goodman, Eartha Kitt, Patrick Warburton, Wendie Malick, Kellyann Kelso, Eli Russell Linnetz, Stephen J. Anderson, Bob Bergen, Patti Deutsch, John Fiedler, Sherry Lynn, Mickie McGowan', 'duracao': '78 min.'}, {'id': 67, 'nome': 'Buscando… (Searching…, Estados Unidos- 2018)', 'direcao': 'Aneesh Chaganty', 'roteiro': 'Aneesh Chaganty, Sev Ohanian', 'elenco': 'Alex Jayne Go, Ashley Edner, Benjamin J. Cain Jr., Brad Abrell, Courtney Lauren Cummings, Debra Messing, Erin Henriques, Gabriel D. Angell, Gage Biltoft, John Cho, Joseph Lee, Kyle Austin Brown, Lasaundra Gibson, Melissa Disney, Michelle La, Morgan Peter Brown, Rasha Goel, Reed Buck, Roy Abramsohn, Sara Sohn, Steven Michael Eich, Thomas Barbusca', 'duracao': '1o1 min'}, {'id': 68, 'nome': 'Laranja Mecânica (A Clockwork Orange, Reino Unido/EUA – 1971)', 'direcao': 'Stanley Kubrick', 'roteiro': 'Stanley Kubrick (baseado em romance de Anthony Burgess)', 'elenco': 'Malcolm McDowell, Patrick Magee, Michael Bates, Warren Clarke, John Clive, Adrienne Corri, Carl Duering, Paul Farrell, Clive Francis, Michael Gover, Miriam Karlin, James Marcus, Aubrey Morris, Godfrey Quigley, Sheila Raynor', 'duracao': '136 min.'}, {'id': 69, 'nome': 'Adeus Christopher Robin (Goodbye Christopher Robin) – Reino Unido, 2017', 'direcao': 'Simon Curtis', 'roteiro': 'Frank Cottrell Boyce, Simon Vaughan', 'elenco': 'Kelly Macdonald, Margot Robbie, Domnhall Gleeson, Will Tilston, Alex Lawther, Stephen Campbell Moore, Richard McCabe, Geradine Sommerville, Mossie Smith, Vicki Pepperdine', 'duracao': '107 min'}, {'id': 70, 'nome': 'Bleach – Japão, 2018', 'direcao': 'Shinsuke Sato', 'roteiro': 'Shinsuke Sato, Daisuke Habara, Tite Kubo', 'elenco': 'Sota Fukushi, Hana Sugisaki, Ryo Yoshizawa, Erina Mano, Yu Koyanagi, Taichi Saotome, Miyavi, Seiichi Tanabe, Masami Nagasawa, Yosuke Eguchi', 'duracao': '108 min.'}, {'id': 71, 'nome': 'Bloqueio, 2018 - Brasil', 'direcao': 'Victória Álvares, Quentin Delaroche', 'elenco': 'Marocs da Silva dos Santos, Benedito Amauro, Parazinho'}, {'id': 72, 'nome': 'New Life S.A., 2018 – Brasil', 'direcao': 'André Carvalheira', 'roteiro': 'André Carvalheira, Aurélio Aragão, Pablo Gonçalo', 'elenco': 'Fernanda Rocha, Murilo Grossi, Catarina Accioly, Eric Naves, Edu Moares, Juliano Coacci, André Deca, Bianca Terraza, Wellington Abreu, Marcelo Pelucio', 'fotografia': 'Krishna Schmidt', 'design de producao': 'Maíra Carvalho'}, {'id': 74, 'nome': 'Torre das Donzelas, 2018 - Brasil', 'direcao': 'Susanna Lira', 'roteiro': 'Susanna Lira'}, {'id': 75, 'nome': 'Domingo, 2018 – Brasil', 'direcao': 'Fellipe Barbosa, Clara Linhart', 'roteiro': 'Lucas Paraizo', 'elenco': 'Itala Nardi, Camila Morgado, Augusto Madeira, Michael Wahrmann, Martha Nowill, Clemente Viscaíno, Ismael Caneppele'}, {'id': 76, 'nome': 'Carnivores, 2018 - França e Bélgica', 'direcao': 'Jérémie Renier & Yannick Renier', 'roteiro': 'Bulle Decarpentries, Jérémie Guez, Yaël Langmann, Jérémie Renier, Yannick Renier & Agnès de Sacy', 'elenco': 'Leïla Bekhti, Zita Hanrot, Bastien Bouillon, Johan Heldenbergh, Hiam Abbass & Octave Bossuet', 'fotografia': 'Georges Lechaptois', 'trilha sonora': 'Avia', 'montagem': 'Nico Leunen', 'design de producao': 'Nora Salhi'}, {'id': 77, 'nome': 'The Predator, 2018 - Canadá e Estados Unidos', 'direcao': 'Shane Black', 'roteiro': 'Fred Dekker & Shane Black', 'elenco': 'Boyd Holbrook, Trevante Rhodes, Olivia Munn, Jacob Tremblay, Sterling K. Brown, Keegan-Michael Key, Thomas Jane, Alfie Allen, Augusto Aguilera & Yvonne Strahovski', 'fotografia': 'Larry Fong', 'trilha sonora': 'Henry Jackman', 'montagem': 'Harry B. Miller III', 'design de producao': 'Martin Whist'}, {'id': 78, 'nome': 'The Nun, 2018 - Estados Unidos', 'direcao': 'Corin Hardy', 'roteiro': 'Gary Dauberman', 'elenco': 'Taissa Farmiga, Demián Bichir, Jonas Bloquet, Bonnie Aarons, Ingrid Bisu, Charlotte Hope, Sandra Teles, August Maturo, Jack Falk & Lynnette Gaza', 'fotografia': 'Maxime Alexandre', 'trilha sonora': 'Abel Korzeniowski', 'montagem': 'Michel Aller, Ken Blackwell', 'design de producao': 'Jennifer Spence'}, {'id': 79, 'nome': 'Searching, 2018 - Estados Unidos', 'direcao': 'Aneesh Chaganty', 'roteiro': 'Aneesh Chaganty & Sev Ohanian', 'elenco': 'John Cho, Sara Sohn, Michelle La, Joseph Lee & Debra Messing', 'fotografia': 'Juan Sebastian Baron, Nicholas D. Johnson & Will Merrick', 'trilha sonora': 'Torin Borrowdale', 'montagem': 'Nicholas D. Johnson, Will Merrick', 'design de producao': 'Angel Herrera'}, {'id': 80, 'nome': 'O Nome da Morte, 2017 - Brasil', 'direcao': 'Henrique Goldman', 'roteiro': 'Henrique Goldman, George Moura', 'elenco': 'Marco Pigossi, Fabíula Nascimento, André Mattos, Matheus Nachtergaele, Tony Tornado, Augusto Madeira, Martha Nowill', 'fotografia': 'Azul Serra', 'trilha sonora': 'Brian Eno', 'montagem': 'Lívia Serpa', 'design de producao': 'Tiago Marques'}, {'id': 81, 'nome': 'Le Retour du Héros', 'lancamento': '20 de setembro', 'direcao': 'Laurent Tirard', 'roteiro': 'Laurent Tirard, Grégoire Vigneron', 'genero': 'Comédia', 'elenco': 'Jean Dujardin, Mélanie Laurent, Noémie Merlant', 'nacionalidade': 'França, Bélgica'}, {'id': 82, 'nome': 'Marvin ou La Belle Éducation', 'lancamento': '06 de setembro', 'direcao': 'Anne Fontaine', 'roteiro': 'Anne Fontaine, Pierre Trividic', 'genero': 'Drama', 'elenco': 'Finnegan Oldfield, Grégory Gadebois, Vincent Macaigne', 'nacionalidade': 'França'}, {'id': 83, 'nome': 'Sierra Burgess is Loser', 'lancamento': '07 de setembro de 2018', 'direcao': 'Ian Samuels', 'roteiro': 'Lindsey Beer', 'genero': 'Comédia Romântica', 'elenco': 'Shannon Purser, RJ Cyler, Noah Centineo, Will Peltz, Kristine Froseth, Lea Thompson e Alan Ruck', 'nacionalidade': 'Estados Unidos'}, {'id': 84, 'nome': 'Crô em Família', 'ano': '2018', 'direcao': 'Cininha de Paula', 'roteiro': 'Leandro Soares', 'genero': 'Comédia', 'elenco': 'Marcelo Serrado, Jefferson Schroeder, Karina Marthin, João Baldasserini, Mel Maia, Mary Sheyla, Fabiana Karla, Pabllo Vittar, Jojo Todynho, Carol Sampaio, Preta Gil, Gigante Leo, Luis Miranda, Marcus Majella e Marcos Caruso.'}, {'id': 85, 'nome': 'Candidato Honesto 2', 'lancamento': '30 de agosto', 'direcao': 'Roberto Santucci', 'roteiro': 'Paulo Cursino', 'genero': 'Comédia', 'elenco': 'Leandro Hassum, Flávia Garrafa, Rosanne Mulholland, Victor Leal, Cassio Pandolfh, Maria Padilha.'}, {'id': 86, 'nome': 'Teen Titans Go! To The Movies', 'ano': '2018', 'direcao': 'Peter Rida Michail, Aaron Horvath', 'roteiro': 'Aaron Horvath, Michael Jelenic', 'genero': 'Animação', 'elenco': 'Kristen Bell, Will Arnett, Hynden Walch, Tara Strong, Khary Payton, Scott Menville, Greg Cipes'}, {'id': 87, 'nome': 'Para Todos Os Garotos Que Já Amei | Uma comédia romântica millenial', 'direcao': 'Susan Johnson', 'elenco': 'Lana Condor, John Corbett, Noah Centineo mais'}, {'id': 88, 'nome': 'Las herederas', 'lancamento': '30 de Agosto', 'direcao': 'Marcelo Martinessi', 'genero': 'Drama', 'elenco': 'Ana Brun, Margarita Irun, Ana Ivanova.'}, {'id': 89, 'nome': 'Mamma Mia! Here We Go Again', 'lancamento': '02 de agosto de 2018', 'direcao': 'Ol Parker', 'roteiro': 'Ol Parker', 'genero': 'Musical', 'elenco': 'Pierce Brosnan, Meryl Streep, Dominic Cooper, Lily James, Andy García, Amanda Seyfried, Jeremy Irvine, Colin Firth, Hugh Skinner, Stellan Skarsgård, Josh Dylan, Christine Baranski, Jessica Keenan Wynn, Julie Walters, Alexa Davies, Cher.'}, {'id': 90, 'nome': 'Gauguin: Voyage de Tahiti', 'lancamento': '23 de agosto', 'direcao': 'Edouard Deluc', 'roteiro': 'Edouard Deluc, Etienne Comar, Thomas Lilti, Sarah Kaminsky', 'genero': 'Drama, Biografia', 'elenco': 'Vincent Cassel, Tuheï Adams, Malik Zidi, Pernille Bergendorff', 'nacionalidade': 'França'}, {'id': 91, 'nome': 'O Mistério do Relógio na Parede', 'direcao': 'Eli Roth', 'roteiro': 'Eric Kripke', 'elenco': 'Jack Black, Cate Blanchett, Owen Vaccaro, Renée Elise Goldsberry, Sunny Suljic e Kyle MacLachlan', 'genero': 'Comédia, Fantasia, Família', 'ano': '2018', 'duracao': '105 minutos'}, {'id': 92, 'nome': 'Buscando... (Searching)', 'direcao': 'Aneesh Chaganty', 'roteiro': 'Aneesh Chaganty e Sev Ohanian', 'elenco': 'John Cho, Michelle La, Debra Messing, Sara Sohn e Joseph Lee', 'genero': 'Drama, Mistério, Thriller', 'ano': '2018', 'duracao': '102 minutos'}, {'id': 93, 'nome': 'Crimes em Happytime', 'direcao': 'Brian Henson', 'roteiro': 'Todd Berger', 'elenco': 'Melissa McCarthy, Maya Rudolph, Joel McHale, Elizabeth Banks, Leslie David Baker, Bill Barretta e Dorien Davies', 'genero': 'Ação, Comédia, Crime', 'ano': '2018', 'duracao': '91 minutos'}, {'id': 94, 'nome': '10 Segundos para Vencer', 'direcao': 'José Alvarenga Jr.', 'roteiro': 'Thomas Stavros', 'elenco': 'Daniel de Oliveira, Osmar Prado, Ricardo Gelli, Sandra Corveloni, Rafael Andrade, Samuel Toledo e Keli Freitas', 'genero': 'Drama, Esporte, Biografia', 'ano': '2018', 'duracao': '120 minutos'}, {'id': 95, 'nome': 'A Primeira Noite de Crime', 'direcao': 'Gerard McMurray', 'roteiro': 'James DeMonaco', 'elenco': 'Y’lan Noel, Lex Scott Davis, Joivan Wade, Mugga, Patch Darragh e Marisa Tomei', 'genero': 'Ação, Terror, Ficção científica e Thriller', 'ano': '2018', 'duracao': '98 minutos'}, {'id': 96, 'nome': 'Um Pequeno Favor (A Simple Favor)', 'direcao': 'Paul Feig', 'roteiro': 'Jessica Sharzer', 'elenco': 'Anna Kendrick, Blake Lively, Henry Golding e Andrew Rannells', 'genero': 'Comédia, Crime, Drama', 'ano': '2018', 'duracao': '117 minutos'}, {'id': 97, 'nome': 'O Paciente – O Caso Tancredo Neves', 'direcao': 'Sérgio Rezende', 'roteiro': 'Gustavo Liptzein', 'elenco': 'Othon Bastos, Esther Góes, Leonardo Medeiros, Otávio Müller, Paulo Betti, Emílio Dantas, Mário Hermeto e Lucas Drummond', 'genero': 'Biografia', 'ano': '2018', 'duracao': '100 minutos'}, {'id': 98, 'nome': 'O Predador (The Predator)', 'direcao': 'Shane Black', 'roteiro': 'Fred Dekker e Shane Black', 'elenco': 'Boyd Holbrook, Trevante Rhodes, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Thomas Jane, Alfie Allen e Sterling K. Brown', 'genero': 'Ação, Aventura, Terror', 'ano': '2018', 'duracao': '107 minutos'}, {'id': 99, 'nome': 'O Banquete (2018)', 'direcao': 'Daniela Thomas', 'roteiro': 'Daniela Thomas', 'elenco': 'Drica Moraes, Mariana Lima, Caco Ciocler, Rodrigo Bolzan, Fabiana Gugli, Gustavo Machado, Bruna Linzmeyer, Chay Suede e Georgette Fedal', 'genero': 'Suspense, Drama', 'ano': '2018', 'duracao': '104 minutos'}, {'id': 100, 'nome': 'Christopher Robin: Um Reencontro Inesquecível', 'direcao': 'Marc Forster', 'roteiro': 'Alex Ross Perry, Tom McCarthy e Allison Schroeder; história de Greg Brooker e Mark Steven Johnson', 'elenco': 'Ewan McGregor, Hayley Atwell, Jim Cummings e Brad Garrett', 'genero': 'Animação, Aventura, Comédia', 'ano': '2018', 'duracao': '104 minutos'}]

for filme in filmes:
    if 'interpretes' in filme:
        filme['elenco'] = filme.pop('interpretes')
    for key in filme:
        if isinstance(filme[key], list):
            filme[key] = ", ".join(filme[key])

# filmes == general
len(filmes)

99

### Testes

In [12]:
general = []
for filme in filmes:
    general.append(filme)
# general

In [13]:
def get_by_id(id, filmes):
    for filme in filmes:
        if filme['id'] == id:
            return filme
    return None

In [14]:
def evaluate(resultado, extrator):
    n = 0 # Total de extrações possíves
    c = 0 # Total de pares extraídos corretamente
    e = 0 # Total de pares extraídos pelo sistema
    
    for res in resultado:
        filme = get_by_id(res['id'], extrator)
        if filme != None:
            for key in res:
                if key != 'id':
                    n += 1
                    if key in filme and key != 'id':
                        e += 1
                        if (isinstance(filme[key], str) and isinstance(res[key], str) and text_normalize(filme[key]) == text_normalize(res[key])) or filme[key] == res[key]:
                            c += 1
                        else:
                            print(key + ":", filme[key], " != ", res[key])
                    else:
                        print(key, filme['id'])
        else:
            n += len(res)
    return (n, c, e)

In [15]:
N_ = 0 # Total de extrações possíves
C_ = 0 # Total de pares extraídos corretamente
E_ = 0 # Total de pares extraídos pelo sistema

#### El País

In [16]:
elpais = [{'id': 1,  'nome': 'HOMEM-FORMIGA E A VESPA',  'direcao': 'Peyton Reed.',  'elenco': 'Paul Rudd, Evangeline Lilly, Michael Douglas, Michelle Pfeiffer.',  'genero': 'ação. EUA, 2018.',  'duracao': '118 minutos.'}, {'id': 2,  'nome': 'NICO, 1988',  'direcao': 'Susanna Nicchiarelli.',  'elenco': 'Tryne Dyrholm, John Gordon Sinclair, Anamaria Marinca, Sandor Funtek.',  'genero': 'musical. Itália, 2017.',  'duracao': '93 minutos.'}, {'id': 3,  'nome': 'HOTEL TRANSILVÂNIA 3:\xa0 FÉRIAS MONSTRUOSAS',  'direcao': 'Genndy Tartakovsky.',  'genero': 'comédia. Estados Unidos, 2018.',  'duracao': '97 minutos.'}, {'id': 4,  'nome': 'MAMMA MIA! LÁ VAMOS NÓS DE NOVO',  'direcao': 'Ol Parker.',  'elenco': 'Lily James, Amanda Seyfried, Christine Baranski, Pierce Brosnan.',  'genero': 'musical. Reino Unido, 2018.',  'duracao': '114 minutos.'}, {'id': 5,  'nome': 'MISSÃO IMPOSSÍVEL − EFEITO FALLOUT',  'direcao': 'Christopher McQuarrie.',  'elenco': 'Tom Cruise, Sean Harris, Henry Cavill, Rebecca Ferguson.',  'genero': 'thriller.',  'duracao': '147 minutos.'}, {'id': 6,  'nome': 'Escobar – A Traição',  'direcao': 'Fernando León de Aranoa.',  'elenco': 'Javier Bardem, Penélope Cruz, Peter Sarsgaard.',  'genero': '‘biopic’. Espanha, 2017.',  'duracao': '123 minutos.'}, {'id': 7,  'nome': '‘Pantera Negra’',  'direcao': 'Ryan Coogler.',  'elenco': 'Chadwick Boseman, Michael B. Jordan, Lupita Nyong’o, Danai Gurira.',  'genero': 'ficção científica. Estados Unidos, 2018.',  'duracao': '134 minutos.'}, {'id': 8,  'nome': 'TRAMA FANTASMA',  'direcao': 'Paul Thomas Anderson.',  'elenco': 'Daniel Day-Lewis, Lesley Manville, Vicky Krieps, Richard Graham.',  'genero': 'drama. EUA, 2017.',  'duracao': '130 minutos.'}, {'id': 9,  'nome': 'TULLY',  'direcao': 'Jason Reitman.',  'elenco': 'Charlize Theron, Mackenzie Davis, Rum Livingston, Mark Duplass.',  'genero': 'drama. EUA, 2018.',  'duracao': '95 minutos.'}, {'id': 10,  'nome': 'SUBMERSÃO',  'direcao': 'Wim Wenders.',  'elenco': 'James McAvoy, Alicia Vikander, Alexander Siddig, Celyn Jones.',  'genero': 'drama. Alemanha, 2017.',  'duracao': '111 minutos.'}]
gen_elpais = general[:10]

n, c, e = evaluate(elpais, gen_elpais)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)
# print(json.dumps(pocilga, sort_keys=True, indent=2))
# print(json.dumps(gen_pocilga, sort_keys=True, indent=2))

nome: Seleccione Edição  !=  ‘Pantera Negra’
nome: Seleccione Edição  !=  TULLY
N:  49 
C:  47 
E:  49 
Recall:  0.9591836734693877 
Precision:  0.9591836734693877 
F1:  0.9591836734693877


#### Omelete

In [17]:
omelete = [{'id': 11,  'nome': 'Hotel Artemis',  'ano': '2018',  'classificacao': '16 anos',  'duracao': '93 min',  'direcao': 'Drew Pearce',  'roteiro': 'Drew Pearce',  'elenco': 'Zachary Quinto, Jenny Slate, Jeff Goldblum, Sofia Boutella, Sterling K. Brown, Jodie Foster'}, {'id': 12,  'nome': 'Nasce Uma Estrela',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Bradley Cooper',  'roteiro': 'Bradley Cooper, Will Fetters, Irene Mecchi, Christopher Wilkinson, Stephen J. Rivele',  'elenco': 'Bradley Cooper, Lady Gaga, Sam Elliott'}, {'id': 13,  'nome': 'Red Joan',  'classificacao': '-1 anos',  'direcao': 'Trevor Nunn',  'elenco': 'Tom Hughes, Stephen Campbell Moore, Sophie Cookson, Judi Dench'}, {'id': 14,  'nome': 'Destroyer',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Karyn Kusama',  'roteiro': 'Matt Manfredi, Phil Hay',  'elenco': 'Toby Kebbell, Tatiana Maslany, Nicole Kidman'}, {'id': 15,  'nome': 'O Predador (2018)',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Shane Black',  'elenco': 'Olivia Munn, Thomas Jane, Boyd Holbrook, Sterling K. Brown, Keegan-Michael Key'}, {'id': 16,  'nome': 'Mid90s',  'ano': '2018',  'classificacao': '-1 anos',  'duracao': '1h24 min',  'direcao': 'Jonah Hill',  'roteiro': 'Jonah Hill',  'elenco': 'Katherine Waterston, Lucas Hedges, Sunny Suljic'}, {'id': 17,  'nome': 'A Primeira Noite de Crime',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Gerard McMurray',  'roteiro': 'James DeMonaco',  'elenco': "John P. McGinty, Cloé Xhauflaire, Jessica Bell, Geoff Schuppert, Qurrat Ann Kadwani, Christian Robinson, David Breda, Lex Scott Davis, Y'lan Noel"}, {'id': 18,  'nome': 'O MistÃ©rio do RelÃ³gio na Parede',  'ano': '2018',  'classificacao': '10 anos',  'duracao': '105 min',  'direcao': 'Eli Roth',  'roteiro': 'Eric Kripke',  'elenco': 'Kyle MacLachlan, Owen Vaccaro, Cate Blanchett, Jack Black'}, {'id': 19,  'nome': 'American Woman',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Jake Scott',  'roteiro': 'Brad Ingelsby',  'elenco': 'Macon Blair, Will Sasso, Amy Madigan, Sienna Miller, Aaron Paul, Christina Hendricks'}, {'id': 20,  'nome': 'Buscando...',  'ano': '2018',  'classificacao': '-1 anos',  'direcao': 'Aneesh Chaganty',  'roteiro': 'Sev Ohanian, Aneesh Chaganty',  'elenco': 'Sara Sohn, John Cho'}]
gen_omelete = general[10:20]

n, c, e = evaluate(omelete, gen_omelete)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

ano 11
classificacao 11
duracao 11
ano 12
classificacao 12
classificacao 13
ano 14
classificacao 14
nome: O Predador  !=  O Predador (2018)
ano 15
classificacao 15
ano 16
classificacao 16
duracao 16
ano 17
classificacao 17
ano 18
classificacao 18
duracao 18
ano 19
classificacao 19
ano 20
classificacao 20
N:  60 
C:  37 
E:  38 
Recall:  0.6166666666666667 
Precision:  0.9736842105263158 
F1:  0.7551020408163265


#### Cineclick

In [18]:
cineclick = [{'id': 21,  'nome': 'O PREDADOR',  'ano': '2018',  'duracao': '101MIN.',  'genero': 'Ação',  'direcao': 'Shane Black',  'roteiro': 'Fred Dekker, Jim Thomas, John Thomas, Shane Black',  'producao': 'Blondel Aidoo, John Davis, Lawrence Gordon',  'fotografia': 'Larry Fong',  'trilha sonora': 'Henry Jackman',  'estudio': 'Canada Film Capital, Dark Castle Entertainment, Davis Entertainment, TSG Entertainment, Twentieth Century Fox Film Corporation',  'montador': 'Harry B. Miller III',  'distribuidora': 'Fox Film',  'elenco': 'Alfie Allen, Andrew Jenkins, Augusto Aguilera, Boyd Holbrook, Crystal Mudry, Edward James Olmos, Inka Malovic, Jacob Tremblay, Jake Busey, Keegan-Michael Key, Lochlyn Munro, Niall Matter, Olivia Munn, Patrick Sabongui, Paul Lazenby, RJ Fetherstonhaugh, Sterling K. Brown, Thomas Jane, Trevante Rhodes, Yvonne Strahovski'}, {'id': 22,  'nome': 'A FREIRA',  'ano': '2018',  'duracao': '96MIN.',  'genero': 'Terror',  'direcao': 'Corin Hardy',  'roteiro': 'Gary Dauberman, James Wan',  'producao': 'James Wan, Michael Clear, Peter Safran',  'fotografia': 'Maxime Alexandre',  'trilha sonora': 'Abel Korzeniowski',  'estudio': 'Atomic Monster, New Line Cinema, Safran Company, The',  'montador': 'Michel Aller',  'distribuidora': 'Warner',  'elenco': 'Ani Sava, August Maturo, Boiangiu Alma, Bonnie Aarons, Charlotte Hope, Demián Bichir, Emma Appleton, Flynn Hayward, Ingrid Bisu, Jamie Muscato, Jared Morgan, Jonas Bloquet, Jonny Coyne, Lourdes Nadres, Mark Steger, Natalie Creek, Samson Marraccino, Sandra Rosko, Sandra Teles, Scarlett Hicks, Simon Rhee, Taissa Farmiga'}, {'id': 23,  'nome': 'BUSCANDO...',  'ano': '2018',  'duracao': '101MIN.',  'genero': 'Suspense',  'direcao': 'Aneesh Chaganty',  'roteiro': 'Aneesh Chaganty, Sev Ohanian',  'producao': 'Adam Sidman, Congyu E, Natalie Qasabian, Sev Ohanian, Timur Bekmambetov',  'fotografia': 'Juan Sebastian Baron',  'trilha sonora': 'Torin Borrowdale',  'estudio': 'Bazelevs Entertainment, Bazelevs Production',  'montador': 'Nicholas D. Johnson, Will Merrick',  'distribuidora': 'Sony Pictures',  'elenco': 'Alex Jayne Go, Ashley Edner, Benjamin J. Cain Jr., Brad Abrell, Courtney Lauren Cummings, Debra Messing, Erin Henriques, Gabriel D. Angell, Gage Biltoft, John Cho, Joseph Lee, Kyle Austin Brown, Lasaundra Gibson, Melissa Disney, Michelle La, Morgan Peter Brown, Rasha Goel, Reed Buck, Roy Abramsohn, Sara Sohn, Steven Michael Eich, Thomas Barbusca'}, {'id': 24,  'nome': 'KIN',  'ano': '2018',  'duracao': '102MIN.',  'genero': 'Ação',  'direcao': 'Jonathan Baker, Josh Baker',  'roteiro': 'Daniel Casey, Jonathan Baker, Josh Baker',  'producao': 'Dan Cohen, David Gross, Jeff Arkuss, Jesse Shapira, Shawn Levy',  'fotografia': 'Larkin Seiple',  'trilha sonora': 'Mogwai',  'estudio': '21 Laps Entertainment, Lionsgate, No Trace Camping',  'montador': 'Mark Day',  'distribuidora': 'Paris Filmes',  'elenco': 'Attila Sebesy, Bree Wasylenko, Carleigh Beverly, Carlos Pinder, Carrie Coon, Carson Manning, Dennis Quaid, Eli Ham, Gavin Fox, Ian Matthews, Ivan Sherry, Ivan Wanis-Ruiz, Jack Reynor, James Franco, Jonathan Cherry, Khalid Klein, Lily Gao, Myles Truitt, Romano Orzari, Shawn J. Hamilton, Stella Acquisto, Zoë Kravitz'}, {'id': 25,  'nome': 'FERRUGEM',  'ano': '2018',  'duracao': '100MIN.',  'genero': 'Drama',  'direcao': 'Aly Muritiba',  'roteiro': 'Aly Muritiba, George Moura, Jessica Candal',  'producao': 'Ana Catarina, Antonio Júnior, Fernando Meirelles, Guel Arraes',  'fotografia': 'Rui Poças',  'trilha sonora': 'Fabian Oliver',  'estudio': 'Grafo Audiovisual',  'montador': 'João Menna Barreto',  'distribuidora': 'Olhar Distribuição',  'elenco': 'Clarissa Kiste, Dudah Azevedo, Enrique Diaz, Giovanni de Lorenzi, Igor Augustho, Pedro Inoue, Tifanny Dopke'}, {'id': 26,  'nome': 'OS JOVENS TITÃS EM AÇÃO! NOS CINEMAS',  'ano': '2018',  'duracao': '93MIN.',  'genero': 'Animação',  'direcao': 'Aaron Horvath, Peter Rida Michail',  'roteiro': 'Aaron Horvath, Arnold Drake, Bob Brown, Bob Haney, Bruno Premiani, George Perez, Harry G. Peter, Marv Wolfman, Michael Jelenic',  'producao': 'Peggy Regan, Peter Rida Michail, Will Arnett',  'trilha sonora': 'Jared Faber',  'estudio': 'Cartoon Network, DC Entertainment, Warner Bros., Warner Bros. Animation',  'montador': 'Nick Kenway',  'distribuidora': 'Warner Bros',  'elenco': 'Dana Snyder, Greg Cipes, Halsey, Hynden Walch, James Corden, Jimmy Kimmel, Khary Payton, Kristen Bell, Lil Yachty, Nicolas Cage, Scott Menville, Tara Strong, Will Arnett'}, {'id': 27,  'nome': 'SLENDER MAN - PESADELO SEM ROSTO',  'ano': '2018',  'duracao': '93MIN.',  'genero': 'Horror',  'direcao': 'Sylvain White',  'roteiro': 'David Birke, Victor Surge',  'producao': 'Andrea Ajemian, Bradley J. Fischer, James Vanderbilt, Robyn Meisinger, Sarah Snow, William Sherak',  'fotografia': 'Luca Del Puppo',  'trilha sonora': 'Brandon Campbell, Ramin Djawadi',  'estudio': 'Madhouse Entertainment, Mythology Entertainment',  'montador': 'Jake York',  'distribuidora': 'Sony',  'elenco': "Adrian M. Mompoint, Alex Fitzalan, Angela Hope Smith, Annalise Basso, Damon D'Amico Jr, Javier Botet, Jaz Sinclair, Jeffrey Corazzini, Jessica Blank, Joey King, Julia Goldani Telles, Kallie Tabor, Kayla Caulfield, Kevin Chapman, Kris Sidberry, Michael Reilly Burke, Michael Tow, Miguel Nascimento, Oscar Wahlberg, Remington Keyes, Taylor Richardson"}, {'id': 28,  'nome': 'MEU EX É UM ESPIÃO',  'ano': '2018',  'duracao': '116MIN.',  'genero': 'Ação',  'direcao': 'Susanna Fogel',  'roteiro': 'David Iserson, Susanna Fogel',  'producao': 'Brian Grazer, Erica Huggins',  'fotografia': 'Barry Peterson',  'trilha sonora': 'Tyler Bates',  'estudio': 'Imagine Entertainment, Lionsgate',  'montador': 'Jonathan Schwartz',  'distribuidora': 'Paris Filmes',  'elenco': 'Attila C. Arpa, Barnabás Réti, Dustin Demri-Burns, Fred Melamed, Genevieve McCarthy, Gillian Anderson, Hasan Minhaj, Ivanna Sakhno, Justin Theroux, Justine Wachsberger, Kate McKinnon, Kev Adams, Lolly Adefope, Maria Z. Wilson, Mila Kunis, Nick Vorsselman, Nick Wittman, Ólafur Darri Ólafsson, Roderick Hill, Ruby Kammer, Sam Heughan'}, {'id': 29,  'nome': 'CHRISTOPHER ROBIN - UM REENCONTRO INESQUECÍVEL',  'ano': '2018',  'duracao': '104MIN.',  'genero': 'Animação',  'direcao': 'Marc Forster',  'roteiro': 'A.A. Milne, Alex Ross Perry, Allison Schroeder, Tom McCarthy',  'producao': 'Brigham Taylor, Steve Gaub',  'fotografia': 'Matthias Koenigswieser',  'trilha sonora': 'Geoff Zanelli, Jon Brion',  'estudio': 'Walt Disney Pictures',  'montador': 'Matt Chesse',  'distribuidora': 'Disney',  'elenco': "Adrian Scarborough, Bern Collaco, Brad Garrett, Bronte Carmichael, Chris O'Dowd, Evie Wray, Ewan McGregor, Gintare Beinoraviciute, Hayley Atwell, Jim Cummings, Katy Carmichael, Mark Gatiss, Nick Mohammed, Oliver Ford Davies, Paul Chahidi, Peter Capaldi, Roger Ashton-Griffiths, Shola Adewusi, Sophie Okonedo, Toby Jones, Tristan Sturrock"}, {'id': 30,  'nome': 'O PROTETOR 2',  'ano': '2018',  'duracao': '121MIN.',  'genero': 'Ação',  'direcao': 'Antoine Fuqua',  'roteiro': 'Michael Sloane, Richard Lindheim, Richard Wenk',  'producao': 'Alex Siskin, Denzel Washington, Jason Blumenthal, Mace Neufeld, Steve Tisch, Todd Black, Tony Eldridge',  'fotografia': 'Oliver Wood',  'trilha sonora': 'Harry Gregson-Williams',  'estudio': 'Columbia Pictures, Escape Artists, Fuqua Films, Lonetree Entertainment, Mace Neufeld Productions, Sony Pictures Entertainment (SPE)',  'montador': 'Conrad Buff IV',  'distribuidora': 'Sony Pictures',  'elenco': "Abigail Marlowe, Alexa Giuffre, Alin Halajian, Andrei Arlovski, Annie Pisapia, Ashton Sanders, Bill Pullman, Caroline Day, Denzel Washington, Donald Cerrone, Enku Gubaie, Eric Ian, Heidi Garrow, Jay Hieron, Jonathan Scarfe, Karen Strong, Lexie Roth, Melissa Leo, Patty O'Neil, Pedro Pascal, Sakina Jaffrey, Tamara Hickey"}]
gen_cineclick = general[20:30]

n, c, e = evaluate(cineclick, gen_cineclick)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)
# print(json.dumps(cineclick, sort_keys=True, indent=2))
# print(json.dumps(gen_cineclick, sort_keys=True, indent=2))

nome: O Predador  !=  O PREDADOR
ano 21
duracao 21
genero 21
nome: None  !=  A FREIRA
ano 22
duracao 22
genero 22
nome: Buscando...  !=  BUSCANDO...
ano 23
duracao 23
genero 23
nome: None  !=  KIN
ano 24
duracao 24
genero 24
nome: None  !=  FERRUGEM
ano 25
duracao 25
genero 25
nome: Os Jovens Titãs Em Ação! Nos Cinemas  !=  OS JOVENS TITÃS EM AÇÃO! NOS CINEMAS
ano 26
duracao 26
genero 26
nome: None  !=  SLENDER MAN - PESADELO SEM ROSTO
ano 27
duracao 27
genero 27
nome: None  !=  MEU EX É UM ESPIÃO
ano 28
duracao 28
genero 28
nome: None  !=  CHRISTOPHER ROBIN - UM REENCONTRO INESQUECÍVEL
ano 29
duracao 29
genero 29
nome: None  !=  O PROTETOR 2
ano 30
duracao 30
genero 30
N:  129 
C:  89 
E:  99 
Recall:  0.689922480620155 
Precision:  0.898989898989899 
F1:  0.7807017543859649


#### Cinema em cena

In [19]:
cinemaemcena = [{'id': 31,  'nome': 'Ilha dos Cachorros',  'ano': '19/07/2018',  'distribuidora': 'Fox',  'direcao': 'Wes Anderson',  'elenco': 'Bryan Cranston, Koyu Rankin, Edward Norton, Scarlett Johansson, Bob Balaban, Greta Gerwig, Akira Takayama, Yoko Ono, Akira Ito, Fisher Stevens, Liev Schreiber, Courtney B. Vance, Roman Coppola, Anjelica Huston, Ken Watanabe, F. Murray Abraham, Tilda Swinton, Frances McDormand, Harvey Keitel, Jeff Goldblum, Bill Murray',  'roteiro': 'Wes Anderson',  'producao': 'Wes Anderson, Jeremy Dawson, Scott Rudin, Steven Rales',  'fotografia': 'Tristan Oliver',  'musica': 'Alexandre Desplat',  'montagem': 'Andrew Weisblum, Edward Bursch, Ralph Foster',  'design de producao': 'Adam Stockhausen, Paul Harrod'}, {'id': 32,  'nome': 'Sicário: Dia do Soldado',  'ano': '28/06/2018',  'distribuidora': 'Sony',  'direcao': 'Stefano Sollima',  'elenco': 'Benicio Del Toro, Josh Brolin, Isabela Moner, Catherine Keener, Jeffrey Donovan, Matthew Modine, Shea Whigham, Manuel Garcia-Rulfo, Elijah Rodriguez, Bruno Bichir, Raoul Trujillo',  'roteiro': 'Taylor Sheridan',  'producao': 'Basil Iwanyk, Thad Luckinbill, Trent Luckinbill, Edward L. McDonnell, Molly Smith',  'fotografia': 'Dariusz Wolski',  'musica': 'Hildur Guðnadóttir',  'montagem': 'Matthew Newman',  'design de producao': 'Kevin Kavanaugh',  'figurino': 'Deborah Lynn Scott'}, {'id': 33,  'nome': 'Os Incríveis 2',  'ano': '28/06/2018',  'distribuidora': 'Disney',  'direcao': 'Brad Bird',  'elenco': 'Holly Hunter, Craig T. Nelson, Sarah Vowell, Samuel L. Jackson, Huck Milner, Catherine Keener, Bob Odenkirk, Brad Bird, Sophia Bush, Phil LaMarr, John Ratzenberger, Barry Bostwick, Adam Rodriguez, Kimberly Adair Clark, Paul Eiding, Jonathan Banks, Isabella Rossellini',  'roteiro': 'Brad Bird',  'producao': 'John Walker, Nicole Paradis Grindle',  'fotografia': 'Mahyar Abousaeedi, Erik Smitt',  'musica': 'Michael Giacchino',  'montagem': 'Stephen Schaffer',  'design de producao': 'Ralph Eggleston',  'figurino': 'Deanna Marsigliese'}, {'id': 34,  'nome': 'As Boas Maneiras',  'ano': '07/06/2018',  'distribuidora': 'Imovision',  'direcao': 'Juliana Rojas',  'elenco': 'Isabél Zuaa, Marjorie Estiano, Cida Moreira, Andréa Marquee, Felipe Kenji, Nina Medeiros, Neusa Velasco, Gilda Nomacce, Naloana Lima, Miguel Lobo',  'roteiro': 'Marco Dutra, Juliana Rojas, Marco Dutra',  'producao': 'Sara Silveira, Clément Duboin, Frédéric Corvez',  'fotografia': 'Rui Poças',  'musica': 'Guilherme Garbato, Gustavo Garbato',  'montagem': 'Caetano Gotardo',  'design de producao': 'Fernando Zuccolotto',  'figurino': 'Kiki Orona'}, {'id': 35,  'nome': 'Hereditário',  'ano': '21/06/2018',  'distribuidora': 'Diamond Films',  'direcao': 'Ari Aster',  'elenco': 'Toni Collette, Gabriel Byrne, Alex Wolff, Milly Shapiro, Mallory Bechtel, David Stanley, Ann Dowd',  'roteiro': 'Ari Aster',  'producao': 'Lars Knudsen, Kevin Scott Frakes, Buddy Patrick',  'fotografia': 'Pawel Pogorzelski',  'musica': 'Colin Stetson',  'montagem': 'Jennifer Lame, Lucian Johnston',  'design de producao': 'Grace Yun',  'figurino': 'Olga Mill'}, {'id': 36,  'nome': 'O Amante Duplo',  'ano': '21/06/2018',  'distribuidora': 'California Filmes',  'direcao': 'François Ozon',  'elenco': 'Marine Vacth, Jérémie Renier, Jacqueline Bisset, Myriam Boyer, Dominique Reymond',  'roteiro': 'François Ozon, Philippe Piazzo',  'producao': 'Eric Altmayer, Nicolas Altmayer',  'fotografia': 'Manuel Dacosse',  'musica': 'Philippe Rombi',  'montagem': 'Laure Gardette',  'design de producao': 'Sylvie Olivé',  'figurino': 'Pascaline Chavanne'}, {'id': 37,  'nome': 'Jurassic World: Reino Ameaçado',  'ano': '21/06/2018',  'distribuidora': 'Universal',  'direcao': 'J.A. Bayona',  'elenco': 'Chris Pratt, Bryce Dallas Howard, Ted Levine, Toby Jones, James Cromwell, BD Wong, Rafe Spall, Daniella Pineda, Justice Smith, Isabella Sermon, Geraldine Chaplin, Jeff Goldblum',  'roteiro': 'Colin Trevorrow, Derek Connolly',  'producao': 'Patrick Crowley, Belén Atienza, Frank Marshall',  'fotografia': 'Oscar Faura',  'musica': 'Michael Giacchino',  'montagem': 'Bernat Vilaplana',  'design de producao': 'Andy Nicholson',  'figurino': 'Sammy Sheldon'}, {'id': 38,  'nome': 'Dovlatov',  'ano': '14/06/2018',  'distribuidora': 'Imovision',  'direcao': 'Aleksey German',  'elenco': 'Milan Maric, Danila Kozlovsky, Helena Sujecka, Artur Beschastny, Elena Lyadova, Anton Shagin, Svetlana Khodchenkova, Piotr Gasowski, Eva Gerr, Hanna Sleszynska',  'roteiro': 'Aleksey German, Yulia Tupikina',  'producao': 'Dariusz Jablonski, Violetta Kaminska, Miroslav Mogorovich, Isabella Wojcik',  'fotografia': 'Lukasz Zal',  'montagem': 'Sergey Ivanov, Daria Gladysheva',  'design de producao': 'Elena Okopnaya',  'figurino': 'Elena Okopnaya'}, {'id': 39,  'nome': 'In the Game',  'ano': 'Unknown',  'direcao': 'Maria Finitzo',  'roteiro': 'Maria Finitzo',  'producao': 'Maria Finitzo, Mary Morrissette',  'fotografia': 'Peter Gilbert',  'montagem': 'Katerina Simic'}, {'id': 40,  'nome': 'Você Nunca Esteve Realmente Aqui',  'ano': '09/08/2018',  'distribuidora': 'Supo Mungan Films',  'direcao': 'Lynne Ramsay',  'elenco': 'Joaquin Phoenix, Ekaterina Samsonov, Alex Manette, John Doman, Dante Pereira-Olson, Judith Roberts, Alessandro Nivola',  'roteiro': 'Lynne Ramsay',  'producao': "Pascal Caucheteux, Rebecca O'Brien, Lynne Ramsay, Rosa Attab, James Wilson",  'fotografia': 'Thomas Townend',  'musica': 'Jonny Greenwood',  'montagem': 'Joe Bini',  'design de producao': 'Tim Grimes',  'figurino': 'Malgosia Turzanska'}]
gen_cinemaemcena = general[30:40]

n, c, e = evaluate(cinemaemcena, gen_cinemaemcena)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

nome: None  !=  Ilha dos Cachorros
ano 31
distribuidora 31
nome: None  !=  Sicário: Dia do Soldado
ano 32
distribuidora 32
nome: None  !=  Os Incríveis 2
ano 33
distribuidora 33
nome: None  !=  As Boas Maneiras
ano 34
distribuidora 34
nome: None  !=  Hereditário
ano 35
distribuidora 35
nome: None  !=  O Amante Duplo
ano 36
distribuidora 36
nome: None  !=  Jurassic World: Reino Ameaçado
ano 37
distribuidora 37
nome: None  !=  Dovlatov
ano 38
distribuidora 38
nome: None  !=  In the Game
ano 39
nome: None  !=  Você Nunca Esteve Realmente Aqui
ano 40
distribuidora 40
N:  113 
C:  84 
E:  94 
Recall:  0.7433628318584071 
Precision:  0.8936170212765957 
F1:  0.8115942028985508


#### Jornal da Paraíba

In [20]:
jornal = [{'id': 41,  'nome': 'O Mistério do Relógio na Parede',  'genero': 'Fantasia, Mistério, Terror',  'censura': '10 - Não recomendado para menores de dez anos',  'duracao': '104 min',  'diretor': 'Eli Roth',  'elenco': 'Cate Blanchett, Colleen Camp, Jack Black, Kyle MacLachlan, Renée Elise Goldsberry'}, {'id': 42,  'nome': 'Buscando…',  'genero': 'Drama, Mistério, Thriller',  'censura': '14 - Não recomendado para menores de catorze anos',  'duracao': '102 min',  'diretor': 'Aneesh Chaganty',  'elenco': 'Brad Abrell, Debra Messing, Gabriel D. Angell, John Cho, Joseph Lee, Michelle La, Roy Abramsohn, Sara Sohn'}, {'id': 43,  'nome': 'Benzinho',  'genero': 'Drama',  'censura': '12 - Não recomendado para menores de doze anos',  'duracao': '97 min',  'diretor': 'Gustavo Pizzi',  'elenco': 'Adriana Esteves, Arthur Teles Pizzi, César Troncoso, Francisco Teles Pizzi, Karine Teles, Konstantinos Sarris, Luan Teles, Mateus Solano, Otávio Müller, Vicente Demori'}, {'id': 44,  'nome': '22 Milhas',  'genero': 'Ação',  'censura': '14 - Não recomendado para menores de catorze anos',  'duracao': '94 min',  'diretor': 'Peter Berg',  'elenco': 'Iko Uwais, John Malkovich, Lauren Cohan, Mark Wahlberg, Ronda Rousey, Terry Kinney'}, {'id': 45,  'nome': 'Os Jovens Titãs em Ação! Nos Cinemas',  'genero': 'Ação, Animação, Comédia',  'diretor': 'Aaron Horvath, Peter Rida Michail',  'elenco': 'Greg Cipes, Hynden Walch, Khary Payton, Kristen Bell, Nicolas Cage, Scott Menville, Tara Strong, Will Arnett'}, {'id': 46,  'nome': 'O Candidato Honesto 2',  'genero': 'Comédia',  'censura': '14 - Não recomendado para menores de catorze anos',  'duracao': '108 min',  'diretor': 'Roberto Santucci',  'elenco': 'Flávia Garrafa, Leandro Hassum, Rosane Mulholland'}, {'id': 47,  'nome': 'O Predador – A Caçada Evoluiu',  'genero': 'Ação, Aventura, Terror',  'censura': '18 - Não recomendado para menores de dezoito anos',  'duracao': '107 min',  'diretor': 'Shane Black',  'elenco': 'Boyd Holbrook, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Sterling K. Brown, Trevante Rhodes'}, {'id': 48,  'nome': 'Crô em Família',  'genero': 'Comédia',  'censura': '12 - Não recomendado para menores de doze anos',  'duracao': '87 min',  'diretor': 'Cininha de Paula',  'elenco': 'Arlete Salles, Fabiana Karla, Marcelo Serrado, Marcos Caruso, Marcus Majella, Mateus Solano, Tonico Pereira'}, {'id': 49,  'nome': 'Alfa',  'genero': 'Ação, Aventura, Drama',  'censura': '10 - Não recomendado para menores de dez anos',  'duracao': '97 min',  'diretor': 'Albert Hughes',  'elenco': 'Jens Hultén, Jóhannes Haukur Jóhannesson, Kodi Smit-McPhee, Leonor Varela, Mercedes de la Zerda, Natassia Malthe'}, {'id': 50,  'nome': 'Ilha dos Cachorros',  'genero': 'Animação, Aventura, Comédia',  'censura': '12 - Não recomendado para menores de doze anos',  'duracao': '101 min',  'diretor': 'Wes Anderson',  'elenco': 'Bill Murray, Bryan Cranston, Edward Norton, Frances McDormand, Greta Gerwig, Jeff Goldblum, Scarlett Johansson, Tilda Swinton'}]
gen_jornal = general[40:50]

n, c, e = evaluate(jornal, gen_jornal)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

N:  58 
C:  58 
E:  58 
Recall:  1.0 
Precision:  1.0 
F1:  1.0


#### Cinema com Rapadura

In [21]:
rapadura = [{'id': 51,  'nome': 'O Predador',  'ano': '2018',  'diretor': 'Shane Black',  'roteiro': 'Fred Dekker, Shane Black',  'elenco': 'Boyd Holbrook, Trevante Rhodes, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Thomas Jane, Alfie Allen, Sterling K. Brown, Augusto Aguilera, Jake Busey, Yvonne Strahovski, Edward James Olmos, Niall Matter, Dean Redman, Steve Wilder, Nikolas Dukic, Andrew Jenkins, Crystal Mudry, Paul Lazenby, Lochlyn Munro'}, {'id': 52,  'nome': 'Benzinho',  'ano': '2018',  'diretor': 'Gustavo Pizzi',  'roteiro': 'Gustavo Pizzi, Karine Teles',  'elenco': 'Karine Teles, Otávio Müller, Adriana Esteves, Konstantinos Sarris, César Troncoso, Mateus Solano, Camilo Pellegrini, Ariclenes Barroso, Pablo Riera, Lucas Gouvêa, Ingrid Guimarães'}, {'id': 53,  'nome': 'A Barraca do Beijo',  'ano': '2018',  'diretor': 'Vince Marcello',  'roteiro': 'Vince Marcello',  'elenco': 'Joey King, Joel Courtney, Jacob Elordi, Molly Ringwald, Carson White, Frances Sholto-Douglas, Nathan Lynn, Meganne Young, Byron Langley, D. David Morin, Dan Elijah Rudin, Robbie Tucker, Jessica Sutton, Michelle Allen, Joshua Daniel Eady, Judd Krok, Chase Dallas, Celina Caroto, Ben Lillie, Megan du Plessis'}, {'id': 54,  'nome': 'Meu Ex é um Espião',  'ano': '2018',  'diretor': 'Susanna Fogel',  'roteiro': 'Susanna Fogel, David Iserson',  'elenco': 'Mila Kunis, Kate McKinnon, Justin Theroux, Gillian Anderson, Sam Heughan, Hasan Minhaj, Ivanna Sakhno, Fred Melamed, Jane Curtin, Paul Reiser, James Fleet, Carolyn Pickles, Kev Adams, Lolly Adefope, Dustin Demri-Burns, Justine Wachsberger, Ólafur Darri Ólafsson, Attila Árpa, Ruby Kammer, Genevieve McCarthy'}, {'id': 55,  'nome': 'A Freira',  'ano': '2018',  'diretor': 'Corin Hardy',  'roteiro': 'Gary Dauberman',  'elenco': 'Bonnie Aarons, Demián Bichir, Taissa Farmiga, Charlotte Hope, Ingrid Bisu, Manuela Ciucur, Jonas Bloquet, Jonny Coyne, Jared Morgan, Sandra Teles, Boiangiu Alma, August Maturo'}, {'id': 56,  'nome': 'Mamma Mia! Lá Vamos Nós de Novo',  'ano': '2018',  'diretor': 'Ol Parker',  'roteiro': 'Ol Parker, Richard Curtis, Catherine Johnson',  'elenco': 'Amanda Seyfried, Lily James, Dominic Cooper, Christine Baranski, Julie Walters, Pierce Brosnan, Colin Firth, Stellan Skarsgård, Andy García, Cher, Meryl Streep, Jessica Keenan Wynn, Alexa Davies, Jeremy Irvine, Hugh Skinner, Josh Dylan, Omid Djalili, Celia Imrie, Maria Vacratsis, Panos Mouzourakis'}, {'id': 57,  'nome': 'Onde Está Você, João Gilberto?',  'ano': '2018',  'diretor': 'Georges Gachot',  'roteiro': '',  'elenco': 'João Gilberto'}, {'id': 58,  'nome': 'Slender Man: Pesadelo Sem Rosto',  'ano': '2018',  'diretor': 'Sylvain White',  'roteiro': 'David Birke',  'elenco': 'Joey King, Javier Botet, Julia Goldani Telles, Jaz Sinclair, Kevin Chapman, Annalise Basso, Talitha Bateman, Alex Fitzalan, Michael Reilly Burke, Kayla Caulfield, Jessica Blank, Jeffrey Corazzini, Adrian M. Mompoint, Michael Tow'}, {'id': 59,  'nome': 'Perfeita Pra Você',  'ano': '2018',  'diretor': 'Stephanie Laing',  'roteiro': 'Bess Wohl',  'elenco': "Gugu Mbatha-Raw, Michiel Huisman, Christopher Walken, Steve Coogan, Jacki Weaver, Claire Holt, Timothy Simons, Gayle Rankin, Kate McKinnon, Tamara Tunie, Jessie Ennis, Brian Tyree Henry, Glenn Fleshler, Zabryna Guevara, Richard Holmes, Sawyer Barth, Celeste O'Connor, Alyssa Cheatham, Zachary Hernandez, Grace Rex"}, {'id': 60,  'nome': 'O Banquete',  'ano': '2018',  'diretor': 'Daniela Thomas',  'roteiro': 'Daniela Thomas',  'elenco': 'Caco Ciocler, Drica Moraes, Bruna Linzmeyer, Rodrigo Bolzan, Georgette Fadel, Fabiana Gugli, Mariana Lima, Gustavo Machado, Chay Suede'}]
gen_rapadura = general[50:60]

n, c, e = evaluate(rapadura, gen_rapadura)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

nome: O Predador  (2018)  !=  O Predador
ano 51
diretor 51
nome: Benzinho  (2018)  !=  Benzinho
ano 52
diretor 52
nome: A Barraca do Beijo  (2018)  !=  A Barraca do Beijo
ano 53
diretor 53
nome: Meu Ex é um Espião  (2018)  !=  Meu Ex é um Espião
ano 54
diretor 54
nome: A Freira  (2018)  !=  A Freira
ano 55
diretor 55
nome: Mamma Mia! Lá Vamos Nós de Novo  (2018)  !=  Mamma Mia! Lá Vamos Nós de Novo
ano 56
diretor 56
nome: Onde Está Você, João Gilberto?  (2018)  !=  Onde Está Você, João Gilberto?
ano 57
diretor 57
nome: Slender Man: Pesadelo Sem Rosto  (2018)  !=  Slender Man: Pesadelo Sem Rosto
ano 58
diretor 58
nome: Perfeita Pra Você  (2018)  !=  Perfeita Pra Você
ano 59
diretor 59
nome: O Banquete  (2018)  !=  O Banquete
ano 60
diretor 60
N:  50 
C:  20 
E:  30 
Recall:  0.4 
Precision:  0.6666666666666666 
F1:  0.5


#### Plano Crítico

In [22]:
planocritico = [{'id': 61,  'nome': 'Funny Girl – Uma Garota Genial (Funny Girl) – EUA, 1968',  'direcao': 'William Wyler',  'roteiro': 'Isobel Lennart (baseado em Funny Girl, escrito por Isobel Lennart, Jule Stynne e Bob Merrill)',  'elenco': 'Barbra Streisand, Omar Sharif, Kay Medford, Anne Francis, Walter Pidgeon, Lee Allen, Mae Questel, Gerald Mohr, Frank Faylen, Alena Johnston, Thordis Brandt, Arthur Tovey',  'duracao': '149 min.'}, {'id': 62,  'nome': 'Simplesmente Martha (Bella Martha/Alemanha, 2001)',  'direcao': 'Sandra Nettelbeck',  'roteiro': 'Sandra Nettelbeck',  'elenco': 'Antonio Wannek, August Zirner, Diego Ribon, Idil Üner, Katja Studt, Martina Gedeck, Maxime Foerste, Oliver Broumis, Sergio Castellitto, Sibylle Canonica, Ulrich Thomsen',  'duracao': '103 min.'}, {'id': 63,  'nome': 'O Mistério do Relógio na Parede (The House with a Clock in Its Walls) EUA, 2018',  'direcao': 'Eli Roth',  'roteiro': 'Eric Kripke, John Bellairs',  'elenco': 'Owen Vaccaro, Jack Black, Cate Blanchett, Kyle MacLachlan, Collen Camp, Sunny Suljic, Lorenza Izzo, Braxton Bjerken, Vanessa Anne Williams, Charles Green, De’Jon Watts, Aaron Beelner, Joshua Phillips, Christian Calloway',  'duracao': '105 min.'}, {'id': 64,  'nome': 'Batman – O Retorno (Batman Returns, EUA/ Reino Unido – 1992)',  'direcao': 'Tim Burton',  'roteiro': 'Daniel Waters (baseado em história dele e de Sam Hamm)',  'elenco': 'Michael Keaton, Danny DeVito, Michelle Pfeiffer, Christopher Walken, Michael Gough, Michael Murphy, Cristi Conaway, Andrew Bryniarski, Pat Hingle, Vincent Schiavelli, Steve Witting, Jan Hooks',  'duracao': '126 min.'}, {'id': 65,  'nome': 'Uma Questão Pessoal (Una questione privata) — Itália, França, 2017',  'direcao': 'Paolo Taviani',  'roteiro': 'Paolo Taviani, Vittorio Taviani (baseado na obra de Beppe Fenoglio)',  'elenco': 'Luca Marinelli, Lorenzo Richelmy, Valentina Bellè, Francesca Agostini, Jacopo Olmo Antinori, Antonella Attili, Giulio Beranek, Mario Bois, Marco Brinzi, Fabrizio Costella, Mauro Conte, Lorenzo Demaria, Andrea Di Maria, Guglielmo Favilla, Anna Ferruzzo',  'duracao': '84 min.'}, {'id': 66,  'nome': 'A Nova Onda do Imperador (The Emperor’s New Groove) – EUA, 2000',  'direcao': 'Mark Dindal',  'roteiro': 'David Reynolds, Mark Dindal, Chris Williams, Roger Allers',  'elenco': 'David Spade, John Goodman, Eartha Kitt, Patrick Warburton, Wendie Malick, Kellyann Kelso, Eli Russell Linnetz, Stephen J. Anderson, Bob Bergen, Patti Deutsch, John Fiedler, Sherry Lynn, Mickie McGowan',  'duracao': '78 min.'}, {'id': 67,  'nome': 'Buscando... (Searching..., Estados Unidos- 2018)',  'direcao': 'Aneesh Chaganty',  'roteiro': 'Aneesh Chaganty, Sev Ohanian',  'elenco': 'Alex Jayne Go, Ashley Edner, Benjamin J. Cain Jr., Brad Abrell, Courtney Lauren Cummings, Debra Messing, Erin Henriques, Gabriel D. Angell, Gage Biltoft, John Cho, Joseph Lee, Kyle Austin Brown, Lasaundra Gibson, Melissa Disney, Michelle La, Morgan Peter Brown, Rasha Goel, Reed Buck, Roy Abramsohn, Sara Sohn, Steven Michael Eich, Thomas Barbusca',  'duracao': '1o1 min'}, {'id': 68,  'nome': 'Laranja Mecânica (A Clockwork Orange, Reino Unido/EUA – 1971)',  'direcao': 'Stanley Kubrick',  'roteiro': 'Stanley Kubrick (baseado em romance de Anthony Burgess)',  'elenco': 'Malcolm McDowell, Patrick Magee, Michael Bates, Warren Clarke, John Clive, Adrienne Corri, Carl Duering, Paul Farrell, Clive Francis, Michael Gover, Miriam Karlin, James Marcus, Aubrey Morris, Godfrey Quigley, Sheila Raynor',  'duracao': '136 min.'}, {'id': 69,  'nome': 'Adeus Christopher Robin (Goodbye Christopher Robin) – Reino Unido, 2017',  'direcao': 'Simon Curtis',  'roteiro': 'Frank Cottrell Boyce, Simon Vaughan',  'elenco': 'Kelly Macdonald, Margot Robbie, Domnhall Gleeson, Will Tilston, Alex Lawther, Stephen Campbell Moore, Richard McCabe, Geradine Sommerville, Mossie Smith, Vicki Pepperdine',  'duracao': '107 min'}, {'id': 70,  'nome': 'Bleach – Japão, 2018',  'direcao': 'Shinsuke Sato',  'roteiro': 'Shinsuke Sato, Daisuke Habara, Tite Kubo',  'elenco': 'Sota Fukushi, Hana Sugisaki, Ryo Yoshizawa, Erina Mano, Yu Koyanagi, Taichi Saotome, Miyavi, Seiichi Tanabe, Masami Nagasawa, Yosuke Eguchi',  'duracao': '108 min.'}]
gen_planocritico = general[60:70]

n, c, e = evaluate(planocritico, gen_planocritico)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

N:  50 
C:  50 
E:  50 
Recall:  1.0 
Precision:  1.0 
F1:  1.0


#### Plano aberto

In [23]:
planoaberto = [{'id': 71,  'nome': 'Bloqueio, 2018 - Brasil',  'direcao': 'Victória Álvares, Quentin Delaroche',  'elenco': 'Marocs da Silva dos Santos, Benedito Amauro, Parazinho'}, {'id': 72,  'nome': 'New Life S.A., 2018 – Brasil',  'direcao': 'André Carvalheira',  'roteiro': 'André Carvalheira, Aurélio Aragão, Pablo Gonçalo',  'elenco': 'Fernanda Rocha, Murilo Grossi, Catarina Accioly, Eric Naves, Edu Moares, Juliano Coacci, André Deca, Bianca Terraza, Wellington Abreu, Marcelo Pelucio',  'fotografia': 'Krishna Schmidt',  'design de producao': 'Maíra Carvalho'}, {'id': 73,  'nome': 'Excelentíssimos, 2018 - Brasil',  'direcao': 'Douglas Duarte'}, {'id': 74,  'nome': 'Torre das Donzelas, 2018 - Brasil',  'direcao': 'Susanna Lira',  'roteiro': 'Susanna Lira'}, {'id': 75,  'nome': 'Domingo, 2018 – Brasil',  'direcao': 'Fellipe Barbosa, Clara Linhart',  'roteiro': 'Lucas Paraizo',  'elenco': 'Itala Nardi, Camila Morgado, Augusto Madeira, Michael Wahrmann, Martha Nowill, Clemente Viscaíno, Ismael Caneppele'}, {'id': 76,  'nome': 'Carnivores, 2018 - França e Bélgica',  'direcao': 'Jérémie Renier & Yannick Renier',  'roteiro': 'Bulle Decarpentries, Jérémie Guez, Yaël Langmann, Jérémie Renier, Yannick Renier & Agnès de Sacy',  'elenco': 'Leïla Bekhti, Zita Hanrot, Bastien Bouillon, Johan Heldenbergh, Hiam Abbass & Octave Bossuet',  'fotografia': 'Georges Lechaptois',  'trilha sonora': 'Avia',  'montagem': 'Nico Leunen',  'design de producao': 'Nora Salhi'}, {'id': 77,  'nome': 'The Predator, 2018 - Canadá e Estados Unidos',  'direcao': 'Shane Black',  'roteiro': 'Fred Dekker & Shane Black',  'elenco': 'Boyd Holbrook, Trevante Rhodes, Olivia Munn, Jacob Tremblay, Sterling K. Brown, Keegan-Michael Key, Thomas Jane, Alfie Allen, Augusto Aguilera & Yvonne Strahovski',  'fotografia': 'Larry Fong',  'trilha sonora': 'Henry Jackman',  'montagem': 'Harry B. Miller III',  'design de producao': 'Martin Whist'}, {'id': 78,  'nome': 'The Nun, 2018 - Estados Unidos',  'direcao': 'Corin Hardy',  'roteiro': 'Gary Dauberman',  'elenco': 'Taissa Farmiga, Demián Bichir, Jonas Bloquet, Bonnie Aarons, Ingrid Bisu, Charlotte Hope, Sandra Teles, August Maturo, Jack Falk & Lynnette Gaza',  'fotografia': 'Maxime Alexandre',  'trilha sonora': 'Abel Korzeniowski',  'montagem': 'Michel Aller, Ken Blackwell',  'design de producao': 'Jennifer Spence'}, {'id': 79,  'nome': 'Searching, 2018 - Estados Unidos',  'direcao': 'Aneesh Chaganty',  'roteiro': 'Aneesh Chaganty & Sev Ohanian',  'elenco': 'John Cho, Sara Sohn, Michelle La, Joseph Lee & Debra Messing',  'fotografia': 'Juan Sebastian Baron, Nicholas D. Johnson & Will Merrick',  'trilha sonora': 'Torin Borrowdale',  'montagem': 'Nicholas D. Johnson, Will Merrick',  'design de producao': 'Angel Herrera'}, {'id': 80,  'nome': 'O Nome da Morte, 2017 - Brasil',  'direcao': 'Henrique Goldman',  'roteiro': 'Henrique Goldman, George Moura',  'elenco': 'Marco Pigossi, Fabíula Nascimento, André Mattos, Matheus Nachtergaele, Tony Tornado, Augusto Madeira, Martha Nowill',  'fotografia': 'Azul Serra',  'trilha sonora': 'Brian Eno',  'montagem': 'Lívia Serpa',  'design de producao': 'Tiago Marques'}]
gen_planoaberto = general[70:79]

n, c, e = evaluate(planoaberto, gen_planoaberto)
        
N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)
# print(json.dumps(planoaberto, sort_keys=True, indent=2))
# print(json.dumps(gen_planoaberto, sort_keys=True, indent=2))

N:  59 
C:  56 
E:  56 
Recall:  0.9491525423728814 
Precision:  1.0 
F1:  0.9739130434782608


#### Cinema sim

In [24]:
cinemasim = [{'id': 81,  'nome': 'O Retorno do Herói',  'titulo original': 'Le Retour du Héros',  'lancamento': '20 de setembro',  'direcao': 'Laurent Tirard',  'roteiro': 'Laurent Tirard, Grégoire Vigneron',  'genero': 'Comédia',  'elenco': 'Jean Dujardin, Mélanie Laurent, Noémie Merlant',  'nacionalidade': 'França, Bélgica'}, {'id': 82,  'nome': 'Marvin',  'titulo original': 'Marvin ou La Belle Éducation',  'lancamento': '06 de setembro',  'direcao': 'Anne Fontaine',  'roteiro': 'Anne Fontaine, Pierre Trividic',  'genero': 'Drama',  'elenco': 'Finnegan Oldfield, Grégory Gadebois, Vincent Macaigne',  'nacionalidade': 'França'}, {'id': 83,  'nome': 'Sierra Burgess é uma Loser',  'titulo original': 'Sierra Burgess is Loser',  'lancamento': '07 de setembro de 2018',  'direcao': 'Ian Samuels',  'roteiro': 'Lindsey Beer',  'genero': 'Comédia Romântica',  'elenco': 'Shannon Purser, RJ Cyler, Noah Centineo, Will Peltz, Kristine Froseth, Lea Thompson e Alan Ruck',  'nacionalidade': 'Estados Unidos'}, {'id': 84,  'nome': 'Crô em Família',  'titulo original': 'Crô em Família',  'ano': '2018',  'direcao': 'Cininha de Paula',  'roteiro': 'Leandro Soares',  'genero': 'Comédia',  'elenco': 'Marcelo Serrado, Jefferson Schroeder, Karina Marthin, João Baldasserini, Mel Maia, Mary Sheyla, Fabiana Karla, Pabllo Vittar, Jojo Todynho, Carol Sampaio, Preta Gil, Gigante Leo, Luis Miranda, Marcus Majella e Marcos Caruso.'}, {'id': 85,  'nome': 'Candidato Honesto 2 – Sério?',  'titulo original': 'Candidato Honesto 2',  'lancamento': '30 de agosto',  'direcao': 'Roberto Santucci',  'roteiro': 'Paulo Cursino',  'genero': 'Comédia',  'elenco': 'Leandro Hassum, Flávia Garrafa, Rosanne Mulholland, Victor Leal, Cassio Pandolfh, Maria Padilha.'}, {'id': 86,  'nome': 'Os Jovens Titãs em Ação! Nos Cinemas',  'titulo original': 'Teen Titans Go! To The Movies',  'ano': '2018',  'direcao': 'Peter Rida Michail, Aaron Horvath',  'roteiro': 'Aaron Horvath, Michael Jelenic',  'genero': 'Animação',  'elenco': 'Kristen Bell, Will Arnett, Hynden Walch, Tara Strong, Khary Payton, Scott Menville, Greg Cipes'}, {'id': 87,  'nome': 'Para Todos Os Garotos Que Já Amei',  'direcao': 'Susan Johnson',  'elenco': 'Lana Condor, John Corbett, Noah Centineo mais'}, {'id': 88,  'nome': 'As Herdeiras',  'titulo original': 'Las herederas',  'lancamento': '30 de Agosto',  'direcao': 'Marcelo Martinessi',  'genero': 'Drama',  'elenco': 'Ana Brun, Margarita Irun, Ana Ivanova.'}, {'id': 89,  'nome': 'Mamma Mia! Lá Vamos Nós de Novo',  'titulo original': 'Mamma Mia! Here We Go Again',  'lancamento': '02 de agosto de 2018',  'direcao': 'Ol Parker',  'roteiro': 'Ol Parker',  'genero': 'Musical',  'elenco': 'Pierce Brosnan, Meryl Streep, Dominic Cooper, Lily James, Andy García, Amanda Seyfried, Jeremy Irvine, Colin Firth, Hugh Skinner, Stellan Skarsgård, Josh Dylan, Christine Baranski, Jessica Keenan Wynn, Julie Walters, Alexa Davies, Cher.'}, {'id': 90,  'nome': 'Gauguin: Viagem ao Taiti',  'titulo original': 'Gauguin: Voyage de Tahiti',  'lancamento': '23 de agosto',  'direcao': 'Edouard Deluc',  'roteiro': 'Edouard Deluc, Etienne Comar, Thomas Lilti, Sarah Kaminsky',  'genero': 'Drama, Biografia',  'elenco': 'Vincent Cassel, Tuheï Adams, Malik Zidi, Pernille Bergendorff',  'nacionalidade': 'França'}]
gen_cinemasim = general[79:89]

n, c, e = evaluate(cinemasim, gen_cinemasim)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

nome: Le Retour du Héros  !=  O Retorno do Herói
titulo original 81
nome: Marvin ou La Belle Éducation  !=  Marvin
titulo original 82
nome: Sierra Burgess is Loser  !=  Sierra Burgess é uma Loser
titulo original 83
titulo original 84
nome: Candidato Honesto 2  !=  Candidato Honesto 2 – Sério?
titulo original 85
nome: Teen Titans Go! To The Movies  !=  Os Jovens Titãs em Ação! Nos Cinemas
titulo original 86
nome: Para Todos Os Garotos Que Já Amei | Uma comédia romântica millenial  !=  Para Todos Os Garotos Que Já Amei
nome: Las herederas  !=  As Herdeiras
titulo original 88
nome: Mamma Mia! Here We Go Again  !=  Mamma Mia! Lá Vamos Nós de Novo
titulo original 89
nome: Gauguin: Voyage de Tahiti  !=  Gauguin: Viagem ao Taiti
titulo original 90
N:  69 
C:  51 
E:  60 
Recall:  0.7391304347826086 
Precision:  0.85 
F1:  0.7906976744186046


#### Pocilga

In [25]:
pocilga = [{'id': 91,  'nome': 'O Mistério do Relógio na Parede (The House with a Clock in Its Walls)',  'direcao': 'Eli Roth',  'roteiro': 'Eric Kripke',  'elenco': 'Jack Black, Cate Blanchett, Owen Vaccaro, Renée Elise Goldsberry, Sunny Suljic e Kyle MacLachlan',  'genero': 'Comédia, Fantasia, Família',  'ano': '2018',  'duracao': '105 minutos'}, {'id': 92,  'nome': 'Buscando… (Searching)',  'direcao': 'Aneesh Chaganty',  'roteiro': 'Aneesh Chaganty e Sev Ohanian',  'elenco': 'John Cho, Michelle La, Debra Messing, Sara Sohn e Joseph Lee',  'genero': 'Drama, Mistério, Thriller',  'ano': '2018',  'duracao': '102 minutos'}, {'id': 93,  'nome': 'Crimes em Happytime (The Happytime Murders)',  'direcao': 'Brian Henson',  'roteiro': 'Todd Berger',  'elenco': 'Melissa McCarthy, Maya Rudolph, Joel McHale, Elizabeth Banks, Leslie David Baker, Bill Barretta e Dorien Davies',  'genero': 'Ação, Comédia, Crime',  'ano': '2018',  'duracao': '91 minutos'}, {'id': 94,  'nome': '10 Segundos para Vencer',  'direcao': 'José Alvarenga Jr.',  'roteiro': 'Thomas Stavros',  'elenco': 'Daniel de Oliveira, Osmar Prado, Ricardo Gelli, Sandra Corveloni, Rafael Andrade, Samuel Toledo e Keli Freitas',  'genero': 'Drama, Esporte, Biografia',  'ano': '2018',  'duracao': '120 minutos'}, {'id': 95,  'nome': 'A Primeira Noite de Crime (The First Purge)',  'direcao': 'Gerard McMurray',  'roteiro': 'James DeMonaco',  'elenco': 'Y’lan Noel, Lex Scott Davis, Joivan Wade, Mugga, Patch Darragh e Marisa Tomei',  'genero': 'Ação, Terror, Ficção científica e Thriller',  'ano': '2018',  'duracao': '98 minutos'}, {'id': 96,  'nome': 'Um Pequeno Favor (A Simple Favor)',  'direcao': 'Paul Feig',  'roteiro': 'Jessica Sharzer',  'elenco': 'Anna Kendrick, Blake Lively, Henry Golding e Andrew Rannells',  'genero': 'Comédia, Crime, Drama',  'ano': '2018',  'duracao': '117 minutos'}, {'id': 97,  'nome': 'O Paciente – O Caso Tancredo Neves',  'direcao': 'Sérgio Rezende',  'roteiro': 'Gustavo Liptzein',  'elenco': 'Othon Bastos, Esther Góes, Leonardo Medeiros, Otávio Müller, Paulo Betti, Emílio Dantas, Mário Hermeto e Lucas Drummond',  'genero': 'Biografia',  'ano': '2018',  'duracao': '100 minutos'}, {'id': 98,  'nome': 'O Predador (The Predator)',  'direcao': 'Shane Black',  'roteiro': 'Fred Dekker e Shane Black',  'elenco': 'Boyd Holbrook, Trevante Rhodes, Jacob Tremblay, Keegan-Michael Key, Olivia Munn, Thomas Jane, Alfie Allen e Sterling K. Brown',  'genero': 'Ação, Aventura, Terror',  'ano': '2018',  'duracao': '107 minutos'}, {'id': 99,  'nome': 'O Banquete',  'direcao': 'Daniela Thomas',  'roteiro': 'Daniela Thomas',  'elenco': 'Drica Moraes, Mariana Lima, Caco Ciocler, Rodrigo Bolzan, Fabiana Gugli, Gustavo Machado, Bruna Linzmeyer, Chay Suede e Georgette Fedal',  'genero': 'Suspense, Drama',  'ano': '2018',  'duracao': '104 minutos'}, {'id': 100,  'nome': 'Christopher Robin: Um Reencontro Inesquecível (Christopher Robin)',  'direcao': 'Marc Forster',  'roteiro': 'Alex Ross Perry, Tom McCarthy e Allison Schroeder; história de Greg Brooker e Mark Steven Johnson',  'elenco': 'Ewan McGregor, Hayley Atwell, Jim Cummings e Brad Garrett',  'genero': 'Animação, Aventura, Comédia',  'ano': '2018',  'duracao': '104 minutos'}]
gen_pocilga = general[89:99]

n, c, e = evaluate(pocilga, gen_pocilga)

N_ += n
C_ += c
E_ += e

r = c/n
p = c/e
f1 = 2*(r*p)/(r+p)
print("N: ", n, "\nC: ", c, "\nE: ", e, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

nome: O Mistério do Relógio na Parede  !=  O Mistério do Relógio na Parede (The House with a Clock in Its Walls)
nome: Crimes em Happytime  !=  Crimes em Happytime (The Happytime Murders)
nome: A Primeira Noite de Crime  !=  A Primeira Noite de Crime (The First Purge)
nome: O Banquete (2018)  !=  O Banquete
nome: Christopher Robin: Um Reencontro Inesquecível  !=  Christopher Robin: Um Reencontro Inesquecível (Christopher Robin)
N:  70 
C:  65 
E:  70 
Recall:  0.9285714285714286 
Precision:  0.9285714285714286 
F1:  0.9285714285714286


#### Avaliação geral do extrator

In [26]:
r = C_/N_
p = C_/E_
f1 = 2*(r*p)/(r+p)
print("N: ", N_, "\nC: ", C_, "\nE: ", E_, "\nRecall: ", r, "\nPrecision: ", p, "\nF1: ", f1)

N:  707 
C:  557 
E:  604 
Recall:  0.7878359264497878 
Precision:  0.9221854304635762 
F1:  0.8497330282227307


### Código de testes

Célula utilizada para a prototipação do extrator geral, código ilustrativo apenas

In [27]:
list_word = ["intérpretes", "elenco","diretor","direção"]
search_words = ("intérpretes:", "elenco:","diretor:","direção:")
second_effort = ("Intérpretes:", "Elenco:", "Diretor:", "Direção:", "Roteiro:")
# 61 e 91 funciona com split em '\n'
for i in [41,42,43]:#1,11,21,31,41,51,61,71,81,91]:#range(1,101):
    tree = etree.parse(root + str(i) + '.html', parser)
    check = False
#     print("\n\n",i)
    titles = []
    for item in tree.iter():
#         if item.get("class") != None and item.get("class").endswith("title"):
#             if item.text != None and item.text.strip() != "":
#                 titles.append(item.text)
#     print(titles)
        if item.text != None and ((item.text.lower().startswith(search_words) or item.text.lower() in list_word) or (len([ch for ch in second_effort if ch in item.text]) > 1)) and not check:
#             print(i)#,(get_element_text(item), get_element_text(item.getparent()), get_element_text(item.getparent().getparent())))
            result = get_all_information(item, 0)
#             print(result)
#             for item in result:
#                 print(get_element_text(item))
            check=True