# Disciplina: Tópicos em Inteligência Computacional
Instituto Federal do Norte de Minas Gerais Campus Montes Claros <br/>
Curso: Ciência da Computação <br/>
Professora: Luciana Balieiro Cosme<br/>
Equipe: Marianna Leandra, Nayara Thaiza <br/>
**Trabalho Final: Exploração da base de dados do IMDB** <br/>
Base de dados: https://datasets.imdbws.com/ <br/>
Ultima atualização da base usada: 20/11/2018 <br/>
**Objetivo: Analisar os filmes do IMDB com mais avalaiações quanto ao gênero preferido** <br/>


**Base 1: Títulos** <br/>
tconst: id do título <br/>
titleType:o tipo / formato do título (por exemplo, filme, short, tvseries, tvepisode, video, etc) <br/>
primaryTitle - o título mais popular / o título usado pelos cineastas em materiais promocionais no momento do lançamento <br/>
originalTitle - título original, no idioma original <br/>
isAdult (booleano) - 0: título não adulto; 1: título adulto <br/>
startYear (YYYY) - representa o ano de lançamento de um título. No caso da série de TV, é o ano de início da série <br/>
endYear (YYYY) - ano final da série de TV. "\ N" para todos os outros tipos de título <br/>
runtimeMinutes - tempo de execução principal do título, em minutos <br/>
genres - inclui até três gêneros associados ao título <br/>

In [1]:
import pandas
import matplotlib.pyplot as plt
#importando base 1
imdbTitulos = pandas.read_csv("titleBasics.tsv", sep='\t',dtype= { "tconst": str,
                                                                'titleType': str,
                                                                'primaryTitle': str,
                                                                'originalTitle': str,
                                                                'isAdult': str,
                                                                'startYear': str,
                                                                'endYear': str,
                                                                'runtimeMinutes': str,
                                                                'genres': str})
imdbTitulos.shape

(5419681, 9)

**Base 2: Notas dos Títulos** <br/>
averageRating - média ponderada de todas as classificações individuais de usuários <br/>
numVotes - número de votos que o título recebeu <br/>

In [2]:
#importando base 2
imdbNotas=pandas.read_csv("titleRatings.tsv", sep='\t',dtype={
    "tconst": str, 
    'averageRating': str,
    'numVotes': str})


imdbNotas.shape

(887588, 3)

In [3]:
imdbTitulos.columns[0:9]

Index(['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult',
       'startYear', 'endYear', 'runtimeMinutes', 'genres'],
      dtype='object')

In [4]:
imdbNotas.columns[0:3]

Index(['tconst', 'averageRating', 'numVotes'], dtype='object')

In [5]:
tabela = pandas.DataFrame(imdbTitulos, columns=['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult',
       'startYear', 'endYear', 'runtimeMinutes', 'genres'])
#tabela.head(10)

In [6]:
#seleciona os filmes

tabela=tabela.loc[(tabela['titleType'].notnull())]
filmes = tabela[tabela['titleType']=='movie']
#filmes.describe()

In [7]:
#manipulando as notas
notas = pandas.DataFrame(imdbNotas, columns=['tconst', 'averageRating', 'numVotes'])
notas.head(10)

Unnamed: 0,tconst,averageRating,numVotes
0,tt0000001,5.8,1437
1,tt0000002,6.3,171
2,tt0000003,6.6,1037
3,tt0000004,6.4,102
4,tt0000005,6.2,1734
5,tt0000006,5.5,91
6,tt0000007,5.5,579
7,tt0000008,5.6,1539
8,tt0000009,5.5,73
9,tt0000010,6.9,5125


In [8]:
#convertendo de texto para numeros
notas['averageRating'] = pandas.to_numeric(notas['averageRating'])
notas['numVotes'] = pandas.to_numeric(notas['numVotes'])

#notas.describe()


In [9]:
#titulos com mais de 500 mil votos
titulosFiltro = notas[notas['numVotes'] > 500000],['tconst','averageRating']
#titulosFiltro
#titulosFiltro[0]['tconst']


In [10]:
#pegando só os ids dos títulos
coluna = titulosFiltro[0]['tconst']
#len(coluna)

In [11]:
#encontra todos os matches entre as duas listas (interseção)
#vai filtrar os filmes dentre todos os títulos com mais de 500 mil votos
idFilmes = set(coluna) & set(filmes['tconst'])
#idFilmes
#print('Quantidade de matches: ', len(idFilmes))

In [12]:
#Convertendo set em lista
idFilmesList = list(idFilmes)
#len(idFilmesList)

**Conclusão final** <br/>
Dentre 5419681 títulos, 503265 são filmes, totalizando aproximadamente 9% da base. <br/>
Do total de filmes, somente 175 possuem mais de 500 mil votos, totalizando menos de 0,5%. <br/>
Destes 175, somente 2 filmes possuem nota acima de 9, The Godfather (1972), conhecido no Brasil como O poderoso chefão e The Shawshank Redemption (1994), entitulado com Um sonho de liberdade em português, com notas 9.2(1382225 votos) e 9.3(2017298 votos), respectivamente. Ambos os filmes possuiam Drama como gênero (The godfather também tem como gênero Crime). <br/>
Em análise final, é possível perceber (graficamente) que os gêneros que prevaleceram nas avalições foram: Ação e Drama, seguidos de Sci-Fi, Thriller, Adventure, Crime e Fantasy.





In [13]:
import tkinter as tk
from tkinter import messagebox

root = tk.Tk()

v = tk.IntVar()
v.set(1)  # initializing the choice, i.e. Python

languages = [
    ('Action', 1), ('Animation', 2), 
    ('Adventure',3), ('Family',4), ('Biography',5), 
    ('Romance',6), ('Crime',7), ('Horror',8), 
    ('Comedy',9), ('Music',10), ('Drama',11),
          ('Sport',12), ('Fantasy',13), 
    ('Mystery',14), ('History',15), ('Sci-Fi',16), 
    ('War', 17), ('Thriller',18),  ('Western',19)
]

def fechar():
    root.destroy()
    
    

def ShowChoice():
    tk.Label(root, 
         text="""Obrigado pela escolha, clique em prosseguir!""",
         justify = tk.LEFT,
         padx = 20).pack()
    

tk.Label(root, 
         text="""Escolha seu gênero favorito:""",
         justify = tk.LEFT,
         padx = 20).pack()

for val, language in enumerate(languages):
    tk.Radiobutton(root, 
                  text=language,
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=val).pack(anchor=tk.W)



tk.Button(root, text = "Prosseguir",justify = tk.LEFT,
         padx = 20, command = fechar).pack()

root.mainloop()
genero = v.get()+1
str(genero)
print(genero)






9


In [14]:
vetorNomes = []
i=0
while i < len(idFilmesList):
    filme = filmes[filmes['tconst'] == idFilmesList[i]]
    gen = filmes[filmes['tconst'] == idFilmesList[i]]['genres'].apply(lambda x: x.split(','))
    if genero == 1:
        c1=gen.values[0][0]
        if c1  == 'Action':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Action':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Action':
                vetorNomes.append(filme)
    elif genero == 2:

        c1=gen.values[0][0]
        if c1  == 'Animation':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Animation':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Animation':
                vetorNomes.append(filme)
    elif genero == 3:

        c1=gen.values[0][0]
        if c1  == 'Adventure':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Adventure':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Adventure':
                vetorNomes.append(filme)
    elif genero == 4:

        c1=gen.values[0][0]
        if c1  == 'Family':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Family':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Family':
                vetorNomes.append(filme)
    elif genero == 5:

        c1=gen.values[0][0]
        if c1  == 'Biography':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Biography':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Biography':
                vetorNomes.append(filme)
    elif genero == 6:

        c1=gen.values[0][0]
        if c1  == 'Romance':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Romance':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Romance':
                vetorNomes.append(filme)
    elif genero == 7:

        c1=gen.values[0][0]
        if c1  == 'Crime':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Crime':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Crime':
                vetorNomes.append(filme)
    elif genero == 8:

        c1=gen.values[0][0]
        if c1  == 'Horror':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Horror':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Horror':
                vetorNomes.append(filme)
    elif genero == 9:

        c1=gen.values[0][0]
        if c1  == 'Comedy':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Comedy':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Comedy':
                vetorNomes.append(filme)
    elif genero == 10:

        c1=gen.values[0][0]
        if c1  == 'Music':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Music':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Music':
                vetorNomes.append(filme)
    elif genero == 11:

        c1=gen.values[0][0]
        if c1  == 'Drama':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Drama':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Drama':
                vetorNomes.append(filme)
    elif genero == 12:

        c1=gen.values[0][0]
        if c1  == 'Sport':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Sport':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Sport':
                vetorNomes.append(filme)
    elif genero == 13:

        c1=gen.values[0][0]
        if c1  == 'Fantasy':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Fantasy':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Fantasy':
                vetorNomes.append(filme)
    elif genero == 14:

        c1=gen.values[0][0]
        if c1  == 'Mystery':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Mystery':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Mystery':
                vetorNomes.append(filme)
    elif genero == 15:

        c1=gen.values[0][0]
        if c1  == 'History':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'History':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'History':
                vetorNomes.append(filme)
    elif genero == 16:

        c1=gen.values[0][0]
        if c1  == 'Sci-fi':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Sci-fi':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Sci-fi':
                vetorNomes.append(filme)
    elif genero == 17:

        c1=gen.values[0][0]
        if c1  == 'War':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'War':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'War':
                vetorNomes.append(filme)
    elif genero == 18:

        c1=gen.values[0][0]
        if c1  == 'Thriller':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Thriller':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Thriller':
                vetorNomes.append(filme)
    elif genero == 19:

        c1=gen.values[0][0]
        if c1  == 'Western':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Western':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Western':
                vetorNomes.append(filme)      
    i=i+1



In [15]:
#print(vetorNomes)
filmesGenero = []
j= 0
while j < len(vetorNomes):
    print(vetorNomes[j]['primaryTitle'].values)
    j = j+1

['Toy Story']
['Deadpool']
['Life Is Beautiful']
['Guardians of the Galaxy']
['Inside Out']
['Ratatouille']
['Shrek']
['Amélie']
['Ted']
['Groundhog Day']
['Toy Story 3']
['The Truman Show']
['The Hangover']
['Kingsman: The Secret Service']
['Finding Nemo']
['Up']
['Monsters, Inc.']
['Snatch']
['The Big Lebowski']
['Silver Linings Playbook']


In [16]:
root = tk.Tk()

v = tk.IntVar()
v.set(1)  # initializing the choice, i.e. Python


def fechar():
    root.destroy()
    
    

def ShowChoice():
    tk.Label(root, 
         text="""Obrigado pela escolha, clique em prosseguir!""",
         justify = tk.LEFT,
         padx = 20).pack()
    

tk.Label(root, 
         text="""Destes filmes, escolha um que você assistiu e gostou:""",
         justify = tk.LEFT,
         padx = 20).pack()

j = 0
while j < len(vetorNomes):
    tk.Radiobutton(root, 
                  text=vetorNomes[j]['primaryTitle'].values,
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=j).pack(anchor=tk.W)

    j = j+1
tk.Radiobutton(root, 
                  text="Não assisti nenhum destes",
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=j).pack(anchor=tk.W)


tk.Button(root, text = "Prosseguir",justify = tk.LEFT,
         padx = 20, command = fechar).pack()

root.mainloop()
escolha = v.get()+1
str(escolha)
print(escolha)



9
