# Disciplina: Tópicos em Inteligência Computacional
Instituto Federal do Norte de Minas Gerais Campus Montes Claros <br/>
Curso: Ciência da Computação <br/>
Professora: Luciana Balieiro Cosme<br/>
Equipe: Marianna Leandra, Nayara Thaiza <br/>
**Trabalho Final: Exploração da base de dados do IMDB** <br/>
Base de dados: https://datasets.imdbws.com/ <br/>
Ultima atualização da base usada: 20/11/2018 <br/>
**Objetivo: Analisar os filmes do IMDB com mais avalaiações quanto ao gênero preferido** <br/>


**Base 1: Títulos** <br/>
tconst: id do título <br/>
titleType:o tipo / formato do título (por exemplo, filme, short, tvseries, tvepisode, video, etc) <br/>
primaryTitle - o título mais popular / o título usado pelos cineastas em materiais promocionais no momento do lançamento <br/>
originalTitle - título original, no idioma original <br/>
isAdult (booleano) - 0: título não adulto; 1: título adulto <br/>
startYear (YYYY) - representa o ano de lançamento de um título. No caso da série de TV, é o ano de início da série <br/>
endYear (YYYY) - ano final da série de TV. "\ N" para todos os outros tipos de título <br/>
runtimeMinutes - tempo de execução principal do título, em minutos <br/>
genres - inclui até três gêneros associados ao título <br/>

In [1]:
import pandas
import matplotlib.pyplot as plt
#importando base 1
imdbTitulos = pandas.read_csv("titleBasics.tsv", sep='\t',dtype= { "tconst": str,
                                                                'titleType': str,
                                                                'primaryTitle': str,
                                                                'originalTitle': str,
                                                                'isAdult': str,
                                                                'startYear': str,
                                                                'endYear': str,
                                                                'runtimeMinutes': str,
                                                                'genres': str})
imdbTitulos.shape

(5589240, 9)

**Base 2: Notas dos Títulos** <br/>
averageRating - média ponderada de todas as classificações individuais de usuários <br/>
numVotes - número de votos que o título recebeu <br/>

In [2]:
#importando base 2
imdbNotas=pandas.read_csv("titleRatings.tsv", sep='\t',dtype={
    "tconst": str, 
    'averageRating': str,
    'numVotes': str})


imdbNotas.shape

(913588, 3)

In [3]:
imdbTitulos.columns[0:9]

Index(['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult',
       'startYear', 'endYear', 'runtimeMinutes', 'genres'],
      dtype='object')

In [4]:
imdbNotas.columns[0:3]

Index(['tconst', 'averageRating', 'numVotes'], dtype='object')

In [5]:
tabela = pandas.DataFrame(imdbTitulos, columns=['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult',
       'startYear', 'endYear', 'runtimeMinutes', 'genres'])
#tabela.head(10)

In [6]:
#seleciona os filmes

tabela=tabela.loc[(tabela['titleType'].notnull())]
filmes = tabela[tabela['titleType']=='movie']
#filmes.describe()

In [7]:
#manipulando as notas
notas = pandas.DataFrame(imdbNotas, columns=['tconst', 'averageRating', 'numVotes'])
notas.head(10)

Unnamed: 0,tconst,averageRating,numVotes
0,tt0000001,5.8,1458
1,tt0000002,6.4,175
2,tt0000003,6.6,1068
3,tt0000004,6.4,104
4,tt0000005,6.2,1770
5,tt0000006,5.6,94
6,tt0000007,5.5,584
7,tt0000008,5.6,1556
8,tt0000009,5.5,74
9,tt0000010,6.9,5201


In [8]:
#convertendo de texto para numeros
notas['averageRating'] = pandas.to_numeric(notas['averageRating'])
notas['numVotes'] = pandas.to_numeric(notas['numVotes'])

#notas.describe()


In [9]:
#titulos com mais de 500 mil votos
titulosFiltro = notas[notas['numVotes'] > 500000],['tconst','averageRating']
#titulosFiltro
#titulosFiltro[0]['tconst']


In [10]:
#pegando só os ids dos títulos
coluna = titulosFiltro[0]['tconst']
#len(coluna)

In [11]:
#encontra todos os matches entre as duas listas (interseção)
#vai filtrar os filmes dentre todos os títulos com mais de 500 mil votos
idFilmes = set(coluna) & set(filmes['tconst'])
#idFilmes
#print('Quantidade de matches: ', len(idFilmes))

In [12]:
#Convertendo set em lista
idFilmesList = list(idFilmes)
#len(idFilmesList)

**Conclusão final** <br/>
Dentre 5419681 títulos, 503265 são filmes, totalizando aproximadamente 9% da base. <br/>
Do total de filmes, somente 175 possuem mais de 500 mil votos, totalizando menos de 0,5%. <br/>
Destes 175, somente 2 filmes possuem nota acima de 9, The Godfather (1972), conhecido no Brasil como O poderoso chefão e The Shawshank Redemption (1994), entitulado com Um sonho de liberdade em português, com notas 9.2(1382225 votos) e 9.3(2017298 votos), respectivamente. Ambos os filmes possuiam Drama como gênero (The godfather também tem como gênero Crime). <br/>
Em análise final, é possível perceber (graficamente) que os gêneros que prevaleceram nas avalições foram: Ação e Drama, seguidos de Sci-Fi, Thriller, Adventure, Crime e Fantasy.





In [27]:
import tkinter as tk
from tkinter import messagebox

root = tk.Tk()

v = tk.IntVar()
v.set(1)  # initializing the choice, i.e. Python

languages = [
    ('Action', 1), ('Animation', 2), 
    ('Adventure',3), ('Family',4), ('Biography',5), 
    ('Romance',6), ('Crime',7), ('Horror',8), 
    ('Comedy',9), ('Music',10), ('Drama',11),
          ('Sport',12), ('Fantasy',13), 
    ('Mystery',14), ('History',15), ('Sci-Fi',16), 
    ('War', 17), ('Thriller',18),  ('Western',19)
]

def fechar():
    root.destroy()
    
    

def ShowChoice():
    tk.Label(root, 
         text="""Obrigado pela escolha, clique em prosseguir!""",
         justify = tk.LEFT,
         padx = 20).pack()
    

tk.Label(root, 
         text="""Escolha seu gênero favorito:""",
         justify = tk.LEFT,
         padx = 20).pack()

for val, language in enumerate(languages):
    tk.Radiobutton(root, 
                  text=language,
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=val).pack(anchor=tk.W)



tk.Button(root, text = "Prosseguir",justify = tk.LEFT,
         padx = 20, command = fechar).pack()

root.mainloop()
genero = v.get()+1
str(genero)
print(genero)






17


In [28]:
vetorNomes = []
i=0
while i < len(idFilmesList):
    filme = filmes[filmes['tconst'] == idFilmesList[i]]
    gen = filmes[filmes['tconst'] == idFilmesList[i]]['genres'].apply(lambda x: x.split(','))
    if genero == 1:
        c1=gen.values[0][0]
        if c1  == 'Action':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Action':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Action':
                vetorNomes.append(filme)
    elif genero == 2:

        c1=gen.values[0][0]
        if c1  == 'Animation':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Animation':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Animation':
                vetorNomes.append(filme)
    elif genero == 3:

        c1=gen.values[0][0]
        if c1  == 'Adventure':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Adventure':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Adventure':
                vetorNomes.append(filme)
    elif genero == 4:

        c1=gen.values[0][0]
        if c1  == 'Family':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Family':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Family':
                vetorNomes.append(filme)
    elif genero == 5:

        c1=gen.values[0][0]
        if c1  == 'Biography':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Biography':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Biography':
                vetorNomes.append(filme)
    elif genero == 6:

        c1=gen.values[0][0]
        if c1  == 'Romance':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Romance':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Romance':
                vetorNomes.append(filme)
    elif genero == 7:

        c1=gen.values[0][0]
        if c1  == 'Crime':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Crime':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Crime':
                vetorNomes.append(filme)
    elif genero == 8:

        c1=gen.values[0][0]
        if c1  == 'Horror':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Horror':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Horror':
                vetorNomes.append(filme)
    elif genero == 9:

        c1=gen.values[0][0]
        if c1  == 'Comedy':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Comedy':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Comedy':
                vetorNomes.append(filme)
    elif genero == 10:

        c1=gen.values[0][0]
        if c1  == 'Music':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Music':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Music':
                vetorNomes.append(filme)
    elif genero == 11:

        c1=gen.values[0][0]
        if c1  == 'Drama':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Drama':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Drama':
                vetorNomes.append(filme)
    elif genero == 12:

        c1=gen.values[0][0]
        if c1  == 'Sport':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Sport':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Sport':
                vetorNomes.append(filme)
    elif genero == 13:

        c1=gen.values[0][0]
        if c1  == 'Fantasy':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Fantasy':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Fantasy':
                vetorNomes.append(filme)
    elif genero == 14:

        c1=gen.values[0][0]
        if c1  == 'Mystery':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Mystery':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Mystery':
                vetorNomes.append(filme)
    elif genero == 15:

        c1=gen.values[0][0]
        if c1  == 'History':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'History':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'History':
                vetorNomes.append(filme)
    elif genero == 16:

        c1=gen.values[0][0]
        if c1  == 'Sci-fi':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Sci-fi':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Sci-fi':
                vetorNomes.append(filme)
    elif genero == 17:

        c1=gen.values[0][0]
        if c1  == 'War':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'War':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'War':
                vetorNomes.append(filme)
    elif genero == 18:

        c1=gen.values[0][0]
        if c1  == 'Thriller':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Thriller':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Thriller':
                vetorNomes.append(filme)
    elif genero == 19:

        c1=gen.values[0][0]
        if c1  == 'Western':
            vetorNomes.append(filme)
        elif len(gen.values[0]) == 2:
            c2=gen.values[0][1]
            if c2  == 'Western':
                vetorNomes.append(filme)
        elif len(gen.values[0]) == 3:
            c3=c1=gen.values[0][2]
            if c3  == 'Western':
                vetorNomes.append(filme)      
    i=i+1



In [29]:
#print(vetorNomes)
filmesGenero = []
j= 0
while j < len(vetorNomes):
    print(vetorNomes[j]['primaryTitle'].values)
    j = j+1

['Saving Private Ryan']
["Pan's Labyrinth"]
['Inglourious Basterds']
['Full Metal Jacket']
['Apocalypse Now']


In [38]:
root = tk.Tk()

v = tk.IntVar()
v.set(1)  # initializing the choice, i.e. Python


def fechar():
    root.destroy()
    
    

def ShowChoice():
    tk.Label(root, 
         text="""Obrigado pela escolha, clique em prosseguir!""",
         justify = tk.LEFT,
         padx = 20).pack()
    

tk.Label(root, 
         text="""Destes filmes, escolha um que você assistiu e gostou:""",
         justify = tk.LEFT,
         padx = 20).pack()

j = 0
while j < len(vetorNomes):
    tk.Radiobutton(root, 
                  text=vetorNomes[j]['primaryTitle'].values,
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=j).pack(anchor=tk.W)

    j = j+1
tk.Radiobutton(root, 
                  text="Não assisti nenhum destes",
                  padx = 20,
                  variable=v, 
                  command= ShowChoice,
                  value=j).pack(anchor=tk.W)


tk.Button(root, text = "Prosseguir",justify = tk.LEFT,
         padx = 20, command = fechar).pack()

root.mainloop()
escolha = v.get()+1
str(escolha)
print(escolha)



3


In [31]:
#importando base 3
imdbDiretores=pandas.read_csv("titleCrew.tsv", sep='\t',dtype={
    "tconst": str, 
    'directors': str,
    'writers': str})


imdbDiretores.shape

(5598822, 3)

In [32]:
diretores = pandas.DataFrame(imdbDiretores, columns=['tconst', 'directors'])
diretores.head(10)

Unnamed: 0,tconst,directors
0,tt0000001,nm0005690
1,tt0000002,nm0721526
2,tt0000003,nm0721526
3,tt0000004,nm0721526
4,tt0000005,nm0005690
5,tt0000006,nm0005690
6,tt0000007,"nm0005690,nm0374658"
7,tt0000008,nm0005690
8,tt0000009,nm0085156
9,tt0000010,nm0525910


In [40]:
tituloEscolhido = vetorNomes[escolha-1]['tconst'].values
print(tituloEscolhido)

['tt0361748']


In [41]:
#acha os diretores
l=0
found = 0
while l<len(diretores) and found == 0:
    f = set(tituloEscolhido) & set(diretores['tconst'])
    fil = list(f)
    dir = diretores[diretores['tconst'] == fil[0]]['directors'].apply(lambda x: x.split(','))
    print(dir) 
    found=1
    l=l+1

347281    [nm0000233, nm0744834]
Name: directors, dtype: object


In [35]:
#importa 4 base
imdbPessoas = pandas.read_csv("nameBasics.tsv", sep='\t',dtype= { "nconst": str,
                                                                'primaryName': str,
                                                                'birthYear': str,
                                                                'deathYear': str,
                                                                'primaryProfession': str,
                                                                'knownForTitles': str})

imdbPessoas.shape

(9109130, 6)

In [36]:
pessoas = pandas.DataFrame(imdbPessoas, columns=['nconst', 'knownForTitles'])
pessoas.head(10)

Unnamed: 0,nconst,knownForTitles
0,nm0000001,"tt0072308,tt0053137,tt0050419,tt0043044"
1,nm0000002,"tt0037382,tt0038355,tt0071877,tt0117057"
2,nm0000003,"tt0049189,tt0054452,tt0057345,tt0059956"
3,nm0000004,"tt0080455,tt0072562,tt0078723,tt0077975"
4,nm0000005,"tt0069467,tt0083922,tt0050986,tt0050976"
5,nm0000006,"tt0071877,tt0038109,tt0036855,tt0038787"
6,nm0000007,"tt0037382,tt0043265,tt0034583,tt0033870"
7,nm0000008,"tt0047296,tt0068646,tt0078788,tt0070849"
8,nm0000009,"tt0061184,tt0087803,tt0057877,tt0059749"
9,nm0000010,"tt0035575,tt0031867,tt0029870,tt0055256"


In [86]:
#pegando os filmes do diretor do filme escolhido
d1=dir.values[0][0]
tem2=0
if len(dir.values[0])>1:
    d2=dir.values[0][1]
    tem2=1
k=0
aux = pessoas.values[k][0]
found1=0
found2=0
vetorFilmes = []

while k<len(pessoas)and (found1==0 or found2==0):
    if aux == d1:
        fil1 = pessoas[pessoas['nconst'] == d1]['knownForTitles'].apply(lambda x: x.split(','))
        found1=1
        if tem2==0:
            found2=1
        print(fil1)
        q=0
        while q<len(fil1.values[0]):
            vetorFilmes.append(fil1.values[0][q])
            q=q+1
        
    elif tem2==1 and aux == d2:
        fil2 = pessoas[pessoas['nconst'] == d2]['knownForTitles'].apply(lambda x: x.split(','))
        found2=1
        print(fil2)
        q=0
        while q<len(fil2.values[0]):
            vetorFilmes.append(fil2.values[0][q])
            q=q+1
    k=k+1
    aux = pessoas.values[k][0];
print(vetorFilmes)

232    [tt0116367, tt0110912, tt3460252, tt0105236]
Name: knownForTitles, dtype: object
704563    [tt0462322, tt0303816, tt0450278, tt0361748]
Name: knownForTitles, dtype: object
['tt0116367', 'tt0110912', 'tt3460252', 'tt0105236', 'tt0462322', 'tt0303816', 'tt0450278', 'tt0361748']


In [43]:
#importa 5 base
imdbAtores = pandas.read_csv("titlePrincipals.tsv", sep='\t',dtype= { "tconst": str,
                                                                'ordering': str,
                                                                'nconst': str,
                                                                'category': str,
                                                                'job': str,
                                                                'characters': str})

imdbAtores.shape

(32030817, 6)

In [44]:
at = pandas.DataFrame(imdbAtores, columns=['tconst', 'nconst', 'category'])
at.head(10)

Unnamed: 0,tconst,nconst,category
0,tt0000001,nm1588970,self
1,tt0000001,nm0005690,director
2,tt0000001,nm0374658,cinematographer
3,tt0000002,nm0721526,director
4,tt0000002,nm1335271,composer
5,tt0000003,nm0721526,director
6,tt0000003,nm5442194,producer
7,tt0000003,nm1335271,composer
8,tt0000003,nm5442200,editor
9,tt0000004,nm0721526,director


In [47]:
atores = at[at['category']=='actor']
atores.head(10)

Unnamed: 0,tconst,nconst,category
11,tt0000005,nm0443482,actor
12,tt0000005,nm0653042,actor
16,tt0000007,nm0179163,actor
17,tt0000007,nm0183947,actor
21,tt0000008,nm0653028,actor
25,tt0000009,nm0183823,actor
29,tt0000011,nm3692297,actor
42,tt0000014,nm0166380,actor
43,tt0000014,nm0244989,actor
49,tt0000017,nm3691272,actor


In [83]:
b=0
vetorAtores = []
qtd=0
ff = set(tituloEscolhido) & set(atores['tconst'])
ffil = list(ff)
while b<len(atores) and qtd == 0:
    z=0
    while z<len(ffil): 
        atr = atores[atores['tconst'] == ffil[z]]['nconst']
        qtd=1
        print(atr)
        z=z+1
  
    b=b+1

2553231    nm0000093
2553233    nm0744834
Name: nconst, dtype: object


In [84]:
print(atr.values[1])

nm0744834


In [87]:
#pegando os filmes dos atores do filme escolhido
d1=atr.values[0]
tem2=0
if len(atr)>1:
    d2=atr.values[1]
    tem2=1
k=0
aux = pessoas.values[k][0]
found1=0
found2=0
while k<len(pessoas)and (found1==0 or found2==0):
    if aux == d1:
        fil1 = pessoas[pessoas['nconst'] == d1]['knownForTitles'].apply(lambda x: x.split(','))
        found1=1
        if tem2==0:
            found2=1
        print(fil1)
        q=0
        while q<len(fil1.values[0]):
            vetorFilmes.append(fil1.values[0][q])
            q=q+1
        
    elif tem2==1 and aux == d2:
        fil2 = pessoas[pessoas['nconst'] == d2]['knownForTitles'].apply(lambda x: x.split(','))
        found2=1
        print(fil2)
        q=0
        while q<len(fil2.values[0]):
            vetorFilmes.append(fil2.values[0][q])
            q=q+1
    k=k+1
    aux = pessoas.values[k][0];
print(vetorFilmes)

92    [tt0421715, tt1210166, tt0356910, tt0114746]
Name: knownForTitles, dtype: object
704563    [tt0462322, tt0303816, tt0450278, tt0361748]
Name: knownForTitles, dtype: object
['tt0116367', 'tt0110912', 'tt3460252', 'tt0105236', 'tt0462322', 'tt0303816', 'tt0450278', 'tt0361748', 'tt0421715', 'tt1210166', 'tt0356910', 'tt0114746', 'tt0462322', 'tt0303816', 'tt0450278', 'tt0361748']
