Ao aplicar Análise Exploratória de Dados vamos responder a estas 10 perguntas:

    1- Quais São as Categorias de Filmes Mais Comuns no IMDB?
    2- Qual o Número de Títulos Por Gênero?
    3- Qual a Mediana de Avaliação dos Filmes Por Gênero?
    4- Qual a Mediana de Avaliação dos Filmes Em Relação ao Ano de Estréia?
    5- Qual o Número de Filmes Avaliados Por Gênero Em Relação ao Ano de Estréia?
    6- Qual o Filme Com Maior Tempo de Duração? Calcule os Percentis.
    7- Qual a Relação Entre Duração e Gênero?
    8- Qual o Número de Filmes Produzidos Por País?
    9- Quais São os Top 10 Melhores Filmes?
    10- Quais São os Top 10 Piores Filmes?


In [None]:
#Intala o pacote
!pip install -q imdb-sqlite

#https://pypi.org/project/pycountry
!pip install -q pycountry

In [None]:
#Imports
import re
import time
import pycountry
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import cm
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings("ignore")
sns.set_theme(style = "whitegrid")

# Carregando os Dados

In [None]:
%%time
!imdb-sqlite

2022-02-12 23:45:36,936 GET https://datasets.imdbws.com/name.basics.tsv.gz -> downloads/name.basics.tsv.gz
2022-02-13 00:06:42,980 GET https://datasets.imdbws.com/title.basics.tsv.gz -> downloads/title.basics.tsv.gz


In [None]:
#Conecta no banco de dados
conn = sqlite3.connect("imdb.db")

In [None]:
#Extrai a lista de tabelas
tabelas = pd.read_sql_query("SELECT NAME AS 'Table_Name' FROM sqlite_master WHERE type = 'table'",conn)

In [None]:
#Tipo do objeto
type(tabelas)

In [None]:
#Visualiza o resultado
tabelas.head()

In [None]:
#Convertendo o dataframe em uma lista
tableas - tabelas["Table_Name"].values.tolist()

In [None]:
#Percorendo a lista de tabelas no banco de dados e extrair o esquema de cada uma
for tabela in tabelas:
    consulta = "PRAGMA TABLE_INFO({})".format(tabela)
    resultado = pd.read_sql_query(consulta, conn)
    print("Esquema da tabela:", tabela)
    display(resultado)
    print("-"*100)
    print("\n")

# 1 - Quais São as Categorias de Filmes Mais Comuns no IMDB?

In [None]:
# Cria a consulta SQL
consulta1 = '''
            SELECT type, COUNT(*) AS COUNT FROM titles GROUP BY type
            '''

In [None]:
# Extrai o resultado
reasultado1 = pd.read_sql_query(consulta1, conn)

In [None]:
#Visualiza o resultado
display(resultado1)

In [None]:
# Calculando o percentual para cda tipo
resultado1['percentual'] = (resultado1['COUNT'] / resultado1['COUNT'].sum())*100

In [None]:
#Visualiza o resultado
display(resultado1)

In [None]:
# Criando um gráfico com apenas 4 categorias:
# As 3 categorias com mais titulos e 1 categoria com todo o restante

#Cria um dicionário vazio
others = {}

# Filtra o percentual em 5% e soma o total
others['COUNT'] = resultado1[resultado1['percentual']<5]['COUNT'].sum()

#Grava o percentual
others['percentual'] = resultado1[resultado1['percentual']<5]['percentual'].sum()

#Ajuste o nome
others['type'] = 'others'

In [None]:
#Visualiza
others

In [None]:
# Filtra o dataframe de resultado
resultado1 = resultado1[resultado1['percentual']>5]

In [None]:
#Append com o dataframe de outras categorias
resultado1 = resultado1.append(others, ignore_index = True)

In [None]:
#Ordena o resultado
resultado1 = resultado1.sort_values(by = 'COUNT', ascending = False)

In [None]:
#Visualiza
resultado1.head()

In [None]:
#Ajusta os labels
labels = [str(resultado1['type'][i])+' '+'['+str(round(resultado1['percentual'][i],2))+'%'+']' for i in resultado1.index]

In [None]:
#Plot

#Mapa de cores
#https://matplotlib.org/stable/tutorials/colors/colormaps.html
cs = cm.Set3(np.arange(100))

#Cria a figura
f = plt.figure()

#Pie Plot
plt.pie(resultado1['COUNT'], labeldistance = 1, radius = 3, colors = cs, wedgeprops = dict(width = 0.8))
plt.legend(labels = labels, loc = 'center', prop = {'size':12})
plt.title("Distribuição de Títulos", loc = 'Center', fontdict = {'fontsize':20,'fontweight':20})
plt.show()

# 2 - Qual o Número de Títulos Por Gênero?

In [None]:
#Cria a consulta SQL
consulta2 = '''
            SELECT genres, COUNT(*) FROM titles WHERE type = 'movie' GROUP BY genres
            '''

In [None]:
#Resultado
resultado2 = pd.read_sql_query(consulta2, conn)

In [None]:
#Visualiza o resultado
display(resultado2)

In [None]:
# Converte as strings para minúsculo
resultado2['genres'] = resultado2['genres'].str.lower().values

In [None]:
#Remove valores NA (ausentes)
temp = resultado2['genres'].dropna()

In [None]:
# Vamo criar um vetor usando expressão regular para filtrar as strings

#https://docs.python.org/3.8/library/re.html
padrao = '(?u)\\b[\\w-]+\\b'

#https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
vetor = CountVectorizer(token_pattern = padrao, analyzer = 'word').fit(temp)

In [None]:
type(vetor)

In [None]:
# Aplica a vetorização ao dataset sem valores NA
bag_generos = vetor.transform(temp)

In [None]:
type(bag_generos)

In [None]:
# Retorna generos únicos
generos_unicos = vetor.get_feature_names()

In [None]:
#Cria o dataframe de generos
generos = pd.DataFrame(bag_generos.todense(), columns = generos_unicos, index = temp.index)

In [None]:
#Visualiza
generos.info()

In [None]:
#Drop da coluna n
generos = generos.drop(columns = 'n', axis=0)

In [None]:
#Calcula o percentual
generos_percentual = 100 * pd.Series(generos.)