# Pergunta de negócio N° 1

## Quais a categorias de filmes mais comuns no IMDB

#### Imports obrigatórios

In [None]:
import re
import time
import sqlite3
import pycountry
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import cm
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings("ignore")
sns.set_theme(style="whitegrid")

#### Coletando e Tratando as informações

In [None]:
import base
from base import db, getAnswer

# Consulta para buscar os dados da resposta
sql = "SELECT type, COUNT(*) as count FROM titles GROUP BY type"

# Lista de categorias listadas em ordem de maior quantidade
answer = getAnswer(db, sql)

# Calculo do percentual de cada categoria
answer['percent'] = round(answer['count'] / answer['count'].sum() * 100, 2)

In [None]:
# Filtrando as categorias com menos de 5% de percentual
others = {}

others['count'] = answer[answer['percent'] < 5]['count'].sum()

others['percent'] = answer[answer['percent'] < 5]['percent'].sum()

others['type'] = 'others'

# Filtrando as categorias com mais de 5% de percentual (top 3 categorias)
answer = answer[answer['percent'] > 5]

In [None]:
# Adicionando a categoria criada 'outros' no dataset com as top 3 categorias
answer = answer.append(others, ignore_index=True)

# Ordenando os dados por ordem de maior quantidade
answer = answer.sort_values(by='count', ascending=False)

#### Plotando os resultados

In [None]:
# Plotting

# Criando os Labels
labels = [str(answer['type'][i])+': '+str(answer['percent'][i])+'%' for i in answer.index]

# Mapa de cores
cs = cm.Set3(np.arange(100))

# Criando a figura
f = plt.figure()

# Pie Plot
plt.pie(answer['count'], labeldistance=1, radius=3, colors=cs, wedgeprops=dict(width=.8))
plt.legend(labels=labels, loc='center', prop={'size':12})
plt.title("Distribuição de Títulos", loc='Center', fontdict={'fontsize':20, 'fontweight':20})
plt.show()