# Análise Exploratória de Dados com Python e Linguagem SQL

### Comentários: 
 - Resolvi utilizar o Jupyter Notebook ao invés de uma IDE por me dar uma liberdade maior em relação a execução das linhas de códigos de forma celular, facilitando o processo de amostragem/análise dos dados.

### Preparação dos dados:

Antes de realizar a análise propriamente dita é preciso localizar o banco de dados e fazer o tratamento das informação para que fique claro quais as informações com as quais estamos trabalhando.

In [1]:
# Imports
import re
import time
import sqlite3
import pycountry
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import cm
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings("ignore")
sns.set_theme(style = "whitegrid")

In [2]:
# Conecta com banco de dados imdb:
conn = sqlite3.connect("imdb.db")

In [3]:
# Extrai a lista de tabelas:
tabelas = pd.read_sql_query("SELECT NAME AS 'Table_Name' FROM sqlite_master WHERE type = 'table'", conn)

In [4]:
# Visualiza o head:
print(tabelas.head())

  Table_Name
0     people
1     titles
2       akas
3       crew
4   episodes


In [5]:
# Converte o dataframe em lista:
tabelas = tabelas["Table_Name"].values.tolist()

In [6]:
# Percorre a lista de tabelas do BD e extrai o esquema de cada uma:
for tabela in tabelas:
    consulta = "PRAGMA TABLE_INFO({})".format(tabela)
    resultado = pd.read_sql_query(consulta, conn)
    print("Esquema da tabela:", tabela)
    print(resultado.head())
    print("-" * 100)
    print("\n")

Esquema da tabela: people
   cid       name     type  notnull dflt_value  pk
0    0  person_id  VARCHAR        0       None   1
1    1       name  VARCHAR        0       None   0
2    2       born  INTEGER        0       None   0
3    3       died  INTEGER        0       None   0
----------------------------------------------------------------------------------------------------


Esquema da tabela: titles
   cid            name     type  notnull dflt_value  pk
0    0        title_id  VARCHAR        0       None   1
1    1            type  VARCHAR        0       None   0
2    2   primary_title  VARCHAR        0       None   0
3    3  original_title  VARCHAR        0       None   0
4    4        is_adult  INTEGER        0       None   0
----------------------------------------------------------------------------------------------------


Esquema da tabela: akas
   cid      name     type  notnull dflt_value  pk
0    0  title_id  VARCHAR        0       None   0
1    1     title  VARCHAR  

### Agora começaremos a responder as perguntas proposta no READEME

#### 1- Quais São as Categorias de Filmes Mais Comuns no IMDB?
Cada filme no IMDB está associado à uma categoria, iremos descobrir quais são os principais tipos (categorias) dos filmes (titles).

In [7]:
# Criando uma consulta SQL à fornte de dados
consulta1 = '''SELECT type, COUNT(*) AS COUNT FROM titles GROUP BY type'''