# Projeto PProductions

Este projeto faz uma análise exploratória relacionando informações do **IMDB** com dados do **Oscar**. O objetivo é identificar conexões entre filmes de destaque e suas premiações.

In [None]:

# Importando bibliotecas principais
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.cm as cm
import matplotlib.colors as mcolors
import numpy as np
from collections import Counter
import re

# Configurando estilo dos gráficos
sns.set_theme(style="whitegrid")
plt.rcParams.update({
    "figure.figsize": (10,6),
    "axes.titlesize": 14,
    "axes.labelsize": 12,
    "legend.fontsize": 10
})


In [None]:

# Carregando os dados
imdb = pd.read_csv("desafio_indicium_imdb.csv")
oscar = pd.read_csv("the_oscar_award.csv")

print(f"IMDB: {imdb.shape[0]} linhas e {imdb.shape[1]} colunas")
print(f"Oscar: {oscar.shape[0]} linhas e {oscar.shape[1]} colunas")


In [None]:

# Função para normalizar títulos e nomes
def normalize_title(title):
    if pd.isna(title):
        return ""
    title = title.lower().strip()
    title = re.sub(r'[^a-z0-9 ]', '', title)
    title = re.sub(r'\s+', ' ', title)
    return title

# Aplicando limpeza nos dados
oscar["film_norm"] = oscar["film"].apply(normalize_title)
oscar["name"] = oscar["name"].str.strip().str.lower()

imdb["Series_Title_norm"] = imdb["Series_Title"].apply(normalize_title)
imdb["Director"] = imdb["Director"].str.strip().str.lower()
for col in ["Star1", "Star2", "Star3", "Star4"]:
    imdb[col] = imdb[col].str.strip().str.lower()


In [None]:

# Função para checar premiação específica
def check_oscar_specific(film_norm, person=None, tipo="actor"):
    if tipo == "film":
        subset = oscar[(oscar["film_norm"] == film_norm) & 
                       (oscar["canon_category"] == "BEST PICTURE")]
    else:  # ator ou diretor
        subset = oscar[(oscar["film_norm"] == film_norm) & (oscar["name"] == person)]
    if subset.empty:
        return "No"
    elif subset["winner"].any():
        return "Won"
    else:
        return "Nominated"

# Criando base combinada
imdb_oscar = imdb.copy()
imdb_oscar["Oscar_Film"] = imdb_oscar["Series_Title_norm"].apply(lambda x: check_oscar_specific(x, tipo="film"))
imdb_oscar["Director_Oscar"] = imdb_oscar.apply(lambda row: check_oscar_specific(row["Series_Title_norm"], row["Director"], tipo="actor"), axis=1)


## Exemplos de análises

In [None]:

# Exemplo 1: Quantos filmes do IMDB foram indicados ou ganharam o Oscar de Melhor Filme?
contagem_filmes = imdb_oscar["Oscar_Film"].value_counts()

sns.barplot(x=contagem_filmes.index, y=contagem_filmes.values, palette="viridis")
plt.title("Filmes do IMDB indicados ou vencedores de Melhor Filme no Oscar")
plt.ylabel("Quantidade de filmes")
plt.xlabel("Status no Oscar")
plt.show()


In [None]:

# Exemplo 2: Diretores com mais indicações no Oscar (entre os filmes do IMDB)
diretores_premiados = imdb_oscar[imdb_oscar["Director_Oscar"] != "No"]["Director"]
top_diretores = Counter(diretores_premiados).most_common(10)

diretores, qtd = zip(*top_diretores)
sns.barplot(x=list(qtd), y=list(diretores), palette="mako")
plt.title("Top 10 diretores com filmes indicados ou vencedores no Oscar")
plt.xlabel("Quantidade de indicações")
plt.ylabel("Diretor")
plt.show()
