# Projeto PProductions

Análise exploratória relacionando informações do **IMDb** com dados do **Oscar**.

**Objetivo:** encontrar padrões, conexões e curiosidades entre filmes de destaque e premiações.

> Este notebook foi organizado para ser **simples, consistente e direto**. Todos os gráficos usam um mesmo padrão visual e o código evita construções muito complexas.

In [None]:
# Imports principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.cm as cm
import matplotlib.colors as mcolors
from collections import Counter
import re

# Estilo global dos gráficos (consistente em todo o notebook)
sns.set_theme(style='whitegrid')
plt.rcParams.update({
    'figure.figsize': (10, 6),
    'axes.titlesize': 14,
    'axes.labelsize': 12,
    'legend.fontsize': 10,
    'axes.grid': True,
    'grid.alpha': 0.25,
})


In [None]:
# Funções simples para manter o padrão
def titulo(ax, t):
    ax.set_title(t)

def rotulos(ax, x, y):
    ax.set_xlabel(x)
    ax.set_ylabel(y)

def barplot_simples(series, titulo_grafico, xlabel, ylabel):
    fig, ax = plt.subplots()
    series.plot(kind='bar', ax=ax)
    titulo(ax, titulo_grafico)
    rotulos(ax, xlabel, ylabel)
    plt.tight_layout()
    plt.show()


# Projeto para Empresa PProductions
## Desafio Lighthouse Indicium

---

## Parte 1: Análise Exploratória dos Dados (EDA)

---

### Introdução

Antes de explorar os dados, é interessante entender com o que trabalharemos nesse documento. Nosso **foco** é fazer a análise cinematográfica dos estudios PProductions para orientar qual tipo de filme deve ser o próximo a ser desenvolvido pelos mesmos.

A empresa disponibilisou sua database com as seguintes **informações**: Nome do filme, Ano de lançamento, Classificação etária, Tempo de duração, Gênero, Nota do IMDB, Overview do filme, Média ponderada de todas as críticas, Diretor, Ator/atriz #1, Ator/atriz #2, Ator/atriz #3, Ator/atriz #4, Número de votos, Faturamento

Para **complementar** a análise, o time de consultoria de dados da Indicium decidiu por complementar essas informações com a base de dados de todos os filmes e atores **indicados e ganhadores da cerimônia do Oscar**, que é o principal prémio anual da indústria cinematográfica. As informações dessa base de dados são: Ano do filme, Ano da cerimônia, Número da cerimônia, Categoria, Categoria específica, Nome, Filme, Ganhador (binário) 

---

### Importação e Análises Superfíciais

A análise exploratória dos dados começa com a importação das bibliotecas necessárias para a contrução do código.

In [None]:
import pandas as pd\nimport matplotlib.pyplot as plt\nimport seaborn as sns\nimport matplotlib.cm as cm \nimport matplotlib.colors as mcolors\nimport numpy as np\nfrom collections import Counter

In [None]:
imdb=pd.read_csv("desafio_indicium_imdb.csv") \noscar=pd.read_csv("the_oscar_award.csv")

In [None]:
print(f"O formato do conjunto de dados do IMDB é: \033[1m{imdb.shape[0]}\033[0m linhas e \033[1m{imdb.shape[1]}\033[0m colunas. "\n      f"Enquanto o formato do conjunto de dados do Oscar é: \033[1m{oscar.shape[0]}\033[0m linhas e \033[1m{oscar.shape[1]}\033[0m colunas.")

#### Base de dados combinada

Para a realização das análises, utilizaremos uma base de dados que combina a base imdb e a base dos filmes indicados ao Oscar

In [None]:
import re\n\n# normalização dos títulos\ndef normalize_title(title):\n    if pd.isna(title):\n        return ""\n    title = title.lower().strip()\n    title = re.sub(r'[^a-z0-9 ]', '', title)\n    title = re.sub(r'\s+', ' ', title)\n    return title\n\noscar['film_norm'] = oscar['film'].apply(normalize_title)\noscar['name'] = oscar['name'].str.strip().str.lower()\n\nimdb['Series_Title_norm'] = imdb['Series_Title'].apply(normalize_title)\nimdb['Director'] = imdb['Director'].str.strip().str.lower()\nfor col in ['Star1','Star2','Star3','Star4']:\n    imdb[col] = imdb[col].str.strip().str.lower()\n\n# fazer com que encontrem apenas as indicações para o filme específico da linha\ndef check_oscar_specific(film_norm, person=None, tipo="actor"):\n    if tipo == "film":\n        subset = oscar[(oscar['film_norm'] == film_norm) & \n                       (oscar['canon_category'] == "BEST PICTURE")]\n    else:  # ator ou diretor\n        subset = oscar[(oscar['film_norm'] == film_norm) & (oscar['name'] == person)]\n    if subset.empty:\n        return "No"\n    elif subset['winner'].any():\n        return "Won"\n    else:\n        return "Nominated"\n\n# nova base combinada\nimdb_oscar = imdb.copy()\n\nimdb_oscar['Oscar_Film'] = imdb_oscar['Series_Title_norm'].apply(\n    lambda x: check_oscar_specific(x, tipo="film"))\n\nimdb_oscar['Director_Oscar'] = imdb_oscar.apply(\n    lambda row: check_oscar_specific(row['Series_Title_norm'], row['Director'], tipo="actor"), axis=1)\n\nfor col in ['Star1','Star2','Star3','Star4']:\n    imdb_oscar[col + '_Oscar'] = imdb_oscar.apply(\n        lambda row: check_oscar_specific(row['Series_Title_norm'], row[col], tipo="actor"), axis=1)\n\nimdb_oscar.to_csv("imdb_oscar.csv", index=False)

#### Correções necessárias
##### Limpando e ajustando os dados

In [None]:
imdb_oscar[imdb_oscar.duplicated()]

A base de dados combinados não apresenta valores duplicados

In [None]:
imdb_oscar.isnull().sum()

Corrigindo os valores faltantes da coluna "Certificate". Para essa correção, assumiu-se que todos os filmes sem classificação indicativa não tinham restrição de idade. Então, foram transformados em Universal rating (U).

In [None]:
imdb_oscar['Certificate'] = imdb_oscar['Certificate'].fillna('U')

Para os valores faltantes da coluna "Meta_score" decidiu-se utilizar a média dos valores existentes na coluna. Isso foi feito para evitar que esses valores atrapalhasem os futuros cálculos.

In [None]:
imdb_oscar['Meta_score'] = imdb_oscar['Meta_score'].fillna(imdb_oscar['Meta_score'].mean())

Corrigindo a coluna de faturamento "Gross"

In [None]:
imdb_oscar['Gross'] = (\n    imdb_oscar['Gross']\n    .str.replace(',', '', regex=False)  \n    .astype('float64')                  \n    .fillna(0)                          \n)

Corrigindo a coluna de tempo de filme "Runtime"

In [None]:
imdb_oscar['Runtime'] = imdb_oscar['Runtime'].str.extract('(\d+)')\nimdb_oscar = imdb_oscar[imdb_oscar['Runtime'].notna()]\nimdb_oscar['Runtime'] = imdb_oscar['Runtime'].astype(int)

Corrigindo a coluna do ano de lançamento "Released_Year"

In [None]:
imdb_oscar['Released_Year'].value_counts()

Aqui podemos perceber que apenas um filme está sem a data de lançamento.

In [None]:
mascaras_erradas = ~imdb_oscar['Released_Year'].str.isnumeric()\nsem_ano = imdb_oscar[mascaras_erradas]\n\nprint(sem_ano[['Series_Title', 'Released_Year']])

Como é apenas um filme que está sem data, podemos inserir essa data manualmente:

In [None]:
imdb_oscar.loc[imdb_oscar['Series_Title'] == 'Apollo 13', 'Released_Year'] = 1995

Verificando se temos algum valor Null na base de dados

In [None]:
imdb_oscar.isnull().sum()

Verificação do tipo de dado de cada coluna

In [None]:
imdb_oscar.info()

A coluna de Released Year não está sendo tratada como int, então vamos fazer essa transformação

In [None]:
imdb_oscar['Released_Year'] = imdb_oscar['Released_Year'].astype(int)

Visualizando a nova base de dados:

In [None]:
imdb_oscar.head()

In [None]:
print(f"O formato do conjunto de dados combinados é: \033[1m{imdb_oscar.shape[0]}\033[0m linhas e \033[1m{imdb_oscar.shape[1]}\033[0m colunas. ")

#### Visualização rápida de dados

##### Estatísticas descritivas das variáveis numéricas

In [None]:
imdb_oscar.describe()

A partir dessas informações, temos:

- Características:
    - Temos a **cobertura de 100 anos** no mundo do cinema, de 1920 a 2020.
    - A mediana do ano de lançamento dos filmes é **1999**.
    - A mediana do tempo de duração é **119 minutos**. Mas temos outliers grandes como o menor filme, com 45 minutos, e o maior filme, de 321 minutos.
- Críticas:
    - A base apresenta filmes com uma média de 7.95 no IMDb e 77.96 no Metascore - **Filmes são bem avaliados por ambas as críticas e tem sua base média próxima a 8**
    - O intervalo das notas é de 7.6 à 9.2 para o IMDb e 28 à 100 no Metascore - **A visão sobre os filmes pode divergir bastante entre as duas críticas - Para o IMDB esses filmes são considerados filmes com médias muitos boas, enquanto para o Metascore temos filmes com notas bem extremas**
        - O desvio-padrão está muito próximo da média para o IMDB, enquando existe uma divergência maior para o Metascore
- Popularidade:
    - A média do número de votos é **271 mil**.
    - Tivemos um filme com **2,3 milhões de votos**.
    - Temos uma distribuição bastante **assimétrica** de bilheteria, com média de 56 milhões enquanto a mediana é 10,6 milhões.

##### Principais insights:
- Todos os filmes são bem avaliados (nota maior de 7.6 no IMDb).
- A maior parte dos filmes está concentrada entre 1970 e 2020.
- A duração dos filmes usual é entre 1h40 e 2h20.
- Existe uma discrepância entre crítica e público, pois existem filmes muito populares que nem nota baixa dos críticos.

#### Análises

In [None]:
plt.style.use('classic')  \nfig, axes = plt.subplots(2, 3, figsize=(18, 12))\n\noscar_order = ['No', 'Nominated', 'Won']\ncolors = ['lightcoral', 'gold', 'lightgreen']\n\nsns.boxplot(data=imdb_oscar, x='Oscar_Film', y='IMDB_Rating', \n            order=oscar_order, hue="Oscar_Film", legend=False,\n            palette=dict(zip(oscar_order, colors)), ax=axes[0,0])\naxes[0,0].set_title('IMDB Rating por Status Oscar', fontsize=14, fontweight='bold')\naxes[0,0].set_xlabel('Status Oscar')\n\nsns.boxplot(data=imdb_oscar.dropna(subset=['Meta_score']), \n            x='Oscar_Film', y='Meta_score', \n            order=oscar_order, hue="Oscar_Film", legend=False,\n            palette=dict(zip(oscar_order, colors)), ax=axes[0,1])\naxes[0,1].set_title('Meta Score por Status Oscar', fontsize=14, fontweight='bold')\naxes[0,1].set_xlabel('Status Oscar')\n\ngross_data = imdb_oscar.dropna(subset=['Gross']).copy()\ngross_data = gross_data[gross_data['Gross'] > 0]   # evita log(0)\ngross_data['Log_Gross'] = np.log(gross_data['Gross'])\nsns.boxplot(data=gross_data, x='Oscar_Film', y='Log_Gross',\n            order=oscar_order, hue="Oscar_Film", legend=False,\n            palette=dict(zip(oscar_order, colors)), ax=axes[0,2])\naxes[0,2].set_title('Log(Faturamento) por Status Oscar', fontsize=14, fontweight='bold')\naxes[0,2].set_xlabel('Status Oscar')\n\nvotes_data = imdb_oscar.dropna(subset=['No_of_Votes']).copy()\nvotes_data = votes_data[votes_data['No_of_Votes'] > 0]   # evita log(0)\nvotes_data['Log_Votes'] = np.log(votes_data['No_of_Votes'])\nsns.boxplot(data=votes_data, x='Oscar_Film', y='Log_Votes',\n            order=oscar_order, hue="Oscar_Film", legend=False,\n            palette=dict(zip(oscar_order, colors)), ax=axes[1,0])\naxes[1,0].set_title('Log(Popularidade) por Status Oscar', fontsize=14, fontweight='bold')\naxes[1,0].set_xlabel('Status Oscar')\n\nsns.boxplot(data=imdb_oscar.dropna(subset=['Runtime']), \n            x='Oscar_Film', y='Runtime',\n            order=oscar_order, hue="Oscar_Film", legend=False,\n            palette=dict(zip(oscar_order, colors)), ax=axes[1,1])\naxes[1,1].set_title('Duração por Status Oscar', fontsize=14, fontweight='bold')\naxes[1,1].set_xlabel('Status Oscar')\n\noscar_counts = imdb_oscar['Oscar_Film'].value_counts()\naxes[1,2].pie(oscar_counts.values, labels=oscar_counts.index, autopct='%1.1f%%',\n             colors=colors, startangle=90)\naxes[1,2].set_title('Distribuição Status Oscar', fontsize=14, fontweight='bold')\n\nplt.tight_layout()\nplt.show()

##### Análise de Progressão

In [None]:
progression = imdb_oscar.groupby('Oscar_Film')[['IMDB_Rating','Meta_score','Gross','No_of_Votes','Runtime']].mean()\nprogression = progression.reindex(oscar_order)\nprint(progression.round(2))

##### Insights:
- Filmes que ganharam Oscars tem uma média visivelmente superior a aqueles que nao ganharam ou foram apenas nomeados
- Filmes vencedores tem quase o dobro de receita do que filmes que não foram indicados.
    - Filmes que foram sucesso comercial tem mais chance de concorrerem a cerimônia
- As pessoas tendem a votar muito mais em filmes populares
- Os filmes vencedores tendem a serem mais longos

##### Incrementos Relativos

In [None]:
baseline = progression.loc['No']\nfor category in ['Nominated', 'Won']:\n    increment = ((progression.loc[category] - baseline) / baseline * 100).round(1)\n    print(f"\n{category} vs No:")\n    for col in increment.index:\n        if not pd.isna(increment[col]):\n            print(f"  {col}: {increment[col]:+.1f}%")

- Há uma tendência clara de aumento em todas as métricas à medida que o filme passa de “No” → “Nominated” → “Won”.
- O impacto mais significativo está em Gross e No_of_Votes, mostrando forte correlação entre sucesso financeiro/atenção do público e premiação.
- Avaliações críticas e do público (Meta_score e IMDB_Rating) também crescem, mas de forma mais moderada, mostrando que nem só o prestígio crítico garante vitória, mas ajuda.
- Filmes vencedores tendem a ser mais longos, indicando que a indústria valoriza narrativas mais densas ou elaboradas.

##### Top Diretores

In [None]:
top_directors = imdb_oscar['Director'].value_counts()\ntop_directors.head(5)

##### Top Atores

In [None]:
top_stars = imdb_oscar[['Star1','Star2','Star3','Star4']].stack().value_counts()\ntop_stars.head(5)

In [None]:
# Análise de gêneros (separar gêneros compostos)\ndef extract_genres(imdb_oscar):\n    all_genres = []\n    for genre_list in imdb_oscar['Genre'].dropna():\n        genres = [g.strip() for g in genre_list.split(',')]\n        all_genres.extend(genres)\n    return pd.Series(all_genres).value_counts()\n\n# Performance média por gênero principal\nimdb_oscar['Primary_Genre'] = imdb_oscar['Genre'].str.split(',').str[0]\ngenre_performance = imdb_oscar.groupby('Primary_Genre').agg({\n    'IMDB_Rating': ['mean','count'],\n    'Meta_score': 'mean',\n    'Gross': ['mean','median'],\n    'Oscar_Film': 'sum'\n}).round(2)

In [None]:
# Supondo que você já tenha 'genre_performance' calculado\ngenre_performance = genre_performance.reset_index()\ngenre_performance.columns = ['Primary_Genre', 'IMDB_Rating_Mean', 'IMDB_Count', 'Meta_score_Mean', 'Gross_Mean', 'Gross_Median', 'Oscar_Film_Sum']\n\n# Configurar estilo\nplt.style.use('classic')\n\n# Gráfico de barras horizontais para IMDB médio por gênero\nplt.figure(figsize=(12,8))\nsns.barplot(\n    data=genre_performance.sort_values('IMDB_Rating_Mean', ascending=False),\n    x='IMDB_Rating_Mean',\n    y='Primary_Genre',\n    hue='IMDB_Count',  # usa a quantidade de filmes para coloração\n    dodge=False\n)\n\nplt.title('Média de Avaliação IMDB por Gênero Principal', fontsize=16)\nplt.xlabel('IMDB Médio')\nplt.ylabel('Gênero')\nplt.legend(title='Número de Filmes', bbox_to_anchor=(1.05, 1), loc='upper left')\nplt.tight_layout()\nplt.show()

##### Top 5 Filmes por indicação do Oscar

In [None]:
for status in oscar_order:\n    print(f"\n {status.upper()} (por IMDb Rating)")\n    top_films = (imdb_oscar[imdb_oscar['Oscar_Film']==status]\n                .nlargest(5, 'IMDB_Rating')[['Series_Title','IMDB_Rating','Meta_score','Gross']])\n    \n    for idx, row in top_films.iterrows():\n        gross_str = f"${row['Gross']:,.0f}" if not pd.isna(row['Gross']) else "N/A"\n        meta_str = f"{row['Meta_score']:.0f}" if not pd.isna(row['Meta_score']) else "N/A"\n        print(f"  {row['Series_Title']}: IMDB {row['IMDB_Rating']}, Meta {meta_str}, Gross {gross_str}")

- Avaliação do público (IMDB Rating) é alta em todos os grupos, mas aumenta levemente do grupo No → Nominated → Won.
- Avaliação crítica (Meta_score) é mais consistente e elevada entre indicados e vencedores, sugerindo que a crítica tem forte influência nas premiações.
- Gross mostra que blockbusters podem ou não ser indicados ou vencedores: filmes de grande bilheteria aparecem em todos os grupos, mas vencedores tendem a equilibrar prestígio e receita.
- Evolução qualitativa: ao passar de No → Nominated → Won, os filmes tendem a ser mais consistentes em qualidade e reconhecimento crítico, enquanto a bilheteria é um fator secundário.

#### Análise de correlações

##### Correlações por grupo no Oscar

In [None]:
numeric_cols = ['IMDB_Rating','Meta_score','Gross','No_of_Votes','Runtime']\n\nfor status in oscar_order:\n    print(f"\n {status.upper()} ")\n    subset = imdb_oscar[imdb_oscar['Oscar_Film']==status][numeric_cols]\n    corr_matrix = subset.corr()\n    \n    # Correlações mais fortes (>0.3)\n    strong_corr = []\n    for i in range(len(corr_matrix.columns)):\n        for j in range(i+1, len(corr_matrix.columns)):\n            corr_val = corr_matrix.iloc[i,j]\n            if abs(corr_val) > 0.3 and not pd.isna(corr_val):\n                strong_corr.append((corr_matrix.columns[i], \n                                  corr_matrix.columns[j], \n                                  corr_val))\n    \n    if strong_corr:\n        for col1, col2, corr in sorted(strong_corr, key=lambda x: abs(x[2]), reverse=True):\n            print(f"  {col1} ↔ {col2}: {corr:.3f}")\n    else:\n        print("  Nenhuma correlação forte encontrada")\n

- A correlação IMDB_Rating ↔ No_of_Votes cresce progressivamente de No (0,36) → Nominated (0,62) → Won (0,76).
→ Indica que, à medida que o filme progride no Oscar, a percepção do público se torna um fator mais relevante para o engajamento.
- A correlação Gross ↔ No_of_Votes é consistente (0,58–0,62), mostrando que bilheteria sempre influencia o engajamento, mas seu efeito não aumenta tanto quanto a avaliação do público.

Em resumo: para vencedores do Oscar, a nota do público é o fator mais relacionado ao reconhecimento e engajamento, enquanto a bilheteria é importante, mas secundária.

##### Correlações Gerais

###### Distribuições

In [None]:
plt.style.use('classic')\nplt.figure(figsize=(15,10))\nplt.subplot(2,3,1)\nimdb_oscar['IMDB_Rating'].hist(bins=30)\nplt.title('Distribuição Ratings IMDB')\n\nplt.subplot(2,3,2)\nimdb_oscar['Meta_score'].dropna().hist(bins=30)\nplt.title('Distribuição Meta Score')\n\nplt.subplot(2,3,3)\nimdb_oscar['Runtime'].dropna().hist(bins=30)\nplt.title('Distribuição Duração (min)')\n\nplt.subplot(2,3,4)\nnp.log(imdb_oscar['Gross'].dropna()).hist(bins=30)\nplt.title('Distribuição Log(Faturamento)')\n\nplt.subplot(2,3,5)\nnp.log(imdb_oscar['No_of_Votes'].dropna()).hist(bins=30)\nplt.title('Distribuição Log(Votos)')\n\nplt.subplot(2,3,6)\nimdb_oscar['Released_Year'].hist(bins=50)\nplt.title('Filmes por Ano')\nplt.tight_layout()

In [None]:
print(imdb_oscar[['IMDB_Rating', 'Meta_score', 'No_of_Votes', 'Gross']].corr())

In [None]:
cols = ["IMDB_Rating", "Meta_score", "No_of_Votes", "Gross"]\nrename_dict = {\n    "IMDB_Rating": "Nota IMDb",\n    "Meta_score": "Nota Meta",\n    "No_of_Votes": "Popularidade",\n    "Gross": "Faturamento"\n}\ncorr_matrix = imdb_oscar[cols].corr().rename(index=rename_dict, columns=rename_dict)\n\nplt.style.use('classic')\nplt.figure(figsize=(7, 5))\nsns.heatmap(corr_matrix, annot=True, cmap="RdYlGn", vmin=-1, vmax=1, square=True, fmt=".2f")\nplt.title("Matriz de Correlação - imdb_oscar", fontsize=14)\nplt.show()

A partir dessas informações, temos:

- Nota Meta X Popularidade: relação muito fraca
- Nota IMDb X Faturamento: uma nota boa não tem relação com boa bilheteria
- Notas IMDb X Meta: relação muito fraca
- Nota IMDb X Popularidade: relação moderada
    - Filmes bem avaliados tem chance moderadamente maior de serem mais populares
- Popularidade X Faturamento: relação moderada/forte
    - a variância é de 38%, ou seja, 38% da variação do faturamento pode ser explicada apenas pelo número de votos 

##### Insights:
- Podemos inferir que a popularidade tem ligaçãos com o faturamento e as críticas do IMDb, separadamente
- As críticas do Meta não tem relações diretas com nenhum dos outros fatores

##### Possíveis vieses da base:
- Tempo desde o lançamento: filmes mais antigos tiveram mais tempo de acumular críticas, bilheteria e votos.

Se optarmos por modelar uma regressão a partir do logarítimo do faturamento, temos:

In [None]:
import statsmodels.formula.api as smf\n\ndf = imdb_oscar.copy()\ndf["Gross"] = df["Gross"].replace(0, np.nan)\ndf["No_of_Votes"] = df["No_of_Votes"].replace(0, np.nan)\n\nm = smf.ols(\n    formula="np.log(Gross) ~ np.log(No_of_Votes) + IMDB_Rating + Meta_score",\n    data=df\n).fit()\nprint(m.summary())

A partir desses dados, temos:
- Esse modelo explica aproximadamente 50% da variação do faturamento (R-squared = 0.499).
- Sem problemas severos de multicolinearidade
- Um aumento de 1% no número de votos está associado a um aumento de 1.7% no faturamento.
- Um aumento de 1 ponto de nota IMDb está associado a uma queda de 2.68 unidades no log do faturamento
    - Filmes com boas avaliações tendem a faturar menos, ou seja, filmes filmes bem avaliados acabam sendo filmes nichados

##### Gráficos:

In [None]:
df = imdb_oscar.copy()\ndf = df.replace(0, np.nan).dropna(subset=["Gross","No_of_Votes","IMDB_Rating","Meta_score"])\n\ndf["logGross"] = np.log(df["Gross"])\ndf["pred"] = m.fittedvalues\ndf["resid"] = m.resid\n\nplt.style.use('classic')\nplt.figure(figsize=(6,4))\nsns.scatterplot(x=np.log(df["No_of_Votes"]), y=df["logGross"], alpha=0.6)\nsns.regplot(x=np.log(df["No_of_Votes"]), y=df["logGross"], scatter=False, color="red")\nplt.xlabel("Log(Popularidade)")\nplt.ylabel("Log(Faturamento)")\nplt.title("Popularidade vs Faturamento")\nplt.show()

- Mostra relação linear forte entre log(votos) e log(faturamento)
- R² visual elevado - pontos seguem bem a linha de tendência
###### Confirma: Mais engajamento = Mais dinheiro

In [None]:
plt.style.use('classic')\nplt.figure(figsize=(6,4))\nsns.scatterplot(x=df["IMDB_Rating"], y=df["resid"] + df["IMDB_Rating"]*m.params["IMDB_Rating"], alpha=0.6)\nsns.regplot(x=df["IMDB_Rating"], y=df["resid"] + df["IMDB_Rating"]*m.params["IMDB_Rating"], scatter=False, color="red")\nplt.xlabel("Nota IMDb")\nplt.ylabel("Log(Faturamento ajustado)")\nplt.title("Efeito da Nota IMDb no Faturamento")\nplt.show()

- Inclinação negativa confirma o paradoxo de um aumento de 1 ponto de nota IMDb estar associado a uma queda de 2.68 unidades no log do faturamento
    - Controlando por popularidade, filmes "melhores" faturam menos
###### Insight: Blockbusters comerciais vs filmes de nicho

In [None]:
plt.style.use('classic')\nplt.figure(figsize=(6,4))\nsns.scatterplot(x=df["Meta_score"], y=df["resid"] + df["Meta_score"]*m.params["Meta_score"], alpha=0.6)\nsns.regplot(x=df["Meta_score"], y=df["resid"] + df["Meta_score"]*m.params["Meta_score"], scatter=False, color="red")\nplt.xlabel("Nota Meta")\nplt.ylabel("Log(Faturamento ajustado)")\nplt.title("Efeito da Nota Meta no Faturamento")\nplt.show()

- Inclinação positiva suave
    - Críticos reconhecem valor comercial sutilmente
###### Insight: Equilíbrio entre crítica e público

In [None]:
fig, ax1 = plt.subplots(figsize=(14,6))\n\n# Eixo 1: IMDB Rating\nax1.plot(yearly_trends.index, yearly_trends['IMDB_Rating'], color='blue', linewidth=2, label='IMDB Rating')\nax1.set_xlabel('Ano de Lançamento', fontsize=12)\nax1.set_ylabel('IMDB Rating', color='blue', fontsize=12)\nax1.tick_params(axis='y', labelcolor='blue')\nax1.set_ylim(0, 10)\nax1.grid(True)\n\n# Eixo 2: Meta Score\nax2 = ax1.twinx()\nax2.plot(yearly_trends.index, yearly_trends['Meta_score'], color='green', linewidth=2, label='Meta Score')\nax2.set_ylabel('Meta Score', color='green', fontsize=12)\nax2.tick_params(axis='y', labelcolor='green')\n\n# Eixo 3: Duração Média\nax3 = ax1.twinx()\nax3.spines['right'].set_position(('outward', 60))  # desloca o terceiro eixo para a direita\nax3.plot(yearly_trends.index, yearly_trends['Runtime'], color='red', linewidth=2, linestyle='--', label='Duração Média (min)')\nax3.set_ylabel('Duração Média (min)', color='red', fontsize=12)\nax3.tick_params(axis='y', labelcolor='red')\n\n# Legenda combinada no canto inferior esquerdo\nlines, labels = ax1.get_legend_handles_labels()\nlines2, labels2 = ax2.get_legend_handles_labels()\nlines3, labels3 = ax3.get_legend_handles_labels()\nax1.legend(lines + lines2 + lines3, labels + labels2 + labels3, loc='lower left')\n\nplt.title('Tendência de Ratings, Meta Score e Duração Média (Média Móvel 5 anos)', fontsize=14)\nplt.tight_layout()\nplt.show()

In [None]:
# Top combinações diretor-ator\ndirector_star_combos = []\nfor _, row in df.iterrows():\n    director = row['Director']\n    for star_col in ['Star1','Star2','Star3','Star4']:\n        if pd.notna(row[star_col]):\n            director_star_combos.append((director, row[star_col]))\n\ncombo_counts = pd.Series(director_star_combos).value_counts().head(20)

In [None]:
# Converter tuplas (director, ator) para strings legíveis\ncombo_labels = combo_counts.index.map(lambda x: f"{x[0]} & {x[1]}")\n\n# Plotar gráfico de barras horizontal\nplt.figure(figsize=(12,8))\nplt.barh(combo_labels[::-1], combo_counts.values[::-1], color='blue')  # inverter para o maior em cima\nplt.xlabel('Número de Filmes')\nplt.title('Top 20 Combinações Diretor-Ator')\nplt.tight_layout()\nplt.show()

In [None]:
# Categorizar filmes por sucesso financeiro\ndf['Box_Office_Category'] = pd.cut(df['Gross'], \n                                  bins=[0, 1e7, 5e7, 1e8, 5e8, np.inf],\n                                  labels=['Baixo','Médio','Alto','Blockbuster','Mega-Hit'])\n\nrevenue_analysis = df.groupby('Box_Office_Category', observed=False).agg({\n    'IMDB_Rating': 'mean',\n    'Meta_score': 'mean',\n    'Runtime': 'mean',\n    'Oscar_Film': 'sum'\n})

In [None]:
# Análise de eficiência (assumindo budget proxy)\ndf['Efficiency'] = df['Gross'] / df['No_of_Votes']  # Faturamento por engajamento\ndf['Popularity_Efficiency'] = df['IMDB_Rating'] * np.log(df['No_of_Votes'])

In [None]:
# Criar métricas de eficiência\ndf['Efficiency'] = df['Gross'] / df['No_of_Votes']  # Faturamento por engajamento\ndf['Popularity_Efficiency'] = df['IMDB_Rating'] * np.log(df['No_of_Votes'] + 1)  # evitar log(0)\n\n# Gráficos\nfig, axes = plt.subplots(1,2, figsize=(14,6))\n\n# 1. Efficiency (Gross / No_of_Votes)\naxes[0].scatter(df['No_of_Votes'], df['Efficiency'], color='blue', alpha=0.6)\naxes[0].set_xlabel('Número de Votos')\naxes[0].set_ylabel('Faturamento por Engajamento')\naxes[0].set_title('Eficiência Financeira por Engajamento')\naxes[0].grid(True)\n\n# 2. Popularity Efficiency\naxes[1].scatter(df['No_of_Votes'], df['Popularity_Efficiency'], color='green', alpha=0.6)\naxes[1].set_xlabel('Número de Votos')\naxes[1].set_ylabel('IMDB Rating x log(Votos)')\naxes[1].set_title('Eficiência de Popularidade')\naxes[1].grid(True)\n\nplt.tight_layout()\nplt.show()

In [None]:
for col in numeric_cols:\n    df[col] = pd.to_numeric(df[col], errors='coerce')\n\n# Calcular a matriz de correlação (ignora NaNs automaticamente)\ncorrelation_matrix = df[numeric_cols].corr()\n\n# Plotar heatmap\nplt.figure(figsize=(12,10))\nsns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, fmt=".2f")\nplt.title('Matriz de Correlação entre Variáveis Numéricas', fontsize=16)\nplt.tight_layout()\nplt.show()

In [None]:
from sklearn.cluster import KMeans\nfrom sklearn.preprocessing import StandardScaler\n\n# Garantir que as colunas sejam numéricas\ncluster_features = ['IMDB_Rating','Meta_score','Runtime','Released_Year']\nfor col in cluster_features:\n    df[col] = pd.to_numeric(df[col], errors='coerce')\n\n# Selecionar features e remover NaNs\nX = df[cluster_features].dropna()\n\n# Escalar as features\nscaler = StandardScaler()\nX_scaled = scaler.fit_transform(X)\n\n# K-means\nkmeans = KMeans(n_clusters=5, random_state=42, n_init=10)  # n_init explícito evita warning\nclusters = kmeans.fit_predict(X_scaled)\n\n# Criar DataFrame com clusters\ndf_clustered = df.loc[X.index].copy()\ndf_clustered['Cluster'] = clusters\n\n# Análise dos clusters\ncluster_analysis = df_clustered.groupby('Cluster').agg({\n    'IMDB_Rating': 'mean',\n    'Meta_score': 'mean',\n    'Runtime': 'mean',\n    'Gross': 'mean',\n    'Oscar_Film': 'mean'\n}).round(2)\n\nprint(cluster_analysis)

In [None]:
# Definir cores para cada cluster\ncolors = ['red', 'blue', 'green', 'orange', 'purple']\n\nplt.figure(figsize=(10,6))\nfor cluster_id in sorted(df_clustered['Cluster'].unique()):\n    cluster_data = df_clustered[df_clustered['Cluster'] == cluster_id]\n    plt.scatter(cluster_data['IMDB_Rating'], \n                cluster_data['Meta_score'], \n                s=50,  # tamanho dos pontos\n                color=colors[cluster_id], \n                label=f'Cluster {cluster_id}', alpha=0.6)\n\nplt.xlabel('IMDB Rating', fontsize=12)\nplt.ylabel('Meta Score', fontsize=12)\nplt.title('Clusters de Filmes (IMDB Rating x Meta Score)', fontsize=14)\nplt.legend()\nplt.grid(True)\nplt.tight_layout()\nplt.show()

Cluster 0

IMDB Rating: 7.84 → Filmes com avaliação boa, mas não excepcional.

Meta Score: 81.93 → Bem avaliado pela crítica.

Runtime: 110.98 min → Duração média, típica de filmes comerciais.

Gross: 70,4 milhões → Bom faturamento, mas não blockbuster.

Oscar_Film: 0 → Nenhum prêmio Oscar.

Interpretação: Filmes com bom equilíbrio entre avaliação crítica e popularidade, médias comerciais. Provavelmente filmes consistentes, mas não grandes hits.

Cluster 1

IMDB Rating: 7.97 → Levemente acima do Cluster 0.

Meta Score: 77.74 → Avaliação crítica um pouco menor.

Runtime: 168.53 min → Filmes muito longos.

Gross: 84,5 milhões → Bom faturamento, mas não o mais alto.

Oscar_Film: 0

Interpretação: Filmes longos, com boa nota do público, mas críticos menos entusiasmados. Podem ser épicos ou adaptações extensas, comercialmente razoáveis.

Cluster 2

IMDB Rating: 8.45 → Nota alta do público.

Meta Score: 79.39 → Boa avaliação crítica.

Runtime: 136.54 min → Moderadamente longos.

Gross: 108 milhões → Maior faturamento médio entre os clusters.

Oscar_Film: 0

Interpretação: Filmes populares e lucrativos, com aprovação crítica sólida. Provavelmente combina sucesso de público e boa rentabilidade, “filmes de sucesso completo”.

Cluster 3

IMDB Rating: 8.02 → Bom rating do público.

Meta Score: 86.46 → Melhor avaliação crítica entre todos.

Runtime: 111.37 min → Duração média.

Gross: 19,1 milhões → Faturamento baixo.

Oscar_Film: 0

Interpretação: Filmes altamente apreciados pela crítica e público, mas de baixo faturamento. Podem ser filmes independentes ou de nicho, com reconhecimento artístico mais que sucesso comercial.

Cluster 4

IMDB Rating: 7.76 → Menor nota do público entre os clusters.

Meta Score: 61.63 → Avaliação crítica baixa.

Runtime: 119.71 min → Média.

Gross: 67,2 milhões → Faturamento médio.

Oscar_Film: 0

Interpretação: Filmes medianos, com desempenho comercial e crítico mais fraco. Podem ser produções de gênero ou blockbusters medianos que não agradaram tanto crítica e público.

Resumo Geral

Cluster 2: Filmes mais lucrativos e populares.

Cluster 3: Filmes aclamados pela crítica, mas pouco rentáveis.

Cluster 1: Filmes longos, bons para fãs do gênero, mas não críticos.

Cluster 0: Filmes equilibrados, bons tanto para público quanto para lucro moderado.

Cluster 4: Filmes medianos, tanto em avaliação quanto faturamento.

In [None]:
# Filmes com combinações inusitadas\n# Alto rating, baixo faturamento (culto)\ncult_films = df[(df['IMDB_Rating'] > 8.5) & (df['Gross'] < 1e7)]\n\n# Baixo rating, alto faturamento (comercial)\ncommercial_hits = df[(df['IMDB_Rating'] < 7.7) & (df['Gross'] > 1e8)]

In [None]:
# Top 5 filmes cult (alto rating, baixo faturamento)\ntop5_cult = cult_films.sort_values(by='IMDB_Rating', ascending=False).head(5)[['Series_Title','IMDB_Rating','Gross']]\nprint("Top 5 Filmes Cult:")\nprint(top5_cult)

In [None]:
# Top 5 hits comerciais (baixo rating, alto faturamento)\ntop5_commercial = commercial_hits.sort_values(by='Gross', ascending=False).head(5)[['Series_Title','IMDB_Rating','Gross']]\nprint("\nTop 5 Hits Comerciais:")\nprint(top5_commercial)

In [None]:
numerical_attributes = ['IMDB_Rating', 'Meta_score', 'No_of_Votes', 'Gross']\n\n# Cria os histogramas\nfig, axs = plt.subplots(2, 2, figsize=(15, 5))\n\n# Achatar a matriz de axes para facilitar o loop\naxs = axs.flatten()\n\n# Loop para plotar cada histograma individualmente\nfor i, col in enumerate(numerical_attributes):\n    axs[i].hist(imdb_oscar[col], color='blue', edgecolor='skyblue', bins=20)  # cores e borda\n    axs[i].set_title(f'Histograma de {col}', fontsize=14, weight='bold')  # título\n    axs[i].set_xlabel(col, fontsize=12, weight='bold')  # rótulo do eixo X\n    axs[i].set_ylabel('Frequência', fontsize=12, weight='bold')  # rótulo do eixo Y\n\nplt.tight_layout()\nplt.show()

In [None]:
imdb_oscar.describe(include = ['O'])

In [None]:
mais_votados= imdb_oscar.sort_values(['No_of_Votes'], ascending = False)

In [None]:
fig, axs = plt.subplots(figsize=(15,5))\n\ng = sns.barplot(\n    x='Series_Title',\n    y='No_of_Votes',\n    data=mais_votados[:7],\n    hue='Series_Title',\n    dodge=False,\n    palette='hls',\n    legend=False\n)\n\n# Títulos e rótulos personalizados\ng.set_title("Filmes mais votados no IMDB", weight="bold", fontsize=16)\ng.set_xlabel("Nome do Filme", fontsize=12, weight="bold")\ng.set_ylabel("Número de Votos", fontsize=12, weight="bold")\n\n# Adiciona os valores no topo das barras\nfor index, value in enumerate(mais_votados['No_of_Votes'][:7]):\n    g.text(index, value + 50000, f'{value:,}', ha='center', fontsize=10)\n\n# Rotaciona os nomes dos filmes usando plt.xticks (forma correta)\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
# Seleciona os 7 primeiros filmes mais votados com ambas as avaliações\ntop7 = mais_votados[:7][['Series_Title', 'IMDB_Rating', 'Meta_score']]\n\n# Exibe comparação lado a lado\nfor index, row in top7.iterrows():\n    print(f"{index+1}. {row['Series_Title']} - Nota IMDB: {row['IMDB_Rating']}, Nota Metascore: {row['Meta_score']}")

##### Filmes sem informação de faturamento

In [None]:
num_filmes_zero = imdb_oscar.loc[imdb_oscar['Gross'] == 0].shape[0]\nprint(f"O número de filmes sem informação de faturamento é {num_filmes_zero}.")

In [None]:
fig, axs = plt.subplots(figsize=(15,5))\n\n# Gráfico de barras para Gross\ng = sns.barplot(\n    x='Series_Title',\n    y='Gross',\n    data=mais_votados[:7],\n    hue='Series_Title',  # cores diferentes para cada filme\n    dodge=False,\n    palette='husl',\n    legend=False\n)\n\n# Títulos e rótulos personalizados\ng.set_title("Faturamento dos filmes mais votados", weight="bold", fontsize=16)\ng.set_xlabel("Nome do Filme", fontsize=12, weight="bold")\ng.set_ylabel("Faturamento (Gross)", fontsize=12, weight="bold")\n\n# Adiciona os valores no topo das barras\nfor index, value in enumerate(mais_votados['Gross'][:7]):\n    g.text(index, value + value*0.01, f'{value:,}', ha='center', fontsize=10)  # ajusta posição do texto\n\n# Rotaciona os nomes dos filmes para melhor visualização\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
fig, axs = plt.subplots(figsize=(15,5))\n\n# Gráfico de barras para Gross\ng = sns.barplot(\n    x='Series_Title',\n    y='Gross',\n    data=mais_votados[:7],\n    hue='Series_Title',  # cores diferentes para cada filme\n    dodge=False,\n    palette='husl',\n    legend=False\n)\n\n# Títulos e rótulos personalizados\ng.set_title("Faturamento dos filmes mais votados", weight="bold", fontsize=16)\ng.set_xlabel("Nome do Filme", fontsize=12, weight="bold")\ng.set_ylabel("Faturamento (Gross)", fontsize=12, weight="bold")\n\n# Adiciona os valores no topo das barras\nfor index, value in enumerate(mais_votados['Gross'][:7]):\n    g.text(index, value + value*0.01, f'{value:,}', ha='center', fontsize=10)  # ajusta posição do texto\n\n# Rotaciona os nomes dos filmes para melhor visualização\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
# Ordena os filmes pelo Gross\nhighest_earning = imdb_oscar.sort_values('Gross', ascending=False)\n\n# Cria a figura\nfig, axs = plt.subplots(figsize=(23,5))\n\n# Gráfico de barras\ng = sns.barplot(\n    x='Series_Title',\n    y='Gross',\n    data=highest_earning[:7],\n    hue='Series_Title',  # cores diferentes para cada filme\n    dodge=False,\n    palette='husl',\n    legend=False\n)\n\n# Títulos e rótulos personalizados\ng.set_title("Filmes com maior faturamento", weight="bold", fontsize=16)\ng.set_xlabel("Nome do Filme", fontsize=12, weight="bold")\ng.set_ylabel("Faturamento (Gross)", fontsize=12, weight="bold")\n\n# Adiciona os valores no topo das barras\nfor index, value in enumerate(highest_earning['Gross'][:7]):\n    g.text(index, value + value*0.01, f'{value:,}', ha='center', fontsize=10)  # posição ajustada\n\n# Rotaciona os nomes dos filmes para melhor visualização\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
top_directors = imdb_oscar['Director'].value_counts()[:10]\n\n# Cria a figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de linha\ng = sns.lineplot(\n    x=top_directors.index,\n    y=top_directors.values,\n    marker='o',  # adiciona marcadores nos pontos\n    color='blue',\n    linewidth=2\n)\n\n# Títulos e rótulos personalizados\ng.set_title("Diretores com mais filmes", weight="bold", fontsize=16)\ng.set_xlabel("Diretores", fontsize=12, weight="bold")\ng.set_ylabel("Número de Filmes", fontsize=12, weight="bold")\n\n# Rotaciona os nomes dos diretores para melhor visualização\nplt.xticks(rotation=30, ha='right')\n\n# Adiciona os valores acima dos pontos\nfor x, y in zip(top_directors.index, top_directors.values):\n    g.text(x, y + 0.2, f"{y}", ha='center', fontsize=10)\n\nplt.show()

In [None]:
# Plota o KDE da duração dos filmes\nfig, axs = plt.subplots(figsize=(20,5))\n\ng = sns.kdeplot(\n    data=imdb_oscar['Runtime'],  # já é inteiro\n    fill=True,             # preenche a área sob a curva\n    color='skyblue',       # cor estilizada\n    linewidth=2\n)\n\n# Títulos e rótulos\ng.set_title("Duração dos Filmes", weight="bold", fontsize=16)\ng.set_xlabel("Duração (minutos)", fontsize=12, weight="bold")\ng.set_ylabel("Densidade", fontsize=12, weight="bold")\n\nplt.show()

In [None]:
# Colunas de atores\nstars = ['Star1','Star2','Star3','Star4']\n\n# Junta todos os atores em uma única lista\nall_stars = imdb_oscar[stars].values.flatten()\nall_stars = [star for star in all_stars if pd.notnull(star)]\n\n# Conta frequência e pega os 10 mais comuns\ntop_stars = Counter(all_stars).most_common(10)\nnames, counts = zip(*top_stars)\n\n# Cria a figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras com hue para evitar o warning\ng = sns.barplot(\n    x=list(names),\n    y=list(counts),\n    hue=list(names),   # cada barra recebe uma cor\n    dodge=False,\n    palette='hls',\n    legend=False        # remove legenda\n)\n\n# Títulos e rótulos\ng.set_title("Atores mais frequentes", weight="bold", fontsize=16)\ng.set_xlabel("Atores", fontsize=12, weight="bold")\ng.set_ylabel("Número de aparições", fontsize=12, weight="bold")\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(counts):\n    g.text(index, value + 0.2, f"{value}", ha='center', fontsize=10)\n\n# Rotaciona nomes dos atores\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
# Junta todos os atores em uma única lista, considerando No_of_Votes\nall_stars = []\nfor star_col in stars:\n    temp = imdb_oscar[[star_col, 'No_of_Votes']].dropna()\n    for _, row in temp.iterrows():\n        all_stars.append((row[star_col], row['No_of_Votes']))\n\n# Soma os votos de atores repetidos\nstar_votes = {}\nfor name, votes in all_stars:\n    if name in star_votes:\n        star_votes[name] += votes\n    else:\n        star_votes[name] = votes\n\n# Pega os 10 atores com mais votos\ntop_stars = dict(sorted(star_votes.items(), key=lambda item: item[1], reverse=True)[:10])\nnames = list(top_stars.keys())\nvotes = list(top_stars.values())\n\n# Cria figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras\ng = sns.barplot(\n    x=names,\n    y=votes,\n    hue=names,  # cores diferentes\n    dodge=False,\n    palette='hls',\n    legend=False\n)\n\n# Títulos e rótulos\ng.set_title("Atores com mais votos somando todas as colunas", weight="bold", fontsize=16)\ng.set_xlabel("Atores", fontsize=12, weight="bold")\ng.set_ylabel("Número de votos", fontsize=12, weight="bold")\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(votes):\n    g.text(index, value + 50000, f"{value:,}", ha='center', fontsize=10)\n\n# Rotaciona nomes dos atores\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
from collections import defaultdict\n# Junta todos os atores e soma o Gross\nstar_gross = defaultdict(float)\nfor star_col in stars:\n    temp = imdb_oscar[[star_col, 'Gross']].dropna()\n    for _, row in temp.iterrows():\n        star_gross[row[star_col]] += row['Gross']\n\n# Pega os 10 atores com maior Gross\ntop_stars = dict(sorted(star_gross.items(), key=lambda item: item[1], reverse=True)[:10])\nnames = list(top_stars.keys())\ngross_values = list(top_stars.values())\n\n# Cria figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras\ng = sns.barplot(\n    x=names,\n    y=gross_values,\n    hue=names,  # cores diferentes\n    dodge=False,\n    palette='hls',\n    legend=False\n)\n\n# Títulos e rótulos\ng.set_title("Atores com maior faturamento somando todas as colunas", weight="bold", fontsize=16)\ng.set_xlabel("Atores", fontsize=12, weight="bold")\ng.set_ylabel("Faturamento (Gross)", fontsize=12, weight="bold")\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(gross_values):\n    g.text(index, value + value*0.01, f"{int(value):,}", ha='center', fontsize=10)\n\n# Rotaciona nomes dos atores\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
# Junta todos os atores e soma as IMDB_Rating\n\n# Colunas de atores\nstars = ['Star1','Star2','Star3','Star4']\n\n# Junta todos os atores em uma única lista\nall_stars = imdb_oscar[stars].values.flatten()\nall_stars = [star for star in all_stars if pd.notnull(star)]\n\n# Conta frequência e pega os 10 mais comuns\ntop_stars = Counter(all_stars).most_common(10)\nnames, counts = zip(*top_stars)\n\n# Cria figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras\ng = sns.barplot(\n    x=list(names),\n    y=list(counts),\n    hue=list(names),  # cores diferentes\n    dodge=False,\n    palette='hls',\n    legend=False\n)\n\n# Títulos e rótulos\ng.set_title("Atores mais frequentes no IMDB", weight="bold", fontsize=16)\ng.set_xlabel("Atores", fontsize=12, weight="bold")\ng.set_ylabel("Número de Aparições", fontsize=12, weight="bold")\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(counts):\n    g.text(index, value + 0.2, f"{value}", ha='center', fontsize=10)\n\n# Rotaciona nomes dos atores\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
# Seleciona os 10 filmes com maior Meta_score\ntop_meta = imdb_oscar.sort_values('Meta_score', ascending=False)[:10]\n\n# Junta todos os atores desses filmes\nall_stars = top_meta[stars].values.flatten()\nall_stars = [star for star in all_stars if pd.notnull(star)]\n\n# Conta frequência e pega os 10 mais comuns\ntop_stars = Counter(all_stars).most_common(10)\nnames, counts = zip(*top_stars)\n\n# Cria figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras\ng = sns.barplot(\n    x=list(names),\n    y=list(counts),\n    hue=list(names),  # cores diferentes\n    dodge=False,\n    palette='hls',\n    legend=False\n)\n\n# Títulos e rótulos\ng.set_title("Atores mais frequentes nos filmes com maior Meta_score", weight="bold", fontsize=16)\ng.set_xlabel("Atores", fontsize=12, weight="bold")\ng.set_ylabel("Número de Aparições", fontsize=12, weight="bold")\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(counts):\n    g.text(index, value + 0.2, f"{value}", ha='center', fontsize=10)\n\n# Rotaciona nomes dos atores\nplt.xticks(rotation=30, ha='right')\n\nplt.show()

In [None]:
fig, axs = plt.subplots(figsize=(20,5))\n\n# Histograma do IMDB_Rating com KDE\ng = sns.histplot(\n    imdb_oscar['IMDB_Rating'],\n    bins=30,\n    kde=True,          # adiciona curva KDE\n    color='red',\n    edgecolor='red'\n)\n\n# Títulos e rótulos\ng.set_title("Distribuição das Notas no IMDB", weight="bold", fontsize=16)\ng.set_xlabel("IMDB Rating", fontsize=12, weight="bold")\ng.set_ylabel("Número de Filmes", fontsize=12, weight="bold")\n\nplt.show()

In [None]:
from collections import Counter\n\n# Extrai todos os gêneros\ngenre = []\nfor x in imdb_oscar['Genre']:\n    for y in x.split(','):\n        genre.append(y.strip().lower())\n\n# Conta frequência e pega os 10 mais comuns\ncount = Counter(genre).most_common(10)\nx, y = map(list, zip(*count))  # nomes e contagens\n\n# Cria gradiente de cores baseado nos valores\nnorm = mcolors.Normalize(min(y), max(y))\ncolors = cm.Blues(norm(y))\ncolors = [mcolors.to_hex(c) for c in colors]\n\n# Inverte o gradiente para que o maior valor fique mais escuro\ncolors = colors[::-1]\n\n# Cria figura\nfig, axs = plt.subplots(figsize=(20,5))\n\n# Gráfico de barras horizontal com gradiente\ng = sns.barplot(\n    x=y,\n    y=x,\n    hue=y,        # necessário para a nova versão do Seaborn\n    dodge=False,\n    palette=colors,\n    legend=False\n)\n\n# Títulos e rótulos\ng.set_xlabel("Número de Filmes", fontsize=12, weight="bold")\ng.set_ylabel("Gêneros", fontsize=12, weight="bold")\ng.set_title("Top 10 Gêneros de Filmes", weight="bold", fontsize=16)\n\n# Adiciona valores no topo das barras\nfor index, value in enumerate(y):\n    g.text(value + 0.2, index, f"{value}", va='center', fontsize=10)\n\nplt.show()

-------

## Parte 2: Perguntas

-----

#### Qual filme você recomendaria para uma pessoa que você não conhece?

In [None]:
# Supondo que o DataFrame imdb_oscar já esteja carregado\n# imdb_oscar = pd.read_csv("imdb_oscar.csv")\n\n# Função para recomendar filme\ndef recomendar_filme(df):\n    # Primeiro filtro: filmes de alta qualidade e Oscar\n    top_films = df[\n        (df['IMDB_Rating'] >= 8.5) &\n        (df['Meta_score'] >= 80) &\n        (df['Oscar_Film'] == 1)\n    ].sort_values(by='No_of_Votes', ascending=False)\n\n    # Se nenhum filme atender aos critérios, afrouxamos o filtro\n    if top_films.empty:\n        top_films = df[\n            (df['IMDB_Rating'] >= 8) &\n            (df['Meta_score'] >= 70)\n        ].sort_values(by='No_of_Votes', ascending=False)\n\n    # Se ainda estiver vazio, pegar os mais populares apenas pelo IMDB\n    if top_films.empty:\n        top_films = df.sort_values(by='No_of_Votes', ascending=False)\n\n    # Seleciona o filme mais popular entre os filtrados\n    recommended_film = top_films.iloc[0]['Series_Title']\n    return recommended_film\n\n# Usar a função\nfilme_recomendado = recomendar_filme(imdb_oscar)\nprint("Filme recomendado:", filme_recomendado)

#### Quais são os principais fatores que estão relacionados com alta expectativa de faturamento de um filme? 

In [None]:
import pandas as pd\nimport seaborn as sns\nimport matplotlib.pyplot as plt\n\n# Supondo que seu DataFrame seja 'imdb_oscar' e já esteja tratado\ndf = imdb_oscar.copy()\n\n# Vamos analisar algumas colunas que podem influenciar o faturamento\nfatores = ['Primary_Genre', 'IMDB_Rating', 'Meta_score', 'Runtime', \n           'Oscar_Film', 'Director_Oscar', 'Star1_Oscar', 'Star2_Oscar',\n           'Star3_Oscar', 'Star4_Oscar', 'No_of_Votes', 'Released_Year']\n\n# Correlação para colunas numéricas\ncorr = df[['Gross', 'IMDB_Rating', 'Meta_score', 'Runtime', 'No_of_Votes']].corr()\nprint("Correlação com Gross:\n", corr['Gross'].sort_values(ascending=False))\n\n# Gráficos para variáveis categóricas\nplt.figure(figsize=(10,6))\nsns.boxplot(x='Oscar_Film', y='Gross', data=df)\nplt.title('Impacto de ganhar Oscar no Gross')\nplt.show()\n\nplt.figure(figsize=(10,6))\nsns.scatterplot(x='IMDB_Rating', y='Gross', data=df)\nplt.title('IMDB Rating vs Gross')\nplt.show()\n\nplt.figure(figsize=(10,6))\nsns.scatterplot(x='Meta_score', y='Gross', data=df)\nplt.title('Meta Score vs Gross')\nplt.show()\n\nplt.figure(figsize=(10,6))\nsns.scatterplot(x='Runtime', y='Gross', data=df)\nplt.title('Duração do filme vs Gross')\nplt.show()\n\nplt.figure(figsize=(10,6))\nsns.scatterplot(x='No_of_Votes', y='Gross', data=df)\nplt.title('Número de votos IMDB vs Gross')\nplt.show()

In [None]:
import pandas as pd\nimport numpy as np\n\n# Supondo que imdb_oscar já esteja carregado e tratado\ndf = imdb_oscar.copy()\n\n# Selecionar apenas colunas numéricas relevantes\nnumeric_cols = ['Gross', 'IMDB_Rating', 'Meta_score', 'Runtime', 'No_of_Votes']\n\n# Calcular correlação de Gross com as variáveis numéricas\ncorr_matrix = df[numeric_cols].corr()\ngross_corr = corr_matrix['Gross'].sort_values(ascending=False)\nprint("Correlação de Gross com variáveis numéricas:\n")\nprint(gross_corr)\n\n# Para variáveis categóricas: calcular média de Gross por categoria\ncategorical_cols = ['Primary_Genre', 'Oscar_Film', 'Director_Oscar', 'Star1_Oscar', 'Star2_Oscar', 'Star3_Oscar', 'Star4_Oscar']\n\nprint("\nMédia de Gross por categoria (top 5 categorias de cada coluna):\n")\nfor col in categorical_cols:\n    top_gross = df.groupby(col)['Gross'].mean().sort_values(ascending=False).head(5)\n    print(f"{col}:\n{top_gross}\n")

In [None]:
import pandas as pd\n\n# Supondo que seu DataFrame seja imdb_oscar e já tenha sido tratado\n\n# 1️⃣ Correlação de variáveis numéricas com Gross\nnumeric_cols = ['No_of_Votes', 'Runtime', 'IMDB_Rating', 'Meta_score']\ncorr_gross = imdb_oscar[numeric_cols + ['Gross']].corr()['Gross'].sort_values(ascending=False)\nprint("Correlação de Gross com variáveis numéricas:\n")\nprint(corr_gross)\nprint("\n" + "="*50 + "\n")\n\n# 2️⃣ Média de Gross por categoria (top 5 de cada coluna)\ncategorical_cols = ['Primary_Genre', 'Oscar_Film', 'Director_Oscar', \n                    'Star1_Oscar', 'Star2_Oscar', 'Star3_Oscar', 'Star4_Oscar']\n\nfor col in categorical_cols:\n    gross_by_cat = imdb_oscar.groupby(col)['Gross'].mean().sort_values(ascending=False).head(5)\n    print(f"Média de Gross por {col} (top 5):")\n    print(gross_by_cat)\n    print("\n" + "-"*50 + "\n")\n\n# 3️⃣ Ranking de importância aproximada (para relatório)\nprint("✅ Principais fatores associados a alto faturamento:")\nprint("1. Maior engajamento do público (No_of_Votes) – forte correlação com Gross")\nprint("2. Gêneros populares (Family, Action, Animation) – faturamento médio maior")\nprint("3. Indicações e vitórias no Oscar (filme, diretor e principais atores) – aumentam Gross")

In [None]:
import pandas as pd\nimport matplotlib.pyplot as plt\nimport seaborn as sns\n\n# Configurações gerais de estilo\nsns.set(style="whitegrid")\nplt.rcParams['figure.figsize'] = (10,6)\n\n# 1️⃣ Correlação de variáveis numéricas com Gross\nnumeric_cols = ['No_of_Votes', 'Runtime', 'IMDB_Rating', 'Meta_score']\ncorr_gross = imdb_oscar[numeric_cols + ['Gross']].corr()['Gross'].sort_values(ascending=False)\nprint("Correlação de Gross com variáveis numéricas:\n")\nprint(corr_gross)\n\n# Plot das correlações\nplt.figure()\nsns.barplot(x=corr_gross.index[1:], y=corr_gross.values[1:], palette="Blues_d")\nplt.title("Correlação de Gross com variáveis numéricas")\nplt.ylabel("Correlação com Gross")\nplt.xticks(rotation=45)\nplt.tight_layout()\nplt.show()\n\n# 2️⃣ Média de Gross por categoria (top 5)\ncategorical_cols = ['Primary_Genre', 'Oscar_Film', 'Director_Oscar', \n                    'Star1_Oscar', 'Star2_Oscar', 'Star3_Oscar', 'Star4_Oscar']\n\nfor col in categorical_cols:\n    gross_by_cat = imdb_oscar.groupby(col)['Gross'].mean().sort_values(ascending=False).head(5)\n    print(f"\nMédia de Gross por {col} (top 5):\n", gross_by_cat)\n    \n    # Gráfico de barras\n    plt.figure()\n    sns.barplot(x=gross_by_cat.values, y=gross_by_cat.index, palette="viridis")\n    plt.title(f"Top 5 {col} por faturamento médio")\n    plt.xlabel("Gross médio")\n    plt.ylabel(col)\n    plt.tight_layout()\n    plt.show()\n\n# 3️⃣ Insights rápidos\nprint("\n✅ Principais fatores associados a alto faturamento:")\nprint("1. Maior engajamento do público (No_of_Votes) – forte correlação com Gross")\nprint("2. Gêneros populares (Family, Action, Animation) – faturamento médio maior")\nprint("3. Indicações e vitórias no Oscar (filme, diretor e principais atores) – aumentam Gross")

#### Quais insights podem ser tirados com a coluna Overview? É possível inferir o gênero do filme a partir dessa coluna?

##### Insights:
- 

##### Definindo o gênero do filme a partir da coluna Overview
Lista de Gêneros existentes:

In [None]:
# Pegar a lista única de gêneros principais\nprimary_genres_list = imdb_oscar['Primary_Genre'].dropna().unique().tolist()\n\n# Mostrar\nprint(primary_genres_list)

Criando um modelo que preve a categoria a partir das palavras mais usadas em cada categoria:

In [None]:
import pandas as pd\nfrom collections import Counter\nfrom nltk.corpus import stopwords\nfrom nltk.stem import WordNetLemmatizer\nimport nltk\nnltk.download('stopwords')\nnltk.download('wordnet')\nnltk.download('omw-1.4')\n\nstop_words = set(stopwords.words('english'))\nlemmatizer = WordNetLemmatizer()\n\ndef preprocess(text):\n    words = text.lower().split()\n    words = [w.strip(".,!?()[]") for w in words if w not in stop_words and len(w) > 2]\n    words = [lemmatizer.lemmatize(w) for w in words]\n    return words\n\n# Criar dicionário de palavras-chave por gênero baseado nos top 20 mais frequentes\ntop_words_by_genre = {}\nfor genre in imdb_oscar['Primary_Genre'].dropna().unique():\n    subset = imdb_oscar[imdb_oscar['Primary_Genre'] == genre]\n    all_text = " ".join(desc for desc in subset['Overview'].dropna())\n    words = preprocess(all_text)\n    word_counts = Counter(words)\n    top_words_by_genre[genre] = [w for w,_ in word_counts.most_common(50)]\n\n# Função para sugerir gênero baseado em palavras-chave\ndef suggest_genre(text):\n    words = preprocess(text)\n    genre_scores = {}\n    for genre, keywords in top_words_by_genre.items():\n        score = sum(words.count(kw) for kw in keywords)\n        genre_scores[genre] = score\n    suggested = max(genre_scores, key=genre_scores.get)\n    if genre_scores[suggested] == 0:\n        return 'Unknown'\n    return suggested\n\n# Aplicar a previsão de gênero\nimdb_oscar['Predicted_Genre'] = imdb_oscar['Overview'].apply(suggest_genre)\n\n# Comparar com o gênero real\nimdb_oscar['Correct_Prediction'] = imdb_oscar['Primary_Genre'] == imdb_oscar['Predicted_Genre']\n\n# Calcular acurácia geral\naccuracy = imdb_oscar['Correct_Prediction'].mean()\nprint(f"Acurácia da previsão do gênero: {accuracy:.2%}")\n\n# Contagem de acertos e erros\ncounts = imdb_oscar['Correct_Prediction'].value_counts()\nprint("\nContagem de previsões corretas/erradas:")\nprint(counts)\n\n# Acurácia por gênero principal\naccuracy_by_genre = imdb_oscar.groupby('Primary_Genre')['Correct_Prediction'].mean().sort_values(ascending=False)\nprint("\nAcurácia por gênero principal:")\nprint(accuracy_by_genre)\n\n# Mostrar algumas previsões\nprint("\nExemplo de previsões:")\nprint(imdb_oscar[['Series_Title', 'Primary_Genre', 'Predicted_Genre']].head(20))

Para melhorar a chance de acerto, já que a acurácia esta em 45.45%, vamos ampliar esse modelo para sugarir 3 generos para cada filme

In [None]:
import pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.feature_extraction.text import TfidfVectorizer\nfrom sklearn.linear_model import LogisticRegression\nimport nltk\n\n# Supondo que imdb_oscar já esteja carregado\n# imdb_oscar = pd.read_csv("imdb_oscar.csv")\n\n# Pré-processamento básico\nnltk.download('stopwords')\nfrom nltk.corpus import stopwords\nstop_words = set(stopwords.words('english'))\n\ndef preprocess(text):\n    text = text.lower()\n    words = [w for w in text.split() if w not in stop_words]\n    return " ".join(words)\n\n# Remover filmes sem Overview ou Primary_Genre\ndf = imdb_oscar.dropna(subset=['Overview', 'Primary_Genre']).copy()\ndf['Overview_clean'] = df['Overview'].apply(preprocess)\n\n# Filtrar gêneros com pelo menos 2 filmes\ngenre_counts = df['Primary_Genre'].value_counts()\ndf_filtered = df[df['Primary_Genre'].isin(genre_counts[genre_counts >= 2].index)].copy()\n\n# Separar features e target\nX = df_filtered['Overview_clean']\ny = df_filtered['Primary_Genre']\n\n# Dividir em treino e teste\nX_train, X_test, y_train, y_test = train_test_split(\n    X, y, test_size=0.2, random_state=42, stratify=y\n)\n\n# TF-IDF\nvectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1,2))\nX_train_tfidf = vectorizer.fit_transform(X_train)\nX_test_tfidf = vectorizer.transform(X_test)\n\n# Treinar Logistic Regression\nmodel = LogisticRegression(max_iter=1000, multi_class='multinomial')\nmodel.fit(X_train_tfidf, y_train)\n\n# --- PREVISÃO PARA A DIVISÃO DE TESTE ---\nprobs_test = model.predict_proba(X_test_tfidf)\nclasses = model.classes_\ntop3_indices_test = probs_test.argsort(axis=1)[:, -3:][:, ::-1]\ntop3_genres_test = [[classes[i] for i in row] for row in top3_indices_test]\n\ndf_test = pd.DataFrame({\n    'Overview': X_test,\n    'Primary_Genre': y_test,\n    'Top3_Predicted': top3_genres_test\n}).reset_index(drop=True)\n\nprint("Exemplos de previsões na divisão de teste:")\nprint(df_test.head(10))\n\n# --- PREVISÃO PARA TODA A BASE FILTRADA ---\nX_all_tfidf = vectorizer.transform(df_filtered['Overview_clean'])\nprobs_all = model.predict_proba(X_all_tfidf)\ntop3_indices_all = probs_all.argsort(axis=1)[:, -3:][:, ::-1]\ntop3_genres_all = [[classes[i] for i in row] for row in top3_indices_all]\n\ndf_all = df_filtered.copy()\ndf_all['Top3_Predicted'] = top3_genres_all\ndf_all['Correct_in_Top3'] = df_all.apply(\n    lambda row: row['Primary_Genre'] in row['Top3_Predicted'], axis=1\n)\n\n# Top-3 Accuracy geral\ntop3_accuracy_all = df_all['Correct_in_Top3'].mean()\nprint(f"\nTop-3 Accuracy em toda a base: {top3_accuracy_all:.2%}")\n\n# Contagem de acertos e erros\nprint("\nContagem de acertos/erros no Top-3:")\nprint(df_all['Correct_in_Top3'].value_counts())\n\n# Top-3 Accuracy por gênero\ntop3_by_genre_all = df_all.groupby('Primary_Genre')['Correct_in_Top3'].mean().sort_values(ascending=False)\nprint("\nTop-3 Accuracy por gênero:")\nprint(top3_by_genre_all)\n\n# Mostrar alguns exemplos\nprint("\nExemplos de previsões em toda a base:")\nprint(df_all[['Overview', 'Primary_Genre', 'Top3_Predicted', 'Correct_in_Top3']].head(10))

In [None]:
import pandas as pd\nfrom sklearn.feature_extraction.text import TfidfVectorizer\nfrom sklearn.linear_model import LogisticRegression\nfrom nltk.corpus import stopwords\nimport nltk\n\n# Downloads NLTK necessários\nnltk.download('stopwords')\n\n# Stopwords e pré-processamento\nstop_words = set(stopwords.words('english'))\n\ndef preprocess(text):\n    """Limpeza simples do texto."""\n    return " ".join([w for w in text.lower().split() if w not in stop_words])\n\n# Função para prever Top-3 gêneros\ndef predict_top3(overview_text, model, vectorizer):\n    """Recebe uma sinopse, retorna os 3 gêneros mais prováveis."""\n    overview_clean = preprocess(overview_text)\n    X_vec = vectorizer.transform([overview_clean])\n    probs = model.predict_proba(X_vec)[0]\n    classes = model.classes_\n    top3_indices = probs.argsort()[-3:][::-1]\n    return [classes[i] for i in top3_indices]\n\n# --- EXEMPLO DE USO ---\nnew_synopsis = "Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency"\n\npredicted_genres = predict_top3(new_synopsis, model, vectorizer)\n\nprint("Sinopse:", new_synopsis)\nprint("Top 3 gêneros previstos:", predicted_genres)

----

## Parte 3: Modelo de previsão nota IMDb

----

In [None]:
import pandas as pd\nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.preprocessing import OneHotEncoder, StandardScaler\nfrom sklearn.compose import ColumnTransformer\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.metrics import mean_squared_error, r2_score\nfrom sklearn.linear_model import LinearRegression\nfrom sklearn.ensemble import RandomForestRegressor\n\n# ======================================\n# 1. Selecionar variáveis\n# ======================================\nfeatures_num = ["Runtime", "Meta_score", "No_of_Votes", "Gross"]\nfeatures_cat = ["Genre", "Certificate", "Oscar_Film", "Director_Oscar", \n                "Star1_Oscar", "Star2_Oscar", "Star3_Oscar", "Star4_Oscar"]\n\ntarget = "IMDB_Rating"\n\nX = imdb_oscar[features_num + features_cat]\ny = imdb_oscar[target]\n\n# ======================================\n# 2. Pré-processamento\n# ======================================\npreprocessor = ColumnTransformer(\n    transformers=[\n        ("num", StandardScaler(), features_num),\n        ("cat", OneHotEncoder(handle_unknown="ignore"), features_cat)\n    ]\n)\n\n# ======================================\n# 3. Modelos a serem testados\n# ======================================\nmodels = {\n    "LinearRegression": LinearRegression(),\n    "RandomForest": RandomForestRegressor(n_estimators=200, random_state=42)\n}\n\n# Tentar adicionar XGBoost se disponível\ntry:\n    from xgboost import XGBRegressor\n    models["XGBoost"] = XGBRegressor(n_estimators=300, learning_rate=0.1, random_state=42)\nexcept ImportError:\n    print("⚠️ XGBoost não instalado. Rodando apenas com LinearRegression e RandomForest.")\n\n# ======================================\n# 4. Treinar e avaliar\n# ======================================\nresults = {}\n\nX_train, X_test, y_train, y_test = train_test_split(\n    X, y, test_size=0.2, random_state=42\n)\n\nfor name, model in models.items():\n    pipe = Pipeline(steps=[("preprocessor", preprocessor), ("model", model)])\n    pipe.fit(X_train, y_train)\n    y_pred = pipe.predict(X_test)\n\n    mse = mean_squared_error(y_test, y_pred)\n    rmse = np.sqrt(mse)  # corrigido\n    r2 = r2_score(y_test, y_pred)\n\n    results[name] = {"RMSE": rmse, "R2": r2}\n# ======================================\n# 5. Mostrar resultados\n# ======================================\nprint("\nResultados do Modelo para previsão da nota IMDB:")\nfor model, metrics in results.items():\n    print(f"{model}: RMSE = {metrics['RMSE']:.3f}, R² = {metrics['R2']:.3f}")

----

## Parte 4: Previsão nota IMDb para o filme The Shawshank Redemption

----

In [None]:
import pandas as pd\nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.preprocessing import OneHotEncoder\nfrom sklearn.compose import ColumnTransformer\nfrom sklearn.pipeline import Pipeline\nfrom sklearn.ensemble import RandomForestRegressor\nfrom sklearn.metrics import mean_squared_error, r2_score\n\n# ================================\n# 1. Preparar os dados\n# ================================\ndf = imdb_oscar.copy()  # Supondo que você já carregou o DataFrame\n\n# Limpar colunas numéricas\ndf['Gross'] = df['Gross'].replace(",", "", regex=True).astype(float)\ndf['Meta_score'] = df['Meta_score'].astype(float)\ndf['Runtime'] = df['Runtime'].astype(str).str.extract(r'(\d+)').astype(float)\n\n# Selecionar features e target\nfeatures = ["Runtime", "Meta_score", "No_of_Votes", "Gross", \n            "Genre", "Certificate", \n            "Oscar_Film", "Director_Oscar", \n            "Star1_Oscar", "Star2_Oscar", "Star3_Oscar", "Star4_Oscar"]\ntarget = "IMDB_Rating"\n\nX = df[features]\ny = df[target]\n\n# ================================\n# 2. Separar treino e teste\n# ================================\nX_train, X_test, y_train, y_test = train_test_split(\n    X, y, test_size=0.2, random_state=42\n)\n\n# ================================\n# 3. Pré-processamento\n# ================================\ncategorical_features = ["Genre", "Certificate", "Oscar_Film", \n                        "Director_Oscar", "Star1_Oscar", "Star2_Oscar", \n                        "Star3_Oscar", "Star4_Oscar"]\n\nnumeric_features = ["Runtime", "Meta_score", "No_of_Votes", "Gross"]\n\npreprocessor = ColumnTransformer(\n    transformers=[\n        ("num", "passthrough", numeric_features),\n        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features)\n    ]\n)\n\n# ================================\n# 4. Criar pipeline com RandomForest\n# ================================\npipe = Pipeline([\n    ("preprocessor", preprocessor),\n    ("model", RandomForestRegressor(n_estimators=100, random_state=42))\n])\n\n# ================================\n# 5. Treinar o modelo\n# ================================\npipe.fit(X_train, y_train)\n\n# ================================\n# 6. Avaliar performance\n# ================================\ny_pred = pipe.predict(X_test)\nrmse = np.sqrt(mean_squared_error(y_test, y_pred))\nr2 = r2_score(y_test, y_pred)\n\nprint(f"Random Forest - RMSE: {rmse:.3f}, R²: {r2:.3f}")\n\n# ================================\n# 7. Prever um novo filme\n# ================================\nnew_movie = {\n    'Series_Title': 'The Shawshank Redemption',\n    'Released_Year': '1994',\n    'Certificate': 'A',\n    'Runtime': '142 min',\n    'Genre': 'Drama',\n    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',\n    'Meta_score': 80.0,\n    'Director': 'Frank Darabont',\n    'Star1': 'Tim Robbins',\n    'Star2': 'Morgan Freeman',\n    'Star3': 'Bob Gunton',\n    'Star4': 'William Sadler',\n    'No_of_Votes': 2343110,\n    'Gross': '28,341,469',\n    'Oscar_Film': 'Nominated',\n    'Director_Oscar': 'No',\n    'Star1_Oscar': 'No',\n    'Star2_Oscar': 'Nominated',\n    'Star3_Oscar': 'No',\n    'Star4_Oscar': 'No'\n}\n\n# Converter para DataFrame e ajustar tipos\nnew_movie_df = pd.DataFrame([new_movie])\nnew_movie_df['Gross'] = new_movie_df['Gross'].str.replace(",", "").astype(float)\nnew_movie_df['Runtime'] = new_movie_df['Runtime'].str.extract(r'(\d+)').astype(float)\nnew_movie_df['Meta_score'] = new_movie_df['Meta_score'].astype(float)\n\n# Selecionar mesmas features\nX_new = new_movie_df[features]\n\n# Prever nota IMDB\npredicted_rating = pipe.predict(X_new)[0]\nprint(f"Nota IMDb prevista para '{new_movie['Series_Title']}': {predicted_rating:.2f}")

## Notas finais e próximos passos

- Manter a mesma lógica de limpeza (normalização de títulos/nomes) para qualquer nova base.
- Reutilizar `barplot_simples` quando fizer sentido, ou usar `.plot()`/`sns` com este mesmo estilo global.
- Se precisar comparar grupos maiores, considerar tabelas-resumo com `groupby` + `size()`/`mean()`.
- Caso venha a treinar modelos no futuro, documentar hipóteses de forma simples (sem jargão desnecessário).