In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go

In [2]:
df = pd.read_csv('./resultado_empilhado.csv')

In [4]:
# Converter colunas para numéricos
df['Rating'] = pd.to_numeric(df['Rating'], errors='coerce')
df['oscars'] = pd.to_numeric(df['oscars'], errors='coerce')
df['budget'] = pd.to_numeric(df['budget'], errors='coerce')
df['grossWorldWide'] = pd.to_numeric(df['grossWorldWide'], errors='coerce')

# Extrair o primeiro país da lista de países
df['main_country'] = df['countries_origin'].str.extract(r"\['?([^']+)'?\]")

total_filmes = len(df)

# 1. Probalidade(filme com classificação R)
p_r = (df['MPA'] == 'R').sum() / total_filmes

# 2. Probalidade(filme com orçamento acima de 10 milhões)
p_orcamento_maior_10m = (df['budget'] > 10_000_000).sum() / total_filmes

# 3. Probalidade(filme dos EUA e com nota acima de 8.0)
p_eua_rating_8 = ((df['main_country'] == 'United States') & (df['Rating'] > 8.0)).sum() / total_filmes

# 4. Probalidade(filme ganhou ao menos 1 Oscar)
p_oscars = (df['oscars'] >= 1).sum() / total_filmes

# 5. Probabilidade condicional: Probalidade(filme é “R” | ganhou Oscar)
ganhou_oscars = df[df['oscars'] >= 1]
p_r_dado_oscars = (ganhou_oscars['MPA'] == 'R').sum() / len(ganhou_oscars)

# 4. Exibir os resultados
print("Probabilidades calculadas:")
print(f"1. P(classificação R): {p_r:.4f} -> {p_r*100:.2f}%")
print(f"2. P(orçamento > 10M): {p_orcamento_maior_10m:.4f} -> {p_orcamento_maior_10m*100:.2f}%")
print(f"3. P(EUA e nota > 8.0): {p_eua_rating_8:.4f} -> {p_eua_rating_8*100:.2f}%")
print(f"4. P(ganhou ≥ 1 Oscar): {p_oscars:.4f} -> {p_oscars*100:.2f}%")
print(f"5. P(classificação R | ganhou Oscar): {p_r_dado_oscars:.4f} -> {p_r_dado_oscars*100:.2f}%")


Probabilidades calculadas:
1. P(classificação R): 0.3006 -> 30.06%
2. P(orçamento > 10M): 0.1626 -> 16.26%
3. P(EUA e nota > 8.0): 0.0069 -> 0.69%
4. P(ganhou ≥ 1 Oscar): 0.0624 -> 6.24%
5. P(classificação R | ganhou Oscar): 0.3386 -> 33.86%
