In [None]:
# Visualiza filmes muito curtos (< 40 min) ou muito longos (> 240 min)
watched[(watched['duration_min'] < 50) | (watched['duration_min'] > 240)]

In [None]:
# Análise da distribuição das minhas notas (Rating)
sns.set(style="whitegrid")
plt.figure(figsize=(8, 5))
sns.histplot(watched['Rating'], bins=10, kde=True)

plt.title('Distribuição das suas notas no Letterboxd')
plt.xlabel('Nota')
plt.ylabel('Quantidade de filmes')
plt.show()

In [None]:
# Divide os gêneros e explode para múltiplas linhas
genre_exploded = watched.dropna(subset=['genres', 'Rating']).copy()
genre_exploded['genres'] = genre_exploded['genres'].str.split(', ')
genre_exploded = genre_exploded.explode('genres')

# Calcula a média da nota por gênero
genre_rating_avg = genre_exploded.groupby('genres')['Rating'].mean().sort_values(ascending=False)

# Visualiza com um gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(x=genre_rating_avg.values, y=genre_rating_avg.index, palette="viridis")

plt.title('Nota média por gênero')
plt.xlabel('Nota média')
plt.ylabel('Gênero')
plt.show()

In [None]:
# Seleciona apenas colunas numéricas relevantes
numeric_cols = ['Rating', 'duration_min', 'vote_average', 'vote_count', 'popularity']

# Remove valores nulos para análise
corr_df = watched[numeric_cols].dropna()

# Calcula correlação entre variáveis
corr_matrix = corr_df.corr()

# Heatmap das correlações
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f")

plt.title('Correlação entre minhas notas e variáveis do TMDb')
plt.show()

Eu tendo a gostar de filmes bem avaliados pelo público.                 
Eu gosto levemente mais de filmes mais longos.                          
Filmes populares (com muitos votos) não influenciam muito minhas notas. 
Popularidade não tem quase nenhuma relação com minha nota.              


In [None]:
# Filtra para garantir que tenha diretor e ator
df_filtered = watched.dropna(subset=['Rating', 'director', 'lead_actor'])

# Diretores com pelo menos 2 filmes avaliados
top_directors = (
    df_filtered.groupby('director')
    .filter(lambda x: len(x) >= 2)
    .groupby('director')['Rating']
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Atores com pelo menos 2 filmes avaliados
top_actors = (
    df_filtered.groupby('lead_actor')
    .filter(lambda x: len(x) >= 2)
    .groupby('lead_actor')['Rating']
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Exibe os resultados
print("🎬 Diretores favoritos:")
display(top_directors)

print("\n⭐ Atores favoritos:")
display(top_actors)
