In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

movies = pd.read_csv("data/movies.csv")  
ratings = pd.read_csv("data/ratings.csv")

In [None]:
print(movies.head())
print(ratings.head())

In [None]:
print(movies.columns)
print(ratings.columns)

In [None]:
ratings_sample = ratings.sample(100000, random_state=42)  # 100 mil linhas

In [None]:
print("Movies columns:", movies.columns)
print("Ratings columns:", ratings_sample.columns)

In [None]:
print(movies.head())
print(ratings_sample.head())

In [None]:
movies.info()
ratings_sample.info()

In [None]:
ratings_sample.describe()  # média, min, max, desvio padrão das notas

In [None]:
# Histograma das avaliações
plt.figure(figsize=(8,6))
sns.histplot(ratings_sample['rating'], bins=10, kde=False, color='skyblue')
plt.title("Distribuição das Avaliações")
plt.xlabel("Nota")
plt.ylabel("Frequência")
plt.show()

In [None]:
# Agrupar e contar avaliações por filme
ratings_count = ratings_sample.groupby('movieId')['rating'].count().sort_values(ascending=False)

# Juntar com os títulos dos filmes
ratings_with_titles = pd.merge(
    ratings_count.head(20).reset_index(),
    movies[['movieId', 'title']],
    on='movieId'
)

In [None]:
# Plotar usando os títulos
plt.figure(figsize=(10,6))
plt.bar(ratings_with_titles['title'], ratings_with_titles['rating'], color='salmon')
plt.title("Top 20 Filmes com Mais Avaliações (Amostra)")
plt.xlabel("Título do Filme")
plt.ylabel("Número de Avaliações")
plt.xticks(rotation=75, ha='right')
plt.tight_layout()
plt.show()

In [None]:
# Agrupar e contar avaliações por usuário
user_count = ratings_sample.groupby('userId')['rating'].count().sort_values(ascending=False)

plt.figure(figsize=(10,6))
user_count.head(20).plot(kind='bar', color='lightgreen')
plt.title("Top 20 Usuários com Mais Avaliações (Amostra)")
plt.xlabel("User ID")
plt.ylabel("Número de Avaliações")
plt.show()

In [None]:
# Criar lista de todos os gêneros
all_genres = movies['genres'].str.split('|').explode()
genre_counts = all_genres.value_counts()

plt.figure(figsize=(10,6))
sns.barplot(x=genre_counts.index, y=genre_counts.values, hue=genre_counts.index, palette='viridis', legend=False)
plt.title("Número de Filmes por Gênero")
plt.xlabel("Gênero")
plt.ylabel("Número de Filmes")
plt.xticks(rotation=45)
plt.show()

In [6]:
# Ver quantidade de valores faltantes por coluna
print("movies.csv:")
print(movies.isna().sum())

print("\nratings.csv:")
print(ratings.isna().sum())

movies.csv:
movieId    0
title      0
genres     0
dtype: int64

ratings.csv:
userId       0
movieId      0
rating       0
timestamp    0
dtype: int64
