In [None]:
!pip install pandas numpy matplotlib seaborn scikit-surprise

In [None]:
# Bibliotecas para manipulação e análise de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Importando ferramentas da biblioteca Surprise
from surprise import Dataset, Reader
from surprise.model_selection import train_test_split

# Configurações de visualização
sns.set_style('whitegrid')
%matplotlib inline

In [None]:
# A biblioteca Surprise fará o download do dataset (se ainda não tiver sido baixado)
data = Dataset.load_builtin('ml-100k')

# Para explorar os dados com Pandas, vamos convertê-lo para um DataFrame
df_ratings = pd.DataFrame(data.raw_ratings, columns=['user_id', 'item_id', 'rating', 'timestamp'])
df_ratings.head()

In [None]:
# Contagem de cada nota (1 a 5)
plt.figure(figsize=(10, 6))
sns.countplot(x='rating', data=df_ratings, palette='viridis')
plt.title('Distribuição das Avaliações no MovieLens 100k', fontsize=15)
plt.xlabel('Avaliação', fontsize=12)
plt.ylabel('Contagem', fontsize=12)
plt.show()

In [None]:
# Número total de avaliações
n_ratings = len(df_ratings)
# Número de usuários únicos
n_users = df_ratings['user_id'].nunique()
# Número de filmes únicos
n_items = df_ratings['item_id'].nunique()


# Cálculo da esparsidade
esparsidade = 1 - (n_ratings / (n_users * n_items))

print(f"A esparsidade da base de dados é de aproximadamente: {esparsidade:.2%}")

In [None]:
# Os arquivos do MovieLens 100k usam codificação 'latin-1'
# Carregando os dados dos filmes
df_movies = pd.read_csv(
    'http://files.grouplens.org/datasets/movielens/ml-100k/u.item', 
    sep='|', 
    encoding='latin-1', 
    header=None,
    names=['item_id', 'title'] + [f'col_{i}' for i in range(22)] # Colunas extras que não usaremos agora
)
df_movies = df_movies[['item_id', 'title']]

# Unindo os dataframes de avaliações e filmes
df_merged = pd.merge(df_ratings, df_movies, on='item_id')

# Contando as avaliações por filme
popular_movies = df_merged['title'].value_counts().head(10)

plt.figure(figsize=(12, 8))
sns.barplot(x=popular_movies.values, y=popular_movies.index, palette='mako')
plt.title('Top 10 Filmes Mais Avaliados', fontsize=15)
plt.xlabel('Número de Avaliações', fontsize=12)
plt.ylabel('Filme', fontsize=12)
plt.show()