1. Importação de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns



2. Carregar os Dados

In [None]:
# Carregar os datasets
movies_df = pd.read_csv('../data/movies.csv')
ratings_df = pd.read_csv('../data/ratings.csv')
tags_df = pd.read_csv('../data/tags.csv')
links_df = pd.read_csv('../data/links.csv')

# Exibir as primeiras linhas de cada DataFrame para inspeção inicial
print("Movies DataFrame:")
print(movies_df.head())

print("\nRatings DataFrame:")
print(ratings_df.head())

print("\nTags DataFrame:")
print(tags_df.head())

print("\nLinks DataFrame:")
print(links_df.head())


3. Análise Inicial dos Dados

In [None]:
# Verificar o tipo de dados e valores nulos
print("Movies DataFrame Info:")
print(movies_df.info())
print("\nRatings DataFrame Info:")
print(ratings_df.info())
print("\nTags DataFrame Info:")
print(tags_df.info())
print("\nLinks DataFrame Info:")
print(links_df.info())

# Verificar valores nulos
print("\nVerificar valores nulos nos DataFrames:")
print(movies_df.isnull().sum())
print(ratings_df.isnull().sum())
print(tags_df.isnull().sum())
print(links_df.isnull().sum())


4. Distribuição das Avaliações


In [None]:
# Distribuição das avaliações no dataset 'ratings'
plt.figure(figsize=(8,6))
sns.histplot(ratings_df['rating'], kde=True, bins=10, color='blue')
plt.title('Distribuição das Avaliações')
plt.xlabel('Rating')
plt.ylabel('Frequência')
plt.show()


5. Número de Filmes e Usuários Únicos

In [None]:
# Número de filmes e usuários únicos
num_filmes = movies_df['movieId'].nunique()
num_usuarios = ratings_df['userId'].nunique()

print(f"Total de filmes: {num_filmes}")
print(f"Total de usuários: {num_usuarios}")


6. Análise da Popularidade dos Filmes


In [None]:
# Calcular a contagem de avaliações para cada filme
filmes_populares = ratings_df.groupby('movieId').size().sort_values(ascending=False).head(10)

# Juntar com o título dos filmes
filmes_populares = filmes_populares.index.to_frame()
filmes_populares['title'] = filmes_populares['movieId'].map(movies_df.set_index('movieId')['title'])

# Exibir os filmes mais populares
print(filmes_populares[['title', 0]])


7. Análise de Gêneros de Filmes


In [None]:
# Verificar a distribuição dos gêneros
generos = movies_df['genres'].str.split('|', expand=True).stack().value_counts()

# Exibir os 10 gêneros mais populares
print(generos.head(10))

# Visualizar a distribuição dos gêneros
plt.figure(figsize=(10,6))
sns.barplot(x=generos.head(10).index, y=generos.head(10).values, palette='Set2')
plt.title('Distribuição dos Gêneros de Filmes')
plt.xlabel('Gênero')
plt.ylabel('Número de Filmes')
plt.xticks(rotation=45)
plt.show()


8. Relacionamento Entre Usuários e Avaliações


In [None]:
# Número médio de avaliações por usuário
avg_ratings_per_user = ratings_df.groupby('userId').size().mean()
print(f"Número médio de avaliações por usuário: {avg_ratings_per_user:.2f}")

# Número médio de avaliações por filme
avg_ratings_per_movie = ratings_df.groupby('movieId').size().mean()
print(f"Número médio de avaliações por filme: {avg_ratings_per_movie:.2f}")


9. Análise de Outliers nas Avaliações


In [None]:
# Verificando outliers nas avaliações
plt.figure(figsize=(8,6))
sns.boxplot(x=ratings_df['rating'])
plt.title('Distribuição das Avaliações (Boxplot)')
plt.xlabel('Rating')
plt.show()


10. Salvamento do Relatório ou Gráficos


In [None]:
# Salvar o gráfico de distribuição de ratings
plt.figure(figsize=(8,6))
sns.histplot(ratings_df['rating'], kde=True, bins=10, color='blue')
plt.title('Distribuição das Avaliações')
plt.xlabel('Rating')
plt.ylabel('Frequência')
plt.savefig('exploration_plots/distribuicao_ratings.png')


# Conclusão

Através da análise exploratória realizada, foi possível observar que:
- A maioria das avaliações está concentrada em um número pequeno de estrelas (com um viés em torno de 3-4 estrelas).
- Os filmes com maior número de avaliações tendem a ser mais populares.
- O gênero mais popular entre os filmes é [Gênero X], seguido por [Gênero Y].
- Não há muitos outliers nas avaliações, o que sugere que os dados estão bem distribuídos.

As próximas etapas podem envolver a limpeza dos dados e a construção de modelos preditivos.
