# Projeto Start-Flix - Análise de Classificação de Filmes
## Tamiris Rodrigues Viana | UNIFECAF
Este notebook realiza uma análise exploratória do dataset MovieLens para propor melhorias ao sistema de recomendação da plataforma fictícia Start-Flix.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

sns.set(style='whitegrid')

## 1. Carregamento do Dataset

In [None]:
# Faça upload dos arquivos 'movies.csv' e 'ratings.csv' antes de rodar esta célula.
from google.colab import files
uploaded = files.upload()

In [None]:
movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')

## 2. Visualização Inicial dos Dados

In [None]:
print(movies.head())
print(ratings.head())

## 3. Limpeza de Dados

In [None]:
print(movies.isnull().sum())
print(ratings.isnull().sum())

## 4. Análise Exploratória dos Dados

In [None]:
# Quantidade de filmes e avaliações
print(f'Total de filmes: {movies.shape[0]}')
print(f'Total de avaliações: {ratings.shape[0]}')

In [None]:
# Top 10 filmes mais avaliados
movie_rating_count = ratings['movieId'].value_counts().head(10)
top_movies = movies[movies['movieId'].isin(movie_rating_count.index)]
top_movies = top_movies.merge(movie_rating_count.rename('rating_count'), left_on='movieId', right_index=True)
print(top_movies[['title', 'rating_count']])

### Gêneros mais Populares

In [None]:
genres = movies['genres'].str.get_dummies(sep='|')
genre_counts = genres.sum().sort_values(ascending=False)
plt.figure(figsize=(12,6))
genre_counts.plot(kind='bar')
plt.title('Frequência de Gêneros')
plt.ylabel('Número de Filmes')
plt.xlabel('Gênero')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### Avaliação Média dos Filmes

In [None]:
movie_ratings = ratings.groupby('movieId')['rating'].mean().sort_values(ascending=False)
top_rated = movie_ratings.head(10).reset_index().merge(movies, on='movieId')
plt.figure(figsize=(12,6))
plt.barh(top_rated['title'], top_rated['rating'])
plt.xlabel('Nota Média')
plt.title('Top 10 Filmes com Melhores Notas')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 5. Conclusão
A análise exploratória dos dados mostra a importância de sistemas de recomendação personalizados. Gêneros como comédia e drama são os mais populares. Filmes com mais avaliações e melhores notas podem ser destaque no sistema. O próximo passo seria implementar algoritmos de recomendação, como filtragem colaborativa e baseada em conteúdo.