# Aşama 1: Veri Keşfi ve Ön İşleme
Bu notebook'un amacı, MovieLens veri setini analiz etmek, anlamak ve modelleme için hazır hale getirmektir.

## 1. Kütüphaneleri ve Veri Setini Yükleme

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style("whitegrid")

: 

In [None]:
# Veri dosyalarının yolları
ratings_path = '../data/ml-latest-small/ratings.csv'
movies_path = '../data/ml-latest-small/movies.csv'

# Veriyi yükleme
ratings_df = pd.read_csv(ratings_path)
movies_df = pd.read_csv(movies_path)

In [None]:
print("Ratings Veri Seti:")
ratings_df.head()

In [None]:
print("Movies Veri Seti:")
movies_df.head()

## 2. Veriyi Birleştirme
`ratings` ve `movies` veri çerçevelerini `movieId` sütunu üzerinden birleştirerek hangi kullanıcının hangi filme ne puan verdiğini tek bir yerde topluyoruz.

In [None]:
df = pd.merge(ratings_df, movies_df, on='movieId')
print("Birleştirilmiş Veri Seti:")
df.head()

## 3. Keşifsel Veri Analizi (EDA)

### 3.1. Genel Bilgiler ve Boş Değer Kontrolü

In [None]:
df.info()

In [None]:
print(f"Boş değerlerin toplamı:
{df.isnull().sum()}")

**Gözlem:** Veri setinde boş (NaN) değer bulunmuyor. Bu harika!

### 3.2. Benzersiz Kullanıcı ve Film Sayısı

In [None]:
n_users = df['userId'].nunique()
n_movies = df['movieId'].nunique()

print(f'Toplam Benzersiz Kullanıcı Sayısı: {n_users}')
print(f'Toplam Benzersiz Film Sayısı: {n_movies}')

### 3.3. Puanların Dağılımı

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='rating', data=df)
plt.title('Puanların Dağılımı', fontsize=15)
plt.xlabel('Puan')
plt.ylabel('Puan Sayısı')
plt.show()

**Gözlem:** En çok verilen puan 4.0, en az verilen ise 0.5. Kullanıcılar genellikle filmlere yüksek puan verme eğiliminde.

### 3.4. En Çok Puan Alan Filmler

In [None]:
movie_rating_counts = df['title'].value_counts()
print("En çok puan alan ilk 20 film:")
movie_rating_counts.head(20)

### 3.5. En Çok Puanlama Yapan Kullanıcılar

In [None]:
user_rating_counts = df['userId'].value_counts()
print("En çok puanlama yapan ilk 20 kullanıcı:")
user_rating_counts.head(20)

## Sonuç
Veri seti temiz ve kullanıma hazır görünüyor. Popüler filmler ve aktif kullanıcılar hakkında fikir edindik. Bir sonraki aşamada bu verileri kullanarak tavsiye modelleri oluşturmaya başlayabiliriz.