Bu proje, movie analysis.ipynb
not defteri ile bir film veri seti üzerinde temizleme, keşifsel veri analizi (EDA) ve korelasyon incelemesi yapıyor. Amaç; bütçe, hasılat, oy sayısı, puan gibi metrikler arasındaki ilişkileri görmek ve temel içgörüler elde etmektir.
Not: Not defterinde
movies.csv
dosyası okunmaktadır. Aynı dizinde bulunmalıdır.
- Notebook:
movie analysis.ipynb
- Veri dosyası:
movies.csv
- Çıktılar: Grafikler (matplotlib & seaborn), korelasyon tabloları ve ısı haritaları
pandas
,numpy
matplotlib
,seaborn
- (Notebook içinde stil:
plt.style.use('ggplot')
)
- Sayısal:
budget
,gross
,runtime
,score
,votes
- Kategorik / Metinsel:
rating
,country
,company
,star
,writer
,released
- Türetilen alanlar:
released_date
(tarihe çevrilmiş),year_correct
(yıl)
Notebook’ta
released
bilgisinden tarih çıkarımı yapılıpreleased_date
oluşturuldu ve buradanyear_correct
(yıl) üretildi. Ardından orijinalreleased
veyear
sütunları temizlendi.
- Eksik değerler:
gross
vebudget
gibi sayısal alanlar medyan ile dolduruldu.star
gibi metinsel alanlar 'Unknown' ile dolduruldu.
- Tip dönüşümleri:
budget
vegross
→int64
- Tarih işlemleri:
released
sütunundaki metinden parantez öncesi tarih ayrıştırıdı →released_date
released_date
→datetime
(hatalılar içincoerce
)year_correct
→released_date
’ten yıl bilgisi
- Sıralama ve tekrar kontrolleri:
gross
’a göre azalan sıralama- Kayıt duplicated kontrolü
- Kodlanmış veri kümesi (opsiyonel):
- Korelasyon analizi için kategorik sütunlar kategori kodu’na çevrildi (
cat.codes
).
- Korelasyon analizi için kategorik sütunlar kategori kodu’na çevrildi (
-
Budget vs. Gross (Scatter Plot):
Bütçenin hasılatla ilişkisi görselleştirildi (seabornregplot
ile trend çizgisi dahil). -
Sayısal Değişken Korelasyonu (Heatmap):
budget
,gross
,score
,votes
,runtime
gibi sütunlar arasında Pearson korelasyon ısı haritası. -
Kategorik Kodlanmış Korelasyon:
Kategorik değişkenler (company
,star
,writer
,country
,rating
) kodlanarak tüm değişkenler arası korelasyon matrisi incelendi ve yüksek korelasyon çiftleri listelendi.
İpucu: Genellikle
budget
ilegross
arasında pozitif yönlü bir ilişki gözlendi. Kesin değerler, not defteri çalıştırıldığında üretilecek tablolarda görülebilir.
- Bu depoya (veya klasöre)
movies.csv
dosyasını ekleyin. - Gerekli kütüphaneleri kurun:
pip install pandas numpy matplotlib seaborn
- Jupyter Notebook’u açın ve tüm hücreleri çalıştırın:
jupyter notebook "movie analysis.ipynb"
Grafikler hücre çıktısı olarak üretilecektir.
display.max_rows
ayarı geçici olarak artırıldığı için uzun tablolar tam listelenebilir.
- Temizlenmiş ve tipleri standartlaştırılmış bir veri çerçevesi
- Budget ↔ Gross ilişkisine dair görsel ve istatistiksel fikir
- Oy sayısı (
votes
) / puan (score
) gibi metriklerle hasılat arasındaki olası ilişkiler - Korelasyon ısı haritaları ve yüksek korelasyon çiftleri listesi
.
├── movie analysis.ipynb
├── movies.csv
└── README.md