Skip to content

HCAKKAYA/correlation_in_python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🎬 Movie Data Analysis

Bu proje, movie analysis.ipynb not defteri ile bir film veri seti üzerinde temizleme, keşifsel veri analizi (EDA) ve korelasyon incelemesi yapıyor. Amaç; bütçe, hasılat, oy sayısı, puan gibi metrikler arasındaki ilişkileri görmek ve temel içgörüler elde etmektir.

Not: Not defterinde movies.csv dosyası okunmaktadır. Aynı dizinde bulunmalıdır.


📂 Proje İçeriği

  • Notebook: movie analysis.ipynb
  • Veri dosyası: movies.csv
  • Çıktılar: Grafikler (matplotlib & seaborn), korelasyon tabloları ve ısı haritaları

🧰 Kullanılan Kütüphaneler

  • pandas, numpy
  • matplotlib, seaborn
  • (Notebook içinde stil: plt.style.use('ggplot'))

🗂️ Veri Seti Sütunları (Notebook’ta kullanılanlar)

  • Sayısal: budget, gross, runtime, score, votes
  • Kategorik / Metinsel: rating, country, company, star, writer, released
  • Türetilen alanlar: released_date (tarihe çevrilmiş), year_correct (yıl)

Notebook’ta released bilgisinden tarih çıkarımı yapılıp released_date oluşturuldu ve buradan year_correct (yıl) üretildi. Ardından orijinal released ve year sütunları temizlendi.


🧹 Veri Temizleme & Dönüştürme Adımları

  1. Eksik değerler:
    • gross ve budget gibi sayısal alanlar medyan ile dolduruldu.
    • star gibi metinsel alanlar 'Unknown' ile dolduruldu.
  2. Tip dönüşümleri:
    • budget ve grossint64
  3. Tarih işlemleri:
    • released sütunundaki metinden parantez öncesi tarih ayrıştırıdı → released_date
    • released_datedatetime (hatalılar için coerce)
    • year_correctreleased_date’ten yıl bilgisi
  4. Sıralama ve tekrar kontrolleri:
    • gross’a göre azalan sıralama
    • Kayıt duplicated kontrolü
  5. Kodlanmış veri kümesi (opsiyonel):
    • Korelasyon analizi için kategorik sütunlar kategori kodu’na çevrildi (cat.codes).

📊 Analizler ve Görselleştirmeler

  • Budget vs. Gross (Scatter Plot):
    Bütçenin hasılatla ilişkisi görselleştirildi (seaborn regplot ile trend çizgisi dahil).

  • Sayısal Değişken Korelasyonu (Heatmap):
    budget, gross, score, votes, runtime gibi sütunlar arasında Pearson korelasyon ısı haritası.

  • Kategorik Kodlanmış Korelasyon:
    Kategorik değişkenler (company, star, writer, country, rating) kodlanarak tüm değişkenler arası korelasyon matrisi incelendi ve yüksek korelasyon çiftleri listelendi.

İpucu: Genellikle budget ile gross arasında pozitif yönlü bir ilişki gözlendi. Kesin değerler, not defteri çalıştırıldığında üretilecek tablolarda görülebilir.


🚀 Hızlı Başlangıç

  1. Bu depoya (veya klasöre) movies.csv dosyasını ekleyin.
  2. Gerekli kütüphaneleri kurun:
    pip install pandas numpy matplotlib seaborn
  3. Jupyter Notebook’u açın ve tüm hücreleri çalıştırın:
    jupyter notebook "movie analysis.ipynb"

Grafikler hücre çıktısı olarak üretilecektir. display.max_rows ayarı geçici olarak artırıldığı için uzun tablolar tam listelenebilir.


📌 Çıktılar / Beklenen İçgörüler

  • Temizlenmiş ve tipleri standartlaştırılmış bir veri çerçevesi
  • Budget ↔ Gross ilişkisine dair görsel ve istatistiksel fikir
  • Oy sayısı (votes) / puan (score) gibi metriklerle hasılat arasındaki olası ilişkiler
  • Korelasyon ısı haritaları ve yüksek korelasyon çiftleri listesi

📁 Örnek Dosya Yapısı

.
├── movie analysis.ipynb
├── movies.csv
└── README.md

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published