In [None]:
# Day 1: E-Ticaret Veri Seti Keşfi
# Tarih: 27 Temmuz 2025
# Proje: Müşteri Segmentasyonu
# Geliştirici: @ismailumutluoglu

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
warnings.filterwarnings("ignore")

plt.style.use('default') # Grafik stillerini varsayılan olarak ayarla
plt.rcParams['figure.figsize'] = (12, 6) #grafik boyutu
sns.set_palette("husl") # renk paleti
print("🚀 Kütüphaneler yüklendi!")
print("📅 Bugün:", "2025-07-27")
print("⏰ Başlangıç saati: 14:03 (UTC+3)")

In [None]:
print("📊 Online Retail veri seti okunuyor...")
print("💾 Dosya boyutu: ~22.6 MB")

try:
    df = pd.read_excel('../data/raw/Online Retail.xlsx')
    print("✅ Veri başarıyla okundu!")
    print(f"📏 Boyut: {df.shape[0]:,} satır x {df.shape[1]} kolon")
    print(f"💾 Bellek kullanımı: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
except Exception as e:
    print(f"❌ Hata: {e}")
    print("🔍 Dosya yolu kontrol edilsin: ../data/raw/online_retail.xlsx")


In [None]:
print("👀 İlk 5 satır:")
df.head()

In [None]:
print("\n📋 Kolon isimleri ve tipleri:")
df.info()

In [None]:
print("📋 Veri Seti Kolonları:")
print("="*50)

columns_info = {
    'InvoiceNo': 'Fatura Numarası (Eşsiz işlem ID)',
    'StockCode': 'Ürün Kodu', 
    'Description': 'Ürün Açıklaması',
    'Quantity': 'Satış Miktarı',
    'InvoiceDate': 'Satış Tarihi',
    'UnitPrice': 'Birim Fiyat (£)',
    'CustomerID': 'Müşteri ID',
    'Country': 'Ülke'
}
for col, desc in columns_info.items():
    if col in df.columns:
        print(f"• {col:12} → {desc}")

print(f"\n🎯 Bu {len(df.columns)} kolon ile müşteri segmentasyonu yapacağız!")

In [None]:
print("\n❓ Eksik Değer Analizi:")
print("="*30)
missing_data = df.isnull().sum()
missing_percent = (df.isnull().sum() / len(df)) * 100
for col in df.columns:
    if missing_data[col] > 0:
        print(f"• {col:12}: {missing_data[col]:,} eksik ({missing_percent[col]:.1f}%)")
    else:
        print(f"• {col:12}: ✅ Eksik yok")

In [None]:
print("\n📊 Veri Seti Özeti:")
print("="*30)
print(f"• Toplam işlem sayısı: {len(df):,}")
print(f"• Benzersiz müşteri sayısı: {df['CustomerID'].nunique():,}")
print(f"• Benzersiz ürün sayısı: {df['StockCode'].nunique():,}")
print(f"• Tarih aralığı: {df['InvoiceDate'].min()} → {df['InvoiceDate'].max()}")
print(f"• Ülke sayısı: {df['Country'].nunique()}")

In [None]:
print("📊 Sayısal Kolonlar - Temel İstatistikler:")
print("="*50)
display(df.describe())
print("\n🔍 İlginç Gözlemler:")
print(f"• En yüksek satış miktarı: {df['Quantity'].max():,}")
print(f"• En düşük satış miktarı: {df['Quantity'].min():,}")
print(f"• En pahalı ürün: £{df['UnitPrice'].max():,.2f}")
print(f"• Ortalama satış miktarı: {df['Quantity'].mean():.2f}")
print(f"• Ortalama birim fiyat: £{df['UnitPrice'].mean():.2f}")
negative_qty = (df['Quantity'] < 0).sum()
negative_price = (df['UnitPrice'] < 0).sum()
print(f"\n⚠️  Negatif Quantity: {negative_qty:,} adet ({negative_qty/len(df)*100:.1f}%)")
print(f"⚠️  Negatif UnitPrice: {negative_price:,} adet ({negative_price/len(df)*100:.1f}%)")

In [None]:
# Hızlı grafik örnekleri
import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 1. Ülke dağılımı (Top 10)
top_countries = df['Country'].value_counts().head(10)
axes[0,0].bar(range(len(top_countries)), top_countries.values)
axes[0,0].set_title('Top 10 Ülke - İşlem Sayısı')
axes[0,0].set_xticks(range(len(top_countries)))
axes[0,0].set_xticklabels(top_countries.index, rotation=45)

# 2. Quantity dağılımı (pozitif değerler)
positive_qty = df[df['Quantity'] > 0]['Quantity']
axes[0,1].hist(positive_qty, bins=50, edgecolor='black')
axes[0,1].set_title('Satış Miktarı Dağılımı (Pozitif)')
axes[0,1].set_xlabel('Miktar')

# 3. Fiyat dağılımı
positive_price = df[df['UnitPrice'] > 0]['UnitPrice']
axes[1,0].hist(positive_price, bins=50, edgecolor='black')
axes[1,0].set_title('Birim Fiyat Dağılımı')
axes[1,0].set_xlabel('Fiyat (£)')

# 4. Aylık trend
df['YearMonth'] = df['InvoiceDate'].dt.to_period('M')
monthly_sales = df.groupby('YearMonth').size()
axes[1,1].plot(range(len(monthly_sales)), monthly_sales.values, marker='o')
axes[1,1].set_title('Aylık İşlem Sayısı Trendi')
axes[1,1].set_xlabel('Ay')

plt.tight_layout()
plt.show()

print("📈 Grafikler oluşturuldu! İlk pattern'ları görebiliyor musun?")

In [None]:
# Day 1 - Final Özet
print("🎉 DAY 1 TAMAMLANDI!")
print("="*40)
print(f"📅 Tarih: 2025-07-27")
print(f"⏰ Süre: ~1 saat")
print(f"📊 Veri: {len(df):,} satır analiz edildi")

print("\n✅ Tamamlanan Görevler:")
print("• Veri seti başarıyla okundu")
print("• Temel veri yapısı anlaşıldı")
print("• Eksik değerler tespit edildi")
print("• İlk görselleştirmeler yapıldı")
print("• Veri kalitesi değerlendirildi")

print("\n🔍 Önemli Bulgular:")
print("• UK müşterileri dominant")
print("• Negatif quantity değerleri var (iadeler)")
print("• 2010-2011 dönemi verisi")
print("• B2B e-ticaret karakteristikleri")