## Python ile Veri Bilimi Temelleri


### Python Nedir?

<img src="assets/python.png" alt="python" width="500"/>

**Kullanım Alanları:**
- **Veri Analizi:** İş verileri, müşteri davranışları, satış raporları
- **Makine Öğrenmesi:** Tahmin modelleri, öneri sistemleri
- **Web Geliştirme:** Django, Flask
- **Otomasyon:** Tekrarlayan işleri otomatikleştirme
- **Finansal Analiz:** Risk modelleme, portföy optimizasyonu


### Veri Bilimi için Python

**Veri Analizi Kütüphaneleri:**

**pandas:** Veri analizi ve manipülasyonu (Excel'in güçlü versiyonu)
- Tablolar (DataFrame) ile çalışma
- Filtreleme, gruplama, birleştirme
- SQL benzeri işlemler

**numpy:** Sayısal hesaplamalar ve array işlemleri
- Hızlı matematiksel işlemler
- Çok boyutlu diziler
- İstatistiksel fonksiyonlar

**Görselleştirme Kütüphaneleri:**

**matplotlib:** Temel grafik ve görselleştirme
- Çizgi, bar, pasta grafikleri

**seaborn:** Gelişmiş istatistiksel grafikler
- Profesyonel ve estetik grafikler

**Makine Öğrenmesi Kütüphaneleri:**

**scikit-learn:** Klasik makine öğrenmesi
- Sınıflandırma, regresyon, kümeleme
- Model eğitimi ve değerlendirme
- Veri ön işleme

**TensorFlow:** Derin öğrenme framework
- Yapay sinir ağları
- Büyük ölçekli model eğitimi
- Google tarafından geliştirildi

**PyTorch:** Derin öğrenme framework
- Dinamik hesaplama grafikleri
- Araştırma ve üretim için
- Facebook (Meta) tarafından geliştirildi


### Kütüphaneleri İçe Aktarma ve Veri Seti


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sqlite3
from datetime import datetime
from wordcloud import WordCloud

# Grafik ayarları
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

# Pandas görüntüleme ayarları
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)

print("Kütüphaneler yüklendi!")


#### Veritabanı Bağlantısı


In [None]:
# Veritabanı bağlantısı
conn = sqlite3.connect('data/ecommerce.db')

# Tabloları listele
tables = pd.read_sql_query("""
    SELECT name FROM sqlite_master 
    WHERE type='table' AND name NOT LIKE 'sqlite_%'
""", conn)

print("Veritabanındaki Tablolar:")
print(tables)


---
## PYTHON TEMELLERİ


#### Değişkenler ve Veri Tipleri

Değişkenler, verileri bellekte sakladığımız isimlerdir.


In [None]:
# String (Metin)
isim = "Ahmet"
sehir = "İstanbul"

# Integer (Tam Sayı)
yas = 25
siparis_sayisi = 5

# Float (Ondalıklı Sayı)
fiyat = 1250.50

# Boolean (Doğru/Yanlış)
aktif = True

# Kullanım
isim, yas, fiyat, aktif


#### Operatörler

Matematiksel ve mantıksal işlemler için kullanılır.

In [None]:
# Aritmetik
a = 10
b = 3

toplam = a + b
fark = a - b
carpim = a * b
bolum = a / b

# Karşılaştırma
a > b, a == b, a != b

# Mantıksal
x = True
y = False
x and y, x or y, not x


---
## VERİ YAPILARI

Python'da verileri saklamanın farklı yolları vardır.


#### List (Liste)

Birden fazla değeri sıralı şekilde saklayan yapı.


In [None]:
# Liste oluşturma
sehirler = ["İstanbul", "Ankara", "İzmir"]
fiyatlar = [100, 200, 150]

# Temel işlemler
len(sehirler)      # Uzunluk
sehirler[0]        # İlk eleman
sehirler[-1]       # Son eleman
sehirler.append("Bursa")  # Ekleme

sehirler


#### Dictionary (Sözlük)

Anahtar-değer çiftleri ile veri saklayan yapı.


In [None]:
# Dictionary oluşturma
musteri = {
    "isim": "Ahmet",
    "yas": 25,
    "sehir": "İstanbul",
    "aktif": True
}

# Erişim
musteri["isim"]
musteri["yas"]

# Güncelleme
musteri["yas"] = 26

musteri


---
## KONTROL YAPILARI

Programın akışını yönetmek için kullanılır.


#### if/elif/else Yapıları

Koşullara göre farklı işlemler yapmak için kullanılır.


In [None]:
# Koşul kontrolü
puan = 75

if puan >= 90:
    sonuc = "Mükemmel"
elif puan >= 70:
    sonuc = "İyi"
elif puan >= 50:
    sonuc = "Orta"
else:
    sonuc = "Zayıf"

sonuc


#### for Döngüleri

Bir liste veya aralıktaki her eleman için işlem yapmak.


In [None]:
# Liste üzerinde döngü
sehirler = ["İstanbul", "Ankara", "İzmir"]

for sehir in sehirler:
    print(sehir)

# Sayı aralığı
toplam = 0
for i in range(1, 6):
    toplam += i
    
toplam


#### while Döngüleri

Bir koşul doğru olduğu sürece tekrar eden döngü.


In [None]:
# Sayaç ile while
sayac = 0
while sayac < 5:
    print(f"Sayaç: {sayac}")
    sayac += 1

# Toplam hesaplama
toplam = 0
sayi = 1
while sayi <= 10:
    toplam += sayi
    sayi += 1
    
toplam


---
## FONKSİYONLAR

Tekrar eden kodları fonksiyon haline getirerek temiz kod yazabiliriz.


#### Fonksiyon Tanımlama

Tekrar kullanılabilir kod blokları oluşturmak için kullanılır.


In [None]:
# Basit fonksiyon
def topla(a, b):
    return a + b

# Kullanım
sonuc = topla(5, 3)
sonuc


---
## PANDAS

### En Çok Kullanılan Pandas Fonksiyonları

**Veri Okuma:**
- `pd.read_csv()` - CSV dosyasından veri okuma
- `pd.read_excel()` - Excel dosyasından veri okuma
- `pd.read_sql_query()` - SQL sorgusundan veri okuma

**Veri İnceleme:**
- `df.head(n)` - İlk n satırı göster (varsayılan 5)
- `df.tail(n)` - Son n satırı göster
- `df.info()` - Veri tipleri ve genel bilgiler
- `df.describe()` - Sayısal kolonların istatistiksel özeti
- `df.shape` - Satır ve kolon sayısı (satır, kolon)
- `df.columns` - Kolon isimleri

**Veri Seçme:**
- `df['kolon']` - Tek kolon seçme
- `df[['kolon1', 'kolon2']]` - Çoklu kolon seçme
- `df.loc[]` - İsim bazlı indeksleme
- `df.iloc[]` - Pozisyon bazlı indeksleme

**Filtreleme:**
- `df[df['kolon'] > değer]` - Koşula göre filtreleme
- `df.query()` - SQL benzeri filtreleme

**Gruplama ve Toplama:**
- `df.groupby()` - Verileri grupla
- `df.agg()` - Çoklu agregasyon fonksiyonları
- `df.value_counts()` - Değer sayımları
- `df.sum()`, `df.mean()`, `df.max()`, `df.min()` - Toplam, ortalama, max, min

**Veri Birleştirme:**
- `pd.merge()` - İki DataFrame'i birleştir (SQL JOIN gibi)
- `pd.concat()` - DataFrame'leri alt alta/yan yana ekle

**Veri Temizleme:**
- `df.isnull()` - Eksik değerleri bul
- `df.dropna()` - Eksik değerleri sil
- `df.fillna()` - Eksik değerleri doldur
- `df.drop_duplicates()` - Tekrar eden satırları sil

**Veri Dönüşümü:**
- `df.sort_values()` - Değerlere göre sırala
- `df.rename()` - Kolon isimlerini değiştir
- `pd.to_datetime()` - Tarih formatına çevir
- `df.apply()` - Her satıra/kolona fonksiyon uygula 


#### DataFrame Nedir?

**DataFrame:** Satır ve kolonlardan oluşan iki boyutlu bir tablo yapısıdır (Excel tablosu gibi).
**Senaryo:** Müşteriler tablosunu DataFrame olarak çekelim ve inceleyelim.



In [None]:
# Veritabanından veri çekme
df_customers = pd.read_sql_query("""
    SELECT * FROM customers LIMIT 10
""", conn)

print("İlk 10 Müşteri:")
df_customers


#### Temel DataFrame İşlemleri

Veri setimizi keşfedelim.


In [None]:
# Tüm müşterileri çek
df_customers = pd.read_sql_query("SELECT * FROM customers", conn)

print(f"Toplam Müşteri Sayısı: {len(df_customers)}")
print(f"Kolon Sayısı: {len(df_customers.columns)}")
print(f"\nKolonlar: {list(df_customers.columns)}")

# Veri tiplerine bak
print("\n" + "="*50)
print("Veri Tipleri:")
print(df_customers.dtypes)


#### describe() - İstatistiksel Özet

Sayısal kolonların istatistiklerini görelim.


In [None]:
# Ürünler tablosunu çek
df_products = pd.read_sql_query("SELECT * FROM products", conn)

print("Ürün Fiyat İstatistikleri:")
df_products[['price', 'stock_quantity']].describe()


#### Kolon Seçme ve Filtreleme

Sadece belirli kolonları seçelim ve filtreleyelim.


In [None]:
# Belirli kolonları seç
musteri_bilgi = df_customers[['first_name', 'last_name', 'city', 'customer_segment']]
print("Müşteri Bilgileri (İlk 5):")
print(musteri_bilgi.head())

# Filtreleme: İstanbul'daki müşteriler
istanbul_musterileri = df_customers[df_customers['city'] == 'İstanbul']
print(f"\nİstanbul'daki Müşteri Sayısı: {len(istanbul_musterileri)}")

# Çoklu filtreleme: İstanbul'daki Platinum müşteriler
istanbul_platinum = df_customers[
    (df_customers['city'] == 'İstanbul') & 
    (df_customers['customer_segment'] == 'platinum')
]
print(f"İstanbul'daki Platinum Müşteri: {len(istanbul_platinum)}")


---
## VERİ MANİPÜLASYONU

Verileri dönüştürme ve yeni kolonlar oluşturma.


#### Yeni Kolon Oluşturma

Ürünlere KDV dahil fiyat ve fiyat kategorisi ekleyelim.


In [None]:
# KDV dahil fiyat hesapla
df_products['price_with_vat'] = df_products['price'] * 1.20

# Fiyat kategorisi oluştur
def fiyat_kategorisi(fiyat):
    if fiyat < 1000:
        return 'Ucuz'
    elif fiyat < 5000:
        return 'Orta'
    elif fiyat < 15000:
        return 'Pahalı'
    else:
        return 'Çok Pahalı'

df_products['price_category'] = df_products['price'].apply(fiyat_kategorisi)

# Sonuçları göster
print(df_products[['product_name', 'price', 'price_with_vat', 'price_category']].head(10))


#### Tarih İşlemleri

Sipariş tarihlerinden yıl, ay, gün bilgilerini çıkaralım.


In [None]:
# Siparişleri çek
df_orders = pd.read_sql_query("SELECT * FROM orders", conn)

# Tarih kolonunu datetime'a çevir
df_orders['order_date'] = pd.to_datetime(df_orders['order_date'])

# Yıl, ay, gün bilgilerini çıkar
df_orders['year'] = df_orders['order_date'].dt.year
df_orders['month'] = df_orders['order_date'].dt.month
df_orders['day_of_week'] = df_orders['order_date'].dt.day_name()

# Sonuçları göster
print(df_orders[['order_id', 'order_date', 'year', 'month', 'day_of_week', 'total_amount']].head(10))


---
## GRUPLAMA VE TOPLAMA

SQL'deki GROUP BY işleminin Python karşılığı.


#### groupby() Temelleri

Şehirlere göre müşteri sayısı ve ortalama yaşları bulalım.


In [None]:
# Doğum tarihinden yaş hesapla
df_customers['birth_date'] = pd.to_datetime(df_customers['birth_date'])
df_customers['age'] = (pd.Timestamp.now() - df_customers['birth_date']).dt.days // 365

# Şehre göre gruplama
sehir_analiz = df_customers.groupby('city').agg({
    'customer_id': 'count',
    'age': 'mean'
}).rename(columns={'customer_id': 'musteri_sayisi', 'age': 'ort_yas'})

sehir_analiz = sehir_analiz.sort_values('musteri_sayisi', ascending=False)
print("Şehirlere Göre Müşteri Analizi (Top 10):")
print(sehir_analiz.head(10))


#### Çoklu Aggregation

Müşteri segmentlerine göre sipariş istatistiklerini bulalım.


In [None]:
# Müşteri ve sipariş verilerini birleştir
df_orders_customers = pd.read_sql_query("""
    SELECT o.*, c.customer_segment 
    FROM orders o
    JOIN customers c ON o.customer_id = c.customer_id
""", conn)

# Segment bazında analiz
segment_analiz = df_orders_customers.groupby('customer_segment').agg({
    'order_id': 'count',
    'total_amount': ['sum', 'mean', 'max']
}).round(2)

print("Segment Bazında Sipariş Analizi:")
print(segment_analiz)


---
## TABLOLARI BİRLEŞTİRME

SQL JOIN'lerin Python karşılığı.


#### merge() ile Tablo Birleştirme

Siparişleri müşteri bilgileriyle birleştirelim.


In [None]:
# İlk 100 siparişi alalım
df_orders_sample = df_orders.head(100)

# Müşteri bilgileriyle birleştir (INNER JOIN)
df_merged = pd.merge(
    df_orders_sample,
    df_customers[['customer_id', 'first_name', 'last_name', 'city', 'customer_segment']],
    on='customer_id',
    how='inner'
)

print("Birleştirilmiş Veri (İlk 5 Satır):")
print(df_merged[['order_id', 'first_name', 'last_name', 'city', 'total_amount', 'order_status']].head())


---
## VERİ GÖRSELLEŞTİRME

Verilerimizi grafiklerle görselleştirelim.


#### Bar Chart (Çubuk Grafik)

Müşteri segmentlerine göre dağılımı çubuk grafikle gösterelim.


In [None]:
# Segment dağılımı
segment_counts = df_customers['customer_segment'].value_counts()

plt.figure(figsize=(10, 6))
segment_counts.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A'])
plt.title('Müşteri Segment Dağılımı', fontsize=16, fontweight='bold')
plt.xlabel('Segment', fontsize=12)
plt.ylabel('Müşteri Sayısı', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nSegment Dağılımı:")
print(segment_counts)


#### Line Chart (Çizgi Grafik)

**Senaryo:** Aylık satış trendini görelim.


In [None]:
# Aylık satışlar
df_orders['year_month'] = df_orders['order_date'].dt.to_period('M')
monthly_sales = df_orders.groupby('year_month')['total_amount'].sum() / 1000  # Bin TL cinsinden

plt.figure(figsize=(14, 6))
monthly_sales.plot(kind='line', marker='o', color='#4ECDC4', linewidth=2, markersize=6)
plt.title('Aylık Satış Trendi', fontsize=16, fontweight='bold')
plt.xlabel('Ay', fontsize=12)
plt.ylabel('Toplam Satış (Bin TL)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

print("\nSon 6 Ay Satış:")
print(monthly_sales.tail(6))


#### Histogram

Sipariş tutarlarının dağılımını görelim.


In [None]:
plt.figure(figsize=(12, 6))
plt.hist(df_orders['total_amount'], bins=50, color='#FF6B6B', alpha=0.7, edgecolor='black')
plt.title('Sipariş Tutarı Dağılımı', fontsize=16, fontweight='bold')
plt.xlabel('Sipariş Tutarı (TL)', fontsize=12)
plt.ylabel('Frekans', fontsize=12)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nOrtalama Sipariş: {df_orders['total_amount'].mean():.2f} TL")
print(f"Medyan Sipariş: {df_orders['total_amount'].median():.2f} TL")


---
## GERÇEK İŞ SENARYOLARI



### Case 1: Müşteri Segmentasyonu ve RFM Analizi

**İş Problemi:**  
Pazarlama ekibi, farklı müşteri gruplarına özel kampanyalar hazırlamak istiyor. Müşterileri davranışlarına göre segmentlere ayırıp, her segment için öneriler sunmanız gerekiyor.

**Analiz Hedefi:**  
RFM (Recency-Frequency-Monetary) analizi yaparak müşterileri değerlendirmek ve segmentlerin özelliklerini raporlamak.


In [None]:
# RFM analizi için gerekli verileri hazırlayalım
today = df_orders['order_date'].max()

rfm = df_orders.groupby('customer_id').agg({
    'order_date': lambda x: (today - x.max()).days,  # Recency
    'order_id': 'count',  # Frequency
    'total_amount': 'sum'  # Monetary
}).rename(columns={
    'order_date': 'Recency',
    'order_id': 'Frequency',
    'total_amount': 'Monetary'
})

# Müşteri bilgilerini ekle
rfm = rfm.merge(df_customers[['customer_id', 'customer_segment', 'city']], 
                left_index=True, right_on='customer_id')

# Segment bazında RFM ortalamaları
segment_rfm = rfm.groupby('customer_segment').agg({
    'Recency': 'mean',
    'Frequency': 'mean',
    'Monetary': 'mean',
    'customer_id': 'count'
}).rename(columns={'customer_id': 'Count'}).round(2)

print("Segment Bazında RFM Analizi:")
print(segment_rfm)

# En değerli 10 müşteri
top_customers = rfm.nlargest(10, 'Monetary')[['customer_id', 'Recency', 'Frequency', 'Monetary', 'customer_segment', 'city']]
print("\nEn Değerli 10 Müşteri:")
print(top_customers)


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Segment bazında toplam gelir
segment_revenue = rfm.groupby('customer_segment')['Monetary'].sum().sort_values(ascending=False)
axes[0, 0].bar(segment_revenue.index, segment_revenue.values / 1000000, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A'])
axes[0, 0].set_title('Segment Bazında Toplam Gelir', fontsize=14, fontweight='bold')
axes[0, 0].set_ylabel('Gelir (Milyon TL)')
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Segment bazında ortalama sipariş sıklığı
segment_freq = rfm.groupby('customer_segment')['Frequency'].mean().sort_values(ascending=False)
axes[0, 1].bar(segment_freq.index, segment_freq.values, color=['#9B59B6', '#3498DB', '#E74C3C', '#2ECC71'])
axes[0, 1].set_title('Segment Bazında Ortalama Sipariş Sayısı', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Ortalama Sipariş')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Recency dağılımı (box plot)
recency_data = [rfm[rfm['customer_segment'] == seg]['Recency'] for seg in ['bronze', 'silver', 'gold', 'platinum']]
axes[1, 0].boxplot(recency_data, labels=['Bronze', 'Silver', 'Gold', 'Platinum'])
axes[1, 0].set_title('Segment Bazında Recency Dağılımı', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Gün (Son Alışveriş)')
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Monetary vs Frequency scatter
for seg, color in zip(['bronze', 'silver', 'gold', 'platinum'], ['#CD7F32', '#C0C0C0', '#FFD700', '#E5E4E2']):
    seg_data = rfm[rfm['customer_segment'] == seg]
    axes[1, 1].scatter(seg_data['Frequency'], seg_data['Monetary']/1000, alpha=0.6, label=seg.capitalize(), s=50, color=color)
axes[1, 1].set_title('Sipariş Sıklığı vs Toplam Harcama', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Sipariş Sayısı')
axes[1, 1].set_ylabel('Toplam Harcama (Bin TL)')
axes[1, 1].legend()
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()


### Case 2: Ürün Performans Analizi

**İş Problemi:**  
Ürün müdürü, hangi ürünlerin iyi satıldığını, hangi kategorilerin performansının düşük olduğunu öğrenmek istiyor. Stok yönetimi için de öneriler bekleniyor.

**Analiz Hedefi:**  
Ürün ve kategori bazında satış performansı analizi yapmak, en çok ve en az satan ürünleri belirlemek.


In [None]:
# Sipariş kalemleri ve ürün bilgilerini birleştir
df_order_items = pd.read_sql_query("SELECT * FROM order_items", conn)
df_categories = pd.read_sql_query("SELECT * FROM categories", conn)

# Ürün satış analizi
product_sales = df_order_items.groupby('product_id').agg({
    'quantity': 'sum',
    'unit_price': 'mean',
    'item_id': 'count'
}).rename(columns={'quantity': 'total_quantity', 'unit_price': 'avg_price', 'item_id': 'order_count'})

# Ürün bilgilerini ekle
product_sales = product_sales.merge(df_products[['product_id', 'product_name', 'brand', 'category_id', 'stock_quantity']], 
                                    left_index=True, right_on='product_id')

# Kategori bilgilerini ekle
product_sales = product_sales.merge(df_categories[['category_id', 'category_name']], on='category_id')

# Toplam gelir hesapla
product_sales['total_revenue'] = product_sales['total_quantity'] * product_sales['avg_price']

# En çok satan 10 ürün
top_products = product_sales.nlargest(10, 'total_revenue')[['product_name', 'brand', 'category_name', 
                                                              'total_quantity', 'total_revenue', 'stock_quantity']]
print("En Çok Gelir Getiren 10 Ürün:")
print(top_products)

# Kategori bazında analiz
category_sales = product_sales.groupby('category_name').agg({
    'total_revenue': 'sum',
    'total_quantity': 'sum',
    'product_id': 'count'
}).rename(columns={'product_id': 'product_count'}).sort_values('total_revenue', ascending=False)

print("\nKategori Bazında Satış Performansı:")
print(category_sales.head(10))


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Top 10 ürün geliri
top_10_revenue = product_sales.nlargest(10, 'total_revenue')
axes[0, 0].barh(range(len(top_10_revenue)), top_10_revenue['total_revenue']/1000, color='#4ECDC4')
axes[0, 0].set_yticks(range(len(top_10_revenue)))
axes[0, 0].set_yticklabels(top_10_revenue['product_name'].str[:30], fontsize=9)
axes[0, 0].set_title('En Çok Gelir Getiren 10 Ürün', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Toplam Gelir (Bin TL)')
axes[0, 0].invert_yaxis()
axes[0, 0].grid(axis='x', alpha=0.3)

# 2. Kategori bazında gelir
top_categories = category_sales.nlargest(10, 'total_revenue')
axes[0, 1].bar(range(len(top_categories)), top_categories['total_revenue']/1000000, color='#FF6B6B')
axes[0, 1].set_xticks(range(len(top_categories)))
axes[0, 1].set_xticklabels(top_categories.index, rotation=45, ha='right', fontsize=9)
axes[0, 1].set_title('Kategori Bazında Toplam Gelir (Top 10)', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Gelir (Milyon TL)')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Marka bazında satış
brand_sales = product_sales.groupby('brand')['total_revenue'].sum().nlargest(10)
axes[1, 0].barh(range(len(brand_sales)), brand_sales.values/1000, color='#45B7D1')
axes[1, 0].set_yticks(range(len(brand_sales)))
axes[1, 0].set_yticklabels(brand_sales.index, fontsize=10)
axes[1, 0].set_title('En Çok Gelir Getiren 10 Marka', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Toplam Gelir (Bin TL)')
axes[1, 0].invert_yaxis()
axes[1, 0].grid(axis='x', alpha=0.3)

# 4. Stok durumu vs satış
axes[1, 1].scatter(product_sales['total_quantity'], product_sales['stock_quantity'], alpha=0.5, color='#9B59B6', s=30)
axes[1, 1].set_title('Satış Miktarı vs Mevcut Stok', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Toplam Satılan Miktar')
axes[1, 1].set_ylabel('Mevcut Stok')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()


### Case 3: Satış Trendi ve Mevsimsellik Analizi

**İş Problemi:**  
CFO, yıllık büyüme oranlarını ve mevsimsel trendleri görmek istiyor. Gelecek dönem için bütçe planlaması yapacak.

**Analiz Hedefi:**  
Yıllık ve aylık satış trendlerini analiz etmek, mevsimsel desenleri belirlemek, büyüme oranlarını hesaplamak.


In [None]:
# Yıllık satış analizi
yearly_sales = df_orders.groupby('year').agg({
    'order_id': 'count',
    'total_amount': 'sum'
}).rename(columns={'order_id': 'order_count', 'total_amount': 'total_revenue'})

yearly_sales['yoy_growth'] = yearly_sales['total_revenue'].pct_change() * 100

print("Yıllık Satış Analizi:")
print(yearly_sales)

# Aylık satış analizi
monthly_analysis = df_orders.groupby([df_orders['order_date'].dt.year, 
                                      df_orders['order_date'].dt.month]).agg({
    'order_id': 'count',
    'total_amount': 'sum'
}).rename(columns={'order_id': 'order_count', 'total_amount': 'revenue'})

# Mevsimsel analiz
df_orders['quarter'] = df_orders['order_date'].dt.quarter
quarterly_sales = df_orders.groupby(['year', 'quarter'])['total_amount'].sum().reset_index()

print("\nÇeyrek Bazında Satış:")
print(quarterly_sales)

# Günlük ortalama satış
df_orders['month_name'] = df_orders['order_date'].dt.month_name()
monthly_avg = df_orders.groupby('month_name')['total_amount'].mean().reindex([
    'January', 'February', 'March', 'April', 'May', 'June',
    'July', 'August', 'September', 'October', 'November', 'December'
])

print("\nAy Bazında Ortalama Sipariş Tutarı:")
print(monthly_avg)


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Yıllık satış trendi
axes[0, 0].plot(yearly_sales.index, yearly_sales['total_revenue']/1000000, marker='o', linewidth=3, markersize=10, color='#FF6B6B')
axes[0, 0].set_title('Yıllık Satış Trendi', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Yıl')
axes[0, 0].set_ylabel('Gelir (Milyon TL)')
axes[0, 0].grid(alpha=0.3)
for i, val in enumerate(yearly_sales['total_revenue']/1000000):
    axes[0, 0].text(yearly_sales.index[i], val, f'{val:.1f}M', ha='center', va='bottom', fontsize=10)

# 2. Aylık satış trendi (tüm dönem)
monthly_sales_all = df_orders.groupby('year_month')['total_amount'].sum() / 1000
axes[0, 1].plot(range(len(monthly_sales_all)), monthly_sales_all.values, marker='', linewidth=2, color='#4ECDC4')
axes[0, 1].set_title('Aylık Satış Trendi (Tüm Dönem)', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Ay İndeksi')
axes[0, 1].set_ylabel('Satış (Bin TL)')
axes[0, 1].grid(alpha=0.3)

# 3. Çeyreksel satış karşılaştırması
pivot_quarterly = quarterly_sales.pivot(index='quarter', columns='year', values='total_amount') / 1000000
pivot_quarterly.plot(kind='bar', ax=axes[1, 0], color=['#45B7D1', '#FFA07A', '#98D8C8', '#F7DC6F'])
axes[1, 0].set_title('Çeyreksel Satış Karşılaştırması', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Çeyrek')
axes[1, 0].set_ylabel('Gelir (Milyon TL)')
axes[1, 0].set_xticklabels(['Q1', 'Q2', 'Q3', 'Q4'], rotation=0)
axes[1, 0].legend(title='Yıl')
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Aylar arası ortalama sipariş tutarı
month_order = ['January', 'February', 'March', 'April', 'May', 'June',
               'July', 'August', 'September', 'October', 'November', 'December']
month_labels = ['Oca', 'Şub', 'Mar', 'Nis', 'May', 'Haz', 'Tem', 'Ağu', 'Eyl', 'Eki', 'Kas', 'Ara']
axes[1, 1].plot(range(12), monthly_avg.values, marker='o', linewidth=2, markersize=8, color='#9B59B6')
axes[1, 1].set_xticks(range(12))
axes[1, 1].set_xticklabels(month_labels)
axes[1, 1].set_title('Aylara Göre Ortalama Sipariş Tutarı', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Ay')
axes[1, 1].set_ylabel('Ortalama Tutar (TL)')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()


### Case 4: Sepet Analizi

**İş Problemi:**  
E-ticaret müdürü, sepet tutarlarını artırmak için stratejiler geliştirmek istiyor. Ortalama sepet değeri, sepet başına ürün sayısı gibi metrikleri analiz etmeniz gerekiyor.

**Analiz Hedefi:**  
Sepet istatistiklerini analiz etmek, yüksek ve düşük sepet değerli müşterileri belirlemek, cross-selling fırsatlarını tespit etmek.


In [None]:
# Sipariş bazında ürün sayısı
order_item_count = df_order_items.groupby('order_id')['item_id'].count().reset_index()
order_item_count.columns = ['order_id', 'item_count']

# Siparişlerle birleştir
basket_analysis = df_orders.merge(order_item_count, on='order_id')

print("Sepet İstatistikleri:")
print(f"Ortalama Sepet Tutarı: {basket_analysis['total_amount'].mean():.2f} TL")
print(f"Medyan Sepet Tutarı: {basket_analysis['total_amount'].median():.2f} TL")
print(f"Ortalama Ürün Sayısı/Sepet: {basket_analysis['item_count'].mean():.2f}")
print(f"Maksimum Sepet Tutarı: {basket_analysis['total_amount'].max():.2f} TL")

# Ödeme yöntemine göre sepet analizi
payment_basket = basket_analysis.groupby('payment_method').agg({
    'total_amount': ['mean', 'count'],
    'item_count': 'mean'
}).round(2)

print("\nÖdeme Yöntemine Göre Sepet Analizi:")
print(payment_basket)

# Müşteri segmentine göre sepet
basket_analysis = basket_analysis.merge(df_customers[['customer_id', 'customer_segment']], on='customer_id')
segment_basket = basket_analysis.groupby('customer_segment').agg({
    'total_amount': ['mean', 'median'],
    'item_count': 'mean'
}).round(2)

print("\nSegmente Göre Sepet Analizi:")
print(segment_basket)


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Sepet tutarı dağılımı
axes[0, 0].hist(basket_analysis['total_amount'], bins=50, color='#4ECDC4', alpha=0.7, edgecolor='black')
axes[0, 0].axvline(basket_analysis['total_amount'].mean(), color='red', linestyle='--', linewidth=2, label=f'Ortalama: {basket_analysis["total_amount"].mean():.0f} TL')
axes[0, 0].axvline(basket_analysis['total_amount'].median(), color='orange', linestyle='--', linewidth=2, label=f'Medyan: {basket_analysis["total_amount"].median():.0f} TL')
axes[0, 0].set_title('Sepet Tutarı Dağılımı', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Sepet Tutarı (TL)')
axes[0, 0].set_ylabel('Frekans')
axes[0, 0].legend()
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Segment bazında ortalama sepet
segment_avg = basket_analysis.groupby('customer_segment')['total_amount'].mean().sort_values(ascending=False)
axes[0, 1].bar(segment_avg.index, segment_avg.values, color=['#FF6B6B', '#45B7D1', '#FFA07A', '#98D8C8'])
axes[0, 1].set_title('Segmente Göre Ortalama Sepet Tutarı', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Ortalama Tutar (TL)')
axes[0, 1].grid(axis='y', alpha=0.3)
for i, v in enumerate(segment_avg.values):
    axes[0, 1].text(i, v, f'{v:.0f}', ha='center', va='bottom', fontsize=10)

# 3. Sepet tutarı vs ürün sayısı
axes[1, 0].scatter(basket_analysis['item_count'], basket_analysis['total_amount'], alpha=0.3, s=30, color='#9B59B6')
axes[1, 0].set_title('Sepetteki Ürün Sayısı vs Sepet Tutarı', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Ürün Sayısı')
axes[1, 0].set_ylabel('Sepet Tutarı (TL)')
axes[1, 0].grid(alpha=0.3)

# 4. Ödeme yöntemine göre ortalama sepet
payment_avg = basket_analysis.groupby('payment_method')['total_amount'].mean().sort_values(ascending=False)
axes[1, 1].barh(range(len(payment_avg)), payment_avg.values, color='#45B7D1')
axes[1, 1].set_yticks(range(len(payment_avg)))
axes[1, 1].set_yticklabels(payment_avg.index)
axes[1, 1].set_title('Ödeme Yöntemine Göre Ortalama Sepet', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Ortalama Tutar (TL)')
axes[1, 1].invert_yaxis()
axes[1, 1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()


### Case 5: Müşteri Yaşam Döngüsü ve Churn Analizi

**İş Problemi:**  
CRM müdürü, hangi müşterilerin kaybedilme riski taşıdığını bilmek istiyor. Müşterilerin ilk ve son alışveriş tarihleri, aktivite durumu gibi bilgilere ihtiyaç var.

**Analiz Hedefi:**  
Müşteri yaşam döngüsünü analiz etmek, churn (kayıp müşteri) riskini tespit etmek, müşteri tutma stratejileri önermek.


In [None]:
# Müşteri bazında ilk ve son sipariş tarihleri
customer_lifecycle = df_orders.groupby('customer_id').agg({
    'order_date': ['min', 'max', 'count'],
    'total_amount': 'sum'
})

customer_lifecycle.columns = ['first_order', 'last_order', 'order_count', 'total_spent']
customer_lifecycle['days_since_first'] = (df_orders['order_date'].max() - customer_lifecycle['first_order']).dt.days
customer_lifecycle['days_since_last'] = (df_orders['order_date'].max() - customer_lifecycle['last_order']).dt.days

# Churn riski tanımlama (90 günden uzun süredir alışveriş yapmamış)
customer_lifecycle['churn_risk'] = customer_lifecycle['days_since_last'].apply(
    lambda x: 'Yüksek' if x > 180 else ('Orta' if x > 90 else 'Düşük')
)

# Segment bilgilerini ekle
customer_lifecycle = customer_lifecycle.merge(df_customers[['customer_id', 'customer_segment', 'city']], 
                                              left_index=True, right_on='customer_id')

print("Churn Risk Dağılımı:")
print(customer_lifecycle['churn_risk'].value_counts())

print("\nChurn Risk Gruplarına Göre İstatistikler:")
churn_stats = customer_lifecycle.groupby('churn_risk').agg({
    'order_count': 'mean',
    'total_spent': 'mean',
    'days_since_last': 'mean',
    'customer_id': 'count'
}).rename(columns={'customer_id': 'customer_count'}).round(2)
print(churn_stats)

# Yüksek riskli ama değerli müşteriler
high_risk_valuable = customer_lifecycle[
    (customer_lifecycle['churn_risk'] == 'Yüksek') & 
    (customer_lifecycle['total_spent'] > customer_lifecycle['total_spent'].median())
].sort_values('total_spent', ascending=False)

print(f"\nYüksek Riskli Değerli Müşteri Sayısı: {len(high_risk_valuable)}")
print("\nEn Değerli Yüksek Riskli Müşteriler (Top 10):")
print(high_risk_valuable[['customer_id', 'order_count', 'total_spent', 'days_since_last', 'customer_segment']].head(10))


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Churn risk dağılımı
risk_counts = customer_lifecycle['churn_risk'].value_counts()
colors_risk = ['#27AE60', '#F39C12', '#E74C3C']
axes[0, 0].pie(risk_counts.values, labels=risk_counts.index, autopct='%1.1f%%', colors=colors_risk, startangle=90)
axes[0, 0].set_title('Churn Risk Dağılımı', fontsize=14, fontweight='bold')

# 2. Risk grubuna göre ortalama harcama
risk_spending = customer_lifecycle.groupby('churn_risk')['total_spent'].mean().reindex(['Düşük', 'Orta', 'Yüksek'])
axes[0, 1].bar(risk_spending.index, risk_spending.values, color=colors_risk)
axes[0, 1].set_title('Risk Grubuna Göre Ortalama Toplam Harcama', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Ortalama Harcama (TL)')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Son alışverişten geçen gün dağılımı
axes[1, 0].hist(customer_lifecycle['days_since_last'], bins=50, color='#3498DB', alpha=0.7, edgecolor='black')
axes[1, 0].axvline(90, color='orange', linestyle='--', linewidth=2, label='90 Gün')
axes[1, 0].axvline(180, color='red', linestyle='--', linewidth=2, label='180 Gün')
axes[1, 0].set_title('Son Alışverişten Geçen Gün Dağılımı', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Gün')
axes[1, 0].set_ylabel('Müşteri Sayısı')
axes[1, 0].legend()
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Segment bazında churn risk dağılımı
segment_risk = pd.crosstab(customer_lifecycle['customer_segment'], customer_lifecycle['churn_risk'], normalize='index') * 100
segment_risk = segment_risk[['Düşük', 'Orta', 'Yüksek']]
segment_risk.plot(kind='bar', stacked=True, ax=axes[1, 1], color=colors_risk)
axes[1, 1].set_title('Segmente Göre Churn Risk Dağılımı (%)', fontsize=14, fontweight='bold')
axes[1, 1].set_ylabel('Yüzde (%)')
axes[1, 1].set_xlabel('Segment')
axes[1, 1].set_xticklabels(segment_risk.index, rotation=0)
axes[1, 1].legend(title='Risk')
axes[1, 1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()


### Case 6: Kampanya Performans Analizi

**İş Problemi:**  
Pazarlama müdürü, geçmiş kampanyaların ne kadar etkili olduğunu ölçmek istiyor. Hangi kampanyaların daha çok gelir getirdiğini, hangi segmentlerin kampanyalara daha duyarlı olduğunu bilmek gerekiyor.

**Analiz Hedefi:**  
Kampanya bazında satış ve gelir analizi yapmak, kampanya ROI'sini değerlendirmek, gelecek kampanyalar için öneriler sunmak.


In [None]:
# Kampanya verilerini çek
df_campaigns = pd.read_sql_query("SELECT * FROM campaigns", conn)

# Kampanyalı vs kampanyasız siparişler
campaign_orders = df_orders[df_orders['campaign_id'].notnull()].copy()
no_campaign_orders = df_orders[df_orders['campaign_id'].isnull()].copy()

print("Kampanya İstatistikleri:")
print(f"Toplam Kampanya Sayısı: {len(df_campaigns)}")
print(f"Kampanyalı Sipariş: {len(campaign_orders)} (%{len(campaign_orders)/len(df_orders)*100:.1f})")
print(f"Kampanyasız Sipariş: {len(no_campaign_orders)} (%{len(no_campaign_orders)/len(df_orders)*100:.1f})")
print(f"\nKampanyalı Sipariş Ort: {campaign_orders['total_amount'].mean():.2f} TL")
print(f"Kampanyasız Sipariş Ort: {no_campaign_orders['total_amount'].mean():.2f} TL")

# Kampanyaları siparişlerle birleştir
campaign_analysis = campaign_orders.merge(df_campaigns, on='campaign_id')

# Kampanya bazında performans
campaign_perf = campaign_analysis.groupby('campaign_name').agg({
    'order_id': 'count',
    'total_amount': 'sum',
    'discount_rate': 'first'
}).rename(columns={'order_id': 'order_count', 'total_amount': 'total_revenue'})

campaign_perf['avg_order_value'] = campaign_perf['total_revenue'] / campaign_perf['order_count']
campaign_perf = campaign_perf.sort_values('total_revenue', ascending=False)

print("\nEn Başarılı Kampanyalar (Gelir Bazında):")
print(campaign_perf.head(10))


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Top 10 kampanya geliri
top_10_campaigns = campaign_perf.nlargest(10, 'total_revenue')
axes[0, 0].barh(range(len(top_10_campaigns)), top_10_campaigns['total_revenue']/1000, color='#FF6B6B')
axes[0, 0].set_yticks(range(len(top_10_campaigns)))
axes[0, 0].set_yticklabels(top_10_campaigns.index.str[:40], fontsize=9)
axes[0, 0].set_title('En Çok Gelir Getiren 10 Kampanya', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Toplam Gelir (Bin TL)')
axes[0, 0].invert_yaxis()
axes[0, 0].grid(axis='x', alpha=0.3)

# 2. Kampanyalı vs Kampanyasız karşılaştırma
comparison_data = pd.DataFrame({
    'Kategori': ['Kampanyalı', 'Kampanyasız'],
    'Ortalama Sepet': [campaign_orders['total_amount'].mean(), no_campaign_orders['total_amount'].mean()],
    'Sipariş Sayısı': [len(campaign_orders), len(no_campaign_orders)]
})
axes[0, 1].bar(comparison_data['Kategori'], comparison_data['Ortalama Sepet'], color=['#4ECDC4', '#95A5A6'])
axes[0, 1].set_title('Kampanyalı vs Kampanyasız Ortalama Sepet', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Ortalama Tutar (TL)')
axes[0, 1].grid(axis='y', alpha=0.3)
for i, v in enumerate(comparison_data['Ortalama Sepet']):
    axes[0, 1].text(i, v, f'{v:.0f}', ha='center', va='bottom', fontsize=10)

# 3. İndirim oranı vs sipariş sayısı
discount_orders = campaign_perf.sort_values('discount_rate')
axes[1, 0].scatter(discount_orders['discount_rate']*100, discount_orders['order_count'], s=100, alpha=0.6, color='#9B59B6')
axes[1, 0].set_title('İndirim Oranı vs Sipariş Sayısı', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('İndirim Oranı (%)')
axes[1, 0].set_ylabel('Sipariş Sayısı')
axes[1, 0].grid(alpha=0.3)

# 4. Kampanya sayısına göre aylık trend
campaign_monthly = campaign_orders.groupby('year_month').size()
axes[1, 1].plot(range(len(campaign_monthly)), campaign_monthly.values, marker='o', linewidth=2, markersize=6, color='#45B7D1')
axes[1, 1].set_title('Kampanyalı Sipariş Sayısı Trendi', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Ay İndeksi')
axes[1, 1].set_ylabel('Sipariş Sayısı')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()


### Case 7: Coğrafi Satış Analizi

**İş Problemi:**  
Lojistik ve satış müdürü, hangi şehirlere odaklanılması gerektiğini, hangi bölgelerde pazar payının düşük olduğunu öğrenmek istiyor.

**Analiz Hedefi:**  
Şehir ve bölge bazında satış analizi yapmak, coğrafi performans farklılıklarını belirlemek, lojistik optimizasyonu için öneriler sunmak.


In [None]:
# Şehir bazında müşteri ve sipariş analizi
city_customers = df_customers.groupby('city').agg({
    'customer_id': 'count'
}).rename(columns={'customer_id': 'customer_count'})

# Sipariş verilerini şehirle birleştir
orders_with_city = df_orders.merge(df_customers[['customer_id', 'city']], on='customer_id')

city_orders = orders_with_city.groupby('city').agg({
    'order_id': 'count',
    'total_amount': 'sum',
    'shipping_cost': 'mean'
}).rename(columns={'order_id': 'order_count', 'total_amount': 'total_revenue', 'shipping_cost': 'avg_shipping'})

# Müşteri ve sipariş verilerini birleştir
city_analysis = city_customers.merge(city_orders, left_index=True, right_index=True)
city_analysis['revenue_per_customer'] = city_analysis['total_revenue'] / city_analysis['customer_count']
city_analysis['orders_per_customer'] = city_analysis['order_count'] / city_analysis['customer_count']
city_analysis = city_analysis.sort_values('total_revenue', ascending=False)

print("Şehir Bazında Analiz (Top 15):")
print(city_analysis.head(15))

# En karlı ve en az karlı şehirler
print("\nEn Yüksek Müşteri Başına Gelir (Top 10):")
print(city_analysis.nlargest(10, 'revenue_per_customer')[['customer_count', 'order_count', 'revenue_per_customer']])

print("\nEn Düşük Müşteri Başına Gelir (Bottom 10):")
print(city_analysis.nsmallest(10, 'revenue_per_customer')[['customer_count', 'order_count', 'revenue_per_customer']])


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Top 15 şehir geliri
top_15_cities = city_analysis.nlargest(15, 'total_revenue')
axes[0, 0].barh(range(len(top_15_cities)), top_15_cities['total_revenue']/1000000, color='#4ECDC4')
axes[0, 0].set_yticks(range(len(top_15_cities)))
axes[0, 0].set_yticklabels(top_15_cities.index, fontsize=10)
axes[0, 0].set_title('En Çok Gelir Getiren 15 Şehir', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Toplam Gelir (Milyon TL)')
axes[0, 0].invert_yaxis()
axes[0, 0].grid(axis='x', alpha=0.3)

# 2. Müşteri sayısı vs toplam gelir
axes[0, 1].scatter(city_analysis['customer_count'], city_analysis['total_revenue']/1000, alpha=0.6, s=80, color='#FF6B6B')
axes[0, 1].set_title('Müşteri Sayısı vs Toplam Gelir', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Müşteri Sayısı')
axes[0, 1].set_ylabel('Gelir (Bin TL)')
axes[0, 1].grid(alpha=0.3)

# Büyük şehirleri etiketle
for idx in top_15_cities.index[:5]:
    row = city_analysis.loc[idx]
    axes[0, 1].annotate(idx, (row['customer_count'], row['total_revenue']/1000), 
                       fontsize=8, alpha=0.7)

# 3. Müşteri başına gelir (Top 15)
top_revenue_per_cust = city_analysis.nlargest(15, 'revenue_per_customer')
axes[1, 0].bar(range(len(top_revenue_per_cust)), top_revenue_per_cust['revenue_per_customer'], color='#45B7D1')
axes[1, 0].set_xticks(range(len(top_revenue_per_cust)))
axes[1, 0].set_xticklabels(top_revenue_per_cust.index, rotation=45, ha='right', fontsize=9)
axes[1, 0].set_title('Müşteri Başına En Yüksek Gelir (Top 15)', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Müşteri Başına Gelir (TL)')
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Ortalama kargo maliyeti (Top 15 şehir)
top_shipping = city_analysis.nlargest(15, 'avg_shipping')
axes[1, 1].barh(range(len(top_shipping)), top_shipping['avg_shipping'], color='#FFA07A')
axes[1, 1].set_yticks(range(len(top_shipping)))
axes[1, 1].set_yticklabels(top_shipping.index, fontsize=10)
axes[1, 1].set_title('En Yüksek Ortalama Kargo Maliyeti (Top 15)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Ortalama Kargo (TL)')
axes[1, 1].invert_yaxis()
axes[1, 1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()


### Case 8: Ürün Yorum Analizi

**İş Problemi:**  
Ürün yönetimi ekibi, hangi ürünlerin düşük puan aldığını ve müşteri memnuniyetsizliğine neden olduğunu tespit etmek istiyor. Kötü yorumlara hızlıca müdahale etmek gerekiyor.

**Analiz Hedefi:**  
Ürün puanlarını analiz etmek, düşük puanlı ürünleri belirlemek, yorum dağılımlarını incelemek, iyileştirme önerileri sunmak.


In [None]:
# Yorum verilerini çek
df_reviews = pd.read_sql_query("SELECT * FROM reviews", conn)

print("Yorum İstatistikleri:")
print(f"Toplam Yorum Sayısı: {len(df_reviews)}")
print(f"Ortalama Rating: {df_reviews['rating'].mean():.2f}")
print(f"Medyan Rating: {df_reviews['rating'].median():.0f}")

# Rating dağılımı
rating_dist = df_reviews['rating'].value_counts().sort_index()
print("\nRating Dağılımı:")
print(rating_dist)

# Ürün bazında ortalama rating
product_ratings = df_reviews.groupby('product_id').agg({
    'rating': ['mean', 'count'],
    'review_id': 'count'
}).round(2)
product_ratings.columns = ['avg_rating', 'rating_count', 'review_count']

# Ürün bilgilerini ekle
product_ratings = product_ratings.merge(df_products[['product_id', 'product_name', 'brand', 'category_id']], 
                                       left_index=True, right_on='product_id')
product_ratings = product_ratings.merge(df_categories[['category_id', 'category_name']], on='category_id')

# En düşük puanlı ürünler (minimum 5 yorum)
low_rated = product_ratings[product_ratings['review_count'] >= 5].nsmallest(15, 'avg_rating')
print("\nEn Düşük Puanlı Ürünler (Min 5 Yorum):")
print(low_rated[['product_name', 'brand', 'avg_rating', 'review_count']])

# En yüksek puanlı ürünler
high_rated = product_ratings[product_ratings['review_count'] >= 5].nlargest(15, 'avg_rating')
print("\nEn Yüksek Puanlı Ürünler (Min 5 Yorum):")
print(high_rated[['product_name', 'brand', 'avg_rating', 'review_count']])

# Kategori bazında ortalama rating
category_ratings = product_ratings.groupby('category_name').agg({
    'avg_rating': 'mean',
    'review_count': 'sum'
}).sort_values('avg_rating', ascending=False)

print("\nKategori Bazında Ortalama Rating (Top 10):")
print(category_ratings.head(10))


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Rating dağılımı
axes[0, 0].bar(rating_dist.index, rating_dist.values, color=['#E74C3C', '#E67E22', '#F39C12', '#2ECC71', '#27AE60'])
axes[0, 0].set_title('Rating Dağılımı', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Rating (Yıldız)')
axes[0, 0].set_ylabel('Yorum Sayısı')
axes[0, 0].set_xticks([1, 2, 3, 4, 5])
axes[0, 0].grid(axis='y', alpha=0.3)
for i, v in enumerate(rating_dist.values):
    axes[0, 0].text(rating_dist.index[i], v, str(v), ha='center', va='bottom')

# 2. En düşük puanlı 10 ürün
worst_10 = product_ratings[product_ratings['review_count'] >= 5].nsmallest(10, 'avg_rating')
axes[0, 1].barh(range(len(worst_10)), worst_10['avg_rating'], color='#E74C3C')
axes[0, 1].set_yticks(range(len(worst_10)))
axes[0, 1].set_yticklabels(worst_10['product_name'].str[:30], fontsize=9)
axes[0, 1].set_title('En Düşük Puanlı 10 Ürün', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Ortalama Rating')
axes[0, 1].set_xlim(0, 5)
axes[0, 1].invert_yaxis()
axes[0, 1].grid(axis='x', alpha=0.3)

# 3. Kategori bazında ortalama rating (Top 15)
top_15_cat = category_ratings.nlargest(15, 'avg_rating')
axes[1, 0].bar(range(len(top_15_cat)), top_15_cat['avg_rating'], color='#4ECDC4')
axes[1, 0].set_xticks(range(len(top_15_cat)))
axes[1, 0].set_xticklabels(top_15_cat.index, rotation=45, ha='right', fontsize=8)
axes[1, 0].set_title('Kategori Bazında Ortalama Rating (Top 15)', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Ortalama Rating')
axes[1, 0].set_ylim(0, 5)
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Kötü yorumlar için kelime bulutu
bad_reviews = df_reviews[df_reviews['rating'] <= 2]['review_text'].dropna()
if len(bad_reviews) > 0:
    # Tüm kötü yorumları birleştir
    all_bad_reviews = ' '.join(bad_reviews.astype(str))
    
    # Kelime bulutu oluştur
    wordcloud = WordCloud(
        width=800, 
        height=400, 
        background_color='white',
        colormap='Reds',
        max_words=100,
        relative_scaling=0.5,
        min_font_size=10
    ).generate(all_bad_reviews)
    
    axes[1, 1].imshow(wordcloud, interpolation='bilinear')
    axes[1, 1].set_title('Kötü Yorumlarda En Çok Geçen Kelimeler (1-2 Yıldız)', 
                         fontsize=14, fontweight='bold')
    axes[1, 1].axis('off')
else:
    axes[1, 1].text(0.5, 0.5, 'Kötü yorum bulunamadı', 
                   ha='center', va='center', fontsize=12)

plt.tight_layout()
plt.show()


### Case 9: Ödeme Yöntemi ve Sipariş Durumu Analizi

**İş Problemi:**  
Finans müdürü, hangi ödeme yöntemlerinin daha popüler olduğunu, iptal oranlarını ve ödeme yöntemlerine göre müşteri davranışlarını analiz etmek istiyor.

**Analiz Hedefi:**  
Ödeme yöntemi tercihlerini analiz etmek, sipariş durumu dağılımlarını incelemek, segment ve ödeme yöntemi ilişkisini ortaya koymak.


In [None]:
# Ödeme yöntemi analizi
payment_analysis = df_orders.groupby('payment_method').agg({
    'order_id': 'count',
    'total_amount': ['sum', 'mean']
}).round(2)
payment_analysis.columns = ['order_count', 'total_revenue', 'avg_order_value']
payment_analysis['market_share'] = (payment_analysis['order_count'] / len(df_orders) * 100).round(2)
payment_analysis = payment_analysis.sort_values('order_count', ascending=False)

print("Ödeme Yöntemi Analizi:")
print(payment_analysis)

# Sipariş durumu analizi
status_analysis = df_orders.groupby('order_status').agg({
    'order_id': 'count',
    'total_amount': 'sum'
})
status_analysis['percentage'] = (status_analysis['order_id'] / len(df_orders) * 100).round(2)

print("\nSipariş Durumu Dağılımı:")
print(status_analysis)

# Segment ve ödeme yöntemi ilişkisi
orders_with_segment = df_orders.merge(df_customers[['customer_id', 'customer_segment']], on='customer_id')
segment_payment = pd.crosstab(orders_with_segment['customer_segment'], 
                               orders_with_segment['payment_method'], 
                               normalize='index') * 100

print("\nSegmente Göre Ödeme Yöntemi Tercihi (%):")
print(segment_payment.round(2))

# Ödeme yöntemine göre iptal oranı
payment_status = pd.crosstab(df_orders['payment_method'], df_orders['order_status'], normalize='index') * 100
print("\nÖdeme Yöntemine Göre Sipariş Durumu (%):")
print(payment_status.round(2))


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Ödeme yöntemi pazar payı
axes[0, 0].pie(payment_analysis['order_count'], labels=payment_analysis.index, autopct='%1.1f%%', startangle=90, colors=plt.cm.Set3.colors)
axes[0, 0].set_title('Ödeme Yöntemi Pazar Payı', fontsize=14, fontweight='bold')

# 2. Ödeme yöntemine göre ortalama sepet
axes[0, 1].bar(payment_analysis.index, payment_analysis['avg_order_value'], color='#4ECDC4')
axes[0, 1].set_title('Ödeme Yöntemine Göre Ortalama Sipariş Tutarı', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Ortalama Tutar (TL)')
axes[0, 1].set_xticklabels(payment_analysis.index, rotation=45, ha='right')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Sipariş durumu dağılımı
status_counts = df_orders['order_status'].value_counts()
colors_status = {'delivered': '#27AE60', 'cancelled': '#E74C3C', 'pending': '#F39C12', 'returned': '#E67E22'}
colors = [colors_status.get(x, '#95A5A6') for x in status_counts.index]
axes[1, 0].bar(status_counts.index, status_counts.values, color=colors)
axes[1, 0].set_title('Sipariş Durumu Dağılımı', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Sipariş Sayısı')
axes[1, 0].grid(axis='y', alpha=0.3)
for i, v in enumerate(status_counts.values):
    axes[1, 0].text(i, v, str(v), ha='center', va='bottom')

# 4. Segment bazında ödeme yöntemi
segment_payment.T.plot(kind='bar', stacked=False, ax=axes[1, 1], color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A'])
axes[1, 1].set_title('Segmente Göre Ödeme Yöntemi Tercihi', fontsize=14, fontweight='bold')
axes[1, 1].set_ylabel('Yüzde (%)')
axes[1, 1].set_xlabel('Ödeme Yöntemi')
axes[1, 1].set_xticklabels(axes[1, 1].get_xticklabels(), rotation=45, ha='right')
axes[1, 1].legend(title='Segment')
axes[1, 1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()


### Case 10: Veri Kalitesi ve Temizleme

**İş Problemi:**  
Veri mühendisliği ekibi, veritabanındaki veri kalitesini kontrol etmek, eksik verileri tespit etmek ve aykırı değerleri (outlier) belirlemek istiyor.

**Analiz Hedefi:**  
Missing data (eksik veri) analizi yapmak, outlier tespiti, veri dağılımlarını kontrol etmek, veri kalitesi raporu hazırlamak.


In [None]:
# Missing data analizi
print("="*60)
print("VERİ KALİTESİ RAPORU")
print("="*60)

# Müşteriler tablosu
print("\n1. CUSTOMERS Tablosu - Missing Data:")
missing_customers = df_customers.isnull().sum()
missing_pct_customers = (missing_customers / len(df_customers) * 100).round(2)
missing_df_customers = pd.DataFrame({
    'Missing Count': missing_customers,
    'Percentage': missing_pct_customers
})
print(missing_df_customers[missing_df_customers['Missing Count'] > 0])

# Siparişler tablosu
print("\n2. ORDERS Tablosu - Missing Data:")
missing_orders = df_orders.isnull().sum()
missing_pct_orders = (missing_orders / len(df_orders) * 100).round(2)
missing_df_orders = pd.DataFrame({
    'Missing Count': missing_orders,
    'Percentage': missing_pct_orders
})
print(missing_df_orders[missing_df_orders['Missing Count'] > 0])

# Outlier analizi - Sipariş tutarları
print("\n3. OUTLIER ANALİZİ - Sipariş Tutarları:")
Q1 = df_orders['total_amount'].quantile(0.25)
Q3 = df_orders['total_amount'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df_orders[(df_orders['total_amount'] < lower_bound) | (df_orders['total_amount'] > upper_bound)]
print(f"Q1 (25%): {Q1:.2f} TL")
print(f"Q3 (75%): {Q3:.2f} TL")
print(f"IQR: {IQR:.2f} TL")
print(f"Alt Sınır: {lower_bound:.2f} TL")
print(f"Üst Sınır: {upper_bound:.2f} TL")
print(f"Outlier Sayısı: {len(outliers)} (%{len(outliers)/len(df_orders)*100:.2f})")

# Duplicate kontrol
print("\n4. DUPLICATE KONTROLÜ:")
print(f"Müşteri Email Duplicate: {df_customers['email'].duplicated().sum()}")
print(f"Sipariş ID Duplicate: {df_orders['order_id'].duplicated().sum()}")
print(f"Ürün ID Duplicate: {df_products['product_id'].duplicated().sum()}")

# Veri tutarlılığı
print("\n5. VERİ TUTARLILIĞI:")
print(f"Toplam Müşteri: {len(df_customers)}")
print(f"Sipariş Veren Benzersiz Müşteri: {df_orders['customer_id'].nunique()}")
print(f"Hiç Sipariş Vermemiş Müşteri: {len(df_customers) - df_orders['customer_id'].nunique()}")

# Fiyat kontrolü
print("\n6. FİYAT KONTROLÜ:")
print(f"Minimum Sipariş Tutarı: {df_orders['total_amount'].min():.2f} TL")
print(f"Maksimum Sipariş Tutarı: {df_orders['total_amount'].max():.2f} TL")
print(f"Sıfır veya Negatif Fiyatlı Ürün: {len(df_products[df_products['price'] <= 0])}")

print("\n" + "="*60)


In [None]:
# Görselleştirme
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Box plot - Sipariş tutarları outlier tespiti
axes[0, 0].boxplot(df_orders['total_amount'], vert=True)
axes[0, 0].set_title('Sipariş Tutarları - Box Plot (Outlier Tespiti)', fontsize=14, fontweight='bold')
axes[0, 0].set_ylabel('Sipariş Tutarı (TL)')
axes[0, 0].grid(axis='y', alpha=0.3)
axes[0, 0].axhline(y=upper_bound, color='red', linestyle='--', label=f'Üst Sınır: {upper_bound:.0f}', alpha=0.7)
axes[0, 0].legend()

# 2. Histogram - Normal dağılım vs gerçek
axes[0, 1].hist(df_orders['total_amount'], bins=50, alpha=0.7, color='#4ECDC4', edgecolor='black', density=True)
axes[0, 1].axvline(df_orders['total_amount'].mean(), color='red', linestyle='--', linewidth=2, label=f'Ortalama: {df_orders["total_amount"].mean():.0f}')
axes[0, 1].axvline(df_orders['total_amount'].median(), color='orange', linestyle='--', linewidth=2, label=f'Medyan: {df_orders["total_amount"].median():.0f}')
axes[0, 1].set_title('Sipariş Tutarı Dağılımı', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Sipariş Tutarı (TL)')
axes[0, 1].set_ylabel('Yoğunluk')
axes[0, 1].legend()
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Ürün fiyat dağılımı
axes[1, 0].hist(df_products['price'], bins=50, alpha=0.7, color='#9B59B6', edgecolor='black')
axes[1, 0].set_title('Ürün Fiyat Dağılımı', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Fiyat (TL)')
axes[1, 0].set_ylabel('Ürün Sayısı')
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Stok dağılımı
axes[1, 1].hist(df_products['stock_quantity'], bins=50, alpha=0.7, color='#45B7D1', edgecolor='black')
axes[1, 1].set_title('Stok Miktarı Dağılımı', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Stok Miktarı')
axes[1, 1].set_ylabel('Ürün Sayısı')
axes[1, 1].axvline(df_products['stock_quantity'].mean(), color='red', linestyle='--', linewidth=2, label=f'Ortalama: {df_products["stock_quantity"].mean():.0f}')
axes[1, 1].legend()
axes[1, 1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()


In [None]:
# Veritabanı bağlantısını kapat
#conn.close()
print("Veritabanı bağlantısı kapatıldı. Analiz tamamlandı!")


## Bu eğitimin devamında neler yapabilirsiniz?

**1. Kaggle Yarışmaları**  

**2. Portfolyo Projeleri** 

**3. Biz Bootcamp Yapıyoruz** 

**4. Bir sektör seç ve o domana özel projeler yap**

**5. CV'ni hazırla ve işlere başvur** 

