# 🛒 Olist E-Ticaret Intelligence Projesi

## Notebook 1: Keşifsel Veri Analizi (EDA)

---

### 📋 Proje Özeti

Bu projede Brezilya'nın en büyük e-ticaret platformu Olist'in verilerini analiz ediyoruz.

### 🎯 İş Problemleri

| Problem | Mevcut Durum | Hedef |
|---------|--------------|-------|
| Teslimat tahmini | 12.5 gün ± 9.5 | RMSE < 8 gün |
| Müşteri memnuniyeti | %12 düşük review | < %8 |
| Tekrar satın alma | %3 | > %10 |

### 📊 Bu Notebook'ta:
1. Veri keşfi
2. Teslimat süresi analizi
3. Müşteri davranışı
4. Review score analizi
5. Coğrafi analiz


In [1]:
# Kütüphaneler
import pandas as pd
import numpy as np
import plotly.express as px
from sqlalchemy import create_engine, text
import warnings
warnings.filterwarnings('ignore')

# Veritabanı bağlantısı
engine = create_engine('sqlite:///../olist.db')
print('✅ Veritabanı bağlantısı kuruldu')

✅ Veritabanı bağlantısı kuruldu


In [2]:
# --- OTOMATİK VERİ YÜKLEME ---
# Eğer tablolar veritabanında yoksa, otomatik olarak Kaggle'dan indirip yükler.

from sqlalchemy import inspect
import sys
import os

# Proje kök dizinine erişim (src modülü için)
if '..' not in sys.path:
    sys.path.append(os.path.abspath('..'))

from src.config import DATABASE_URL, DATA_RAW_PATH
from src.ml.ingest import OlistIngestor

inspector = inspect(engine)
if not inspector.has_table('orders'):
    print('⚠️ Tablolar bulunamadı. Veri yükleme işlemi başlatılıyor... (Bu işlem 1-2 dk sürebilir)')
    # Config dosyasındaki URL yerine notebook engine'ini kullanabiliriz ama ingestor db_url ister
    # engine.url stringe çevrilebilir
    ingestor = OlistIngestor(str(engine.url), str(DATA_RAW_PATH))
    ingestor.run()
    print('✅ Veri yükleme tamamlandı!')
else:
    print('✅ Tablolar mevcut. Analize devam edebilirsiniz.')


2025-12-08 21:37:51,861 - INFO - 🚀 Starting Data Ingestion Process...


2025-12-08 21:37:51,862 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:51,862 - INFO - Processing olist_sellers_dataset.csv -> Table: sellers


2025-12-08 21:37:51,938 - INFO - ✅ Successfully wrote 3095 rows to 'sellers'


2025-12-08 21:37:51,938 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:51,938 - INFO - Processing product_category_name_translation.csv -> Table: product_category_name_translation


2025-12-08 21:37:51,941 - INFO - ✅ Successfully wrote 71 rows to 'product_category_name_translation'


2025-12-08 21:37:51,941 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:51,941 - INFO - Processing olist_orders_dataset.csv -> Table: orders


⚠️ Tablolar bulunamadı. Veri yükleme işlemi başlatılıyor... (Bu işlem 1-2 dk sürebilir)


2025-12-08 21:37:52,425 - INFO - ✅ Successfully wrote 99441 rows to 'orders'


2025-12-08 21:37:52,426 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:52,426 - INFO - Processing olist_order_items_dataset.csv -> Table: order_items


2025-12-08 21:37:52,849 - INFO - ✅ Successfully wrote 112650 rows to 'order_items'


2025-12-08 21:37:52,850 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:52,850 - INFO - Processing olist_customers_dataset.csv -> Table: customers


2025-12-08 21:37:53,237 - INFO - ✅ Successfully wrote 99441 rows to 'customers'


2025-12-08 21:37:53,237 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:53,238 - INFO - Processing olist_geolocation_dataset.csv -> Table: geolocation


2025-12-08 21:37:56,360 - INFO - ✅ Successfully wrote 1000163 rows to 'geolocation'


2025-12-08 21:37:56,362 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:56,363 - INFO - Processing olist_order_payments_dataset.csv -> Table: order_payments


2025-12-08 21:37:56,674 - INFO - ✅ Successfully wrote 103886 rows to 'order_payments'


2025-12-08 21:37:56,675 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:56,675 - INFO - Processing olist_order_reviews_dataset.csv -> Table: order_reviews


2025-12-08 21:37:57,239 - INFO - ✅ Successfully wrote 99224 rows to 'order_reviews'


2025-12-08 21:37:57,240 - INFO - Starting call to 'src.ml.ingest.OlistIngestor.ingest_file', this is the 1st time calling it.


2025-12-08 21:37:57,240 - INFO - Processing olist_products_dataset.csv -> Table: products


2025-12-08 21:37:57,365 - INFO - ✅ Successfully wrote 32951 rows to 'products'


2025-12-08 21:37:57,366 - INFO - ✨ Data Ingestion Complete.


✅ Veri yükleme tamamlandı!


---
## 📊 Adım 1: Veri Keşfi

Olist veri seti 8 tablodan oluşuyor. Her tablonun boyutunu inceleyelim.

In [3]:
# Tablo boyutları
tables = ['orders', 'order_items', 'customers', 'sellers', 
          'products', 'order_reviews', 'order_payments', 'geolocation']

print('📦 Tablo Boyutları')
print('='*40)
for table in tables:
    try:
        with engine.connect() as conn:
            result = conn.execute(text(f'SELECT COUNT(*) FROM {table}'))
            count = result.scalar()
        print(f'{table}: {count:,} satır')
    except Exception as e:
        print(f'{table}: HATA - {e}')

📦 Tablo Boyutları
orders: 99,441 satır
order_items: 112,650 satır
customers: 99,441 satır
sellers: 3,095 satır
products: 32,951 satır
order_reviews: 99,224 satır
order_payments: 103,886 satır
geolocation: 1,000,163 satır


### 📈 Yorum

- **orders (~100K)**: Ana analiz tablosu
- **customers (~99K)**: Neredeyse her sipariş farklı müşteri → düşük retention
- **order_items (~112K)**: Sipariş başına ~1.1 ürün → düşük sepet boyutu

---
## 🎯 Adım 2: Teslimat Süresi Analizi

Teslimat süresi = Sipariş tarihi ile teslim tarihi arasındaki gün farkı

In [4]:
# Teslimat süresi hesaplama
query = '''
SELECT 
    (JULIANDAY(order_delivered_customer_date) - JULIANDAY(order_purchase_timestamp)) as teslimat_gunu
FROM orders 
WHERE order_delivered_customer_date IS NOT NULL
    AND order_status = 'delivered'
'''

with engine.connect() as conn:
    delivery = pd.read_sql(text(query), conn)

print('📦 Teslimat Süresi İstatistikleri')
print('='*40)
print(f'Ortalama: {delivery["teslimat_gunu"].mean():.1f} gün')
print(f'Medyan:   {delivery["teslimat_gunu"].median():.1f} gün')
print(f'Std:      {delivery["teslimat_gunu"].std():.1f} gün')
print(f'Min:      {delivery["teslimat_gunu"].min():.1f} gün')
print(f'Max:      {delivery["teslimat_gunu"].max():.1f} gün')

# Histogram
fig = px.histogram(delivery, x='teslimat_gunu', nbins=50,
                   title='Teslimat Süresi Dağılımı',
                   labels={'teslimat_gunu': 'Teslimat Süresi (Gün)'})
fig.add_vline(x=delivery['teslimat_gunu'].mean(), line_dash='dash', 
              line_color='red', annotation_text='Ortalama')
fig.show()

📦 Teslimat Süresi İstatistikleri
Ortalama: 12.6 gün
Medyan:   10.2 gün
Std:      9.5 gün
Min:      0.5 gün
Max:      209.6 gün


### 📊 Yorum

- **Sağa çarpık dağılım**: Ortalama > Medyan (uzun teslimatlar etkili)
- **Yüksek varyans**: Tahmin zorluğu
- **Aykırı değerler**: 50+ gün teslimatlar var

---
## 👥 Adım 3: Müşteri Davranışı

Müşteri başına sipariş sayısı ve retention analizi

In [5]:
# Müşteri başına sipariş
query = '''
SELECT c.customer_unique_id, COUNT(DISTINCT o.order_id) as order_count
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_status = 'delivered'
GROUP BY c.customer_unique_id
'''

with engine.connect() as conn:
    customer_orders = pd.read_sql(text(query), conn)

print('👥 Müşteri Sipariş Dağılımı')
print('='*40)
freq = customer_orders['order_count'].value_counts().sort_index()
for count in range(1, min(6, len(freq)+1)):
    if count in freq.index:
        pct = freq[count] / len(customer_orders) * 100
        print(f'{count} sipariş: {freq[count]:,} müşteri ({pct:.1f}%)')

tek_siparisli = (customer_orders['order_count'] == 1).mean() * 100
print(f'\n⚠️ Tek seferlik müşteri oranı: {tek_siparisli:.1f}%')

# Pie chart
fig = px.pie(values=[tek_siparisli, 100-tek_siparisli],
             names=['Tek Seferlik', 'Tekrar Eden'],
             title='Müşteri Retention Durumu',
             color_discrete_sequence=['#FF6B6B', '#4ECDC4'])
fig.show()

👥 Müşteri Sipariş Dağılımı
1 sipariş: 90,557 müşteri (97.0%)
2 sipariş: 2,573 müşteri (2.8%)
3 sipariş: 181 müşteri (0.2%)
4 sipariş: 28 müşteri (0.0%)
5 sipariş: 9 müşteri (0.0%)

⚠️ Tek seferlik müşteri oranı: 97.0%


### 👥 Yorum

| Metrik | Değer | Durum |
|--------|-------|-------|
| Tek seferlik müşteri | ~97% | 🔴 Kritik |

**Sonuç**: Ciddi retention problemi. NB3'te churn modeli geliştirilecek.

---
## ⭐ Adım 4: Review Score Analizi

Müşteri memnuniyetinin doğrudan göstergesi

In [6]:
# Review score dağılımı
query = '''
SELECT review_score, COUNT(*) as count
FROM order_reviews
GROUP BY review_score
ORDER BY review_score
'''

with engine.connect() as conn:
    reviews = pd.read_sql(text(query), conn)

print('⭐ Review Score Dağılımı')
print('='*40)
total = reviews['count'].sum()
for _, row in reviews.iterrows():
    pct = row['count'] / total * 100
    bar = '█' * int(pct/2)
    print(f'{int(row["review_score"])} yıldız: {bar} {pct:.1f}%')

dusuk = reviews[reviews['review_score'] <= 2]['count'].sum() / total * 100
print(f'\n🔴 Düşük review oranı (1-2): {dusuk:.1f}%')

fig = px.bar(reviews, x='review_score', y='count',
             title='Review Score Dağılımı',
             labels={'review_score': 'Score', 'count': 'Sayı'})
fig.show()

⭐ Review Score Dağılımı
1 yıldız: █████ 11.5%
2 yıldız: █ 3.2%
3 yıldız: ████ 8.2%
4 yıldız: █████████ 19.3%
5 yıldız: ████████████████████████████ 57.8%

🔴 Düşük review oranı (1-2): 14.7%


### ⭐ Yorum

- 5 yıldız dominant (~55%) - Pozitif
- 1 yıldız ~11% - Kritik segment

---
## 🗺️ Adım 5: Coğrafi Analiz

Brezilya'nın farklı bölgelerindeki teslimat performansı

In [7]:
# Eyalet bazlı analiz
query = '''
SELECT 
    c.customer_state as state,
    COUNT(DISTINCT o.order_id) as orders,
    AVG((JULIANDAY(o.order_delivered_customer_date) - JULIANDAY(o.order_purchase_timestamp))) as avg_delivery
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_delivered_customer_date IS NOT NULL
GROUP BY c.customer_state
ORDER BY orders DESC
LIMIT 10
'''

with engine.connect() as conn:
    geo = pd.read_sql(text(query), conn)

print('🗺️ Top 10 Eyalet')
print('='*50)
for _, row in geo.iterrows():
    print(f"{row['state']}: {int(row['orders']):,} sipariş, {row['avg_delivery']:.1f} gün")

fig = px.bar(geo, x='state', y='orders', color='avg_delivery',
             title='Eyalet Bazlı Sipariş ve Teslimat Süresi',
             labels={'state': 'Eyalet', 'orders': 'Sipariş', 'avg_delivery': 'Ort. Teslimat'})
fig.show()

🗺️ Top 10 Eyalet
SP: 40,495 sipariş, 8.8 gün
RJ: 12,353 sipariş, 15.3 gün
MG: 11,355 sipariş, 12.0 gün
RS: 5,344 sipariş, 15.3 gün
PR: 4,923 sipariş, 12.0 gün
SC: 3,547 sipariş, 15.0 gün
BA: 3,256 sipariş, 19.3 gün
DF: 2,080 sipariş, 13.0 gün
ES: 1,995 sipariş, 15.8 gün
GO: 1,957 sipariş, 15.6 gün


### 🗺️ Yorum

- **SP (São Paulo)**: En yoğun, en hızlı
- **Kuzey bölgeleri**: Düşük yoğunluk, yavaş teslimat

---
## 🔗 Bu Notebook'un Çıktıları Nerede Kullanılıyor?

| Çıktı | Kullanıldığı Yer | Açıklama |
|-------|------------------|----------|
| Teslimat ortalaması (12.5 gün) | NB2 baseline | Model iyileştirme hedefi |
| %97 tek seferlik | NB3 churn tanımı | Problem motivasyonu |
| Review dağılımı | Dashboard | Memnuniyet metrikleri |
| Coğrafi bulgular | NB2 features | distance_km, same_state |

> 📌 **Bağlantı:** Bu analizler NB2'deki model özelliklerini ve NB3'teki churn tanımını şekillendiriyor.


---
## 📋 Sonuç

### 🔍 Kritik Bulgular

| # | Bulgu | Öncelik |
|---|-------|---------|
| 1 | %97 tek seferlik müşteri | 🔴 Kritik |
| 2 | 12.5 gün ortalama teslimat | 🔴 Kritik |
| 3 | %12 düşük review | 🟡 Yüksek |
| 4 | Coğrafi eşitsizlik | 🟡 Yüksek |

### 🎯 Sonraki Adımlar

- **NB2**: Teslimat süresi tahmini modeli
- **NB3**: Müşteri churn tahmini
- **NB4**: Müşteri segmentasyonu
- **NB5**: Final değerlendirme

---

> 📌 **EDA Tamamlandı.** Sonraki notebook'a geçebilirsiniz.