# Olist E-Ticaret Intelligence Projesi

## Case: Lojistik Optimizasyonu ve Müşteri Sadakati

**Senaryo:** Siz Olist'te çalışan bir Data Scientist'siniz. Olist, Brezilya'nın en büyük e-ticaret platformlarından biridir ve 3,000+ satıcıyı büyük pazaryerleriyle buluşturmaktadır.

**Problemler:**
1. Teslimat süreleri tahmin edilemez
2. Müşteri memnuniyeti düşük (Review Score 1-2 oranı %12)
3. Müşterilerin %97'si sadece 1 kez alışveriş yapıyor

**Görevler:**
1. Teslimat süresini tahmin eden model geliştir
2. Churn riski yüksek müşterileri belirle
3. Aksiyon önerilerinde bulun

**Veri:** 100K sipariş (2016-2018), 9 tablo

![Data Schema](https://i.imgur.com/HRhd2Y0.png)

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
from sqlalchemy import create_engine, text
import warnings
warnings.filterwarnings('ignore')

engine = create_engine('postgresql://postgres:postgres@localhost:5432/olist')

## Adım 1: Veri Keşfi

In [2]:
# Tablo boyutları
tables = ['orders', 'order_items', 'customers', 'sellers', 'products', 'order_reviews', 'order_payments', 'geolocation']

print("Tablo Boyutları:")
print("="*40)
for table in tables:
    with engine.connect() as conn:
        count = pd.read_sql(text(f"SELECT COUNT(*) FROM {table}"), conn).iloc[0,0]
    print(f"{table}: {count:,} satır")

Tablo Boyutları:
orders: 99,441 satır
order_items: 112,650 satır
customers: 99,441 satır
sellers: 3,095 satır
products: 32,951 satır
order_reviews: 99,224 satır
order_payments: 103,886 satır
geolocation: 1,000,163 satır


## Adım 2: Target Analizi (Teslimat Süresi)

In [3]:
# Teslimat süresi dağılımı
query = """
SELECT 
    EXTRACT(EPOCH FROM (order_delivered_customer_date::timestamp - order_purchase_timestamp::timestamp))/86400 as delivery_days
FROM orders
WHERE order_status = 'delivered' AND order_delivered_customer_date IS NOT NULL
"""

with engine.connect() as conn:
    delivery = pd.read_sql(text(query), conn)

print(f"Teslimat Süresi İstatistikleri:")
print(f"   Ortalama: {delivery['delivery_days'].mean():.1f} gün")
print(f"   Medyan: {delivery['delivery_days'].median():.1f} gün")
print(f"   Std: {delivery['delivery_days'].std():.1f} gün")

fig = px.histogram(delivery, x='delivery_days', nbins=50,
                   title='Teslimat Süresi Dağılımı',
                   labels={'delivery_days': 'Teslimat Süresi (Gün)'})
fig.add_vline(x=delivery['delivery_days'].mean(), line_dash='dash', line_color='red')
fig.show()

Teslimat Süresi İstatistikleri:
   Ortalama: 12.6 gün
   Medyan: 10.2 gün
   Std: 9.5 gün


## Adım 3: Müşteri Davranışı

In [4]:
# Müşteri başına sipariş sayısı
query = """
SELECT customer_unique_id, COUNT(DISTINCT order_id) as order_count
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
GROUP BY customer_unique_id
"""

with engine.connect() as conn:
    customer_orders = pd.read_sql(text(query), conn)

repeat_rate = (customer_orders['order_count'] > 1).mean() * 100
print(f"Tekrar Alışveriş Oranı: {repeat_rate:.1f}%")
print(f"Tek Seferlik Müşteri Oranı: {100-repeat_rate:.1f}%")

fig = px.pie(values=[repeat_rate, 100-repeat_rate], 
             names=['Tekrar Eden', 'Tek Seferlik'],
             title='Müşteri Sadakati',
             color_discrete_sequence=['#2ecc71', '#e74c3c'])
fig.show()

Tekrar Alışveriş Oranı: 3.1%
Tek Seferlik Müşteri Oranı: 96.9%


## Adım 4: Review Score Analizi

In [5]:
query = """
SELECT review_score, COUNT(*) as count
FROM order_reviews
GROUP BY review_score
ORDER BY review_score
"""

with engine.connect() as conn:
    reviews = pd.read_sql(text(query), conn)

fig = px.bar(reviews, x='review_score', y='count',
             title='Review Score Dağılımı',
             color='review_score', color_continuous_scale='RdYlGn')
fig.show()

low_score_rate = reviews[reviews['review_score'] <= 2]['count'].sum() / reviews['count'].sum() * 100
print(f"Düşük Puan Oranı (1-2): {low_score_rate:.1f}%")

Düşük Puan Oranı (1-2): 14.7%


## Adım 5: Coğrafi Analiz

In [6]:
query = """
SELECT c.customer_state, COUNT(DISTINCT o.order_id) as orders,
       AVG(EXTRACT(EPOCH FROM (o.order_delivered_customer_date::timestamp - o.order_purchase_timestamp::timestamp))/86400) as avg_delivery
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_status = 'delivered' AND o.order_delivered_customer_date IS NOT NULL
GROUP BY c.customer_state
ORDER BY orders DESC
"""

with engine.connect() as conn:
    states = pd.read_sql(text(query), conn)

fig = px.bar(states.head(10), x='customer_state', y='avg_delivery',
             title='Eyaletlere Göre Ortalama Teslimat Süresi',
             color='avg_delivery', color_continuous_scale='RdYlGn_r',
             labels={'customer_state': 'Eyalet', 'avg_delivery': 'Ort. Teslimat (gün)'})
fig.show()

## Feature Selection Strategy

### Level 1: Data Quality
- Missing > 80% → Drop
- Variance < 0.01 → Drop

### Level 2: Model-Based
- Importance < 0.01 → Drop

### Level 3: Correlation
- Correlation > 0.95 → Keep higher importance

**Sonuç:** 10 optimal özellik seçildi.

## Sonuç: Teşhis

### Kritik Bulgular
1. **Retention Krizi:** Müşterilerin %97'si sadece 1 kez alışveriş yapıyor
2. **Teslimat Değişkenliği:** 12.5 gün ortalama, 9.5 gün std
3. **Memnuniyetsizlik:** %12 düşük review score (1-2)

### Sonraki Adımlar
- NB2: Teslimat modeli
- NB3: Churn modeli
- NB4: Segmentasyon