# Database'e Bağlanma

In [23]:
# Initialize Supabase
import os
from supabase import create_client, Client

url: str = os.environ.get("SUPABASE_URL", "https://mxnrqdursjketupxahqc.supabase.co")
key: str = os.environ.get("SUPABASE_KEY", "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Im14bnJxZHVyc2prZXR1cHhhaHFjIiwicm9sZSI6ImFub24iLCJpYXQiOjE3MTg0NDMzNDIsImV4cCI6MjAzNDAxOTM0Mn0.5dovWWqwyngMKPR1WLeihw60Uqgw-SqNRsQn9nbSpRc")
supabase: Client = create_client(url, key)

In [24]:
# Read database
orders_json = supabase.from_("Orders").select("*").execute().data
order_items_json = supabase.from_("Order_Items").select("*").execute().data
product_json = supabase.from_("Products").select("*").execute().data
customers_json = supabase.from_("Customers").select("*").execute().data

# Verileri İçeri Al

In [25]:
# Convert to pandas
import pandas as pd
import numpy as np

orders = pd.DataFrame(orders_json)
order_items = pd.DataFrame(order_items_json)
products = pd.DataFrame(product_json)
customers = pd.DataFrame(customers_json)

In [26]:
df = order_items.merge(
    orders.drop(['CUSTOMERNAME'], axis=1), on = 'ORDERNUMBER', how='left'
    ).merge(
        products, on = 'PRODUCTCODE', how='left'
        ).merge(
            customers, left_on = 'CUSTOMER-ID', right_on='ID', how='left'
            )
        
df = df[['ORDERDATE', 'SALES', 'PRODUCTLINE', 'CLUSTER-PRODUCTLINE', 'CUSTOMERNAME', 'SEGMENT']]
df.head(3)

Unnamed: 0,ORDERDATE,SALES,PRODUCTLINE,CLUSTER-PRODUCTLINE,CUSTOMERNAME,SEGMENT
0,2004-05-07,3200.0,Vintage Cars,0,Land of Toys Inc.,111
1,2004-05-07,3200.0,Vintage Cars,0,Land of Toys Inc.,111
2,2004-07-21,4000.0,Vintage Cars,0,Petit Auto,111


# ML için Verileri Hazırla

Bu kısımda kuracağımı makine öğrenmesi modelinin amacını hangi müşterinin hangi tarihte ne kadar alış yapacağının tahminini yapma üzerine kurmaya çalışacağım.

In [27]:
df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'])

df = df.astype({'CLUSTER-PRODUCTLINE': 'int', 'SEGMENT': 'int'})

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2396 entries, 0 to 2395
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ORDERDATE            2396 non-null   datetime64[ns]
 1   SALES                2396 non-null   float64       
 2   PRODUCTLINE          2396 non-null   object        
 3   CLUSTER-PRODUCTLINE  2396 non-null   int64         
 4   CUSTOMERNAME         2396 non-null   object        
 5   SEGMENT              2396 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 112.4+ KB


In [28]:
print("Benzersiz Müşteri Sayısı: ", df['CUSTOMERNAME'].nunique())
print("Benzersiz Ürün Kategorisi Sayısı: ", df['PRODUCTLINE'].nunique())

Benzersiz Müşteri Sayısı:  92
Benzersiz Ürün Kategorisi Sayısı:  7


In [29]:
def ohe(df, col):
    df = pd.concat([df, pd.get_dummies(df[col], prefix=col, drop_first=True)], axis=1)
    df = df.drop(col, axis=1)
    
    # PRODUCTLINE_ ile başlayan tüm bool sütunlarını int tipine dönüştürme
    bool_columns = df.columns[df.columns.str.startswith(F'{col}_') & (df.dtypes == 'bool')]
    df[bool_columns] = df[bool_columns].astype(int)

    return df

In [30]:
df = ohe(df, 'PRODUCTLINE')
df['CUSTOMERNAME'] = df['CUSTOMERNAME'].astype('category').cat.codes

df.head()

Unnamed: 0,ORDERDATE,SALES,CLUSTER-PRODUCTLINE,CUSTOMERNAME,SEGMENT,PRODUCTLINE_Motorcycles,PRODUCTLINE_Planes,PRODUCTLINE_Ships,PRODUCTLINE_Trains,PRODUCTLINE_Trucks and Buses,PRODUCTLINE_Vintage Cars
0,2004-05-07,3200.0,0,45,111,0,0,0,0,0,1
1,2004-05-07,3200.0,0,45,111,0,0,0,0,0,1
2,2004-07-21,4000.0,0,64,111,0,0,0,0,0,1
3,2004-07-21,4000.0,0,64,111,0,0,0,0,0,1
4,2004-08-20,4300.0,0,55,333,0,0,0,0,0,1


In [31]:
import holidays

us_holidays = holidays.US()

def extract_date_features(df, date_column, holidays_list):
    df[date_column] = pd.to_datetime(df[date_column])
    df['Year'] = df[date_column].dt.year
    df['Month'] = df[date_column].dt.month
    df['Day'] = df[date_column].dt.day
    df['Weekday'] = df[date_column].dt.weekday
    df['DayOfYear'] = df[date_column].dt.dayofyear
    df['Quarter'] = df[date_column].dt.quarter
    df['WeekOfYear'] = df[date_column].dt.isocalendar().week
    df['IsMonthStart'] = df[date_column].dt.is_month_start.astype(int)
    df['IsMonthEnd'] = df[date_column].dt.is_month_end.astype(int)
    df['IsHoliday'] = df[date_column].isin(holidays_list).astype(int)
    
    df.drop(date_column, axis=1, inplace=True)

    return df

In [32]:
df = extract_date_features(df, 'ORDERDATE', us_holidays)

df.head(3)

Unnamed: 0,SALES,CLUSTER-PRODUCTLINE,CUSTOMERNAME,SEGMENT,PRODUCTLINE_Motorcycles,PRODUCTLINE_Planes,PRODUCTLINE_Ships,PRODUCTLINE_Trains,PRODUCTLINE_Trucks and Buses,PRODUCTLINE_Vintage Cars,Year,Month,Day,Weekday,DayOfYear,Quarter,WeekOfYear,IsMonthStart,IsMonthEnd,IsHoliday
0,3200.0,0,45,111,0,0,0,0,0,1,2004,5,7,4,128,2,19,0,0,0
1,3200.0,0,45,111,0,0,0,0,0,1,2004,5,7,4,128,2,19,0,0,0
2,4000.0,0,64,111,0,0,0,0,0,1,2004,7,21,2,203,3,30,0,0,0


In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2396 entries, 0 to 2395
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   SALES                         2396 non-null   float64
 1   CLUSTER-PRODUCTLINE           2396 non-null   int64  
 2   CUSTOMERNAME                  2396 non-null   int8   
 3   SEGMENT                       2396 non-null   int64  
 4   PRODUCTLINE_Motorcycles       2396 non-null   int64  
 5   PRODUCTLINE_Planes            2396 non-null   int64  
 6   PRODUCTLINE_Ships             2396 non-null   int64  
 7   PRODUCTLINE_Trains            2396 non-null   int64  
 8   PRODUCTLINE_Trucks and Buses  2396 non-null   int64  
 9   PRODUCTLINE_Vintage Cars      2396 non-null   int64  
 10  Year                          2396 non-null   int32  
 11  Month                         2396 non-null   int32  
 12  Day                           2396 non-null   int32  
 13  Wee

In [34]:
from sklearn.model_selection import train_test_split

X = df.drop(['SALES'], axis=1).values
y = df['SALES']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=True)

In [35]:
from sklearn.preprocessing import MinMaxScaler

sc = MinMaxScaler(feature_range=(0, 1))

X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# ML Model İnşaası

## Problem Tanımı

Bu problem, zaman serisi ve kategorik veriler içeren bir regresyon problemidir. Amaç, belirli bir tarih ve müşteri bilgisi kullanarak belirli bir ürün hattı (PRODUCTLINE) için satışları (SALES) tahmin etmektir. 

⚠️ Bu tür bir tahmin, perakende satış, envanter yönetimi ve iş stratejileri geliştirme gibi birçok uygulama alanında kritik öneme sahiptir.

Verinin yapısı gereği, hem zaman serisi bileşenlerini hem de kategorik özellikleri dikkate alan modellerin kullanılması gerekmektedir.

## Kullanılabilecek Modeller

Bu problemde kullanılabilecek modeller arasında doğrusal regresyon, karar ağaçları, rastgele ormanlar, gradient boosting, ve derin öğrenme modelleri bulunmaktadır. Her modelin avantajları ve dezavantajları ile bu problemdeki performanslarını etkileyebilecek hiperparametreler aşağıda açıklanmıştır.

| Model İsmi               | Avantajları | Dezavantajları | Önemli Hiperparametreleri |
|--------------------------|-------------|----------------|---------------------------|
| Linear Regression        | Basit ve hızlı, yorumlanabilir | Kompleks ilişkileri yakalayamaz | Regularization strength (L1, L2) |
| Decision Tree            | Yorumlanabilir, kategorik verilerle iyi çalışır | Overfitting eğilimi | Max depth, min samples split |
| Random Forest            | Overfitting'i azaltır, genellikle yüksek performanslı | Yavaş ve büyük hafıza kullanımı | Number of trees, max features |
| Gradient Boosting        | Yüksek doğruluk, overfitting kontrolü | Uzun eğitim süresi, karmaşık yapı | Learning rate, n_estimators |
| XGBoost                  | Daha hızlı ve daha doğru gradient boosting | Karmaşık yapı, hiperparametre ayarlama gerektirir | Learning rate, max depth, subsample |
| LSTM (Long Short-Term Memory) | Zaman serisi verileriyle iyi çalışır, geçmiş bilgiyi korur | Uzun eğitim süresi, büyük veri setleri gerektirir | Number of units, learning rate, batch size |
| Prophet                  | Sezonluk ve trend analizlerinde iyi performans | Karmaşık ilişkiyi yakalayamaz | Changepoint prior scale, seasonality mode |
| CatBoost                 | Kategorik verilerle mükemmel performans, otomatik işlem | Karmaşık yapı, uzun eğitim süresi | Learning rate, depth, iterations |

### Model Detayları

1. **Linear Regression**
   - **🟢 Avantajları**: Basit ve hızlı, sonuçlar kolayca yorumlanabilir.
   - **🔴 Dezavantajları**: Non-lineer ve kompleks ilişkileri yakalayamaz, çok sayıda kategorik veriyle iyi çalışmayabilir.
   - **👉 Önemli Hiperparametreleri**: Regularization strength (L1, L2).

2. **Decision Tree**
   - **🟢 Avantajları**: Yorumlanabilir, hem sayısal hem de kategorik verilerle iyi çalışır.
   - **🔴 Dezavantajları**: Overfitting'e eğilimli, derin ağaçlar büyük veri setlerinde performans sorunları yaratabilir.
   - **👉 Önemli Hiperparametreleri**: Max depth, min samples split.

3. **Random Forest**
   - **🟢 Avantajları**: Overfitting'i azaltır, genellikle yüksek performans sağlar.
   - **🔴 Dezavantajları**: Yavaş ve büyük hafıza kullanımı.
   - **👉 Önemli Hiperparametreleri**: Number of trees, max features.

4. **Gradient Boosting**
   - **🟢 Avantajları**: Yüksek doğruluk, overfitting kontrolü sağlar.
   - **🔴 Dezavantajları**: Uzun eğitim süresi, hiperparametre ayarlaması gerektirir.
   - **👉 Önemli Hiperparametreleri**: Learning rate, n_estimators.

5. **XGBoost**
   - **🟢 Avantajları**: Gradient boosting'den daha hızlı ve daha doğru.
   - **🔴 Dezavantajları**: Karmaşık yapı, hiperparametre ayarlama gerektirir.
   - **👉 Önemli Hiperparametreleri**: Learning rate, max depth, subsample.

6. **LSTM (Long Short-Term Memory)**
   - **🟢 Avantajları**: Zaman serisi verileriyle iyi çalışır, geçmiş bilgiyi korur.
   - **🔴 Dezavantajları**: Uzun eğitim süresi, büyük veri setleri gerektirir.
   - **👉 Önemli Hiperparametreleri**: Number of units, learning rate, batch size.

7. **Prophet**
   - **🟢 Avantajları**: Sezonluk ve trend analizlerinde iyi performans gösterir.
   - **🔴 Dezavantajları**: Karmaşık ilişkiyi yakalayamaz, sadece zaman serisi verileri için uygundur.
   - **👉 Önemli Hiperparametreleri**: Changepoint prior scale, seasonality mode.

8. **CatBoost**
   - **🟢 Avantajları**: Kategorik verilerle mükemmel performans gösterir, otomatik işlem yapar.
   - **🔴 Dezavantajları**: Karmaşık yapı, uzun eğitim süresi.
   - **👉 Önemli Hiperparametreleri**: Learning rate, depth, iterations.

Bu modellerden, özellikle zaman serisi bileşenleri ve kategorik özelliklerin bulunduğu bu veri setinde, XGBoost ve LSTM gibi modellerin iyi performans göstermesi beklenebilir. XGBoost, gradient boosting algoritmasının optimizasyonlarını içerdiğinden dolayı hızlı ve doğru sonuçlar verebilirken, LSTM modeli zaman serisi verilerinde geçmiş bilgiyi koruma özelliği ile etkili tahminler yapabilir. Prophet, sezonluk ve trend analizleri için kullanılabilir, ancak daha karmaşık ilişkileri yakalama konusunda yetersiz olabilir.

In [36]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

def evaluate_model(X_train, X_test, y_train, y_test, model, params):
    results = []

    # Hiperparametrelerle model oluşturma
    model.set_params(**params)

    # Modeli eğitme
    model.fit(X_train, y_train)

    # Tahmin yapma
    y_pred = model.predict(X_test)

    # Performans metriklerini hesaplama
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    mae = mean_absolute_error(y_test, y_pred)
    mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100
    r2 = r2_score(y_test, y_pred)

    # Sonuçları kaydetme
    results.append({
        'Model': type(model).__name__,
        'Hiperparametreler': params,
        'RMSE': rmse,
        'MAE': mae,
        'MAPE': mape,
        'R2': r2
    })

    return pd.DataFrame(results)

In [37]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from xgboost import XGBRegressor

# Model ve hiperparametre listesi
models = [
    (LinearRegression(), {}),
    (DecisionTreeRegressor(), {'max_depth': 5}),
    (RandomForestRegressor(), {'n_estimators': 100, 'max_depth': 5}),
    (GradientBoostingRegressor(), {'n_estimators': 100, 'learning_rate': 0.1, 'max_depth': 5}),
    (XGBRegressor(), {'n_estimators': 100, 'learning_rate': 0.1, 'max_depth': 5})
]

# Sonuçları depolamak için bir liste
all_results = []

# Tüm modelleri deneme
for model, params in models:
    results_df = evaluate_model(X_train, X_test, y_train, y_test, model, params)
    all_results.append(results_df)

# Sonuçları birleştirme
final_results = pd.concat(all_results, ignore_index=True).sort_values(['MAPE', 'R2'], ascending=[True, False])

In [38]:
final_results

Unnamed: 0,Model,Hiperparametreler,RMSE,MAE,MAPE,R2
3,GradientBoostingRegressor,"{'n_estimators': 100, 'learning_rate': 0.1, 'm...",1075.787854,847.60485,39.047753,0.188607
4,XGBRegressor,"{'n_estimators': 100, 'learning_rate': 0.1, 'm...",1079.576688,856.652389,39.410341,0.182882
1,DecisionTreeRegressor,{'max_depth': 5},1130.127102,912.703563,42.143135,0.104568
2,RandomForestRegressor,"{'n_estimators': 100, 'max_depth': 5}",1135.109433,919.73419,42.219454,0.096655
0,LinearRegression,{},1167.415239,954.289812,43.627632,0.044504


### Hedef Değişkene Log Dönüşümü 

In [39]:
# Log dönüşümü uygulama
y_train_log = np.log1p(y_train)  # np.log1p, log(1 + x) hesaplar
y_test_log = np.log1p(y_test)

# Model ve hiperparametre listesi
models = [
    (LinearRegression(), {}),
    (DecisionTreeRegressor(), {'max_depth': 5}),
    (RandomForestRegressor(), {'n_estimators': 100, 'max_depth': 5}),
    (GradientBoostingRegressor(), {'n_estimators': 100, 'learning_rate': 0.1, 'max_depth': 5}),
    (XGBRegressor(), {'n_estimators': 100, 'learning_rate': 0.1, 'max_depth': 5})
]

# Sonuçları depolamak için bir liste
all_results = []

# Tüm modelleri deneme
for model, params in models:
    results_df = evaluate_model(X_train, X_test, y_train_log, y_test_log, model, params)
    all_results.append(results_df)

# Sonuçları birleştirme
final_results = pd.concat(all_results, ignore_index=True).sort_values(['MAPE', 'R2'], ascending=[True, False])

In [40]:
final_results

Unnamed: 0,Model,Hiperparametreler,RMSE,MAE,MAPE,R2
3,GradientBoostingRegressor,"{'n_estimators': 100, 'learning_rate': 0.1, 'm...",0.419886,0.329024,4.255063,0.142835
4,XGBRegressor,"{'n_estimators': 100, 'learning_rate': 0.1, 'm...",0.419088,0.329057,4.256116,0.146089
2,RandomForestRegressor,"{'n_estimators': 100, 'max_depth': 5}",0.434384,0.351478,4.543721,0.082621
1,DecisionTreeRegressor,{'max_depth': 5},0.445797,0.358989,4.641508,0.03378
0,LinearRegression,{},0.444062,0.361695,4.674005,0.041283


👉 hedef değişkene `log` dönüşümü uygulamak sonuçları düşürdü.

### Hiperparametre Ayarı

In [55]:
from sklearn.model_selection import GridSearchCV

# GradientBoostingRegressor için hiperparametre optimizasyonu
param_grid_gbr = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.1, 0.05, 0.01],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'subsample': [0.8, 0.9, 1.0]
}

grid_search_gbr = GridSearchCV(GradientBoostingRegressor(), param_grid_gbr, cv=3, scoring='neg_mean_squared_error', verbose=1)
grid_search_gbr.fit(X_train, y_train)

best_gbr = grid_search_gbr.best_estimator_
print("="*50)
print("Best parameters for GradientBoostingRegressor: ", grid_search_gbr.best_params_)
print("="*50)

# XGBRegressor için hiperparametre optimizasyonu
param_grid_xgb = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.1, 0.05, 0.01],
    'max_depth': [3, 5, 7],
    'min_child_weight': [1, 3, 5],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0]
}

grid_search_xgb = GridSearchCV(XGBRegressor(), param_grid_xgb, cv=3, scoring='neg_mean_squared_error', verbose=1)
grid_search_xgb.fit(X_train, y_train)

best_xgb = grid_search_xgb.best_estimator_
print("Best parameters for XGBRegressor: ", grid_search_xgb.best_params_)
print("="*50)

Fitting 3 folds for each of 729 candidates, totalling 2187 fits
Best parameters for GradientBoostingRegressor:  {'learning_rate': 0.01, 'max_depth': 7, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 300, 'subsample': 0.8}
Fitting 3 folds for each of 729 candidates, totalling 2187 fits
Best parameters for XGBRegressor:  {'colsample_bytree': 0.9, 'learning_rate': 0.05, 'max_depth': 7, 'min_child_weight': 1, 'n_estimators': 100, 'subsample': 0.9}


In [70]:
models = [
    (GradientBoostingRegressor(), best_gbr.get_params()),
    (XGBRegressor(), best_xgb.get_params())
]

# Sonuçları depolamak için bir liste
all_results = []

# Tüm modelleri deneme
for model, params in models:
    results_df = evaluate_model(X_train, X_test, y_train, y_test, model, params)
    all_results.append(results_df)

# Sonuçları birleştirme
final_results = pd.concat(all_results, ignore_index=True).sort_values(['MAPE', 'R2'], ascending=[True, False])

In [71]:
final_results

Unnamed: 0,Model,Hiperparametreler,RMSE,MAE,MAPE,R2
1,XGBRegressor,"{'objective': 'reg:squarederror', 'base_score'...",1066.602894,840.042764,38.771258,0.202403
0,GradientBoostingRegressor,"{'alpha': 0.9, 'ccp_alpha': 0.0, 'criterion': ...",1069.582593,853.235419,39.483415,0.19794


### Aykırı Değer Çıkarımı ile Test

In [72]:
import plotly.express as px

fig = px.scatter(
    df,
    x=df.index,
    y="SALES",
    color="CUSTOMERNAME"
)

fig.update_layout(title="Customer Sales", xaxis_title="Customer Name", yaxis_title="Sales")

fig.show()

In [73]:
# boxplot of sales

fig = px.box(
    df,
    x="SALES"
)

fig.update_layout(title="Customer Sales", xaxis_title="Customer Name", yaxis_title="Sales")

fig.show()

In [74]:
# IQR yöntemine göre outliers işlemi 
def detect_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    outliers = (df[column] < (Q1 - 1.5 * IQR)) | (df[column] > (Q3 + 1.5 * IQR))
    return df[outliers]

def remove_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    return df[~((df[column] < (Q1 - 1.5 * IQR)) | (df[column] > (Q3 + 1.5 * IQR)))]

outliers = detect_outliers_iqr(df, 'SALES')
df_cleaned = remove_outliers_iqr(df, 'SALES')

In [85]:
from sklearn.model_selection import train_test_split

X = df_cleaned.drop(['SALES'], axis=1).values
y = df_cleaned['SALES']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=True)

In [86]:
from sklearn.preprocessing import MinMaxScaler

sc = MinMaxScaler(feature_range=(0, 1))

X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [83]:
models = [
    (GradientBoostingRegressor(), best_gbr.get_params()),
    (XGBRegressor(), best_xgb.get_params())
]

# Sonuçları depolamak için bir liste
all_results = []

# Tüm modelleri deneme
for model, params in models:
    results_df = evaluate_model(X_train, X_test, y_train, y_test, model, params)
    all_results.append(results_df)

# Sonuçları birleştirme
final_results = pd.concat(all_results, ignore_index=True).sort_values(['MAPE', 'R2'], ascending=[True, False])

In [84]:
final_results

Unnamed: 0,Model,Hiperparametreler,RMSE,MAE,MAPE,R2
1,XGBRegressor,"{'objective': 'reg:squarederror', 'base_score'...",1009.30776,802.408322,37.464767,0.157542
0,GradientBoostingRegressor,"{'alpha': 0.9, 'ccp_alpha': 0.0, 'criterion': ...",1015.378051,817.137131,38.201748,0.147378


👉 IQR yöntemi ile belirlenen aykırı değerlerin drop edilmesi başarı oranını düşürdü.

### Ensemble Yöntemi ile Performans Arttırma

In [88]:
from sklearn.model_selection import train_test_split

X = df.drop(['SALES'], axis=1).values
y = df['SALES']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=True)

In [89]:
from sklearn.preprocessing import MinMaxScaler

sc = MinMaxScaler(feature_range=(0, 1))

X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [90]:
# Modelleri eğitme ve tahminleri alma
best_gbr.fit(X_train, y_train)
best_xgb.fit(X_train, y_train)

gbr_pred = best_gbr.predict(X_test)
xgb_pred = best_xgb.predict(X_test)

# Ensemble tahmin
ensemble_pred = (gbr_pred + xgb_pred) / 2

# Ensemble modeli değerlendirme
rmse = np.sqrt(mean_squared_error(y_test, ensemble_pred))
mae = mean_absolute_error(y_test, ensemble_pred)
mape = np.mean(np.abs((y_test - ensemble_pred) / y_test)) * 100
r2 = r2_score(y_test, ensemble_pred)

ensemble_results = pd.DataFrame([['Ensemble', rmse, mae, mape, r2]], columns=['Model', 'RMSE', 'MAE', 'MAPE', 'R2'])

In [91]:
ensemble_results

Unnamed: 0,Model,RMSE,MAE,MAPE,R2
0,Ensemble,1064.865764,842.757936,38.960269,0.204999


### Stacking ile İkinci Model Tahminlemesi

In [107]:
import pandas as pd
from sklearn.ensemble import StackingRegressor
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, mean_absolute_percentage_error
from xgboost import XGBRegressor

import warnings
warnings.filterwarnings('ignore')

# Performans hesaplama fonksiyonu
def calculate_metrics(y_true, y_pred):
    rmse = mean_squared_error(y_true, y_pred, squared=False)
    mae = mean_absolute_error(y_true, y_pred)
    mape = mean_absolute_percentage_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    return rmse, mae, mape, r2

# Stacking deneyen fonksiyon
def stacking_with_meta_models(X_train, X_test, y_train, y_test, base_models):
    meta_models = [
        ('Linear Regression', LinearRegression()),
        ('Gradient Boosting Regressor', GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3)),
        ('Random Forest Regressor', RandomForestRegressor(n_estimators=100, max_depth=3)),
        ('Support Vector Regressor', SVR()),
        ('XGBoost Regressor', XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=3))
    ]
    
    results = []

    for meta_name, meta_model in meta_models:
        print(f"Training Stacking Model with {meta_name} as Meta Model...")
        stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)
        stacking_model.fit(X_train, y_train)
        
        y_pred = stacking_model.predict(X_test)
        rmse, mae, mape, r2 = calculate_metrics(y_test, y_pred)
        
        results.append({
            'Meta Model': meta_name,
            'RMSE': rmse,
            'MAE': mae,
            'MAPE': mape,
            'R2': r2
        })
    
    return pd.DataFrame(results)

# Base modelleri tanımla
base_models = [
    ('gbr', best_gbr),
    ('xgb', best_xgb)
]

# Stacking ile sonuçları topla
results_df = stacking_with_meta_models(X_train, X_test, y_train, y_test, base_models)

Training Stacking Model with Linear Regression as Meta Model...
Training Stacking Model with Gradient Boosting Regressor as Meta Model...
Training Stacking Model with Random Forest Regressor as Meta Model...
Training Stacking Model with Support Vector Regressor as Meta Model...
Training Stacking Model with XGBoost Regressor as Meta Model...


In [108]:
results_df

Unnamed: 0,Meta Model,RMSE,MAE,MAPE,R2
0,Linear Regression,1066.558481,847.167876,0.392173,0.202469
1,Gradient Boosting Regressor,1075.489062,861.876624,0.398928,0.189058
2,Random Forest Regressor,1075.806283,857.014272,0.396717,0.188579
3,Support Vector Regressor,1171.2793,941.464385,0.40762,0.038169
4,XGBoost Regressor,1098.02388,869.695373,0.399957,0.154718


En iyi stacking model lineer regresyon oldu

In [109]:
from lightgbm import LGBMRegressor

# Base modelleri tanımlama
base_models = [
    ('gbr', best_gbr),
    ('xgb', best_xgb)
]

# Meta modeli tanımlama
meta_model = LinearRegression()

# Stacking regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)

# Stacking modelini eğitme
stacking_model.fit(X_train, y_train)

# Tahmin yapma
y_pred = stacking_model.predict(X_test)

# Performans metriklerini hesaplama
rmse = mean_squared_error(y_test, y_pred, squared=False)
mae = mean_absolute_error(y_test, y_pred)
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100
r2 = r2_score(y_test, y_pred)

# Sonuçları yazdırma
results = pd.DataFrame({
    'Model': ['StackingRegressor'],
    'Hiperparametreler': ['GradientBoostingRegressor, XGBRegressor, LinearRegression'],
    'RMSE': [rmse],
    'MAE': [mae],
    'MAPE': [mape],
    'R2': [r2]
})

In [110]:
results

Unnamed: 0,Model,Hiperparametreler,RMSE,MAE,MAPE,R2
0,StackingRegressor,"GradientBoostingRegressor, XGBRegressor, Linea...",1064.916728,845.673485,39.185812,0.204923


## Sonuçlar

Öncelikle yorumum şudur ki verilerin kalitesinin ve gözlem sayısının düşük olmasından ötürü sonuçlar tatmin edici olarak çıkmadı. Veri ön işleme ve feature extraction ile başarıları arttırmalara yönelik çalışmalar yapıldı ve testlerin sonuçları aşağıdaki gibi elde edildi.

| Model                     | RMSE         | MAE          | MAPE        | R2       | İşlem                         |
|:--------------------------|:------------:|:------------:|:-----------:|:--------:|:-----------------------------:|
| GradientBoostingRegressor | 1075.787854  | 847.604850   | 39.047753   | 0.188607 🟠 | Default Model Değerlendirmesi |
| XGBRegressor              | 1079.576688  | 856.652389   | 39.410341   | 0.182882 🟠 | Default Model Değerlendirmesi |
| DecisionTreeRegressor     | 1130.127102  | 912.703563   | 42.143135   | 0.104568 | Default Model Değerlendirmesi |
| RandomForestRegressor     | 1135.109433  | 919.734190   | 42.219454   | 0.096655 | Default Model Değerlendirmesi |
| LinearRegression          | 1167.415239  | 954.289812   | 43.627632   | 0.044504 | Default Model Değerlendirmesi |
| GradientBoostingRegressor | 0.419886  | 0.329024  | 4.255063 | 0.142835 | Log Dönüşümlü Değerlendirme  |
| XGBRegressor              | 0.419088  | 0.329057  | 4.256116 | 0.146089 | Log Dönüşümlü Değerlendirme  |
| RandomForestRegressor     | 0.434384  | 0.351478  | 4.543721 | 0.082621 | Log Dönüşümlü Değerlendirme  |
| DecisionTreeRegressor     | 0.445797  | 0.358989  | 4.641508 | 0.033780 | Log Dönüşümlü Değerlendirme  |
| LinearRegression          | 0.444062  | 0.361695  | 4.674005 | 0.041283 | Log Dönüşümlü Değerlendirme  |
| XGBRegressor              | 1066.6029 | 840.0428  | 38.7713  | 0.2024 🟢 | Hiperparametre Ayarı          |
| GradientBoostingRegressor | 1069.5826 | 853.2354  | 39.4834  | 0.1979   | Hiperparametre Ayarı          |
| XGBRegressor              | 1009.3078 | 802.4083  | 37.4648  | 0.1575   | Hiperparametre Ayarı + Aykırı Değerlerin Düşürülmesi |
| GradientBoostingRegressor | 1015.3781 | 817.1371  | 38.2017  | 0.1474   | Hiperparametre Ayarı + Aykırı Değerlerin Düşürülmesi |
| Ensemble                   | 1064.8658 | 842.7579  | 38.9603  | 0.2050 🟢 | XGBoost + GBRegressor |
| Meta Model: Linear Regression             | 1066.5585  | 847.1679   | 0.392173  | 0.202469 🟢 | Stacking Yöntemi |
| Meta Model: GB Regressor   | 1075.4891  | 861.8766   | 0.398928  | 0.189058 🟠 | Stacking Yöntemi |
| Meta Model: Random Forest Regressor       | 1075.8063  | 857.0143   | 0.396717  | 0.188579 🟠 | Stacking Yöntemi |
| Meta Model: Support Vector Regressor      | 1171.2793  | 941.4644   | 0.407620  | 0.038169  | Stacking Yöntemi |
| Meta Model: XGBoost Regressor             | 1098.0239  | 869.6954   | 0.399957  | 0.154718  | Stacking Yöntemi |

Bu sonuçlar ışığında base model olarak `GradientBoostingRegressor` ve `XGBoost` ile stack edilmiş `LinearRegression` modeli seçilebilir.


```python
# En iyi GBR parametreleri
gbr_params = {
    'learning_rate': 0.01,
    'max_depth': 7, 
    'min_samples_leaf': 1, 
    'min_samples_split': 2, 
    'n_estimators': 300, 
    'subsample': 0.8
    }

# En iyi XGBoost parametreleri    
xgb_params = {
    'colsample_bytree': 0.9, 
    'learning_rate': 0.05, 
    'max_depth': 7, 
    'min_child_weight': 1, 
    'n_estimators': 100, 
    'subsample': 0.9
    }

# Base modelleri tanımlama
base_models = [
    ('gbr', GradientBoostingRegressor(**gbr_params)),
    ('xgb', XGBRegressor(**xgb_params))
]

# Meta modeli tanımlama
meta_model = LinearRegression()

# Stacking regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)

# Stacking modelini eğitme
stacking_model.fit(X_train, y_train)

# PKL Formatına kaydetme
import pickle

pickle.dump(stacking_model, open('stacking_model.pkl', 'wb'))

# PKL formatındaki modeli import etme
stacking_model = pickle.load(open('stacking_model.pkl', 'rb'))
```

In [122]:
# En iyi GBR parametreleri
gbr_params = {
    'learning_rate': 0.01,
    'max_depth': 7, 
    'min_samples_leaf': 1, 
    'min_samples_split': 2, 
    'n_estimators': 300, 
    'subsample': 0.8
    }

# En iyi XGBoost parametreleri    
xgb_params = {
    'colsample_bytree': 0.9, 
    'learning_rate': 0.05, 
    'max_depth': 7, 
    'min_child_weight': 1, 
    'n_estimators': 100, 
    'subsample': 0.9
    }

# Base modelleri tanımlama
base_models = [
    ('gbr', GradientBoostingRegressor(**gbr_params)),
    ('xgb', XGBRegressor(**xgb_params))
]

# Meta modeli tanımlama
meta_model = LinearRegression()

# Stacking regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)

# Stacking modelini eğitme
stacking_model.fit(X_train, y_train)

In [123]:
# PKL Formatına kaydetme
import pickle

pickle.dump(stacking_model, open('stacking_model.pkl', 'wb'))

# PKL formatındaki modeli import etme
stacking_model = pickle.load(open('stacking_model.pkl', 'rb'))