In [1]:
import pandas as pd  # Pandas kütüphanesini içe aktar
import numpy as np  # Numpy kütüphanesini içe aktar
import datetime as dt  # Datetime modülünü içe aktar
from sklearn.model_selection import train_test_split  # Veriyi bölmek için train_test_split fonksiyonunu içe aktar
from sklearn.linear_model import LinearRegression  # Doğrusal Regresyon modelini içe aktar
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score  # Ortalama mutlak hata, ortalama karesel hata ve R-kare metriklerini içe aktar
from sklearn.decomposition import PCA  # PCA (Principal Component Analysis) modülünü içe aktar
from sklearn.preprocessing import StandardScaler  # Veriyi standartlaştırmak için StandardScaler'ı içe aktar



- `import pandas as pd`: Pandas kütüphanesini içe aktarır ve bu kütüphaneyle ilgili fonksiyonları `pd` adıyla kullanılabilir hale getirir.
- `import numpy as np`: Numpy kütüphanesini içe aktarır ve bu kütüphaneyle ilgili fonksiyonları `np` adıyla kullanılabilir hale getirir.
- `import datetime as dt`: Datetime modülünü içe aktarır ve bu modülle ilgili fonksiyonları `dt` adıyla kullanılabilir hale getirir.
- `from sklearn.model_selection import train_test_split`: Veriyi eğitim ve test kümelerine bölmek için `train_test_split` fonksiyonunu içe aktarır.
- `from sklearn.linear_model import LinearRegression`: Doğrusal Regresyon modelini içe aktarır.
- `from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score`: Ortalama mutlak hata, ortalama karesel hata ve R-kare gibi metrikleri içe aktarır.
- `from sklearn.decomposition import PCA`: PCA (Principal Component Analysis - Temel Bileşen Analizi) modülünü içe aktarır.
- `from sklearn.preprocessing import StandardScaler`: Veriyi standartlaştırmak için `StandardScaler`'ı içe aktarır.

In [2]:
# Excel dosyasından veriyi yükle
df = pd.read_excel("miuul_gezinomi.xlsx")

- `df = pd.read_excel("miuul_gezinomi.xlsx")`: Excel dosyasından veriyi `pd.read_excel()` fonksiyonuyla yükler ve `df` adlı bir DataFrame'e atar.

In [3]:
def explore_data(data):
    # Veri setinin ilk birkaç satırını görüntüler
    print("İlk 5 gözlem:")
    print(data.head())
    print("\n")
    
    # Veri seti hakkında temel bilgileri sağlar
    print("Veri seti bilgileri:")
    print(data.info())
    print("\n")
    
    # Boş gözlemleri kontrol eder
    print("Boş gözlemler:")
    print(data.isnull().sum())
    print("\n")
    
    # Sayısal sütunlar için temel istatistiksel bilgileri sağlar
    print("Sayısal sütunlar için temel istatistikler:")
    print(data.describe())
    print("\n")
    
    # Veri setinin boyutunu (satır ve sütun sayısı) verir
    print("Veri setinin boyutu:")
    print(data.shape)
    print("\n")
    
    # Veri setinin sütun adlarını listeler
    print("Değişken adları:")
    print(data.columns)
    print("\n")
    
    # Sütunların veri tiplerini gösterir
    print("Değişken veri tipleri:")
    print(data.dtypes)

- `def explore_data(data):`: `explore_data` adında bir fonksiyon tanımlar. Bu fonksiyon, bir DataFrame alır ve içinde bulunan fonksiyonları kullanarak veri keşfi yapar.
- `print(data.head())`: Veri setinin ilk beş satırını görüntüler.
- `print(data.info())`: Veri seti hakkında genel bilgileri sağlar: sütun adları, sütun sayıları, non-null değerlerin sayısı ve veri tipleri gibi.
- `print(data.isnull().sum())`: Veri setindeki boş değerleri kontrol eder ve her sütundaki boş değerlerin sayısını gösterir.
- `print(data.describe())`: Sayısal sütunlar için temel istatistiksel bilgileri (count, mean, std, min, 25%, 50%, 75% ve max) gösterir.
- `print(data.shape)`: Veri setinin boyutunu (satır ve sütun sayısı) gösterir.
- `print(data.columns)`: Veri setinin sütun adlarını listeler.
- `print(data.dtypes)`: Sütunların veri tiplerini gösterir.

In [4]:
explore_data(df)

İlk 5 gözlem:
   SaleId   SaleDate CheckInDate       Price     ConceptName SaleCityName  \
0  415122 2022-12-03  2022-12-03   79.304029    Herşey Dahil      Antalya   
1  415103 2022-12-03  2022-12-03   45.970696  Yarım Pansiyon      Antalya   
2  404034 2022-09-12  2022-09-13   77.838828    Herşey Dahil      Antalya   
3  415094 2022-12-03  2022-12-10  222.710623  Yarım Pansiyon        İzmir   
4  414951 2022-12-01  2022-12-03  140.476190  Yarım Pansiyon        İzmir   

     CInDay  SaleCheckInDayDiff Seasons  
0  Saturday                   0     Low  
1  Saturday                   0     Low  
2   Tuesday                   1    High  
3  Saturday                   7     Low  
4  Saturday                   2     Low  


Veri seti bilgileri:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59164 entries, 0 to 59163
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   SaleId              591

In [None]:
# Eksik değerlere sahip satırları sil
df.dropna(inplace=True)

- `df.dropna(inplace=True)`: `dropna()` yöntemiyle DataFrame içerisindeki eksik değerlere (NaN) sahip satırları siler. `inplace=True` parametresi, işlemin DataFrame üzerinde gerçekleştirilmesini sağlar.

In [None]:
# CheckInDate'den özellikler çıkarma
df['CheckInYear'] = df['CheckInDate'].dt.year
df['CheckInMonth'] = df['CheckInDate'].dt.month
df['CheckInDay'] = df['CheckInDate'].dt.day
df['CheckInWeekday'] = df['CheckInDate'].dt.dayofweek

# Günün hafta sonu olup olmadığını kontrol et
df['IsWeekend'] = np.where(df['CheckInWeekday'] >= 5, 1, 0)

# Tatil tarihlerini tanımlama
holiday_types = {
    "Yılbaşı": ["2016-01-01", "2017-01-01", "2018-01-01", "2019-01-01", "2020-01-01", "2021-01-01", "2022-01-01"],
    "Ulusal Egemenlik ve Çocuk Bayramı": ["2016-04-23", "2017-04-23", "2018-04-23", "2019-04-23", "2020-04-23", "2021-04-23", "2022-04-23"],
    "Emek ve Dayanışma Günü": ["2016-05-01", "2017-05-01", "2018-05-01", "2019-05-01", "2020-05-01", "2021-05-01", "2022-05-01"],
    "Atatürk'ü Anma, Gençlik ve Spor Bayramı": ["2016-05-19", "2017-05-19", "2018-05-19", "2019-05-19", "2020-05-19", "2021-05-19", "2022-05-19"],
    "Ramazan Bayramı": [("2016-07-15", "2016-07-16", "2016-07-17"),
                        ("2017-06-25", "2017-06-26", "2017-06-27"),
                        ("2018-06-15", "2018-06-16", "2018-06-17"),
                        ("2019-06-04", "2019-06-05", "2019-06-06"),
                        ("2020-05-23", "2020-05-24", "2020-05-25"),
                        ("2021-05-13", "2021-05-14", "2021-05-15"),
                        ("2022-05-02", "2022-05-03", "2022-05-04")],
    "Zafer Bayramı": ["2016-08-30", "2017-08-30", "2018-08-30", "2019-08-30", "2020-08-30", "2021-08-30", "2022-08-30"],
    "Kurban Bayramı": [("2016-09-11", "2016-09-12", "2016-09-13", "2016-09-14", "2016-09-15"),
                       ("2017-08-30", "2017-08-31", "2017-09-01", "2017-09-02", "2017-09-03"),
                       ("2018-08-21", "2018-08-22", "2018-08-23", "2018-08-24", "2018-08-25"),
                       ("2019-08-11", "2019-08-12", "2019-08-13", "2019-08-14", "2019-08-15"),
                       ("2020-07-31", "2020-08-01", "2020-08-02", "2020-08-03", "2020-08-04"),
                       ("2021-07-20", "2021-07-21", "2021-07-22", "2021-07-23", "2021-07-24"),
                       ("2022-07-09", "2022-07-10", "2022-07-11", "2022-07-12", "2022-07-13")],
    "Cumhuriyet Bayramı": ["2016-10-29", "2017-10-29", "2018-10-29", "2019-10-29", "2020-10-29", "2021-10-29", "2022-10-29"]
}

# Veri kümesindeki tatilleri işaretleme
df['HolidayType'] = 'Weekday'
for holiday, dates in holiday_types.items():
    for date_range in dates:
        if isinstance(date_range, tuple):
            for date in date_range:
                df.loc[df['CheckInDate'] == date, 'HolidayType'] = holiday
        else:
            df.loc[df['CheckInDate'] == date_range, 'HolidayType'] = holiday

- `df['CheckInYear'] = df['CheckInDate'].dt.year`: `CheckInDate` sütunundan yıl bilgisini alarak yeni bir `CheckInYear` sütunu oluşturur.
- `df['CheckInMonth'] = df['CheckInDate'].dt.month`: `CheckInDate` sütunundan ay bilgisini alarak yeni bir `CheckInMonth` sütunu oluşturur.
- `df['CheckInDay'] = df['CheckInDate'].dt.day`: `CheckInDate` sütunundan gün bilgisini alarak yeni bir `CheckInDay` sütunu oluşturur.
- `df['CheckInWeekday'] = df['CheckInDate'].dt.dayofweek`: `CheckInDate` sütunundan haftanın hangi günü olduğunu (0: Pazartesi, 1: Salı, ..., 6: Pazar) belirleyerek yeni bir `CheckInWeekday` sütunu oluşturur.
- `df['IsWeekend'] = np.where(df['CheckInWeekday'] >= 5, 1, 0)`: `CheckInWeekday` sütunundan elde edilen bilgiye göre, günün hafta sonu olup olmadığını belirleyerek yeni bir `IsWeekend` sütunu oluşturur.
- `holiday_types` sözlüğü: Tatil adlarına karşılık gelen ve o tatillere ait tarihleri içeren bir sözlük.
- Tatil tarihlerini işaretleme: Veri setindeki tatil tarihlerini `HolidayType` sütunu aracılığıyla işaretler. Her tatil için belirtilen tarih(ler)e göre ilgili satırları günceller.

In [None]:
# Müşteri türü için aralıkları tanımla
bins = [-1, 7, 30, 90, df['SaleCheckInDayDiff'].max()]

# Müşteri türleri için etiketleri tanımla
labels = ['Son Dakika Rezervasyoncuları', 'Potansiyel Planlayıcılar', 'Planlayıcılar', 'Erken Rezervasyon Yapanlar']

# Rezervasyon günlerine göre müşterileri kategorize et
df['CustomerType'] = pd.cut(df['SaleCheckInDayDiff'], bins=bins, labels=labels)

- `bins = [-1, 7, 30, 90, df['SaleCheckInDayDiff'].max()]`: Müşteri türlerini tanımlamak için rezervasyon yapılan günler arasında kesme noktalarını belirler. Bu aralıkların sonuncusu, en büyük rezervasyon gün farkını içerir.
- `labels = ['Son Dakika Rezervasyoncuları', 'Potansiyel Planlayıcılar', 'Planlayıcılar', 'Erken Rezervasyon Yapanlar']`: Müşteri türleri için etiketleri belirler.
- `df['CustomerType'] = pd.cut(df['SaleCheckInDayDiff'], bins=bins, labels=labels)`: Rezervasyon yapılan gün sayısına göre müşterileri kategorize eder.

In [None]:
# Kategorik özellikleri one-hot encode et
df = pd.get_dummies(df, columns=['ConceptName', 'SaleCityName', 'CInDay', 'Seasons', 'HolidayType', 'CustomerType'])

- `df = pd.get_dummies(df, columns=['ConceptName', 'SaleCityName', 'CInDay', 'Seasons', 'HolidayType', 'CustomerType'])`: Kategorik değişkenleri one-hot encode eder.

In [None]:
# Özellikleri ve hedef değişkeni hazırla
X = df.drop(['Price', 'SaleId', 'SaleDate', 'CheckInDate'], axis=1)
y = df['Price']

- `X = df.drop(['Price', 'SaleId', 'SaleDate', 'CheckInDate'], axis=1)`: Bağımsız değişkenlerin ve hedef değişkenin oluşturulması.
- `y = df['Price']`: Bağımlı değişkenin belirlenmesi.

In [None]:
# PCA model oluşturma
pca = PCA(n_components=5)

# Modeli fit etme
X_new = pca.fit_transform(X)

# Düşük boyutlu temsil edilen veriyi DataFrame'e dönüştürme
X_dimensional_reduced = pd.DataFrame(X_new)

- `pca = PCA(n_components=5)`: PCA (Principal Component Analysis) modelinin oluşturulması, bu durumda beş bileşen kullanılacak.
- `X_new = pca.fit_transform(X)`: PCA modelinin veriye uygulanması ve boyut indirgeme işleminin gerçekleştirilmesi.
- `X_dimensional_reduced = pd.DataFrame(X_new)`: Düşük boyutlu temsil edilen veriyi DataFrame'e dönüştürme.

In [None]:
# Veriyi eğitim ve test kümelerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X_dimensional_reduced, y, test_size=0.2, random_state=42)

# Modeli başlatma ve eğitme
model = LinearRegression()
model.fit(X_train, y_train)

- `X_train, X_test, y_train, y_test = train_test_split(X_dimensional_reduced, y, test_size=0.2, random_state=42)`: Veri kümesinin eğitim ve test kümelerine ayrılması.
- `model = LinearRegression()`: Doğrusal regresyon modelinin başlatılması.
- `model.fit(X_train, y_train)`: Modelin eğitilmesi.

In [None]:
# beta_0 = intercept 
print('beta_0 =', model.intercept_)
# beta_i = coefficients
for i, beta in enumerate(model.coef_):
    print(f'beta_{i+1} = {beta}')

- `print('beta_0 =', model.intercept_)`: Modelin kesme noktasını (beta_0 veya intercept) yazdırır.
- `for i, beta in enumerate(model.coef_): print(f'beta_{i+1} = {beta}')`: Modelin katsayılarını (beta_i veya coefficients) yazdırır. `enumerate()` fonksiyonu ile her bir katsayıya bir indeks atanır ve bu katsayılar sırayla yazdırılır.

In [None]:
# Tahminler yapma
y_pred = model.predict(X_test)

- `y_pred = model.predict(X_test)`: Test veri kümesi üzerinde tahminler yapar.

In [None]:
# Değerlendirme metriklerini yazdırma
print("Mean Squared Error:", mean_squared_error(y_test, y_pred))
print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
print("R^2 Score:", r2_score(y_test, y_pred))

- `print("Mean Squared Error:", mean_squared_error(y_test, y_pred))`: Tahminlerin gerçek değerlerden ne kadar sapma gösterdiğini gösteren ortalama karesel hata (Mean Squared Error) değerini yazdırır.
- `print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))`: Tahminlerin gerçek değerlerden ne kadar sapma gösterdiğini gösteren ortalama mutlak hata (Mean Absolute Error) değerini yazdırır.
- `print("R^2 Score:", r2_score(y_test, y_pred))`: Modelin ne kadar iyi açıkladığını gösteren R-kare (R^2 Score) değerini yazdırır. Bu değer ne kadar yüksek olursa, modelin veriyi o kadar iyi açıkladığı kabul edilir.

In [None]:
def en_kucuk_kareler_yontemi(X, Y):
    X = np.column_stack((np.ones(len(X)), X))  # Sabit terim için X matrisine bir sütun ekler
    beta = np.linalg.inv(X.T @ X) @ X.T @ Y    # Beta katsayılarını hesaplar
    return beta

X_dimensional_reduced = X_dimensional_reduced.astype(float)

# DataFrame'i NumPy dizisine dönüştürme
X_array = X_dimensional_reduced.values
y_array = y.values

# En küçük kareler yöntemini uygula
beta = en_kucuk_kareler_yontemi(X_array, y_array)

# Hesaplanan beta katsayılarını yazdır
for i, coef in enumerate(beta):
    print(f'beta_{i} = {coef}')

- `def en_kucuk_kareler_yontemi(X, Y)`: En küçük kareler yöntemini uygulayan bir fonksiyon tanımlanır. Bu fonksiyon, X ve Y parametrelerini alır.
- `X = np.column_stack((np.ones(len(X)), X))`: X matrisine bir sütun eklenerek sabit terim için bir sütun eklenir. Bu, doğrusal modelin sabit terimini (beta_0 veya intercept) hesaplamak için gereklidir.
- `beta = np.linalg.inv(X.T @ X) @ X.T @ Y`: Beta katsayıları, en küçük kareler yöntemini kullanarak hesaplanır. Önce X matrisinin transpozu ile X matrisi çarpılır, ardından bu matrisin tersi alınır. Bu, X matrisinin tersini hesaplamak için gereklidir. Daha sonra bu matris, X matrisinin transpozunun çarpımı ile Y vektörüne çarpılır, bu da beta katsayılarını verir.
- `return beta`: Hesaplanan beta katsayıları döndürülür.
- `X_dimensional_reduced = X_dimensional_reduced.astype(float)`: DataFrame'deki değerlerin tipi float olarak değiştirilir.
- `X_array = X_dimensional_reduced.values`: DataFrame, NumPy dizisine dönüştürülür ve X_array adlı değişkene atanır.
- `y_array = y.values`: Hedef değişken de NumPy dizisine dönüştürülür.
- `for i, coef in enumerate(beta): print(f'beta_{i} = {coef}')`: Hesaplanan beta katsayıları yazdırılır.