In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import LabelEncoder

In [None]:
from google.colab import drive
drive.mount('/content/drive')


In [None]:
# Temizlenmiş Birleştirilmiş Veri setlerini oku
data = pd.read_csv("")
print("sütun sayısı:",data.shape[1])
print("satır sayısı:",data.shape[0])

In [None]:
# Tarih sütununu datetime nesnelerine dönüştür
data['date'] = pd.to_datetime(data['date'], format='%Y-%m-%d')

# Tarih sütununu 3 ayrı sütuna ayırma
data['Yıl'] = data['date'].dt.year
data['Ay'] = data['date'].dt.month
data['Gün'] = data['date'].dt.day
data.drop(columns=['date'],inplace=True)

print("sütun sayısı:",data.shape[1])
print("satır sayısı:",data.shape[0])

In [None]:
# Özelliklerin belirlenmesi
features = data.drop(columns=[''],axis=1).columns.tolist()

print(len(features))

In [None]:
# One-hot encoding için kategorik değişkenleri seç
categorical_features = [ '']

# One-hot encoding işlemi
data = pd.get_dummies(data, columns=categorical_features, dummy_na=True)

# One-hot encoding sonrası oluşan sütun isimlerini al
one_hot_encoded_columns = data.columns[data.columns.str.startswith(tuple(categorical_features))]

# features listesine one-hot encoded sütun isimlerini ekle
features += list(one_hot_encoded_columns)

print(features)
len(features)

In [None]:
# Label encoding için kategorik değişkenleri seç
categorical_features = ['']

# LabelEncoder nesnesini oluşturma
label_encoder = LabelEncoder()

# Her bir kategorik değişken için label encoding uygulama
for feature in categorical_features:
    data[feature + '_encoded'] = label_encoder.fit_transform(data[feature])
    # Label encoding sonrası orijinal sütunu düşme
    data.drop(columns=[feature], inplace=True)
# Label encoding sonrası oluşan sütunları özellikler listesine ekleme
features += [feature + '_encoded' for feature in categorical_features]

print(features)
print(len(features))

In [None]:
# Bağımsız değişkenler ve bağımlı değişkenin ayrılması
X = data[features]
y = data['']

In [None]:
# Eğitim ve test verilerinin bölünmesi
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Gradient Boosting modelini seç ve eğit
model = GradientBoostingRegressor()
model.fit(X_train, y_train)

In [None]:

# Modelin performansının değerlendirilmesi
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)


In [None]:
# Modelin performansını değerlendirme (MAE)
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error:", mae)

In [None]:
importances = list(model.feature_importances_)
feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(features, importances)]
feature_importances = sorted(feature_importances, key=lambda x: x[1], reverse = True)
[print('Variable: {:20} Importance: {}'.format(*pair)) for pair in feature_importances];

# **Tahmin Etme**

In [None]:
# Test için hazırlanmış verileri oku
test_data = pd.read_csv("cleaned_merged_data_test.csv")

In [None]:

# One-hot encoding işlemi
test_data = pd.get_dummies(test_data, columns=categorical_features, dummy_na=True)

# One-hot encoding sonrası oluşan sütunların isimlerini al
one_hot_encoded_columns_test = test_data.columns[test_data.columns.str.startswith(tuple(categorical_features))]


In [None]:
# Tahmin edilecek veriyi hazırla
X_test = test_data[features]

In [None]:
# Tahminleri yap
predicted_values = model.predict(X_test)
print("Predicted Values:", predicted_values)

In [None]:
# Tahminleri yap
predicted_values = model.predict(X_test)

# Tahmin edilen değerleri yeni bir sütun olarak test verisine ekle
test_data_with_predictions = X_test.copy()
test_data_with_predictions['Predicted_Values'] = predicted_values

# Tahmin edilen değerleri içeren DataFrame'i göster
test_data_with_predictions