In [11]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [3]:
# Veri setini yükle
data = pd.read_csv('housing.csv')

In [4]:
#Eksik ve yanlış formattaki verilerin düzeltilmesi
data = pd.get_dummies(data, columns=['ocean_proximity'], drop_first=True)

# Eksik değerleri doldurma (numerik sütunlar için medyanla doldurma)
data = data.fillna(data.median())

In [5]:
# Özellikler (X) ve hedef değişken (y) ayırma
X = data.drop(columns=['median_house_value'])
y = data['median_house_value']

# Veriyi eğitim ve test olarak ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [6]:
# Karar Ağacı modelini oluşturma ve eğitme
tree_model = DecisionTreeRegressor(random_state=42, max_depth=10)
tree_model.fit(X_train, y_train)

In [7]:
# Test seti üzerinde tahminler yapma
y_pred = tree_model.predict(X_test)

In [8]:
# Performans metriklerini hesaplama
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R²: {r2}")

RMSE: 61444.631799426694
MAE: 40772.481491704726
R²: 0.7118882089746292


In [12]:
# Gerçek ve tahmin edilen değerleri bir DataFrame'e dönüştür
df_results = pd.DataFrame({
    "Gerçek Değerler": y_test,
    "Tahmin Edilen Değerler": y_pred
})

# Scatter plot oluşturma
fig = px.scatter(
    df_results, 
    x="Gerçek Değerler", 
    y="Tahmin Edilen Değerler", 
    title="<b>Gerçek vs Tahmin Edilen Değerler (Karar Ağacı)", 
    template="plotly_dark", 
    opacity=0.6, 
    color_discrete_sequence=['indianred']
)

# Eksen isimlendirme
fig.update_layout(
    xaxis_title="Gerçek Değerler", 
    yaxis_title="Tahmin Edilen Değerler",
    title_x=0.5
)

# Grafiği göster
fig.show()