In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from numpy import sqrt

# Veriyi oku
data = pd.read_csv("../airpollutionkmeansclustering/air_pollution.csv")

# Verinin ilk birkaç satırını incele
print(data.head())

# Tarih sütununu datetime formatına çevir ve drop et
data['Measurement date'] = pd.to_datetime(data['Measurement date'])
# 'Measurement date' ve 'Address' sütunlarını modelden çıkardık çünkü:
# - Tarih, modelin eğitiminde doğrudan kullanılmaz.
# - Adres bilgisi de kontekstual bilgi sağlayabilir, fakat bu örnekte kullanılmayacak.
data = data.drop(columns=['Measurement date', 'Address'])

# NaN değerleri kontrol et ve temizle
# NaN (eksik) değerler modelin doğruluğunu etkileyebilir, bu yüzden tüm eksik değerleri içeren satırları kaldırıyoruz.
data = data.dropna()

# Özellikleri ve hedef değişkeni ayır
# Özellikler: Latitude, Longitude, SO2, NO2, O3, CO, PM10
# Hedef değişken: PM2.5 (tahmin edilmesi istenen değer)
X = data[['Latitude', 'Longitude', 'SO2', 'NO2', 'O3', 'CO', 'PM10']]
y = data['PM2.5']

# Eğitim ve test setlerine ayır
from sklearn.model_selection import train_test_split
# Veriyi %80 eğitim ve %20 test setlerine ayırıyoruz. Bu oran, modelin hem eğitim hem de test verileri üzerinde dengeli çalışmasını sağlar.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modeli oluştur ve eğit
model = LinearRegression()
# Eğitim verileriyle modeli eğitiyoruz. LinearRegression, verilen özelliklerle hedef arasında doğrusal bir ilişki bulmaya çalışır.
model.fit(X_train, y_train)

# Test seti üzerinde tahminler yap
predictions = model.predict(X_test)
# Modeli, test verileri üzerinde tahminler yapmak için kullanıyoruz.

# Model performansını değerlendir
rmse = sqrt(mean_squared_error(y_test, predictions))
# Modelin tahmin performansını Root Mean Squared Error (RMSE) metriği ile değerlendiriyoruz.
# RMSE, tahminlerin gerçek değerlere ne kadar yakın olduğunu ölçen bir hata metriğidir.
print(f"Root Mean Squared Error (RMSE): {rmse}")

# Tahminler ve gerçek değerleri karşılaştır
comparison = pd.DataFrame({"Actual Values": y_test, "Predictions": predictions})
# Gerçek ve tahmin edilen PM2.5 değerlerini karşılaştırmak için bir DataFrame oluşturuyoruz.
print(comparison.head())
print(comparison.tail())

# Özelliklerin PM2.5 ile korelasyonlarını yazdır
correlations = data.corr()
# Özellikler arasındaki korelasyonları hesaplıyoruz. Bu, her bir özelliğin PM2.5 ile ne kadar ilişkili olduğunu gösterir.
print("Feature correlations with PM2.5:")
saleprice_correlations = correlations["PM2.5"]
print(saleprice_correlations.sort_values(ascending=False).head(10))

# Korelasyonları görselleştir
plt.figure(figsize=(10, 8))
sns.heatmap(correlations, annot=True, cmap='coolwarm', fmt='.2f')
# Korelasyon matrisini ısı haritası olarak görselleştiriyoruz. Bu, özellikler arasındaki ilişkileri daha kolay anlamamıza yardımcı olur.
plt.title("Correlation Heatmap")
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: '../airpollutionkmeansclustering/air_pollution.csv'