In [1]:
# Temel kütüphaneler
import numpy as np
import pandas as pd

# Görselleştirme kütüphaneleri
import matplotlib.pyplot as plt
import seaborn as sns

# Veri setini yüklemek için
from sklearn.datasets import load_boston
import warnings
warnings.filterwarnings("ignore")


In [None]:
# Veri setini yükle
boston_data = load_boston()
df = pd.DataFrame(data=boston_data.data, columns=boston_data.feature_names)

import numpy as np

nan_indices = np.random.choice(df.index, size=int(len(df)*0.1), replace=False)  # %10'luk kısım
df.loc[nan_indices, 'column_name'] = np.nan  # 'column_name' sütunundaki NaN'leri ekleyin

df.loc[nan_indices, 'CRIM'] = np.nan  # 'CRIM' sütunundaki NaN'leri ekleyin
df.isna().sum()  # Her sütundaki NaN sayısını gösterir
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
df['CRIM'] = df['CRIM'].fillna(df['CRIM'].mean())


# Veri setinin genel bilgileri
print("Veri Seti Genel Bilgileri:")
print(df.info())
print("\nİlk Beş Satır:")
print(df.head())

# Temel istatistiksel özet
print("\nTemel İstatistiksel Özet:")
print(df.describe())


load_boston() fonksiyonu, Boston ev fiyatları veri setini yükler.
np.random.choice() kullanarak veri setinin %10'unda eksik (NaN) değerler eklenir.
Eksik değerler (NaN) her sütunun ortalama değeri ile doldurulmuştur (fillna()).
df.isna().sum() ile her sütundaki eksik değer sayısı hesaplanır.
df.info() ile veri setinin genel bilgileri, df.head() ile ilk 5 satır, df.describe() ile temel istatistiksel özet görüntülenir.

In [None]:
# Hedef değişkenin dağılımını incele
plt.figure(figsize=(10, 6))
sns.histplot(df['PRICE'], kde=True, bins=30, color='blue')
plt.title("PRICE Değişkeninin Dağılımı")
plt.xlabel("Fiyat")
plt.ylabel("Frekans")
plt.show()


In [None]:
# Korelasyon matrisi
plt.figure(figsize=(12, 10))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title("Korelasyon Matrisi")
plt.show()


In [None]:
# Fiyat ve RM (Oda Sayısı) ilişkisi
plt.figure(figsize=(10, 6))
sns.scatterplot(x=df['RM'], y=df['PRICE'])
plt.title("Oda Sayısı ile Fiyat İlişkisi")
plt.xlabel("Oda Sayısı (RM)")
plt.ylabel("Fiyat (PRICE)")
plt.show()


In [None]:
# Eksik değer kontrolü
print("Eksik Değer Sayısı:")
print(df.isnull().sum())

# Aykırı değerlerin incelenmesi (örneğin RM için)
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['RM'], color='orange')
plt.title("Oda Sayısı (RM) için Aykırı Değerler")
plt.show()

# RM'in aykırı değerlerini belirleyip temizleme
Q1 = df['RM'].quantile(0.25)
Q3 = df['RM'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df = df[(df['RM'] >= lower_bound) & (df['RM'] <= upper_bound)]


# Eksik değer kontrolü
print("Eksik Değer Sayısı:")
print(df.isnull().sum())

# Aykırı değerlerin incelenmesi (örneğin RM için)
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['RM'], color='orange')
plt.title("Oda Sayısı (RM) için Aykırı Değerler")
plt.show()

# RM'in aykırı değerlerini belirleyip temizleme
Q1 = df['RM'].quantile(0.25)
Q3 = df['RM'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df = df[(df['RM'] >= lower_bound) & (df['RM'] <= upper_bound)]


In [None]:
# Temel istatistiksel ölçümler
print("Medyan (PRICE):", df['PRICE'].median())
print("Mod (PRICE):", df['PRICE'].mode()[0])
print("Standart Sapma (PRICE):", df['PRICE'].std())

# Çok değişkenli analiz: LSTAT ve PRICE
plt.figure(figsize=(10, 6))
sns.scatterplot(x=df['LSTAT'], y=df['PRICE'], color='red')
plt.title("Alt Gelir Seviyesi (LSTAT) ile Fiyat (PRICE) İlişkisi")
plt.xlabel("Alt Gelir Seviyesi (%)")
plt.ylabel("Fiyat (PRICE)")
plt.show()


In [None]:
# Önemli özelliklerin seçimi
important_features = correlation_matrix['PRICE'].sort_values(ascending=False)
print("Fiyat ile en yüksek korelasyona sahip değişkenler:")
print(important_features)

# Yeni özellik oluşturma: Oda başına yaş (AGE_PER_ROOM)
df['AGE_PER_ROOM'] = df['AGE'] / df['RM']

# Yeni özellik analizi
plt.figure(figsize=(10, 6))
sns.scatterplot(x=df['AGE_PER_ROOM'], y=df['PRICE'], color='green')
plt.title("Oda Başına Yaş ile Fiyat İlişkisi")
plt.xlabel("Oda Başına Yaş")
plt.ylabel("Fiyat")
plt.show()


In [None]:
# Sonuçların özeti
print("""
SONUÇLAR:
1. 'RM' (Oda Sayısı) ve 'LSTAT' (Alt Gelir Seviyesi) değişkenleri, ev fiyatlarını etkileyen en önemli faktörlerdir.
2. Aykırı değerlerin temizlenmesi, daha doğru analiz yapılmasını sağlamıştır.
3. Yeni bir özellik olan 'AGE_PER_ROOM', yaş ile oda sayısının fiyat üzerindeki etkisini analiz etmek için tanımlanmıştır.

ÖNERİLER:
- Bu analiz, bir gayrimenkul şirketinin yatırım kararlarında hangi bölgelerin daha değerli olduğunu belirlemesine yardımcı olabilir.
- Ev fiyatlarını tahmin etmek için regresyon modelleri önerilir. Örneğin, Lasso veya Ridge Regression algoritmaları hesaplama verimliliği sağlar.
""")
