# EDA Şablonu

Bu notebook, veri setini anlamak, temizlemek ve modelleme öncesi içgörü elde etmek amacıyla hazırlanmıştır.


- Bu bölümde şu sorular cevaplanır:
- Veri dengeli mi?
- Eksik değer var mı?
- Aykırı değer yoğun mu?
- Hangi değişkenler önemli görünüyor?
- Modelleme için hangi dönüşümler gerekli?
  
- Modelleme Öncesi Hazırlık
- Eksik değerlerin doldurulması
- Kategorik değişkenlerin encode edilmesi
- Ölçekleme (StandardScaler / MinMaxScaler)
- Feature selection
- Train-test split

## 1. Kütüphanelerin Yüklenmesi

In [2]:
import numpy as np                      # sayısal işlemler
import pandas as pd                     # veri okuma ve analiz
import matplotlib.pyplot as plt         # temel grafikler
import seaborn as sns                   # istatistiksel görselleştirme

plt.style.use("default")               # grafik stili

## 2. Veri Setinin Yüklenmesi

In [None]:
df = pd.read_csv("data.csv")           # veri setini oku

## 3. Veriye İlk Bakış (Overview)

In [None]:
# İlk 5 satır

df.head()

In [None]:
# Son 5 satır

df.tail()

In [None]:
# Boyut bilgisi

df.shape

In [None]:
# Kolon isimleri

df.columns

In [None]:
# Veri tipleri

df.dtypes

## 4. Genel Bilgi ve Eksik Değer Kontrolü

In [None]:
df. info()

In [None]:
# Eksik değer sayıları

df.isnull().sum()

In [None]:
# Eksik değer yüzdesi

(df.isnull().sum() / len(df)) * 100

## 5. Temel İstatistikler

In [None]:
df.describe()

#Sayısal değişkenlerin:
#ortalama
#standart sapma
#min / max
#çeyrek değerleri
#burada görülür.

## 6. Sayısal ve Kategorik Değişkenleri Ayırma

In [None]:
numerical_cols = df.select_dtypes(include=["int64", "float64"]).columns
categorical_cols = df.select_dtypes(include=["object", "category"]).columns

## 7. Sayısal Değişkenlerin Analizi

In [None]:
# Histogram – dağılım inceleme

for col in numerical_cols:
    plt.figure()
    plt.hist(df[col], bins=30)
    plt.title(f"{col} dağılımı")
    plt.xlabel(col)
    plt.ylabel("Frekans")
    plt.show()


In [None]:
# Boxplot – aykırı değer analizi

for col in numerical_cols:
    plt.figure()
    sns.boxplot(x=df[col])
    plt.title(f"{col} boxplot")
    plt.show()


## 8. Kategorik Değişken Analizi

In [None]:
# Kategori frekansları

for col in categorical_cols:
    print(df[col].value_counts())


In [None]:
# Bar chart ile gösterim 

for col in categorical_cols:
    df[col].value_counts().plot(kind="bar")
    plt.title(f"{col} dağılımı")
    plt.xlabel(col)
    plt.ylabel("Frekans")
    plt.show()


## 9. Değişkenler Arası İlişkiler

In [None]:
# Scatter Plot (iki sayısal değişken)

if len(numerical_cols) >= 2:
    plt.scatter(df[numerical_cols[0]], df[numerical_cols[1]])
    plt.xlabel(numerical_cols[0])
    plt.ylabel(numerical_cols[1])
    plt.title("Değişkenler Arası İlişki")
    plt.show()

## 10. Korelasyon Analizi

In [None]:
corr = df[numerical_cols].corr()

In [None]:
# Heatmap ile gösterim

plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.title("Korelasyon Matrisi")
plt.show()


## 11. Hedef Değişken Analizi (Varsa)

In [None]:
df[target].value_counts().plot(kind="bar")
plt.title("Hedef Değişken Dağılımı")
plt.show()


## 12. Hedef – Sayısal Değişken İlişkisi

In [None]:
for col in numerical_cols:
    if col != target:
        sns.boxplot(x=df[target], y=df[col])
        plt.title(f"{col} vs {target}")
        plt.show()


## 13. Eksik Veri Görselleştirme


In [None]:
sns.heatmap(df.isnull(), cbar=False)
plt.title("Eksik Veri Haritası")
plt.show()


## 14. Aykırı Değer Kontrolü (IQR Yöntemi)

In [None]:
Q1 = df[numerical_cols].quantile(0.25)
Q3 = df[numerical_cols].quantile(0.75)
IQR = Q3 - Q1

outliers = ((df[numerical_cols] < (Q1 - 1.5 * IQR)) |
            (df[numerical_cols] > (Q3 + 1.5 * IQR)))

outliers.sum()
