# 01 - Keşifsel Veri Analizi (Exploratory Data Analysis)

## Sprint 1: Veri Hazırlama ve Ön İşleme

Bu notebook, maaş anketi verisinin ilk keşifsel analizini içerir.

### Hedefler:
- Ham veriyi yükleme ve temel yapıyı anlama
- Veri kalitesi değerlendirmesi
- Eksik veri analizi
- Temel istatistiksel özetler

In [None]:
# Gerekli kütüphaneleri import et
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Görselleştirme ayarları
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Kütüphaneler başarıyla yüklendi!")

## 1. Veri Yükleme ve İlk İnceleme

In [None]:
# CSV dosyasını yükle
df = pd.read_csv('../maas_anketi.csv')

print(f"Veri boyutu: {df.shape}")
print(f"Satır sayısı: {df.shape[0]}")
print(f"Sütun sayısı: {df.shape[1]}")
print("\nSütun isimleri:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# İlk 5 satırı görüntüle
print("İlk 5 satır:")
df.head()

In [None]:
# Veri tiplerini kontrol et
print("Veri tipleri:")
print(df.dtypes)
print("\nVeri tipleri özeti:")
print(df.dtypes.value_counts())

## 2. Temel İstatistiksel Özetler

In [None]:
# Sayısal sütunlar için temel istatistikler
print("Sayısal sütunlar için temel istatistikler:")
df.describe()

In [None]:
# Kategorik sütunlar için özet
print("Kategorik sütunlar için özet:")
categorical_columns = df.select_dtypes(include=['object']).columns

for col in categorical_columns:
    print(f"\n{col}:")
    print(f"Benzersiz değer sayısı: {df[col].nunique()}")
    print(f"En sık değer: {df[col].mode().iloc[0] if not df[col].mode().empty else 'Yok'}")
    print(f"En sık değer frekansı: {df[col].value_counts().iloc[0] if not df[col].value_counts().empty else 0}")

## 3. Eksik Veri Analizi

In [None]:
# Eksik veri analizi
missing_data = df.isnull().sum()
missing_percentage = (missing_data / len(df)) * 100

missing_summary = pd.DataFrame({
    'Eksik_Veri_Sayısı': missing_data,
    'Eksik_Veri_Yüzdesi': missing_percentage
})

print("Eksik veri özeti:")
print(missing_summary[missing_summary['Eksik_Veri_Sayısı'] > 0])

print(f"\nToplam eksik veri oranı: {df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")

## 4. Maaş Verisi İnceleme

In [None]:
# Maaş sütununu detaylı incele
salary_column = 'Aylık ortalama net kaç bin TL alıyorsun?'

print(f"Maaş sütunu: {salary_column}")
print(f"Benzersiz değerler:")
print(df[salary_column].value_counts().sort_index())

print(f"\nMaaş aralıkları:")
print(df[salary_column].unique())

## 5. Teknoloji Sütunları İnceleme

In [None]:
# Teknoloji sütunlarını incele
tech_columns = [
    'Hangi programlama dillerini kullanıyorsun',
    'Frontend yazıyorsan hangilerini kullanıyorsun',
    'Hangi tool\'ları kullanıyorsun'
]

for col in tech_columns:
    if col in df.columns:
        print(f"\n{col}:")
        print(f"Benzersiz değer sayısı: {df[col].nunique()}")
        print(f"İlk 10 benzersiz değer:")
        print(df[col].value_counts().head(10))

## 6. Veri Kalitesi Raporu

In [None]:
# Veri kalitesi raporu oluştur
print("=== VERİ KALİTESİ RAPORU ===\n")

print(f"1. Veri Boyutu: {df.shape[0]} satır, {df.shape[1]} sütun")
print(f"2. Toplam Veri Noktası: {df.shape[0] * df.shape[1]}")
print(f"3. Eksik Veri Sayısı: {df.isnull().sum().sum()}")
print(f"4. Eksik Veri Oranı: {df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")
print(f"5. Veri Tamlığı: {100 - df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")

print("\n6. Sütun Bazında Eksik Veri:")
for col in df.columns:
    missing_count = df[col].isnull().sum()
    if missing_count > 0:
        print(f"   - {col}: {missing_count} ({missing_count/len(df)*100:.1f}%)")

print("\n7. Veri Tipleri:")
print(df.dtypes.value_counts())

## 7. Sonraki Adımlar

Bu EDA sonucunda:
1. Veri yapısı anlaşıldı
2. Eksik veri durumu belirlendi
3. Kategorik değişkenler tanımlandı
4. Maaş verisi formatı incelendi

**Sonraki adım:** `data_cleaning.py` modülü ile veri temizleme işlemleri