# 01 - Keşifsel Veri Analizi (Exploratory Data Analysis)

## Sprint 1: Veri Hazırlama ve Ön İşleme

Bu notebook, maaş anketi verisinin ilk keşifsel analizini içerir.

### Hedefler:
- Ham veriyi yükleme ve temel yapıyı anlama
- Veri kalitesi değerlendirmesi
- Eksik veri analizi
- Temel istatistiksel özetler

In [1]:
# Gerekli kütüphaneleri import et
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Görselleştirme ayarları
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Kütüphaneler başarıyla yüklendi!")

Kütüphaneler başarıyla yüklendi!


## 1. Veri Yükleme ve İlk İnceleme

In [2]:
# CSV dosyasını yükle
df = pd.read_csv('../maas_anketi.csv')

print(f"Veri boyutu: {df.shape}")
print(f"Satır sayısı: {df.shape[0]}")
print(f"Sütun sayısı: {df.shape[1]}")
print("\nSütun isimleri:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

Veri boyutu: (2969, 12)
Satır sayısı: 2969
Sütun sayısı: 12

Sütun isimleri:
 1. Timestamp
 2. Şirket lokasyon
 3. Çalışma türü
 4. Çalışma şekli
 5. Cinsiyet
 6. Toplam kaç yıllık iş deneyimin var?
 7. Hangi seviyedesin?
 8. Hangi programlama dillerini kullanıyorsun
 9. Ne yapıyorsun?
10. Frontend yazıyorsan hangilerini kullanıyorsun
11. Hangi tool'ları kullanıyorsun
12. Aylık ortalama net kaç bin TL alıyorsun?


In [3]:
# İlk 5 satırı görüntüle
print("İlk 5 satır:")
df.head()

İlk 5 satır:


Unnamed: 0,Timestamp,Şirket lokasyon,Çalışma türü,Çalışma şekli,Cinsiyet,Toplam kaç yıllık iş deneyimin var?,Hangi seviyedesin?,Hangi programlama dillerini kullanıyorsun,Ne yapıyorsun?,Frontend yazıyorsan hangilerini kullanıyorsun,Hangi tool'ları kullanıyorsun,Aylık ortalama net kaç bin TL alıyorsun?
0,8/20/2025 12:31:15,Türkiye,Tam zamanlı,Hybrid,Erkek,5,Mid,"HTML/CSS, JavaScript, TypeScript, C#, Python",Fullstack,React,Redux,61 - 70
1,8/20/2025 12:31:27,Türkiye,Tam zamanlı,Remote,Erkek,6,Senior,"JavaScript, TypeScript",React Native,React,"Redux, Firebase",121 - 130
2,8/20/2025 12:32:54,Avrupa,Tam zamanlı,Hybrid,Erkek,7,Senior,"HTML/CSS, JavaScript, TypeScript",Fullstack,React,Redux,151 - 160
3,8/20/2025 12:33:08,Türkiye,Tam zamanlı,Remote,Erkek,5,Mid,C#,Backend,Kullanmıyorum,Kullanmıyorum,81 - 90
4,8/20/2025 12:34:03,Türkiye,Tam zamanlı,Remote,Erkek,10,Senior,"HTML/CSS, JavaScript, TypeScript",Frontend,React,Zustand,121 - 130


In [4]:
# Veri tiplerini kontrol et
print("Veri tipleri:")
print(df.dtypes)
print("\nVeri tipleri özeti:")
print(df.dtypes.value_counts())

Veri tipleri:
Timestamp                                        object
Şirket lokasyon                                  object
Çalışma türü                                     object
Çalışma şekli                                    object
Cinsiyet                                         object
Toplam kaç yıllık iş deneyimin var?              object
Hangi seviyedesin?                               object
Hangi programlama dillerini kullanıyorsun        object
Ne yapıyorsun?                                   object
Frontend yazıyorsan hangilerini kullanıyorsun    object
Hangi tool'ları kullanıyorsun                    object
Aylık ortalama net kaç bin TL alıyorsun?         object
dtype: object

Veri tipleri özeti:
object    12
Name: count, dtype: int64


## 2. Temel İstatistiksel Özetler

In [5]:
# Sayısal sütunlar için temel istatistikler
print("Sayısal sütunlar için temel istatistikler:")
df.describe()

Sayısal sütunlar için temel istatistikler:


Unnamed: 0,Timestamp,Şirket lokasyon,Çalışma türü,Çalışma şekli,Cinsiyet,Toplam kaç yıllık iş deneyimin var?,Hangi seviyedesin?,Hangi programlama dillerini kullanıyorsun,Ne yapıyorsun?,Frontend yazıyorsan hangilerini kullanıyorsun,Hangi tool'ları kullanıyorsun,Aylık ortalama net kaç bin TL alıyorsun?
count,2969,2969,2969,2969,2969,2969,2969,2969,2969,2969,2969,2969
unique,2820,4,4,3,2,15,10,610,27,21,122,30
top,8/20/2025 13:46:04,Türkiye,Tam zamanlı,Remote,Erkek,3,Mid,"HTML/CSS, JavaScript, TypeScript",Fullstack,Kullanmıyorum,Kullanmıyorum,51 - 60
freq,4,2671,2837,1350,2705,493,1138,339,790,1662,1685,272


In [6]:
# Kategorik sütunlar için özet
print("Kategorik sütunlar için özet:")
categorical_columns = df.select_dtypes(include=['object']).columns

for col in categorical_columns:
    print(f"\n{col}:")
    print(f"Benzersiz değer sayısı: {df[col].nunique()}")
    print(f"En sık değer: {df[col].mode().iloc[0] if not df[col].mode().empty else 'Yok'}")
    print(f"En sık değer frekansı: {df[col].value_counts().iloc[0] if not df[col].value_counts().empty else 0}")

Kategorik sütunlar için özet:

Timestamp:
Benzersiz değer sayısı: 2820
En sık değer: 8/20/2025 13:46:04
En sık değer frekansı: 4

Şirket lokasyon:
Benzersiz değer sayısı: 4
En sık değer: Türkiye
En sık değer frekansı: 2671

Çalışma türü:
Benzersiz değer sayısı: 4
En sık değer: Tam zamanlı
En sık değer frekansı: 2837

Çalışma şekli:
Benzersiz değer sayısı: 3
En sık değer: Remote
En sık değer frekansı: 1350

Cinsiyet:
Benzersiz değer sayısı: 2
En sık değer: Erkek
En sık değer frekansı: 2705

Toplam kaç yıllık iş deneyimin var?:
Benzersiz değer sayısı: 15
En sık değer: 3
En sık değer frekansı: 493

Hangi seviyedesin?:
Benzersiz değer sayısı: 10
En sık değer: Mid
En sık değer frekansı: 1138

Hangi programlama dillerini kullanıyorsun:
Benzersiz değer sayısı: 610
En sık değer: HTML/CSS, JavaScript, TypeScript
En sık değer frekansı: 339

Ne yapıyorsun?:
Benzersiz değer sayısı: 27
En sık değer: Fullstack
En sık değer frekansı: 790

Frontend yazıyorsan hangilerini kullanıyorsun:
Benzersiz değer

## 3. Eksik Veri Analizi

In [7]:
# Eksik veri analizi
missing_data = df.isnull().sum()
missing_percentage = (missing_data / len(df)) * 100

missing_summary = pd.DataFrame({
    'Eksik_Veri_Sayısı': missing_data,
    'Eksik_Veri_Yüzdesi': missing_percentage
})

print("Eksik veri özeti:")
print(missing_summary[missing_summary['Eksik_Veri_Sayısı'] > 0])

print(f"\nToplam eksik veri oranı: {df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")

Eksik veri özeti:
Empty DataFrame
Columns: [Eksik_Veri_Sayısı, Eksik_Veri_Yüzdesi]
Index: []

Toplam eksik veri oranı: 0.00%


## 4. Maaş Verisi İnceleme

In [8]:
# Maaş sütununu detaylı incele
salary_column = 'Aylık ortalama net kaç bin TL alıyorsun?'

print(f"Maaş sütunu: {salary_column}")
print(f"Benzersiz değerler:")
print(df[salary_column].value_counts().sort_index())

print(f"\nMaaş aralıkları:")
print(df[salary_column].unique())

Maaş sütunu: Aylık ortalama net kaç bin TL alıyorsun?
Benzersiz değerler:
Aylık ortalama net kaç bin TL alıyorsun?
0 - 10        18
101 - 110    195
11 - 20       22
111 - 120    173
121 - 130    141
131 - 140     91
141 - 150    110
151 - 160     83
161 - 170     64
171 - 180     53
191 - 200     65
201 - 210     35
21 - 30      124
211 - 220     18
221 - 230     26
231 - 240     22
241 - 250     22
251 - 260     16
261 - 270      7
271 - 280     12
281 - 290      5
291 - 300      5
300 +         60
31 - 40      165
41 - 50      254
51 - 60      272
61 - 70      260
71 - 80      247
81 - 90      216
91 - 100     188
Name: count, dtype: int64

Maaş aralıkları:
['61 - 70' '121 - 130' '151 - 160' '81 - 90' '101 - 110' '51 - 60'
 '221 - 230' '91 - 100' '0 - 10' '111 - 120' '300 +' '71 - 80' '31 - 40'
 '41 - 50' '11 - 20' '21 - 30' '191 - 200' '141 - 150' '201 - 210'
 '131 - 140' '171 - 180' '241 - 250' '251 - 260' '161 - 170' '271 - 280'
 '231 - 240' '211 - 220' '291 - 300' '261 - 270' '2

## 5. Teknoloji Sütunları İnceleme

In [None]:
# Teknoloji sütunlarını incele
tech_columns = [
    'Hangi programlama dillerini kullanıyorsun',
    'Frontend yazıyorsan hangilerini kullanıyorsun',
    'Hangi tool\'ları kullanıyorsun'
]

for col in tech_columns:
    if col in df.columns:
        print(f"\n{col}:")
        print(f"Benzersiz değer sayısı: {df[col].nunique()}")
        print(f"İlk 10 benzersiz değer:")
        print(df[col].value_counts().head(10))

## 6. Veri Kalitesi Raporu

In [None]:
# Veri kalitesi raporu oluştur
print("=== VERİ KALİTESİ RAPORU ===\n")

print(f"1. Veri Boyutu: {df.shape[0]} satır, {df.shape[1]} sütun")
print(f"2. Toplam Veri Noktası: {df.shape[0] * df.shape[1]}")
print(f"3. Eksik Veri Sayısı: {df.isnull().sum().sum()}")
print(f"4. Eksik Veri Oranı: {df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")
print(f"5. Veri Tamlığı: {100 - df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%")

print("\n6. Sütun Bazında Eksik Veri:")
for col in df.columns:
    missing_count = df[col].isnull().sum()
    if missing_count > 0:
        print(f"   - {col}: {missing_count} ({missing_count/len(df)*100:.1f}%)")

print("\n7. Veri Tipleri:")
print(df.dtypes.value_counts())

## 7. Sonraki Adımlar

Bu EDA sonucunda:
1. Veri yapısı anlaşıldı
2. Eksik veri durumu belirlendi
3. Kategorik değişkenler tanımlandı
4. Maaş verisi formatı incelendi

**Sonraki adım:** `data_cleaning.py` modülü ile veri temizleme işlemleri