# 1. Ay 1. Hafta - Pandas ile Veri Manipülasyonu

## 🎯 Bu Haftanın Hedefleri
- Pandas kütüphanesinin temellerini öğrenmek
- CSV dosyalarını okuma, yazma ve temel işlemler yapabilmek
- Veri temizleme ve filtreleme tekniklerini kavramak
- DataFrame ve Series yapılarını etkili kullanabilmek

## 📚 Teorik Bilgiler

### Pandas Nedir?
Pandas (Python Data Analysis Library), veri analizi ve manipülasyonu için geliştirilmiş güçlü bir Python kütüphanesidir. İki ana veri yapısı sunar:
- **Series**: Tek boyutlu etiketli veri yapısı (Excel'deki bir sütun gibi)
- **DataFrame**: İki boyutlu etiketli veri yapısı (Excel tablosu gibi)

### Neden Pandas?
- Excel'den çok daha hızlı ve güçlü
- Büyük veri setleriyle çalışabilir (milyonlarca satır)
- Gelişmiş veri temizleme ve dönüştürme araçları
- Diğer Python kütüphaneleri ile mükemmel entegrasyon

---

## 🛠️ Kurulum ve Başlangıç

In [8]:
# Gerekli kütüphaneleri import etme
import pandas as pd
import numpy as np

# Pandas versiyonunu kontrol etme
print(f"Pandas versiyonu: {pd.__version__}")

# Görüntüleme ayarları (opsiyonel)
pd.set_option('display.max_columns', None)  # Tüm sütunları göster
pd.set_option('display.width', None)        # Genişlik limiti kaldır
pd.set_option('display.max_colwidth', 50)   # Sütun genişliği max 50 karakter

Pandas versiyonu: 2.2.3


---

## 📊 1. Gün - Pandas Temelleri ve Veri Yapıları

### Series Oluşturma ve Temel İşlemler

In [9]:
# Series oluşturma - Liste ile
sehirler = pd.Series(['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya'])
print("Şehirler Series'i:")
print(sehirler)
print(f"Veri tipi: {type(sehirler)}")

# Series oluşturma - Dictionary ile
nufus = pd.Series({
    'İstanbul': 15519267,
    'Ankara': 5663322,
    'İzmir': 4367251,
    'Bursa': 3147818,
    'Antalya': 2619832
})
print("\nNüfus Series'i:")
print(nufus)

# Series'ten belirli değerlere erişim
print(f"\nİstanbul nüfusu: {nufus['İstanbul']:,}")
print(f"İlk 3 şehir:\n{nufus.head(3)}")
print(f"Son 2 şehir:\n{nufus.tail(2)}")

# Temel istatistiksel bilgiler
print(f"\nToplam nüfus: {nufus.sum():,}")
print(f"Ortalama nüfus: {nufus.mean():,.0f}")
print(f"En kalabalık şehir: {nufus.max():,}")
print(f"En az nüfuslu şehir: {nufus.min():,}")

Şehirler Series'i:
0    İstanbul
1      Ankara
2       İzmir
3       Bursa
4     Antalya
dtype: object
Veri tipi: <class 'pandas.core.series.Series'>

Nüfus Series'i:
İstanbul    15519267
Ankara       5663322
İzmir        4367251
Bursa        3147818
Antalya      2619832
dtype: int64

İstanbul nüfusu: 15,519,267
İlk 3 şehir:
İstanbul    15519267
Ankara       5663322
İzmir        4367251
dtype: int64
Son 2 şehir:
Bursa      3147818
Antalya    2619832
dtype: int64

Toplam nüfus: 31,317,490
Ortalama nüfus: 6,263,498
En kalabalık şehir: 15,519,267
En az nüfuslu şehir: 2,619,832


### DataFrame Oluşturma

In [10]:
# Dictionary ile DataFrame oluşturma
sehir_bilgileri = {
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya'],
    'Nüfus': [15519267, 5663322, 4367251, 3147818, 2619832],
    'Bölge': ['Marmara', 'İç Anadolu', 'Ege', 'Marmara', 'Akdeniz'],
    'Plaka_Kodu': [34, 6, 35, 16, 7],
    'Denize_Kıyısı': [True, False, True, False, True]
}

df = pd.DataFrame(sehir_bilgileri)
print("Şehir Bilgileri DataFrame:")
print(df)
print(f"\nDataFrame şekli: {df.shape}")  # (satır, sütun)
print(f"Sütun isimleri: {list(df.columns)}")
print(f"Index: {list(df.index)}")

Şehir Bilgileri DataFrame:
      Şehir     Nüfus       Bölge  Plaka_Kodu  Denize_Kıyısı
0  İstanbul  15519267     Marmara          34           True
1    Ankara   5663322  İç Anadolu           6          False
2     İzmir   4367251         Ege          35           True
3     Bursa   3147818     Marmara          16          False
4   Antalya   2619832     Akdeniz           7           True

DataFrame şekli: (5, 5)
Sütun isimleri: ['Şehir', 'Nüfus', 'Bölge', 'Plaka_Kodu', 'Denize_Kıyısı']
Index: [0, 1, 2, 3, 4]


### Temel DataFrame Bilgileri

In [11]:
# DataFrame hakkında genel bilgi
print("DataFrame Hakkında Genel Bilgi:")
print(df.info())

print("\nTemel İstatistikler:")
print(df.describe())

print("\nVeri Tipleri:")
print(df.dtypes)

print("\nNüfus sütununun benzersiz değer sayısı:")
print(df['Nüfus'].nunique())

print("\nBölgelerin benzersiz değerleri:")
print(df['Bölge'].unique())

DataFrame Hakkında Genel Bilgi:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Şehir          5 non-null      object
 1   Nüfus          5 non-null      int64 
 2   Bölge          5 non-null      object
 3   Plaka_Kodu     5 non-null      int64 
 4   Denize_Kıyısı  5 non-null      bool  
dtypes: bool(1), int64(2), object(2)
memory usage: 297.0+ bytes
None

Temel İstatistikler:
              Nüfus  Plaka_Kodu
count  5.000000e+00    5.000000
mean   6.263498e+06   19.600000
std    5.305869e+06   14.152738
min    2.619832e+06    6.000000
25%    3.147818e+06    7.000000
50%    4.367251e+06   16.000000
75%    5.663322e+06   34.000000
max    1.551927e+07   35.000000

Veri Tipleri:
Şehir            object
Nüfus             int64
Bölge            object
Plaka_Kodu        int64
Denize_Kıyısı      bool
dtype: object

Nüfus sütununun benzersiz değer sayısı

---

## 📊 2. Gün - Veri Okuma ve Yazma İşlemleri

### CSV Dosyası Oluşturma ve Okuma

In [12]:
# Önce bir CSV dosyası oluşturalım
sample_data = {
    'Ad': ['Ahmet', 'Ayşe', 'Mehmet', 'Fatma', 'Ali', 'Zeynep'],
    'Yaş': [25, 30, 35, 28, 32, 27],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya', 'İstanbul'],
    'Maaş': [5000, 6500, 7200, 5800, 6200, 5500],
    'Departman': ['IT', 'HR', 'IT', 'Muhasebe', 'IT', 'HR']
}

df_sample = pd.DataFrame(sample_data)

# CSV dosyasına kaydetme
df_sample.to_csv('calisanlar.csv', index=False, encoding='utf-8')
print("CSV dosyası oluşturuldu: calisanlar.csv")

# CSV dosyasını okuma
df_read = pd.read_csv('calisanlar.csv', encoding='utf-8')
print("\nCSV dosyasından okunan veri:")
print(df_read)

CSV dosyası oluşturuldu: calisanlar.csv

CSV dosyasından okunan veri:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
2  Mehmet   35     İzmir  7200        IT
3   Fatma   28     Bursa  5800  Muhasebe
4     Ali   32   Antalya  6200        IT
5  Zeynep   27  İstanbul  5500        HR


### Farklı Okuma Seçenekleri

In [13]:
# CSV okuma seçenekleri
# Belirli sütunları okuma
df_selected = pd.read_csv('calisanlar.csv', usecols=['Ad', 'Yaş', 'Maaş'])
print("Seçili sütunlar:")
print(df_selected)

# Belirli satırları okuma (nrows parametresi)
df_limited = pd.read_csv('calisanlar.csv', nrows=3)
print("\nİlk 3 satır:")
print(df_limited)

# Index sütunu belirleme
df_indexed = pd.read_csv('calisanlar.csv', index_col='Ad')
print("\nAd sütunu index olarak:")
print(df_indexed)

Seçili sütunlar:
       Ad  Yaş  Maaş
0   Ahmet   25  5000
1    Ayşe   30  6500
2  Mehmet   35  7200
3   Fatma   28  5800
4     Ali   32  6200
5  Zeynep   27  5500

İlk 3 satır:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
2  Mehmet   35     İzmir  7200        IT

Ad sütunu index olarak:
        Yaş     Şehir  Maaş Departman
Ad                                   
Ahmet    25  İstanbul  5000        IT
Ayşe     30    Ankara  6500        HR
Mehmet   35     İzmir  7200        IT
Fatma    28     Bursa  5800  Muhasebe
Ali      32   Antalya  6200        IT
Zeynep   27  İstanbul  5500        HR


### Excel Dosyası İşlemleri

In [14]:
# Excel dosyasına kaydetme
df_sample.to_excel('calisanlar.xlsx', index=False)
print("Excel dosyası oluşturuldu: calisanlar.xlsx")

# Excel dosyasını okuma
try:
    df_excel = pd.read_excel('calisanlar.xlsx')
    print("\nExcel dosyasından okunan veri:")
    print(df_excel.head())
except ImportError:
    print("Excel okuma için 'openpyxl' kütüphanesi gerekli: pip install openpyxl")

Excel dosyası oluşturuldu: calisanlar.xlsx

Excel dosyasından okunan veri:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
2  Mehmet   35     İzmir  7200        IT
3   Fatma   28     Bursa  5800  Muhasebe
4     Ali   32   Antalya  6200        IT


---

## 📊 3. Gün - Veri Seçimi ve Filtreleme

### Sütun Seçimi

In [15]:
# Çalışanlar verisini kullanarak devam edelim
df = pd.read_csv('calisanlar.csv')

# Tek sütun seçimi (Series döner)
yaşlar = df['Yaş']
print("Yaşlar (Series):")
print(yaşlar)
print(f"Tip: {type(yaşlar)}")

# Tek sütun seçimi (DataFrame döner)
yaşlar_df = df[['Yaş']]
print("\nYaşlar (DataFrame):")
print(yaşlar_df)
print(f"Tip: {type(yaşlar_df)}")

# Birden fazla sütun seçimi
kişi_bilgileri = df[['Ad', 'Yaş', 'Şehir']]
print("\nKişi bilgileri:")
print(kişi_bilgileri)

Yaşlar (Series):
0    25
1    30
2    35
3    28
4    32
5    27
Name: Yaş, dtype: int64
Tip: <class 'pandas.core.series.Series'>

Yaşlar (DataFrame):
   Yaş
0   25
1   30
2   35
3   28
4   32
5   27
Tip: <class 'pandas.core.frame.DataFrame'>

Kişi bilgileri:
       Ad  Yaş     Şehir
0   Ahmet   25  İstanbul
1    Ayşe   30    Ankara
2  Mehmet   35     İzmir
3   Fatma   28     Bursa
4     Ali   32   Antalya
5  Zeynep   27  İstanbul


### Satır Seçimi

In [16]:
# Index ile satır seçimi
print("İlk satır (iloc ile):")
print(df.iloc[0])  # Series döner

print("\nİlk satır (DataFrame olarak):")
print(df.iloc[[0]])  # DataFrame döner

# Birden fazla satır seçimi
print("\nİlk 3 satır:")
print(df.iloc[0:3])

# Son satır
print("\nSon satır:")
print(df.iloc[-1])

# Belirli satırlar
print("\n1. ve 3. satırlar:")
print(df.iloc[[0, 2]])

İlk satır (iloc ile):
Ad              Ahmet
Yaş                25
Şehir        İstanbul
Maaş             5000
Departman          IT
Name: 0, dtype: object

İlk satır (DataFrame olarak):
      Ad  Yaş     Şehir  Maaş Departman
0  Ahmet   25  İstanbul  5000        IT

İlk 3 satır:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
2  Mehmet   35     İzmir  7200        IT

Son satır:
Ad             Zeynep
Yaş                27
Şehir        İstanbul
Maaş             5500
Departman          HR
Name: 5, dtype: object

1. ve 3. satırlar:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
2  Mehmet   35     İzmir  7200        IT


### Koşullu Filtreleme

In [17]:
# Tek koşul ile filtreleme
genç_çalışanlar = df[df['Yaş'] < 30]
print("30 yaşından küçük çalışanlar:")
print(genç_çalışanlar)

# Büyüktür koşulu
yüksek_maaşlı = df[df['Maaş'] > 6000]
print("\n6000'den fazla maaş alanlar:")
print(yüksek_maaşlı)

# String koşulu
istanbul_çalışanları = df[df['Şehir'] == 'İstanbul']
print("\nİstanbul'da çalışanlar:")
print(istanbul_çalışanları)

# İçerme koşulu (isin)
it_hr_çalışanları = df[df['Departman'].isin(['IT', 'HR'])]
print("\nIT ve HR departmanlarında çalışanlar:")
print(it_hr_çalışanları)

30 yaşından küçük çalışanlar:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
3   Fatma   28     Bursa  5800  Muhasebe
5  Zeynep   27  İstanbul  5500        HR

6000'den fazla maaş alanlar:
       Ad  Yaş    Şehir  Maaş Departman
1    Ayşe   30   Ankara  6500        HR
2  Mehmet   35    İzmir  7200        IT
4     Ali   32  Antalya  6200        IT

İstanbul'da çalışanlar:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
5  Zeynep   27  İstanbul  5500        HR

IT ve HR departmanlarında çalışanlar:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
2  Mehmet   35     İzmir  7200        IT
4     Ali   32   Antalya  6200        IT
5  Zeynep   27  İstanbul  5500        HR


### Birden Fazla Koşul

In [18]:
# VE (AND) koşulu
genç_ve_yüksek_maaşlı = df[(df['Yaş'] < 30) & (df['Maaş'] > 5500)]
print("Genç ve yüksek maaşlı çalışanlar:")
print(genç_ve_yüksek_maaşlı)

# VEYA (OR) koşulu
istanbul_veya_ankara = df[(df['Şehir'] == 'İstanbul') | (df['Şehir'] == 'Ankara')]
print("\nİstanbul veya Ankara'da çalışanlar:")
print(istanbul_veya_ankara)

# DEĞİL (NOT) koşulu
it_olmayan = df[~(df['Departman'] == 'IT')]
print("\nIT departmanında olmayan çalışanlar:")
print(it_olmayan)

# Karmaşık koşul
karmaşık_filtre = df[
    (df['Yaş'] >= 25) & 
    (df['Yaş'] <= 32) & 
    (df['Maaş'] > 5000) & 
    (df['Departman'].isin(['IT', 'HR']))
]
print("\nKarmaşık filtre sonucu:")
print(karmaşık_filtre)

Genç ve yüksek maaşlı çalışanlar:
      Ad  Yaş  Şehir  Maaş Departman
3  Fatma   28  Bursa  5800  Muhasebe

İstanbul veya Ankara'da çalışanlar:
       Ad  Yaş     Şehir  Maaş Departman
0   Ahmet   25  İstanbul  5000        IT
1    Ayşe   30    Ankara  6500        HR
5  Zeynep   27  İstanbul  5500        HR

IT departmanında olmayan çalışanlar:
       Ad  Yaş     Şehir  Maaş Departman
1    Ayşe   30    Ankara  6500        HR
3   Fatma   28     Bursa  5800  Muhasebe
5  Zeynep   27  İstanbul  5500        HR

Karmaşık filtre sonucu:
       Ad  Yaş     Şehir  Maaş Departman
1    Ayşe   30    Ankara  6500        HR
4     Ali   32   Antalya  6200        IT
5  Zeynep   27  İstanbul  5500        HR


---

## 📊 4. Gün - Veri Temizleme ve Eksik Veri İşleme

### Eksik Veri Oluşturma ve Tespit Etme

In [19]:
# Eksik veriler içeren DataFrame oluşturma
import numpy as np

eksik_veri = {
    'Ad': ['Ahmet', 'Ayşe', 'Mehmet', None, 'Ali', 'Zeynep'],
    'Yaş': [25, None, 35, 28, 32, 27],
    'Şehir': ['İstanbul', 'Ankara', None, 'Bursa', 'Antalya', 'İstanbul'],
    'Maaş': [5000, 6500, 7200, None, 6200, 5500],
    'Email': ['ahmet@email.com', None, 'mehmet@email.com', 'fatma@email.com', None, 'zeynep@email.com']
}

df_eksik = pd.DataFrame(eksik_veri)
print("Eksik veriler içeren DataFrame:")
print(df_eksik)

# Eksik verileri tespit etme
print("\nEksik veri kontrolü (isnull):")
print(df_eksik.isnull())

print("\nEksik veri sayısı (sütunlara göre):")
print(df_eksik.isnull().sum())

print("\nEksik veri yüzdesi:")
print((df_eksik.isnull().sum() / len(df_eksik)) * 100)

# Eksik veri olan satırları gösterme
print("\nEksik veri içeren satırları:")
eksik_satirlar = df_eksik[df_eksik.isnull().any(axis=1)]
print(eksik_satirlar)

Eksik veriler içeren DataFrame:
       Ad   Yaş     Şehir    Maaş             Email
0   Ahmet  25.0  İstanbul  5000.0   ahmet@email.com
1    Ayşe   NaN    Ankara  6500.0              None
2  Mehmet  35.0      None  7200.0  mehmet@email.com
3    None  28.0     Bursa     NaN   fatma@email.com
4     Ali  32.0   Antalya  6200.0              None
5  Zeynep  27.0  İstanbul  5500.0  zeynep@email.com

Eksik veri kontrolü (isnull):
      Ad    Yaş  Şehir   Maaş  Email
0  False  False  False  False  False
1  False   True  False  False   True
2  False  False   True  False  False
3   True  False  False   True  False
4  False  False  False  False   True
5  False  False  False  False  False

Eksik veri sayısı (sütunlara göre):
Ad       1
Yaş      1
Şehir    1
Maaş     1
Email    2
dtype: int64

Eksik veri yüzdesi:
Ad       16.666667
Yaş      16.666667
Şehir    16.666667
Maaş     16.666667
Email    33.333333
dtype: float64

Eksik veri içeren satırları:
       Ad   Yaş    Şehir    Maaş             Ema

### Eksik Veri İşleme Yöntemleri

In [20]:
# 1. Eksik verileri silme
print("1. Eksik verileri silme:")

# Herhangi bir sütunda eksik veri olan satırları silme
df_temiz1 = df_eksik.dropna()
print(f"Orijinal satır sayısı: {len(df_eksik)}")
print(f"Temizleme sonrası: {len(df_temiz1)}")
print(df_temiz1)

# Belirli sütunlarda eksik veri olan satırları silme
df_temiz2 = df_eksik.dropna(subset=['Ad', 'Yaş'])
print(f"\nAd ve Yaş sütunlarında eksik veri olmayan satırlar: {len(df_temiz2)}")

# 2. Eksik verileri doldurma
print("\n2. Eksik verileri doldurma:")

# Sabit değer ile doldurma
df_doldurulmuş1 = df_eksik.fillna('Bilinmiyor')
print("Sabit değer ile doldurma:")
print(df_doldurulmuş1)

# Sütuna göre farklı değerler ile doldurma
doldurma_değerleri = {
    'Ad': 'İsimsiz',
    'Yaş': df_eksik['Yaş'].mean(),  # Ortalama ile
    'Şehir': 'Bilinmiyor',
    'Maaş': df_eksik['Maaş'].median(),  # Medyan ile
    'Email': 'email_yok@domain.com'
}

df_doldurulmuş2 = df_eksik.fillna(doldurma_değerleri)
print("\nSütuna göre farklı değerler ile doldurma:")
print(df_doldurulmuş2)

# İleri/geri doldurma (forward fill / backward fill)
df_ffill = df_eksik.fillna(method='ffill')  # Önceki değer ile doldur
print("\nÖnceki değer ile doldurma (forward fill):")
print(df_ffill)

1. Eksik verileri silme:
Orijinal satır sayısı: 6
Temizleme sonrası: 2
       Ad   Yaş     Şehir    Maaş             Email
0   Ahmet  25.0  İstanbul  5000.0   ahmet@email.com
5  Zeynep  27.0  İstanbul  5500.0  zeynep@email.com

Ad ve Yaş sütunlarında eksik veri olmayan satırlar: 4

2. Eksik verileri doldurma:
Sabit değer ile doldurma:
           Ad         Yaş       Şehir        Maaş             Email
0       Ahmet        25.0    İstanbul      5000.0   ahmet@email.com
1        Ayşe  Bilinmiyor      Ankara      6500.0        Bilinmiyor
2      Mehmet        35.0  Bilinmiyor      7200.0  mehmet@email.com
3  Bilinmiyor        28.0       Bursa  Bilinmiyor   fatma@email.com
4         Ali        32.0     Antalya      6200.0        Bilinmiyor
5      Zeynep        27.0    İstanbul      5500.0  zeynep@email.com

Sütuna göre farklı değerler ile doldurma:
        Ad   Yaş       Şehir    Maaş                 Email
0    Ahmet  25.0    İstanbul  5000.0       ahmet@email.com
1     Ayşe  29.4      Anka

  df_ffill = df_eksik.fillna(method='ffill')  # Önceki değer ile doldur


### Tekrarlanan Verileri İşleme

In [21]:
# Tekrarlanan veri oluşturma
tekrar_veri = {
    'Ad': ['Ahmet', 'Ayşe', 'Mehmet', 'Ahmet', 'Ali', 'Ayşe'],
    'Yaş': [25, 30, 35, 25, 32, 30],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'İstanbul', 'Antalya', 'Ankara']
}

df_tekrar = pd.DataFrame(tekrar_veri)
print("Tekrarlanan veriler:")
print(df_tekrar)

# Tekrarlanan satırları tespit etme
print("\nTekrarlanan satırlar:")
print(df_tekrar.duplicated())

print("\nTekrarlanan satırları gösterme:")
print(df_tekrar[df_tekrar.duplicated()])

# Tekrarlanan satırları silme
df_benzersiz = df_tekrar.drop_duplicates()
print(f"\nOrijinal satır sayısı: {len(df_tekrar)}")
print(f"Tekrarlar silinince: {len(df_benzersiz)}")
print(df_benzersiz)

# Belirli sütunlara göre tekrar kontrolü
df_benzersiz_ad = df_tekrar.drop_duplicates(subset=['Ad'])
print("\nSadece 'Ad' sütununa göre benzersiz:")
print(df_benzersiz_ad)

Tekrarlanan veriler:
       Ad  Yaş     Şehir
0   Ahmet   25  İstanbul
1    Ayşe   30    Ankara
2  Mehmet   35     İzmir
3   Ahmet   25  İstanbul
4     Ali   32   Antalya
5    Ayşe   30    Ankara

Tekrarlanan satırlar:
0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool

Tekrarlanan satırları gösterme:
      Ad  Yaş     Şehir
3  Ahmet   25  İstanbul
5   Ayşe   30    Ankara

Orijinal satır sayısı: 6
Tekrarlar silinince: 4
       Ad  Yaş     Şehir
0   Ahmet   25  İstanbul
1    Ayşe   30    Ankara
2  Mehmet   35     İzmir
4     Ali   32   Antalya

Sadece 'Ad' sütununa göre benzersiz:
       Ad  Yaş     Şehir
0   Ahmet   25  İstanbul
1    Ayşe   30    Ankara
2  Mehmet   35     İzmir
4     Ali   32   Antalya


---

## 📊 5. Gün - Veri Dönüştürme ve Gruplama

### Sütun İşlemleri

In [22]:
# Orijinal veriyi yeniden yükleyelim
df = pd.read_csv('calisanlar.csv')

# Yeni sütun ekleme
df['Yaş_Grubu'] = df['Yaş'].apply(lambda x: 'Genç' if x < 30 else 'Orta Yaş' if x < 35 else 'Olgun')
print("Yaş grubu eklendi:")
print(df)

# Maaş artışı hesaplama
df['Zam_Sonrası_Maaş'] = df['Maaş'] * 1.15  # %15 zam
print(f"\n%15 zam sonrası maaşlar:")
print(df[['Ad', 'Maaş', 'Zam_Sonrası_Maaş']])

# String işlemleri
df['Email'] = df['Ad'].str.lower() + '@company.com'
print(f"\nEmail adresleri oluşturuldu:")
print(df[['Ad', 'Email']])

# Kategorik sütun oluşturma
df['Maaş_Kategorisi'] = pd.cut(df['Maaş'], 
                               bins=[0, 5500, 6500, float('inf')], 
                               labels=['Düşük', 'Orta', 'Yüksek'])
print(f"\nMaaş kategorileri:")
print(df[['Ad', 'Maaş', 'Maaş_Kategorisi']])

Yaş grubu eklendi:
       Ad  Yaş     Şehir  Maaş Departman Yaş_Grubu
0   Ahmet   25  İstanbul  5000        IT      Genç
1    Ayşe   30    Ankara  6500        HR  Orta Yaş
2  Mehmet   35     İzmir  7200        IT     Olgun
3   Fatma   28     Bursa  5800  Muhasebe      Genç
4     Ali   32   Antalya  6200        IT  Orta Yaş
5  Zeynep   27  İstanbul  5500        HR      Genç

%15 zam sonrası maaşlar:
       Ad  Maaş  Zam_Sonrası_Maaş
0   Ahmet  5000            5750.0
1    Ayşe  6500            7475.0
2  Mehmet  7200            8280.0
3   Fatma  5800            6670.0
4     Ali  6200            7130.0
5  Zeynep  5500            6325.0

Email adresleri oluşturuldu:
       Ad               Email
0   Ahmet   ahmet@company.com
1    Ayşe    ayşe@company.com
2  Mehmet  mehmet@company.com
3   Fatma   fatma@company.com
4     Ali     ali@company.com
5  Zeynep  zeynep@company.com

Maaş kategorileri:
       Ad  Maaş Maaş_Kategorisi
0   Ahmet  5000           Düşük
1    Ayşe  6500            Orta
2  M

### Gruplama İşlemleri

In [23]:
# Departmana göre gruplama
print("Departmana göre gruplama:")
dept_grupları = df.groupby('Departman')

# Her departmanın ortalama maaşı
print("\nDepartmanların ortalama maaşları:")
print(dept_grupları['Maaş'].mean())

# Her departmanın çalışan sayısı
print("\nDepartmanların çalışan sayıları:")
print(dept_grupları.size())

# Birden fazla istatistik
print("\nDepartmanların detaylı istatistikleri:")
print(dept_grupları['Maaş'].agg(['count', 'mean', 'min', 'max']))

# Şehire göre gruplama
şehir_grupları = df.groupby('Şehir')
print("\nŞehirlere göre ortalama yaş:")
print(şehir_grupları['Yaş'].mean().sort_values(ascending=False))

# Birden fazla sütuna göre gruplama
karmaşık_grup = df.groupby(['Şehir', 'Departman'])
print("\nŞehir ve departmana göre gruplama:")
print(karmaşık_grup['Maaş'].mean())

Departmana göre gruplama:

Departmanların ortalama maaşları:
Departman
HR          6000.000000
IT          6133.333333
Muhasebe    5800.000000
Name: Maaş, dtype: float64

Departmanların çalışan sayıları:
Departman
HR          2
IT          3
Muhasebe    1
dtype: int64

Departmanların detaylı istatistikleri:
           count         mean   min   max
Departman                                
HR             2  6000.000000  5500  6500
IT             3  6133.333333  5000  7200
Muhasebe       1  5800.000000  5800  5800

Şehirlere göre ortalama yaş:
Şehir
İzmir       35.0
Antalya     32.0
Ankara      30.0
Bursa       28.0
İstanbul    26.0
Name: Yaş, dtype: float64

Şehir ve departmana göre gruplama:
Şehir     Departman
Ankara    HR           6500.0
Antalya   IT           6200.0
Bursa     Muhasebe     5800.0
İstanbul  HR           5500.0
          IT           5000.0
İzmir     IT           7200.0
Name: Maaş, dtype: float64


### Pivot Table İşlemleri

In [24]:
# Pivot table oluşturma
pivot_table = df.pivot_table(
    values='Maaş',
    index='Şehir',
    columns='Departman',
    aggfunc='mean',
    fill_value=0
)
print("Pivot Table - Şehir ve Departmana göre ortalama maaşlar:")
print(pivot_table)

# Birden fazla değer ile pivot table
pivot_table2 = df.pivot_table(
    values=['Maaş', 'Yaş'],
    index='Departman',
    aggfunc={'Maaş': 'mean', 'Yaş': 'mean'}
)
print("\nDepartmanlara göre ortalama maaş ve yaş:")
print(pivot_table2)

Pivot Table - Şehir ve Departmana göre ortalama maaşlar:
Departman      HR      IT  Muhasebe
Şehir                              
Ankara     6500.0     0.0       0.0
Antalya       0.0  6200.0       0.0
Bursa         0.0     0.0    5800.0
İstanbul   5500.0  5000.0       0.0
İzmir         0.0  7200.0       0.0

Departmanlara göre ortalama maaş ve yaş:
                  Maaş        Yaş
Departman                        
HR         6000.000000  28.500000
IT         6133.333333  30.666667
Muhasebe   5800.000000  28.000000


---

## 📊 6. Gün - Sıralama ve İndeksleme

### Sıralama İşlemleri

In [25]:
# Yaşa göre sıralama (artan)
yaş_sıralı = df.sort_values('Yaş')
print("Yaşa göre artan sıralama:")
print(yaş_sıralı[['Ad', 'Yaş', 'Maaş']])

# Maaşa göre sıralama (azalan)
maaş_sıralı = df.sort_values('Maaş', ascending=False)
print("\nMaaşa göre azalan sıralama:")
print(maaş_sıralı[['Ad', 'Yaş', 'Maaş']])

# Birden fazla sütuna göre sıralama
çoklu_sıralama = df.sort_values(['Departman', 'Maaş'], ascending=[True, False])
print("\nDepartman (artan) ve Maaş (azalan) sıralaması:")
print(çoklu_sıralama[['Ad', 'Departman', 'Maaş']])

# Index'e göre sıralama
index_sıralı = df.sort_index()
print("\nIndex'e göre sıralama:")
print(index_sıralı.head())

Yaşa göre artan sıralama:
       Ad  Yaş  Maaş
0   Ahmet   25  5000
5  Zeynep   27  5500
3   Fatma   28  5800
1    Ayşe   30  6500
4     Ali   32  6200
2  Mehmet   35  7200

Maaşa göre azalan sıralama:
       Ad  Yaş  Maaş
2  Mehmet   35  7200
1    Ayşe   30  6500
4     Ali   32  6200
3   Fatma   28  5800
5  Zeynep   27  5500
0   Ahmet   25  5000

Departman (artan) ve Maaş (azalan) sıralaması:
       Ad Departman  Maaş
1    Ayşe        HR  6500
5  Zeynep        HR  5500
2  Mehmet        IT  7200
4     Ali        IT  6200
0   Ahmet        IT  5000
3   Fatma  Muhasebe  5800

Index'e göre sıralama:
       Ad  Yaş     Şehir  Maaş Departman Yaş_Grubu  Zam_Sonrası_Maaş  \
0   Ahmet   25  İstanbul  5000        IT      Genç            5750.0   
1    Ayşe   30    Ankara  6500        HR  Orta Yaş            7475.0   
2  Mehmet   35     İzmir  7200        IT     Olgun            8280.0   
3   Fatma   28     Bursa  5800  Muhasebe      Genç            6670.0   
4     Ali   32   Antalya  6200       

### İndeksleme İşlemleri

In [26]:
# Index'i değiştirme
df_new_index = df.set_index('Ad')
print("Ad sütunu index olarak ayarlandı:")
print(df_new_index.head())

# Index ile erişim
print(f"\nAhmet'in bilgileri:")
print(df_new_index.loc['Ahmet'])

# Çoklu index oluşturma
df_multi_index = df.set_index(['Departman', 'Ad'])
print("\nÇoklu index (Departman, Ad):")
print(df_multi_index)

# Çoklu index ile erişim
print(f"\nIT departmanındaki Ahmet'in bilgileri:")
print(df_multi_index.loc[('IT', 'Ahmet')])

# Index'i sıfırlama
df_reset = df_new_index.reset_index()
print("\nIndex sıfırlandı:")
print(df_reset.head())

Ad sütunu index olarak ayarlandı:
        Yaş     Şehir  Maaş Departman Yaş_Grubu  Zam_Sonrası_Maaş  \
Ad                                                                  
Ahmet    25  İstanbul  5000        IT      Genç            5750.0   
Ayşe     30    Ankara  6500        HR  Orta Yaş            7475.0   
Mehmet   35     İzmir  7200        IT     Olgun            8280.0   
Fatma    28     Bursa  5800  Muhasebe      Genç            6670.0   
Ali      32   Antalya  6200        IT  Orta Yaş            7130.0   

                     Email Maaş_Kategorisi  
Ad                                          
Ahmet    ahmet@company.com           Düşük  
Ayşe      ayşe@company.com            Orta  
Mehmet  mehmet@company.com          Yüksek  
Fatma    fatma@company.com            Orta  
Ali        ali@company.com            Orta  

Ahmet'in bilgileri:
Yaş                                25
Şehir                        İstanbul
Maaş                             5000
Departman                       

---

## 📊 7. Gün - Pratik Uygulama ve Proje

### Kapsamlı Veri Analizi Projesi

In [27]:
# Daha büyük bir veri seti oluşturalım
import random
np.random.seed(42)  # Tekrarlanabilir sonuçlar için

# 100 çalışan verisi oluşturma
n_çalışan = 100
çalışan_verileri = {
    'Çalışan_ID': range(1, n_çalışan + 1),
    'Ad': [f'Çalışan_{i}' for i in range(1, n_çalışan + 1)],
    'Yaş': np.random.randint(22, 65, n_çalışan),
    'Departman': np.random.choice(['IT', 'HR', 'Muhasebe', 'Pazarlama', 'Satış'], n_çalışan),
    'Şehir': np.random.choice(['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya'], n_çalışan),
    'Deneyim_Yılı': np.random.randint(0, 20, n_çalışan),
    'Maaş': np.random.randint(4000, 12000, n_çalışan),
    'Performans_Puanı': np.random.randint(60, 100, n_çalışan)
}

büyük_df = pd.DataFrame(çalışan_verileri)

# Bazı eksik veriler ekleyelim
eksik_indeksler = np.random.choice(büyük_df.index, size=10, replace=False)
büyük_df.loc[eksik_indeksler, 'Performans_Puanı'] = np.nan

print("Büyük veri seti oluşturuldu:")
print(f"Veri seti boyutu: {büyük_df.shape}")
print(büyük_df.head())

# Veriyi CSV'ye kaydetme
büyük_df.to_csv('sirket_verileri.csv', index=False)

Büyük veri seti oluşturuldu:
Veri seti boyutu: (100, 8)
   Çalışan_ID         Ad  Yaş  Departman     Şehir  Deneyim_Yılı   Maaş  \
0           1  Çalışan_1   60         IT     İzmir            16  10484   
1           2  Çalışan_2   50  Pazarlama  İstanbul            13   8646   
2           3  Çalışan_3   36         HR  İstanbul             2   5635   
3           4  Çalışan_4   64         IT     Bursa             0   9408   
4           5  Çalışan_5   29      Satış     İzmir            19  11421   

   Performans_Puanı  
0              83.0  
1              82.0  
2              91.0  
3               NaN  
4              71.0  


### Veri Analizi Adımları

In [28]:
# 1. Veri keşfi
print("=== VERİ KEŞFİ ===")
print(f"Veri seti boyutu: {büyük_df.shape}")
print(f"Sütun isimleri: {list(büyük_df.columns)}")
print(f"Veri tipleri:\n{büyük_df.dtypes}")
print(f"\nEksik veri sayısı:\n{büyük_df.isnull().sum()}")

# 2. Temel istatistikler
print("\n=== TEMEL İSTATİSTİKLER ===")
print(büyük_df.describe())

# 3. Eksik verileri işleme
print("\n=== EKSİK VERİ İŞLEME ===")
büyük_df['Performans_Puanı'].fillna(büyük_df['Performans_Puanı'].mean(), inplace=True)
print(f"Eksik veriler doldurulduktan sonra: {büyük_df.isnull().sum()}")

# 4. Departman analizi
print("\n=== DEPARTMAN ANALİZİ ===")
dept_analiz = büyük_df.groupby('Departman').agg({
    'Maaş': ['count', 'mean', 'min', 'max'],
    'Yaş': 'mean',
    'Deneyim_Yılı': 'mean',
    'Performans_Puanı': 'mean'
}).round(2)
print(dept_analiz)

# 5. Şehir analizi
print("\n=== ŞEHİR ANALİZİ ===")
şehir_analiz = büyük_df.groupby('Şehir').agg({
    'Maaş': 'mean',
    'Çalışan_ID': 'count'
}).rename(columns={'Çalışan_ID': 'Çalışan_Sayısı'}).round(2)
print(şehir_analiz.sort_values('Maaş', ascending=False))

# 6. Korelasyon analizi
print("\n=== KORELASYON ANALİZİ ===")
korelasyon = büyük_df[['Yaş', 'Deneyim_Yılı', 'Maaş', 'Performans_Puanı']].corr()
print(korelasyon.round(3))

# 7. Filtreleme örnekleri
print("\n=== FİLTRELEME ÖRNEKLERİ ===")

# Yüksek performanslı çalışanlar
yüksek_performans = büyük_df[büyük_df['Performans_Puanı'] >= 90]
print(f"Yüksek performanslı çalışan sayısı: {len(yüksek_performans)}")

# IT departmanında yüksek maaşlı çalışanlar
it_yüksek_maaş = büyük_df[
    (büyük_df['Departman'] == 'IT') & 
    (büyük_df['Maaş'] > büyük_df['Maaş'].quantile(0.75))
]
print(f"IT'de yüksek maaşlı çalışan sayısı: {len(it_yüksek_maaş)}")

# 8. Sıralama ve en iyi/kötü çalışanlar
print("\n=== SIRALAMA VE RANKING ===")

# En yüksek maaşlı 5 çalışan
en_yüksek_maaş = büyük_df.nlargest(5, 'Maaş')[['Ad', 'Departman', 'Maaş', 'Performans_Puanı']]
print("En yüksek maaşlı 5 çalışan:")
print(en_yüksek_maaş)

# En yüksek performanslı 5 çalışan
en_yüksek_performans = büyük_df.nlargest(5, 'Performans_Puanı')[['Ad', 'Departman', 'Maaş', 'Performans_Puanı']]
print("\nEn yüksek performanslı 5 çalışan:")
print(en_yüksek_performans)

# 9. Pivot table analizi
print("\n=== PIVOT TABLE ANALİZİ ===")
pivot_analiz = büyük_df.pivot_table(
    values=['Maaş', 'Performans_Puanı'],
    index='Departman',
    columns='Şehir',
    aggfunc='mean',
    fill_value=0
).round(2)
print("Departman ve Şehire göre ortalama maaş ve performans:")
print(pivot_analiz)

=== VERİ KEŞFİ ===
Veri seti boyutu: (100, 8)
Sütun isimleri: ['Çalışan_ID', 'Ad', 'Yaş', 'Departman', 'Şehir', 'Deneyim_Yılı', 'Maaş', 'Performans_Puanı']
Veri tipleri:
Çalışan_ID            int64
Ad                   object
Yaş                   int64
Departman            object
Şehir                object
Deneyim_Yılı          int64
Maaş                  int64
Performans_Puanı    float64
dtype: object

Eksik veri sayısı:
Çalışan_ID           0
Ad                   0
Yaş                  0
Departman            0
Şehir                0
Deneyim_Yılı         0
Maaş                 0
Performans_Puanı    10
dtype: int64

=== TEMEL İSTATİSTİKLER ===
       Çalışan_ID         Yaş  Deneyim_Yılı          Maaş  Performans_Puanı
count  100.000000  100.000000    100.000000    100.000000         90.000000
mean    50.500000   42.270000      9.680000   7827.240000         80.088889
std     29.011492   12.335262      6.086713   2235.061869         10.915039
min      1.000000   22.000000      0.00000

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  büyük_df['Performans_Puanı'].fillna(büyük_df['Performans_Puanı'].mean(), inplace=True)


### Özel Analiz Fonksiyonları

In [29]:
# Veri analizi için özel fonksiyonlar oluşturalım

def yaş_grubu_oluştur(yaş):
    """Yaşa göre grup belirleme fonksiyonu"""
    if yaş < 25:
        return 'Genç'
    elif yaş < 35:
        return 'Orta Yaş'
    elif yaş < 50:
        return 'Orta Yaş Üstü'
    else:
        return 'Olgun'

def maaş_kategorisi_oluştur(maaş):
    """Maaşa göre kategori belirleme fonksiyonu"""
    if maaş < 5000:
        return 'Düşük'
    elif maaş < 7500:
        return 'Orta'
    elif maaş < 10000:
        return 'Yüksek'
    else:
        return 'Çok Yüksek'

def performans_değerlendirme(puan):
    """Performans puanına göre değerlendirme"""
    if puan < 70:
        return 'Gelişim Gerekli'
    elif puan < 80:
        return 'Ortalama'
    elif puan < 90:
        return 'İyi'
    else:
        return 'Mükemmel'

# Fonksiyonları uygulama
büyük_df['Yaş_Grubu'] = büyük_df['Yaş'].apply(yaş_grubu_oluştur)
büyük_df['Maaş_Kategorisi'] = büyük_df['Maaş'].apply(maaş_kategorisi_oluştur)
büyük_df['Performans_Değerlendirme'] = büyük_df['Performans_Puanı'].apply(performans_değerlendirme)

print("Yeni kategorik sütunlar eklendi:")
print(büyük_df[['Ad', 'Yaş_Grubu', 'Maaş_Kategorisi', 'Performans_Değerlendirme']].head())

# Kategorik analiz
print("\n=== KATEGORİK ANALİZ ===")
print("Yaş grubu dağılımı:")
print(büyük_df['Yaş_Grubu'].value_counts())

print("\nMaaş kategorisi dağılımı:")
print(büyük_df['Maaş_Kategorisi'].value_counts())

print("\nPerformans değerlendirme dağılımı:")
print(büyük_df['Performans_Değerlendirme'].value_counts())

Yeni kategorik sütunlar eklendi:
          Ad      Yaş_Grubu Maaş_Kategorisi Performans_Değerlendirme
0  Çalışan_1          Olgun      Çok Yüksek                      İyi
1  Çalışan_2          Olgun          Yüksek                      İyi
2  Çalışan_3  Orta Yaş Üstü            Orta                 Mükemmel
3  Çalışan_4          Olgun          Yüksek                      İyi
4  Çalışan_5       Orta Yaş      Çok Yüksek                 Ortalama

=== KATEGORİK ANALİZ ===
Yaş grubu dağılımı:
Yaş_Grubu
Orta Yaş Üstü    42
Olgun            29
Orta Yaş         21
Genç              8
Name: count, dtype: int64

Maaş kategorisi dağılımı:
Maaş_Kategorisi
Orta          39
Yüksek        29
Çok Yüksek    20
Düşük         12
Name: count, dtype: int64

Performans değerlendirme dağılımı:
Performans_Değerlendirme
İyi                33
Ortalama           28
Mükemmel           22
Gelişim Gerekli    17
Name: count, dtype: int64


### İleri Seviye Veri Manipülasyonu

In [30]:
# Çoklu koşullu filtreleme ve seçim
print("\n=== İLERİ SEVİYE FİLTRELEME ===")

# Lambda fonksiyonu ile karmaşık filtreleme
yüksek_potansiyel = büyük_df[
    büyük_df.apply(lambda row: 
        (row['Yaş'] < 35) and 
        (row['Performans_Puanı'] >= 85) and 
        (row['Deneyim_Yılı'] >= 3), axis=1)
]
print(f"Yüksek potansiyelli genç çalışan sayısı: {len(yüksek_potansiyel)}")

# Quantile tabanlı analiz
print("\n=== QUANTİLE ANALİZİ ===")
maaş_quantiles = büyük_df['Maaş'].quantile([0.25, 0.5, 0.75, 0.9, 0.95])
print("Maaş dağılımı (percentile):")
for q, değer in maaş_quantiles.items():
    print(f"%{int(q*100)}: {değer:,.0f} TL")

# En yüksek %10'luk dilim
top_10_percent = büyük_df[büyük_df['Maaş'] >= büyük_df['Maaş'].quantile(0.9)]
print(f"\nEn yüksek %10'luk dilimde {len(top_10_percent)} çalışan var")

# String işlemleri ve regex
print("\n=== STRING İŞLEMLERİ ===")
# Email adresleri oluşturma
büyük_df['Email'] = (büyük_df['Ad'].str.lower().str.replace('_', '.') + 
                     '@' + 
                     büyük_df['Departman'].str.lower() + 
                     '.company.com')

print("Örnek email adresleri:")
print(büyük_df[['Ad', 'Departman', 'Email']].head())

# Sütun adlarını temizleme
büyük_df.columns = büyük_df.columns.str.lower().str.replace('_', ' ')
print(f"\nTemizlenmiş sütun adları: {list(büyük_df.columns)}")


=== İLERİ SEVİYE FİLTRELEME ===
Yüksek potansiyelli genç çalışan sayısı: 6

=== QUANTİLE ANALİZİ ===
Maaş dağılımı (percentile):
%25: 6,035 TL
%50: 7,482 TL
%75: 9,735 TL
%90: 11,174 TL
%95: 11,545 TL

En yüksek %10'luk dilimde 10 çalışan var

=== STRING İŞLEMLERİ ===
Örnek email adresleri:
          Ad  Departman                            Email
0  Çalışan_1         IT         çalışan.1@it.company.com
1  Çalışan_2  Pazarlama  çalışan.2@pazarlama.company.com
2  Çalışan_3         HR         çalışan.3@hr.company.com
3  Çalışan_4         IT         çalışan.4@it.company.com
4  Çalışan_5      Satış      çalışan.5@satış.company.com

Temizlenmiş sütun adları: ['çalışan id', 'ad', 'yaş', 'departman', 'şehir', 'deneyim yılı', 'maaş', 'performans puanı', 'yaş grubu', 'maaş kategorisi', 'performans değerlendirme', 'email']


### Veri Dışa Aktarma ve Raporlama

In [31]:
# Özet rapor oluşturma
print("\n=== ÖZET RAPOR ===")

rapor = {
    'Toplam Çalışan': len(büyük_df),
    'Ortalama Yaş': büyük_df['yaş'].mean(),
    'Ortalama Maaş': büyük_df['maaş'].mean(),
    'Ortalama Deneyim': büyük_df['deneyim yılı'].mean(),
    'Ortalama Performans': büyük_df['performans puanı'].mean(),
    'En Kalabalık Departman': büyük_df['departman'].mode()[0],
    'En Kalabalık Şehir': büyük_df['şehir'].mode()[0]
}

print("Şirket Genel Durumu:")
for anahtar, değer in rapor.items():
    if isinstance(değer, (int, float)) and not isinstance(değer, bool):
        print(f"{anahtar}: {değer:.2f}")
    else:
        print(f"{anahtar}: {değer}")

# Departman bazlı detaylı rapor
dept_rapor = büyük_df.groupby('departman').agg({
    'çalışan id': 'count',
    'maaş': ['mean', 'min', 'max'],
    'yaş': 'mean',
    'performans puanı': 'mean'
}).round(2)

print("\nDepartman Bazlı Rapor:")
print(dept_rapor)

# Veriyi farklı formatlarda kaydetme
büyük_df.to_csv('analiz_sonucu.csv', index=False)
büyük_df.to_excel('analiz_sonucu.xlsx', index=False)

# Sadece özet istatistikleri kaydetme
özet_df = büyük_df.groupby('departman').agg({
    'maaş': ['count', 'mean', 'std'],
    'performans puanı': 'mean'
}).round(2)
özet_df.to_csv('departman_ozeti.csv')

print("\nDosyalar kaydedildi:")
print("- analiz_sonucu.csv")
print("- analiz_sonucu.xlsx") 
print("- departman_ozeti.csv")


=== ÖZET RAPOR ===
Şirket Genel Durumu:
Toplam Çalışan: 100.00
Ortalama Yaş: 42.27
Ortalama Maaş: 7827.24
Ortalama Deneyim: 9.68
Ortalama Performans: 80.09
En Kalabalık Departman: IT
En Kalabalık Şehir: İstanbul

Departman Bazlı Rapor:
          çalışan id     maaş                 yaş performans puanı
               count     mean   min    max   mean             mean
departman                                                         
HR                15  6544.80  4616  10905  42.80            79.47
IT                25  7595.12  4114  11723  43.88            77.73
Muhasebe          21  7901.33  4753  11668  43.29            82.19
Pazarlama         22  8777.77  5015  11856  39.73            82.24
Satış             17  7978.53  4335  11421  41.47            78.71

Dosyalar kaydedildi:
- analiz_sonucu.csv
- analiz_sonucu.xlsx
- departman_ozeti.csv


---

## 🎯 Hafta Sonu Değerlendirmesi

### Bu Hafta Öğrendikleriniz

1. **Pandas Temelleri**
   - Series ve DataFrame yapıları
   - Veri okuma/yazma işlemleri
   - Temel indeksleme ve seçim

2. **Veri Temizleme**
   - Eksik veri tespiti ve işleme
   - Tekrarlanan veri kontrolü
   - Veri tiplerini anlama

3. **Veri Manipülasyonu**
   - Filtreleme ve koşullu seçim
   - Gruplama ve agregasyon
   - Sıralama ve indeksleme

4. **İleri Seviye İşlemler**
   - Pivot table oluşturma
   - Lambda fonksiyonları
   - String işlemleri

### Pratik Egzersizleri

In [32]:
# EGZERSIZ 1: Kendi veri setinizi oluşturun
# 50 öğrenci bilgisi içeren bir DataFrame oluşturun:
# - Ad, Soyad, Yaş, Bölüm, Not Ortalaması, Şehir

# EGZERSIZ 2: Veri analizi yapın
# - Bölümlere göre ortalama not hesaplayan
# - En başarılı 10 öğrenciyi bulan
# - Şehirlere göre öğrenci dağılımını gösteren kod yazın

# EGZERSIZ 3: Veri temizleme
# Veri setinize bilinçli olarak eksik veriler ekleyin ve bunları farklı yöntemlerle temizleyin

print("=== HAFTA SONU EGZERSİZLERİ ===")
print("Yukarıdaki egzersizleri çözerek bu haftaki öğrendiklerinizi pekiştirin!")

=== HAFTA SONU EGZERSİZLERİ ===
Yukarıdaki egzersizleri çözerek bu haftaki öğrendiklerinizi pekiştirin!


### Gelecek Hafta Hazırlığı

In [33]:
# Gelecek hafta için hazırlık
print("=== GELECEK HAFTA İÇİN HAZIRLIK ===")
print("Şu konuları tekrar edin:")
print("1. DataFrame oluşturma ve temel işlemler")
print("2. Filtreleme ve koşullu seçim")
print("3. Gruplama ve agregasyon")
print("4. Veri temizleme teknikleri")
print("\nGelecek hafta NumPy ile matematiksel işlemler öğreneceğiz!")

=== GELECEK HAFTA İÇİN HAZIRLIK ===
Şu konuları tekrar edin:
1. DataFrame oluşturma ve temel işlemler
2. Filtreleme ve koşullu seçim
3. Gruplama ve agregasyon
4. Veri temizleme teknikleri

Gelecek hafta NumPy ile matematiksel işlemler öğreneceğiz!


---

## 📖 Ek Kaynaklar ve Referanslar

### Video Eğitim Önerileri
1. **Corey Schafer - Pandas Tutorials** (YouTube)
2. **Data School - Pandas** (YouTube)
3. **Kaggle Learn - Pandas Course**

### Dokümantasyon
- [Pandas Official Documentation](https://pandas.pydata.org/docs/)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

### Pratik İçin Veri Setleri
- [Kaggle Datasets](https://www.kaggle.com/datasets)
- [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)
- [TÜİK Veri Setleri](https://www.tuik.gov.tr/)

### İpuçları
- Her gün en az 1 saat pratik yapın
- Gerçek veri setleri ile çalışın
- Hata mesajlarını okuyun ve anlamaya çalışın
- Stack Overflow ve GitHub'da örnekleri inceleyin

**Başarılar! 🚀**