In [17]:
import pandas as pd
import numpy as np

# pandas Series
Series, pandas'ta tek boyutlu veri yapısını temsil eder.  
- Liste, NumPy array veya sabit değer ile oluşturulabilir.  
- Index (etiketler) opsiyonel olarak verilebilir.  
- Veri ve index birlikte Series objesini oluşturur.


In [18]:
# Basit bir liste ile Series oluşturma
s1 = pd.Series([10, 20, 30, 40, 50])
print(s1)



# Index belirterek Series oluşturma
s2 = pd.Series([5, 10, 15], index=["a", "b", "c"])
print(s2)


0    10
1    20
2    30
3    40
4    50
dtype: int64
a     5
b    10
c    15
dtype: int64


## 🎯 Mini Test
- Kendin bir Series oluştur (ör: günlük sıcaklık değerleri)  
- Indexleri özelleştir  
- `head()`, `tail()`, `values` ve `index` özelliklerini kullanarak veriyi incele


---

# Series Temel İşlemler
Pandas Series üzerinde sık kullanılan bazı temel işlemler:

- `head(n)` → İlk `n` elementi gösterir (default 5)
- `tail(n)` → Son `n` elementi gösterir (default 5)
- `index` → Series’in index bilgilerini döndürür
- `values` → Series’in değerlerini NumPy array olarak döndürür
- `describe()` → Sayısal değerler için özet istatistikleri verir


In [19]:
# Örnek Series
s = pd.Series([100, 200, 300, 400, 500], index=["a", "b", "c", "d", "e"])

# İlk ve son elemanlar
print("Head:\n", s.head(3))
print("\nTail:\n", s.tail(2))

# Index ve değerler
print("\nIndex:\n", s.index)
print("\nValues:\n", s.values)

# Temel istatistikler
print("\nDescribe:\n", s.describe())


Head:
 a    100
b    200
c    300
dtype: int64

Tail:
 d    400
e    500
dtype: int64

Index:
 Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

Values:
 [100 200 300 400 500]

Describe:
 count      5.000000
mean     300.000000
std      158.113883
min      100.000000
25%      200.000000
50%      300.000000
75%      400.000000
max      500.000000
dtype: float64


---

# Series: Filtreleme ve Koşullu Seçim
Bir `Series` üzerinde koşullar tanımlayarak belirli değerleri seçebiliriz.  
Bu, tıpkı NumPy array filtrelemesine benzer şekilde çalışır.
- Karşılaştırma operatörleri (`>`, `<`, `==`, `!=`) kullanılabilir.
- Sonuç olarak **boolean** değerler döner, bu değerlerle filtreleme yapılır.


In [20]:
import pandas as pd

# Örnek Series
s = pd.Series([12, 5, 20, 7, 15, 3])

# Koşullu seçim
print("15'ten büyük olan değerler:")
print(s[s > 15])

print("\n5 ile 15 arasındaki değerler:")
print(s[(s >= 5) & (s <= 15)])

# Eşitlik kontrolü
print("\n5'e eşit olan değer:")
print(s[s == 5])


15'ten büyük olan değerler:
2    20
dtype: int64

5 ile 15 arasındaki değerler:
0    12
1     5
3     7
4    15
dtype: int64

5'e eşit olan değer:
1    5
dtype: int64


Pandas Series, NumPy benzeri **vektörleştirilmiş işlemleri** destekler.
- Toplama, çıkarma, çarpma, bölme doğrudan yapılabilir.
- İşlemler **index bazlı** gerçekleşir.


---


# DataFrame Temelleri
`DataFrame`, Pandas'ın en temel veri yapısıdır.  
Excel tablosu gibi **satır ve sütunlardan oluşur**.

Bir DataFrame:
- Satır → Gözlem (örnek)
- Sütun → Özellik (değişken)


In [21]:
import pandas as pd

# Sözlükten DataFrame oluşturma
veri = {
    "isim": ["Ali", "Veli", "Ayşe", "Ahmet"],
    "yaş": [17, 18, 20, 19],
    "not": [85, 92, 78, 88]
}

df = pd.DataFrame(veri)
print(df)

# Temel bilgiler
print("\nBoyut:", df.shape)
print("Sütunlar:", df.columns.tolist())
print("Veri tipleri:\n", df.dtypes)


    isim  yaş  not
0    Ali   17   85
1   Veli   18   92
2   Ayşe   20   78
3  Ahmet   19   88

Boyut: (4, 3)
Sütunlar: ['isim', 'yaş', 'not']
Veri tipleri:
 isim    object
yaş      int64
not      int64
dtype: object


###  Not:
- `shape` → (satır, sütun) sayısını döndürür.  
- `columns` → sütun isimlerini verir.  
- `dtypes` → sütun veri tiplerini gösterir.
---



# Sütun ve Satır Erişimi
DataFrame'de veriye erişmenin birden fazla yolu vardır:
- `df["kolon"]` → Tek sütun seçimi
- `df[["kolon1", "kolon2"]]` → Birden fazla sütun seçimi
- `df.loc[]` → Etiket bazlı erişim
- `df.iloc[]` → İndeks bazlı erişim


In [22]:
# Sütun seçimi
print(df["isim"])
print(df[["isim", "not"]])

# Satır seçimi
print("\nİlk satır (loc):")
print(df.loc[0])

print("\nİlk satır (iloc):")
print(df.iloc[0])

# Belirli hücreye erişim
print("\nİsim ve not sütunu (2. satır):")
print(df.loc[1, ["isim", "not"]])


0      Ali
1     Veli
2     Ayşe
3    Ahmet
Name: isim, dtype: object
    isim  not
0    Ali   85
1   Veli   92
2   Ayşe   78
3  Ahmet   88

İlk satır (loc):
isim    Ali
yaş      17
not      85
Name: 0, dtype: object

İlk satır (iloc):
isim    Ali
yaş      17
not      85
Name: 0, dtype: object

İsim ve not sütunu (2. satır):
isim    Veli
not       92
Name: 1, dtype: object


### Not:
- `loc` etikete göre, `iloc` ise **pozisyon numarasına göre** erişir.  
- `df.loc[0:2]` → 0,1,2 dahil  
- `df.iloc[0:2]` → 0 ve 1 dahil, 2 hariç  
---

## 🎯 Mini Test
- Yeni bir DataFrame oluştur: `ürün`, `fiyat`, `stok`
- Sadece `fiyat` sütununu yazdır  
- `iloc` ile ilk iki satırı seç  
- `loc` ile `stok` sütununu ve 1. satırı getir


# DataFrame: Filtreleme ve Koşullu Seçimler
DataFrame üzerinde koşullu filtreleme yaparak belirli satırları seçebiliriz.

Kullanılan yapılar:
- Karşılaştırma operatörleri: `>`, `<`, `==`, `!=`, `>=`, `<=`
- Mantıksal bağlaçlar: `&` (ve), `|` (veya), `~` (değil)
- `isin()` → Belirli değerleri içeren satırları seçer  
- `between(a, b)` → İki değer arasındaki satırları seçer  
- `query()` → SQL benzeri filtreleme sağlar


In [23]:
import pandas as pd

# Örnek DataFrame
veri = {
    "isim": ["Ali", "Veli", "Ayşe", "Ahmet", "Mehmet"],
    "yaş": [17, 18, 21, 20, 19],
    "not": [85, 92, 78, 88, 95]
}

df = pd.DataFrame(veri)

# Basit koşullu filtreleme
print("Yaşı 18'den büyük olanlar:")
print(df[df["yaş"] > 18])

# Birden fazla koşul
print("\nYaşı 18'den büyük ve notu 90'dan küçük olanlar:")
print(df[(df["yaş"] > 18) & (df["not"] < 90)])

# isin() kullanımı
print("\nİsmi Ali veya Ayşe olanlar:")
print(df[df["isim"].isin(["Ali", "Ayşe"])])

# between() kullanımı
print("\nNotu 80 ile 90 arasında olanlar:")
print(df[df["not"].between(80, 90)])

# query() kullanımı
print("\nQuery ile 18 yaşından büyük öğrenciler:")
print(df.query("yaş > 18"))


Yaşı 18'den büyük olanlar:
     isim  yaş  not
2    Ayşe   21   78
3   Ahmet   20   88
4  Mehmet   19   95

Yaşı 18'den büyük ve notu 90'dan küçük olanlar:
    isim  yaş  not
2   Ayşe   21   78
3  Ahmet   20   88

İsmi Ali veya Ayşe olanlar:
   isim  yaş  not
0   Ali   17   85
2  Ayşe   21   78

Notu 80 ile 90 arasında olanlar:
    isim  yaş  not
0    Ali   17   85
3  Ahmet   20   88

Query ile 18 yaşından büyük öğrenciler:
     isim  yaş  not
2    Ayşe   21   78
3   Ahmet   20   88
4  Mehmet   19   95


### Notlar:
- `&`, `|`, `~` operatörleri parantezle kullanılmalıdır.
- `isin()` → bir liste içindeki elemanlara göre filtreler.
- `between(a, b)` → `a` ve `b` dahil aralığı seçer.
- `query()` → string tabanlı sorgular için kullanışlıdır (SQL benzeri).

---

## 🎯 Mini Test
- `df`’ten notu 85’ten yüksek öğrencileri filtrele  
- `isin()` kullanarak sadece `"Ali"` ve `"Mehmet"` olan satırları seç  
- `between()` ile 18–20 yaş arası öğrencileri getir  
- Aynı filtreyi `query()` ile tekrar et  


---

# DataFrame: Aritmetik İşlemler & Yeni Sütun Ekleme
DataFrame üzerinde sütun bazlı işlemler yapılabilir.  
Bu işlemlerle veri türetebilir, yeni sütunlar ekleyebilir veya mevcut sütunları dönüştürebilirsin.

Yöntemler:
- **Doğrudan atama:** `df["yeni"] = ...`
- **assign():** Yeni sütunlar ekler, gerekirse zincirleme (chained) kullanım yapılabilir.
- **apply():** Fonksiyon veya `lambda` ile her satır/sütuna işlem uygular.
- **vectorized operations:** Pandas, NumPy tabanlı olduğu için toplama/çarpma gibi işlemler otomatik vektörleştirilir.


In [24]:
import pandas as pd

veri = {
    "isim": ["Ali", "Veli", "Ayşe", "Ahmet", "Mehmet"],
    "yaş": [17, 18, 21, 20, 19],
    "not": [85, 92, 78, 88, 95]
}

df = pd.DataFrame(veri)

# Doğrudan sütun ekleme
df["yaş_kare"] = df["yaş"] ** 2
print("Yeni sütun eklendi:")
print(df, "\n")

# Birden fazla sütun eklemek için assign()
df = df.assign(not_yüzde = df["not"] / 100,
               kategori = ["Düşük", "Orta", "Yüksek", "Orta", "Yüksek"])
print("assign() ile eklenmiş sütunlar:")
print(df, "\n")

# apply() kullanımı - her satıra özel işlem
df["durum"] = df.apply(lambda x: "Geçti" if x["not"] >= 85 else "Kaldı", axis=1)
print("apply() ile 'durum' sütunu:")
print(df, "\n")

# Aritmetik işlemler
df["not_artı_5"] = df["not"] + 5
df["yaş_farkı"] = df["yaş"] - df["yaş"].mean()

print("Aritmetik işlemlerden sonra DataFrame:")
print(df)


Yeni sütun eklendi:
     isim  yaş  not  yaş_kare
0     Ali   17   85       289
1    Veli   18   92       324
2    Ayşe   21   78       441
3   Ahmet   20   88       400
4  Mehmet   19   95       361 

assign() ile eklenmiş sütunlar:
     isim  yaş  not  yaş_kare  not_yüzde kategori
0     Ali   17   85       289       0.85    Düşük
1    Veli   18   92       324       0.92     Orta
2    Ayşe   21   78       441       0.78   Yüksek
3   Ahmet   20   88       400       0.88     Orta
4  Mehmet   19   95       361       0.95   Yüksek 

apply() ile 'durum' sütunu:
     isim  yaş  not  yaş_kare  not_yüzde kategori  durum
0     Ali   17   85       289       0.85    Düşük  Geçti
1    Veli   18   92       324       0.92     Orta  Geçti
2    Ayşe   21   78       441       0.78   Yüksek  Kaldı
3   Ahmet   20   88       400       0.88     Orta  Geçti
4  Mehmet   19   95       361       0.95   Yüksek  Geçti 

Aritmetik işlemlerden sonra DataFrame:
     isim  yaş  not  yaş_kare  not_yüzde kategori  du

### Notlar:
- `df["yeni_sütun"] = ...` → en temel ekleme yöntemidir.
- `assign()` → zincirleme işlemlerde (ör. `df.assign(...).sort_values(...)`) daha güvenlidir.
- `apply()` → satır (`axis=1`) veya sütun (`axis=0`) bazında fonksiyon çalıştırır.
- NumPy destekli işlemler doğrudan tüm sütuna uygulanabilir (ör. `df["yaş"] ** 2`).



## 🎯 Mini Test
1. `df`'e yeni bir sütun ekle: `yaş_plus_10 = yaş + 10`
2. `apply()` kullanarak `not >= 90` olanlara `"A"`, diğerlerine `"B"` etiketi ekle.
3. `assign()` ile `"yaş_grubu"` sütunu oluştur:  
   - `yaş < 18` → `"Genç"`  
   - `yaş >= 18` → `"Yetişkin"`


---

# Eksik Veriler (NaN) ile Çalışmak

Gerçek veri kümelerinde eksik değerler (NaN) çok sık görülür.  
Pandas bu durumlar için güçlü fonksiyonlar sunar.

**Temel Fonksiyonlar:**
- `isnull()` → Eksik değerleri `True/False` olarak gösterir.  
- `notnull()` → Tamamlayıcı versiyonu (`True` → veri var).  
- `fillna()` → Eksik değerleri belirli bir değerle doldurur.  
- `dropna()` → Eksik değer içeren satır/sütunları siler.  
- `interpolate()` → Eksik değerleri doğrusal veya belirli yöntemlerle tahmin eder.
Eksik Veriler (NaN) ile Çalışmak

Gerçek veri kümelerinde eksik değerler (NaN) çok sık görülür.  
Pandas bu durumlar için güçlü fonksiyonlar sunar.

**Temel Fonksiyonlar:**
- `isnull()` → Eksik değerleri `True/False` olarak gösterir.  
- `notnull()` → Tamamlayıcı versiyonu (`True` → veri var).  
- `fillna()` → Eksik değerleri belirli bir değerle doldurur.  
- `dropna()` → Eksik değer içeren satır/sütunları siler.  
- `interpolate()` → Eksik değerleri doğrusal veya belirli yöntemlerle tahmin eder.


In [25]:
import pandas as pd
import numpy as np

veri = {
    "isim": ["Ali", "Veli", "Ayşe", "Ahmet", "Mehmet"],
    "yaş": [17, np.nan, 21, 20, np.nan],
    "not": [85, 92, np.nan, 88, 95]
}

df = pd.DataFrame(veri)
print("Orijinal DataFrame:\n", df, "\n")

# Eksik değer kontrolü
print("Eksik değer durumu (True = Eksik):\n", df.isnull(), "\n")

# Kaç tane eksik değer var?
print("Her sütundaki eksik değer sayısı:\n", df.isnull().sum(), "\n")

# Eksik değerleri doldurmak
df_filled = df.fillna({
    "yaş": df["yaş"].mean(),
    "not": df["not"].median()
})
print("Eksikler dolduruldu (ortalama/median ile):\n", df_filled, "\n")

# Eksik değer içeren satırları silmek
df_dropped = df.dropna()
print("Eksik değer içeren satırlar atıldı:\n", df_dropped, "\n")

# interpolate(): doğrusal tahmin yöntemiyle doldurma
df_interp = df.interpolate()
print("interpolate() ile doldurulmuş DataFrame:\n", df_interp)


Orijinal DataFrame:
      isim   yaş   not
0     Ali  17.0  85.0
1    Veli   NaN  92.0
2    Ayşe  21.0   NaN
3   Ahmet  20.0  88.0
4  Mehmet   NaN  95.0 

Eksik değer durumu (True = Eksik):
     isim    yaş    not
0  False  False  False
1  False   True  False
2  False  False   True
3  False  False  False
4  False   True  False 

Her sütundaki eksik değer sayısı:
 isim    0
yaş     2
not     1
dtype: int64 

Eksikler dolduruldu (ortalama/median ile):
      isim        yaş   not
0     Ali  17.000000  85.0
1    Veli  19.333333  92.0
2    Ayşe  21.000000  90.0
3   Ahmet  20.000000  88.0
4  Mehmet  19.333333  95.0 

Eksik değer içeren satırlar atıldı:
     isim   yaş   not
0    Ali  17.0  85.0
3  Ahmet  20.0  88.0 

interpolate() ile doldurulmuş DataFrame:
      isim   yaş   not
0     Ali  17.0  85.0
1    Veli  19.0  92.0
2    Ayşe  21.0  90.0
3   Ahmet  20.0  88.0
4  Mehmet  20.0  95.0


  df_interp = df.interpolate()


### Notlar:
- `isnull()` ve `notnull()` fonksiyonları, mantıksal maskeler oluşturmak için idealdir.
- `fillna()` → Eksikleri ortalama, median veya sabit bir değerle doldurmak için kullanılır.
- `dropna()` → Satır veya sütun bazında eksikleri tamamen kaldırır (`axis` parametresiyle kontrol edilir).
- `interpolate()` → Eksik değerleri doğrusal tahmin veya zamansal verilerde ileriye dönük tahminlerle doldurur.



## 🎯 Mini Test
1. `df`’deki `yaş` sütunundaki NaN değerleri ortalama ile doldur.  
2. `not` sütunundaki NaN değerleri 0 yap.  
3. Eksik değer içeren **satırları sil** ve sonucu yazdır.  
4. `interpolate()` kullanarak `yaş` sütunundaki eksikleri tahmin et.


---

# Veri Sıralama, Filtreleme ve Gruplama

Bu bölümde veriyi farklı açılardan analiz etmek için kullanacağımız üç temel yapı var:

- **Sıralama (`sort_values`)** → Sütun değerlerine göre artan veya azalan sıralama.  
- **Filtreleme (`query`)** → SQL benzeri sorgularla koşullu seçim yapma.  
- **Gruplama (`groupby`)** → Verileri belirli bir kategoriye göre özetleme (ortalama, toplam vb.).


In [26]:
import pandas as pd

veri = {
    "departman": ["IT", "IT", "HR", "HR", "Satış", "Satış", "Satış"],
    "isim": ["Ali", "Veli", "Ayşe", "Ahmet", "Mehmet", "Cem", "Can"],
    "maaş": [12000, 15000, 11000, 13000, 20000, 18000, 21000],
    "deneyim": [3, 5, 2, 4, 6, 5, 7]
}

df = pd.DataFrame(veri)
print("Orijinal DataFrame:\n", df, "\n")

# Veri sıralama
print("Maaşa göre artan sıralama:\n", df.sort_values("maaş"), "\n")
print("Deneyime göre azalan sıralama:\n", df.sort_values("deneyim", ascending=False), "\n")

# query() ile koşullu filtreleme
print("Maaşı 15000’den yüksek olan çalışanlar:\n", df.query("maaş > 15000"), "\n")
print("IT departmanında olanlar:\n", df.query("departman == 'IT'"), "\n")

# groupby() ile gruplayarak özetleme
grup = df.groupby("departman").agg({
    "maaş": ["mean", "max", "min"],
    "deneyim": "mean"
})
print("Departman bazlı maaş ve deneyim özeti:\n", grup, "\n")

# Gruplama sonrası reset_index()
grup_reset = grup.reset_index()
print("reset_index() ile düzenlenmiş tablo:\n", grup_reset)


Orijinal DataFrame:
   departman    isim   maaş  deneyim
0        IT     Ali  12000        3
1        IT    Veli  15000        5
2        HR    Ayşe  11000        2
3        HR   Ahmet  13000        4
4     Satış  Mehmet  20000        6
5     Satış     Cem  18000        5
6     Satış     Can  21000        7 

Maaşa göre artan sıralama:
   departman    isim   maaş  deneyim
2        HR    Ayşe  11000        2
0        IT     Ali  12000        3
3        HR   Ahmet  13000        4
1        IT    Veli  15000        5
5     Satış     Cem  18000        5
4     Satış  Mehmet  20000        6
6     Satış     Can  21000        7 

Deneyime göre azalan sıralama:
   departman    isim   maaş  deneyim
6     Satış     Can  21000        7
4     Satış  Mehmet  20000        6
1        IT    Veli  15000        5
5     Satış     Cem  18000        5
3        HR   Ahmet  13000        4
0        IT     Ali  12000        3
2        HR    Ayşe  11000        2 

Maaşı 15000’den yüksek olan çalışanlar:
   depart

### Notlar:
- `sort_values("kolon", ascending=False)` → Belirli bir kolona göre azalan sıralama yapar.  
- `query("koşul ifadesi")` → Filtreleme işlemini okunabilir hale getirir.  
- `groupby("kolon")` → Veriyi gruplar, ardından `mean()`, `sum()`, `count()` gibi özet fonksiyonlar uygulanır.  
- `agg()` → Birden fazla fonksiyonu aynı anda uygular.  
- `reset_index()` → groupby sonrasında indeksleri tekrar normal sütunlara çevirir.

---

## 🎯 Mini Test
1. `maaş` değerine göre en yüksek 3 kişiyi seç.  
2. `query()` ile yalnızca `deneyim >= 5` olanları getir.  
3. `groupby()` ile her `departman` için ortalama maaşı hesapla.  
4. `agg()` kullanarak her `departman` için hem `maaş` ortalamasını hem de maksimumunu bul.

---

# DataFrame Birleştirme ve Join İşlemleri

Bu bölümde farklı DataFrame’leri bir araya getirmek için kullanacağımız temel yöntemler:

- **concat()** → DataFrame’leri dikey veya yatay olarak birleştirme.  
- **merge()** → SQL benzeri join işlemleri (inner, outer, left, right).  
- **join()** → index bazlı birleştirme.  

Bu yöntemler büyük veri setlerini yönetirken ve farklı kaynaklardan gelen verileri birleştirirken çok kullanışlıdır.


In [27]:
import pandas as pd

# Örnek DataFrame’ler
df1 = pd.DataFrame({
    "id": [1, 2, 3],
    "isim": ["Ali", "Veli", "Ayşe"],
    "departman": ["IT", "IT", "HR"]
})

df2 = pd.DataFrame({
    "id": [2, 3, 4],
    "maaş": [15000, 13000, 18000],
    "deneyim": [5, 4, 6]
})

print("df1:\n", df1, "\n")
print("df2:\n", df2, "\n")

# concat ile birleştirme (dikey)
concat_dikey = pd.concat([df1, df2], axis=0, ignore_index=True)
print("concat (dikey):\n", concat_dikey, "\n")

# concat ile birleştirme (yatay)
concat_yatay = pd.concat([df1, df2], axis=1)
print("concat (yatay):\n", concat_yatay, "\n")

# merge ile inner join (id bazlı)
merge_inner = pd.merge(df1, df2, on="id", how="inner")
print("merge inner join:\n", merge_inner, "\n")

# merge ile left join
merge_left = pd.merge(df1, df2, on="id", how="left")
print("merge left join:\n", merge_left, "\n")

# index bazlı join
df1_index = df1.set_index("id")
df2_index = df2.set_index("id")
join_index = df1_index.join(df2_index, how="inner")
print("join index bazlı:\n", join_index, "\n")


df1:
    id  isim departman
0   1   Ali        IT
1   2  Veli        IT
2   3  Ayşe        HR 

df2:
    id   maaş  deneyim
0   2  15000        5
1   3  13000        4
2   4  18000        6 

concat (dikey):
    id  isim departman     maaş  deneyim
0   1   Ali        IT      NaN      NaN
1   2  Veli        IT      NaN      NaN
2   3  Ayşe        HR      NaN      NaN
3   2   NaN       NaN  15000.0      5.0
4   3   NaN       NaN  13000.0      4.0
5   4   NaN       NaN  18000.0      6.0 

concat (yatay):
    id  isim departman  id   maaş  deneyim
0   1   Ali        IT   2  15000        5
1   2  Veli        IT   3  13000        4
2   3  Ayşe        HR   4  18000        6 

merge inner join:
    id  isim departman   maaş  deneyim
0   2  Veli        IT  15000        5
1   3  Ayşe        HR  13000        4 

merge left join:
    id  isim departman     maaş  deneyim
0   1   Ali        IT      NaN      NaN
1   2  Veli        IT  15000.0      5.0
2   3  Ayşe        HR  13000.0      4.0 

join in

### Notlar:
- `pd.concat([df1, df2], axis=0)` → Dikey birleştirme (satır ekler).  
- `pd.concat([df1, df2], axis=1)` → Yatay birleştirme (sütun ekler).  
- `merge(df1, df2, on="id", how="inner")` → Ortak id’leri alır.  
- `merge(..., how="left")` → Sol DataFrame’in tüm satırlarını alır, eşleşmeyenleri NaN yapar.  
- `join()` → Index bazlı hızlı birleştirme.  


## 🎯 Mini Test
1. `df1` ve `df2`’yi id bazında outer join ile birleştir.  
2. Yalnızca df2’de olup df1’de olmayan id’leri seç.  
3. Birleştirilmiş tabloda maaş ortalamasını departmana göre hesapla.


---

# Pivot Table ve Crosstab

Veriyi özetlemek ve kategorik analizler yapmak için kullanılan güçlü araçlar:

- **pivot_table()** → Excel’deki pivot table mantığı, grup bazlı özetler.  
- **crosstab()** → İki veya daha fazla kategorik değişkenin sıklık tablosu.  

Bu araçlar özellikle satış, anket veya kategori bazlı verilerde hızlı özet çıkarmak için kullanışlıdır.


In [28]:
import pandas as pd

# Örnek veri
data = {
    "isim": ["Ali", "Veli", "Ayşe", "Ali", "Veli", "Ayşe"],
    "departman": ["IT", "IT", "HR", "IT", "IT", "HR"],
    "ay": ["Ocak", "Ocak", "Ocak", "Şubat", "Şubat", "Şubat"],
    "maas": [15000, 16000, 13000, 15500, 16200, 13500]
}

df = pd.DataFrame(data)
print("Orijinal DataFrame:\n", df, "\n")

# pivot_table ile departman bazında maaş ortalaması
pivot = pd.pivot_table(df, values="maas", index="departman", columns="ay", aggfunc="mean")
print("Pivot Table (maas ortalaması):\n", pivot, "\n")

# crosstab ile isim ve ay bazında sayı
crosstab = pd.crosstab(df["isim"], df["ay"])
print("Crosstab (isim vs ay):\n", crosstab, "\n")


Orijinal DataFrame:
    isim departman     ay   maas
0   Ali        IT   Ocak  15000
1  Veli        IT   Ocak  16000
2  Ayşe        HR   Ocak  13000
3   Ali        IT  Şubat  15500
4  Veli        IT  Şubat  16200
5  Ayşe        HR  Şubat  13500 

Pivot Table (maas ortalaması):
 ay            Ocak    Şubat
departman                  
HR         13000.0  13500.0
IT         15500.0  15850.0 

Crosstab (isim vs ay):
 ay    Ocak  Şubat
isim             
Ali      1      1
Ayşe     1      1
Veli     1      1 



### Notlar:
- `pivot_table(values, index, columns, aggfunc)` → İlgili değerlerin özetini verir.  
- `aggfunc="mean"` → Ortalama, `"sum"` → Toplam, `"count"` → Adet gibi kullanılabilir.  
- `pd.crosstab(df["isim"], df["ay"])` → İsim ve ay bazında kaç kayıt olduğunu sayar.  

---

## 🎯 Mini Test
1. Departman ve ay bazında maaş toplamını pivot_table ile hesapla.  
2. İsim ve departman bazında kayıt adedini crosstab ile bul.  
3. Pivot tabloyu `fill_value=0` ile boş değerleri sıfırla.


# GroupBy ve Aggregation

`groupby()` fonksiyonu, veri üzerinde gruplama yaparak özet istatistikler çıkarmamıza yarar.  
Kategorik değişkenlere göre sayısal verileri analiz etmek için çok güçlüdür.

- **groupby()** → Belirli bir veya birden fazla sütuna göre gruplama.  
- **agg() / mean() / sum() / count()** → Gruplar üzerinde özet fonksiyonları.  


In [29]:
import pandas as pd

# Örnek veri
data = {
    "departman": ["IT", "IT", "HR", "IT", "HR", "HR"],
    "isim": ["Ali", "Veli", "Ayşe", "Mehmet", "Fatma", "Can"],
    "maas": [15000, 16000, 13000, 15500, 14000, 13500],
    "yas": [25, 30, 28, 26, 32, 29]
}

df = pd.DataFrame(data)
print("Orijinal DataFrame:\n", df, "\n")

# departman bazında maaş ortalaması
ortalama = df.groupby("departman")["maas"].mean()
print("Departman Bazında Ortalama Maaş:\n", ortalama, "\n")

# departman bazında maaş ve yaşın ortalaması
agg_df = df.groupby("departman").agg({"maas":"mean", "yas":"mean"})
print("Departman Bazında Maaş ve Yaş Ortalaması:\n", agg_df, "\n")

# departman bazında kişi sayısı
count_df = df.groupby("departman")["isim"].count()
print("Departman Bazında Kişi Sayısı:\n", count_df, "\n")


Orijinal DataFrame:
   departman    isim   maas  yas
0        IT     Ali  15000   25
1        IT    Veli  16000   30
2        HR    Ayşe  13000   28
3        IT  Mehmet  15500   26
4        HR   Fatma  14000   32
5        HR     Can  13500   29 

Departman Bazında Ortalama Maaş:
 departman
HR    13500.0
IT    15500.0
Name: maas, dtype: float64 

Departman Bazında Maaş ve Yaş Ortalaması:
               maas        yas
departman                    
HR         13500.0  29.666667
IT         15500.0  27.000000 

Departman Bazında Kişi Sayısı:
 departman
HR    3
IT    3
Name: isim, dtype: int64 



### Notlar:
- `groupby("sütun")` → Sütun değerlerine göre gruplama yapar.  
- `agg({"sütun":"func"})` → Farklı sütunlara farklı fonksiyonlar uygulamak için kullanılır.  
- `count()` → Gruplardaki kayıt sayısını verir.  
- `mean()` → Ortalama, `sum()` → Toplam, `max()/min()` → En yüksek/en düşük değer.  



## 🎯 Mini Test
1. Departman bazında maaş toplamını hesapla.  
2. Departman bazında yaşın maksimum ve minimum değerlerini bul.  
3. Birden fazla sütunu gruplayıp hem ortalama hem toplam değerleri göster.


# Veri Birleştirme (merge & concat)

Pandas’ta farklı DataFrame’leri birleştirmek için kullanılan iki ana yöntem vardır:

- **concat()** → DataFrame’leri eksen bazlı birleştirme (alt alta veya yan yana).  
- **merge()** → SQL’deki JOIN mantığıyla anahtar sütuna göre birleştirme.  


In [30]:
import pandas as pd

# Örnek veri 1
df1 = pd.DataFrame({
    "id": [1, 2, 3],
    "isim": ["Ali", "Veli", "Ayşe"],
    "maas": [15000, 16000, 13000]
})

# Örnek veri 2
df2 = pd.DataFrame({
    "id": [2, 3, 4],
    "isim": ["Veli", "Ayşe", "Can"],
    "departman": ["IT", "HR", "IT"]
})

# concat ile alt alta birleştirme
concat_df = pd.concat([df1, df2], ignore_index=True)
print("Concat (alt alta) :\n", concat_df, "\n")

# merge ile inner join (id sütununa göre)
merge_inner = pd.merge(df1, df2, on="id", how="inner")
print("Merge Inner Join :\n", merge_inner, "\n")

# merge ile left join
merge_left = pd.merge(df1, df2, on="id", how="left")
print("Merge Left Join :\n", merge_left, "\n")


Concat (alt alta) :
    id  isim     maas departman
0   1   Ali  15000.0       NaN
1   2  Veli  16000.0       NaN
2   3  Ayşe  13000.0       NaN
3   2  Veli      NaN        IT
4   3  Ayşe      NaN        HR
5   4   Can      NaN        IT 

Merge Inner Join :
    id isim_x   maas isim_y departman
0   2   Veli  16000   Veli        IT
1   3   Ayşe  13000   Ayşe        HR 

Merge Left Join :
    id isim_x   maas isim_y departman
0   1    Ali  15000    NaN       NaN
1   2   Veli  16000   Veli        IT
2   3   Ayşe  13000   Ayşe        HR 



### Notlar:
- `concat([df1, df2], axis=0)` → Alt alta, `axis=1` → Yan yana birleştirir.  
- `ignore_index=True` → Eski indexleri göz ardı edip yeni index oluşturur.  
- `merge(df1, df2, on="sütun", how="inner/left/right/outer")` → JOIN mantığıyla birleştirir.  
- `inner` → ortak kayıtlar, `left` → sol DataFrame, `right` → sağ DataFrame, `outer` → tüm kayıtlar.  


## 🎯 Mini Test
1. İki DataFrame’i `concat` ile yan yana birleştir.  
2. `merge` ile outer join yapıp tüm id’leri tut.  
3. `merge` ile sadece ortak id’leri göster.


---

# Tarih ve Zaman Verileri

Pandas, tarih ve zaman verilerini işlemek için güçlü fonksiyonlar sunar:

- `pd.to_datetime()` → String, liste veya sütunları datetime formatına çevirir.
- `Timestamp` → Tek bir tarih-zaman değeri.
- `DatetimeIndex` → VeriFrame veya Series için tarih-zaman indeksleri.
- `.dt` accessor → Tarih-saat bileşenlerine erişim sağlar (yıl, ay, gün, saat vb.).
- Tarih aralıkları oluşturmak için `pd.date_range()` kullanılabilir.
- Tarih ve zaman ile filtreleme ve gruplama (`resample`) yapılabilir.


In [31]:
import pandas as pd

# Örnek veri
data = {
    "Tarih": ["2025-01-01", "2025-01-02", "2025-01-03", "2025-01-04"],
    "Satış": [200, 220, 250, 270]
}

df = pd.DataFrame(data)

# Tarih sütununu datetime formatına çevirme
df["Tarih"] = pd.to_datetime(df["Tarih"])

# Tarih bileşenlerine erişim
df["Yıl"] = df["Tarih"].dt.year
df["Ay"] = df["Tarih"].dt.month
df["Gün"] = df["Tarih"].dt.day
print(df)

# Tarih aralığı oluşturma
date_rng = pd.date_range(start="2025-01-01", end="2025-01-10")
print("\nTarih Aralığı:\n", date_rng)

# Tarih filtresi: Ocak 3 ve sonrası
filtered = df[df["Tarih"] >= "2025-01-03"]
print("\nFiltrelenmiş Veri:\n", filtered)


       Tarih  Satış   Yıl  Ay  Gün
0 2025-01-01    200  2025   1    1
1 2025-01-02    220  2025   1    2
2 2025-01-03    250  2025   1    3
3 2025-01-04    270  2025   1    4

Tarih Aralığı:
 DatetimeIndex(['2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
               '2025-01-05', '2025-01-06', '2025-01-07', '2025-01-08',
               '2025-01-09', '2025-01-10'],
              dtype='datetime64[ns]', freq='D')

Filtrelenmiş Veri:
        Tarih  Satış   Yıl  Ay  Gün
2 2025-01-03    250  2025   1    3
3 2025-01-04    270  2025   1    4


## 🎯 Mini Test

1. Bir tarih ve saat sütunu oluşturun (ör: "2025-10-01 08:00:00", "2025-10-02 09:30:00")
2. Tarih sütununu datetime formatına çevirin
3. Yıl, ay, gün, saat ve dakika bilgilerini ayrı sütunlarda gösterin
4. Belirli bir tarihten sonraki verileri filtreleyin
5. Günlük veya saatlik toplamları görmek için `resample()` kullanın


---

# Zaman Serisi İndeksleme ve Yeniden Örnekleme (Resampling)

Pandas, zaman serisi verilerini analiz etmek için güçlü araçlar sunar:

- Zaman serisi için **Tarih-Saat indeksleri (DatetimeIndex)** kullanılır.
- `.set_index()` ile bir tarih sütununu indeks olarak ayarlayabilirsiniz.
- `.resample()` → Zaman serisini yeniden örneklemek için kullanılır (günlük, haftalık, aylık vb.).
- `.resample()` ile birlikte **aggregation** fonksiyonları (`sum`, `mean`, `max`, `min`) uygulanabilir.
- Zaman filtresi ve kaydırma işlemleri `.loc[]` ve `.shift()` ile yapılabilir.


In [32]:
import pandas as pd

# Örnek zaman serisi verisi
data = {
    "Tarih": pd.date_range(start="2025-01-01", end="2025-01-10"),
    "Satış": [200, 220, 250, 270, 230, 210, 240, 260, 280, 300]
}

df = pd.DataFrame(data)

# Tarih sütununu indeks yapma
df.set_index("Tarih", inplace=True)

# Günlük veriyi haftalık toplam ile yeniden örnekleme
weekly_sum = df.resample("W").sum()
print("Haftalık Toplam:\n", weekly_sum)

# Haftalık ortalama
weekly_mean = df.resample("W").mean()
print("\nHaftalık Ortalama:\n", weekly_mean)

# Zaman filtresi: 2025-01-05 sonrası
filtered = df.loc["2025-01-05":]
print("\nFiltrelenmiş Veri:\n", filtered)

# Bir gün ileri kaydırma
shifted = df.shift(1)
print("\nKaydırılmış Veri:\n", shifted)


Haftalık Toplam:
             Satış
Tarih            
2025-01-05   1170
2025-01-12   1290

Haftalık Ortalama:
             Satış
Tarih            
2025-01-05  234.0
2025-01-12  258.0

Filtrelenmiş Veri:
             Satış
Tarih            
2025-01-05    230
2025-01-06    210
2025-01-07    240
2025-01-08    260
2025-01-09    280
2025-01-10    300

Kaydırılmış Veri:
             Satış
Tarih            
2025-01-01    NaN
2025-01-02  200.0
2025-01-03  220.0
2025-01-04  250.0
2025-01-05  270.0
2025-01-06  230.0
2025-01-07  210.0
2025-01-08  240.0
2025-01-09  260.0
2025-01-10  280.0


## 🎯 Mini Test

1. Bir zaman serisi oluşturun (10 günlük veri, satış miktarları)
2. Tarih sütununu indeks yapın
3. Haftalık ve aylık toplamları hesaplayın
4. Belirli bir tarih aralığını filtreleyin
5. Günlük veriyi 1 gün ileri kaydırın ve farkı hesaplayın


---