---

## 1. Pandas'ın Yapı Taşları: Series ve DataFrame

Pandas, temel olarak veri kümeleriyle çalışmak için kullanılan bir Python kütüphanesidir. Onunla verileri analiz edebilir, temizleyebilir ve işleyebiliriz. Bunu yaparken de iki temel veri yapısı kullanır: **Series** (Seriler) ve **DataFrame** (Veri Çerçeveleri).

### Pandas Series: Tek Boyutlu Güç

Bir **Series**, herhangi bir türden veriyi tutabilen **tek boyutlu bir dizi** gibidir. Onu NumPy'ın 1 boyutlu dizisine veya bir tablodaki tek bir sütuna benzetebiliriz.

* **Varsayılan İndeks:** Eğer biz belirtmezsek, Pandas Series'deki elemanları 0'dan başlayan sayılarla etiketler (indeksler)

```python
import pandas as pd

a = [1, 7, 2]
veri_serisi = pd.Series(a) # Bir listeden Seri oluşturma [cite: 9]
print("Basit Seri:\n", veri_serisi)
print("\nİlk Eleman:", veri_serisi[0]) # İndeks ile erişim [cite: 9]
```

* **Özel İndeks:** İstersek, `index` parametresi ile kendi etiketlerimizi de verebiliriz. Bu etiketleri kullanarak da verilere erişebiliriz.

```python
import pandas as pd

a = [1, 7, 2]
i = ["x", "y", "z"]
ozel_indeksli_seri = pd.Series(a, index=i) # Özel indeks ile Seri oluşturma [cite: 9]
print("\nÖzel İndeksli Seri:\n", ozel_indeksli_seri)
print("y etiketiyle erişim:", ozel_indeksli_seri["y"]) # Etiket ile erişim [cite: 9]
```

* **Sözlükten Seri:** Bir Python sözlüğü kullanarak da Seri oluşturabiliriz; sözlüğün anahtarları otomatik olarak indeks (etiket) olur.

```python
import pandas as pd

kaloriler = {"gün1": 420, "gün2": 380, "gün3": 390}
sozlukten_seri = pd.Series(kaloriler) # Sözlükten Seri oluşturma
print("\nSözlükten Seri:\n", sozlukten_seri)
```

### Pandas DataFrame: İki Boyutlu Tablo

**DataFrame**, Pandas'ın ana iş gücüdür. Satırları ve sütunları olan **iki boyutlu bir tablo** gibidir. Python sözlüklerini kullanarak kolayca DataFrame'ler oluşturabiliriz.

```python
import pandas as pd

data = {
  "kaloriler": [420, 380, 390],
  "sure": [50, 40, 45]
}

veri_cercevesi = pd.DataFrame(data) # Sözlükten DataFrame oluşturma [cite: 15]
print("\nDataFrame:\n", veri_cercevesi)
```

### DataFrame'e Erişim: `loc` ve `iloc`

DataFrame'den belirli satırları veya verileri almak için `loc` ve `iloc` çok kullanışlıdır[cite: 16].

* **`loc`:** Etiket (indeks adı veya sütun adı) tabanlı erişim sağlar[cite: 17].
* **`iloc`:** Tam sayı (integer) pozisyon tabanlı erişim sağlar[cite: 17].

```python
import pandas as pd

data = {
  "kaloriler": [420, 380, 390],
  "sure": [50, 40, 45]
}
df = pd.DataFrame(data, index=["gün1", "gün2", "gün3"]) # Özel indeksli DF [cite: 19]
print("\nÖzel İndeksli DataFrame:\n", df)

# loc ile 'gün2' etiketli satırı alalım
print("\nloc['gün2']:\n", df.loc["gün2"]) # [cite: 20] (PDF'deki örneğe benzer)

# iloc ile 1. pozisyondaki (ikinci) satırı alalım
print("\niloc[1]:\n", df.iloc[1]) # [cite: 20]
```

---

İşte Pandas'ın temelleri bunlar! Bir yanda tek sütunluk **Series**, diğer yanda tam bir tablo olan **DataFrame**. Bu ikisiyle veri dünyasında harikalar yaratabiliriz.

In [1]:
import pandas as pd
# Serileri tek boyutlu dizileri tutmak için kullanılır. Onlari indeksleyerek tutar.

a = [1, 7, 2]
veri_serisi = pd.Series(a)
print(f"Basit Seri: \n{veri_serisi}")
print("İlk Eleman:",veri_serisi[0])

# Özel index atayabiliriz
b = [1, 7, 2]
i = ["x", "y", "z"]
data_series = pd.Series(data=b, index=i)
print(f"Basit Seri 2: \n{data_series}")

# Sözlük ile seri oluşturma

kaloriler = {"gün1": 420, "gün2": 380, "gün3": 390}
series_from_dict = pd.Series(kaloriler)
print(f"Basit Seri 3: \n{series_from_dict}")

Basit Seri: 
0    1
1    7
2    2
dtype: int64
İlk Eleman: 1
Basit Seri 2: 
x    1
y    7
z    2
dtype: int64
Basit Seri 3: 
gün1    420
gün2    380
gün3    390
dtype: int64


In [2]:
# DataFrame Yapısı
import pandas as pd

data = {
    "kaloriler": [420, 380, 390],
    "sure": [50, 40, 45]
}

custom_index = ["gün1", "gün2", "gün3"]

data_frame = pd.DataFrame(data, index=custom_index)
print(f"Basit Data Frame: \n{data_frame}")

# loc kullanımı:
print(f"Gün1 indeksli data: \n{data_frame.loc["gün1"]}")
# iloc
print(f"1. indeksli data: \n{data_frame.iloc[1]}")

Basit Data Frame: 
      kaloriler  sure
gün1        420    50
gün2        380    40
gün3        390    45
Gün1 indeksli data: 
kaloriler    420
sure          50
Name: gün1, dtype: int64
1. indeksli data: 
kaloriler    380
sure          40
Name: gün2, dtype: int64


---

## 2. Veri Yükleme ve Keşfetme

Genellikle verilerimiz Python kodumuzun içinde değil, **CSV (Virgülle Ayrılmış Değerler)** veya **JSON** gibi dosyalarda bulunur. Pandas, bu dosyaları okumayı çok kolaylaştırır.

### Veri Yükleme

* **CSV Okuma (`read_csv()`):** Bu, muhtemelen en sık kullanacağın fonksiyondur. CSV dosyalarını doğrudan bir DataFrame'e yükler.
* **JSON Okuma (`read_json()`):** JSON formatındaki verileri okumak için kullanılır.

```python
import pandas as pd

# 'data.csv' adında bir dosyamız olduğunu varsayalım
# veri = pd.read_csv('data.csv')

# Eğer bir Python sözlüğümüz varsa, onu da DataFrame'e çevirebiliriz:
data_sozluk = {
  "Süre":{ "0":60, "1":60, "2":60, "3":45, "4":45, "5":60 },
  "Nabız":{ "0":110, "1":117, "2":103, "3":109, "4":117, "5":102 },
  "MaksNabız":{ "0":130, "1":145, "2":135, "3":175, "4":148, "5":127 },
  "Kalori":{ "0":409.1, "1":479.0, "2":340.0, "3":282.4, "4":406.0, "5":300.0 }
}
veri = pd.DataFrame(data_sozluk)


# DataFrame'in tamamını görmek için to_string() kullanabiliriz[cite: 35].
# print(veri.to_string())
```

### Veriyi Keşfetme: İlk Bakış

Büyük bir veri setini yüklediğimizde, her şeyi tek seferde ekrana yazdırmak pratik olmaz. Bunun yerine, veriyi tanımak için bazı hızlı yöntemler kullanırız:

* **`head()`:** DataFrame'in **ilk** birkaç satırını gösterir[cite: 41]. Varsayılan olarak ilk 5 satırı gösterir[cite: 42], ama `veri.head(10)` gibi bir sayıyla istediğimiz kadar satırı görebiliriz.

    ```python
    print("İlk 5 Satır (head()):\n", veri.head())
    ```

* **`tail()`:** DataFrame'in **son** birkaç satırını gösterir[cite: 44]. Varsayılan olarak son 5 satırı gösterir[cite: 45].

    ```python
    print("\nSon 5 Satır (tail()):\n", veri.tail()) # Bu örnekte hepsi görünecek.
    ```

* **`info()`:** Veri seti hakkında **özet bilgi** verir[cite: 47]. Bu bilgi, toplam satır sayısı, sütun adları, her sütundaki boş olmayan veri sayısı ve veri tiplerini içerir.

    ```python
    print("\nVeri Seti Bilgisi (info()):")
    veri.info()
    ```

**Analoji Zamanı:** Veri yüklemek, büyük bir **kütüphaneye** girmek gibidir. `head()` ve `tail()` ile ilk ve son birkaç rafa hızlıca göz atarsın. `info()` ise kütüphanenin **kataloğuna** bakıp hangi tür kitapların, kaç tane olduğunu öğrenmek gibidir. 📚

---

Bu fonksiyonlar, yüklediğimiz verinin neye benzediğini, ne içerdiğini ve herhangi bir eksiklik olup olmadığını anlamak için ilk ve en önemli adımlardır.

In [3]:
import pandas as pd

data_sozluk = {
  "Süre":{ "0":60, "1":60, "2":60, "3":45, "4":45, "5":60 },
  "Nabız":{ "0":110, "1":117, "2":103, "3":109, "4":117, "5":102 },
  "MaksNabız":{ "0":130, "1":145, "2":135, "3":175, "4":148, "5":127 },
  "Kalori":{ "0":409.1, "1":479.0, "2":340.0, "3":282.4, "4":406.0, "5":300.0 }
}

data = pd.DataFrame(data_sozluk)
data

Unnamed: 0,Süre,Nabız,MaksNabız,Kalori
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.0


In [4]:
# Data'nın ilk birkaç satırını görmek için
data.head()

Unnamed: 0,Süre,Nabız,MaksNabız,Kalori
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


In [5]:
data.tail() # Son 5 satırı gösterir

Unnamed: 0,Süre,Nabız,MaksNabız,Kalori
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.0


In [6]:
data.info() # Veri hakkında özet bilgi verir.

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Süre       6 non-null      int64  
 1   Nabız      6 non-null      int64  
 2   MaksNabız  6 non-null      int64  
 3   Kalori     6 non-null      float64
dtypes: float64(1), int64(3)
memory usage: 240.0+ bytes


---

## 2. Veri Keşfi ve Manipülasyon (Devam)

### Verileri Gruplama: `groupby()`

`groupby()` metodu, Pandas'ın en güçlü özelliklerinden biridir. Belirttiğiniz bir veya daha fazla sütundaki **aynı değerlere sahip satırları bir araya getirerek** gruplar oluşturmanızı sağlar[cite: 27]. Bu gruplar üzerinde daha sonra toplama, sayma, ortalama alma gibi işlemler yapabilirsiniz.

* **Neden Önemli?** Kategorik verilere göre analiz yapmak için (örneğin, her departmanın toplam maaşını bulmak, her şehrin ortalama satışını hesaplamak).

```python
import pandas as pd

data = {
  "departman":["A", "B", "C", "C", "A", "B"],
  "kişi": ["Mehmet", "Ali", "Ayşe", "Hasan", "Fatma", "Hüseyin"],
  "maaş": [3000, 3500, 2500, 4500, 4000, 2000],
}
veri = pd.DataFrame(data)
print("Orijinal Veri:\n", veri)

# 'departman' sütununa göre gruplayalım
grup = veri.groupby("departman") [cite: 27]

# Her departmandaki kişi sayısını (ve maaş sayısını) bulalım
print("\nDepartmana Göre Sayım:\n", grup.count())

# Her departmanın toplam maaşını bulalım
print("\nDepartmana Göre Toplam Maaş:\n", grup.sum())

# Sadece A departmanının toplam maaşını alalım
print("\nA Departmanı Toplam Maaş:", grup.sum().loc["A"])
```

**Analoji Zamanı:** `groupby()`'ı, bir süpermarketteki ürünleri **kategorilerine göre reyonlara ayırmak** gibi düşünebilirsin. Tüm meyveler bir arada, tüm sebzeler bir arada... Böylece her reyonun (grubun) toplam değerini veya ortalama fiyatını kolayca hesaplayabilirsin! 🛒

### Verileri Sıralama: `sort_values()`

`sort_values()` metodu, DataFrame'inizi **belirlediğiniz bir sütundaki değerlere göre** sıralamanızı sağlar[cite: 52].

* **Neden Önemli?** En yüksek/en düşük değerleri kolayca görmek, veriyi belirli bir düzene sokmak, sıralı listeler oluşturmak için.

```python
import pandas as pd

# Önceki adımdaki 'veri' DataFrame'ini kullanalım
print("\nOrijinal Veri:\n", veri)

# Maaşa göre küçükten büyüğe sıralayalım
print("\nMaaşa Göre Sıralı (Artan):\n", veri.sort_values("maaş"))

# Maaşa göre büyükten küçüğe sıralayalım
print("\nMaaşa Göre Sıralı (Azalan):\n", veri.sort_values("maaş", ascending=False)) 
```

---

`groupby()` ve `sort_values()`, verilerinizi farklı açılardan incelemenizi ve önemli örüntüleri veya bilgileri ortaya çıkarmanızı sağlayan iki temel araçtır.

In [7]:
import pandas as pd

data = {
  "departman":["A", "B", "C", "C", "A", "B"],
  "kişi": ["Mehmet", "Ali", "Ayşe", "Hasan", "Fatma", "Hüseyin"],
  "maaş": [3000, 3500, 2500, 4500, 4000, 2000],
}

data = pd.DataFrame(data)
print(f"Orijinal Data:\n{data}")

grup = data.groupby("departman")
print(f"Departmana göre sayım:\n {grup.count()}")
print(f"Departmanların toplam maaşı:\n {grup.sum().loc["A"]}")

new_data = data.sort_values("maaş", ascending=False)
new_data

Orijinal Data:
  departman     kişi  maaş
0         A   Mehmet  3000
1         B      Ali  3500
2         C     Ayşe  2500
3         C    Hasan  4500
4         A    Fatma  4000
5         B  Hüseyin  2000
Departmana göre sayım:
            kişi  maaş
departman            
A             2     2
B             2     2
C             2     2
Departmanların toplam maaşı:
 kişi    MehmetFatma
maaş           7000
Name: A, dtype: object


Unnamed: 0,departman,kişi,maaş
3,C,Hasan,4500
4,A,Fatma,4000
1,B,Ali,3500
0,A,Mehmet,3000
2,C,Ayşe,2500
5,B,Hüseyin,2000


---

## 3. Veri Temizleme Sanatı

Veri temizleme, veri kümenizdeki **bozuk verileri düzeltmek** anlamına gelir[cite: 54]. Bu bozuk veriler şunlar olabilir:

* Boş hücreler [cite: 55]
* Yanlış tipte veri [cite: 55]
* Yanlış veri [cite: 55]
* Kopya veri [cite: 55]

Bu sorunları çözmek, analizlerimizin **doğru ve güvenilir** olmasını sağlar.

### Boş Hücreleri Yönetme

Boş hücreler (Null, NaN) analiz sonuçlarını yanıltabilir[cite: 57]. İki ana yaklaşım vardır:

1.  **Satırları Kaldırmak (`dropna()`):** Boş hücre içeren satırları tamamen kaldırmanın en basit yoludur[cite: 58, 60]. Genellikle veri setiniz çok büyükse ve birkaç satırı kaybetmek önemli değilse kullanılır[cite: 59]. `inplace=True` argümanı ile orijinal DataFrame'i değiştirebilirsiniz[cite: 61].
    ```python
    import pandas as pd
    # 'data.csv' dosyasında boşluklar olduğunu varsayalım
    # veri = pd.read_csv('data.csv')
    # new_veri = veri.dropna() # Boşluk içeren satırları siler [cite: 63]
    # print(new_veri.to_string())
    ```
2.  **Boş Değerleri Değiştirmek (`fillna()`):** Satırları silmek yerine, boş hücreleri belirli bir değerle (örneğin 0, veya sütunun ortalaması/medyanı/modu) doldurmaktır[cite: 64].
    ```python
    # veri = pd.read_csv('data.csv')
    # Ortalama ile doldurma
    # x = veri["Calories"].mean() # Ortalamayı hesapla [cite: 66]
    # veri["Calories"].fillna(x, inplace = True) # Ortalamayla doldur [cite: 66]
    # Medyan ile doldurma
    # y = veri["Calories"].median() # Medyanı hesapla [cite: 67]
    # veri["Calories"].fillna(y, inplace = True) # Medyanla doldur [cite: 67]
    # Belirli bir değerle doldurma
    # veri.fillna(130, inplace = True) # Tüm boşlukları 130 ile doldur [cite: 65]
    ```

### Yanlış Format ve Verileri Düzeltme

Bazen veriler yanlış formatta (tarih yerine metin gibi) veya bariz şekilde yanlış (süre 450 dakika gibi) olabilir.

* **Formata Çevirme:** `pd.to_datetime()` gibi fonksiyonlarla verileri doğru formata çevirebiliriz.
* **Değerleri Değiştirme:** `loc` kullanarak belirli hücrelerdeki yanlış değerleri düzeltebiliriz[cite: 78]. Veya belirli kurallar koyarak (örneğin 120 dakikadan uzun süreyi 120 yap gibi) toplu düzeltmeler yapabiliriz[cite: 79, 80].
* **Satırları Silme:** Yanlış veri içeren satırları `drop()` ile silebiliriz[cite: 82].

### Kopya (Yinelenen) Verileri Kaldırma

Bazen aynı satır veri setinde birden fazla kez yer alabilir[cite: 83].

* **Tespit Etme (`duplicated()`):** Bu metot, hangi satırların kopya olduğunu gösteren bir boolean (True/False) serisi döndürür[cite: 84].
* **Kaldırma (`drop_duplicates()`):** Bu metot, yinelenen satırları veri setinden kaldırır[cite: 85].
    ```python
    # veri = pd.read_csv('data2.csv')
    # print(veri.duplicated().to_string()) # Kopyaları göster [cite: 85]
    # new_veri = veri.drop_duplicates() # Kopyaları sil [cite: 85]
    # print(new_veri.to_string())
    ```

**Analoji Zamanı:** Veri temizlemeyi, tarihi bir eseri **restore etmeye** benzetebilirsin. Kırık parçaları yapıştırır (`fillna`), yanlış boyanmış yerleri düzeltir (`loc`), tozunu alır ve fazlalıkları atarsın (`dropna`, `drop_duplicates`). Sonunda, eserin (verinin) gerçek güzelliği ve anlamı ortaya çıkar! 🏛️✨

---

Pandas ile veri temizleme, veri analizi sürecinin kritik bir parçasıdır ve bu araçlar sana bu konuda büyük bir güç verir.