# Pandas Kütüphanesi ile Veri Analizi Ders Notları

Bu notebook, temel Pandas veri yapılarından başlayarak veri temizleme, manipülasyon, gruplama ve zaman serisi analizlerini kapsayan bir rehber niteliğindedir.

## 1. Pandas Serileri ve DataFrame Oluşturma
Pandas'ın iki temel veri yapısı vardır: **Series** (tek boyutlu) ve **DataFrame** (iki boyutlu, tablo yapısı).

In [None]:
import pandas as pd

# Bir Pandas Serisi oluşturma
# index parametresi ile satır etiketlerini kendimiz belirleyebiliriz.
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print("---- Pandas Serisi ----")
print(s)

In [None]:
# Bir Dictionary (Sözlük) kullanarak DataFrame oluşturma
data = {
    'Fiyat': [10, 20, 30, 40],
    'Satış Adedi': [100, 200, 300, 400],
    'Kategori': ['Roman', 'Bilim', 'Çocuk', 'Tarih']
}

df = pd.DataFrame(data)
print("---- Oluşturulan DataFrame ----")
print(df)

## 2. Veri Keşfi ve Temel İşlemler
Veri setini tanımanızı sağlayan temel fonksiyonlar:
* `head(n)`: İlk n satırı getirir.
* `info()`: Veri tipleri ve bellek kullanımı hakkında bilgi verir.
* `describe()`: Sayısal sütunların istatistiksel özetini (ortalama, std sapma, min, max vb.) çıkarır.

In [None]:
# İlk 2 satırı görüntüle
print("---- İlk 2 Satır ----")
print(df.head(2))

# Veri seti hakkında teknik bilgi
print("\n---- Veri Seti Bilgisi ----")
print(df.info())

# İstatistiksel özet
print("\n---- İstatistiksel Özet ----")
print(df.describe())

## 3. Sütun Seçimi ve Filtreleme
DataFrame içerisinden belirli sütunları seçebilir veya belirli koşullara göre satırları filtreleyebilirsiniz.

In [None]:
# Belirli sütunları seçme
secilen_sutunlar = df[['Kategori', 'Satış Adedi']]
print(secilen_sutunlar)

# Filtreleme: Fiyatı 30 ve üzeri olanları getir
filtre = df[df['Fiyat'] >= 30]
print("\n---- Fiyatı 30'dan Büyük Olanlar ----")
print(filtre)

## 4. Veri Manipülasyonu
Yeni sütun ekleme veya var olan sütunları silme işlemleri.

In [None]:
# Yeni sütun ekleme: Toplam Gelir hesaplama
df['Toplam Gelir'] = df['Fiyat'] * df['Satış Adedi']

# Sütun silme (drop)
# axis=1 sütun siler, axis=0 satır siler. inplace=True yapılırsa df kalıcı değişir, burada atama yaptık.
df = df.drop('Kategori', axis=1)

# Tekrar kategori sütunu ekleyelim (Örnek amaçlı)
df['Kategori'] = ['Roman', 'Bilim', 'Çocuk', 'Tarih']
print(df)

## 5. Excel Dosyalarıyla Çalışma ve İleri Seviye Veri Seti
Bu bölümde dışarıdan veri okuma, eksik verilerle çalışma ve daha karmaşık analizler yapacağız.
*Not: Aşağıdaki hücre çalıştırıldığında örnek bir Excel dosyası oluşturulacaktır.*

In [None]:
# Önce çalışmamız için örnek bir veri seti oluşturalım ve Excel'e kaydedelim
import numpy as np

data_tech = {
    'Ürün No': range(1, 21),
    'Ürün Adı': ['Akıllı Telefon', 'Dizüstü Bilgisayar', 'Tablet', 'Akıllı Saat', 'Kablosuz Kulaklık', 
                 'Oyun Konsolu', 'Masaüstü Bilgisayar', 'Akıllı Ev Asistanı', '4K Televizyon', 'Bluetooth Hoparlör',
                 'E-kitap Okuyucu', 'Oyun Klavyesi', 'Sanal Gerçeklik Gözlüğü', 'Drone', 'Akıllı Bileklik',
                 'Kablosuz Şarj Cihazı', 'Akıllı Termostat', 'Güvenlik Kamerası', 'Robot Süpürge', 'Monitör'],
    'Kategori': ['Mobil Cihazlar', 'Bilgisayarlar', 'Mobil Cihazlar', 'Aksesuarlar', 'Aksesuarlar',
                 'Oyun Cihazları', 'Bilgisayarlar', 'Akıllı Ev Ürünleri', 'Televizyonlar', 'Aksesuarlar',
                 'Mobil Cihazlar', 'Aksesuarlar', 'Oyun Cihazları', 'Aksesuarlar', 'Aksesuarlar',
                 'Aksesuarlar', 'Akıllı Ev Ürünleri', 'Akıllı Ev Ürünleri', 'Akıllı Ev Ürünleri', 'Bilgisayarlar'],
    'Satış': [10, 7, 15, 23, 25, 5, 3, 12, 8, 18, 23, 30, 4, 6, 22, 27, 23, 11, 13, 10],
    'Fiyat (TL)': [5000, 8500, np.nan, 1500, 800, 4000, np.nan, 2000, 7500, np.nan,
                   2500, 900, 4500, 6000, 1300, 600, np.nan, 2800, 4500, np.nan] # Bazı fiyatlar eksik (NaN)
}

df_tech = pd.DataFrame(data_tech)
df_tech['Toplam Fiyat (TL)'] = df_tech['Satış'] * df_tech['Fiyat (TL)'].fillna(0) # Geçici hesaplama
df_tech.to_excel('teknolojik_urunler.xlsx', index=False)
print("Örnek Excel dosyası oluşturuldu: teknolojik_urunler.xlsx")

In [None]:
# Excel dosyasını okuma
df = pd.read_excel('teknolojik_urunler.xlsx')
df.head()

### 5.1 Eksik Veriler (Missing Values)
Veri setindeki `NaN` (Not a Number) değerleri tespit etme ve doldurma işlemleri.

In [None]:
# Hangi hücreler boş? (True/False döner)
print(df.isnull().head())

# Boş verileri doldurma
# fillna() metodu boşlukları belirtilen değerle doldurur.
doldurulmus_df = df.fillna('BOŞ!!!!!!!!')
print("\n---- Boşlukları Doldurulmuş Veri ----")
print(doldurulmus_df.head(3))

# Boş satırları tamamen silme
temiz_df = df.dropna()
print(f"\nOrijinal satır sayısı: {len(df)}, Temizlenmiş satır sayısı: {len(temiz_df)}")

### 5.2 Veri Tipi Dönüşümü ve Sıralama
Fiyat sütununu tam sayıya (`int`) çevirme ve veriyi sıralama.

In [None]:
# Veri tiplerini kontrol etme
print(temiz_df.dtypes)

# Fiyatı float'tan int'e çevirme (astype)
# Uyarı: Bu işlem için kopyalama uyarısını önlemek adına .copy() kullanılabilir.
temiz_df = temiz_df.copy()
temiz_df['Fiyat (TL)'] = temiz_df['Fiyat (TL)'].astype(int)

# Fiyata göre azalan sıralama
df_azalan = temiz_df.sort_values(by='Fiyat (TL)', ascending=False)
print("\n---- En Pahalı 3 Ürün ----")
print(df_azalan.head(3))

### 5.3 Gruplama (Groupby) ve Agregasyon
Veriyi kategorilere ayırıp özet istatistikler çıkarma.

In [None]:
# Kategori bazlı toplam satış ve ortalama fiyat
kategori_ozet = temiz_df.groupby('Kategori').agg({
    'Satış': 'sum',
    'Fiyat (TL)': 'mean'
})
print(kategori_ozet)

# Filtreleme ile Gruplama: Toplam satışı 50'den büyük olan kategorileri bulma
satis_ust_gruplar = temiz_df.groupby('Kategori').filter(lambda x: x['Satış'].sum() > 50)
print("\n---- Toplam Satışı 50'den Büyük Olan Kategorideki Ürünler ----")
print(satis_ust_gruplar[['Kategori', 'Ürün Adı']].head())

### 5.4 Query ve İleri Filtreleme
Pandas `query` metodu SQL benzeri sorgu yazmayı sağlar.

In [None]:
# Kategori 'Aksesuarlar' OLANLAR
aksesuarlar = temiz_df.query('Kategori == "Aksesuarlar"')
print(aksesuarlar.head())

# Çoklu koşul ve .isin() kullanımı
# Kategorisi Aksesuarlar veya Oyun Cihazları olanlar
secili_kategoriler = temiz_df[temiz_df['Kategori'].isin(['Aksesuarlar', 'Oyun Cihazları'])]
print("\n---- Aksesuar veya Oyun Cihazları ----")
print(secili_kategoriler.head())

## 6. Zaman Serileri (Time Series Analysis)
Veri setine tarih ekleyip zaman bazlı (günlük, haftalık, aylık) analizler yapma (`resample`).

In [None]:
# Veriye rastgele tarihler ekleyelim
df['Tarih'] = pd.to_datetime(np.random.choice(pd.date_range('2025-01-01', '2026-01-01'), size=len(df)))

# Tarihi index olarak ayarlama (Zaman serisi analizi için gereklidir)
df.set_index('Tarih', inplace=True)
df.sort_index(inplace=True)

print(df.head())

In [None]:
# Aylık Satış Toplamları (ME: Month End)
aylik_satis = df.resample('ME')['Satış'].sum()
print("---- Aylık Satış Toplamları ----")
print(aylik_satis)

# En çok satış yapılan ayı bulma
max_ay = aylik_satis.idxmax()
print(f"\nEn çok satış yapılan ay: {max_ay}")

In [None]:
# Haftalık Satış Toplamları (W: Week)
haftalik_satis = df.resample('W')['Satış'].sum()
print("---- Haftalık Satışlar (İlk 5) ----")
print(haftalik_satis.head())