# 3_pandas_dataframes.py

This notebook was automatically converted from a Python script.

# Pandas DataFrames


DataFrame, Pandas'ın en temel ve en çok kullanılan veri yapısıdır. Bu bölümde DataFrame veri yapısını, özelliklerini ve temel işlemlerini inceleyeceğiz.


## DataFrame Nedir?


DataFrame, iki boyutlu, değiştirilebilir ve potansiyel olarak heterojen bir tablo veri yapısıdır. Satırlar ve sütunlar vardır:


- Her sütun farklı bir veri tipi içerebilir (int, float, string, vb.)


- Hem satırlar hem de sütunlar etiketlidir


- Excel tablosu veya SQL tablosu benzeri bir yapıdır


Gerekli kütüphaneleri import edelim


In [None]:
import pandas as pd
import numpy as np



## DataFrame Oluşturma


Birkaç farklı yöntemle DataFrame oluşturalım:


1. Sözlük (dictionary) kullanarak DataFrame oluşturma


In [None]:
data = {
    'Ad': ['Ali', 'Ayşe', 'Mehmet', 'Zeynep', 'Ahmet'],
    'Yaş': [25, 30, 35, 28, 42],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa', 'Antalya'],
    'Departman': ['IT', 'Pazarlama', 'İK', 'Finans', 'IT'],
    'Maaş': [5000, 6000, 7500, 4500, 8000]
}

df = pd.DataFrame(data)
print("Sözlük ile oluşturulan DataFrame:")
print(df)



2. Sözlük listesi kullanarak DataFrame oluşturma


In [None]:
sozluk_listesi = [
    {'Ad': 'Ali', 'Yaş': 25, 'Maaş': 5000},
    {'Ad': 'Ayşe', 'Yaş': 30, 'Maaş': 6000},
    {'Ad': 'Mehmet', 'Yaş': 35},  # Eksik değer
    {'Ad': 'Zeynep', 'Maaş': 4500}  # Eksik değer
]

df2 = pd.DataFrame(sozluk_listesi)
print("\nSözlük listesi ile oluşturulan DataFrame:")
print(df2)



3. NumPy dizisi kullanarak DataFrame oluşturma


In [None]:
array = np.random.randn(5, 4)  # 5 satır, 4 sütun random değerler
df3 = pd.DataFrame(array, columns=['A', 'B', 'C', 'D'])
print("\nNumPy dizisi ile oluşturulan DataFrame:")
print(df3)



4. Başka bir DataFrame'den oluşturma


In [None]:
df4 = pd.DataFrame(df[['Ad', 'Yaş']])
print("\nMevcut DataFrame'den yeni DataFrame oluşturma:")
print(df4)



5. CSV dosyasından oluşturma (örnek olarak - dosya olmadığı için çalışmaz)


df5 = pd.read_csv('ornek.csv')


print("\nCSV dosyasından oluşturulan DataFrame:")


print(df5)


## DataFrame Özellikleri ve Bilgilerine Erişim


DataFrame hakkında bilgi edinelim:


In [None]:

print("\n--- DataFrame Özellikleri ---")



DataFrame boyutu


In [None]:
print("\nDataFrame boyutu (satır, sütun):", df.shape)



DataFrame indeksleri


In [None]:
print("\nDataFrame indeksleri:", df.index.tolist())



DataFrame sütunları


In [None]:
print("\nDataFrame sütunları:", df.columns.tolist())



DataFrame değerleri (NumPy dizisi olarak)


In [None]:
print("\nDataFrame değerleri (küçük bir kısmı):")
print(df.values[:2])  # Sadece ilk 2 satır



DataFrame veri tipleri


In [None]:
print("\nDataFrame veri tipleri:")
print(df.dtypes)



DataFrame hakkında genel bilgi


In [None]:
print("\nDataFrame hakkında genel bilgi:")
df.info()



Temel istatistikler


In [None]:
print("\nDataFrame istatistiksel özet:")
print(df.describe())



## DataFrame'de Veri Seçme ve Filtreleme


DataFrame'den veri seçme ve filtreleme yöntemlerini görelim:


In [None]:

print("\n--- DataFrame'de Veri Seçme ve Filtreleme ---")



1. Tek bir sütunu seçme


In [None]:
print("\nSadece 'Ad' sütunu:")
print(df['Ad'])



2. Birden fazla sütunu seçme


In [None]:
print("\n'Ad' ve 'Maaş' sütunları:")
print(df[['Ad', 'Maaş']])



3. loc ile etiketlere göre veri seçme


In [None]:
print("\nloc ile 0, 2, 4. satırlar:")
print(df.loc[[0, 2, 4]])

print("\nloc ile 1, 3. satırların 'Ad' ve 'Departman' sütunları:")
print(df.loc[[1, 3], ['Ad', 'Departman']])



4. iloc ile konuma göre veri seçme


In [None]:
print("\niloc ile ilk 2 satır:")
print(df.iloc[:2])

print("\niloc ile 2. satır ve 1, 3. sütunlar:")
print(df.iloc[2, [1, 3]])



5. Koşullu filtreleme


In [None]:
print("\nYaşı 30'dan büyük olanlar:")
print(df[df['Yaş'] > 30])

print("\nIT departmanında çalışanlar:")
print(df[df['Departman'] == 'IT'])

print("\nYaşı 30'dan büyük ve IT departmanında çalışanlar:")
print(df[(df['Yaş'] > 30) & (df['Departman'] == 'IT')])



6. Benzersiz değerleri bulma


In [None]:
print("\nDepartman sütunundaki benzersiz değerler:", df['Departman'].unique())



## DataFrame'de Veri Manipülasyonu


DataFrame'deki verileri değiştirme ve manipüle etme yöntemlerini inceleyelim:


In [None]:

print("\n--- DataFrame'de Veri Manipülasyonu ---")



DataFrame'in bir kopyasını oluşturalım


In [None]:
df_manipulasyon = df.copy()



1. Yeni sütun ekleme


In [None]:
df_manipulasyon['Prim'] = [500, 600, 750, 450, 800]
print("\n'Prim' sütunu eklendi:")
print(df_manipulasyon)



2. Hesaplanmış sütun ekleme


In [None]:
df_manipulasyon['Toplam Kazanç'] = df_manipulasyon['Maaş'] + df_manipulasyon['Prim']
print("\n'Toplam Kazanç' sütunu eklendi:")
print(df_manipulasyon)



3. Sütun silme


In [None]:
df_manipulasyon = df_manipulasyon.drop('Prim', axis=1)
print("\n'Prim' sütunu silindi:")
print(df_manipulasyon)



4. Satır silme


In [None]:
df_manipulasyon = df_manipulasyon.drop([1, 3], axis=0)
print("\n1. ve 3. satırlar silindi:")
print(df_manipulasyon)



5. Sütunları yeniden adlandırma


In [None]:
df_manipulasyon = df_manipulasyon.rename(columns={'Yaş': 'Yas', 'Maaş': 'Maas'})
print("\nSütunlar yeniden adlandırıldı:")
print(df_manipulasyon)



## Eksik Verileri İşleme


DataFrame'deki eksik verileri işleme yöntemlerini görelim:


In [None]:

print("\n--- Eksik Verileri İşleme ---")



Eksik değerler içeren DataFrame


In [None]:
eksik_data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, 4, 5],
    'C': [1, 2, 3, np.nan, np.nan]
}

df_eksik = pd.DataFrame(eksik_data)
print("\nEksik değerler içeren DataFrame:")
print(df_eksik)



1. Eksik değerleri tespit etme


In [None]:
print("\nEksik değerleri tespit etme:")
print(df_eksik.isnull())
print("\nSütunlardaki eksik değer sayısı:")
print(df_eksik.isnull().sum())



2. Eksik değerleri doldurma


2.1. Sabit değerle doldurma


In [None]:
df_eksik_sabit = df_eksik.fillna(0)
print("\nEksik değerler 0 ile dolduruldu:")
print(df_eksik_sabit)



2.2. Sütun ortalaması ile doldurma


In [None]:
df_eksik_ortalama = df_eksik.fillna(df_eksik.mean())
print("\nEksik değerler sütun ortalamaları ile dolduruldu:")
print(df_eksik_ortalama)



2.3. İleri veya geri yönlü doldurma


In [None]:
df_eksik_ffill = df_eksik.fillna(method='ffill')  # Forward fill
print("\nEksik değerler ileri yönlü dolduruldu:")
print(df_eksik_ffill)



3. Eksik değer içeren satırları veya sütunları silme


In [None]:
df_eksik_dropna_satir = df_eksik.dropna()  # Eksik değer içeren tüm satırları sil
print("\nEksik değer içeren satırlar silindi:")
print(df_eksik_dropna_satir)

df_eksik_dropna_sutun = df_eksik.dropna(axis=1)  # Eksik değer içeren tüm sütunları sil
print("\nEksik değer içeren sütunlar silindi:")
print(df_eksik_dropna_sutun)



## Gruplama ve Agregasyon


DataFrame'de gruplama ve agregasyon işlemlerini görelim:


In [None]:

print("\n--- Gruplama ve Agregasyon ---")



Örnek veri


In [None]:
data_grup = {
    'Kategori': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Değer1': [10, 20, 15, 30, 25, 5, 35],
    'Değer2': [100, 200, 150, 300, 250, 50, 350]
}

df_grup = pd.DataFrame(data_grup)
print("\nGruplama için örnek DataFrame:")
print(df_grup)



1. Kategoriye göre gruplama


In [None]:
grup = df_grup.groupby('Kategori')



2. Gruplara göre toplamlama


In [None]:
print("\nKategoriye göre toplam:")
print(grup.sum())



3. Gruplara göre ortalama


In [None]:
print("\nKategoriye göre ortalama:")
print(grup.mean())



4. Gruplara göre birden fazla agregasyon


In [None]:
print("\nKategoriye göre çoklu agregasyon:")
print(grup.agg(['sum', 'mean', 'min', 'max']))



5. Farklı sütunlara farklı agregasyonlar uygulama


In [None]:
print("\nFarklı sütunlara farklı agregasyonlar:")
print(grup.agg({'Değer1': 'sum', 'Değer2': 'mean'}))



## Birleştirme ve Birleşim (Merge ve Join)


DataFrame'leri birleştirme yöntemlerini görelim:


In [None]:

print("\n--- Birleştirme ve Birleşim ---")



İki farklı DataFrame oluşturalım


In [None]:
df_sol = pd.DataFrame({
    'ID': [1, 2, 3, 4, 5],
    'Ad': ['Ali', 'Veli', 'Ayşe', 'Fatma', 'Mehmet'],
    'Departman': ['IT', 'Pazarlama', 'İK', 'Finans', 'IT']
})

df_sag = pd.DataFrame({
    'ID': [3, 4, 5, 6, 7],
    'Maaş': [5000, 6000, 7000, 8000, 9000],
    'Başlangıç': ['2018', '2019', '2017', '2020', '2016']
})

print("\nSol DataFrame:")
print(df_sol)
print("\nSağ DataFrame:")
print(df_sag)



1. İç birleşim (inner join)


In [None]:
df_ic = pd.merge(df_sol, df_sag, on='ID', how='inner')
print("\nİç birleşim (ID'ye göre):")
print(df_ic)



2. Sol birleşim (left join)


In [None]:
df_sol_join = pd.merge(df_sol, df_sag, on='ID', how='left')
print("\nSol birleşim (ID'ye göre):")
print(df_sol_join)



3. Sağ birleşim (right join)


In [None]:
df_sag_join = pd.merge(df_sol, df_sag, on='ID', how='right')
print("\nSağ birleşim (ID'ye göre):")
print(df_sag_join)



4. Tam birleşim (full/outer join)


In [None]:
df_tam = pd.merge(df_sol, df_sag, on='ID', how='outer')
print("\nTam birleşim (ID'ye göre):")
print(df_tam)



5. Concatenation (dikey birleştirme)


In [None]:
df_concat = pd.concat([df.iloc[:2], df.iloc[3:5]])
print("\nDikey birleştirme (concat):")
print(df_concat)



## Pivot Tablolar


Pivot tablo oluşturma örneklerini görelim:


In [None]:

print("\n--- Pivot Tablolar ---")



Örnek veri


In [None]:
data_pivot = {
    'Tarih': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03'],
    'Kategori': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Değer': [100, 150, 200, 250, 300, 350]
}

df_pivot = pd.DataFrame(data_pivot)
df_pivot['Tarih'] = pd.to_datetime(df_pivot['Tarih'])
print("\nPivot için örnek veri:")
print(df_pivot)



Pivot tablo oluşturma


In [None]:
pivot = df_pivot.pivot(index='Tarih', columns='Kategori', values='Değer')
print("\nPivot tablo:")
print(pivot)



## Özet ve İleri Konular


DataFrame, pandas'ın en güçlü veri yapısıdır ve veri analizi için birçok fonksiyon sunar. Bu bölümde temel konuları ele aldık, ancak şu konular da ileri seviyede önemlidir:


- Multiindex (çoklu indeks) kullanımı


- Time Series (zaman serisi) verileriyle çalışma


- apply(), map() ve applymap() fonksiyonları ile veri dönüşümleri


- pandas ile veri görselleştirme


- pandas ile doğrudan SQL sorguları çalıştırma


- büyük veri kümeleri için verimli çalışma yöntemleri


## Sonuç


Bu bölümde pandas'ın temel veri yapısı olan DataFrame'i ve onunla ilgili temel işlemleri inceledik. DataFrame:


- İki boyutlu, etiketli veri yapısıdır


- Farklı veri tiplerini içerebilir


- Veri seçme, filtreleme, manipülasyon, dönüştürme için güçlü araçlar sunar


- Eksik veri işleme, gruplama, agregasyon ve birleştirme işlemlerini destekler


- Veri analizi ve işleme süreçlerinde vazgeçilmezdir


Bir sonraki bölümde, CSV ve JSON gibi dış kaynaklardan veri okuma ve bu kaynaklara veri yazma işlemlerini inceleyeceğiz. 
