<div style="
    background-image: url('https://miro.medium.com/v2/resize:fit:1024/1*f74xr_c2PLl68XvLkokTLw.jpeg');
    background-size: cover;
    background-position: center;
    height: 380px;
    width: 100%;
    display: flex;
    align-items: center;
    padding-left: 20px;  
    color: white;
    border-radius: 10px;">
    
<span style="font-weight: bold; font-size: 30px;">🎯 4. Pandas Giriş</span>

</div>


## 4.1 Pandas Nedir?
Pandas, veri analizi ve manipülasyonu için kullanılan bir Python kütüphanesidir.

Temel veri yapıları:

- **Series:** Tek boyutlu etiketli dizi.

- **DataFrame:** İki boyutlu etiketli veri yapısı (tablo).

- Pandas, **CSV**, **Excel**, **SQL** gibi farklı veri kaynaklarından **veri okuma ve yazma** desteği sunar.

Pandas, Python paket yöneticisi pip ile kurulabilir:

    pip install pandas


## 4.2 Temel Veri Yapıları

### 4.2.1 Series
**Series**, tek boyutlu etiketli bir dizidir.

Her eleman bir indeks (etiket) ile ilişkilendirilir.

In [None]:
import pandas as pd

# Series oluşturma
data = pd.Series([10, 20, 30, 40])
print(data)
# 0    10
# 1    20
# 2    30
# 3    40
# dtype: int64

# Özel indekslerle Series 
data = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(data)
# a    10
# b    20
# c    30
# d    40
# dtype: int64

Serinin dizi gösterimini ve indeks nesnesini sırasıyla **values** ve **index** özellikleri aracılığıyla alabilirsiniz:

In [None]:
print(data.values)  # array([10, 20, 30, 40])

print(data.index)   # Index(['a', 'b', 'c', 'd'], dtype='object')

Tek bir değeri veya bir değer kümesini seçerken dizindeki etiketleri kullanabilirsiniz:

In [None]:
print(data['a'])  # 10

print(data[['c', 'a', 'd']])  
# c    30 
# a    10 
# d    40

**NumPy** fonksiyonlarının veya **NumPy** benzeri işlemlerin kullanılması, örneğin **boolean** dizisi ile filtreleme, **skaler çarpma** veya **matematik fonksiyonlarının uygulanması**, **index-value** bağlantısını koruyacaktır:

In [None]:
print((data > 0))  
# a     True
# b     True
# c     True
# d     True
# dtype: bool
print(data[data > 0])  
# a    10 
# b    20 
# c    30 
# d    40
print((data * 2))  
# a    20 
# b    40 
# c    60 
# d    80 
# dtype: int64

Eğer **sözlük** türünde veriniz varsa ondan bir **seri** oluşturabilirsiniz

In [None]:
usa_data = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
data = pd.Series(usa_data)
print(data)
# Ohio      35000
# Texas     71000
# Oregon    16000
# Utah       5000

Yalnızca bir **sözlük yapısı** ilettiğinizde, sonuçta ortaya çıkan **Serideki indeks**, Sözlük yapısının **anahtarlarını** sıralı olarak içerecektir. **Sözlük anahtarlarını** ortaya çıkan Seri yapısında görünmelerini istediğiniz sırada ileterek bunu geçersiz kılabilirsiniz:

In [None]:
states = ['California', 'Ohio', 'Texas', 'Oregon']
new_data = pd.Series(usa_data, index=states)
print(new_data)
# California        NaN
# Ohio          35000.0
# Texas         71000.0
# Oregon        16000.0
# dtype: float64

Burada, **states** listesinde bulunan üç değer uygun konumlara yerleştirildi, ancak **'California'** için hiçbir değer bulunamadığından, pandas'ta **eksik** veya **NA** değerlerini işaretlemek için kullanılan **NaN (sayı değil**) olarak görünür. **'Utah**' eyaletlere dahil edilmediğinden, ortaya çıkan nesneden çıkarılır.

### 4.2.2 DataFrame

DataFrame dikdörtgen bir veri tablosunu temsil eder ve her biri farklı bir değer türü **(numeric, string, boolean, vb.)** olabilen sıralı bir sütun koleksiyonu içerir.

Bir veri çerçevesi oluşturmak için **pd.DataFrame()** fonksiyonunu çağırmalısınız

- **DataFrame**, iki boyutlu etiketli bir veri yapısıdır (satırlar ve sütunlar).

- **Excel** tabloları veya **SQL** tabloları gibi düşünülebilir.

- **head():** ilk 5 (varsayılan) satırı getirir

- **tail():** son 5 (varsayılan) satırı getirir

In [None]:
df=pd.DataFrame([[1,2,3],[4,5,6]])
print(df)
#    0  1  2
# 0  1  2  3
# 1  4  5  6

İndeksleri ve sütunları açıkça belirlemediğimiz için 0'dan N'ye kadar sayılar atadı

Bir **DataFrame** oluşturmanın birçok yolu vardır, ancak en yaygın olanlarından biri eşit uzunlukta **listelerden** veya **NumPy** dizilerinden oluşan bir **sözlük** yapısıdır.

In [None]:
# Sözlük yapısından DataFrame oluşturma
data = {
    'Name': ['Alice', 'Bob', 'Charlie',"Ali"],
    'Age': [25, 30, 35, 22],
    'City': ['New York', 'London', 'Paris',"New York"]
}
df = pd.DataFrame(data)
print(df)
#       Name  Age      City
# 0    Alice   25  New York
# 1      Bob   30    London
# 2  Charlie   35     Paris

## 4.3 Veri Okuma ve Yazma

### 4.3.1 CSV Dosyası Okuma


In [None]:
# CSV dosyası okuma
df = pd.read_csv('data.csv')

# İlk 5 satırı görüntüleme
print(df.head())

### 4.3.2 Excel Dosyası Okuma

In [None]:
# Excel dosyası okuma
df = pd.read_excel('data.xlsx')

### 4.3.3 Veriyi Dosyaya Yazma

In [None]:
# CSV dosyasına yazma
df.to_csv('output.csv', index=False)

# Excel dosyasına yazma
df.to_excel('output.xlsx', index=False)

## 4.4 DataFrame İşlemleri

### 4.4.1 Veriye Erişim

DataFrame'deki bir sütun, **sözlük** benzeri gösterimle veya özniteliğe göre **Seri** olarak alınabilir:

- Sütun Seçme 

- Satır Seçme --> **pd.DataFrame.iloc**

- Belirli Bir Hücreye Erişim --> **pd.DataFrame.loc**

In [4]:
print(df['Name'])  # Name sütununu seçer
print("-"*20)
print(df.iloc[0])  # İlk satırı seçer
print("-"*20)
print(df.loc[0, 'Name'])  # İlk satırın Name sütunundaki değer

0      Alice
1        Bob
2    Charlie
3        Ali
Name: Name, dtype: object
--------------------
Name       Alice
Age           25
City    New York
Name: 0, dtype: object
--------------------
Alice


In [5]:
# Display komutu dataframe'i daha güzel gösterir
display(df.head(2))  # İlk 2 satırı seçer 
display(df.tail(3))  # Son 3 satırı seçer

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,London


Unnamed: 0,Name,Age,City
1,Bob,30,London
2,Charlie,35,Paris
3,Ali,22,New York


## 4.5 Veri Filtreleme

### 4.5.1 Koşullu Filtreleme

In [6]:
filtered_df = df[df['Age'] > 30]  # Yaşı 30'dan büyük olanlar
display(filtered_df)

Unnamed: 0,Name,Age,City
2,Charlie,35,Paris


### 4.5.2 Çoklu Koşullar

In [7]:
filtered_df = df[(df['Age'] > 25) & (df['City'] == 'London')]
display(filtered_df)

Unnamed: 0,Name,Age,City
1,Bob,30,London


## 4.6 Veri Ekleme ve Silme

### 4.6.1 Yeni Sütun Ekleme

Bir sütuna **liste** veya **dizi** atarken, değerin uzunluğu **DataFrame'in uzunluğuyla** eşleşmelidir

In [8]:
df['Salary'] = [50000, 60000, 70000, 30000]
display(df)

Unnamed: 0,Name,Age,City,Salary
0,Alice,25,New York,50000
1,Bob,30,London,60000
2,Charlie,35,Paris,70000
3,Ali,22,New York,30000


### 4.6.2 Satır Silme

**drop():** Veri setinden sütunları veya satırları silmenizi sağlar.

In [9]:
df_ = df.drop(0,axis=0)  # İlk satırı siler
display(df_)

Unnamed: 0,Name,Age,City,Salary
1,Bob,30,London,60000
2,Charlie,35,Paris,70000
3,Ali,22,New York,30000


### 4.6.3 Sütun Silme

In [10]:
df_drop = df.drop('City', axis=1)  # City sütununu siler
display(df_drop)

Unnamed: 0,Name,Age,Salary
0,Alice,25,50000
1,Bob,30,60000
2,Charlie,35,70000
3,Ali,22,30000


## 4.7 Veri Gruplama

**groupby():** Veri setini bir veya birden fazla değişkene göre gruplamayı sağlar.

**agg():** Veri setinde aritmetik işlemler yapmayı sağlar.

In [11]:
grouped = df.groupby('City')['Age'].mean()  # Şehre göre yaş ortalaması
print(grouped)

City
London      30.0
New York    23.5
Paris       35.0
Name: Age, dtype: float64


In [12]:
summary = df.groupby("City").agg({
    'Age': ['min', 'max', 'mean'],
    'Salary': 'sum'
})
display(summary)

Unnamed: 0_level_0,Age,Age,Age,Salary
Unnamed: 0_level_1,min,max,mean,sum
City,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
London,30,30,30.0,60000
New York,22,25,23.5,80000
Paris,35,35,35.0,70000


## 4.8 Eksik Veri İşlemleri

**isnull():** Eksik verileri True olarak gösterir.

**fillna()** Eksik verileri doldurmayı sağlar.

**dropna()** Eksik verileri içeren satırları siler.

In [17]:
import numpy as np

# Eksik veriler içeren bir DataFrame oluşturur.
data = {
    "İsim": ["Ali", "Ayşe", "Mehmet", "Zeynep"],
    "Yaş": [25, np.nan, 30, 22],
    "Maaş": [5000, 7000, np.nan, 4500],
    "Şehir": ["İstanbul", "Ankara", "İzmir", "Rize"]
}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,İsim,Yaş,Maaş,Şehir
0,Ali,25.0,5000.0,İstanbul
1,Ayşe,,7000.0,Ankara
2,Mehmet,30.0,,İzmir
3,Zeynep,22.0,4500.0,Rize


In [18]:
display(df.isnull())  # Eksik verileri True olarak gösterir

Unnamed: 0,İsim,Yaş,Maaş,Şehir
0,False,False,False,False
1,False,True,False,False
2,False,False,True,False
3,False,False,False,False


In [19]:
df_filled = df.fillna(0)  # Eksik verileri 0 ile doldurur
display(df_filled)

Unnamed: 0,İsim,Yaş,Maaş,Şehir
0,Ali,25.0,5000.0,İstanbul
1,Ayşe,0.0,7000.0,Ankara
2,Mehmet,30.0,0.0,İzmir
3,Zeynep,22.0,4500.0,Rize


In [20]:
df_cleaned = df.dropna()  # Eksik verileri içeren satırları siler
display(df_cleaned)

Unnamed: 0,İsim,Yaş,Maaş,Şehir
0,Ali,25.0,5000.0,İstanbul
3,Zeynep,22.0,4500.0,Rize


## 4.9 Reindexing

Pandas nesneleri üzerindeki önemli bir yöntem, yeni bir dizine uygun verilerle yeni bir nesne oluşturmak anlamına gelen **reindex**'tir.

In [None]:
obj = pd.Series([1.5, 7.8, -5.8, 3.0], index=['e', 'f', 'd', 'c'])
print(obj)
# e    1.5
# f    7.8
# d   -5.8
# c    3.0
# dtype: float64

In [None]:
obj2 = obj.reindex(['f', 'b', 'c', 'd', 'e'])
print(obj2)
# f    7.8
# b    NaN
# c    3.0
# d   -5.8
# e    1.5
# dtype: float64

**DataFrame** ile **reindex**, (satır) indeksini, sütunları veya her ikisini birden değiştirebilir. Yalnızca bir dizi seçildiğinde, sonuçtaki satırları yeniden indeksler:

In [None]:
import numpy as np

dataframe = pd.DataFrame(np.arange(9).reshape((3, 3)),
                             index=['a', 'c', 'd'],
                            columns=['Istanbul', 'Ankara', 'Giresun'])
print(dataframe)
#    Istanbul  Ankara  Giresun
# a         0       1        2
# c         3       4        5
# d         6       7        8

In [None]:
r_data = dataframe.reindex(['a', 'b', 'c', 'd'])
print(r_data)
#    Istanbul  Ankara  Giresun
# a       0.0     1.0      2.0
# b       NaN     NaN      NaN
# c       3.0     4.0      5.0
# d       6.0     7.0      8.0

Sütunlar, **columns** anahtar sözcüğü ile **yeniden indekslenebilir (reindex)**:



In [None]:
c_data = dataframe.reindex(columns=['Istanbul', 'Ankara', 'Izmir'])
print(c_data)
#    Istanbul  Ankara  Izmir
# a         0       1    NaN
# c         3       4    NaN
# d         6       7    NaN

## 4.10 Pivot Tables

**Pivot tablo**, elektronik tablo programlarında ve diğer veri analizi yazılımlarında sıklıkla bulunan bir **veri özetleme** aracıdır.

Bir veri tablosunu bir veya daha fazla anahtara göre toplar ve verileri, grup anahtarlarının bazıları **satırlar boyunca** ve bazıları **sütunlar boyunca** olacak şekilde bir dikdörtgen içinde düzenler. 

Python'da pandas ile pivot tablolar, **hiyerarşik indeksleme** kullanan yeniden şekillendirme işlemleriyle birlikte bu bölümde açıklanan groupby olanağı sayesinde mümkün olmaktadır.

In [24]:
# Örnek bir DataFrame oluşturuyoruz
data = {
    'Bölge': ['İstanbul', 'İstanbul', 'Ankara', 'Ankara', 'İzmir', 'İzmir'],
    'Kategori': ['Elektronik', 'Mobilya', 'Elektronik', 'Mobilya', 'Elektronik', 'Mobilya'],
    'Satış': [1500, 2000, 1200, 1800, 1600, 1700],
    'Maliyet': [800, 1200, 600, 1100, 700, 1000]
}

df = pd.DataFrame(data)

display(df)

Unnamed: 0,Bölge,Kategori,Satış,Maliyet
0,İstanbul,Elektronik,1500,800
1,İstanbul,Mobilya,2000,1200
2,Ankara,Elektronik,1200,600
3,Ankara,Mobilya,1800,1100
4,İzmir,Elektronik,1600,700
5,İzmir,Mobilya,1700,1000


In [25]:
# Pivot table oluşturma
pivot_table = pd.pivot_table(df, values=['Satış', 'Maliyet'], 
                             index='Bölge', 
                             columns='Kategori', 
                             aggfunc={'Satış': 'sum', 'Maliyet': 'sum'})
display(pivot_table)

Unnamed: 0_level_0,Maliyet,Maliyet,Satış,Satış
Kategori,Elektronik,Mobilya,Elektronik,Mobilya
Bölge,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ankara,600,1100,1200,1800
İstanbul,800,1200,1500,2000
İzmir,700,1000,1600,1700


## 4.11 Veri Kümelerini Birleştirme - Merge

**pd.merge()**, DataFrame'lerdeki satırları bir veya daha fazla anahtara göre birbirine bağlar. 

Bu, veritabanı birleştirme işlemlerini uyguladığı için SQL veya diğer ilişkisel veritabanları kullanıcılarına tanıdık gelecektir.

### 4.11.1 Many-to-One Birleştirme

In [26]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1': range(7)})

df2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                   'data2': range(3)})
display(df1)
display(df2)

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [27]:
pd.merge(df1,df2)
# Bu, many-to-one birleştirme örneğidir; df1'deki verilerde a ve b etiketli birden fazla satır varken
# df2'de key sütununda her değer için yalnızca bir satır vardır.

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


Hangi sütunda birleştirileceğini belirtmediğimize dikkat edin. 

Bu bilgi belirtilmezse, birleştirme anahtar olarak çakışan sütun adlarını kullanır

**'on'** parametresi ile birleştirme için kullanılacak sütunu seçebiliriz

In [28]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [29]:
df3 = pd.DataFrame({'left_idx': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
display(df3)

Unnamed: 0,left_idx,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [30]:
df4 = pd.DataFrame({'right_idx': ['a', 'b', 'd'],
                   'data2': range(3)})
display(df4)

Unnamed: 0,right_idx,data2
0,a,0
1,b,1
2,d,2


In [31]:
pd.merge(df3, df4, left_on='left_idx', right_on='right_idx')

Unnamed: 0,left_idx,data1,right_idx,data2
0,b,0,b,1
1,b,1,b,1
2,a,2,a,0
3,a,4,a,0
4,a,5,a,0
5,b,6,b,1


'c' ve 'd' değerlerinin ve ilişkili verilerin sonuçta eksik olduğuna dikkat edin.

Varsayılan olarak birleştirme bir **'inner join'** yapar; sonuçtaki anahtarlar kesişimdir veya her iki tabloda bulunan ortak kümedir.

Diğer olası seçenekler **'left'**, **'right'** ve **'outer'** seçenekleridir

In [32]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,key,data1,data2
0,a,2.0,0.0
1,a,4.0,0.0
2,a,5.0,0.0
3,b,0.0,1.0
4,b,1.0,1.0
5,b,6.0,1.0
6,c,3.0,
7,d,,2.0


### 4.11.2 Many-to-many Birleştirme

Many-to-many birleştirmeler, satırların Kartezyen çarpımını oluşturur.

In [35]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                   'data1': range(6)})
display(df1)
df2 = pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],
                    'data2': range(5)})
display(df2)

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [36]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


Soldaki DataFrame'de üç ve sağdakinde iki 'b' satırı olduğundan, sonuçta altı 'b' satırı vardır.

**inner join** Anahtarların kesişimini alır

In [37]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,a,2,0
5,a,2,2
6,a,4,0
7,a,4,2
8,b,5,1
9,b,5,3


### 4.11.3 Birden fazla anahtarla birleştirmek

In [38]:
left = pd.DataFrame({'key1': ['foo', 'foo', 'bar'],
                     'key2': ['one', 'two', 'one'],                 
                     'lval': [1, 2, 3]})
display(left)

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [39]:
right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                    'key2': ['one', 'one', 'one', 'two'],
                    'rval': [4, 5, 6, 7]})
display(right)

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [40]:
pd.merge(left, right, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,lval,rval
0,bar,one,3.0,6.0
1,bar,two,,7.0
2,foo,one,1.0,4.0
3,foo,one,1.0,5.0
4,foo,two,2.0,


In [41]:
pd.merge(left, right, on=['key1', 'key2'], how='inner')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1,4
1,foo,one,1,5
2,bar,one,3,6


### 4.11.4 Çakışan sütun adlarını birleştirme

In [42]:
pd.merge(left, right, on='key1')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


varsayılan son eki (suffix) istemiyorsanız, istediğiniz bir son eki (suffix) seçebilirsiniz.

In [43]:
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


## 4. Alıştırmalar
1. Bir CSV dosyası yükleyin ve ilk 10 satırını görüntüleyin.

2. Yaşı 30'dan büyük olan kişileri filtreleyin.

3. Yeni bir sütun ekleyerek her kişinin yaşını 5 yıl artırın.

4. Şehirlere göre ortalama yaşı hesaplayın.

5. Eksik verileri içeren satırları silin.

Daha fazla bilgi için [Pandas dokümantasyonuna](https://pandas.pydata.org/docs/reference/index.html)
göz atabilirsiniz.