# Veri Bilimi için Python: Pandas

## 1. Pandas Nedir?

**Pandas**, Python programlama dilinde yüksek performanslı, kullanımı kolay **veri yapıları** ve **veri analiz araçları** sağlayan açık kaynaklı bir kütüphanedir.


## 2. Pandas ile Neler Yapılabilir?
- Farklı formatta pek çok dosya (csv, xlsx, parquet, sql, ...) okunabilir.

- Bir veri setinde satırlar ve sütunlar bazında işlemler yapılabilir.

- İstenilen formatta ve aralıkta veriler üretilebilir.

- Birden fazla veri yapısı birleştirilebilir.

In [1]:
#Pandas kütüphanesini yükleyelim
import pandas as pd

In [2]:
#Versiyon kontrolü
print(pd.__version__)

1.4.4


## 3. Pandas Veri Yapıları

- Pandas kütüphanesinde veri yapıları üretmek için kullanılan pek çok araç mevcut.

- En sık kullanılan veri yapıları Pandas **Series** ve Pandas **DataFrame**'dir.

- **Pandas Series** **tek boyutlu** bir yapı sağlarken, **Pandas DataFrame** satırları ve sütunları olan bir veri seti oluşturur.

## 3.1. Pandas Series

Seri, etiketli verilerden oluşan **tek boyutlu** bir veri yapısıdır. Etiket değerlerine ise **indeks** denir. Verinin kendisi sayılar, dizeler veya başka Python objelerinden oluşabilir. Serileri oluşturmak için ise listeler, sıralı diziler ya da sözlükler kullanılabilir

In [3]:
#Bir Pandas Series oluşturalım

seri = pd.Series([1, 2, 3, 4, 5])

type(seri)

pandas.core.series.Series

In [4]:
#Oluşturduğumuz serinin ilk elemanını seçelim
seri[0]

1

In [5]:
#Oluşturduğumuz serinin ikinci elemanını seçelim
seri[1]

2

## 3.2. Pandas DataFrame

Satırlardan ve sütunlardan oluşan veri yapılarıdır.

In [6]:
df = pd.DataFrame({'isim': ['sercan', 'ahmet', 'mehmet'],
                   'yas': [24, 25, 26]})

type(df)

pandas.core.frame.DataFrame

In [7]:
#Bir Pandas DataFrame daha oluşturalım

df = pd.DataFrame({
                   'isim': ['sercan', 'ahmet', 'mehmet', 'ayşe', 'selin', 'ceren'],
                   'yas': [24, 25, 26, 27, 28, 29],
                   'cinsiyet': ['E', 'E', 'E', 'K', 'K', 'K'],
                   'maas': [3000, 4500, 3500, 4000, 5500, 3500]
                  }
                 )

print(df)

     isim  yas cinsiyet  maas
0  sercan   24        E  3000
1   ahmet   25        E  4500
2  mehmet   26        E  3500
3    ayşe   27        K  4000
4   selin   28        K  5500
5   ceren   29        K  3500


In [8]:
#Veri Setinin ilk 5 gözlemine göz atalım
df.head()

Unnamed: 0,isim,yas,cinsiyet,maas
0,sercan,24,E,3000
1,ahmet,25,E,4500
2,mehmet,26,E,3500
3,ayşe,27,K,4000
4,selin,28,K,5500


In [9]:
#Veri Setinin son 5 gözlemine göz atalım
df.tail()

Unnamed: 0,isim,yas,cinsiyet,maas
1,ahmet,25,E,4500
2,mehmet,26,E,3500
3,ayşe,27,K,4000
4,selin,28,K,5500
5,ceren,29,K,3500


In [10]:
#Veri setinin satır-sütun bilgisini kontrol edelim
df.shape

(6, 4)

In [11]:
#Satır sayısı
df.shape[0]

6

In [12]:
#Sütun sayısı
df.shape[1]

4

In [13]:
#Veri setindeki en büyük yaş değerini bulalım
df['yas'].max()

29

In [14]:
#Veri setindeki en küçük yaş değerini bulalım
df['yas'].min()

24

In [15]:
#Veri setindeki ortalama yaş değerini bulalım
df['yas'].mean()

26.5

In [16]:
#Açıklayıcı istatistiklerine göz atalım
df.describe()

Unnamed: 0,yas,maas
count,6.0,6.0
mean,26.5,4000.0
std,1.870829,894.427191
min,24.0,3000.0
25%,25.25,3500.0
50%,26.5,3750.0
75%,27.75,4375.0
max,29.0,5500.0


In [17]:
#Veri setine yeni bir sütun eklemek

df['sehir'] = ['istanbul', 'istanbul', 'ankara', 'izmir', 'istanbul', 'ankara']

In [18]:
print(df)

     isim  yas cinsiyet  maas     sehir
0  sercan   24        E  3000  istanbul
1   ahmet   25        E  4500  istanbul
2  mehmet   26        E  3500    ankara
3    ayşe   27        K  4000     izmir
4   selin   28        K  5500  istanbul
5   ceren   29        K  3500    ankara


In [19]:
#Yaşların bir fazlasını yas_1 isimli sütun olarak kaydediniz

df['yas_1'] = df['yas'] + 1

df

Unnamed: 0,isim,yas,cinsiyet,maas,sehir,yas_1
0,sercan,24,E,3000,istanbul,25
1,ahmet,25,E,4500,istanbul,26
2,mehmet,26,E,3500,ankara,27
3,ayşe,27,K,4000,izmir,28
4,selin,28,K,5500,istanbul,29
5,ceren,29,K,3500,ankara,30


In [20]:
#Sütun silme
df = df.drop(columns = ['yas_1'])

df

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


# 4. Gruplama & Sıralama

- **groupby** ve **agg** ile belirli kategorik kırılımlarda ortalama, minimum, maksimum, standard sapma gibi istatistiksel değerler gözlemlenebilir.

- **sort_values** ile belirlenen özellikler büyükten küçüğe ya da küçükten büyüğe sıralanabilir.

In [21]:
#Şehirler bazında gruplama yapalım
df.groupby('sehir')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7face0c5b850>

In [22]:
#Şehirler bazında ortalama maaş değerlerini yazdırınız
df.groupby('sehir').agg({'maas': 'mean'})

Unnamed: 0_level_0,maas
sehir,Unnamed: 1_level_1
ankara,3500.0
istanbul,4333.333333
izmir,4000.0


In [23]:
#Cinsiyetler bazında ortalama maaş değerlerini yazdırınız
df.groupby('cinsiyet').agg({'maas': 'mean'})

Unnamed: 0_level_0,maas
cinsiyet,Unnamed: 1_level_1
E,3666.666667
K,4333.333333


- **count** → Tüm elemanların **sayısı**
- **mean** → Tüm elemanların **ortalamaların**ı hesaplar
- **median** → Tüm elemanların **medyan** değerini hesaplar
- **first, last** → **İlk** ve **Son** elemanı getirir
- **sum** → Tüm elemanların **toplamlarını** alır
- **min, max** → Tüm elemanların **minimum** ve **maximum** değerlerini getirir
- **std, var** → Tüm elemanların **standart sapmasını** ve **varyansını** hesapları

In [24]:
#Cinsiyetler bazında maksimum maaş değerlerini yazdırınız
df.groupby('cinsiyet').agg({'maas': 'max'})

Unnamed: 0_level_0,maas
cinsiyet,Unnamed: 1_level_1
E,4500
K,5500


In [25]:
df

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


In [26]:
#Veriyi maaşlar bazında küçükten büyüğe sıralayınız.

df.sort_values('maas')

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
2,mehmet,26,E,3500,ankara
5,ceren,29,K,3500,ankara
3,ayşe,27,K,4000,izmir
1,ahmet,25,E,4500,istanbul
4,selin,28,K,5500,istanbul


In [27]:
#Veriyi maaşlar bazında büyükten küçüğe sıralayınız.

df.sort_values('maas', ascending = False)

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
4,selin,28,K,5500,istanbul
1,ahmet,25,E,4500,istanbul
3,ayşe,27,K,4000,izmir
2,mehmet,26,E,3500,ankara
5,ceren,29,K,3500,ankara
0,sercan,24,E,3000,istanbul


In [28]:
#İsimlere göre sıralama yapınız

df.sort_values('isim')

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
1,ahmet,25,E,4500,istanbul
3,ayşe,27,K,4000,izmir
5,ceren,29,K,3500,ankara
2,mehmet,26,E,3500,ankara
4,selin,28,K,5500,istanbul
0,sercan,24,E,3000,istanbul


# 5. loc & iloc

- **loc** komutu ile etiket kullanarak ve **koşullar belirleyerek** verilere ulaşırız.
- **iloc** komutu ise **satır ve sütun index numarası** ile verilere ulaşmamızı sağlar.

Yani loc kullanırken satır ya da sütun ismi, iloc kullanırken ise satır ya da sütun index numarası belirtmeliyiz.

In [29]:
#Cinsiyet özelliği kadın olan gözlemleri getiriniz

df.loc[df['cinsiyet'] == 'K']

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


In [30]:
#Cinsiyet özelliği kadın olan gözlemleri getiriniz

df.loc[df['cinsiyet'] == 'K']

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


In [31]:
#Cinsiyet özelliği erkek olan gözlemleri getiriniz

df.loc[df['cinsiyet'] == 'E']

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul
2,mehmet,26,E,3500,ankara


- Loc içinde **sayısal** koşullar da belirtilebilir.

In [32]:
#25 yaşından büyük olan kişileri getiriniz.

df.loc[df['yas'] > 25]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


In [33]:
#28 yaşından küçük olan kişileri getiriniz.

df.loc[df['yas'] < 28]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir


In [34]:
#Maaşı 3500 den yüksek olan kişileri getiriniz.

df.loc[df['maas'] > 3500]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
1,ahmet,25,E,4500,istanbul
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul


In [35]:
#Maaşı 3500 den yüksek olan kişilerin isimlerini getiriniz.

df.loc[df['maas'] > 3500, 'isim']

1    ahmet
3     ayşe
4    selin
Name: isim, dtype: object

In [36]:
#Maaşı 3500 den yüksek olan kişilerin isimlerini ve cinsiyetlerini getiriniz.

df.loc[df['maas'] > 3500, ['isim', 'cinsiyet']]

Unnamed: 0,isim,cinsiyet
1,ahmet,E
3,ayşe,K
4,selin,K


- **loc** içinde belirtilen koşuldan sonra bir virgül koyup istenilen sütunlar çağırılabilir.

In [37]:
#Maaşı 3500 den yüksek olan kişilerin isimlerini, cinsiyetlerini ve maaslarını getiriniz.

df.loc[df['maas'] > 3500, ['isim', 'cinsiyet', 'maas']]

Unnamed: 0,isim,cinsiyet,maas
1,ahmet,E,4500
3,ayşe,K,4000
4,selin,K,5500


- **Eşittir**: ==
- **Eşit Değildir**: !=
- **Ve**: &
- **Veya**: |
- **Büyüktür, küçüktür:** <, >
- **Büyük eşit, küçük eşittir:** <=, >=

In [38]:
#Çoklu Koşul

df.loc[(df['maas'] > 3500) & (df['cinsiyet'] == 'E')]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
1,ahmet,25,E,4500,istanbul


In [39]:
# İstanbulda yaşayan erkekleri getiriniz.

df.loc[(df['sehir'] == 'istanbul') & (df['cinsiyet'] == 'E')]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul


In [40]:
df

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
0,sercan,24,E,3000,istanbul
1,ahmet,25,E,4500,istanbul
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir
4,selin,28,K,5500,istanbul
5,ceren,29,K,3500,ankara


In [41]:
# Iloc ile 2. satır ve 3. sütundaki değeri getiriniz
df.iloc[2, 3]

3500

In [42]:
# Iloc ile 3.satırdaki değerleri getiriniz
df.iloc[3]

isim         ayşe
yas            27
cinsiyet        K
maas         4000
sehir       izmir
Name: 3, dtype: object

In [43]:
#Iloc ile 2. ve 4. satır arasındaki değerleri getiriniz
df.iloc[2:4]

Unnamed: 0,isim,yas,cinsiyet,maas,sehir
2,mehmet,26,E,3500,ankara
3,ayşe,27,K,4000,izmir


In [44]:
#Iloc ile 2. ve 4. satır arasındaki 3. sütunu getiriniz
df.iloc[2:4, 3]

2    3500
3    4000
Name: maas, dtype: int64

# Alıştırma 1

5 elemanlı sayılardan oluşan bir Pandas serisi oluşturunuz.

# Alıştırma 2
Oluşturduğunuz Pandas serisini büyükten küçüğe sıralayınız.

# Alıştırma 3

Aşağıdaki veri setinin ilk 5 ve son 5 gözlemine bakınız, istatistiksel özet tablosunu çıkartınız.

# Alıştırma 4

Veri setini yaşlara göre azalan ve artan şekilde sıralayınız.

# Alıştırma 5

İstanbulda yaşayan kişileri getiriniz.

# Alıştırma 6

Cinsiyeti erkek olan ve Ankarada yaşayan kişileri getiriniz.

# Alıştırma 7

Maaşlara 1000'er lira zam yapıp yeni_maas isimli bir sütun olarak veri setine kaydediniz.

# Alıştırma 8

Oluşan veri setini "calisanlar" ismiyle bir csv dosyası olarak kaydediniz. Pandas kütüphanesi yardımıyla kaydettiğiniz dosyayı okutunuz.

# Kaynakça

- https://medium.com/deep-learning-turkiye/adan-z-ye-pandas-tutoriali-ba%C5%9Flang%C4%B1%C3%A7-ve-orta-seviye-4edf0094e0d5#:~:text=Pandas%2C%20Python%20programlama%20dili%20i%C3%A7in,sonuca%20kolayca%20ula%C5%9Fmak%20i%C3%A7in%20kullan%C4%B1lmaktad%C4%B1r.