# Pandas - Panel Data

__Kaynak:__ Mustafa Vahit'in (50+ Saat) Python A-Z™: Veri Bilimi ve Machine Learning videolarından çıkarılmış notlardır. https://www.udemy.com/course/python-egitimi/

# İçerik
* Pandas Serisi Oluşturmak
* Pandas Serisi Eleman İşlemleri
* DataFrame Oluşturma
* DataFrame Eleman İşlemleri
* DataFrame Gözlem ve Değişken Seçimi: loc & iloc
* DataFrame Koşullu Eleman İşlemleri
* DataFrame Birleştirme (Join) İşlemleri
* DataFrame İleri Birleştirme İşlemleri
* DataFrame Toplulaştırma ve Gruplama (Aggregation & Grouping)
* DataFrame Gruplama İşlemleri
* DataFrame İleri Toplulaştırma İşlemleri (Aggregate, filter, transform, apply)
* DataFrame Pivot Tablolar
* Dış Kaynaklı Veri Okumak

## Pandas Serisi Oluşturmak

In [1]:
import pandas as pd # Pandas'ı kullanabilmeniz için pandas kütüphanesini dahil ediyoruz.
import numpy as np # Numpy arraylerini de kullanacağımız için numpy kütüphanesini de dahil ediyoruz.
pd.Series([10,88,3,4,5]) # Pandas verileri indexleri ayrı bir bileşen olarak veri tipinin içinde tutulur.

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [4]:
seri = pd.Series([10,88,3,4,5])
type(seri)

pandas.core.series.Series

Pandas'da serinin içinde indexin olmasının önemi ne? Yani numpy ve listelerde değişken[0] olarak erişebiliyorduk. Serinin içinde olmasının faydası ve nedeni ne?

In [6]:
seri.axes # Serinin özelliklerini vermiş. 0'dan başlayıp 5'te bitmiş ve 1'er 1'er artmış.
# Başlangıç değeri, bitiş değeri ve artış miktarı.

[RangeIndex(start=0, stop=5, step=1)]

In [7]:
seri.dtype # Serinin hangi veri tipini tuttuğunu gösteriyor.

dtype('int64')

In [8]:
seri.size # Toplam kaç tane eleman olduğunu gösteriyor.

5

In [9]:
seri.ndim # Serinin kaç boyutlu olduğunu gösteriyor.

1

In [10]:
seri.values # Serinin içinde yer alan değerleri gösterir.

array([10, 88,  3,  4,  5], dtype=int64)

In [11]:
seri.head(3) # ilk üç etiketi ve değerini getirir.

0    10
1    88
2     3
dtype: int64

In [15]:
seri.tail(3) # sondan etiket ve değerleri göstermek içinde tail kullanıyoruz.

2    3
3    4
4    5
dtype: int64

In [16]:
# Index isimlerini değiştirmek için index parametresi kullanıyoruz ve index değerlerini yazıyoruz.
seri = pd.Series([99,22,332,94,5], index = ["a","b","c","d","e"])

In [18]:
seri

a     99
b     22
c    332
d     94
e      5
dtype: int64

In [21]:
# Index değerlerimizi değiştirdiğimiz için bu şekilde de ulaşabiliriz.
seri["a"]

99

In [22]:
# Normal bir şekilde de değerlere ulaşabiliriz.
seri[0] 

99

In [24]:
seri["a":"c"] # a'dan c'ye kadar değerleri al.

a     99
b     22
c    332
dtype: int64

In [25]:
# Yukarıda hep listede seriler oluşturduk, şimdi gelin sözlüklerle de seri oluşturalım.
sozluk = {"reg":10, "log":11, "cart": 12} # İlk önce bir sözlük oluşturduk. (Key, Value)
seri = pd.Series(sozluk) # Daha sonra pandas serisi içine sözlüğümüzü yolladık.
seri

reg     10
log     11
cart    12
dtype: int64

In [26]:
pd.concat([seri,seri]) # İki seriyi birleştirerek tek bir seriye değerleri concat() fonksiyonu sayesinde alabiliriz.

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## Eleman İşlemleri

In [29]:
a = np.array([1,2,33,444,75])
seri = pd.Series(a)
seri

0      1
1      2
2     33
3    444
4     75
dtype: int32

In [30]:
seri = pd.Series([121,200,150,99], 
                 index = ["reg","loj","cart","rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [35]:
seri.index # Seride hangi indexler var bu şekilde görebiliriz.

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [36]:
seri.keys # Seride hangi index ve değerler var görebiliriz.

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [39]:
list(seri.items())
# List yazarak index ve değerleri ayrı ayrı ayırabiliriz.

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [40]:
seri.values # Seride hangi elemanlar var görebiliriz.

array([121, 200, 150,  99], dtype=int64)

In [42]:
"reg" in seri # Seri değişkeninde "reg" var mı diye kontrol ettirdik, varsa True dönecek yoksa false

True

In [44]:
seri[["rf", "reg"]] # Fancy ile yazdığımız index'in değerlerini getirdik.

rf      99
reg    121
dtype: int64

In [48]:
seri["reg"] = 130 # 121 olan değer artık değişti, yerine 130 yazıldı.
seri["reg"]

130

In [49]:
seri["reg":"loj"] # Slice işlemi ile belirttiğimiz indexlerin değerlerini getirtebiliriz.

reg    130
loj    200
dtype: int64

## DataFrame Oluşturma
* Excell programına benzer tablolamayı sağlar.

In [3]:
l = [1,2,39,67,90] # Bir tane liste oluşturduk dataframe için.
pd.DataFrame(l, columns = ["sütun_adi"]) # Parametre olarak ilk önce listemizi ekledik daha sonra sütun ismini belirttik.

Unnamed: 0,sütun_adi
0,1
1,2
2,39
3,67
4,90


In [4]:
# Şimdi bu işlemi iki boyutlu arraylerle yapalım.
m = np.arange(1,10).reshape((3,3))
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [5]:
pd.DataFrame(m, columns = ["sütun1","sütun2","sütun3"]) 
# Parametre olarak ilk önce listemizi ekledik daha sonra sütun isimlerini belirttik.

Unnamed: 0,sütun1,sütun2,sütun3
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
df = pd.DataFrame(m, columns = ["sütun1","sütun2","sütun3"]) # Üstte oluşturduğumuz dataframe'i bir değişkene atadık.
df.columns # Bu değişkenle birlikte sütunların ismine ulaşabiliyoruz.
# O zaman sütunların isimlerini oluştururken değil, sonra da oluturabiliriz. O zaman deneyelim.
df.columns = ("stn1","stn2","stn3")
df.head()

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
type(df)

pandas.core.frame.DataFrame

__Hatırlayalım:__
* __df.axes =__ Satır ve sütun bilgilerini verir.
* __df.shape =__ Boyut bilgisini verir.
* __df.ndim =__ Kaç boyutlu olduğunu gösteriyor.
* __df.size =__ Toplam eleman sayısını verir.
* __df.values =__ Arraydeki değerleri geri döndürür.

In [10]:
df.ndim

2

Hatırlayalım:
* __df.head() =__ Seriyi baştan değerlere erişiyoruz. Fonksiyonun içine bir değer yazdığımızda yukarıdan aşağıya ne kadar gitmesini istiyorsak onu belirtiyoruz.
* __df.tail() =__ Seriyi aşağıdan değerlere erişiyoruz. Yukarıdaki yapılan işlemin tam zıttını yapar.

In [11]:
df.head()

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
df.tail() # Seri oluşturmada zaten anlatmıştık. Şimdi yine tekrarlamak için isterseniz bir değer yazalım ve tamamen anlayalım.

Unnamed: 0,stn1,stn2,stn3
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
df.tail(1) # Gördüğünüz üzere aşağıdan değere ulaşmış olduk.

Unnamed: 0,stn1,stn2,stn3
2,7,8,9


In [21]:
a = np.array([1,4,6,56,34,66])
pd.DataFrame(a, columns = ["sut1"])

Unnamed: 0,sut1
0,1
1,4
2,6
3,56
4,34
5,66


## Eleman İşlemleri

In [57]:
# Sözlüğün valuelerine numpy'dan ürettiğimiz değerleri atıyoruz.
s1 = np.random.randint(10, size = 5)
s2 = np.random.randint(10, size = 5)
s3 = np.random.randint(10, size = 5)
sozluk = {"var1": s1, "var2": s2, "var3": s3}
df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,8,2,3
1,6,2,1
2,4,9,3
3,7,7,9
4,2,6,2


In [58]:
df[0:1] # Slicing işlemlerinde bunu yaptığımız için geriye ne döndüreceğini biliyoruzdur değil mi?

Unnamed: 0,var1,var2,var3
0,8,2,3


In [59]:
df.index
# Dataframe'de hangi indexler olduğunu gördük.

RangeIndex(start=0, stop=5, step=1)

__SORU: RangeIndex nedir?__
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.RangeIndex.html

In [60]:
# Dataframe indexlerini kendi istediğimiz şekilde değiştirebiliriz.
df.index = ("a","b","c","d","e") # a,b,c,d,e örnek olarak ekledik, buraya istediğinizi yazabilirsiniz.
df

Unnamed: 0,var1,var2,var3
a,8,2,3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [61]:
# Değiştirdiğimiz indexlere bir daha bakalım, RangeIndex iken Index'e dönmüş olduğunu gördük.
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [62]:
df["c":"e"] # Slicing ile belirttiğimiz indexdeki değerleri getirdi.

Unnamed: 0,var1,var2,var3
c,4,9,3
d,7,7,9
e,2,6,2


In [63]:
# Ekleme işlemlerini hep gördük, peki ya tablodan veri silmek istersek? Bunun içinde drop kullanıyoruz.
df.drop("a", axis = 0)
# a index'i, satırları temsil ettiği için axis 0 yazıldı. Ve o satırda yer alan değerler silindi.
# Eğer 1 yazılsaydı program hata verecekti!

Unnamed: 0,var1,var2,var3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [64]:
df.drop("var1", axis = 1)
# üsttekinden farklı olarak 1 yazdık, çünkü var1 sütunları temsil ediyor. Sütundaki değerleri silmek için 1 yazdık.

Unnamed: 0,var2,var3
a,2,3
b,2,1
c,9,3
d,7,9
e,6,2


In [65]:
# Drop işlemi yaptığımızda tablodan verileri kalıcı olarak silmediğini görüyoruz.
df
# Peki, kalıcı olarak nasıl silebiliriz? O zaman, aşağıdaki örnekte yer alan parametreye dikkat edin.

Unnamed: 0,var1,var2,var3
a,8,2,3
b,6,2,1
c,4,9,3
d,7,7,9
e,2,6,2


In [66]:
df.drop("b", axis = 0, inplace = True)
# inplace, dataframe üzerinde yapılan değişikliğin kalıcı olmasını sağlıyor. Yani, dataframe'i güncellemiş gibi oluyoruz.
# Şimdi tekrar tablomuz bir göz atalım.
df

Unnamed: 0,var1,var2,var3
a,8,2,3
c,4,9,3
d,7,7,9
e,2,6,2


In [68]:
l = ["c","e"] # fancy ile tablodan verileri silebiliriz.
df.drop(l, axis = 0)

Unnamed: 0,var1,var2,var3
a,8,2,3
d,7,7,9


In [75]:
df["var1"] # Var1 sütununda yer alan değerler ve indexleri gösteriyor.

a    8
c    4
d    7
e    2
Name: var1, dtype: int32

In [78]:
# var4 diye bir sütun oluştur ve bunun içindeki değerlere var1 ve var2'nin bölümünden kalan değerleri atıyoruz.
df["var4"] = df["var1"] / df["var2"]
df
# Tablomuzu ekrana yazdırdığımızda, var4 diye bir sütunun eklendiğini görmüş olacaksınız.

Unnamed: 0,var1,var2,var3,var4
a,8,2,3,4.0
c,4,9,3,0.444444
d,7,7,9,1.0
e,2,6,2,0.333333


In [79]:
# Son eklediğimiz tabloyu silelim ve tablonun son haline bir bakalım.
df.drop("var4", axis = 1, inplace = True)
df

Unnamed: 0,var1,var2,var3
a,8,2,3
c,4,9,3
d,7,7,9
e,2,6,2


## Gözlem ve Değişken Seçimi: loc & iloc

In [80]:
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5
3,13,9,13
4,2,26,21
5,22,29,22
6,15,2,5
7,10,22,22
8,18,6,1
9,12,27,9


In [81]:
# Daha önce belirli bir aralık belirttiğimizde dahili olarak son değeri alamıyorduk. Loc ile son belirttiğimiz indexi de alır.
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5
3,13,9,13


In [83]:
# iloc klasık aralık belirttiğimizde alınan indexler diyebiliriz. Son belirtilen index dahil değil!
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,4,18,27
1,20,29,20
2,27,12,5


In [85]:
#0. index'den 3.index'e kadar ve var3 sütunundaki değerleri al dedik.
df.loc[0:3, "var3"]

0    27
1    20
2     5
3    13
Name: var3, dtype: int32

In [None]:
# Üstteki işlemi iloc ile yaptığımızda hata ile karşılaşırız.
df.iloc[0:3, "var3"]

## Koşullu Eleman İşlemleri

In [88]:
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["sutun1","sutun2","sutun3"])
df

Unnamed: 0,sutun1,sutun2,sutun3
0,15,9,1
1,2,20,14
2,10,27,25
3,23,22,10
4,4,26,20
5,2,21,27
6,21,3,14
7,2,22,9
8,4,11,28
9,3,3,5


In [90]:
df["sutun1"] # Sütun1'de olan tüm değerleri getirir.

0    15
1     2
2    10
3    23
4     4
5     2
6    21
7     2
8     4
9     3
Name: sutun1, dtype: int32

In [95]:
df.sutun1 # Yukarıdaki işlemin bir diğer kullanımı da bu şekildedir.

0    15
1     2
2    10
3    23
4     4
5     2
6    21
7     2
8     4
9     3
Name: sutun1, dtype: int32

In [96]:
# DataFrame'deki bilgileri, sutun1'in 15'den yüksek olan değerlerine göre getir dedik.

df[df.sutun1 > 15]

Unnamed: 0,sutun1,sutun2,sutun3
3,23,22,10
6,21,3,14


In [102]:
df

Unnamed: 0,sutun1,sutun2,sutun3
0,15,9,1
1,2,20,14
2,10,27,25
3,23,22,10
4,4,26,20
5,2,21,27
6,21,3,14
7,2,22,9
8,4,11,28
9,3,3,5


In [103]:
# İlk sutun1'deki 15'den büyük değerleri alıyor, daha sonra ikinci koşulda sutun2'deki 5'den küçük değerleri alıyor.
# 1.Adım: Sutun1'deki 15'den büyük değerlere bakalım 23 ve 21. Bu koşula göre sütun2'deki değerler ise 22 ve 3 olmuş oldu.
# 2.Adım: Sutun2'deki 5'den küçük değerlerde ise geriye sadece 3 kalmış olduğu için 6. indexin değerleri yazdırılıyor.
df[(df.sutun1 > 15) & (df.sutun2 < 5)]

Unnamed: 0,sutun1,sutun2,sutun3
6,21,3,14


In [104]:
# sutun1'in 15'den büyük değerleri, sadece sutun1 ve sutun2'nin değerlerini al demiş olduk.
df.loc[(df.sutun1 > 15), ["sutun1","sutun2"]]

Unnamed: 0,sutun1,sutun2
3,23,22
6,21,3


## Birleştirme (Join) İşlemleri

In [3]:
m = np.random.randint(1,30, size = (5,3))
df1 = pd.DataFrame(m, columns = ["sutun1","sutun2","sutun3"])
df1

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11


In [5]:
# İkinci DataFrame için ilk DataFrame'in üzerine 99 eklenerek oluşturduk.
df2 = df1 + 99
df2

Unnamed: 0,sutun1,sutun2,sutun3
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [6]:
# concat ile iki DataFrame'i alt alta birleştirmiş olduk.
pd.concat([df1,df2])

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [7]:
# Alt alta birleştirdik ama indexlerde bir problem oldu. Bunun çözümü çok basit, yeni bir parametre eklememiz gerekiyor.
# Eğer hiçbir değer göndermeseydik, ignore_index = False olarak parametreyi kullanır.
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,sutun1,sutun2,sutun3
0,19,18,8
1,18,27,18
2,25,16,1
3,17,29,12
4,2,10,11
5,118,117,107
6,117,126,117
7,124,115,100
8,116,128,111
9,101,109,110


In [13]:
df2.columns = ["sutun1","sutun2","deg3"]
df2

Unnamed: 0,sutun1,sutun2,deg3
0,118,117,107
1,117,126,117
2,124,115,100
3,116,128,111
4,101,109,110


In [15]:
# Farklı sütunlar birleştirmeye çalışırsanız hata ile karşılaşırsınız.
pd.concat([df1, df2])

Unnamed: 0,sutun1,sutun2,sutun3,deg3
0,19,18,8.0,
1,18,27,18.0,
2,25,16,1.0,
3,17,29,12.0,
4,2,10,11.0,
0,118,117,,107.0
1,117,126,,117.0
2,124,115,,100.0
3,116,128,,111.0
4,101,109,,110.0


In [17]:
pd.concat([df1, df2], join = "inner")

Unnamed: 0,sutun1,sutun2
0,19,18
1,18,27
2,25,16
3,17,29
4,2,10
0,118,117
1,117,126
2,124,115
3,116,128
4,101,109


## İleri Birleştirme İşlemleri
* df.merge(x, y) x = Birinci dataframe, y = İkinci dataframe

In [2]:
#Birebir Birlestirme
# iki tane dataframe oluşturduk ve calısanlar tablosu ortak olduğu için bunun üzerinden birleştirme yapacak.
df1 = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'grup': ['Muhasebe', 'Muhendislik', 'Muhendislik', 'İK']})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [3]:
df2 = pd.DataFrame({'calisanlar': ['Ayse', 'Ali', 'Veli', 'Fatma'],
                    'ilk_giris': [2010, 2009, 2014, 2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ayse,2010
1,Ali,2009
2,Veli,2014
3,Fatma,2019


In [4]:
pd.merge(df1, df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [5]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [6]:
df4 = pd.DataFrame({'grup': ['Muhasebe', 'Muhendislik', 'İK'],
                    'mudur': ['Caner', 'Mustafa', 'Berkcan']})

df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,İK,Berkcan


In [7]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2009,Caner
1,Veli,Muhendislik,2014,Mustafa
2,Ayse,Muhendislik,2010,Mustafa
3,Fatma,İK,2019,Berkcan


## Toplulaştırma ve Gruplama (Aggregation & Grouping)

__Basit toplulaştırma fonksiyonları:__

* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
* sum()

In [12]:
# Aşağıdaki modulü import etmeden önce bilgisayarımıza seaborn kurmamız gerekiyor.
# python --version
# python -m pip install seaborn
import seaborn as sns # Hazır tasarlanmış verisetlerini import ediyoruz.

https://github.com/mwaskom/seaborn-data <--- veri setlerine buradan ulaşabiliriz.

In [13]:
df = sns.load_dataset("planets") # Githubdaki planets.csv dosyasını dataframe'in içine ekledik.
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


__Sütunlar:__ Değişken, __Veriler:__ Gözlem olarak adlandırılıyor.

In [14]:
# 1035 gözlem, 6 değişken var.
df.shape

(1035, 6)

In [16]:
# Eğer spesifik bir değişken belirtmezsek, dataframe'in tamamının ortalamasını alır.
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [17]:
# mass değişkeninin ortalamasını aldık. Yukarıda bütün değişkenlerin almıştık.
df["mass"].mean()

2.6381605847953216

In [18]:
# Yukarıdaki gibi değişkenlerin ortalamasını, toplamasını vs görebilmemiz için describe fonksiyonu var.
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [19]:
# Daha okunaklı ve güzel bir şekilde görmek istersek
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [21]:
# Eğer eksik-bozuk veriler varsa bunları silmemiz gerekiyor. Çünkü sonuçları yanlış etkileyebiliyor.
df.dropna().describe().T # Üsttekinden farklı değerler görmüş olacaksınız.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


## Gruplama İşlemleri

In [22]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'veri': [10,11,52,23,43,55]}, columns=['gruplar', 'veri'])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


__df.groupby("değişkenAdı").fonksiyon__
* __değişkenAdı__ yazıldığında birbirinden farklı eşsiz-benzersiz sınıflar yakalanır.
* __fonksiyon__ için yukarıda belirtilen toplulaştırma fonksiyonları kullanılabilir.

In [27]:
# gruplar değişkeninde yer alan benzer verileri grupla ve grupladığın değerlerin ortalamasını al.
df.groupby("gruplar").mean()
# Örnek A: 10 + 23 = 33, 33/2 = 16.5

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [28]:
# gruplar değişkeninde yer alan benzer verileri grupla ve grupladığın değerleri topla.
df.groupby("gruplar").sum()
# Örnek A: 10 + 23 = 33.

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [29]:
# Yukarıda bu veri setini kullanmıştık, yeniden kullanmak için import ediyoruz.
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [30]:
df.groupby("method")["orbital_period"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


## İleri Toplulaştırma İşlemleri (Aggregate, filter, transform, apply)

### Aggregate()

In [31]:
df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [33]:
# Normalde tek bir fonksiyon kullanılır ya da describe gibi bütün her şeyi tabloya dökerdik.
# aggregate ile kendi belirttiğimiz fonksiyonları kullan diyoruz.
df.groupby("gruplar").aggregate([min, np.median, max])


Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


In [34]:
df.groupby("gruplar").aggregate(["min", np.median, "max"]) # Eğer pandas içerisinde yer alan fonksiyon varsa tırnak...
# ...işareti kullanabiliriz. ama np.median gibi bir fonksiyon pandasta olmadığı için tırnak işareti ile yazmaya kalkarsanız...
# ...program hata verecektir.

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


In [36]:
# Üstteki işlemde bütün değişkenlere aynı işlemi uyguladık, eğer her değişkene farklı işlem uygulamak isteseydik ne olacaktı?
df.groupby("gruplar").aggregate({"degisken1": "min", "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


### Filter()

In [39]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [40]:
df.groupby("gruplar").std()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.485281,114.551299
B,8.485281,100.409163
C,46.669048,449.719913


In [41]:
# Bu fonksiyon standart sapması al ve değişken1 üzerinde 9'dan büyük hangi değerler varsa onları geri döndür.
# Yukarıda fonksiyonun işlemi verildi, 9'dan buyuk sadece C grubu var olduğunu aklımızda tutalım.
def filter_func(x):
    return x["degisken1"].std() > 9

In [42]:
# Programa gruplar değişkeninde filtreleme yap dedik, o da "peki nasıl yapayım?" diye haklı olarak soru soruyor. 
# Biz de ona tanımladığımız fonksiyon (filter_func) ile bir filtreleme yap dedik.
# Yukarıda hangi grubun döneceğinin örneğini yapmıştık.
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


### Transform()
* Bizim kendi oluşturduğumuz fonksiyonlar ile değişkenler(sütunlar) üzerinde değişiklik yapmamızı sağlar.

In [43]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [None]:
# Hazır fonksiyonumuz ile kolayca 9 ile çarpabiliriz. Ama ya biz 4 işlemden farklı işlemler isteseydik ne olacaktı?
df["degisken1"]*9

In [45]:
# Değişkenlerimizi iloc yardımıyla seçtik.
df_a = df.iloc[:,1:3]
# df_a değişkeni ile de tanımladığımız fonksiyonu transform ile uyguladık.
df_a.transform(lambda x: (x-x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


### Apply()

In [59]:
df = pd.DataFrame({'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns = ['degisken1', 'degisken2'])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [60]:
df.apply(np.sum) # İçerisindeki fonksiyonu kendimiz yazmışta olabilirdik. Fakat örnek için hazır kullandık.

degisken1     198
degisken2    2028
dtype: int64

In [61]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [62]:
# Grupları yeniden tanımlayarak bir de böyle işlemleri görelim.

df = pd.DataFrame({'gruplar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                   columns = ['gruplar', 'degisken1', 'degisken2'])

df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


## Pivot Tablolar

In [63]:
# hazır seaborn verisetini yüklemek için seaborn modulünü dahil etmeniz gerektiğini unutmayın!
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [64]:
# Groupby ile seçtiğimiz cinsiyete göre hayatta kalma oranını aldırdık.
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [66]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [67]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [68]:
# Odaklanılan değişken, index'in hangi değişkenler olsun ve son olarak sütunların ne olsun diye seçim yaptırdık.
titanic.pivot_table("survived", index = "sex", columns = "class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [71]:
titanic.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [72]:
age = pd.cut(titanic["age"], [0, 18, 90])
age.head(10)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
7     (0.0, 18.0]
8    (18.0, 90.0]
9     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [73]:
titanic.pivot_table("survived", ["sex", age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


## Dış Kaynaklı Veri Okumak

In [None]:
#csv okuma
pd.read_csv("dosyaadı.csv", sep = ";")

In [None]:
#txt okuma
pd.read_csv("dosyaadı.txt")

In [None]:
#excel
pd.read_excel("dosyaadı.xlsx")

__Bu oluşturduğumuz dosya okumaların hepsi DataFrame veri tipine sahiptir.__