# **Pandas**

Panel Data - Kısaltması

## Pandas Series

Pandas Serileri, verileri indexleri ile birlikte depolar.

In [1]:
import pandas as pd
serie = pd.Series([9,3,5,7])
serie

0    9
1    3
2    5
3    7
dtype: int64

In [2]:
serie.axes

[RangeIndex(start=0, stop=4, step=1)]

In [3]:
serie.dtype

dtype('int64')

In [4]:
serie.ndim

1

In [5]:
serie.size

4

Indexlerini kendimiz belirleyebiliriz.

In [6]:
serie = pd.Series([9,3,5,7], index = ["a","b","c","d"])
serie

a    9
b    3
c    5
d    7
dtype: int64

# DataFrame

Excele benzer yapıda bulunan Pandas veriyapısıdır. Veri setlerinde en çok kullanılan çeşittir.

In [7]:
liste = [11,22,33,44]
df = pd.DataFrame(liste,columns = ["ilk_sutun"])
df

Unnamed: 0,ilk_sutun
0,11
1,22
2,33
3,44


In [8]:
import numpy as np
list2 = np.arange(1,10).reshape((3,3))
list2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [9]:
df = pd.DataFrame(list2, columns = ["sutun1","sutun2","sutun3"])
df

Unnamed: 0,sutun1,sutun2,sutun3
0,1,2,3
1,4,5,6
2,7,8,9


Sütün isimlerini DataFrame'in columns ozelligine istedigimiz sutun isimlerini vererek degistirebiliyoruz.

In [10]:
df.columns = ["s1","s2","s3"]
df

Unnamed: 0,s1,s2,s3
0,1,2,3
1,4,5,6
2,7,8,9


DataFrame'in en basindan belirli bir eleman gorebilmek icin _head_ fonksiyonu kullanilir.

In [11]:
df.head(1)

Unnamed: 0,s1,s2,s3
0,1,2,3


DataFrame'in en sonundan belirli bir eleman gorebilmek icin tail fonksiyonu kullanilir.

In [12]:
df.tail(1)

Unnamed: 0,s1,s2,s3
2,7,8,9


In [13]:
df.ndim

2

In [14]:
df.shape

(3, 3)

In [15]:
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['s1', 's2', 's3'], dtype='object')]

In [16]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [17]:
type(df.values)

numpy.ndarray

## DataFrame Eleman İşlemleri

Sozluk uzerinden DataFrame olusturma islemi :

In [18]:
var1 = np.random.randint(10, size = 5)
var2 = np.random.randint(10, size = 5)
var3 = np.random.randint(10, size = 5)
sozluk = {"var1" : var1, "var2" : var2, "var3" : var3}
sozluk

{'var1': array([5, 3, 5, 7, 9]),
 'var2': array([1, 7, 0, 1, 4]),
 'var3': array([0, 7, 3, 2, 1])}

In [19]:
df = pd.DataFrame(sozluk)
df

Unnamed: 0,var1,var2,var3
0,5,1,0
1,3,7,7
2,5,0,3
3,7,1,2
4,9,4,1


Slice islemi DataFrame uzerinde de gerceklestirilebiliyor.

In [20]:
df[0:1]

Unnamed: 0,var1,var2,var3
0,5,1,0


Default olarak ordinal bir sekilde tanimlanmis olan DataFrame'in index ozelligini kendimiz de degistirebiliriz.

In [21]:
df.index = ["a","b","c","d","e"]
df

Unnamed: 0,var1,var2,var3
a,5,1,0
b,3,7,7
c,5,0,3
d,7,1,2
e,9,4,1


In [22]:
df["a":"c"]

Unnamed: 0,var1,var2,var3
a,5,1,0
b,3,7,7
c,5,0,3


DataFrame icerisinden _gecici_ bir sekilde eleman silmek icin drop fonksiyonu kullanilir.

In [23]:
df.drop("a", axis = 0)

Unnamed: 0,var1,var2,var3
b,3,7,7
c,5,0,3
d,7,1,2
e,9,4,1


Eger kalici olarak silme islemini gerceklestirmek istiyorsak _inplace = True_ argumanini drop fonksiyonu icerisine vermemiz gerekmektedir.

In [24]:
df.drop("a", axis = 0 , inplace = True)
df

Unnamed: 0,var1,var2,var3
b,3,7,7
c,5,0,3
d,7,1,2
e,9,4,1


Eger DataFrame uzerindeki bir column silmek istersek _axis = 1_ parametresini vermemiz gerekmektedir.

In [25]:
df.drop("var1", axis = 1)

Unnamed: 0,var2,var3
b,7,7
c,0,3
d,1,2
e,4,1


Daha ogrence gordugumuz Fancy Indexing yontemini burada da kullanabiliyoruz.

In [26]:
df.drop(["b","d"],axis = 0)

Unnamed: 0,var1,var2,var3
c,5,0,3
e,9,4,1


In [27]:
df["var4"] = df["var2"]/df["var3"]

In [28]:
df

Unnamed: 0,var1,var2,var3,var4
b,3,7,7,1.0
c,5,0,3,0.0
d,7,1,2,0.5
e,9,4,1,4.0


In [29]:
df.drop("var4", axis = 1)

Unnamed: 0,var1,var2,var3
b,3,7,7
c,5,0,3
d,7,1,2
e,9,4,1


In [30]:
l = ["var1","var2"]
df.drop(l,axis=1)

Unnamed: 0,var3,var4
b,7,1.0
c,3,0.0
d,2,0.5
e,1,4.0


## Gözlem ve Değişken Seçimi : loc & iloc

In [31]:
m = np.random.randint(1,30, size = (10,3))
df = pd.DataFrame(m, columns = ["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,8,11,14
1,11,13,15
2,18,25,8
3,11,1,11
4,6,5,29
5,29,9,4
6,2,9,6
7,27,11,3
8,10,17,10
9,23,28,16


**loc :** Tanımlandığı şekli ile seçim yapmak için kullanılır. Yapılan indexlemeye sadık kalır. Verilen indexlerin son elemanını da döndürür. Ayrica sayisal bir indexi olmayan satir ve sutunlara ulasmak icin kullanilir.

In [32]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,8,11,14
1,11,13,15
2,18,25,8
3,11,1,11


**iloc :** Alışık olduğumuz indexleme mantığıyla çalışır. Sadece sayisal indexleme icin kullanilir.

In [33]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,8,11,14
1,11,13,15
2,18,25,8


In [34]:
df.loc[0:3, "var3"]

0    14
1    15
2     8
3    11
Name: var3, dtype: int64

**Eger ayni yontemi iloc ile kullanmak istersek bu yolu izleyebiliriz.**

In [36]:
df.iloc[0:3]["var3"]

0    14
1    15
2     8
Name: var3, dtype: int64

In [37]:
df.iloc[0:3,2]

0    14
1    15
2     8
Name: var3, dtype: int64

## Koşullu Eleman İşlemleri

Koşullar index elemanları gibi köşeli parantez içine yazılırlar.

In [38]:
df[df.var1 > 15]

Unnamed: 0,var1,var2,var3
2,18,25,8
5,29,9,4
7,27,11,3
9,23,28,16


In [39]:
df[df.var1 > 15]["var1"]

2    18
5    29
7    27
9    23
Name: var1, dtype: int64

Belirli sütünları böyle alabileceğimiz gibi loc ile de alabiliriz.

In [40]:
df[df.var1 > 15][["var1","var2"]]

Unnamed: 0,var1,var2
2,18,25
5,29,9
7,27,11
9,23,28


In [41]:
df.loc[df.var1 > 15, ["var1","var2"]]

Unnamed: 0,var1,var2
2,18,25
5,29,9
7,27,11
9,23,28


## Join İşlemleri

Birden fazla DF'i birleştirmek istiyorsak bunun için pandas içerisindeki **concat** metodunu kullanırız.

In [42]:
x1 = np.random.randint(1,30,size = (5,3))
x2 = np.random.randint(1,30,size = (5,3))

df1 = pd.DataFrame(x1, columns=["var1","var2","var3"])
df2 = pd.DataFrame(x2, columns=["var1","var2","var3"])

pd.concat([df1,df2])

Unnamed: 0,var1,var2,var3
0,28,8,11
1,29,12,15
2,23,4,10
3,28,15,16
4,23,5,10
0,13,21,6
1,20,15,14
2,1,22,22
3,17,5,1
4,22,17,25


Goruldugu uzere indexlerin siralanmasinda bir problem ortaya cikti.
Bunu cozmek icin **ignore_index** attribute degerini True yapmamiz gerekiyor.

In [43]:
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,var1,var2,var3
0,28,8,11
1,29,12,15
2,23,4,10
3,28,15,16
4,23,5,10
5,13,21,6
6,20,15,14
7,1,22,22
8,17,5,1
9,22,17,25


In [44]:
df3 = pd.DataFrame(x1, columns=["var1","var2","deger3"])
df4 = pd.DataFrame(x2, columns=["var1","var2","var3"])

pd.concat([df3,df4])

Unnamed: 0,var1,var2,deger3,var3
0,28,8,11.0,
1,29,12,15.0,
2,23,4,10.0,
3,28,15,16.0,
4,23,5,10.0,
0,13,21,,6.0
1,20,15,,14.0
2,1,22,,22.0
3,17,5,,1.0
4,22,17,,25.0


Column degerleri farkli olan DataFrameleri birlestirmek istedigimizde karsilikli farkli olan columnlarin NaN ile dolduruldugu gorulur.

Eger sadece kesisimleri birlestirmek istersek **join** attribute degerini __inner__ yapmamiz gerekir.

In [45]:
pd.concat([df3,df4],join="inner")

Unnamed: 0,var1,var2
0,28,8
1,29,12
2,23,4
3,28,15
4,23,5
0,13,21
1,20,15
2,1,22
3,17,5
4,22,17


* one to one
* many to one
* many to many gibi islemler **merge** fonksiyonu ile gerceklestirilir. Merge fonksiyonuna hangi ortak column secilecegini soylemek istersek **on** attribute icerisine string olarak verilebilir.

## Aggregation & Grouping

- Basic aggregation functions
    * count()
    * first()
    * last()
    * mean()
    * median()
    * min()
    * max()
    * std()
    * var()
    * sum()

In [46]:
import seaborn as sns

In [47]:
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [48]:
df.shape

(1035, 6)

In [49]:
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [50]:
df.mean()["number"]

1.7855072463768116

In [51]:
df["number"].mean()

1.7855072463768116

Eger verisetinin hesaplanmis tum degerlerini gormek istedigimizde **describe** ozelligini kullaniyoruz.

In [52]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


describe degerinin transposeunu almak istersek sonuna .T ekleyerek gerceklestirebiliriz.

In [53]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


Eger df icerisindeki bos degeri bu hesaplamaya katmak istemiyorsak **dropna** metodunu kullanabiliriz.

In [54]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


## Grouping

* Gruplama islemi, Aggeregation ile birlikte kullanilir.
* Veri seti icerisindeki kategorik degiskene gore gruplama yapilir.
* Kategorik degiskene gore gruplama yapildiktan sonra ise kalan degiskenlerden bir tanesi secilerek onun uzerinde aggregation yapilarak gerekli sonuclar elde edilir.

In [55]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ff93f4d15b0>

Goruldugu uzere planets veri seti uzerinde kategorik degisken olan method degiskeni uzerinde bir gruplama yaptigimizda herhangi bir sonuc alamayiz.

In [56]:
df.groupby("method")["distance"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,17.875,4.094148,14.98,16.4275,17.875,19.3225,20.77
Eclipse Timing Variations,4.0,315.36,213.203907,130.72,130.72,315.36,500.0,500.0
Imaging,32.0,67.715937,53.736817,7.69,22.145,40.395,132.6975,165.0
Microlensing,10.0,4144.0,2076.611556,1760.0,2627.5,3840.0,4747.5,7720.0
Orbital Brightness Modulation,2.0,1180.0,0.0,1180.0,1180.0,1180.0,1180.0,1180.0
Pulsar Timing,1.0,1200.0,,1200.0,1200.0,1200.0,1200.0,1200.0
Pulsation Timing Variations,0.0,,,,,,,
Radial Velocity,530.0,51.600208,45.559381,1.35,24.4125,40.445,59.2175,354.0
Transit,224.0,599.29808,913.87699,38.0,200.0,341.0,650.0,8500.0
Transit Timing Variations,3.0,1104.333333,915.819487,339.0,597.0,855.0,1487.0,2119.0


Gruplama yaptiktan sonra hangi degisken uzerinde islem yapacagimizi belirtip aggregation islemimizi gerceklestiriyoruz.

## Aggregate Function

Aggregate metodunda kullanilacak olan aggregation metotlarini biz belirleriz.

In [57]:
df.groupby("method").aggregate(["min",np.median,"max"])

Unnamed: 0_level_0,number,number,number,orbital_period,orbital_period,orbital_period,mass,mass,mass,distance,distance,distance,year,year,year
Unnamed: 0_level_1,min,median,max,min,median,max,min,median,max,min,median,max,min,median,max
method,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
Astrometry,1,1,1,246.36,631.18,1016.0,,,,14.98,17.875,20.77,2010,2011.5,2013
Eclipse Timing Variations,1,2,2,1916.25,4343.5,10220.0,4.2,5.125,6.05,130.72,315.36,500.0,2008,2010.0,2012
Imaging,1,1,4,4639.15,27500.0,730000.0,,,,7.69,40.395,165.0,2004,2009.0,2013
Microlensing,1,1,2,1825.0,3300.0,5100.0,,,,1760.0,3840.0,7720.0,2004,2010.0,2013
Orbital Brightness Modulation,1,2,2,0.240104,0.342887,1.544929,,,,1180.0,1180.0,1180.0,2011,2011.0,2013
Pulsar Timing,1,3,3,0.090706,66.5419,36525.0,,,,1200.0,1200.0,1200.0,1992,1994.0,2011
Pulsation Timing Variations,1,1,1,1170.0,1170.0,1170.0,,,,,,,2007,2007.0,2007
Radial Velocity,1,1,6,0.73654,360.2,17337.5,0.0036,1.26,25.0,1.35,40.445,354.0,1989,2009.0,2014
Transit,1,1,7,0.355,5.714932,331.60059,1.47,1.47,1.47,38.0,341.0,8500.0,2002,2012.0,2014
Transit Timing Variations,2,2,3,22.3395,57.011,160.0,,,,339.0,855.0,2119.0,2011,2012.5,2014


Boylece her bir degisken icin ayri ayri aggreagtion metotlarini uygulayabiliriz.

Burada aggregate metodu icerisine liste seklinde aggregation yontemlerini veriyoruz. Pandas icerisindeki metotlari verirken hem string hem de normal olarak verebiliriz. String olarak vermek farkindalik acisindan kolaylik saglar.

In [58]:
df.groupby("method").aggregate({"number" : "min", "distance" : "max"})

Unnamed: 0_level_0,number,distance
method,Unnamed: 1_level_1,Unnamed: 2_level_1
Astrometry,1,20.77
Eclipse Timing Variations,1,500.0
Imaging,1,165.0
Microlensing,1,7720.0
Orbital Brightness Modulation,1,1180.0
Pulsar Timing,1,1200.0
Pulsation Timing Variations,1,
Radial Velocity,1,354.0
Transit,1,8500.0
Transit Timing Variations,2,2119.0


Bu sekildeki kullanimda ise her bir attribute icin farkli bir aggr. yontemi belirleyebiliriz.

## Filter Function

Filter fonksiyonu kendi tanimladigimiz bir fonksiyon ile belirli sorgulari yapmayi ve ona gore veri setinden filtreleme yapip sonuclari almayi saglayan bir metottur.

In [59]:
df = pd.DataFrame({"groups" : ['A', 'B', 'C' , 'A', 'B', 'C'],
                   "degisken1" : [1 , 22 ,3 , 44 , 5 , 66],
                   "degisken2" : [111,22,333,44,555,66]})
df

Unnamed: 0,groups,degisken1,degisken2
0,A,1,111
1,B,22,22
2,C,3,333
3,A,44,44
4,B,5,555
5,C,66,66


In [60]:
def filter_func(x):
    return x["degisken1"].std() > 25

In [61]:
df.groupby("groups").filter(filter_func)

Unnamed: 0,groups,degisken1,degisken2
0,A,1,111
2,C,3,333
3,A,44,44
5,C,66,66


## Transform Function

* Transform fonksiyonu vektorel calisan bir fonksiyondur.
* Kendi tanimladigimiz fonksiyonu, degiskenlerin degerlerine uygular. Yani sutun bazli calisir.
* Sayisal bir ifade gerceklestirilecekse, kategorik degiskenlerden kurtulmak gerekir.

In [62]:
df.iloc[:,1:3].transform(lambda x: x-x.mean())

Unnamed: 0,degisken1,degisken2
0,-22.5,-77.5
1,-1.5,-166.5
2,-20.5,144.5
3,20.5,-144.5
4,-18.5,366.5
5,42.5,-122.5


## Apply Function

* Transfrom ve Filter fonksiyonu gibi DataFrame'in degiskenleri uzerinde gezinme yetenigi olan ve Aggregation amaciyla kullanilabilecek olan bir fonksiyondur.

In [63]:
df.apply(np.sum)

groups       ABCABC
degisken1       141
degisken2      1131
dtype: object

# Pivot Tables

* Pivot tablolar, veri seti uzerinde bazi satir ve sutunsal islemler gerceklestirerek veri setini amaca uygun hale getirmek icin kullanilan yapilardir.
* Groupby ile karistirilmaktadir. Groupby'in cok boyutlu bir versiyonu olarak dusunulmelidir.

In [64]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Ilkel pivot islemini su sekilde gerceklestirebiliriz.

In [65]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [66]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


_unstack_ fonksiyonu ise tablo bir duzey indirilmis sekilde listelenir.

In [67]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Pivot Table ise DataFrame methodu olarak kullanilmaktadir. Ilk parametre odaklandigimiz degisken, index x ekseninde var olacak degerleri iceren degisken, columns ise de y ekseninde var olacak degerleri iceren degiskendir.

In [68]:
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Surekli bir veri setini kategorik bir veri setine cevirerek pivot table islemi gerceklestirelim.

In [69]:
titanic.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [70]:
age = pd.cut(titanic.age,[0,18,90])
age.head()

0    (18, 90]
1    (18, 90]
2    (18, 90]
3    (18, 90]
4    (18, 90]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [71]:
titanic.pivot_table("survived",index=["sex",age],columns="class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663
