# Pandas

Pandas open source bir python kütüphanesidir. Python'a veri yükleme, manipüle etme gibi yetenekler verir. Bu yetenekleri vererek yeni iki veri tipi kullanılabilir hale gelir: Seriler ve Dataframe'ler.

Dataframe bütün bir veri tablosudur. Seri ise bir dataframe'in ögesinin bir sütunudur. Ayrıca dataframe, bir sözlük veya seri koleksiyonu olarakta düşünülebilir.

Pandas:

    * Hızlı ve etkilidir,

    * Dosyalar arası geçiş kolaydır,
    
    * Data'nın içinde veriler her zaman bulunmayabilir(missing data). Pandas bu problemi çözmeyi kolaylaştırır.
    

## Kütüphane Import

In [1]:
import pandas as pd

In [2]:
dict= {
       "name":["ali","veli","ayşe","murat","gamze","merve","tahsin","öznur"],
       "age" : [25,26,27,25,28,29,26,28],
       "salary":[100,130,120,200,195,200,210,170]
      }
dict

{'name': ['ali', 'veli', 'ayşe', 'murat', 'gamze', 'merve', 'tahsin', 'öznur'],
 'age': [25, 26, 27, 25, 28, 29, 26, 28],
 'salary': [100, 130, 120, 200, 195, 200, 210, 170]}

Sözlük yapısındaki bir veriyi okuma:

In [3]:
dataFrame = pd.DataFrame(dict)
dataFrame

Unnamed: 0,name,age,salary
0,ali,25,100
1,veli,26,130
2,ayşe,27,120
3,murat,25,200
4,gamze,28,195
5,merve,29,200
6,tahsin,26,210
7,öznur,28,170


Transpozunu alarak daha rahat okunabilir.

In [4]:
dataFrame.T

Unnamed: 0,0,1,2,3,4,5,6,7
name,ali,veli,ayşe,murat,gamze,merve,tahsin,öznur
age,25,26,27,25,28,29,26,28
salary,100,130,120,200,195,200,210,170


Pandas verilen sözlük yapısındaki veriyi tablo şekline getirip indeksledi.

Veriler her zaman bu kadar kısa olamayacaktır, özellikle big data ile çalışıyorsa bundan çok daha fazlasıyla karşılacaktır. Bu da veriyi gözlemlemeyi bir hayli zoraltırır.

In [6]:
dataFrame.head() # head(3) ilk üçü indeskler

Unnamed: 0,name,age,salary
0,ali,25,100
1,veli,26,130
2,ayşe,27,120
3,murat,25,200
4,gamze,28,195


In [8]:
dataFrame.tail() # son 5 

Unnamed: 0,name,age,salary
3,murat,25,200
4,gamze,28,195
5,merve,29,200
6,tahsin,26,210
7,öznur,28,170


## Temel Bilgiler

In [9]:
type(dataFrame)

pandas.core.frame.DataFrame

Her dataframe'in bir şekli vardır ve bu satır-sütun gösterir. Dataframe değişkeninin şekli:

In [10]:
dataFrame.shape

(8, 3)

shape özniteliği bir tuple nesnesi gönderir. shape bir öznitelik olduğundan '()' kullanılmaz.

In [11]:
type(dataFrame.shape)

tuple

Veri seti hakkında bilgi sahibi olmamız için kaç satırdan ve sütündan oluştuğunu bilmemiz önemlidir. Ayrıca attributelerini(nitelikleri) de bilmeliyiz.

In [12]:
dataFrame.columns

Index(['name', 'age', 'salary'], dtype='object')

Elimizdeki verisetinde isim,yaş ve maaş bilgisi bulunduğunu böylelikle öğrenmiş olduk. Her sütunun kendi içerisinde tutarlı olmasını bekleriz. Örneğin ülke feature olarak string, yaşta da integer bir değer beklenir. İki şekilde data tipleri hakkında bilgi edinilebilir.

In [13]:
dataFrame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    8 non-null      object
 1   age     8 non-null      int64 
 2   salary  8 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [14]:
dataFrame.dtypes

name      object
age        int64
salary     int64
dtype: object

Veri setinde bulunan nümerik değerlerin bazı istatistiksel değerleri:

In [15]:
dataFrame.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,8.0,26.75,1.488048,25.0,25.75,26.5,28.0,29.0
salary,8.0,165.625,42.881689,100.0,127.5,182.5,200.0,210.0


## Sütunlar Satırlar Hücreler

Data hakkında daha önceki işlemler belirli bir bilgi verebilir.

In [17]:
dataFrame.T

Unnamed: 0,0,1,2,3,4,5,6,7
name,ali,veli,ayşe,murat,gamze,merve,tahsin,öznur
age,25,26,27,25,28,29,26,28
salary,100,130,120,200,195,200,210,170


Belirli bir sütuna göre veri alma:

In [18]:
dataFrame['name']

0       ali
1      veli
2      ayşe
3     murat
4     gamze
5     merve
6    tahsin
7     öznur
Name: name, dtype: object

Şu kod ile de aynı işlem yapılır.

In [19]:
dataFrame.name

0       ali
1      veli
2      ayşe
3     murat
4     gamze
5     merve
6    tahsin
7     öznur
Name: name, dtype: object

Birden fazla sütun alma:

In [21]:
dataFrame[['name','age']].T

Unnamed: 0,0,1,2,3,4,5,6,7
name,ali,veli,ayşe,murat,gamze,merve,tahsin,öznur
age,25,26,27,25,28,29,26,28


### İndeks pozisyonlarına göre sütunları alt kümeleme

Dilimleme için iki seçenek var: indeksin sırası ve kendisi. iloc indeksin sırasıyla, loc indeksin kendisiyle işlem yapmaya olanak verir.

In [25]:
dataFrame.loc[:,'age']

0    25
1    26
2    27
3    25
4    28
5    29
6    26
7    28
Name: age, dtype: int64

indeks 0'dan 3'e kadar değerleri yazdırır. 3 bu kullanımda dahil.

In [26]:
dataFrame.loc[:3,'name']

0      ali
1     veli
2     ayşe
3    murat
Name: name, dtype: object

indeksleri 0-3 arasında olan (3 dahil) verileri name'den salary'e kadar olan sütunları yazar.

In [27]:
dataFrame.loc[:3,'name':'salary'].T

Unnamed: 0,0,1,2,3
name,ali,veli,ayşe,murat
age,25,26,27,25
salary,100,130,120,200


Eğer sadece belirli featureları yazmasına istenirse:

In [28]:
dataFrame.loc[:3,['name','salary']].T

Unnamed: 0,0,1,2,3
name,ali,veli,ayşe,murat
salary,100,130,120,200


In [29]:
dataFrame.loc[::-1]

Unnamed: 0,name,age,salary
7,öznur,28,170
6,tahsin,26,210
5,merve,29,200
4,gamze,28,195
3,murat,25,200
2,ayşe,27,120
1,veli,26,130
0,ali,25,100


diğer loc kullanımları

In [30]:
dataFrame.loc[:-1]

Unnamed: 0,name,age,salary


In [31]:
dataFrame.loc[:,:'name'].T

Unnamed: 0,0,1,2,3,4,5,6,7
name,ali,veli,ayşe,murat,gamze,merve,tahsin,öznur


In [33]:
type(dataFrame.loc[:,:'name'])

pandas.core.frame.DataFrame

In [35]:
dataFrame.loc[::,'name']

0       ali
1      veli
2      ayşe
3     murat
4     gamze
5     merve
6    tahsin
7     öznur
Name: name, dtype: object

Dilimleme için iki seçenek var: indeksin sırası ve kendisi. iloc indeksin sırasıyla, loc indeksin kendisiyle işlem yapmaya olanak verir.

In [36]:
dataFrame.iloc[:,2]

0    100
1    130
2    120
3    200
4    195
5    200
6    210
7    170
Name: salary, dtype: int64

In [37]:
dataFrame.loc[1]

name      veli
age         26
salary     130
Name: 1, dtype: object

### Grouped and aggregated 

#### Group by

In [38]:
dataFrame.T

Unnamed: 0,0,1,2,3,4,5,6,7
name,ali,veli,ayşe,murat,gamze,merve,tahsin,öznur
age,25,26,27,25,28,29,26,28
salary,100,130,120,200,195,200,210,170


Yaşlarına göre maaşların ortalamaları:

In [41]:
dataFrame.groupby('age')['salary'].mean()

age
25    150.0
26    170.0
27    120.0
28    182.5
29    200.0
Name: salary, dtype: float64

In [42]:
dataFrame['salary'].min()

100

In [43]:
dataFrame['age'].count()

8

In [44]:
dataFrame.groupby('age')['age'].count()

age
25    2
26    2
27    1
28    2
29    1
Name: age, dtype: int64

In [45]:
dataFrame.groupby(['age','salary'])['name'].max()

age  salary
25   100          ali
     200        murat
26   130         veli
     210       tahsin
27   120         ayşe
28   170        öznur
     195        gamze
29   200        merve
Name: name, dtype: object

### Creating data

Pandas serilerinin python'daki list gibi tek boyutlu bir yapısı vardır. Bu veri tipi dataframe'deki her sütunu gösterir. Dataframe'deki her sütunun altındaki değerler aynı dtype olmalıdır. Python'daki list yapısı gibi olduğu düşünülecek olunursa, her key sütun adı ve value de serilerdir.

In [46]:
s = pd.Series(['banana',42])
s

0    banana
1        42
dtype: object

In [47]:
s_ = pd.Series(['gülşah','yağcı'],index=['name','surname'])
s_

name       gülşah
surname     yağcı
dtype: object

## İleri Seviye Pandas

### İleri Seviye Birleştirme İşlemleri

In [48]:
import pandas as pd
import numpy as np

In [50]:
df1 = pd.DataFrame({'çalışanlar':['ali','veli','ayşe','banu','fatma'],'departman':['muhasebe','mühendis','mühendis','pazarlama','İK']})
df1

Unnamed: 0,çalışanlar,departman
0,ali,muhasebe
1,veli,mühendis
2,ayşe,mühendis
3,banu,pazarlama
4,fatma,İK


In [51]:
df2 = pd.DataFrame({'çalışanlar':['ali','veli','ayşe','banu','fatma'],'yıl':['2016','2015','2016','2014','2015']})
df2

Unnamed: 0,çalışanlar,yıl
0,ali,2016
1,veli,2015
2,ayşe,2016
3,banu,2014
4,fatma,2015


çalışanlar değerine bakıldığında aldığı değerler birebir aynıdır. **merge** fonksiyonu hangi sütunların aynı olduğunu algılar ve ona göre birleştirme işlemi yapar. Belirtilmesi gerekli olduğu durumlarda **on='birleştirme işlemini şuna göre yap'** argümanı kullanılır.

In [52]:
pd.merge(df1,df2)

Unnamed: 0,çalışanlar,departman,yıl
0,ali,muhasebe,2016
1,veli,mühendis,2015
2,ayşe,mühendis,2016
3,banu,pazarlama,2014
4,fatma,İK,2015


In [53]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,çalışanlar,departman,yıl
0,ali,muhasebe,2016
1,veli,mühendis,2015
2,ayşe,mühendis,2016
3,banu,pazarlama,2014
4,fatma,İK,2015


n-1 ilişkisi

In [54]:
df4 = pd.DataFrame({'departman':['muhasebe','mühendis','pazarlama','İK'],'mudur':['ahmet','merve','emine','kaan']})
df4

Unnamed: 0,departman,mudur
0,muhasebe,ahmet
1,mühendis,merve
2,pazarlama,emine
3,İK,kaan


In [55]:
pd.merge(df3,df4)

Unnamed: 0,çalışanlar,departman,yıl,mudur
0,ali,muhasebe,2016,ahmet
1,veli,mühendis,2015,merve
2,ayşe,mühendis,2016,merve
3,banu,pazarlama,2014,emine
4,fatma,İK,2015,kaan


n-m ilişkisi

In [56]:
df5 = pd.DataFrame({'departman':['muhasebe','muhasebe','pazarlama','mühendis','mühendis','İK','İK'],'yetenekler':['matematik','excel','reklam','kodlama','linux','excel','yönetim']})
df5

Unnamed: 0,departman,yetenekler
0,muhasebe,matematik
1,muhasebe,excel
2,pazarlama,reklam
3,mühendis,kodlama
4,mühendis,linux
5,İK,excel
6,İK,yönetim


In [57]:
pd.merge(df1,df5)

Unnamed: 0,çalışanlar,departman,yetenekler
0,ali,muhasebe,matematik
1,ali,muhasebe,excel
2,veli,mühendis,kodlama
3,veli,mühendis,linux
4,ayşe,mühendis,kodlama
5,ayşe,mühendis,linux
6,banu,pazarlama,reklam
7,fatma,İK,excel
8,fatma,İK,yönetim


In [58]:
import seaborn as sns

In [59]:
df = sns.load_dataset('planets')
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [60]:
df.shape

(1035, 6)

In [61]:
df.count()

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [62]:
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [63]:
df['mass'].mean()

2.6381605847953233

In [64]:
df['distance'].count()

808

In [65]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


eksik verileri silerek

In [66]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


### Gruplama işlemi

Gruplama işlemi veri setindeki kategorik değişkenlerin yakalanması ve bunlar özelinde işlemler yapılmasıdır.

In [67]:
df = pd.DataFrame({'grup':['A','B','C','A','B','C'],'veri':[10,11,52,23,43,55]})
df.T

Unnamed: 0,0,1,2,3,4,5
grup,A,B,C,A,B,C
veri,10,11,52,23,43,55


In [68]:
df.groupby('grup')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022A7F9C2808>

In [69]:
df.groupby('grup').mean().T

grup,A,B,C
veri,16.5,27.0,53.5


df.groupby('neye göre grupla')['değişkenken'].ne_işlem_yapılması_isteniyorsa()

## İleri Toplulaştırma İşlemleri (Aggregate,filter,transform,apply)

In [70]:
df = pd.DataFrame({'grup':['A','B','C','A','B','C'],
                   'değisken1':[10,23,33,22,11,99],
                   'değisken2':[100,253,333,262,111,969]},
                    )
df

Unnamed: 0,grup,değisken1,değisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


### aggregate

In [71]:
df.groupby('grup').mean()

Unnamed: 0_level_0,değisken1,değisken2
grup,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [72]:
df.groupby('grup').aggregate(["min",np.median,max])

Unnamed: 0_level_0,değisken1,değisken1,değisken1,değisken2,değisken2,değisken2
Unnamed: 0_level_1,min,median,max,min,median,max
grup,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


pandas min ve max değerlerini tırnakla algılayabiliyorken, median işlemi için np.median yazılması gerekiyor.

## filter

Daha önce koşul ifadeleri ile filtreleme yapılmıştı. Ama bazen öyle bir ihtiyaç duyulur ki kendi kişisel fonskyonları filtreleme işlemi olarak kullnamak isteyebiliriz.

In [73]:
def filter_func(x):
    return x['degisken1'].std()>9

## transform

In [77]:
df_a =df.iloc[:,1:3]
df_a

Unnamed: 0,değisken1,değisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [78]:
df_a.transform(lambda x: (x-x.mean())/ x.std())

Unnamed: 0,değisken1,değisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


## apply