# Pandas
- Panel Data'nın kısaltmasıdır. 
- Tek boyutlu, iki boyutlu ve hiyerarşik yapıda indexler ile veriler üzerinde çalışma imkanı sağlar
- Veri manipülasyonu ve veri analizi için yazılmış açık kaynak kodlu bir Python kütüphanesidir.
- NumPy'dan farklı olarak farkı tip veri barındırabilir ve satırlar için index vardır.
- Ekonometrik ve finansal çalışmalar için doğmuştur.
- Temeli 2008 yılında atılmıştır.
- R DataFrame(1990'larda kullanılmaya başlanmıştır.) yapısını Python dünyasına taşımış ve DataFrame'ler üzerinde hızlı ve etkili çalışabilme imkanı sağlamıştır.
- Bir çok farklı veri tipini okuma ve yazma imkanı sağlar.
- Pandaas NumPy'ın alternatifi değil, NumPy'ın özelliklerini kullanan ve bunları genişleten bir kütüphanedir.

## Pandas Seriler
- İndexli bir sütün 

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.Series([1,2,3,4])

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
seri = pd.Series([1,2,3,4])

In [4]:
type(seri)

pandas.core.series.Series

In [5]:
seri.axes

[RangeIndex(start=0, stop=4, step=1)]

In [6]:
seri.dtype

dtype('int64')

In [7]:
seri.empty

False

In [8]:
seri.ndim # boyut sorgusu

1

In [9]:
seri.values # sadece değerler döner

array([1, 2, 3, 4], dtype=int64)

In [10]:
seri.head(2)

0    1
1    2
dtype: int64

In [11]:
seri[0:3]

0    1
1    2
2    3
dtype: int64

In [12]:
seri.tail(2)

2    3
3    4
dtype: int64

### NumPy üzerinden seri oluşturma işlemi

In [13]:
a = np.array([1,22,33,4444,24,45])
a

array([   1,   22,   33, 4444,   24,   45])

In [14]:
type(a)

numpy.ndarray

In [15]:
seri = pd.Series(a) # numpy'ı seriye çeviriyoruz
seri

0       1
1      22
2      33
3    4444
4      24
5      45
dtype: int32

In [16]:
seri.index # indexleri elde etmek için

RangeIndex(start=0, stop=6, step=1)

In [17]:
seri[0]

1

In [18]:
seri = pd.Series([1,2,3,4,5,3,454], index = ['a','b','c','d','e','f','g'])
seri

a      1
b      2
c      3
d      4
e      5
f      3
g    454
dtype: int64

In [19]:
seri['a']

1

In [20]:
sozluk = {'reg':12,'loj': 34, 'cart': 45}
sozluk

{'reg': 12, 'loj': 34, 'cart': 45}

In [21]:
seri = pd.Series(sozluk)
seri

reg     12
loj     34
cart    45
dtype: int64

In [22]:
seri['reg':'cart'] # index isimleri yazılarak çağrılırsa sınırlar dahil çağrılır

reg     12
loj     34
cart    45
dtype: int64

In [23]:
pd.concat([seri,seri])

reg     12
loj     34
cart    45
reg     12
loj     34
cart    45
dtype: int64

In [24]:
seri.append(seri)

reg     12
loj     34
cart    45
reg     12
loj     34
cart    45
dtype: int64

In [25]:
seri

reg     12
loj     34
cart    45
dtype: int64

### Serilerde Eleman İşlemleri

In [26]:
a = np.array([1,22,322,444,555,66])
seri = pd.Series(a)
seri

0      1
1     22
2    322
3    444
4    555
5     66
dtype: int32

In [27]:
seri = pd.Series([123,23,423,23], index = ['as','df','fg','gh'])
seri

as    123
df     23
fg    423
gh     23
dtype: int64

In [28]:
seri.index

Index(['as', 'df', 'fg', 'gh'], dtype='object')

In [29]:
seri.keys

<bound method Series.keys of as    123
df     23
fg    423
gh     23
dtype: int64>

In [30]:
list(seri.items())

[('as', 123), ('df', 23), ('fg', 423), ('gh', 23)]

In [31]:
seri

as    123
df     23
fg    423
gh     23
dtype: int64

In [32]:
'knn' in seri

False

In [33]:
'as' in seri

True

In [34]:
seri['as']

123

In [35]:
seri[['as','df']]

as    123
df     23
dtype: int64

In [36]:
seri['as'] = 23232
seri

as    23232
df       23
fg      423
gh       23
dtype: int64

In [37]:
seri['as':'gh']

as    23232
df       23
fg      423
gh       23
dtype: int64

In [38]:
seri[0:3]

as    23232
df       23
fg      423
dtype: int64

In [39]:
seri[(seri>123)&(seri<600)]

fg    423
dtype: int64

In [40]:
data = pd.Series(['a','b','c'], index = [1,2,3])
data

1    a
2    b
3    c
dtype: object

In [41]:
data[0]  # 0. index olmasığı için hata alıyoruz

KeyError: 0

In [None]:
data[1]

In [None]:
data[1:3] # a yı getirmiyor

In [None]:
data[0:3] # bu defa da a'yı 0.index ile getirdi

###### Burdaki bu problemler için loc ve iloc metotları

In [None]:
# loc label based indesing(tanımlandığı şekliyle indexleme)
data.loc[3]

In [None]:
2data.index = [1,3,5]
data.loc[0:3]  # 0 ile 3 arasında var olan indexleri getirdi

In [None]:
# iloc position indexing(indexi sıfırlayarak yakalamak)
data.iloc[0]

In [None]:
data.iloc[0:3]

# Pandas DataFrame
## Özellikleri ve Oluşturma

In [None]:
l = [1,2,3,4,55]
l

In [None]:
df = pd.DataFrame(l, columns = ['değişken'])
df

In [None]:
type(df)

In [None]:
df.axes

In [None]:
df.ndim

In [None]:
df.shape

In [None]:
df.values

In [None]:
df.size

In [None]:
df.head(2)

In [None]:
df.tail(2)

In [None]:
a = np.array([1,2,3,4,56])

In [None]:
pd.DataFrame(a, columns = ['değişken'])

In [None]:
a = np.arange(1,10).reshape((3,3))
a

In [None]:
df = pd.DataFrame(a, columns = ['var1','var2','var3'])
df

In [None]:
df.columns = ('deg1','deg2','deg3')
df

In [None]:
df = pd.DataFrame(a, columns = ['var1','var2','var3'], index = ['a','b','c'])
df

In [None]:
pd.Series([1,2,3,4])

In [None]:
pd.DataFrame(pd.Series([1,2,3,4]), columns= ['deg'])

In [None]:
bir = pd.Series([1,2,3,4])
iki = pd.Series([1,2,3,4])

In [None]:
pd.DataFrame({'deg1':bir,'deg2':iki})

In [None]:
# iç içe sözlük yapısı ile de DataFrame oluşturulur

In [None]:
s1 =np.random.randint(10, size = 5) 
s2 =np.random.randint(10, size = 5)
s3 =np.random.randint(10, size = 5)

df = pd.DataFrame({'var1':s1, 'var2':s2, 'var3':s3})
df

In [None]:
df[0:1]

In [None]:
df.index = ['a','b','c','d','e']
df

In [None]:
df['c':'e']

In [None]:
df.drop('a', axis = 0)

In [None]:
df

In [None]:
df.drop('a', axis = 0, inplace = True)
df

In [None]:
l = ['b','c']
l

In [None]:
df.drop(l,axis = 0)

In [None]:
df

In [None]:
'var1' in df

In [None]:
l = ['var1', 'var2','var4']

In [None]:
for i in l:
    print(i in df)

In [None]:
df['var1'] is df['var2']

In [None]:
df['var1'] is df['var1']

In [None]:
df['var2'] # sözlük tipi erişim(tavsiye edilen yöntem)

In [None]:
df.var1 # attribute tipi erişim

In [None]:
df[['var1','var2']]

In [None]:
l = ['var1','var2']

In [None]:
df[l]

In [None]:
df['var4'] = df['var1']/df['var2']
df

In [None]:
df.drop('var4', axis = 1)

In [None]:
df

In [None]:
df.drop('var4', axis = 1, inplace = True)
df

##### Gözlem ve Değişkenlere Birlikte Erişmek

In [None]:
s1 =np.random.randint(10, size = 5) 
s2 =np.random.randint(10, size = 5)
s3 =np.random.randint(10, size = 5)

df = pd.DataFrame({'var1':s1, 'var2':s2, 'var3':s3})
df

In [None]:
df.loc[0:3]

In [None]:
df.iloc[0:3]

In [None]:
df.iloc[0,0]

In [None]:
df.iloc[:3,:2]

In [None]:
df.iloc[2:6,1:3]

In [None]:
df.loc[:3,'var3']

In [None]:
df.loc[0:3, 'var2':'var3'] # isimlere bağlı kalarak çağırır

In [None]:
df.iloc[0:3, 1:3]  # sıraya bağlı kalarak çağırma

In [None]:
df.index = ['a','b','c','d','f']
df

In [None]:
df.loc['b':'d', 'var1':'var2']

In [None]:
df[df.var1 > 5]

In [None]:
df[df.var1 > 5]['var2']

In [None]:
df[(df.var1>5)&(df.var3<7)]

In [None]:
df[df.var1 > 5]['var2','var2'] # bu durumda hata verir

In [None]:
df.loc[df.var1 > 5, ['var2','var2']] # birden fazla değişken için loc

## Birleştirme(Join) İşlemleri

In [42]:
s1 =np.random.randint(10, size = 5) 
s2 =np.random.randint(10, size = 5)
s3 =np.random.randint(10, size = 5)

df1 = pd.DataFrame({'var1':s1, 'var2':s2, 'var3':s3})
df1

Unnamed: 0,var1,var2,var3
0,1,4,1
1,2,9,9
2,6,5,9
3,9,8,5
4,2,3,7


In [43]:
df2 = df1+99 # tüm verilere 99 ekler
df2

Unnamed: 0,var1,var2,var3
0,100,103,100
1,101,108,108
2,105,104,108
3,108,107,104
4,101,102,106


In [46]:
pd.concat([df1,df2] , axis= 1) # sütün bazında ekleme

Unnamed: 0,var1,var2,var3,var1.1,var2.1,var3.1
0,1,4,1,100,103,100
1,2,9,9,101,108,108
2,6,5,9,105,104,108
3,9,8,5,108,107,104
4,2,3,7,101,102,106


In [45]:
pd.concat([df1,df2]) # iki veriyi alt alta ekler. Burda index tekrarları var. Engellemenin yolu 'ignore_index = True'

Unnamed: 0,var1,var2,var3
0,1,4,1
1,2,9,9
2,6,5,9
3,9,8,5
4,2,3,7
0,100,103,100
1,101,108,108
2,105,104,108
3,108,107,104
4,101,102,106


In [47]:
pd.concat([df1,df2], ignore_index = True)

Unnamed: 0,var1,var2,var3
0,1,4,1
1,2,9,9
2,6,5,9
3,9,8,5
4,2,3,7
5,100,103,100
6,101,108,108
7,105,104,108
8,108,107,104
9,101,102,106


df1 ve df2 verilerinini değişken isimleri aynı idi. Değişken isimlerinde farklılıklar olsa idi 

In [48]:
df2.columns = ['var1','var2','deg3']
df2

Unnamed: 0,var1,var2,deg3
0,100,103,100
1,101,108,108
2,105,104,108
3,108,107,104
4,101,102,106


In [49]:
df1

Unnamed: 0,var1,var2,var3
0,1,4,1
1,2,9,9
2,6,5,9
3,9,8,5
4,2,3,7


In [50]:
# şimdi birleştirme işlemi gerçekleştirelim.
pd.concat([df1,df2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,deg3,var1,var2,var3
0,,1,4,1.0
1,,2,9,9.0
2,,6,5,9.0
3,,9,8,5.0
4,,2,3,7.0
0,100.0,100,103,
1,108.0,101,108,
2,108.0,105,104,
3,104.0,108,107,
4,106.0,101,102,


Değişkenlerde olmayan değerler NaN olarak dolduruldu.

In [51]:
pd.concat([df1,df2], join = 'inner') # sadece kesişen değerleri birleştirir

Unnamed: 0,var1,var2
0,1,4
1,2,9
2,6,5
3,9,8
4,2,3
0,100,103
1,101,108
2,105,104
3,108,107
4,101,102


In [59]:
pd.concat([df1,df2], join_axes = [df1.columns]) # df1'i baz larak birleştirme yapar

  """Entry point for launching an IPython kernel.


Unnamed: 0,var1,var2,var3
0,1,4,1.0
1,2,9,9.0
2,6,5,9.0
3,9,8,5.0
4,2,3,7.0
0,100,103,
1,101,108,
2,105,104,
3,108,107,
4,101,102,


## Merge ve Join işlemleri
- Daha ileri birleştirme işlemleri
- Merge fonksiyonu otomatik olarak kesisen degerleri kendisi bulur ve uniq olan degerlerin oldugu sutunu baz alarak bir birlestirme islemi yapar. eger birden fazla kesisen uniq sutun varsa kendisi yeni bir sutun atayarak diger kesisen degerleri bu sutunlara yerlestirir. 

In [60]:
df1 = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'grup': ['Muhasebe', 'Muhendislik', 'Muhendislik', 'İK']})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [61]:
df2 = pd.DataFrame({'calisanlar': ['Ayse', 'Ali', 'Veli', 'Fatma'],   #sutunlar df1 ile ayni 
                    'ilk_giris': [2010, 2009, 2014, 2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ayse,2010
1,Ali,2009
2,Veli,2014
3,Fatma,2019


In [69]:
# one-to-one
# df1 ile df2'yi birebir eşleştiriyoruz. Yani; kişi isimleri referans olacak şekilde birleştirilecek
pd.merge(df1,df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


'merge' fonksiyonu birleştirme işleminin hangi değişkene göre yapılacağını biliyor. Ama istersek biz bunu "on = 'calisanlar'" şeklinde yönlendirebiliriz.

In [68]:
pd.merge(df1,df2, on = 'calisanlar')

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [70]:
# many-to-one
df3 = pd.merge(df1,df2)  # df1 ile df2 yi birleştirerek df3'ü oluşturuyoruz
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayse,Muhendislik,2010
3,Fatma,İK,2019


In [73]:
df4 = pd.DataFrame({'grup': ['Muhasebe', 'Muhendislik', 'İK'],
                   'mudur': ['Caner', 'Mustafa', 'Berkcan']})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,İK,Berkcan


In [72]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2009,Caner
1,Veli,Muhendislik,2014,Mustafa
2,Ayse,Muhendislik,2010,Mustafa
3,Fatma,İK,2019,Berkcan


Tekrarlı değerler olmasınıda dikkate alarak birleştirme yaptı. Bundan dolayı many-to-one diye isimlendirildi.

In [75]:
# many-to-many birleştirme

In [76]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [78]:
df5 = pd.DataFrame({'grup': ['Muhasebe', 'Muhasebe', 'Muhendislik', 'Muhendislik', 'İK', 'İK'],
                   'yetenekler': ['matematik', 'exel', 'kodlama', 'linux', 'exel', 'yonetim']})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,matematik
1,Muhasebe,exel
2,Muhendislik,kodlama
3,Muhendislik,linux
4,İK,exel
5,İK,yonetim


In [79]:
pd.merge(df1,df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,matematik
1,Ali,Muhasebe,exel
2,Veli,Muhendislik,kodlama
3,Veli,Muhendislik,linux
4,Ayse,Muhendislik,kodlama
5,Ayse,Muhendislik,linux
6,Fatma,İK,exel
7,Fatma,İK,yonetim


Muhasebeye karşılık çalışan ismi ali ve yetenekler matematik ve exel olduğundan many-to-many birleştirme işlemi gerçekleşti.

# --------------------------------------

Aynı şeyi ifade eden ama farklı değişken isimlerine sahip verilerimiz olsun. Yani ortak değişken olmazsa

In [80]:
df3 = pd.DataFrame({'name': ['Ayse', 'Ali', 'Veli', 'Fatma'],   #sutunlar df1 ile ayni 
                    'maas': [7000, 8000, 4500, 6500]})
df3

Unnamed: 0,name,maas
0,Ayse,7000
1,Ali,8000
2,Veli,4500
3,Fatma,6500


In [81]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [83]:
pd.merge(df1,df3) # hata verecek,  birleştirme için referans alacağı ortak bir değişken yok

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [86]:
# Yukarda 'MergeError' kısmında çözüm önerileri sunuyor.
pd.merge(df1,df3, left_on = 'calisanlar', right_on = 'name')

Unnamed: 0,calisanlar,grup,name,maas
0,Ali,Muhasebe,Ali,8000
1,Veli,Muhendislik,Veli,4500
2,Ayse,Muhendislik,Ayse,7000
3,Fatma,İK,Fatma,6500


In [87]:
# ismiler iki defa tabloda yer alıyor. Bu sorunu çözmek için
pd.merge(df1,df3, left_on = 'calisanlar', right_on = 'name').drop('name',axis = 1)

Unnamed: 0,calisanlar,grup,maas
0,Ali,Muhasebe,8000
1,Veli,Muhendislik,4500
2,Ayse,Muhendislik,7000
3,Fatma,İK,6500


## --------------------------------------------
- Veri setlerini değilde indexleri birleştirmek istersek

In [91]:
df1a = df1.set_index('calisanlar') # calisanlar df1'in indexi olarak atanıyor
df1a

Unnamed: 0_level_0,grup
calisanlar,Unnamed: 1_level_1
Ali,Muhasebe
Veli,Muhendislik
Ayse,Muhendislik
Fatma,İK


In [94]:
df1a.shape

(4, 1)

In [92]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,İK


In [95]:
df1.shape

(4, 2)

In [96]:
df2a = df2.set_index('calisanlar')
df2a

Unnamed: 0_level_0,ilk_giris
calisanlar,Unnamed: 1_level_1
Ayse,2010
Ali,2009
Veli,2014
Fatma,2019


bu şekilde verilerimiz varsa ve indexlere göre bişleştirme işlemi yapmak istesek

In [97]:
pd.merge(df1a, df2a, left_index = True, right_index = True)

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2009
Veli,Muhendislik,2014
Ayse,Muhendislik,2010
Fatma,İK,2019


In [98]:
# Ama Join birleştirme işlemini zaten indexlere göre yapıyor
df1a.join(df2a)

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2009
Veli,Muhendislik,2014
Ayse,Muhendislik,2010
Fatma,İK,2019


## --------------------------------

İki veriyi birleştirdiğimizde merge fonksiyonu kesişen ilk değişkeni birleştirme değişkeni olarak kabul eder. Fakat başka kesişen bir değişken ismi daha olursa bu değişken yeniden isimlendirilerek tutulur.

In [100]:
dfa = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'siralama': [1,2,3,4]})
dfa

Unnamed: 0,calisanlar,siralama
0,Ali,1
1,Veli,2
2,Ayse,3
3,Fatma,4


In [101]:
dfa = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'siralama': [1,2,3,4]})
dfa

Unnamed: 0,calisanlar,siralama
0,Ali,1
1,Veli,2
2,Ayse,3
3,Fatma,4


In [102]:
dfb = pd.DataFrame({'calisanlar': ['Ali', 'Veli', 'Ayse', 'Fatma'],
                    'siralama': [4,2,3,1]})
dfb

Unnamed: 0,calisanlar,siralama
0,Ali,4
1,Veli,2
2,Ayse,3
3,Fatma,1


In [103]:
pd.merge(dfa,dfb, on = 'calisanlar')

Unnamed: 0,calisanlar,siralama_x,siralama_y
0,Ali,1,4
1,Veli,2,2
2,Ayse,3,3
3,Fatma,4,1


dfa ile dfb'yi birleştirdi ama calisanlardan farklı olarak siralama değişknide kesiştiği için onları siralam_x, siralama_y olarak değiştirdi. Bu istenen bir durum değil. 

In [106]:
pd.merge(dfa,dfb, on = 'calisanlar', suffixes = ['_MAAS', '_DENEYİM'])

Unnamed: 0,calisanlar,siralama_MAAS,siralama_DENEYİM
0,Ali,1,4
1,Veli,2,2
2,Ayse,3,3
3,Fatma,4,1


suffixes ile kesişen diğer değişken isimlerine de müdahele edebiliyoruz

# Aggregation(Özetlemek) ve Gruplama İşlemleri


In [109]:
import seaborn as sns

In [111]:
df = sns.load_dataset('planets')

In [114]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [116]:
df.shape

(1035, 6)

In [117]:
df.count() # Değişken isimleri ve gözlem sayılarını verir

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [120]:
df['mass'].count()  # Bir değişkenin gözlem sayısına ulaşak için

513

In [122]:
df.describe()  # Tanımlyıcı istatistik 

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [123]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [124]:
df['mass'].describe() # tek değişken

count    513.000000
mean       2.638161
std        3.818617
min        0.003600
25%        0.229000
50%        1.260000
75%        3.040000
max       25.000000
Name: mass, dtype: float64

In [125]:
df.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [127]:
df.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


# Gruplama İşlemleri

In [128]:
df = pd.DataFrame({'gruplar':['A','B','C','A','B','C'],
                 'veri':[10,11,52,23,43,55]}, columns = ['gruplar', 'veri'])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


In [129]:
df.groupby('gruplar') # Veri setini belirtilen katagorik değişkene göre böler

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000009DCB248>

Gruplara göre grupladı ama ne yapması gerktiğini belirtmedik


In [131]:
df.groupby('gruplar').sum() # Bu gruplamayı toplayarak yapacağını belirtiyoruz.

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [133]:
df = sns.load_dataset('planets')
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [134]:
df.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000000000B675508>

Önceki veride sum işlemi yapılacak tek değişken vardı. Ama burda birden fazla değişken var

In [136]:
df.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [137]:
df.groupby('method')['orbital_period'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


# Aggregate, Filter, Trasform, Apply

## Aggregate

In [138]:
df = pd.DataFrame({'gruplar':['A','B','C','A','B','C'],
                 'degisken1':[10,11,52,23,43,55],
                 'degisken2':[100,252,333,262,111,969]}, 
                  columns = ['gruplar', 'degisken1', 'degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,11,252
2,C,52,333
3,A,23,262
4,B,43,111
5,C,55,969


- groupby fonksiyonu ile tek değişken üzerinde işlemler yapabiliyorduk. 
- aggregate fonksiyonu ile birden çok değişken üzerinde gruplama işlemi yapar

In [140]:
df.groupby('gruplar').aggregate(['min', np.median, max]) # her degişken için min, median ve max sütünu oluşturduk

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16.5,23,100,181.0,262
B,11,27.0,43,111,181.5,252
C,52,53.5,55,333,651.0,969


Sözlük türü atamaları ile hangi değişkene ne işlem yapılacağını belirtebiliriz

In [141]:
df.groupby('gruplar').aggregate({'degisken1':'min', 'degisken2':'max'})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,252
C,52,969


degisken1 için min, degisken2 için max işlemi yaptık

## Filter fonksiyonu

In [None]:
Bizim belirleyeceğimiz bir fonksiyona göre filitreleme işlemi yapar

In [150]:
def filter_func(x):
    return x['degisken1'].mean()>50

In [151]:
df.groupby('gruplar').filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,52,333
5,C,55,969


## Transform Fonksiyonu

lambda fonksiyonunun özelliğini kullanarak veri maniplasyonu yapar

In [152]:
df.groupby('gruplar').transform(lambda x:x-x.mean())

Unnamed: 0,degisken1,degisken2
0,-6.5,-81.0
1,-16.0,70.5
2,-1.5,-318.0
3,6.5,81.0
4,16.0,-70.5
5,1.5,318.0


Degiskenlerin ortlamalarını degiskendeki herbir gözlemden çıkrdık

## Apply Fonksiyonu
- SAtır ve sütün bazında bazı hesaplama işlemleri tanımlayan bir fonksiyondur

In [163]:
df.groupby('gruplar').apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,33,362
B,BB,54,363
C,CC,107,1302


In [162]:
df.groupby('gruplar').apply(np.mean)

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.5,181.0
B,27.0,181.5
C,53.5,651.0


In [164]:
# apply'sız da yapılabilir. Ama apply daha performanslı yapar
df.groupby(df['gruplar']).sum()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,33,362
B,54,363
C,107,1302


In [166]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,11,252
2,C,52,333
3,A,23,262
4,B,43,111
5,C,55,969


In [177]:
L = ['a','b','a','b','c','a']

Bir nevi yeni indexleme yapıyoruz ve bu indexlere göre gruplama işlemi yapıyor

In [178]:
df.groupby(L).sum()

Unnamed: 0,degisken1,degisken2
a,117,1402
b,34,514
c,43,111


groupby fonksiyonu ile bu işlemi yapıyorduk ama var olan bir kritere göre gruplama yapılıyordu.

In [172]:
df.groupby(df['gruplar']).sum()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,33,362
B,54,363
C,107,1302


# Pivot Tablolar
- Veri seti üzerine bazı satır ve sütün işlemeleri yapılarak veri setini amaca uygun şekilde hazır hale getirme işlemine denir.
- groupby fonksiyonuna benzerlikleri vardır. Genel olarak farkı groupby'ın çok boyutlu olanıdır.

In [181]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


cinsiyetler ve classlara göre survived değişkeninin ortalamalarını görmek istersek

In [185]:
df.pivot_table('survived', index = 'sex', columns = 'class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [187]:
df.pivot_table('survived', index = 'class', columns = 'sex').T

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


gropby ile de aynı sonuç elde edilebilir. Ama biraz daha karışık kodlar ile mümkün

In [182]:
df.groupby('sex')['survived'].mean()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

In [184]:
df.groupby(['sex','class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


#### Çok boyutlu bir pivot_tabe

In [193]:
# age verileri için alt aralıklar belirliyoruz: 0-18 ve 18-90
age = pd.cut(df['age'], [0,18,90])
age.head()

0    (18, 90]
1    (18, 90]
2    (18, 90]
3    (18, 90]
4    (18, 90]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [194]:
# survived değişkenini cinsiyete göre(age'in alt aralıklar ile) ve classlara göre tablolaştırdık
df.pivot_table('survived', ['sex', age], 'class')


Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


Sütünlarada bir boyut eklenmek isterse


In [198]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
sibsp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [208]:
# qcut çeyrekliklere göre bölme işlemi gerçekleştirir.
# burda veriyi ortalamaya göre iki gruba bölmüş oluruz
fare = pd.qcut(df['fare'],2)
fare.head()

0     (-0.001, 14.454]
1    (14.454, 512.329]
2     (-0.001, 14.454]
3    (14.454, 512.329]
4     (-0.001, 14.454]
Name: fare, dtype: category
Categories (2, interval[float64]): [(-0.001, 14.454] < (14.454, 512.329]]

In [204]:
df.pivot_table('survived', ('sex', age), (fare, 'class'))

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 90]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 90]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


In [199]:
df['fare'].describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: fare, dtype: float64

survived değişkenini dört boyuta göre böldük. cinsiyet yaşa göre iki alt gruba ayrıldı(0-18, 18-90), sınıflar ücrete göre iki alt gruba ayrıldı(ortalamaya göre)

aggregate ile de bu işlemi yapabilirdik

In [201]:
df.pivot_table(index = 'sex', columns = 'class',
              aggfunc = {'survived': sum, 'fare': 'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


#### marjinlere toplamları ekleme

In [202]:
df.pivot_table('survived', index = 'sex', columns = 'class', margins = True )

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


# Dış Kaynaklı Veri Okuma

In [205]:
pwd

'C:\\Users\\Toshiba\\Desktop\\datascience\\Pandas\\pandas_numpy_derskodlari'

In [206]:
#  pd.read_csv('kullanmak istediğimiz veri yolu/dosya_ismi.csv',sep= 'veriler ayıraç sembolu(nokta,virgül vs)')

In [207]:
# pd.read_exel('veri yolu/dosya_ismi.xlsx')