## **Pandas Serisi Oluşturmak**

Pandas içerisinde yer alan veri tipleri değerleri, indeksleri ile beraber tutar.

In [1]:
import pandas as pd

In [2]:
pd.Series([10,88,3,4,5]) #pandas serisi olusturmak.

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [3]:
 seri = pd.Series([10,88,3,4,5])

In [4]:
type(seri)

pandas.core.series.Series

In [5]:
seri.axes #Serinin index bilgisine ulasiriz.

[RangeIndex(start=0, stop=5, step=1)]

In [6]:
seri.dtype

dtype('int64')

In [7]:
seri.size #eleman sayisi

5

In [8]:
seri.ndim #boyutu

1

In [9]:
seri.values #vektor formunda sadece degerlere ulasiriz.

array([10, 88,  3,  4,  5], dtype=int64)

In [10]:
seri.head() #ilk 5 eleman

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [11]:
seri.head(3) #ilk 3 eleman

0    10
1    88
2     3
dtype: int64

In [12]:
seri.tail(3) #son 3 eleman

2    3
3    4
4    5
dtype: int64

**Index İsimlendirmesi**

In [13]:
pd.Series([23,24,25,26,27], index = [2,4,6,8,10])

2     23
4     24
6     25
8     26
10    27
dtype: int64

In [14]:
seri = pd.Series([23,24,25,26,27], index = ["a","b","c","d","e"])

In [15]:
seri

a    23
b    24
c    25
d    26
e    27
dtype: int64

In [16]:
seri["a"] #elemana erisme

23

In [17]:
seri["a":"c"] #serilerde slice islemi

a    23
b    24
c    25
dtype: int64

**Sözlük üzerinden seri oluşturmak**

In [18]:
sozluk={"reg":10, "log":11, "cart":12}

In [19]:
seri = pd.Series(sozluk)

In [20]:
seri

reg     10
log     11
cart    12
dtype: int64

**İki Seriyi Birleştirerek Seri Oluşturma**

In [21]:
pd.concat([seri, seri])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## **Eleman İşlemleri**

In [22]:
import numpy as np
a = np.array([15,233,34,52,64])
seri = pd.Series(a) #NumPy Array'i uzerinden seri olusturalim
seri

0     15
1    233
2     34
3     52
4     64
dtype: int32

In [23]:
seri[0] #0 indexli eleman

15

In [24]:
seri[0:3] #3'e kadar olan elemanlar

0     15
1    233
2     34
dtype: int32

In [25]:
seri = pd.Series([133,244,355,467,234], index = ["reg","log","cart","pcv","rf"])
seri

reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64

In [26]:
seri.index #sadece indexler

Index(['reg', 'log', 'cart', 'pcv', 'rf'], dtype='object')

In [27]:
seri.keys #seri'nin key'lerini gosterir

<bound method Series.keys of reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64>

In [28]:
list(seri.items()) #key degerine karsilik gelen value'lari bir araya getirerek list olusturur.

[('reg', 133), ('log', 244), ('cart', 355), ('pcv', 467), ('rf', 234)]

In [29]:
seri.values #seri'nin sadece degerlerini gosterir

array([133, 244, 355, 467, 234], dtype=int64)

**Eleman Sorgulama**

In [30]:
"reg" in seri

True

In [31]:
"a" in seri

False

In [32]:
seri["reg"]

133

**Fancy Eleman**

In [33]:
seri[["rf","reg"]] #fancy ile eleman secme

rf     234
reg    133
dtype: int64

**Eleman Değiştirme**

In [34]:
seri["reg"] = 111
seri #atama yontemi ile tekrardan eleman atayabiliriz.

reg     111
log     244
cart    355
pcv     467
rf      234
dtype: int64

## **Pandas DataFrame Oluşturma**

Pandas DataFrame yapısal bir veri tipidir.

In [35]:
import pandas as pd
l = [5,12,37,62,14] #list olusturduk
l

[5, 12, 37, 62, 14]

pd.DataFrame(l, columns = ["degisken_ismi"]) #DataFrame olusturma

In [36]:
import numpy as np
m = np.arange(1,10).reshape(3,3)
m #3x3'luk bir matris

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [37]:
pd.DataFrame(m, columns=["var1","var2","var3"]) #2 boyutlu DataFrame

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


**Yapay zeka ve Veri Biliminde en çok kullanacağımız veri tipi DataFrame'dir.**

**DataFrame İsimlendirme**

In [38]:
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [39]:
df.columns = ("col1","col2","col3") #Sutunlari yeniden isimlendirme
df

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


**DataFrame Özellikleri**

In [40]:
type(df)

pandas.core.frame.DataFrame

In [41]:
df.axes #Satir ve sutun bilgisi

[RangeIndex(start=0, stop=3, step=1),
 Index(['col1', 'col2', 'col3'], dtype='object')]

In [42]:
df.shape #boyut bilgisi

(3, 3)

In [43]:
df.ndim #boyut sayisi

2

In [44]:
df.size #eleman sayisi

9

In [45]:
df.values #DataFrame tipindeki veri yapisinin icersinden
          #Degerleri array tipinde aliyor.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [46]:
type(df.values)

numpy.ndarray

In [47]:
df.tail(1) #sondan 1. index

Unnamed: 0,col1,col2,col3
2,7,8,9


Diğer veri tiplerinde veri oluşturmak için çeşitli formatlar kullandık.<br>
Örneğin; NumPy array'i üzerinden oluşturduk list üzerinden oluşturduk ve buna<br>
benzer farklı formatlardan oluşturduk. Bu işlemler DataFrame için de geçerlidir.

In [48]:
a = np.array([1,2,3,4,5])

In [49]:
pd.DataFrame(a, columns = ["deg1"]) #numpy array'i ile df olusturduk.

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


## **DataFrame Eleman İşlemleri**

In [50]:
import numpy as np
s1 = np.random.randint(10, size=5)
s2 = np.random.randint(10, size=5)
s3 = np.random.randint(10, size=5)

In [51]:
sozluk={"var1":s1,"var2":s2,"var3":s3} #array'lerden sozluk
sozluk

{'var1': array([5, 4, 2, 6, 1]),
 'var2': array([5, 6, 5, 4, 7]),
 'var3': array([3, 7, 7, 5, 2])}

In [52]:
import pandas as pd
df = pd.DataFrame(sozluk) #sozluk'den df
df

Unnamed: 0,var1,var2,var3
0,5,5,3
1,4,6,7
2,2,5,7
3,6,4,5
4,1,7,2


In [53]:
df[0:2] #0'dan 2'ye kadar

Unnamed: 0,var1,var2,var3
0,5,5,3
1,4,6,7


In [54]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [55]:
df.index = ["a","b","c","d","e"]

In [56]:
df

Unnamed: 0,var1,var2,var3
a,5,5,3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [57]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [58]:
df["a":"c"]

Unnamed: 0,var1,var2,var3
a,5,5,3
b,4,6,7
c,2,5,7


**Eleman Silme**

In [59]:
df.drop("a", axis=0) #0 ekseninden "a" indexli satiri sil.

Unnamed: 0,var1,var2,var3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [60]:
df #sildi ancak kaydetmedi.

Unnamed: 0,var1,var2,var3
a,5,5,3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [61]:
df.drop("a", axis=0, inplace=True) #inplace argumani kalici olsun mu? anlamındadir.

In [62]:
df #kalici olarak silindi.

Unnamed: 0,var1,var2,var3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


**Fancy**

In [63]:
l = ["c","e"]

In [64]:
df.drop(l, axis=0) #c ve e silindi

Unnamed: 0,var1,var2,var3
b,4,6,7
d,6,4,5


**Degiskenler icin**

In [65]:
df

Unnamed: 0,var1,var2,var3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [66]:
"var1" in df

True

In [67]:
l = ["var1","var4","var2"]

In [68]:
for i in l:
    print(i in df) 

True
False
True


Bir değişken oluşturmak isteyelim fakat bu değişkenimizi DataFrame içinde <br>var olan değişkenlerden yapmak istediğimizi düşünelim.

In [69]:
df

Unnamed: 0,var1,var2,var3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [70]:
df["var4"] = df["var1"] / df["var2"]

In [71]:
df

Unnamed: 0,var1,var2,var3,var4
b,4,6,7,0.666667
c,2,5,7,0.4
d,6,4,5,1.5
e,1,7,2,0.142857


**Değişken Silme**

In [72]:
df

Unnamed: 0,var1,var2,var3,var4
b,4,6,7,0.666667
c,2,5,7,0.4
d,6,4,5,1.5
e,1,7,2,0.142857


In [73]:
df.drop("var4", axis=1, inplace=True)
df

Unnamed: 0,var1,var2,var3
b,4,6,7
c,2,5,7
d,6,4,5
e,1,7,2


In [74]:
l = ["var1","var2"]
df.drop(l, axis=1)  #Fancy ile silme

Unnamed: 0,var3
b,7
c,7
d,5
e,2


## **Gözlem ve Değişken Seçimi: loc & iloc**

In [75]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,26,16,17
1,9,3,26
2,4,8,24
3,17,16,22
4,3,4,14
5,8,5,1
6,8,22,21
7,10,18,16
8,19,1,23
9,29,5,16


**loc:** tanımlandığı şekliyle seçim yapmak için kullanılır

In [76]:
df.loc[0:3] #veri setinin ilk halindeki indexlemeye sadik kalacak sekilde secim imkani verir.

Unnamed: 0,var1,var2,var3
0,26,16,17
1,9,3,26
2,4,8,24
3,17,16,22


**iloc:** alışık olduğumuz index'leme mantığıyla seçim yapar.

In [77]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,26,16,17
1,9,3,26
2,4,8,24


In [78]:
df.iloc[0,0]

26

In [79]:
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,26,16
1,9,3
2,4,8


In [80]:
df.loc[:3,"var3"]

0    17
1    26
2    24
3    22
Name: var3, dtype: int32

In [82]:
df.iloc[:3,"var3"] # hata verir.

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

Eğer değişken ya da satırlar ile ilgili mutlak bir değer işaretlemesi yapacaksak<br>
bu durumda **loc** kullanmamız gerekiyor.

Yani değişken ismi ile işaretleme yapacaksak **loc** kullanmalıyız.<br>
Index'lere göre işaretleme yapacaksak **iloc** kullanmalıyız.

In [83]:
df.iloc[:3,1:3]

Unnamed: 0,var2,var3
0,16,17
1,3,26
2,8,24


In [84]:
df.iloc[:3]["var3"]

0    17
1    26
2    24
Name: var3, dtype: int32

## **Koşullu Eleman İşlemleri**

In [85]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,2,2,21
1,23,1,1
2,12,17,12
3,4,4,25
4,22,15,29
5,29,19,26
6,8,10,4
7,19,15,8
8,25,22,6
9,13,8,10


In [86]:
df.var1

0     2
1    23
2    12
3     4
4    22
5    29
6     8
7    19
8    25
9    13
Name: var1, dtype: int32

In [87]:
df[df.var1 > 15]["var1"]

1    23
4    22
5    29
7    19
8    25
Name: var1, dtype: int32

In [88]:
df[(df.var1 > 15) & (df.var3 < 5)]

Unnamed: 0,var1,var2,var3
1,23,1,1


In [89]:
df.loc[(df.var1 > 15),["var1","var2"]]

Unnamed: 0,var1,var2
1,23,1
4,22,15
5,29,19
7,19,15
8,25,22


In [90]:
df[(df.var1 > 15)][["var1","var2"]]

Unnamed: 0,var1,var2
1,23,1
4,22,15
5,29,19
7,19,15
8,25,22


## **Birleştirme (Join) İşlemleri**

In [91]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size=(5,3))
df1 = pd.DataFrame(m, columns=["var1","var2","var3"])
df1

Unnamed: 0,var1,var2,var3
0,25,29,28
1,5,14,4
2,4,19,26
3,1,7,3
4,17,17,23


In [92]:
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,124,128,127
1,104,113,103
2,103,118,125
3,100,106,102
4,116,116,122


In [93]:
pd.concat([df1,df2])

Unnamed: 0,var1,var2,var3
0,25,29,28
1,5,14,4
2,4,19,26
3,1,7,3
4,17,17,23
0,124,128,127
1,104,113,103
2,103,118,125
3,100,106,102
4,116,116,122


Birleştirme işlemi yaptık fakat indexlerde bir karmaşıklık oldu.

In [94]:
pd.concat([df1,df2],ignore_index = True)

Unnamed: 0,var1,var2,var3
0,25,29,28
1,5,14,4
2,4,19,26
3,1,7,3
4,17,17,23
5,124,128,127
6,104,113,103
7,103,118,125
8,100,106,102
9,116,116,122


In [95]:
df2.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [96]:
df2.columns = ["var1","var2","deg3"]
df2

Unnamed: 0,var1,var2,deg3
0,124,128,127
1,104,113,103
2,103,118,125
3,100,106,102
4,116,116,122


In [97]:
df1

Unnamed: 0,var1,var2,var3
0,25,29,28
1,5,14,4
2,4,19,26
3,1,7,3
4,17,17,23


In [100]:
pd.concat([df1, df2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,deg3,var1,var2,var3
0,,25,29,28.0
1,,5,14,4.0
2,,4,19,26.0
3,,1,7,3.0
4,,17,17,23.0
0,127.0,124,128,
1,103.0,104,113,
2,125.0,103,118,
3,102.0,100,106,
4,122.0,116,116,


Bir veri setinin diğerinde karşılığı olmadığı için böyle bir sorun yaşıyoruz.

Bu sorunu kısmi olarak aşabiliriz.

**join = "inner"** argümanı ile veri setlerinin kesişimlerini alabiliriz.

In [101]:
pd.concat([df1,df2], join="inner") #kesisimlerini alir.

Unnamed: 0,var1,var2
0,25,29
1,5,14
2,4,19
3,1,7
4,17,17
0,124,128
1,104,113
2,103,118
3,100,106
4,116,116


In [102]:
pd.concat([df1, df2], axis=1).reindex(df1.index)

Unnamed: 0,var1,var2,var3,var1.1,var2.1,deg3
0,25,29,28,124,128,127
1,5,14,4,104,113,103
2,4,19,26,103,118,125
3,1,7,3,100,106,102
4,17,17,23,116,116,122


## **İleri Birleştirme İşlemleri**

**Birebir Birleştirme**: <br>Tüm elemanların iki veri setinde de birebir yer alması durumudur.

In [103]:
import pandas as pd
df1 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "grup":["Muhasebe","Muhendislik","Muhendislik","IK"]})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [104]:
df2 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "ilk_giris":[2010,2009,2014,2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ali,2010
1,Veli,2009
2,Ayse,2014
3,Fatma,2019


In [105]:
pd.merge(df1,df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Merge()** Fonksiyonu birleştirme işleminin hangi değişkene göre yapılacağını kendisi anlıyor. <br>Eğer bunu belirtmek istersek **on** argümanı aracılığı ile belirtebiliriz.<br>
Her iki veri setinde de calisanlar olduğu için bu veri setlerini calisanlar’a göre birleştirdi.


In [106]:
pd.merge(df1, df2, on="calisanlar")

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Many to one** (Çoktan teke)

In [107]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


In [108]:
df4 = pd.DataFrame({"grup":["Muhasebe","Muhendislik","IK"],
                   "mudur":["Caner","Mustafa","Berkcan"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,IK,Berkcan


In [109]:
pd.merge(df3,df4) #Many to one birlestirme.

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2010,Caner
1,Veli,Muhendislik,2009,Mustafa
2,Ayse,Muhendislik,2014,Mustafa
3,Fatma,IK,2019,Berkcan


**Many to Many** (Çoktan çoka)

In [110]:
df5 = pd.DataFrame({'grup' : ['Muhasebe','Muhasebe','Muhendislik','Muhendislik','IK','IK'],
                   'yetenekler' : ['Matematik','Excel','Kodlama','Linux','Excel','Yonetim']})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,Matematik
1,Muhasebe,Excel
2,Muhendislik,Kodlama
3,Muhendislik,Linux
4,IK,Excel
5,IK,Yonetim


In [111]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [112]:
pd.merge(df1,df5) #Many to Many

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,Matematik
1,Ali,Muhasebe,Excel
2,Veli,Muhendislik,Kodlama
3,Veli,Muhendislik,Linux
4,Ayse,Muhendislik,Kodlama
5,Ayse,Muhendislik,Linux
6,Fatma,IK,Excel
7,Fatma,IK,Yonetim


# **Aggregation & Grouping** (Toplulaştırma ve Gruplama)



Basit toplulaştırma fonksiyonları:
* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
* sum()

In [113]:
import seaborn as sns #Bu kütüphanemiz içerisindeki bazı veri setlerini kullanıcaz.

In [116]:
df = sns.load_dataset("planets") #planets isimli dataset'i kullandik.
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.100,77.40,2006
1,Radial Velocity,1,874.774000,2.210,56.95,2008
2,Radial Velocity,1,763.000000,2.600,19.84,2011
3,Radial Velocity,1,326.030000,19.400,110.62,2007
4,Radial Velocity,1,516.220000,10.500,119.47,2009
5,Radial Velocity,1,185.840000,4.800,76.39,2008
6,Radial Velocity,1,1773.400000,4.640,18.15,2002
7,Radial Velocity,1,798.500000,,21.41,1996
8,Radial Velocity,1,993.300000,10.300,73.10,2008
9,Radial Velocity,2,452.800000,1.990,74.79,2010


In [117]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Artık satırlara **gözlem**, sütunlara ise **değişken** demeye alışmalıyız.

In [118]:
df.shape

(1035, 6)

dataset'in 1035 gözlem, 6 değişkenden oluştuğunu gözlemlemekteyiz.

In [119]:
df.mean() #Tüm değişkenlerin ortalamaları

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [120]:
df["mass"].mean() # mass değişkeninin ortalaması.

2.6381605847953233

In [121]:
df.count() #Degiskenlerdeki gözlem sayıları.

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [122]:
df.min() #Minimum değerler

method            Astrometry
number                     1
orbital_period     0.0907063
mass                  0.0036
distance                1.35
year                    1989
dtype: object

In [123]:
df.max() #Maximum değerler

method            Transit Timing Variations
number                                    7
orbital_period                       730000
mass                                     25
distance                               8500
year                                   2014
dtype: object

In [124]:
df.sum() # Değişkenlerin değerlerinin toplamı

method            Radial VelocityRadial VelocityRadial VelocityR...
number                                                         1848
orbital_period                                          1.98689e+06
mass                                                        1353.38
distance                                                     213368
year                                                        2079388
dtype: object

In [125]:
df.std() #Değişkenlerin standart sapması

number                1.240976
orbital_period    26014.728304
mass                  3.818617
distance            733.116493
year                  3.972567
dtype: float64

In [126]:
df.var() #Değişkenlerin varyansı

number            1.540022e+00
orbital_period    6.767661e+08
mass              1.458183e+01
distance          5.374598e+05
year              1.578129e+01
dtype: float64

In [128]:
df.describe #Verisetindeki tüm değişkenleri betimsel istatistikleri anlamında görebiliyoruz.

<bound method NDFrame.describe of                method  number  orbital_period    mass  distance  year
0     Radial Velocity       1      269.300000   7.100     77.40  2006
1     Radial Velocity       1      874.774000   2.210     56.95  2008
2     Radial Velocity       1      763.000000   2.600     19.84  2011
3     Radial Velocity       1      326.030000  19.400    110.62  2007
4     Radial Velocity       1      516.220000  10.500    119.47  2009
5     Radial Velocity       1      185.840000   4.800     76.39  2008
6     Radial Velocity       1     1773.400000   4.640     18.15  2002
7     Radial Velocity       1      798.500000     NaN     21.41  1996
8     Radial Velocity       1      993.300000  10.300     73.10  2008
9     Radial Velocity       2      452.800000   1.990     74.79  2010
10    Radial Velocity       2      883.000000   0.860     74.79  2010
11    Radial Velocity       1      335.100000   9.880     39.43  2009
12    Radial Velocity       1      479.100000   3.880   

In [140]:
df.T #Transpozu alındığında 
#df.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1025,1026,1027,1028,1029,1030,1031,1032,1033,1034
method,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,...,Transit,Transit,Imaging,Transit,Imaging,Transit,Transit,Transit,Transit,Transit
number,1,1,1,1,1,1,1,1,1,2,...,1,1,1,1,1,1,1,1,1,1
orbital_period,269.3,874.774,763,326.03,516.22,185.84,1773.4,798.5,993.3,452.8,...,3.06785,0.925542,,3.35206,,3.94151,2.61586,3.19152,4.12508,4.18776
mass,7.1,2.21,2.6,19.4,10.5,4.8,4.64,,10.3,1.99,...,,,,,,,,,,
distance,77.4,56.95,19.84,110.62,119.47,76.39,18.15,21.41,73.1,74.79,...,60,470,19.2,3200,10.1,172,148,174,293,260
year,2006,2008,2011,2007,2009,2008,2002,1996,2008,2010,...,2012,2014,2011,2012,2012,2006,2007,2007,2008,2008


Elimizdeki verisetinin eksik gözlemleri silip describe yapmak istediğimizde<br>
**dropna()** fonskiyonunu kullanırız.

In [141]:
df.dropna().T

Unnamed: 0,0,1,2,3,4,5,6,8,9,10,...,633,634,636,637,638,640,641,642,649,784
method,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,...,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Radial Velocity,Transit,Radial Velocity
number,1,1,1,1,1,1,1,1,2,2,...,3,3,1,1,1,1,1,1,1,3
orbital_period,269.3,874.774,763,326.03,516.22,185.84,1773.4,993.3,452.8,883,...,32.03,431.7,124.6,17337.5,511.098,111.7,5.0505,311.288,2.70339,580
mass,7.1,2.21,2.6,19.4,10.5,4.8,4.64,10.3,1.99,0.86,...,0.41,0.527,9.18,9,8.82,2.1,1.068,1.94,1.47,0.947
distance,77.4,56.95,19.84,110.62,119.47,76.39,18.15,73.1,74.79,74.79,...,25.87,25.87,149.25,23.98,31.33,14.9,44.46,17.24,178,135
year,2006,2008,2011,2007,2009,2008,2002,2008,2010,2010,...,2011,2011,2013,2009,2002,2009,2013,1999,2013,2012


## **Grouping**

In [142]:
import pandas as pd
df = pd.DataFrame({'gruplar' : ['A','B','C','A','B','C'],
                  'veri' : [10,11,52,23,43,55]}, columns=['gruplar','veri'])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


Genelde gruplama işlemleri ile toplulaştırma(Aggregation) işlemleri bir arada kullanılır.

In [143]:
df.groupby("gruplar") #gruplar içerisindeki grupları yakaladı.

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002D12392E9E8>

In [144]:
df.groupby("gruplar").mean() # Ortalamasini aldi.

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [145]:
df.groupby("gruplar").sum()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [146]:
import seaborn as sns
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [147]:
df.groupby("method")["orbital_period"].describe()
#method'a göre grupla. orbital_period değişkeninin istatistiki degerlerini al.

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


## **İleri Toplulaştırma İşlemleri**(Aggregate, filter, transform, apply)

### **Aggregate**

In [148]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [149]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [150]:
import numpy as np
df.groupby("gruplar").aggregate(["min", np.median, max])

#Yaptığımız gruplama içerisinde kendi istediğimiz istatistiki değerleri
#bir arada görmek için aggragate kullanırız.

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


İki değişken için iki ayrı istatistiki hesaplama yapmak istiyoruz.

In [151]:
df.groupby("gruplar").aggregate({"degisken1" : "min", "degisken2" : np.median})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,181
B,11,182
C,33,651


### **Filter**

Pandas'ın sunduğu özelliklerden daha karmaşık bir isteğimiz<br>
olduğunda kendi fonksiyonumuzu yazıp ona göre filtreleyebiliriz.

In [152]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df


Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [153]:
def filter_func(x):
    return x["degisken1"].std() > 9
#degisken1'e göre standart sapması 9'dan büyük olan değerler

In [154]:
df.groupby("gruplar").std() #standart sapmalar

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.485281,114.551299
B,8.485281,100.409163
C,46.669048,449.719913


In [155]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


Aynı işlemin **lambda** ile çözümü:

In [156]:
df.groupby("gruplar").filter(lambda x : x["degisken1"].std() > 9)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


## **transform**

Kendi tanımladığımız bir fonksiyonu değişkenler üzerinde uygulayabiliyoruz.

In [157]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [158]:
df["degisken1"]*9

0     90
1    207
2    297
3    198
4     99
5    891
Name: degisken1, dtype: int64

In [159]:
df_a = df.iloc[:, 1:3]
df_a

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


Birazdan yapacağımız işlem sayısal bir işlem olduğundan gruplar değişkenine<br>
uygulamak istediğimizde hata ile karşılaşmamak için, yukarıdaki gibi gruplar'ı<br>
ayrı tutmamız gerekiyor.

In [160]:
df_a.transform(lambda x : x-x.mean())
#yakalamış olduğu bütün elemanlardan o değişkenin ortalamasını çıkartacak.

Unnamed: 0,degisken1,degisken2
0,-23.0,-238.0
1,-10.0,-85.0
2,0.0,-5.0
3,-11.0,-76.0
4,-22.0,-227.0
5,66.0,631.0


## **Apply**

In [161]:
import pandas as pd
import numpy as np
df = pd.DataFrame({"degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["degisken1","degisken2"])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


**apply()** fonksiyonu tıpkı transform fonksiyonu ve filter fonksiyonu gibi<br>
değişkenlerin üzerinde gezinme yeteneği olan ve **aggregation**(toplulaştırma)<br>
amacıyla kullanılacak olan bir fonksiyondur.

In [162]:
df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [163]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [164]:
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                    "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [165]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


In [166]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [167]:
df.groupby("gruplar").apply(lambda x : (x["degisken1"]-x["degisken2"]))

gruplar   
A        0    -90
         3   -240
B        1   -230
         4   -100
C        2   -300
         5   -870
dtype: int64

Bu işlemi apply ile yapabiliriz ancak transform hata verir.

# **Pivot Tablolar**

Veri setleri üzerinde bazı satır ve sütun işlemleri yaparak, veri setini amaca uygun hale getirmek için kullanılan yapılardır.

**groupby()**'ın çok boyutlu versiyonu olarak düşünülebilir.

In [168]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


Cinsiyete göre gruplayıp hayatta olma ortalamalarına bakalım.

In [169]:
titanic.groupby("sex")["survived"].mean() 

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

In [170]:
titanic.groupby("sex")[["survived"]].mean()  #Basit bir pivot işlemi.
# değişken etrafına köşeli parantez ekleyerek dataset olarak gözlemleyelim.

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Cinsiyete ve class'a göre ölüm ortalamaları:

In [171]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [172]:
titanic.groupby(["sex","class"])["survived"].aggregate("mean").unstack()
#unstack bizi hiyerarsik görünümden kurtarır.,

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Bir boyut daha ekleyerek pivot table oluşturduk.

In [173]:
#Pivot ile table

In [174]:
titanic.pivot_table("survived", index = "sex", columns = "class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [175]:
titanic.age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
5       NaN
6      54.0
7       2.0
8      27.0
9      14.0
10      4.0
11     58.0
12     20.0
13     39.0
14     14.0
15     55.0
16      2.0
17      NaN
18     31.0
19      NaN
20     35.0
21     34.0
22     15.0
23     28.0
24      8.0
25     38.0
26      NaN
27     19.0
28      NaN
29      NaN
       ... 
861    21.0
862    48.0
863     NaN
864    24.0
865    42.0
866    27.0
867    31.0
868     NaN
869     4.0
870    26.0
871    47.0
872    33.0
873    47.0
874    28.0
875    15.0
876    20.0
877    19.0
878     NaN
879    56.0
880    25.0
881    33.0
882    22.0
883    28.0
884    25.0
885    39.0
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

Bu sürekli değişkeni bir kategorik değişkene çevirip, bu kategorik <br>
değişkenin sınıflarını da pivot table'a boyut olarak ekleyelim.

In [176]:
age = pd.cut(titanic["age"], [0,18,90])
age.head(15)

0     (18.0, 90.0]
1     (18.0, 90.0]
2     (18.0, 90.0]
3     (18.0, 90.0]
4     (18.0, 90.0]
5              NaN
6     (18.0, 90.0]
7      (0.0, 18.0]
8     (18.0, 90.0]
9      (0.0, 18.0]
10     (0.0, 18.0]
11    (18.0, 90.0]
12    (18.0, 90.0]
13    (18.0, 90.0]
14     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

Sürekli bir değişken olan age değişkenini kategorik değişken haline getirdik.

In [177]:
titanic.pivot_table("survived",["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


# **Dış Kaynaklı Veri Okuma**

**.txt** formunu ve **.csv** formunu aynı fonksiyon ile okuyabiliyoruz.

In [178]:
import pandas as pd

In [181]:
#pd.read_csv("reading_data/ornekcsv.csv")
pd.read_csv("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/ornekcsv.csv")


Unnamed: 0,a;b;c
0,78;12;1
1,78;12;2
2,78;324;3
3,7;2;4
4,88;23;5
5,6;2;
6,56;11;6
7,7;12;7
8,56;21;7
9,346;2;8


Veri düzgün biçimde gelmedi. Veri okuma işlemlerinde en sık karşılaşılan problem budur.<br>
Paylaşılan veri seti genellikle csv ya da txt formunda olduğunda değişkenler birbirinden<br>
bazı ayraçlar ile ayrılır.

Ayraç olarak öntanımlı değer **","**'dür. Bize gelen veride ise **";"** kullanılmış.<br>
**sep** argümanı ile bu sorunu çözebiliriz.

In [183]:
#csv okuma
#pd.read_csv("reading_data/ornekcsv.csv", sep=";") 
pd.read_csv("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/ornekcsv.csv", sep=";")


Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [184]:
#txt okuma
#pd.read_csv("reading_data/duz_metin.txt")
pd.read_csv("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/duz_metin.txt")


Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


sep argümanını kullanmadık fakat veriler düzgün biçimde geldi.<br>
Düz metinlerde arada boşluk olsa dahi bunu fonksiyon görebiliyor.

#### **Excel Dosyası Okuma**

In [185]:
#pd.read_excel("reading_data/ornekx.xlsx")
pd.read_excel("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/ornekx.xlsx")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [186]:
#df = pd.read_excel("reading_data/ornekx.xlsx")
df = pd.read_excel("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/ornekx.xlsx")

In [187]:
type(df)

pandas.core.frame.DataFrame

DataFrame'lere yaptığımız tüm işlemleri artık burada da yapabiliriz.

In [188]:
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [189]:
df.columns = ("A", "B", "C") #column isimlerini değiştirdik.
df

Unnamed: 0,A,B,C
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


GitHub'da tek bir veri setini almak istediğimizde, veri setinin olduğu sayfada **Raw**<br>
butonuna tıklayıp verisetinin ham haline ulaşabiliriz. Buradaki verileri txt dosyasına<br>
kopyalayıp kullanabiliriz.

In [192]:
#sıfırdan txt okuma
#tips = pd.read_csv("reading_data/data.txt")
tips = pd.read_csv("C:/Users/Nano/Desktop/19042022/Academy Peak Documents/AcademyPeak-Python for Data Science/Python-For-Data-Science-Lecture-Notes/reading_data/data.txt")

In [193]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.00,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2
