## **Pandas Serisi Oluşturmak**

Pandas içerisinde yer alan veri tipleri değerleri, indeksleri ile beraber tutar.

In [1]:
import pandas as pd

In [2]:
pd.Series([10,88,3,4,5]) #pandas serisi olusturmak.

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [3]:
 seri = pd.Series([10,88,3,4,5])

In [4]:
type(seri)

pandas.core.series.Series

In [5]:
seri.axes #Serinin index bilgisine ulasiriz.

[RangeIndex(start=0, stop=5, step=1)]

In [6]:
seri.dtype

dtype('int64')

In [9]:
seri.size #eleman sayisi

5

In [10]:
seri.ndim #boyutu

1

In [11]:
seri.values #vektor formunda sadece degerlere ulasiriz.

array([10, 88,  3,  4,  5], dtype=int64)

In [7]:
seri.head() #ilk 5 eleman

0    10
1    88
2     3
3     4
4     5
dtype: int64

In [8]:
seri.head(3) #ilk 3 eleman

0    10
1    88
2     3
dtype: int64

In [9]:
seri.tail(3) #son 3 eleman

2    3
3    4
4    5
dtype: int64

**Index İsimlendirmesi**

In [10]:
pd.Series([23,24,25,26,27], index = [2,4,6,8,10])

2     23
4     24
6     25
8     26
10    27
dtype: int64

In [11]:
seri = pd.Series([23,24,25,26,27], index = ["a","b","c","d","e"])

In [13]:
seri

a    23
b    24
c    25
d    26
e    27
dtype: int64

In [14]:
seri["a"] #elemana erisme

23

In [15]:
seri["a":"c"] #serilerde slice islemi

a    23
b    24
c    25
dtype: int64

**Sözlük üzerinden seri oluşturmak**

In [16]:
sozluk={"reg":10, "log":11, "cart":12}

In [18]:
seri = pd.Series(sozluk)

In [19]:
seri

reg     10
log     11
cart    12
dtype: int64

**İki Seriyi Birleştirerek Seri Oluşturma**

In [20]:
pd.concat([seri, seri])

reg     10
log     11
cart    12
reg     10
log     11
cart    12
dtype: int64

## **Eleman İşlemleri**

In [23]:
import numpy as np
a = np.array([15,233,34,52,64])
seri = pd.Series(a) #NumPy Array'i uzerinden seri olusturalim
seri

0     15
1    233
2     34
3     52
4     64
dtype: int32

In [24]:
seri[0] #0 indexli eleman

15

In [25]:
seri[0:3] #3'e kadar olan elemanlar

0     15
1    233
2     34
dtype: int32

In [27]:
seri = pd.Series([133,244,355,467,234], index = ["reg","log","cart","pcv","rf"])
seri

reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64

In [29]:
seri.index #sadece indexler

Index(['reg', 'log', 'cart', 'pcv', 'rf'], dtype='object')

In [30]:
seri.keys #seri'nin key'lerini gosterir

<bound method Series.keys of reg     133
log     244
cart    355
pcv     467
rf      234
dtype: int64>

In [31]:
list(seri.items()) #key degerine karsilik gelen value'lari bir araya getirerek list olusturur.

[('reg', 133), ('log', 244), ('cart', 355), ('pcv', 467), ('rf', 234)]

In [32]:
seri.values #seri'nin sadece degerlerini gosterir

array([133, 244, 355, 467, 234], dtype=int64)

**Eleman Sorgulama**

In [33]:
"reg" in seri

True

In [34]:
"a" in seri

False

In [35]:
seri["reg"]

133

**Fancy Eleman**

In [37]:
seri[["rf","reg"]] #fancy ile eleman secme

rf     234
reg    133
dtype: int64

**Eleman Değiştirme**

In [39]:
seri["reg"] = 111
seri #atama yontemi ile tekrardan eleman atayabiliriz.

reg     111
log     244
cart    355
pcv     467
rf      234
dtype: int64

## **Pandas DataFrame Oluşturma**

Pandas DataFrame yapısal bir veri tipidir.

In [2]:
import pandas as pd
l = [5,12,37,62,14] #list olusturduk
l

[5, 12, 37, 62, 14]

pd.DataFrame(l, columns = ["degisken_ismi"]) #DataFrame olusturma

In [5]:
import numpy as np
m = np.arange(1,10).reshape(3,3)
m #3x3'luk bir matris

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
pd.DataFrame(m, columns=["var1","var2","var3"]) #2 boyutlu DataFrame

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


**Yapay zeka ve Veri Biliminde en çok kullanacağımız veri tipi DataFrame'dir.**

**DataFrame İsimlendirme**

In [7]:
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df.head(2)

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6


In [8]:
df.columns = ("col1","col2","col3") #Sutunlari yeniden isimlendirme
df

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


**DataFrame Özellikleri**

In [9]:
type(df)

pandas.core.frame.DataFrame

In [10]:
df.axes #Satir ve sutun bilgisi

[RangeIndex(start=0, stop=3, step=1),
 Index(['col1', 'col2', 'col3'], dtype='object')]

In [11]:
df.shape #boyut bilgisi

(3, 3)

In [12]:
df.ndim #boyut sayisi

2

In [13]:
df.size #eleman sayisi

9

In [14]:
df.values #DataFrame tipindeki veri yapisinin icersinden
          #Degerleri array tipinde aliyor.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
type(df.values)

numpy.ndarray

In [17]:
df.tail(1) #sondan 1. index

Unnamed: 0,col1,col2,col3
2,7,8,9


Diğer veri tiplerinde veri oluşturmak için çeşitli formatlar kullandık.<br>
Örneğin; NumPy array'i üzerinden oluşturduk list üzerinden oluşturduk ve buna<br>
benzer farklı formatlardan oluşturduk. Bu işlemler DataFrame için de geçerlidir.

In [18]:
a = np.array([1,2,3,4,5])

In [21]:
pd.DataFrame(a, columns = ["deg1"]) #numpy array'i ile df olusturduk.

Unnamed: 0,deg1
0,1
1,2
2,3
3,4
4,5


## **DataFrame Eleman İşlemleri**

In [1]:
import numpy as np
s1 = np.random.randint(10, size=5)
s2 = np.random.randint(10, size=5)
s3 = np.random.randint(10, size=5)

In [2]:
sozluk={"var1":s1,"var2":s2,"var3":s3} #array'lerden sozluk
sozluk

{'var1': array([0, 6, 2, 5, 7]),
 'var2': array([2, 1, 7, 6, 2]),
 'var3': array([3, 2, 3, 2, 3])}

In [4]:
import pandas as pd
df = pd.DataFrame(sozluk) #sozluk'den df
df

Unnamed: 0,var1,var2,var3
0,0,2,3
1,6,1,2
2,2,7,3
3,5,6,2
4,7,2,3


In [7]:
df[0:2] #0'dan 2'ye kadar

Unnamed: 0,var1,var2,var3
0,0,2,3
1,6,1,2


In [8]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
df.index = ["a","b","c","d","e"]

In [11]:
df

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [12]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [15]:
df["a":"c"]

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3


**Eleman Silme**

In [22]:
df.drop("a", axis=0) #0 ekseninden "a" indexli satiri sil.

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [17]:
df #sildi ancak kaydetmedi.

Unnamed: 0,var1,var2,var3
a,0,2,3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [23]:
df.drop("a", axis=0, inplace=True) #inplace argumani kalici olsun mu? anlamındadir.

In [24]:
df #kalici olarak silindi.

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


**Fancy**

In [26]:
l = ["c","e"]

In [27]:
df.drop(l, axis=0) #c ve e silindi

Unnamed: 0,var1,var2,var3
b,6,1,2
d,5,6,2


**Degiskenler icin**

In [31]:
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [32]:
"var1" in df

True

In [35]:
l = ["var1","var4","var2"]

In [37]:
for i in l:
    print(i in df) 

True
False
True


Bir değişken oluşturmak isteyelim fakat bu değişkenimizi DataFrame içinde <br>var olan değişkenlerden yapmak istediğimizi düşünelim.

In [38]:
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [39]:
df["var4"] = df["var1"] / df["var2"]

In [40]:
df

Unnamed: 0,var1,var2,var3,var4
b,6,1,2,6.0
c,2,7,3,0.285714
d,5,6,2,0.833333
e,7,2,3,3.5


**Değişken Silme**

In [43]:
df

Unnamed: 0,var1,var2,var3,var4
b,6,1,2,6.0
c,2,7,3,0.285714
d,5,6,2,0.833333
e,7,2,3,3.5


In [44]:
df.drop("var4", axis=1, inplace=True)
df

Unnamed: 0,var1,var2,var3
b,6,1,2
c,2,7,3
d,5,6,2
e,7,2,3


In [47]:
l = ["var1","var2"]
df.drop(l, axis=1)  #Fancy ile silme

Unnamed: 0,var3
b,2
c,3
d,2
e,3


## **Gözlem ve Değişken Seçimi: loc & iloc**

In [1]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,9,23,14
1,17,12,5
2,4,14,8
3,14,27,6
4,21,28,25
5,3,9,20
6,15,3,18
7,16,27,14
8,9,23,24
9,19,12,14


**loc:** tanımlandığı şekliyle seçim yapmak için kullanılır

In [None]:
df.loc[0:3] #veri setinin ilk halindeki indexlemeye sadik kalacak sekilde secim imkani verir.

**iloc:** alışık olduğumuz index'leme mantığıyla seçim yapar.

In [4]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,9,23,14
1,17,12,5
2,4,14,8


In [5]:
df.iloc[0,0]

9

In [10]:
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,9,23
1,17,12
2,4,14


In [11]:
df.loc[:3,"var3"]

0    14
1     5
2     8
3     6
Name: var3, dtype: int32

In [None]:
df.iloc[:3,"var3"] # hata verir.

Eğer değişken ya da satırlar ile ilgili mutlak bir değer işaretlemesi yapacaksak<br>
bu durumda **loc** kullanmamız gerekiyor.

Yani değişken ismi ile işaretleme yapacaksak **loc** kullanmalıyız.<br>
Index'lere göre işaretleme yapacaksak **iloc** kullanmalıyız.

In [13]:
df.iloc[:3,1:3]

Unnamed: 0,var2,var3
0,23,14
1,12,5
2,14,8


In [14]:
df.iloc[:3]["var3"]

0    14
1     5
2     8
Name: var3, dtype: int32

## **Koşullu Eleman İşlemleri**

In [1]:
import numpy as np
import pandas as pd
m = np.random.randint(1,30, size=(10,3))
df = pd.DataFrame(m, columns=["var1","var2","var3"])
df

Unnamed: 0,var1,var2,var3
0,8,14,15
1,5,10,11
2,8,26,10
3,21,8,10
4,24,21,2
5,2,12,9
6,21,28,21
7,25,17,14
8,4,14,11
9,11,19,18


In [2]:
df.var1

0     8
1     5
2     8
3    21
4    24
5     2
6    21
7    25
8     4
9    11
Name: var1, dtype: int32

In [4]:
df[df.var1 > 15]["var1"]

3    21
4    24
6    21
7    25
Name: var1, dtype: int32

In [5]:
df[(df.var1 > 15) & (df.var3 < 5)]

Unnamed: 0,var1,var2,var3
4,24,21,2


In [8]:
df.loc[(df.var1 > 15),["var1","var2"]]

Unnamed: 0,var1,var2
3,21,8
4,24,21
6,21,28
7,25,17


In [9]:
df[(df.var1 > 15)][["var1","var2"]]

Unnamed: 0,var1,var2
3,21,8
4,24,21
6,21,28
7,25,17


## **Birleştirme (Join) İşlemleri**

In [3]:
import pandas as pd
import numpy as np
m = np.random.randint(1,30, size=(5,3))
df1 = pd.DataFrame(m, columns=["var1","var2","var3"])
df1

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19


In [5]:
df2 = df1 + 99
df2

Unnamed: 0,var1,var2,var3
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


In [6]:
pd.concat([df1,df2])

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


Birleştirme işlemi yaptık fakat indexlerde bir karmaşıklık oldu.

In [9]:
pd.concat([df1,df2],ignore_index = True)

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19
5,111,108,104
6,104,114,111
7,101,127,101
8,119,111,105
9,113,124,118


In [12]:
df2.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [14]:
df2.columns = ["var1","var2","deg3"]
df2

Unnamed: 0,var1,var2,deg3
0,111,108,104
1,104,114,111
2,101,127,101
3,119,111,105
4,113,124,118


In [15]:
df1

Unnamed: 0,var1,var2,var3
0,12,9,5
1,5,15,12
2,2,28,2
3,20,12,6
4,14,25,19


In [16]:
pd.concat([df1, df2])

Unnamed: 0,var1,var2,var3,deg3
0,12,9,5.0,
1,5,15,12.0,
2,2,28,2.0,
3,20,12,6.0,
4,14,25,19.0,
0,111,108,,104.0
1,104,114,,111.0
2,101,127,,101.0
3,119,111,,105.0
4,113,124,,118.0


Bir veri setinin diğerinde karşılığı olmadığı için böyle bir sorun yaşıyoruz.

Bu sorunu kısmi olarak aşabiliriz.

**join = "inner"** argümanı ile veri setlerinin kesişimlerini alabiliriz.

In [17]:
pd.concat([df1,df2], join="inner") #kesisimlerini alir.

Unnamed: 0,var1,var2
0,12,9
1,5,15
2,2,28
3,20,12
4,14,25
0,111,108
1,104,114
2,101,127
3,119,111
4,113,124


In [57]:
pd.concat([df1, df2], axis=1).reindex(df1.index)

Unnamed: 0,var1,var2,var3,var1.1,var2.1,deg3
0,12,9,5,111,108,104
1,5,15,12,104,114,111
2,2,28,2,101,127,101
3,20,12,6,119,111,105
4,14,25,19,113,124,118


## **İleri Birleştirme İşlemleri**

**Birebir Birleştirme**: <br>Tüm elemanların iki veri setinde de birebir yer alması durumudur.

In [1]:
import pandas as pd
df1 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "grup":["Muhasebe","Muhendislik","Muhendislik","IK"]})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [2]:
df2 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayse","Fatma"],
                "ilk_giris":[2010,2009,2014,2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ali,2010
1,Veli,2009
2,Ayse,2014
3,Fatma,2019


In [3]:
pd.merge(df1,df2)

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Merge()** Fonksiyonu birleştirme işleminin hangi değişkene göre yapılacağını kendisi anlıyor. <br>Eğer bunu belirtmek istersek **on** argümanı aracılığı ile belirtebiliriz.<br>
Her iki veri setinde de calisanlar olduğu için bu veri setlerini calisanlar’a göre birleştirdi.


In [8]:
pd.merge(df1, df2, on="calisanlar")

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


**Many to one** (Çoktan teke)

In [9]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayse,Muhendislik,2014
3,Fatma,IK,2019


In [10]:
df4 = pd.DataFrame({"grup":["Muhasebe","Muhendislik","IK"],
                   "mudur":["Caner","Mustafa","Berkcan"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,IK,Berkcan


In [14]:
pd.merge(df3,df4) #Many to one birlestirme.

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2010,Caner
1,Veli,Muhendislik,2009,Mustafa
2,Ayse,Muhendislik,2014,Mustafa
3,Fatma,IK,2019,Berkcan


**Many to Many** (Çoktan çoka)

In [19]:
df5 = pd.DataFrame({'grup' : ['Muhasebe','Muhasebe','Muhendislik','Muhendislik','IK','IK'],
                   'yetenekler' : ['Matematik','Excel','Kodlama','Linux','Excel','Yonetim']})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,Matematik
1,Muhasebe,Excel
2,Muhendislik,Kodlama
3,Muhendislik,Linux
4,IK,Excel
5,IK,Yonetim


In [17]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayse,Muhendislik
3,Fatma,IK


In [21]:
pd.merge(df1,df5) #Many to Many

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,Matematik
1,Ali,Muhasebe,Excel
2,Veli,Muhendislik,Kodlama
3,Veli,Muhendislik,Linux
4,Ayse,Muhendislik,Kodlama
5,Ayse,Muhendislik,Linux
6,Fatma,IK,Excel
7,Fatma,IK,Yonetim


# **Aggregation & Grouping** (Toplulaştırma ve Gruplama)



Basit toplulaştırma fonksiyonları:
* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()
* sum()

In [1]:
import seaborn as sns #Bu kütüphanemiz içerisindeki bazı veri setlerini kullanıcaz.

In [6]:
df = sns.load_dataset("planets") #planets isimli dataset'i kullandik.
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [7]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Artık satırlara **gözlem**, sütunlara ise **değişken** demeye alışmalıyız.

In [8]:
df.shape

(1035, 6)

dataset'in 1035 gözlem, 6 değişkenden oluştuğunu gözlemlemekteyiz.

In [9]:
df.mean() #Tüm değişkenlerin ortalamaları

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [10]:
df["mass"].mean() # mass değişkeninin ortalaması.

2.6381605847953216

In [12]:
df.count() #Degiskenlerdeki gözlem sayıları.

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [13]:
df.min() #Minimum değerler

method            Astrometry
number                     1
orbital_period     0.0907063
mass                  0.0036
distance                1.35
year                    1989
dtype: object

In [14]:
df.max() #Maximum değerler

method            Transit Timing Variations
number                                    7
orbital_period                       730000
mass                                     25
distance                               8500
year                                   2014
dtype: object

In [15]:
df.sum() # Değişkenlerin değerlerinin toplamı

method            Radial VelocityRadial VelocityRadial VelocityR...
number                                                         1848
orbital_period                                          1.98689e+06
mass                                                        1353.38
distance                                                     213368
year                                                        2079388
dtype: object

In [16]:
df.std() #Değişkenlerin standart sapması

number                1.240976
orbital_period    26014.728304
mass                  3.818617
distance            733.116493
year                  3.972567
dtype: float64

In [17]:
df.var() #Değişkenlerin varyansı

number            1.540022e+00
orbital_period    6.767661e+08
mass              1.458183e+01
distance          5.374598e+05
year              1.578129e+01
dtype: float64

In [18]:
df.describe() #Verisetindeki tüm değişkenleri betimsel istatistikleri anlamında görebiliyoruz.

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [19]:
df.describe().T #Transpozu alındığında

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


Elimizdeki verisetinin eksik gözlemleri silip describe yapmak istediğimizde<br>
**dropna()** fonskiyonunu kullanırız.

In [20]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


## **Grouping**

In [26]:
import pandas as pd
df = pd.DataFrame({'gruplar' : ['A','B','C','A','B','C'],
                  'veri' : [10,11,52,23,43,55]}, columns=['gruplar','veri'])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


Genelde gruplama işlemleri ile toplulaştırma(Aggregation) işlemleri bir arada kullanılır.

In [27]:
df.groupby("gruplar") #gruplar içerisindeki grupları yakaladı.

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000018B7EA5D648>

In [28]:
df.groupby("gruplar").mean() # Ortalamasini aldi.

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,16.5
B,27.0
C,53.5


In [30]:
df.groupby("gruplar").sum()

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [33]:
import seaborn as sns
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [37]:
df.groupby("method")["orbital_period"].describe()
#method'a göre grupla. orbital_period değişkeninin istatistiki degerlerini al.

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


## **İleri Toplulaştırma İşlemleri**(Aggregate, filter, transform, apply)

### **Aggregate**

In [38]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [40]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [46]:
import numpy as np
df.groupby("gruplar").aggregate(["min", np.median, max])

#Yaptığımız gruplama içerisinde kendi istediğimiz istatistiki değerleri
#bir arada görmek için aggragate kullanırız.

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


İki değişken için iki ayrı istatistiki hesaplama yapmak istiyoruz.

In [49]:
df.groupby("gruplar").aggregate({"degisken1" : "min", "degisken2" : np.median})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,181
B,11,182
C,33,651


### **Filter**

Pandas'ın sunduğu özelliklerden daha karmaşık bir isteğimiz<br>
olduğunda kendi fonksiyonumuzu yazıp ona göre filtreleyebiliriz.

In [1]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df


Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [6]:
def filter_func(x):
    return x["degisken1"].std() > 9
#degisken1'e göre standart sapması 9'dan büyük olan değerler

In [7]:
df.groupby("gruplar").std() #standart sapmalar

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.485281,114.551299
B,8.485281,100.409163
C,46.669048,449.719913


In [8]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


Aynı işlemin **lambda** ile çözümü:

In [9]:
df.groupby("gruplar").filter(lambda x : x["degisken1"].std() > 9)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


## **transform**

Kendi tanımladığımız bir fonksiyonu değişkenler üzerinde uygulayabiliyoruz.

In [2]:
import pandas as pd
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                  "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [3]:
df["degisken1"]*9

0     90
1    207
2    297
3    198
4     99
5    891
Name: degisken1, dtype: int64

In [16]:
df_a = df.iloc[:, 1:3]
df_a

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


Birazdan yapacağımız işlem sayısal bir işlem olduğundan gruplar değişkenine<br>
uygulamak istediğimizde hata ile karşılaşmamak için, yukarıdaki gibi gruplar'ı<br>
ayrı tutmamız gerekiyor.

In [5]:
df_a.transform(lambda x : x-x.mean())
#yakalamış olduğu bütün elemanlardan o değişkenin ortalamasını çıkartacak.

Unnamed: 0,degisken1,degisken2
0,-23.0,-238.0
1,-10.0,-85.0
2,0.0,-5.0
3,-11.0,-76.0
4,-22.0,-227.0
5,66.0,631.0


## **Apply**

In [4]:
import pandas as pd
import numpy as np
df = pd.DataFrame({"degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["degisken1","degisken2"])
df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


**apply()** fonksiyonu tıpkı transform fonksiyonu ve filter fonksiyonu gibi<br>
değişkenlerin üzerinde gezinme yeteneği olan ve **aggregation**(toplulaştırma)<br>
amacıyla kullanılacak olan bir fonksiyondur.

In [9]:
df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [8]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [12]:
df = pd.DataFrame({"gruplar" : ["A","B","C","A","B","C"],
                    "degisken1" : [10,23,33,22,11,99],
                  "degisken2" : [100,253,333,262,111,969]},
                 columns = ["gruplar","degisken1","degisken2"])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [14]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


In [18]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [26]:
df.groupby("gruplar").apply(lambda x : (x["degisken1"]-x["degisken2"]))

gruplar   
A        0    -90
         3   -240
B        1   -230
         4   -100
C        2   -300
         5   -870
dtype: int64

Bu işlemi apply ile yapabiliriz ancak transform hata verir.

# **Pivot Tablolar**

Veri setleri üzerinde bazı satır ve sütun işlemleri yaparak, veri setini amaca uygun hale getirmek için kullanılan yapılardır.

**groupby()**'ın çok boyutlu versiyonu olarak düşünülebilir.

In [27]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Cinsiyete göre gruplayıp hayatta olma ortalamalarına bakalım.

In [30]:
titanic.groupby("sex")["survived"].mean() 

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

In [31]:
titanic.groupby("sex")[["survived"]].mean()  #Basit bir pivot işlemi.
# değişken etrafına köşeli parantez ekleyerek dataset olarak gözlemleyelim.

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Cinsiyete ve class'a göre ölüm ortalamaları:

In [37]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.968085
female,Second,0.921053
female,Third,0.5
male,First,0.368852
male,Second,0.157407
male,Third,0.135447


In [39]:
titanic.groupby(["sex","class"])["survived"].aggregate("mean").unstack()
#unstack bizi hiyerarsik görünümden kurtarır.,

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Bir boyut daha ekleyerek pivot table oluşturduk.

In [40]:
#Pivot ile table

In [57]:
titanic.pivot_table("survived", index = "sex", columns = "class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [45]:
titanic.age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

Bu sürekli değişkeni bir kategorik değişkene çevirip, bu kategorik <br>
değişkenin sınıflarını da pivot table'a boyut olarak ekleyelim.

In [54]:
age = pd.cut(titanic["age"], [0,18,90])
age.head(15)

0     (18.0, 90.0]
1     (18.0, 90.0]
2     (18.0, 90.0]
3     (18.0, 90.0]
4     (18.0, 90.0]
5              NaN
6     (18.0, 90.0]
7      (0.0, 18.0]
8     (18.0, 90.0]
9      (0.0, 18.0]
10     (0.0, 18.0]
11    (18.0, 90.0]
12    (18.0, 90.0]
13    (18.0, 90.0]
14     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

Sürekli bir değişken olan age değişkenini kategorik değişken haline getirdik.

In [58]:
titanic.pivot_table("survived",["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


# **Dış Kaynaklı Veri Okuma**

**.txt** formunu ve **.csv** formunu aynı fonksiyon ile okuyabiliyoruz.

In [1]:
import pandas as pd

In [2]:
pd.read_csv("reading_data/ornekcsv.csv")

Unnamed: 0,a;b;c
0,78;12;1
1,78;12;2
2,78;324;3
3,7;2;4
4,88;23;5
5,6;2;
6,56;11;6
7,7;12;7
8,56;21;7
9,346;2;8


Veri düzgün biçimde gelmedi. Veri okuma işlemlerinde en sık karşılaşılan problem budur.<br>
Paylaşılan veri seti genellikle csv ya da txt formunda olduğunda değişkenler birbirinden<br>
bazı ayraçlar ile ayrılır.

Ayraç olarak öntanımlı değer **","**'dür. Bize gelen veride ise **";"** kullanılmış.<br>
**sep** argümanı ile bu sorunu çözebiliriz.

In [4]:
#csv okuma
pd.read_csv("reading_data/ornekcsv.csv", sep=";")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [6]:
#txt okuma
pd.read_csv("reading_data/duz_metin.txt")

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


sep argümanını kullanmadık fakat veriler düzgün biçimde geldi.<br>
Düz metinlerde arada boşluk olsa dahi bunu fonksiyon görebiliyor.

#### **Excel Dosyası Okuma**

In [9]:
pd.read_excel("reading_data/ornekx.xlsx")

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [10]:
df = pd.read_excel("reading_data/ornekx.xlsx")

In [11]:
type(df)

pandas.core.frame.DataFrame

DataFrame'lere yaptığımız tüm işlemleri artık burada da yapabiliriz.

In [12]:
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [14]:
df.columns = ("A", "B", "C") #column isimlerini değiştirdik.
df

Unnamed: 0,A,B,C
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


GitHub'da tek bir veri setini almak istediğimizde, veri setinin olduğu sayfada **Raw**<br>
butonuna tıklayıp verisetinin ham haline ulaşabiliriz. Buradaki verileri txt dosyasına<br>
kopyalayıp kullanabiliriz.

In [15]:
#sıfırdan txt okuma
tips = pd.read_csv("reading_data/data.txt")

In [18]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
