# Pandas Giriş

## Pandas Series

In [1]:
import numpy as np
import pandas as pd

### Liste Üzerinden Pandas Series Oluşturma

In [2]:
pd.Series([1,2,3,4])

0    1
1    2
2    3
3    4
dtype: int64

### Pandas Series Özellikleri

In [3]:
seri = pd.Series([1,2,3,4])
seri

0    1
1    2
2    3
3    4
dtype: int64

In [4]:
type(seri)

pandas.core.series.Series

In [5]:
seri.axes 
# 0'dan başlayıp, 4'e kadar, 1 atlayarak ilerlemiş

[RangeIndex(start=0, stop=4, step=1)]

In [6]:
seri.dtype # Tipini gösterir

dtype('int64')

In [7]:
seri.empty # Boş bir değer mi?

False

In [8]:
seri.ndim # Boyutunu gösterir

1

In [9]:
seri.size # Eleman sayısını gösterir

4

In [10]:
seri.index # Index bilgileri 

RangeIndex(start=0, stop=4, step=1)

In [11]:
seri.values # Sadece değerlerini döndürür

array([1, 2, 3, 4], dtype=int64)

In [12]:
seri.head(2) # İlk 2 değerine erişiriz

0    1
1    2
dtype: int64

In [13]:
seri[0:2] # Slice 

0    1
1    2
dtype: int64

In [14]:
seri.tail(2) # Son 2 değerine erişiriz

2    3
3    4
dtype: int64

### NumPy Array'i Üzerinden Pandas Series Oluşturma

In [15]:
a = np.array([1,2,3,45,65,76])
a

array([ 1,  2,  3, 45, 65, 76])

In [16]:
type(a) # Pandas Series type

numpy.ndarray

In [17]:
seri = pd.Series(a)
seri

0     1
1     2
2     3
3    45
4    65
5    76
dtype: int32

In [18]:
seri.index # Index bilgileri

RangeIndex(start=0, stop=6, step=1)

In [19]:
seri[0]

1

In [20]:
pd.Series([1,2,3,4,56,767,877], index = [1,3,5,7,9,11,13])
# Series'e kendimiz index atayabiliriz

1       1
3       2
5       3
7       4
9      56
11    767
13    877
dtype: int64

In [21]:
seri = pd.Series([1,2,3,4,56,767,877], index = [1,"a",5,"c",9,"e",13])
# Series'e kendimiz index atayabiliriz. Bu indexler str de olabilir.

In [22]:
seri["a"]

2

### Sözlük Üzerinden Pandas Series Oluşturma

In [23]:
sozluk = {"key1": "value1", "key2":"value2", "key3":"value3"}

In [24]:
seri = pd.Series(sozluk)
seri

key1    value1
key2    value2
key3    value3
dtype: object

In [25]:
seri["key1"]

'value1'

In [26]:
seri["key2":"key3"]
# Bu tür işlemlerde index değerlerinin direk adı yazılırsa 'e kadar mantığı yoktur

key2    value2
key3    value3
dtype: object

In [27]:
seri[1:2]

key2    value2
dtype: object

### İki Series Üzerinden Pandas Series Oluşturma

In [28]:
seri

key1    value1
key2    value2
key3    value3
dtype: object

In [29]:
pd.concat([seri,seri]) # Seri birleştirme

key1    value1
key2    value2
key3    value3
key1    value1
key2    value2
key3    value3
dtype: object

In [30]:
seri.append(seri) # Seri birleştirme

key1    value1
key2    value2
key3    value3
key1    value1
key2    value2
key3    value3
dtype: object

### Pandas Series Eleman İşlemleri

In [31]:
a = np.array([1,2,3,4,55,66])
seri = pd.Series(a)
seri

0     1
1     2
2     3
3     4
4    55
5    66
dtype: int32

In [32]:
seri[3] # indexing

4

In [33]:
seri[2:5] # slicing

2     3
3     4
4    55
dtype: int32

In [34]:
seri = pd.Series([121,200,150,99], index = ["reg","loj","cart","rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [35]:
seri.index # Index bilgileri

Index(['reg', 'loj', 'cart', 'rf'], dtype='object')

In [36]:
seri.keys

<bound method Series.keys of reg     121
loj     200
cart    150
rf       99
dtype: int64>

In [37]:
list(seri.items())

[('reg', 121), ('loj', 200), ('cart', 150), ('rf', 99)]

In [38]:
seri.values

array([121, 200, 150,  99], dtype=int64)

In [39]:
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [40]:
"knn" in seri # Seri içinde "knn" var mı?

False

In [41]:
"reg" in seri # Seri içinde "reg" var mı?

True

In [42]:
seri["reg"] # indexing

121

In [43]:
seri[["rf","reg"]] # fancy indexing

rf      99
reg    121
dtype: int64

In [44]:
seri["rf"] =  125 # değeri değiştirme

In [45]:
seri["rf"]

125

In [46]:
seri["loj":"rf"] # 'e kadar mantığı yok

loj     200
cart    150
rf      125
dtype: int64

In [47]:
seri[0:2]

reg    121
loj    200
dtype: int64

In [48]:
seri = pd.Series([121, 200, 150, 99], index = ["reg", "loj", "cart", "rf"])
seri

reg     121
loj     200
cart    150
rf       99
dtype: int64

In [49]:
seri[(seri > 125) & (seri < 200)]

cart    150
dtype: int64

In [50]:
data = pd.Series(["a","b","c"], index = [1,3,5])
data

1    a
3    b
5    c
dtype: object

In [51]:
data[0] # Hata

KeyError: 0

In [52]:
data[1]

'a'

In [53]:
data[1:3] # Bizim verdiğimiz index'leri görmezden geldi

3    b
5    c
dtype: object

In [54]:
data[0:2]

1    a
3    b
dtype: object

In [55]:
# loc (label based indexing, tanımlanan şekli ile index yakalamak)

In [56]:
data

1    a
3    b
5    c
dtype: object

In [57]:
data.loc[1]

'a'

In [58]:
data.loc[0:3] # e'kadar mantığı yok.

1    a
3    b
dtype: object

In [59]:
# iloc (Positional indexing, index'i sıfırlayarak yakalamak. Başlangıcı 0 kabul eder.)

In [60]:
data

1    a
3    b
5    c
dtype: object

In [61]:
data.iloc[2]

'c'

In [62]:
data.iloc[0:2]

1    a
3    b
dtype: object

## Pandas DataFrame

### Liste Üzerinden DataFrame Oluşturma

In [63]:
l = [1,4,6,8,66]

In [64]:
df = pd.DataFrame(l, columns = ["degisken_ismi"])
df # columns (sütünlara verilen isimler)

Unnamed: 0,degisken_ismi
0,1
1,4
2,6
3,8
4,66


### DataFrame Özellikleri

In [65]:
type(df) # DataFrame type

pandas.core.frame.DataFrame

In [66]:
df.axes
# index özellikleri

[RangeIndex(start=0, stop=5, step=1), Index(['degisken_ismi'], dtype='object')]

In [67]:
df.shape # Boyut bilgisi

(5, 1)

In [68]:
df.ndim # Boyut sayısı

2

In [69]:
df.size # Toplam eleman sayısı

5

In [70]:
df.values # Değerler

array([[ 1],
       [ 4],
       [ 6],
       [ 8],
       [66]], dtype=int64)

In [71]:
df.head(2) # Baştan ilk 2

Unnamed: 0,degisken_ismi
0,1
1,4


In [72]:
df.tail(2) # Sondan son 2

Unnamed: 0,degisken_ismi
3,8
4,66


### NumPy Array'i Üzerinden DataFrame Oluşturma

In [73]:
a = np.array([1,2,3,4,56,78])

In [74]:
pd.DataFrame(a, columns = ["degisken_ismi"])

Unnamed: 0,degisken_ismi
0,1
1,2
2,3
3,4
4,56
5,78


In [75]:
m = np.arange(1,10).reshape(3,3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [76]:
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"])
df

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


In [77]:
df.columns # Sütun isimleri

Index(['var1', 'var2', 'var3'], dtype='object')

In [78]:
df.columns = ("deg1","deg2","deg3")
# Sütün isimlerini dışardan atama
df

Unnamed: 0,deg1,deg2,deg3
0,1,2,3
1,4,5,6
2,7,8,9


In [79]:
df = pd.DataFrame(m, columns = ["var1", "var2", "var3"], index = ["a","b","c"])
df

Unnamed: 0,var1,var2,var3
a,1,2,3
b,4,5,6
c,7,8,9


.

.

.

### Pandas Series Üzerinden DataFrame Oluşturma

In [80]:
pd.Series([1,2,3,4])

0    1
1    2
2    3
3    4
dtype: int64

In [81]:
pd.DataFrame(pd.Series([1,2,3,4]), columns = ["deger_ismi"])

Unnamed: 0,deger_ismi
0,1
1,2
2,3
3,4


In [82]:
bir = pd.Series([1,2,3,4])
iki = pd.Series([1,2,3,4])

In [83]:
pd.DataFrame({"degisken1": bir, "degisken2": iki})

Unnamed: 0,degisken1,degisken2
0,1,1
1,2,2
2,3,3
3,4,4


.

.

.

### Sözlük Üzerinden DataFrame Oluşturma

In [84]:
sozluk = {"reg": {"RMSE": 10,
                  "MSE": 11,
                  "SSE": 90},
          
          "loj": {"RMSE":89,
                  "MSE": 12,
                  "SSE": 45},
          
          "cart": {"RMSE": 45,
                   "MSE": 22,
                   "SSE": 11}}

In [85]:
pd.DataFrame(sozluk)

Unnamed: 0,reg,loj,cart
RMSE,10,89,45
MSE,11,12,22
SSE,90,45,11


### DataFrame Eleman İşlemleri

In [86]:
s1 = np.random.randint(0,10,5)
s2 = np.random.randint(0,10,5)
s3 = np.random.randint(0,10,5)

df = pd.DataFrame({"var1":s1, "var2":s2, "var3":s3})
df

Unnamed: 0,var1,var2,var3
0,8,6,1
1,3,4,9
2,1,1,4
3,6,9,0
4,1,3,7


.

#### Gözlem Seçme İşlemleri

In [87]:
df[1:4] 
# index e göre direk gözlem seçilebilir

Unnamed: 0,var1,var2,var3
1,3,4,9
2,1,1,4
3,6,9,0


In [88]:
df.index = ["a","b","c","d","e"]
# indexi dışardan atama yapmak
df

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
c,1,1,4
d,6,9,0
e,1,3,7


In [89]:
df["a":"c"]
# direk isim yazdığımızdan dolayı e'kadar mantığı yok

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
c,1,1,4


In [90]:
df.drop("c", axis = 0)
# c satrıını sil

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
d,6,9,0
e,1,3,7


In [91]:
df # işlem kalıcı olarak uygulanmaz

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
c,1,1,4
d,6,9,0
e,1,3,7


In [92]:
df.drop("c", axis = 0, inplace = True)
# inplace argümanı true ise işlem kalıcı uygulanır

In [93]:
df

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
d,6,9,0
e,1,3,7


In [94]:
l = ["a","d"]

In [95]:
df.drop(l, axis = 0)
# Birden çok satır silmek için liste kullanılabilir

Unnamed: 0,var1,var2,var3
b,3,4,9
e,1,3,7


#### Değişkenlere Erişmek ve Değişken Seçim İşlemleri

In [96]:
df

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
d,6,9,0
e,1,3,7


In [97]:
"var1" in df
# df'in içinde "var1" var mı?

True

In [98]:
l = ["var1","var2", "var4"]

In [99]:
for i in l:
    print(i in df)
# liste yardımıyla döngü halinde sorgulayabiliriz

True
True
False


In [100]:
df["var1"] is df["var2"]
# df'in içindeki "var1", "var2"ye eşit mi? 

False

In [101]:
df["var1"] is df["var1"]
# df'in içindeki "var1", "var1"e eşit mi? 

True

In [102]:
df["var2"]
# var2 değişkeni

a    6
b    4
d    9
e    3
Name: var2, dtype: int32

In [103]:
df.var1
# Matematiksel işlemlerde bu şekilde kullanılabilir

a    8
b    3
d    6
e    1
Name: var1, dtype: int32

In [104]:
df[["var1","var2"]]
# Değişkenleri slicing ile ulaşamayız. 
# Liste yardımı ile ulaşılır.

Unnamed: 0,var1,var2
a,8,6
b,3,4
d,6,9
e,1,3


In [105]:
l = ["var1","var2"]

In [106]:
df[l]

Unnamed: 0,var1,var2
a,8,6
b,3,4
d,6,9
e,1,3


In [107]:
df

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
d,6,9,0
e,1,3,7


In [108]:
df["var4"] = df["var1"]*df["var2"]
# yeni bir değişken oluşturmak

In [109]:
df

Unnamed: 0,var1,var2,var3,var4
a,8,6,1,48
b,3,4,9,12
d,6,9,0,54
e,1,3,7,3


In [110]:
df.drop("var4",axis = 1, inplace = True)
# değişkenleri yani sütunları silmek

In [111]:
df

Unnamed: 0,var1,var2,var3
a,8,6,1
b,3,4,9
d,6,9,0
e,1,3,7


#### Gözlem ve Değişkenlere Birlikte Erişmek

In [112]:
s1 = np.random.randint(0,10,5)
s2 = np.random.randint(0,10,5)
s3 = np.random.randint(0,10,5)

df = pd.DataFrame({"var1":s1, "var2":s2, "var3":s3})
df

Unnamed: 0,var1,var2,var3
0,3,2,4
1,1,2,2
2,0,0,8
3,0,2,1
4,6,6,7


In [113]:
df.loc[0:3] 
# Bizim atadığımız gözlem ve değişkenlere göre seçim yapar.
# e'kadar mantığı yoktur

Unnamed: 0,var1,var2,var3
0,3,2,4
1,1,2,2
2,0,0,8
3,0,2,1


In [114]:
df.iloc[0:3]
# Başlangıcı 0 olarak kabul eder ve ona göre seçim yapar

Unnamed: 0,var1,var2,var3
0,3,2,4
1,1,2,2
2,0,0,8


In [115]:
df.iloc[0,0] # [satır,sutun] şeklinde veriye ulaşmak

3

In [116]:
df.iloc[0:4,0:3] 
# [gözlem_başlangıç : gözlem_bitiş , değişken_başlangıç : değişken_bitiş]

Unnamed: 0,var1,var2,var3
0,3,2,4
1,1,2,2
2,0,0,8
3,0,2,1


In [117]:
df = pd.DataFrame({"var1":s1, "var2":s2, "var3":s3}, index = ["a","b","c","d","e"])
df

Unnamed: 0,var1,var2,var3
a,3,2,4
b,1,2,2
c,0,0,8
d,0,2,1
e,6,6,7


In [118]:
df.loc["b":"d","var2":"var3"]
# [gözlem_başlangıç : gözlem_bitiş , değişken_başlangıç : değişken_bitiş]
# e'kadar mantığı yok

Unnamed: 0,var2,var3
b,2,2
c,0,8
d,2,1


In [119]:
df.iloc[2:5,1:3]

Unnamed: 0,var2,var3
c,0,8
d,2,1
e,6,7


In [120]:
df[df.var1>=5]
# Matematiksel işlem yaparken bu şekilde kullanılır.

Unnamed: 0,var1,var2,var3
e,6,6,7


In [121]:
df[df.var1>=5]["var1"]

e    6
Name: var1, dtype: int32

In [122]:
df[(df.var1 > 4) & (df.var1%2 == 1)]

Unnamed: 0,var1,var2,var3


In [123]:
df[(df.var1 > 4) | (df.var1%2 == 1)]

Unnamed: 0,var1,var2,var3
a,3,2,4
b,1,2,2
e,6,6,7


In [124]:
df.loc[(df.var1 > 4), ["var1","var2"]]

Unnamed: 0,var1,var2
e,6,6


### Birleştirme İşlemleri

#### concat() ile birleştirme

In [125]:
import numpy as np
import pandas as pd

s1 = np.random.randint(0,10,5)
s2 = np.random.randint(0,10,5)
s3 = np.random.randint(0,10,5)

df = pd.DataFrame({"var1":s1, "var2":s2, "var3":s3})
df

Unnamed: 0,var1,var2,var3
0,8,3,0
1,9,6,6
2,5,9,8
3,2,9,3
4,5,2,2


In [126]:
df2 = df + 99
df2

Unnamed: 0,var1,var2,var3
0,107,102,99
1,108,105,105
2,104,108,107
3,101,108,102
4,104,101,101


In [127]:
pd.concat([df,df2], axis = 1)
# sütun şeklinde birleştirme

Unnamed: 0,var1,var2,var3,var1.1,var2.1,var3.1
0,8,3,0,107,102,99
1,9,6,6,108,105,105
2,5,9,8,104,108,107
3,2,9,3,101,108,102
4,5,2,2,104,101,101


In [128]:
pd.concat([df,df2])
# satır şeklinde birleştirme

Unnamed: 0,var1,var2,var3
0,8,3,0
1,9,6,6
2,5,9,8
3,2,9,3
4,5,2,2
0,107,102,99
1,108,105,105
2,104,108,107
3,101,108,102
4,104,101,101


In [129]:
pd.concat([df,df2], ignore_index = True)
# index'i otomatik kurallı bir şekilde tanımlar

Unnamed: 0,var1,var2,var3
0,8,3,0
1,9,6,6
2,5,9,8
3,2,9,3
4,5,2,2
5,107,102,99
6,108,105,105
7,104,108,107
8,101,108,102
9,104,101,101


In [130]:
df2.columns = ["var1","var2","deg3"]
df2
# değişken ismi değişik

Unnamed: 0,var1,var2,deg3
0,107,102,99
1,108,105,105
2,104,108,107
3,101,108,102
4,104,101,101


In [131]:
df
# değişken ismi değişik

Unnamed: 0,var1,var2,var3
0,8,3,0
1,9,6,6
2,5,9,8
3,2,9,3
4,5,2,2


In [132]:
pd.concat([df,df2], ignore_index = True)
# değişken isimleri değişik DataFrame'leri birleştirme

Unnamed: 0,var1,var2,var3,deg3
0,8,3,0.0,
1,9,6,6.0,
2,5,9,8.0,
3,2,9,3.0,
4,5,2,2.0,
5,107,102,,99.0
6,108,105,,105.0
7,104,108,,107.0
8,101,108,,102.0
9,104,101,,101.0


In [133]:
pd.concat([df,df2], ignore_index = True, join = "inner")
# NaN olan sütunları kaldırır

Unnamed: 0,var1,var2
0,8,3
1,9,6
2,5,9
3,2,9
4,5,2
5,107,102
6,108,105
7,104,108
8,101,108
9,104,101


In [134]:
# pd.concat([df,df2], join_axes = [df.columns])

.

.

#### Merge ve Join ile birleştirme işlemleri

In [135]:
df1 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayşe","Fatma"], 
                    "grup": ["Muhasebe","Muhendislik","Muhendislik","IK"]})
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayşe,Muhendislik
3,Fatma,IK


In [136]:
df2 = pd.DataFrame({"calisanlar": ["Ayşe","Ali","Veli","Fatma"],
                    "ilk_giris": [2010,2009,2014,2019]})
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ayşe,2010
1,Ali,2009
2,Veli,2014
3,Fatma,2019


In [137]:
df4 = pd.DataFrame({"grup": ["Muhasebe","Muhendislik","IK"],
                    "mudur": ["Caner","Mustafa","Berkcan"]})
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,IK,Berkcan


In [138]:
df5 = pd.DataFrame({"grup": ["Muhasebe","Muhasebe","Muhendislik","Muhendislik","IK","IK"],
                    "yetenekler": ["matematik","excel","kodlama","linux","excel","yonetim"]})
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,matematik
1,Muhasebe,excel
2,Muhendislik,kodlama
3,Muhendislik,linux
4,IK,excel
5,IK,yonetim


##### One to One

In [139]:
pd.merge(df1,df2)
# Bire bir "calisanlar" değişkenine göre birleştirme

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2009
1,Veli,Muhendislik,2014
2,Ayşe,Muhendislik,2010
3,Fatma,IK,2019


In [140]:
df3 = pd.merge(df1,df2, on = "calisanlar")

.

.

.

.

.

.

##### Many to One

In [141]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2009,Caner
1,Veli,Muhendislik,2014,Mustafa
2,Ayşe,Muhendislik,2010,Mustafa
3,Fatma,IK,2019,Berkcan


##### Many to Many

In [142]:
pd.merge(df1,df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,matematik
1,Ali,Muhasebe,excel
2,Veli,Muhendislik,kodlama
3,Veli,Muhendislik,linux
4,Ayşe,Muhendislik,kodlama
5,Ayşe,Muhendislik,linux
6,Fatma,IK,excel
7,Fatma,IK,yonetim


In [143]:
df3 = pd.DataFrame({"name": ["Ali","Veli","Ayşe","Fatam"],
                    "maas": [70000,80000,120000,90000]})
df3

Unnamed: 0,name,maas
0,Ali,70000
1,Veli,80000
2,Ayşe,120000
3,Fatam,90000


In [144]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayşe,Muhendislik
3,Fatma,IK


In [145]:
pd.merge(df1,df3, left_on = "calisanlar", right_on = "name")
# farklı değişken isimli DataFrame'leri belirli değişkenlere göre birleşitrme

Unnamed: 0,calisanlar,grup,name,maas
0,Ali,Muhasebe,Ali,70000
1,Veli,Muhendislik,Veli,80000
2,Ayşe,Muhendislik,Ayşe,120000


In [146]:
 pd.merge(df1,df3, left_on = "calisanlar", right_on = "name").drop("name", axis = 1)
# gerekesiz değişkeni drop ile silmek

Unnamed: 0,calisanlar,grup,maas
0,Ali,Muhasebe,70000
1,Veli,Muhendislik,80000
2,Ayşe,Muhendislik,120000


In [147]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayşe,Muhendislik
3,Fatma,IK


In [148]:
df1a = df1.set_index("calisanlar")
# "calisanlar" değişkenini index olarak belirlemek
df1a

Unnamed: 0_level_0,grup
calisanlar,Unnamed: 1_level_1
Ali,Muhasebe
Veli,Muhendislik
Ayşe,Muhendislik
Fatma,IK


In [149]:
df2a = df2.set_index("calisanlar")
# "calisanlar" değişkenini index olarak belirlemek
df2a

Unnamed: 0_level_0,ilk_giris
calisanlar,Unnamed: 1_level_1
Ayşe,2010
Ali,2009
Veli,2014
Fatma,2019


In [150]:
pd.merge(df1a,df2a, left_index = True, right_index = True)
# merge kullanarak index e göre birleştirme

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2009
Veli,Muhendislik,2014
Ayşe,Muhendislik,2010
Fatma,IK,2019


In [151]:
df1a.join(df2a)
# join ile kolay bir biçimde index'e göre birleştirme

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2009
Veli,Muhendislik,2014
Ayşe,Muhendislik,2010
Fatma,IK,2019


In [152]:
dfa = pd.DataFrame({"calisanlar": ["Ali","Veli","Ayşe","Fatma"],
                    "siralama": [1,2,3,4]})

dfa

Unnamed: 0,calisanlar,siralama
0,Ali,1
1,Veli,2
2,Ayşe,3
3,Fatma,4


In [153]:
dfb = pd.DataFrame({"calisanlar": ["Ali","Veli","Ayşe","Fatma"],
                    "siralama": [3,1,4,2]})

dfb

Unnamed: 0,calisanlar,siralama
0,Ali,3
1,Veli,1
2,Ayşe,4
3,Fatma,2


In [154]:
pd.merge(dfa,dfb, on = "calisanlar")
# Ayni değişkenleri olan ama "calisanlara" göre birleştirme işlemi yapmak

Unnamed: 0,calisanlar,siralama_x,siralama_y
0,Ali,1,3
1,Veli,2,1
2,Ayşe,3,4
3,Fatma,4,2


In [155]:
pd.merge(dfa,dfb, on = "calisanlar", suffixes = ["_Maas","_Deneyim"])
# Aynı değişkenleri var ama "calisanlar"a göre birleştirme yapıldı
# "siralama" değişkenleri aynı ama farklı değerler atıldığı zaman isim ataması yapmak

Unnamed: 0,calisanlar,siralama_Maas,siralama_Deneyim
0,Ali,1,3
1,Veli,2,1
2,Ayşe,3,4
3,Fatma,4,2


### Aggregation ve Gruplama İşlemleri

#### Basit Toplulaştırma İşlemleri

In [156]:
import seaborn as sns
# seaborn kütüphanesini import ettik

In [157]:
df = sns.load_dataset("planets")
# seaborn kütüphanesinden "planets" DateFrame'ini df'e atadık

In [158]:
df.head()
# df'in başdaki gözlemlerine erişmek

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [159]:
df.shape
# Boyut bilgisi

(1035, 6)

In [160]:
df.count()
# Sayma işlemi

method            1035
number            1035
orbital_period     992
mass               513
distance           808
year              1035
dtype: int64

In [161]:
df["mass"].count()
# Tek bir değişkeni sayma işlemi

513

In [162]:
df.describe().T
# df' Hakkında detaylı bilgi almak

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


* count()
* first()
* last()
* mean()
* median()
* min()
* max()
* std()
* var()

In [163]:
df.mean() # Sadece Ortalamasını almak

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

In [164]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


#### Gruplama İşlemleri

In [165]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                   "veri": [10,11,52,23,43,55]}, columns = ["gruplar","veri"])
df

Unnamed: 0,gruplar,veri
0,A,10
1,B,11
2,C,52
3,A,23
4,B,43
5,C,55


In [166]:
df.groupby("gruplar")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002561D1EF108>

In [167]:
df.groupby("gruplar").sum()
# "gruplar" değişkenine göre aynı olan gözlemleri toplama işlemi

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,33
B,54
C,107


In [168]:
df = sns.load_dataset("planets")

In [169]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [170]:
df.groupby("method")["orbital_period"].median()
# "method" değişkenine göre gruplamak ve "orbital_period"un medianını almak

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [171]:
df.groupby("method")["orbital_period"].describe()
# Ayrıntılı bilgi almak

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,631.18,544.217663,246.36,438.77,631.18,823.59,1016.0
Eclipse Timing Variations,9.0,4751.644444,2499.130945,1916.25,2900.0,4343.5,5767.0,10220.0
Imaging,12.0,118247.7375,213978.177277,4639.15,8343.9,27500.0,94250.0,730000.0
Microlensing,7.0,3153.571429,1113.166333,1825.0,2375.0,3300.0,3550.0,5100.0
Orbital Brightness Modulation,3.0,0.709307,0.725493,0.240104,0.291496,0.342887,0.943908,1.544929
Pulsar Timing,5.0,7343.021201,16313.265573,0.090706,25.262,66.5419,98.2114,36525.0
Pulsation Timing Variations,1.0,1170.0,,1170.0,1170.0,1170.0,1170.0,1170.0
Radial Velocity,553.0,823.35468,1454.92621,0.73654,38.021,360.2,982.0,17337.5
Transit,397.0,21.102073,46.185893,0.355,3.16063,5.714932,16.1457,331.60059
Transit Timing Variations,3.0,79.7835,71.599884,22.3395,39.67525,57.011,108.5055,160.0


.

.

.

.

.

.

.

.

.

.

.

#### Aggregate, Transform, Filter, Apply

In [172]:
import numpy as np
import pandas as pd

In [173]:
df = pd.DataFrame({"gruplar": ["A","B","C","A","B","C"],
                   "degisken1" : [10,23,33,22,11,99],
                   "degisken2" : [100,253,300,261,111,969]})
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,300
3,A,22,261
4,B,11,111
5,C,99,969


In [174]:
df.groupby("gruplar").aggregate([min, np.median, max])
# "gruplar" değişkenine göere gruplama ve her bir değişkenin
# min,median,max özelliklerini almak

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,180.5,261
B,11,17,23,111,182.0,253
C,33,66,99,300,634.5,969


In [175]:
df.groupby("gruplar").aggregate({"degisken1": min, "degisken2": max})
# "gruplar" değişkenine göre gruplamak ve her değişkenin 
# istenilen özellğini sözlük yapısı ile alamk

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,261
B,11,253
C,33,969


In [176]:
def filter_func(x):
    return x["degisken1"].std() > 9

In [177]:
df.groupby("gruplar").filter(filter_func)
# "gruplar" değişkenine göre grupalma ve
# belirli bir işleme göre filitreleme işlemi

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,300
5,C,99,969


In [178]:
df.groupby("gruplar").transform(lambda x: x - x.mean())
# "grupalar" değişkenine göere gruplama ve
# ve her bir değişkenin gözlemlerine belirli bir özellik uygulama

Unnamed: 0,degisken1,degisken2
0,-6.0,-80.5
1,6.0,71.0
2,-33.0,-334.5
3,6.0,80.5
4,-6.0,-71.0
5,33.0,334.5


In [179]:
df.groupby("gruplar").apply(np.sum)
# Bazı hesaplama işlemleri sağlar

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,361
B,BB,34,364
C,CC,132,1269


In [180]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,300
3,A,22,261
4,B,11,111
5,C,99,969


In [181]:
L = [0,1,0,1,2,0]

In [182]:
df.groupby(L).sum()
# her bir gözleme kendimiz gruplama yapmak

Unnamed: 0,degisken1,degisken2
0,142,1369
1,45,514
2,11,111


.

.

.

### Pivot Tablolar

In [183]:
import pandas as pd
import seaborn as sns
df = sns.load_dataset("titanic")

df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [184]:
df.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [185]:
df.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [186]:
df.pivot_table("survived", index = "sex", columns = "class")
# Varsayılan olarak mean işlemi yapar.
# groupby ile yapılan işlemin çoklu olanı şeklinde tanımlanabilir.

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [187]:
age = pd.cut(df["age"], [0,18,90])
# 0-18 ve 18-90 yaş aralığını kategorik değişkene
# göre bölme
age

0      (18.0, 90.0]
1      (18.0, 90.0]
2      (18.0, 90.0]
3      (18.0, 90.0]
4      (18.0, 90.0]
           ...     
886    (18.0, 90.0]
887    (18.0, 90.0]
888             NaN
889    (18.0, 90.0]
890    (18.0, 90.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [188]:
df.pivot_table("survived", ["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


In [189]:
fare = pd.qcut(df["fare"],2)
fare.head()

0     (-0.001, 14.454]
1    (14.454, 512.329]
2     (-0.001, 14.454]
3    (14.454, 512.329]
4     (-0.001, 14.454]
Name: fare, dtype: category
Categories (2, interval[float64]): [(-0.001, 14.454] < (14.454, 512.329]]

In [190]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [191]:
df.pivot_table("survived", ["sex", age], [fare, "class"])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 90]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 90]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


In [192]:
df.pivot_table(index = "sex", columns = "class",
               aggfunc = {"survived": sum, "fare": "mean"})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


In [193]:
df.pivot_table("survived", index = "sex", columns = "class", margins = True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


## Dış Kaynaklı Verileri Okuma

In [194]:
pwd 
# Şu anda bulunduğun dosya konumu

'C:\\Users\\ilgar\\OneDrive\\Programlama\\Python A-Z - Veri Bilimi ve Machine Learning\\Python Programlama\\JupyterLab\\Veri Manipulasyonu'

In [195]:
import pandas as pd

In [196]:
pd.read_csv("reading_data/ornekcsv.csv", sep = ";")
# ";"e göre csv dosyası okumak

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [197]:
pd.read_csv("reading_data/duz_metin.txt")
# txt dosyası okumak

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


In [198]:
pd.read_excel("reading_data/ornekx.xlsx")
# excel tablosu okumak

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0
