# Veri Setlerini Birleştime

Merging & Combining Datasets

In [53]:
import pandas as pd
import numpy as np

Bazen verisetleri farklı kaynaklardan elde edilir. Veri analizi yaparken bu verisetlerini birleştirmek isteyebiliriz. Merge veya join operatörleri bir veya daha fazla anahtar kullanarak satırları birleştirebilir.

In [54]:
v1=pd.DataFrame({"key":["a","b","c","c","d","e"],"num1":range(6)})
v2=pd.DataFrame({"key":["b","c","d","e"],"num2":range(4)})

In [55]:
v1

Unnamed: 0,key,num1
0,a,0
1,b,1
2,c,2
3,c,3
4,d,4
5,e,5


In [56]:
v2

Unnamed: 0,key,num2
0,b,0
1,c,1
2,d,2
3,e,3


Merge Fonksiyonu kullanarak bu iki veri setini birleştirelim.

In [57]:
pd.merge(v1,v2)

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,d,4,2
4,e,5,3


İstersek hangi sütuna göre verisetlerinin birleştireceğimizi söyleyebiliriz.

In [58]:
pd.merge(v1,v2,on="key")

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,d,4,2
4,e,5,3


Eğer birleşirilecek veri seti sütun adlarımız farklı ise merge fonksiyonuna bunu söyleyebiliriz.

In [59]:
v3=pd.DataFrame({"key1":["a","b","c","c","d","e"],"num1":range(6)})
v4=pd.DataFrame({"key2":["b","c","d","e"],"num2":range(4)})

In [60]:
pd.merge(v3,v4,left_on="key1",right_on="key2")

Unnamed: 0,key1,num1,key2,num2
0,b,1,b,0
1,c,2,c,1
2,c,3,c,1
3,d,4,d,2
4,e,5,e,3


Dikkat edilecek olursa v3 deki a değerinin v4 de bir karşılığı olamdığı için verisetinde yer almıyor. Eğer a değerini de ekrana yazdırmak istersek how="outer" opsiyonu kullanırız.

In [61]:
pd.merge(v3,v4,left_on="key1",right_on="key2",how="outer")

Unnamed: 0,key1,num1,key2,num2
0,a,0,,
1,b,1,b,0.0
2,c,2,c,1.0
3,c,3,c,1.0
4,d,4,d,2.0
5,e,5,e,3.0


Bu how opsiyonunun aldığı başka parametreler de vardır. Mesela how="left" yazarsak soldaki verinin anahtar sütununa göre veri tablosunu oluştur anlamına gelir. (Aynı şekilde right.) İki verisetindeki ortak değerleri almak istersek how="inner" opsiyonu kullanılır.

In [62]:
pd.merge(v3,v4,left_on="key1",right_on="key2",how="left")

Unnamed: 0,key1,num1,key2,num2
0,a,0,,
1,b,1,b,0.0
2,c,2,c,1.0
3,c,3,c,1.0
4,d,4,d,2.0
5,e,5,e,3.0


In [63]:
pd.merge(v3,v4,left_on="key1",right_on="key2",how="right")

Unnamed: 0,key1,num1,key2,num2
0,b,1,b,0
1,c,2,c,1
2,c,3,c,1
3,d,4,d,2
4,e,5,e,3


In [64]:
pd.merge(v3,v4,left_on="key1",right_on="key2",how="inner")

Unnamed: 0,key1,num1,key2,num2
0,b,1,b,0
1,c,2,c,1
2,c,3,c,1
3,d,4,d,2
4,e,5,e,3


Bazen verisetlerini birleştirirken birden fazla anahtar sütunları olabilir. Örneğin ;

In [65]:
v1=pd.DataFrame({"key":["a","b","c","c","d","e"],"num1":range(6),"figure":["one","three","two","one","one","two"]})
v2=pd.DataFrame({"key":["b","c","d","f"],"num2":range(4),"figure":["one","one","two","two"]})

In [66]:
v1

Unnamed: 0,key,num1,figure
0,a,0,one
1,b,1,three
2,c,2,two
3,c,3,one
4,d,4,one
5,e,5,two


In [67]:
v2

Unnamed: 0,key,num2,figure
0,b,0,one
1,c,1,one
2,d,2,two
3,f,3,two


Bu iki veri setini key ve figure sütunlarına göre birleştirmek istesek;

In [68]:
pd.merge(v1,v2,on=["key","figure"])

Unnamed: 0,key,num1,figure,num2
0,c,3,one,1


In [69]:
pd.merge(v1,v2,on=["key","figure"],how="outer")

Unnamed: 0,key,num1,figure,num2
0,a,0.0,one,
1,b,1.0,three,
2,c,2.0,two,
3,c,3.0,one,1.0
4,d,4.0,one,
5,e,5.0,two,
6,b,,one,0.0
7,d,,two,2.0
8,f,,two,3.0


 v1 ve v2 de iki anahtar sütunu var. Örneğin sadece key sütununa göre birleştirme yaparsak figure sutunu aynı olduğu için bu figure sütununun hangi verisetine ait olduğunu bilemeyiz. Bunu ayırt etmek için Pandas otomatik olarak ortak sütun isimlerini isimlendirir.

In [70]:
pd.merge(v1,v2,on="key",how="outer")

Unnamed: 0,key,num1,figure_x,num2,figure_y
0,a,0.0,one,,
1,b,1.0,three,0.0,one
2,c,2.0,two,1.0,one
3,c,3.0,one,1.0,one
4,d,4.0,one,2.0,two
5,e,5.0,two,,
6,f,,,3.0,two


Pandas birinci veriseti için _x ikinci veri seti için _y opsiyonunu kullandı. İstersek bunu değiştirebiliriz. Bunu suffixes opsiyonuyla değiştirmek mümkündür.

In [71]:
pd.merge(v1,v2,on="key",how="outer",suffixes=("data_1","data_2"))

Unnamed: 0,key,num1,figuredata_1,num2,figuredata_2
0,a,0.0,one,,
1,b,1.0,three,0.0,one
2,c,2.0,two,1.0,one
3,c,3.0,one,1.0,one
4,d,4.0,one,2.0,two
5,e,5.0,two,,
6,f,,,3.0,two


Bazı durumlarda DataFrame deki birleştireilecek sütun DataFrame'in indexinde bulunabilir. Böyle durumlarda birleştirilecek anahtar sütun olarak kullanılacak index left_index=True ya da right_index=True opsiyonu kullanılabilir.

In [72]:
df1=pd.DataFrame({"letter":["a","a","b","b","a","c"],
                "num":range(6)})
df2=pd.DataFrame({"value":[3,5,7]},index=["a","b","e"])

In [73]:
df1

Unnamed: 0,letter,num
0,a,0
1,a,1
2,b,2
3,b,3
4,a,4
5,c,5


In [74]:
df2

Unnamed: 0,value
a,3
b,5
e,7


Şimdi bu iki verisetini indexlerine göre birleştirmek isteyelim.

In [75]:
pd.merge(df1,df2,left_on="letter",right_index=True)

Unnamed: 0,letter,num,value
0,a,0,3
1,a,1,3
4,a,4,3
2,b,2,5
3,b,3,5


Hem right=True, hem de left=True opsiyonlarını beraber kullanabiliriz. Bunun için iki adet veriseti elde edelim.

In [76]:
right=pd.DataFrame([[1,2],[3,4],[5,6]],index=["a","c","d"],columns=["John","Pearl"])
left=pd.DataFrame([[7,8],[9,10],[11,12],[13,14]],index=["a","b","e","f"],columns=["Micheal","Rex"])

In [77]:
right

Unnamed: 0,John,Pearl
a,1,2
c,3,4
d,5,6


In [78]:
left

Unnamed: 0,Micheal,Rex
a,7,8
b,9,10
e,11,12
f,13,14


In [79]:
pd.merge(right,left,right_index=True,left_index=True ,how="outer")

Unnamed: 0,John,Pearl,Micheal,Rex
a,1.0,2.0,7.0,8.0
b,,,9.0,10.0
c,3.0,4.0,,
d,5.0,6.0,,
e,,,11.0,12.0
f,,,13.0,14.0


İndexlere göre verisetlerini birleştirmek için join komutu da kullanılır.

In [80]:
left.join(right)

Unnamed: 0,Micheal,Rex,John,Pearl
a,7,8,1.0,2.0
b,9,10,,
e,11,12,,
f,13,14,,


In [81]:
left.join(right,how="outer")

Unnamed: 0,Micheal,Rex,John,Pearl
a,7.0,8.0,1.0,2.0
b,9.0,10.0,,
c,,,3.0,4.0
d,,,5.0,6.0
e,11.0,12.0,,
f,13.0,14.0,,


İkiden fazla verisetini birleştirmek yine join komutu kullanılabilir.

In [89]:
other=pd.DataFrame([[1,3],[5,7],[9,11]],index=["a","b","f"],columns=["Sally","Lisa"])

In [90]:
other

Unnamed: 0,Sally,Lisa
a,1,3
b,5,7
f,9,11


In [91]:
left.join([right,other])

Unnamed: 0,Micheal,Rex,John,Pearl,Sally,Lisa
a,7.0,8.0,1.0,2.0,1.0,3.0
b,9.0,10.0,,,5.0,7.0
e,11.0,12.0,,,,
f,13.0,14.0,,,9.0,11.0


Dizilerde concatenate() methodu ile aynı boyutlardaki diziyi birleştirebilriz. Sütun olarak birleştirmek istersek axis=1, satır olarak birleştirmek istesek axis=1 opsiyonunu kullanırız. Default olarak satır olarak bireşir.

In [100]:
array=np.arange(20).reshape(4,5)

In [101]:
array

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [102]:
np.concatenate([array,array],axis=1)

array([[ 0,  1,  2,  3,  4,  0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 15, 16, 17, 18, 19]])

In [103]:
np.concatenate([array,array],axis=0)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

Pandasdaki Series ve DataFrame veri yapılarının indexleri vardır. Farklı indexdeki verileri birleştirmek için concat() methodu kullanılır.

In [122]:
d1=pd.Series([0,1] ,index=["a","b"])
d2=pd.Series([2,3,4], index=["c","d","e"])
d3=pd.Series([5,6], index=["f","g"])

In [123]:
d1

a    0
b    1
dtype: int64

In [124]:
d2

c    2
d    3
e    4
dtype: int64

In [125]:
d3

f    5
g    6
dtype: int64

In [126]:
pd.concat([d1,d2,d3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

Ön tanımlı olarak concat methodu verileri satır olarak birleştirir, eğer sütun olarak birleştirmek istersek axis=1, sort=False yazarız.

In [127]:
pd.concat([d1,d2,d3],axis=1,sort=False)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


Yukarıya dikkat edersek indexlerin kesişimi alınmadı ve eksik veriler eksik olarak girildi. Bunu engellemek için join=İnner opsiyonu yazılır.

In [128]:
pd.concat([d1,d2,d3],axis=1,sort=False,join="inner")

Unnamed: 0,0,1,2


In [130]:
d4=pd.Series([10,11,2], index=["a","b","c"])


In [135]:
pd.concat([d1,d4],axis=1,sort=False,join="inner")

Unnamed: 0,0,1
a,0,10
b,1,11
