# Pandas DataFrame Birleştirme İşlemleri (merge-join)
## --------------------------------------------------

In [1]:
import numpy as np
import pandas as pd

## Join İşlemleri

In [11]:
s1 = np.random.randint(10,size=5)
s2 = np.random.randint(10,size=5)
s3 = np.random.randint(10,size=5)

df1 = pd.DataFrame({'var1':s1,'var2':s2,'var3':s3})
df1

Unnamed: 0,var1,var2,var3
0,1,0,4
1,3,0,6
2,6,4,5
3,7,8,0
4,1,7,1


In [12]:
df2 = df1+99 # df2'yi oluşturuyoruz. df1'in her elemanı üzerine 99 ekleyerek yeni bir dataframe oluşturur
df2

Unnamed: 0,var1,var2,var3
0,100,99,103
1,102,99,105
2,105,103,104
3,106,107,99
4,100,106,100


In [15]:
pd.concat([df1,df2]) # satır bazında birleştirme işlemi gerçekleşir

Unnamed: 0,var1,var2,var3
0,1,0,4
1,3,0,6
2,6,4,5
3,7,8,0
4,1,7,1
0,100,99,103
1,102,99,105
2,105,103,104
3,106,107,99
4,100,106,100


In [16]:
pd.concat([df1,df2],axis=1) # sütun bazında birleştirme işlemi yapar

Unnamed: 0,var1,var2,var3,var1.1,var2.1,var3.1
0,1,0,4,100,99,103
1,3,0,6,102,99,105
2,6,4,5,105,103,104
3,7,8,0,106,107,99
4,1,7,1,100,106,100


In [17]:
pd.concat([df1,df2],ignore_index=True) # yukarda yaptığımız gibi satır bazında birleştirme işlemi indexleri tekrar yazar ve bu bize sıkıntı çıkarabilir
# bunun için bir argüman kullanıyoruz -> ignore_index=True bu argüman sayesinde indexler alt alta gelir ve sıralı olarak birleşir

Unnamed: 0,var1,var2,var3
0,1,0,4
1,3,0,6
2,6,4,5
3,7,8,0
4,1,7,1
5,100,99,103
6,102,99,105
7,105,103,104
8,106,107,99
9,100,106,100


In [18]:
df2.columns = ['var1','var2','deg3']
df2

Unnamed: 0,var1,var2,deg3
0,100,99,103
1,102,99,105
2,105,103,104
3,106,107,99
4,100,106,100


In [19]:
pd.concat([df1,df2],ignore_index=True) # df'lerde birbirine eşit olmayan değişkenlerin değerlerini NaN olarak döner

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,deg3,var1,var2,var3
0,,1,0,4.0
1,,3,0,6.0
2,,6,4,5.0
3,,7,8,0.0
4,,1,7,1.0
5,103.0,100,99,
6,105.0,102,99,
7,104.0,105,103,
8,99.0,106,107,
9,100.0,100,106,


In [20]:
pd.concat([df1,df2],join="inner") # eşit olmayan değişkenler ile ilgilenmiyorsak
# join argümanını kullanabiliriz. join = "inner" -> sadece birbirine eşit olan değişkenleri birleştirir

Unnamed: 0,var1,var2
0,1,0
1,3,0
2,6,4
3,7,8
4,1,7
0,100,99
1,102,99
2,105,103
3,106,107
4,100,106


In [21]:
pd.concat([df1,df2],join_axes=[df1.columns]) # birleştirme işlemini belirli bir dataframe'in değişken isimlerine göre yapmak istersek

Unnamed: 0,var1,var2,var3
0,1,0,4.0
1,3,0,6.0
2,6,4,5.0
3,7,8,0.0
4,1,7,1.0
0,100,99,
1,102,99,
2,105,103,
3,106,107,
4,100,106,


## Merge Join İşlemleri

In [69]:
df1 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayşe","Fatma"],
                    "grup":["Muhasebe","Muhendislik","Muhendislik","İK"]})
df2 = pd.DataFrame({"calisanlar":["Ali","Veli","Ayşe","Fatma"],
                    "ilk_giris":[2010,2009,2014,2019]})
df4 = pd.DataFrame({"grup":["Muhasebe","Muhendislik","İK"],
                    "mudur":["Caner","Mustafa","Berkcan"]})
df5 = pd.DataFrame({"grup":["Muhasebe","Muhasebe","Muhendislik","Muhendislik","İK","İK"],
                    "yetenekler":["matematik","excel","kodlama","linux","excel","yonetim"]})

In [70]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayşe,Muhendislik
3,Fatma,İK


In [71]:
df2

Unnamed: 0,calisanlar,ilk_giris
0,Ali,2010
1,Veli,2009
2,Ayşe,2014
3,Fatma,2019


In [72]:
df4

Unnamed: 0,grup,mudur
0,Muhasebe,Caner
1,Muhendislik,Mustafa
2,İK,Berkcan


In [73]:
df5

Unnamed: 0,grup,yetenekler
0,Muhasebe,matematik
1,Muhasebe,excel
2,Muhendislik,kodlama
3,Muhendislik,linux
4,İK,excel
5,İK,yonetim


* **df1 ile df2 birleştirelim. Bu işleme birebir birleştirme denir(one to one)**

Birebir -> tüm elemanların iki veri setinde de yer almasıdır

In [74]:
pd.merge(df1,df2) # merge fonsiyonu hangi değişkenleri merge edeceğini otomatik anlar

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayşe,Muhendislik,2014
3,Fatma,İK,2019


In [75]:
pd.merge(df1,df2, on = 'calisanlar') # özellikle bir değişken ile birleştirmek istersek 'on' orgumanını kullanırız

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayşe,Muhendislik,2014
3,Fatma,İK,2019


* **many to one birleşimi**

df1 ve df2 birleşimi olan df3 dataframe'ini df4 ile birleştirelim

In [76]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,calisanlar,grup,ilk_giris
0,Ali,Muhasebe,2010
1,Veli,Muhendislik,2009
2,Ayşe,Muhendislik,2014
3,Fatma,İK,2019


In [77]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ilk_giris,mudur
0,Ali,Muhasebe,2010,Caner
1,Veli,Muhendislik,2009,Mustafa
2,Ayşe,Muhendislik,2014,Mustafa
3,Fatma,İK,2019,Berkcan


* **many to many birleştirme**

df1 ve df5 birleştireceğiz

In [80]:
pd.merge(df1,df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ali,Muhasebe,matematik
1,Ali,Muhasebe,excel
2,Veli,Muhendislik,kodlama
3,Veli,Muhendislik,linux
4,Ayşe,Muhendislik,kodlama
5,Ayşe,Muhendislik,linux
6,Fatma,İK,excel
7,Fatma,İK,yonetim


* **birleştirilmek istenen iki df'in aslında aynı şeyi ifade eden fakat farklı isimlendirilmiş değişkenleri olduğunu varsayalım**

In [81]:
df3 = pd.DataFrame({"name":["Ali","Veli","Ayşe","Fatma"],
                   "maas":[70000,80000,120000,90000]})
df3

Unnamed: 0,name,maas
0,Ali,70000
1,Veli,80000
2,Ayşe,120000
3,Fatma,90000


In [83]:
df1

Unnamed: 0,calisanlar,grup
0,Ali,Muhasebe
1,Veli,Muhendislik
2,Ayşe,Muhendislik
3,Fatma,İK


* **pd.merge(df1,df3) yaparsak hata alacağız. Fakat biliyoruz ki aynı değişkenler var. name == calisanlar**


In [86]:
pd.merge(df1,df3,left_on="calisanlar",right_on="name")
# left_on -> soldaki df, rigth_on -> sağdaki df
# left_on="calisanlar", right_on="name" -> soldaki sette calisanlar ile sağdaki sette name değişkeni aslında aynıdır

Unnamed: 0,calisanlar,grup,name,maas
0,Ali,Muhasebe,Ali,70000
1,Veli,Muhendislik,Veli,80000
2,Ayşe,Muhendislik,Ayşe,120000
3,Fatma,İK,Fatma,90000


In [90]:
pd.merge(df1,df3,left_on="calisanlar",right_on="name").drop('name',axis=1)
# burda da iki seti birleştirdik ve gelen df'de istenmediğimiz bir değişkeni attık

Unnamed: 0,calisanlar,grup,maas
0,Ali,Muhasebe,70000
1,Veli,Muhendislik,80000
2,Ayşe,Muhendislik,120000
3,Fatma,İK,90000


* **indexleri birleştirmek**

In [97]:
df1a=df1.set_index("calisanlar") # df1 içindeki çalışanlar değişkeninin değerleri df1'in indexleri haline geldi
df1a.shape is df1.shape # df1 ve df1a'nın boyutları birbirine eşit mi?

False

In [98]:
df2a = df2.set_index("calisanlar")
df2a

Unnamed: 0_level_0,ilk_giris
calisanlar,Unnamed: 1_level_1
Ali,2010
Veli,2009
Ayşe,2014
Fatma,2019


In [100]:
pd.merge(df1a,df2a,left_index=True,right_index=True)
# index kesişmesine göre birleştirme işlemi gerçekleşir

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2010
Veli,Muhendislik,2009
Ayşe,Muhendislik,2014
Fatma,İK,2019


In [102]:
df1a.join(df2a) # merge ile yaptığımızı join ile de bu şekilde yapabiliriz

Unnamed: 0_level_0,grup,ilk_giris
calisanlar,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,Muhasebe,2010
Veli,Muhendislik,2009
Ayşe,Muhendislik,2014
Fatma,İK,2019


* **overleaping**

iki df birleştiğinde kesişen ilk değişkeni merge fonksiyonu birleştirme değişkeni olarak kabul eder. Fakat bundan başka değişken isimleri kesişirse bu veri setini tutar ama kendisi isimlendirerek bunları tutar.

In [103]:
dfa = pd.DataFrame({"calisanlar":["Ali","Veli","Ayşe","Fatma"],
                   "siralama":[1,2,3,4]})
dfa

Unnamed: 0,calisanlar,siralama
0,Ali,1
1,Veli,2
2,Ayşe,3
3,Fatma,4


In [109]:
dfb = pd.DataFrame({"calisanlar":["Ali","Veli","Ayşe","Fatma"],
                   "siralama":[4,2,1,3]})
dfb

Unnamed: 0,calisanlar,siralama
0,Ali,4
1,Veli,2
2,Ayşe,1
3,Fatma,3


In [110]:
pd.merge(dfa,dfb,on="calisanlar") # calisanlar değişkenine göre merge et

Unnamed: 0,calisanlar,siralama_x,siralama_y
0,Ali,1,4
1,Veli,2,2
2,Ayşe,3,1
3,Fatma,4,3


In [112]:
pd.merge(dfa,dfb,on="calisanlar",suffixes = ["_MAAS","_DENEYİM"])
# bu şekilde kesişen diğer değişken ismini manipule edebiliriz

Unnamed: 0,calisanlar,siralama_MAAS,siralama_DENEYİM
0,Ali,1,4
1,Veli,2,2
2,Ayşe,3,1
3,Fatma,4,3
