Pandas **merge** ve **join** işlemlerini oldukça performanslı yapar. Veritabanları ile daha önceden çalıştıysanız aşina olduğunuz merge işlemi için `pd.merge` kullanacağız.

## Birleştirme Çeşitleri

`pd.merge()` fonksiyonu ile çeşitli birleştirme işlemleri yapabilirsiniz: *one-to-one*,
*many-to-one* ve *many-to-many*. Hangisi yapılacağına verilen verilere göre fonksiyon karar verir.

### One-to-one Birleştirme

Muhtemelen en kolay birleştirme yolu one-to-one birleştirmedir. Birçok yönden, bir önceki bölümde gördüğümüz [sütun bazlı birleştirme'ye](#) benzer. Aşağıda aynı kişilerin verilerini tutan iki DataFrame görüyorsunuz.

In [1]:
import pandas as pd

df1 = pd.DataFrame({'isim': ['Berke', 'Ceyhun', 'Lale', 'Semih'],
                    'departman': ['Muhasebe', 'Mühendislik', 'Mühendislik', 'İK']})
df1

Unnamed: 0,isim,departman
0,Berke,Muhasebe
1,Ceyhun,Mühendislik
2,Lale,Mühendislik
3,Semih,İK


In [2]:
df2 = pd.DataFrame({'isim': ['Lale', 'Berke', 'Ceyhun', 'Semih'],
                    'ise_giris': [2004, 2008, 2012, 2014]})
df2

Unnamed: 0,isim,ise_giris
0,Lale,2004
1,Berke,2008
2,Ceyhun,2012
3,Semih,2014


In [3]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,isim,departman,ise_giris
0,Berke,Muhasebe,2008
1,Ceyhun,Mühendislik,2012
2,Lale,Mühendislik,2004
3,Semih,İK,2014


`pd.merge` fonksiyonu iki DataFrame'de de employee sütununun olduğunu gördü ve onu anahtar olarak kullandı ve birleştirilmiş halde bir DataFrame verdi. Burada iki şeye dikkat etmeniz gerekli. İlk olarak birleştirme sırasında öğelerin sırasına önem verilmedi. İkinci olarak ileride göreceğimiz özel durumlar haricinde merge işlemi sırasında index'ler korunmaz.

### Many-to-one Birleştirme

DataFrame'lerden birindeki anahtar olarak kullanılacak sütunda tekrar eden elemanların bulunması durumuna denir. Tekrar eden satırlar korunur.

In [4]:
df4 = pd.DataFrame({'departman': ['Muhasebe', 'Mühendislik', 'İK'],
                    'yonetici': ['Cihan', 'Gamze', 'Selim']})
df4

Unnamed: 0,departman,yonetici
0,Muhasebe,Cihan
1,Mühendislik,Gamze
2,İK,Selim


In [5]:
pd.merge(df3, df4)

Unnamed: 0,isim,departman,ise_giris,yonetici
0,Berke,Muhasebe,2008,Cihan
1,Ceyhun,Mühendislik,2012,Gamze
2,Lale,Mühendislik,2004,Gamze
3,Semih,İK,2014,Selim


Bu örnekte departman ortak sütundu ve tekrar `df4`teki *yonetici* sütunu *departman* sütununa göre çoğaltıldı.

### Many-to-many Birleştirme

Many-to-many'yi kavramak bi tık zor gelebilir. Anahtar sütunun iki veride de tekrar eden öğelerinin bulunmasına denir. Aşağıdaki örnekte `df5` hangi bölümün neler ile ilgilendiğini belirtiyor. Kimin hangi bölümde olduğu tablosu ile birleştirilince ortaya kimin neler ile ilgilendiği tablosu çıkacak.

In [6]:
df1

Unnamed: 0,isim,departman
0,Berke,Muhasebe
1,Ceyhun,Mühendislik
2,Lale,Mühendislik
3,Semih,İK


In [7]:
df5 = pd.DataFrame({'departman': ['Muhasebe', 'Muhasebe', 'Mühendislik', 'Mühendislik', 'İK', 'İK'],
                    'ilgi': ['matematik', 'excel', 'yazılım', 'linux', 'excel', 'organizasyon']})
df5

Unnamed: 0,departman,ilgi
0,Muhasebe,matematik
1,Muhasebe,excel
2,Mühendislik,yazılım
3,Mühendislik,linux
4,İK,excel
5,İK,organizasyon


In [8]:
pd.merge(df1, df5)

Unnamed: 0,isim,departman,ilgi
0,Berke,Muhasebe,matematik
1,Berke,Muhasebe,excel
2,Ceyhun,Mühendislik,yazılım
3,Ceyhun,Mühendislik,linux
4,Lale,Mühendislik,yazılım
5,Lale,Mühendislik,linux
6,Semih,İK,excel
7,Semih,İK,organizasyon


## Anahtar Sütunu Belirtme

pd.merge() fonksiyonu iki DataFrame'de de ortak bulduğu sütunu anahtar olarak kullanıyordu. Ancak gerçek hayatta veriler bu kadar güzel olmayabilir. Bu bölümde anahtar olarak kullanılacak sütunu belirmeyi göreceğiz.

### on Parametresi

En basit haliyle on parametresine anahtar olarak kullanacağı sütunun adını yazabiliriz.

In [9]:
pd.merge(df1, df2, on='isim')

Unnamed: 0,isim,departman,ise_giris
0,Berke,Muhasebe,2008
1,Ceyhun,Mühendislik,2012
2,Lale,Mühendislik,2004
3,Semih,İK,2014


### left_on ve right_on Parametresi

Anahtar olarak kullanılacak sütunların adları aynı olmadığı durumlarda iki DataFrame'in sütun adlarını ayrı ayrı belirtiriz.


In [10]:
df1

Unnamed: 0,isim,departman
0,Berke,Muhasebe
1,Ceyhun,Mühendislik
2,Lale,Mühendislik
3,Semih,İK


In [11]:
df6 = pd.DataFrame({'ad': ['Berke', 'Ceyhun', 'Lale', 'Semih'],
                    'maas': [7000, 8000, 12000, 9000]})
df6

Unnamed: 0,ad,maas
0,Berke,7000
1,Ceyhun,8000
2,Lale,12000
3,Semih,9000


In [12]:
pd.merge(df1, df6, left_on="isim", right_on="ad")

Unnamed: 0,isim,departman,ad,maas
0,Berke,Muhasebe,Berke,7000
1,Ceyhun,Mühendislik,Ceyhun,8000
2,Lale,Mühendislik,Lale,12000
3,Semih,İK,Semih,9000


Göründüğü üzere gereksiz yere iki sütun var. Sütunlarda birini, bir DataFrame metodu olan `drop` ile silebiliriz.

In [13]:
pd.merge(df1, df6, left_on="isim", right_on="ad").drop('ad', axis=1)

Unnamed: 0,isim,departman,maas
0,Berke,Muhasebe,7000
1,Ceyhun,Mühendislik,8000
2,Lale,Mühendislik,12000
3,Semih,İK,9000


### left_index ve right_index Parametresi

Bazen birleştirme işlemini sütun değil de index bazlı yapmanız gerekebilir. Bu durumda `left_index` ve `right_index` parametrelerini `True` yapmalısınız.

In [14]:
df1a = df1.set_index('isim') # isim sütununu index'e çeviriyorum
df1a

Unnamed: 0_level_0,departman
isim,Unnamed: 1_level_1
Berke,Muhasebe
Ceyhun,Mühendislik
Lale,Mühendislik
Semih,İK


In [15]:
df2a = df2.set_index('isim')
df2a

Unnamed: 0_level_0,ise_giris
isim,Unnamed: 1_level_1
Lale,2004
Berke,2008
Ceyhun,2012
Semih,2014


In [16]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,departman,ise_giris
isim,Unnamed: 1_level_1,Unnamed: 2_level_1
Berke,Muhasebe,2008
Ceyhun,Mühendislik,2012
Lale,Mühendislik,2004
Semih,İK,2014


Tabi bu iş için DataFrame'lerin index'ler üzerinden birleştirme işlemi yapan `join` adlı metodu var.

In [17]:
df1a.join(df2a)

Unnamed: 0_level_0,departman,ise_giris
isim,Unnamed: 1_level_1,Unnamed: 2_level_1
Berke,Muhasebe,2008
Ceyhun,Mühendislik,2012
Lale,Mühendislik,2004
Semih,İK,2014


Bir tarafın index'ini, bir tarafın sütununu kullanmak isterseniz `left_index` ve `right_on` parametrelerini veya bunun tam tersini kullanabilirsiniz.

In [18]:
pd.merge(df1a, df3, left_index=True, right_on='isim')

Unnamed: 0,departman_x,isim,departman_y,ise_giris
0,Muhasebe,Berke,Muhasebe,2008
1,Mühendislik,Ceyhun,Mühendislik,2012
2,Mühendislik,Lale,Mühendislik,2004
3,İK,Semih,İK,2014


Tüm bu yaptıklarımız birden çok sütun ile, birden çok index ile de yapılabilir. Daha fazlası için [Pandas'ın kendi dokümentasyonuna](http://pandas.pydata.org/pandas-docs/stable/merging.html) bakabilirsiniz.

## Eksik Verilerle Birleştirme

Bu bölümde, veri bir DataFrame'de olup diğerinde olmadığında birleştirme işleminin nasıl yapılacağını belirlemeyi göreceğiz.

In [19]:
A = pd.DataFrame({'isim': ['Pelin', 'Murat', 'Deniz'],
                  'yiyecek': ['balık', 'yumurta', 'ekmek']},
                  columns=['isim', 'yiyecek'])
A

Unnamed: 0,isim,yiyecek
0,Pelin,balık
1,Murat,yumurta
2,Deniz,ekmek


In [20]:
B = pd.DataFrame({'isim': ['Deniz', 'Selim'],
                  'icecek': ['Çay', 'Kahve']},
                  columns=['isim', 'icecek'])
B

Unnamed: 0,isim,icecek
0,Deniz,Çay
1,Selim,Kahve


In [21]:
pd.merge(A, B)

Unnamed: 0,isim,yiyecek,icecek
0,Deniz,ekmek,Çay


Bu örnekte sadece `Deniz` değeri ortak olduğundan, sadece `Deniz` satırı bulunan DataFrame döndü. Öntanımlı olarak merge işlemi iki DataFrame'in kesişimiyle yapılır. merge işleminin yapılma kapsamını how parametresi ile belirleyebilirsiniz.

#### Kesişim (inner)

Öntanımlı olan kesişimini alma `inner` ile yapılır.

In [22]:
pd.merge(A, B, how='inner')

Unnamed: 0,isim,yiyecek,icecek
0,Deniz,ekmek,Çay


#### Birleşim (outer)

İki kümenin birleşimi outer ile alınır. Boş veriler `NaN` ile dolar.

In [23]:
pd.merge(A, B, how='outer')

Unnamed: 0,isim,yiyecek,icecek
0,Pelin,balık,
1,Murat,yumurta,
2,Deniz,ekmek,Çay
3,Selim,,Kahve


#### Taraf (left ve right)

`left` ve `right` ile tamamının bulunmasını istediğiniz kümeyi belirtebilirsiniz.

In [24]:
pd.merge(A, B, how='left')

Unnamed: 0,isim,yiyecek,icecek
0,Pelin,balık,
1,Murat,yumurta,
2,Deniz,ekmek,Çay


## Çakışan Sütun Adları

Birleştirdiğimiz iki veride de adları aynı olan sütunlar olabilir.

In [25]:
dataf1 = pd.DataFrame({'isim': ['Beyza', 'Cengiz', 'Lara', 'Sezin'], 'no': [1, 2, 3, 4]})
dataf1

Unnamed: 0,isim,no
0,Beyza,1
1,Cengiz,2
2,Lara,3
3,Sezin,4


In [26]:
dataf2 = pd.DataFrame({'isim': ['Beyza', 'Cengiz', 'Lara', 'Sezin'], 'no': [3, 4, 2, 1]})
dataf2

Unnamed: 0,isim,no
0,Beyza,3
1,Cengiz,4
2,Lara,2
3,Sezin,1


In [27]:
pd.merge(dataf1, dataf2, on="isim")

Unnamed: 0,isim,no_x,no_y
0,Beyza,1,3
1,Cengiz,2,4
2,Lara,3,2
3,Sezin,4,1


`merge` fonksiyonu öntanımlı olarak adları aynı olan sütun adlarının sonuna _x ve _y soneki ekler. Eğer ihtiyacınız olan bu değilse soneki suffixes parametresi ile belirtebilirsiniz.

In [28]:
pd.merge(dataf1, dataf2, on="isim", suffixes=["_L", "_R"])

Unnamed: 0,isim,no_L,no_R
0,Beyza,1,3
1,Cengiz,2,4
2,Lara,3,2
3,Sezin,4,1
