In [7]:
import numpy as np
import pandas as pd

In [None]:
"""
What is the difference between join and merge in Pandas?

Pandas provide various facilities for easily combining Series or DataFrame 
with various kinds of set logic for the indexes and relational algebra 
functionality in the case of join / merge-type operations. 

Both join and merge can be used to combines two dataframes but the join method combines
two dataframes on the basis of their indexes whereas the merge method is more versatile
and allows us to specify columns beside the index to join on for both dataframes.
"""

## concat()

In [3]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']}
                        )
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']}
                         )
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']}
                        )

In [4]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [5]:
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [6]:
df3

Unnamed: 0,A,B,C,D
0,A8,B8,C8,D8
1,A9,B9,C9,D9
2,A10,B10,C10,D10
3,A11,B11,C11,D11


In [8]:
# concat()  içerisine benden iterable istiyor.

pd.concat([df1, df2, df3])

# sabit sütunları hafızasında tuttu, satırları alt alta birleştirdi.
# defatul olarak axis = 0 dır. axis=0 demek satırların üstünde çalışmak, satırlarla çalışmak demek.
# indeksler de değişmiyor, olduğu gibi dataframeslerden alıyor

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7
0,A8,B8,C8,D8
1,A9,B9,C9,D9


In [9]:
# indeksleri düzeltmek istersek..

# concat'ın özelliğini kullanırsak

pd.concat([df1, df2, df3], ignore_index = True)

# dataframe'lerin indekslerini ignore etti. kendi 0 dan başlayan indeskler verdi.

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [10]:
pd.concat([df1, df2, df3], axis = 1)

# sütun bazında çalıştık.
# indeks numaraları aynı olduğu için sorun olmadı, hepsini yan yana (sütun sütun) birleştirdi.

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,A8,B8,C8,D8
1,A1,B1,C1,D1,A5,B5,C5,D5,A9,B9,C9,D9
2,A2,B2,C2,D2,A6,B6,C6,D6,A10,B10,C10,D10
3,A3,B3,C3,D3,A7,B7,C7,D7,A11,B11,C11,D11


In [11]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0,1,2,3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                        index=[4,5,6,7]) 
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8,9,10,11])

In [12]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [13]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [14]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [15]:
pd.concat([df1, df2, df3], axis = 1)

# indeks numaraları ne ise o satırlar değer alıyor.
# mesela df3 --> 8,9,10 ve 11. indeksler satırlarına denk geliyor. diğer valueları o yüzden NaN
# merge ettiğinde bir satır herhangi bir değer sağlamıyorsa ona NaN değer gelir.

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


## .merge()

In [17]:

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [18]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [19]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [20]:
pd.merge(left, right, how = 'inner', on = 'key')

# "key" sütunu üzerinde join yaptık. 
# key" sütununun değerleri aynı olduğu için sorunsuz birleştirdi.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [21]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                     'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [22]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [23]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [24]:
pd.merge(left, right, how = 'inner', on = 'key')

# inner ile merge ederken SATIRLARIN kesişim kümesi alındığı için ortak olan "key" satırları birleştirildi. 

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [25]:
pd.merge(left, right, how = "outer", on = "key")

# outer ile merge ederken SATIRLARIN birleşim kümelerini aldığı için key sütununun tüm satırlarını aldı.
# right dataframeinde K3 satırının elemanları C ve D sütunları için değer üretmiş. 
# A ve B sütunlarında yani left dataframe'de K3 satırı olmadığı için buralara NaN değer atıyor.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,,,C3,D3


In [26]:
pd.merge(left, right, how = "left", on = "key" )



Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [27]:
pd.merge(left, right, how = "right", on = "key" )

# right ile merge ettiğimizde, right ta K3 satırı olduğu için ve right üzerine birleştirme yaptığı için
# K3'ü de aldı. fakat left dataframe deki A ve B de K3 değerleri olmadığı için buralara NaN değer atandı.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,,,C3,D3


In [28]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [29]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K4,A2,B2
3,K5,A3,B3


In [30]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [31]:
pd.merge(left, right, how = "inner", on = "key")

# inner, (satırların) kesişim kümesini aldığı için yalnızca ortak satır olan K0 ve K1'i aldı. K2 ve K3 ü almadı.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1


In [32]:
pd.merge(left, right, how = "outer", on = "key")

# outer, (satırların) birleşim kümesini aldığı için, tüm K ları aldı. 
# fakat dataframe'lerin sütunlardan ilgili K'larda değeri olmayan satırlara NaN değer atadı.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K4,A2,B2,,
3,K5,A3,B3,,
4,K2,,,C2,D2
5,K3,,,C3,D3


In [33]:
"pd.merge(left, right, how = "left", on = "key")

# how = left dediğim için left'in key sütununu baz alıyoruz (yani K0,K1,K4,K5'i) 
# o yüzden (right dataframe'in) K4 ve K5 e denk gelen  C ve D sütununda değer olmadığı için buralara NaN değer atadı.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K4,A2,B2,,
3,K5,A3,B3,,


In [35]:
pd.merge(left, right, how = "right", on = "key")

# how = right dediğim için right'ın key sütununu baz alıyoruz (yani K0,K1,K2,K3'ü) 
# o yüzden K2 ve K3 e denk gelen A ve B sütununda değer olmadığı için buralara NaN değer atadı.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,,,C2,D2
3,K3,,,C3,D3


In [36]:
left1 = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
right1 = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [37]:
left1

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [39]:
right1

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [40]:
pd.merge(left1, right1, on = ["key1", "key2"])

# how parametresine değer girmediğim için default olarak "inner" (ortak kesişim) olacak.

# her iki dataframe de key1 ve key2 ortak olan şunlar var :(K0-K0 ve K1-K0). o zaman inner sadece bu satırları alacak.
# dataframeler incelediğinde, left1 de mevcut olan 1 adet K0-K0 ve 1 adet K1-K0 satırlarını aldı.
# right1 de ise 1 adet K0-K0, 2 adet K1-K0 var.
# bu durumda yeni oluşacak (merge edilmiş) dataframe'in 2 adet K1-K0 satırı olacağından, 
   # left1 dataframe'in K1-K0'a denk gelen A2 B2 değerleri her iki satırda da yer alacaktır. 

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [41]:
pd.merge(left1, right1, how = "outer", on = ["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3
