In [1]:
import numpy as np
import pandas as pd

## Concatenation

Directly glue together dataframes

In [2]:
data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']}

In [3]:
data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}

In [4]:
one = pd.DataFrame(data_one)
two = pd.DataFrame(data_two)

In [5]:
one

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [6]:
two

Unnamed: 0,C,D
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


### Concatenate along columns (axis=1)

In [7]:
pd.concat([one, two], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


### Concatenate along rows (axis=0)

In [8]:
pd.concat([one, two], axis=0)  

# aynı index numarasını içeren dataframeleri satırlar boyunca(axis=0) birleştirebilmek için
# satır isimlerinin aynı olması gerekir.
# Farklı kolon isimlerine sahip dataframe leri bu şekilde birleştirmek çok uygun değildir.
# Farklı kolon isimlerine sahip dataframe ler bu şekilde birleştirildiğinde çok sayıda NaN oluşur.


Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
2,A2,B2,,
3,A3,B3,,
0,,,C0,D0
1,,,C1,D1
2,,,C2,D2
3,,,C3,D3


### Yukarıdaki çıktıyı istemiyorsak
önce kolon isimlerini eşitlemeliyiz.

In [9]:
two.columns=one.columns
two

Unnamed: 0,A,B
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [10]:
pd.concat([one, two], axis=0)  # satırlar boyunca birleştirme yaptıktan sonra indexleri de düzenleyebilirsiniz.

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [11]:
mydf = pd.concat([one, two], axis=0)

In [12]:
mydf.index = range(len(mydf))  # dataframe in uzunluğunu kullanarak range ile yeni index oluşturduk.
mydf

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,C0,D0
5,C1,D1
6,C2,D2
7,C3,D3


## Merge

In [13]:
registrations = pd.DataFrame({'reg_id':[1,2,3,4],'name':['Andrew','Bobo','Claire','David']})
logins = pd.DataFrame({'log_id':[1,2,3,4],'name':['Xavier','Andrew','Yolanda','Bobo']})

In [14]:
registrations

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bobo
2,3,Claire
3,4,David


In [15]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


### pd.merge()

Merge pandas DataFrames based on key columns, similar to SQL join. Results based on the **how** parameter.

In [16]:
help(pd.merge)

Help on function merge in module pandas.core.reshape.merge:

merge(left: 'DataFrame | Series', right: 'DataFrame | Series', how: 'str' = 'inner', on: 'IndexLabel | None' = None, left_on: 'IndexLabel | None' = None, right_on: 'IndexLabel | None' = None, left_index: 'bool' = False, right_index: 'bool' = False, sort: 'bool' = False, suffixes: 'Suffixes' = ('_x', '_y'), copy: 'bool' = True, indicator: 'bool' = False, validate: 'str | None' = None) -> 'DataFrame'
    Merge DataFrame or named Series objects with a database-style join.
    
    A named Series object is treated as a DataFrame with a single named column.
    
    The join is done on columns or indexes. If joining columns on
    columns, the DataFrame indexes *will be ignored*. Otherwise if joining indexes
    on indexes or indexes on a column or columns, the index will be passed on.
    When performing a cross merge, no column specifications to merge on are
    allowed.
    
    Parameters
    ----------
    left : DataFrame
  

### Inner merge(join)

**Match up where the key is present in BOTH tables. There should be no NaNs due to the join, since by definition to be part of the Inner Join they need info in both tables.**
**Only Andrew and Bobo both registered and logged in.**

In [17]:
pd.merge(registrations, logins, how="inner", on="name")

# Notice pd.merge doesn't take in a list like concat
# inner merge : her iki tabloda da ortak olan verileri alır
# how : nasıl birleştirme yapılacağını belirten parametre
# on : hangi kolondaki verilere göre birleştirmek istediğimizi belirttiğimiz parametre
# birleştirilecek kolon isimleri her iki dataframe de de aynı olmalıdır.

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2
1,2,Bobo,4


In [18]:
pd.merge(logins, registrations, how="inner", on="name")  # dataframe isimlerinin yeri değiştiğinde sonuç değişmez.

Unnamed: 0,log_id,name,reg_id
0,2,Andrew,1
1,4,Bobo,2


In [19]:
# Pandas smart enough to figure out key column (on parameter) if only one column name matches up

pd.merge(registrations, logins, how="inner")

# Sadece bir kolon adının eşleşmesi durumunda, birleştirme yapılacak kolon adını belirtmeye gerek yoktur. 

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2
1,2,Bobo,4


In [20]:
# birleştirme yapılacak key column her iki dataframe de de yer almazsa pandas hata verir.
# Ör:

# pd.merge(registrations, logins, how="inner", on="reg_id") reg_id kolonu sadece bir df de var.
# Bu nedenle birleştirme yapamaz ve hata verir.

### Left Join(merge left)

**Match up AND include all rows from Left Table.**
**Show everyone who registered on Left Table, if they don't have login info, then fill with NaN.**

In [21]:
pd.merge(left=registrations, right=logins, how="left", on= "name")

# left merge ile her iki df deki ortak olan veiler ile left df deki verilerin tamamı sonuç df de yer alır.
# Ayrıca parametre olarak left ve right şeklinde girilen df sıralaması da önemlidir. 

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2.0
1,2,Bobo,4.0
2,3,Claire,
3,4,David,


## Right Join

**Match up AND include all rows from Right Table.**
**Show everyone who logged in on the Right Table, if they don't have registration info, then fill with NaN.**

In [23]:
pd.merge(left=registrations, right=logins, how="right", on="name")

Unnamed: 0,reg_id,name,log_id
0,,Xavier,1
1,1.0,Andrew,2
2,,Yolanda,3
3,2.0,Bobo,4


In [25]:
# Not: her iki df de de birleştime yapılacak kolon adı aynı ise(ör: name kolonu)
# siz kolon adını belirtmeseniz bile pandas bunu kendisi belirleyerek yapabilir.
# Ör:

pd.merge(left=registrations, right=logins, how="right")

# burada birleştime yapılacak kolon adı belirtilmese de pandas yukarıdaki ile aynı sonuca ulaştı.

Unnamed: 0,reg_id,name,log_id
0,,Xavier,1
1,1.0,Andrew,2
2,,Yolanda,3
3,2.0,Bobo,4


## Outer Join

**Match up on all info found in either Left or Right Table.**
**Show everyone that's in the Log in table and the registrations table. Fill any missing info with NaN**

In [None]:
# Outer merge yapıldığında her iki df deki ortak olan ya da olmayan tüm veriler yeni bir df de toplanmış olur.



In [26]:
registrations

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bobo
2,3,Claire
3,4,David


In [27]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [28]:
pd.merge(registrations,logins, how="outer", on="name")

# outer merge yapıldığı için df lerin yazılma sırası önemli değildir. Sonuçta her iki df deki verileri içeren yeni bir df oluşur.


Unnamed: 0,reg_id,name,log_id
0,1.0,Andrew,2.0
1,2.0,Bobo,4.0
2,3.0,Claire,
3,4.0,David,
4,,Xavier,1.0
5,,Yolanda,3.0


## Join on Index or Column

**Use combinations of left_on,right_on,left_index,right_index to merge a column or index on each other**

In [29]:
registrations

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bobo
2,3,Claire
3,4,David


In [30]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [31]:
registrations = registrations.set_index("name")

In [32]:
registrations

Unnamed: 0_level_0,reg_id
name,Unnamed: 1_level_1
Andrew,1
Bobo,2
Claire,3
David,4


In [33]:
# registration df teki index olan isimler ile, login df deki name kolonuna göre inner merge işlemi aşağıdaki gibi yapılabilir.

pd.merge(registrations, logins, left_index=True, right_on="name", how="inner")

Unnamed: 0,reg_id,log_id,name
1,1,2,Andrew
3,2,4,Bobo


### Dealing with differing key column names in joined tables

In [34]:
registrations = registrations.reset_index()

In [35]:
registrations

Unnamed: 0,name,reg_id
0,Andrew,1
1,Bobo,2
2,Claire,3
3,David,4


In [36]:
registrations.columns = ["reg_name","reg_id"]  # registrations df in kolon isimlerini değiştirmek için


In [37]:
registrations

Unnamed: 0,reg_name,reg_id
0,Andrew,1
1,Bobo,2
2,Claire,3
3,David,4


In [38]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [40]:
# df lerde farklı isimlerdeki key kolonlar üzerinden birleştirme yapmak için

result = pd.merge(registrations, logins, how="inner", left_on="reg_name", right_on="name")

# Bu şekilde birleştirme yapıldığında aynı verileri içeren iki farklı kolon adınız olur.


In [41]:
# Bunları temizlemek için drop yapabilirsiniz.
result.drop("reg_name", axis=1)

Unnamed: 0,reg_id,log_id,name
0,1,2,Andrew
1,2,4,Bobo


In [43]:
# pd.merge(registrations,logins)

# PANDAS birleştirme yapılacak ortak bir kolon adı bulamaz ise hata verir.
# Bu nedenle ortak kolon varsa birleştirme yaparken adını belirtmenize gerek yokken,
# ortak kolon yok ise birleştirme yapılacak kolon isimleri mutlaka belirtilmelidir.

### Pandas automatically tags duplicate columns

In [None]:
# Birleştirme yaparken aynı isimli key olmayan kolonlar varsa pandas otomatik olarak etiketlerini değiştirir.
# Veya kendiniz istediğiniz şekilde etiket düzenlemesi yapabilirsiniz.
# Ör:

In [44]:
registrations.columns = ["name","id"]

In [50]:
logins.columns = ["id","name"]

In [51]:
registrations

Unnamed: 0,name,id
0,Andrew,1
1,Bobo,2
2,Claire,3
3,David,4


In [52]:
logins

Unnamed: 0,id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [53]:
pd.merge(registrations,logins, how="inner", on="name")

# her iki df de aynı isimli kolonları pandas kendisi etiketledi.

Unnamed: 0,name,id_x,id_y
0,Andrew,1,2
1,Bobo,2,4


In [None]:
# df birleştirmede aynı isimli kolonlar için suffix leri kendimiz tanımlayabiliriz.
# suffixler tuple içinde df sırasına göre yazılmalıdır.

pd.merge(registrations, logins, how="inner", on="name", suffixes=("_reg", "_log"))