# Data Wrangling  :: Join, combine และ reshape/rearrange ข้อมูล

In [5]:
import pandas as pd
import numpy as np

### เริ่มจากข้อมูลที่ซับซ้อนขึ้นใน Series ของ Pandas

In [7]:
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])
data

a  1   -2.255926
   2   -0.102143
   3    0.153486
b  1   -0.818347
   3    1.189137
c  1   -0.025854
   2   -2.664422
d  2   -1.907950
   3   -0.857129
dtype: float64

In [8]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

In [9]:
data['a']

1   -2.255926
2   -0.102143
3    0.153486
dtype: float64

In [12]:
data['b':'d']

b  1   -0.818347
   3    1.189137
c  1   -0.025854
   2   -2.664422
d  2   -1.907950
   3   -0.857129
dtype: float64

In [13]:
data.loc[['b','d']]

b  1   -0.818347
   3    1.189137
d  2   -1.907950
   3   -0.857129
dtype: float64

In [15]:
data.loc[:,2]

a   -0.102143
c   -2.664422
d   -1.907950
dtype: float64

### เราสามารถแปลงโครงสร้างข้อมูลในรูปแบบลำดับชั้นของ index (Pivot table) ให้อยู่ในรูปแบบ DataFrame ได้ดังนี้

In [22]:
data = data.unstack()
type(data)

pandas.core.frame.DataFrame

In [23]:
data

Unnamed: 0,a,b,c,d
1,-2.255926,-0.818347,-0.025854,
2,-0.102143,,-2.664422,-1.90795
3,0.153486,1.189137,,-0.857129


In [24]:
# Put your  code

1  a   -2.255926
   b   -0.818347
   c   -0.025854
2  a   -0.102143
   c   -2.664422
   d   -1.907950
3  a    0.153486
   b    1.189137
   d   -0.857129
dtype: float64

### มาดูข้อมูลซับซ้อนใน DataFrame กันบ้าง

In [66]:
data = frame = pd.DataFrame(np.arange(16).reshape((4, 4)),
                            index=[['group 1', 'group 1', 'group 2', 'group 2'], [1, 2, 1, 2]],
                            columns=[['Bangkok', 'Bangkok', 'CNX', 'CNX'],
                                     ['Green', 'Red', 'Green', 'Red']])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green,Red
group 1,1,0,1,2,3
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 2,2,12,13,14,15


In [67]:
data.index

MultiIndex(levels=[['group 1', 'group 2'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [68]:
data.columns

MultiIndex(levels=[['Bangkok', 'CNX'], ['Green', 'Red']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [69]:
data.index.names = [ 'Key 1', 'Key 2' ]
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 1,1,0,1,2,3
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 2,2,12,13,14,15


In [70]:
data.columns.names = ['Provice name', 'Color']
data

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 1,1,0,1,2,3
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 2,2,12,13,14,15


In [71]:
# Access data in DataFrame
data.Bangkok

Unnamed: 0_level_0,Color,Green,Red
Key 1,Key 2,Unnamed: 2_level_1,Unnamed: 3_level_1
group 1,1,0,1
group 1,2,4,5
group 2,1,8,9
group 2,2,12,13


In [72]:
data['Bangkok']

Unnamed: 0_level_0,Color,Green,Red
Key 1,Key 2,Unnamed: 2_level_1,Unnamed: 3_level_1
group 1,1,0,1
group 1,2,4,5
group 2,1,8,9
group 2,2,12,13


### Reorder and sort data in DataFrame

In [76]:
data.swaplevel('Key 1', 'Key 2')

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 2,Key 1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,group 1,0,1,2,3
2,group 1,4,5,6,7
1,group 2,8,9,10,11
2,group 2,12,13,14,15


In [85]:
data.sort_index(level=0)

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 1,1,0,1,2,3
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 2,2,12,13,14,15


In [86]:
data.sort_index(level=1)


Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 1,1,0,1,2,3
group 2,1,8,9,10,11
group 1,2,4,5,6,7
group 2,2,12,13,14,15


In [88]:
# Put your code to ordering 

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 2,2,12,13,14,15
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 1,1,0,1,2,3


In [93]:
data.swaplevel(0,1)

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 2,Key 1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,group 1,0,1,2,3
2,group 1,4,5,6,7
1,group 2,8,9,10,11
2,group 2,12,13,14,15


In [95]:
data.swaplevel(0,1).sort_index(level=0)

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 2,Key 1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,group 1,0,1,2,3
1,group 2,8,9,10,11
2,group 1,4,5,6,7
2,group 2,12,13,14,15


In [98]:
data.swaplevel(0,1).sort_index(level=0, ascending=False)

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 2,Key 1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2,group 2,12,13,14,15
2,group 1,4,5,6,7
1,group 2,8,9,10,11
1,group 1,0,1,2,3


### Summary data

In [99]:
data

Unnamed: 0_level_0,Provice name,Bangkok,Bangkok,CNX,CNX
Unnamed: 0_level_1,Color,Green,Red,Green,Red
Key 1,Key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
group 1,1,0,1,2,3
group 1,2,4,5,6,7
group 2,1,8,9,10,11
group 2,2,12,13,14,15


In [105]:
# Sum by level = Key 1
data.sum(level='Key 1')

Provice name,Bangkok,Bangkok,CNX,CNX
Color,Green,Red,Green,Red
Key 1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
group 1,4,6,8,10
group 2,20,22,24,26


In [104]:
# Sum by level = Key 2
data.sum(level='Key 2')

Provice name,Bangkok,Bangkok,CNX,CNX
Color,Green,Red,Green,Red
Key 2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,8,10,12,14
2,16,18,20,22


In [102]:
# Sum by level = Color
data.sum(level='Color', axis=1)

Unnamed: 0_level_0,Color,Green,Red
Key 1,Key 2,Unnamed: 2_level_1,Unnamed: 3_level_1
group 1,1,2,4
group 1,2,10,12
group 2,1,18,20
group 2,2,26,28


### จัดการ Row index/ Column ของ DataFrame ตามความต้องการ
* การสร้าง index
* การ reset index

In [107]:
data = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1),
                     'c': ['one', 'one', 'one', 'two', 'two',
                           'two', 'two'],
                     'd': [0, 1, 2, 0, 1, 2, 3]})
data

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


ทำการรวม column c และ d เข้าด้วยกันเป็น index ของ DataFrame

In [111]:
data_new = data.set_index(['c', 'd'])
data_new

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


ผลการสร้าง index จาก column c และ d คือ column c และ d หายไปจากข้อมูล

แต่ถ้าเราไม่ต้องการให้ข้อมูลหายไป สามารถทำได้ด้วยการกำหนดค่า drop=False ไปดังนี้

In [117]:
data_new = data.set_index(['c', 'd'], drop=False)
data_new

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


### ถ้าต้องการ reset index สามารถทำได้เช่นกัน

แต่ column/index ห้ามซ้ำ !!!

In [120]:
data_new = data.set_index(['c', 'd'])
data_new.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## การรวมข้อมูลเข้าด้วยกัน  (Join/Merge/Combine)

* Merge
* Concat
* Combine

https://pandas.pydata.org/pandas-docs/stable/merging.html

### 1. การรวมข้อมูลของ DataFrame ในรูปแบบเดียวกับการ join ใน Database

In [123]:
employee = pd.DataFrame( {'id': [1,2,3,4,5],
                          'name': ['A', 'B', 'C', 'D', 'E']
                          }
                        )
employee

Unnamed: 0,id,name
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [125]:
position = pd.DataFrame( {'id': [1,2,3,4,5],
                          'position': ['Dev', 'Prog', 'Manager', 'Dev', 'MD']
                          }
                        )
position

Unnamed: 0,id,position
0,1,Dev
1,2,Prog
2,3,Manager
3,4,Dev
4,5,MD


In [126]:
# Merge data
pd.merge(employee, position)

Unnamed: 0,id,name,position
0,1,A,Dev
1,2,B,Prog
2,3,C,Manager
3,4,D,Dev
4,5,E,MD


In [128]:
# Merge data with specified key
pd.merge(employee, position, on='id')

Unnamed: 0,id,name,position
0,1,A,Dev
1,2,B,Prog
2,3,C,Manager
3,4,D,Dev
4,5,E,MD


#### ปัญหาที่พบเจอในซ้อมูลคือ ชื่อของ column ในแต่ละ DataFrame ไม่ตรงกัน

ทำให้เกิดปัญหขึ้นมา ซึ่ง Pandas library ได้เตรียมวิธีการแก้ไขไว้ดังนี้

In [129]:
employee = pd.DataFrame( {'id': [1,2,3,4,5],
                          'name': ['A', 'B', 'C', 'D', 'E']
                          }
                        )
employee

Unnamed: 0,id,name
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [130]:
position = pd.DataFrame( {'employee_id': [1,2,3,4,5],
                          'position': ['Dev', 'Prog', 'Manager', 'Dev', 'MD']
                          }
                        )
position

Unnamed: 0,employee_id,position
0,1,Dev
1,2,Prog
2,3,Manager
3,4,Dev
4,5,MD


In [131]:
pd.merge(employee, position, left_on='id', right_on='employee_id')

Unnamed: 0,id,name,employee_id,position
0,1,A,1,Dev
1,2,B,2,Prog
2,3,C,3,Manager
3,4,D,4,Dev
4,5,E,5,MD


### แต่เมื่อเจอกับข้อมูลจริง ๆ มักจะมีข้อมูลที่ไม่ตรงกัน !!

จากตัวอย่างคือ id และ employee_id ของทั้งสอง DataFrame ไม่ตรงกัน ดังนี้

In [132]:
employee = pd.DataFrame( {'id': [1,2,3,4,5],
                          'name': ['A', 'B', 'C', 'D', 'E']
                          }
                        )
employee

Unnamed: 0,id,name
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [169]:
position = pd.DataFrame( {'employee_id': [1,2,3],
                          'position': ['Dev', 'Prog', 'Manager']
                          }
                        )
position

Unnamed: 0,employee_id,position
0,1,Dev
1,2,Prog
2,3,Manager


In [170]:
pd.merge(employee, position, left_on='id', right_on='employee_id')

Unnamed: 0,id,name,employee_id,position
0,1,A,1,Dev
1,2,B,2,Prog
2,3,C,3,Manager


ผลการทำงาน ข้อมูลของ employee จะหายไป 2 คน เนื่องจากไม่มีข้อมูลใน position นั่นเอง

นั่นหมายความว่า pd.merge() นั้น ถ้าเทียบกับการ join ใน Database คือ Inner join

โดยที่ Pandas ได้เตรียม parameter how ให้เราทำการเปลี่ยนแปลงการ join ได้ ประกอบไปด้วย
* inner
* left
* right
* outer

In [138]:
# Put your code

Unnamed: 0,id,name,employee_id,position
0,1,A,1.0,Dev
1,2,B,2.0,Prog
2,3,C,3.0,Manager
3,4,D,,
4,5,E,,


### ทำการ Merge data ตาม column ที่ต้องการ

จากการ merge data ที่ผ่านมา พบว่าผลลัพธ์ที่ได้จะมี column ที่มีข้อมูลเหมือนกันออกมาด้วย

ซึ่งบ่อยครั้งเราไม่ต้องการให้ข้อมูลเป็นแบบนี้ นั่นคือ ให้มีเพียง column เดียวก็พอ

สามารถทำได้ดังนี้

In [155]:
employee = pd.DataFrame( {'id': [1,2,3,4,5],
                          'name': ['A', 'B', 'C', 'D', 'E']
                          }
                        )
employee

Unnamed: 0,id,name
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E


In [158]:
position = pd.DataFrame( {'position': ['Dev', 'Prog', 'Manager']
                          },
                         index=[1, 2, 3]
                        )
position.index.name = 'Employee id'
position

Unnamed: 0_level_0,position
Employee id,Unnamed: 1_level_1
1,Dev
2,Prog
3,Manager


In [164]:
pd.merge(employee, position, left_on='id', right_index=True)

Unnamed: 0,id,name,position
0,1,A,Dev
1,2,B,Prog
2,3,C,Manager


In [165]:
pd.merge(employee, position, left_on='id', right_index=True, how='left')

Unnamed: 0,id,name,position
0,1,A,Dev
1,2,B,Prog
2,3,C,Manager
3,4,D,
4,5,E,


PS.... Multiple Key !!!

### ทำการ Join ข้อมูลระหว่าง DataFrame

In [187]:
employee = pd.DataFrame( {'name': ['A', 'B', 'C', 'D', 'E']
                          },
                        index=[1,2,3,4,5]
                        )
employee

Unnamed: 0,name
1,A
2,B
3,C
4,D
5,E


In [188]:
position = pd.DataFrame( {'position': ['Dev', 'Prog', 'Manager']
                          },
                         index=[1, 2, 3]
                        )
position

Unnamed: 0,position
1,Dev
2,Prog
3,Manager


In [189]:
employee.join(position)

Unnamed: 0,name,position
1,A,Dev
2,B,Prog
3,C,Manager
4,D,
5,E,


## การ concat ข้อมูล

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html

In [191]:
data1 = pd.Series([0, 1], index=['a', 'b'])
data2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
data3 = pd.Series([5, 6], index=['f', 'g'])

pd.concat([data1, data2, data3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

โดยปกติแล้ว function concat() นั้นจะทำการ concat ในแนวแกน axis=0 ซึ่งจะสร้าง Series ใหม่ออกมา

ดังนั้นถ้าต้องการให้ผลการ concat เป็น DataFrame ทำได้ดังนี้

In [192]:
pd.concat([data1, data2, data3], axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [197]:
# Default join = outer
pd.concat([data1, data2, data3], axis=1, join='outer')

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


## Workshop รวมข้อมูลจาก data1, data2 และ data 3 ให้ได้ดังนี้

In [207]:
# Put your code
data4 = pd.concat([data1, data3])
data4

a    0
b    1
f    5
g    6
dtype: int64

In [204]:
pd.concat([data1, data4], axis=1)

Unnamed: 0,0,1
a,0.0,0
b,1.0,1
f,,5
g,,6


In [210]:
pd.concat([data1, data4], axis=1, join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


### ในการ concat ข้อมูลสามารถกำหนด index ที่ต้องการ ได้

In [214]:
pd.concat([data1, data4], axis=1, join_axes=[['a','c','b','d','e']])

Unnamed: 0,0,1
a,0.0,0.0
c,,
b,1.0,1.0
d,,
e,,


### ถ้าข้อมูลอยู่ในรูปแบบที่ซับซ้อน จะทำอย่างไรดี ?

In [218]:
data = pd.concat([data1, data1, data3], keys=['one', 'two', 'three'])
data

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

In [219]:
data.unstack()

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0
