In [None]:
import pandas as pd
import numpy as np

# 온보딩 (8) : 데이터 통합

두 개의 데이터를 하나로 통합하는 방법 소개
1. 세로로 증가하는 방향으로 통합
2. 가로로 증가하는 방향으로 통합
3. 특정 열을 기준으로 통합

## 세로로 합치기

In [3]:
df1 = pd.DataFrame({'c1': [95,92,98,100],
                    'c2': [91,93,97,99]})

df2 = pd.DataFrame({'c1': [87,89],
                    'c2': [85,90]})

In [16]:
# df1.append(df2)
# 삭제됨

# 세로 방향으로 통합 (1)
pd.concat([df1, df2], ignore_index=False)

Unnamed: 0,c1,c2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,90


In [17]:
# 세로 방향으로 통합 (2)
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,c1,c2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


## 가로로 합치기
* `join()`을 쓴다

In [18]:
pd.concat([df1, df2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,95,91,87.0,85.0
1,92,93,89.0,90.0
2,98,97,,
3,100,99,,


In [22]:
df4 = pd.DataFrame({'c3': [93,91,95,98]})
df1.join(df4)

Unnamed: 0,c1,c2,c3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


In [26]:
# index가 같은 경우
index_label = ['a', 'b', 'c', 'd']

df1 = pd.DataFrame({'c1': [95,92,98,100],
                    'c2': [91,93,97,99]}, index=index_label)
df4 = pd.DataFrame({'c3': [93,91,95,98]}, index=index_label)
df1.join(df4)

Unnamed: 0,c1,c2,c3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [27]:
df1 = pd.DataFrame({'c1': [95,92,98,100],
                    'c2': [91,93,97,99]})
df5 = pd.DataFrame({'c3': [82, 93]})

df1.join(df5)

Unnamed: 0,c1,c2,c3
0,95,91,82.0
1,92,93,93.0
2,98,97,
3,100,99,


## 특정 열 기준 합치기

* 특정 열을 'key'라고 한다.
* 만약 두 dataframe에 공통된 열이 있다면, 이를 기준으로 통합 가능
* 공통된 열을 기준으로 중심으로 좌우 통합
* `merge()`를 쓴다

In [29]:
df_A_B=pd.DataFrame({'판매월': ['1월','2월','3월','4월'],
                     '제품A': [100,150,200,130],
                     '제품B': [90,110,140,170]})
df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [30]:
df_C_D=pd.DataFrame({'판매월': ['1월','2월','3월','4월'],
                     '제품C': [112,141,203,134],
                     '제품D': [90,110,140,170]})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [32]:
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [52]:
df_left = pd.DataFrame({'key' : ['A', 'B', 'D'], 'left' : [1,2,3]})
df_right = pd.DataFrame({'key' : ['A', 'B', 'C'], 'right' : [4,5,6]})

In [53]:
df_left.merge(df_right, how='left', on='key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,D,3,


In [54]:
df_left.merge(df_right, how='right', on='key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,C,,6


In [55]:
df_left.merge(df_right, how='outer', on='key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,,6.0
3,D,3.0,


In [56]:
df_left.merge(df_right, how='inner', on='key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


sort를 하고 합쳐야 한다.  
그냥 하게 되면, 문제가 발생  

In [58]:
df_left = pd.DataFrame({'key' : ['B', 'A', 'C'], 'left' : [1,2,3]})
df_right = pd.DataFrame({'key' : ['D', 'A', 'B'], 'right' : [4,5,6]})

df_left.merge(df_right)

Unnamed: 0,key,left,right
0,B,1,6
1,A,2,5


In [59]:
df_left.merge(df_right, sort=True)

Unnamed: 0,key,left,right
0,A,2,5
1,B,1,6


## 실습

In [60]:
test=pd.DataFrame({'name':['브라운','레드','그린','옐로우'],
                   'kor':[90,99,60,89],
                   'math':[87,83,82,93],
                   'eng':[79,80,77,62]})
test

Unnamed: 0,name,kor,math,eng
0,브라운,90,87,79
1,레드,99,83,80
2,그린,60,82,77
3,옐로우,89,93,62


In [61]:
score1 = pd.DataFrame({'name':['브라운','레드','그레이','블랙'],
                       'sci':[62,87,69,72]})
score1

Unnamed: 0,name,sci
0,브라운,62
1,레드,87
2,그레이,69
3,블랙,72


In [62]:
score2=pd.DataFrame({'name':['핑크','블루','그린','옐로우'],
                     'soc':[77,60,93,72]})
score2

Unnamed: 0,name,soc
0,핑크,77
1,블루,60
2,그린,93
3,옐로우,72


In [68]:
test.merge(score1, how='inner', on='name')

Unnamed: 0,name,kor,math,eng,sci
0,브라운,90,87,79,62
1,레드,99,83,80,87


In [73]:
test.merge(score2, how='left', on='name')

Unnamed: 0,name,kor,math,eng,soc
0,브라운,90,87,79,
1,레드,99,83,80,
2,그린,60,82,77,93.0
3,옐로우,89,93,62,72.0


In [74]:
score1.merge(test, how='right', on='name')

Unnamed: 0,name,sci,kor,math,eng
0,브라운,62.0,90,87,79
1,레드,87.0,99,83,80
2,그린,,60,82,77
3,옐로우,,89,93,62


In [93]:
test.merge(score1, how='outer', on='name')

Unnamed: 0,name,kor,math,eng,sci
0,그레이,,,,69.0
1,그린,60.0,82.0,77.0,
2,레드,99.0,83.0,80.0,87.0
3,브라운,90.0,87.0,79.0,62.0
4,블랙,,,,72.0
5,옐로우,89.0,93.0,62.0,


# 온보딩 (9) : 데이터 읽기

## CSV 만들고 읽기 

In [99]:
%%writefile ./sea_rain.csv
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178

Overwriting ./sea_rain.csv


In [105]:
col_list = ['연도', '동해', '서해', '남해', '전체']
raindata = pd.read_csv("./sea_rain.csv", names = col_list)
raindata

Unnamed: 0,연도,동해,서해,남해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [108]:
pd.read_csv("./sea_rain1.csv", encoding="utf8")

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [115]:
pd.read_csv("./sea_rain2.csv", encoding="cp949")

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [119]:
pd.read_csv("./sea_rain1.csv", encoding="utf8")

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


## CSV에 쓰기

In [124]:
df_WH = pd.DataFrame({'Weight' : [62, 67, 55, 74],
                      'Height': [165, 177, 160, 180]},
                      index = ['ID_1', 'ID_2', 'ID_3', 'ID_4'])
df_WH.index.name = 'User'
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [130]:
df_WH['BMI'] = df_WH['Weight'] / ((df_WH['Height'] / 100) ** 2)
df_WH

Unnamed: 0_level_0,Weight,Height,BMI
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


In [132]:
df_WH.to_csv("./save_df.csv")

In [142]:
# 맥/유닉스/리눅스에서 파일 확인하기
!cat ./save_df.csv

# 윈도우에서 파일 확인하기
# !type ./save_df.csv

User,Weight,Height,BMI
ID_1,62,165,22.77318640955005
ID_2,67,177,21.38593635289987
ID_3,55,160,21.484374999999996
ID_4,74,180,22.839506172839506
