## 데이터 Merge()

In [1]:
import pandas as pd

# 먼저 staff df와 students df를 만들자
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])

student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
staff_df

Unnamed: 0,Name,Role
0,Kelly,Director of HR
1,Sally,Course liasion
2,James,Grader


In [2]:
student_df

Unnamed: 0,Name,School
0,James,Business
1,Mike,Law
2,Sally,Engineering


In [3]:
# Name을 인덱스로 한다
staff_df = staff_df.set_index('Name')

student_df = student_df.set_index('Name')

# 결과를 출력해 보자
print(staff_df)
print()
print(student_df)

                 Role
Name                 
Kelly  Director of HR
Sally  Course liasion
James          Grader

            School
Name              
James     Business
Mike           Law
Sally  Engineering


In [4]:
# outer join
# 각각의 df에 있는 칼럼들이 모두 나타나고, 
# 원래 df에 없는 요소는 NaN으로 나타난다

pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Kelly,Director of HR,
Mike,,Law
Sally,Course liasion,Engineering


In [5]:
# 공통되는 요소만 추출하는 inner join

pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Sally,Course liasion,Engineering
James,Grader,Business


Unnamed: 0,Name,Role
0,Kelly,Director of HR
1,Sally,Course liasion
2,James,Grader


In [12]:
# 아래에서 left join과  right join의 결과 차이를 보자
#left join

pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,
Sally,Course liasion,Engineering
James,Grader,Business


In [13]:
# right join

pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Mike,,Law
Sally,Course liasion,Engineering


In [14]:
# 위에서 보듯 원칙적으로 index를 기준으로 join이 이뤄진다
# 만일 특정 칼럼을 기준으로  join이 이뤄지도록 하려면?

#먼저 0부터 시작하는 일반 인덱스로 되돌린다
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()
staff_df

Unnamed: 0,Name,Role
0,Kelly,Director of HR
1,Sally,Course liasion
2,James,Grader


In [15]:
student_df

Unnamed: 0,Name,School
0,James,Business
1,Mike,Law
2,Sally,Engineering


In [16]:
# on = 'Name'을 특정해, Name 칼럼을 기준으로 join을 수행해 보자
# 만약 두 데이터프레임의 기준이 되는 행의 이름이 다르다면 left_on ='...', right_on = '...'

pd.merge(staff_df, student_df, how='outer',on='Name')

Unnamed: 0,Name,Role,School
0,Kelly,Director of HR,
1,Sally,Course liasion,Engineering
2,James,Grader,Business
3,Mike,,Law


In [None]:
# 위의 경우는 merge되는 각각의 dataframe의 인덱스를 기준으로 병합하였다.
# 만약 열의 이름이 다르거나, 하나는 column하나는 index를 기준으로 한다면?

staff_df2 = staff_df.reset_index()
staff_df2

In [None]:
pd.merge(staff_df2, student_df, how='outer', left_on = 'Name', right_index=True

## Data Concat()

In [17]:
# merge와 달리 concat은 단순히 데이터프레임을 덧붙이는 것이다.
# 우리의 공공데이터를 각각의 데이터프레임으로 만들어 보자

df_seoul = pd.read_csv("./seoul_2021.csv", encoding='utf-8')
df_busan = pd.read_csv("./busan_2021.csv", encoding='utf-8')
df_jeju = pd.read_csv("./jeju_2021.csv", encoding='utf-8')

In [18]:
# 각각의 길이는?

print(len(df_seoul))
print(len(df_busan))
print(len(df_jeju))

365
365
365


In [19]:
df_jeju.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,189,2021-01-01,4.7,2.3,856,6.3,1037,,,,...,,,,,,,,,,
1,189,2021-01-02,6.5,3.7,2230,10.2,1320,,,,...,,,,,,,,,,
2,189,2021-01-03,6.3,3.8,638,9.1,1408,,,,...,,,,,,,,,,
3,189,2021-01-04,6.5,3.2,715,10.8,1435,,,,...,,,,,,,,,,
4,189,2021-01-05,7.2,4.3,2343,10.3,1622,,,,...,,,,,,,,,,


In [20]:
# df_seoul, df_busan, df_jeju 세개의 df를 종방향으로 덧붇여 보자
# pd.concat([]) 의 형식으로 반드시 []안에 결합할 df을 적는다

df = pd.concat([df_seoul, df_busan, df_jeju])
print(len(df))
df.head()

1095


Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,,...,1.4,2.9,6.8,9.7,15.9,17.5,1.1,1.6,,
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,,...,1.2,2.6,6.6,9.6,15.8,17.5,1.4,2.0,,
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,,...,1.0,2.5,6.5,9.5,15.7,17.4,1.0,1.5,,
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,2.33,,,...,0.8,2.3,6.3,9.4,15.6,17.4,0.9,1.3,0.0,
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,5.42,,,...,0.8,2.2,6.2,9.3,15.5,17.3,1.2,1.7,,


In [21]:
#추후 다시 쓰기 위해 별도로 저정해 놓도록 하자

df.to_csv('./weather_concated.csv', index=False, encoding='utf-8')

In [28]:
student_df

Unnamed: 0,Name,School
0,James,Business
1,Mike,Law
2,Sally,Engineering


In [29]:
staff_df

Unnamed: 0,Name,Role
0,Kelly,Director of HR
1,Sally,Course liasion
2,James,Grader


In [30]:
pd.concat([student_df, staff_df])

Unnamed: 0,Name,School,Role
0,James,Business,
1,Mike,Law,
2,Sally,Engineering,
0,Kelly,,Director of HR
1,Sally,,Course liasion
2,James,,Grader


In [34]:
#만약 위의 student_df와 staff_df로 concat을 한다면??

pd.concat([student_df, staff_df]).reset_index().drop(['index'], axis = 1)

Unnamed: 0,Name,School,Role
0,James,Business,
1,Mike,Law,
2,Sally,Engineering,
3,Kelly,,Director of HR
4,Sally,,Course liasion
5,James,,Grader


In [32]:
#횡 방향으로 concat도 가능하다
# 위에서 axis = 1은 drop 에 적용되는 반면, 
# 아래에서는 concat에 axis = 1이 적용됨을 주의!!

pd.concat([student_df, staff_df], axis = 1)

Unnamed: 0,Name,School,Name.1,Role
0,James,Business,Kelly,Director of HR
1,Mike,Law,Sally,Course liasion
2,Sally,Engineering,James,Grader
