In [1]:
import pandas as pd
import numpy as np

In [2]:
# 일대일 조인
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
print(df1); print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [3]:
# 데이터 세트 결합: concat과 Append에서 본 열 단위의 연결과 여러면에서 매우 유사한 일 대 일 조인일 것이다
# DataFrame으로 결합하려면 pd.merge()함수를 사용하면된다
df3 = pd.merge(df1, df2)
df3
#pd.merge()함수는 각 DataFrame이 ‘employee’열을 가지고 있다 는 것을 알고 자동으로 이 열을 키로 사용해 조인한다

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [12]:
# 다대일(Many-to-one) 조인
# 다대일 조인은 두 개의 키 열 중 하나가 중복된 항목을 포함하는 경우의 조인을 의미한다
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
print(df3); print(df4); print(pd.merge(df3,df4));
# DataFrame에는 ‘supervisor’정보를 담고 있는 추가 열이 있는데, 그 정보는 입력값에 따라 하나 이상의 위치에 반복해서 등장한다.

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


In [7]:
# 다대다(Many-to-many) 조인
# 왼쪽과 오른쪽 배열의 키 열에 모두 중복 항목이 존재하면 결과는 다대다 병합이 된다
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux','spreadsheets', 'organization']})
print(df1); print(df5); print(pd.merge(df1,df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization
  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [14]:
# pd.merge()는 두 개의 입력값 사이에 일치하는 하나 이상의 열을 찾는다. 그러나 열 이름이 일치하지 않는 경우도 있더. 
# 이 문제를 처리하기 위한 다양한 옵션을 제공
# on 키워드
# 열 이름이나 열 이름의 리스트를 취하는 on키워드를 사용해 키 열의 이름을 명시적으로 지정하는 것이다
print(df1); print(df2); print(pd.merge(df1, df2, on='employee'))
# 왼쪽과 오른쪽 DataFrame이 모두 지정된 열 이름을 가진 경우에만 동작

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [26]:
# Left_on과 right_on 키워드
# 때로는 다른 열 이름을 가진 두 테이터세트를 병합하고 싶을 수도 있다
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3); print(pd.merge(df1, df3, left_on="employee", right_on="name"))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


In [27]:
# 불필요하게 중복된 열을 갖게 되며, 원하는 경우 DataFrame의 drop()메서드를 사용해 삭제할 수 있다.
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [15]:
# 열을 병합하는 대신 인덱스로 병합해야 하는 경우도 있다
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
print(df1a); print(df2a)

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


In [19]:
# pd.merge()의 left_iondex나 right_index를 지정해 병합 키로 인덱스를 사용할 수 있다
print(pd.merge(df1a, df2a, left_index=True, right_index=True))

                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [30]:
# DataFrame은 기본적으로 인덱스 기반으로 조인하는 병합을 수행하는 join()메서드를 구현하다.
print(df1a);print(df2a); print(df1a.join(df2a))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [32]:
# 인덱스와 열을 섞고자 한다면 left_index 를 right_on 과 결합하거나 left_on 을 right_index 와 결합해 원하는 결과를 얻을 수 있다
print(df1a); print(df3); 
print(pd.merge(df1a, df3, left_index=True, right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
         group  name  salary
0   Accounting   Bob   70000
1  Engineering  Jake   80000
2  Engineering  Lisa  120000
3           HR   Sue   90000


In [33]:
# 조인을 위한 집합 연산 지정하기
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 
                    'drink': ['wine', 'beer']}, 
                   columns=['name', 'drink'])
print(df6); print(df7); print(pd.merge(df6, df7)) 
# name’에서 공통 항목으로 유일하게 Mary를 가지고 있는 두 테이터세트를 병합했다. 
# 기본적으로 결과에는 입력값의 두  집합에 대한 교집합이 들어가는데, 이것이 바로 내부 조인(inner join)이다.

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
   name   food drink
0  Mary  bread  wine


In [34]:
# 기본적으로 ‘inner’로 설정된 how키워드를 사용해 명시적으로 저장할 수 있다
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [35]:
# How 키워드의 다른 옵션으로 ‘outer’, ‘left’,’right’가 있다. 
# 외부 조인(outer join)은 입력 데이터 열의 합집합으로 조인한 결과를 반환하고 누락된 값은 NA로 채운다
print(df6); print(df7); print(pd.merge(df6, df7, how='outer'))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
     name   food drink
0   Peter   fish   NaN
1    Paul  beans   NaN
2    Mary  bread  wine
3  Joseph    NaN  beer


In [36]:
# 왼쪽 조인 (left join)과 오른쪽 조인(right join)은 각각 왼쪽 항목과 오른쪽 항목을 기준으로 조인한다
print(df6); print(df7); print(pd.merge(df6, df7, how='left'))
# 결과값의 행이 입력값의 항목에 대응한다. How = ‘right’를 사용해도 비슷한 방식으로 동작한다

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
    name   food drink
0  Peter   fish   NaN
1   Paul  beans   NaN
2   Mary  bread  wine


In [37]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
print(pd.merge(df8, df9, on="name"))
#결과값에 두 개의 충돌하는 열 이름이 있기 때문에 병합 함수가 결과 열을 고유하게 만들려고 자동으로 접미사_x나 _y를 덧 붙인다

   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [38]:
# 기본값이 적절하지 않다면 suffixes키워드를 사용해 접미사를 별도로 지정할 수  있다
print(df8); print(df9); 
print(pd.merge(df8, df9, on="name", suffixes=["_L", "_R"]))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_L  rank_R
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [40]:
# 예제: 미국 주 데이터
# 병합과 조인 연산은 서로 다른 소스에서 나온 데이터를 연결할 때 가장 자주 사용한다. 여기서는 미국 주와 주 별 인구데이터를 이용한 예제를 생각해 볼 것이다

pop = pd.read_csv('data/state-population.csv')
areas = pd.read_csv('data/state-areas.csv')
abbrevs = pd.read_csv('data/state-abbrevs.csv')
print(pop.head()); print(areas.head()); print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


In [22]:
# 예제: 미국 주 데이터
# 병합과 조인 연산은 서로 다른 소스에서 나온 데이터를 연결할 때 가장 자주 사용한다. 여기서는 미국 주와 주 별 인구데이터를 이용한 예제를 생각해 볼 것이다

pop = pd.read_csv('https://raw.githubusercontent.com/wikibook/python-ds-handbook/master/notebooks/data/state-population.csv')
areas = pd.read_csv('https://raw.githubusercontent.com/wikibook/python-ds-handbook/master/notebooks/data/state-areas.csv')
abbrevs = pd.read_csv('https://raw.githubusercontent.com/wikibook/python-ds-handbook/master/notebooks/data/state-abbrevs.csv')
print(pop.head()); print(areas.head()); print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


In [26]:
# 이 정보가 주어진 상태에서 비교적 간단하게 2010인구 밀도 기준으로 미국 주와 지역 순위를 계산하고 싶다고 하자
# 먼저 인구(population)DataFrame에 전체 주의 이름을 제공하는 다대일 병합으로 시작하자. 
# 여기서는 pop의 state/region 열과 abbrevs의 sbbreviation열을 기준으로 병합하려고 한다. 
# 레이블이 일치하지 않는다는 이유로 데이터가 제거되지 않도록 how=’outer’를 사용할 것이다
merged = pd.merge(pop, abbrevs, how='outer',
                  left_on='state/region', right_on='abbreviation')
merged = merged.drop('abbreviation', axis=1) # drop duplicate info
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [43]:
# 이 코드에 불일치하는 항목이 있는지 다시 한번 확인해 보자., 널값을 가진 행을 찾으면 된다
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [45]:
# population 정보가 널 값이다. 어떤 항목이 널인지 확인해 보자.
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,
2453,PR,under18,1993,,
2454,PR,under18,1992,,
2455,PR,total,1992,,
2456,PR,under18,1994,,
2457,PR,total,1994,,


In [46]:
merged.loc[merged['state'].isnull(), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

In [47]:
# 예제에 사용한 인구 데이터가 푸에르토리코(PR)와 전체 미국(USA)에 대한 항목을 포함하고 있지만, 
# 이 항목들이 주 이름의 약어 키(abbreviation key)에는 등장하지 않는다.  
# 이 문제는 적절한 항목을 채워 넣음으로써 쉽게 해결할 수 있다
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()
# state열에 더 이상 널 값이 없으니 연산을 수행할 준비가 끝났다.!

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

In [48]:
# 면적 데이터가 포함된 결과를 병합할 수 있다. 
# 결과값을 검사해 보면 양쪽의state열을 기준으로 조인하고 싶을 것이다
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [49]:
# 일치하지 않는 항목이 있는지 보기 위해 널 값 여부를 확인하자
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [50]:
# area 열에 널 값이 있다. 다음 코드로 어느 지역이 누락됐는지 찾을 수 있다.
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

In [52]:
# 미국 전체의 인구 밀도가 현재 논의하는 내용과 관련이 없기 때문에 그냥 널 값을 삭제할 것이다
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [54]:
# 2010년과 전체 인구(total population)에 해당하는 데이터 부분을 선택하자. 
# 이 작업을 신속히 처리하기 위해 여기서는 query()함수를 사용하겠다
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [55]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [56]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [57]:
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64