# 조인 작업의 분류

In [1]:
import pandas as pd
import numpy as np

In [2]:
#일대일 조인
df1=pd.DataFrame({'employee':['Bob','Jake','Lisa','Sue'],
                 'group':['Accounting','Engineering','Engineering','HR']})
df2=pd.DataFrame({'employee':['Bob','Jake','Lisa','Sue'],
                  'hire_date':[2004,2008,2012,2014]})
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0      Bob       2004
1     Jake       2008
2     Lisa       2012
3      Sue       2014


In [3]:
#하나의 DataFrame으로 결합하려면 pd.merge()함수 사용
#df1 과 df2에서 'employee'열의 순서가 다르더라도 정확하게 이를 맞추어 연산한다
#병합은 인덱스별로 병합하는 특별한 경우를 제외하고는 일반적으로 인덱스를 버린다
df3=pd.merge(df1,df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2004
1,Jake,Engineering,2008
2,Lisa,Engineering,2012
3,Sue,HR,2014


In [4]:
#다대일 조인
#입력값에 따라 하나 이상의 위치에 반복해서 등장
df4=pd.DataFrame({'group':['Accounting','Engineering','HR'],
                 'supervisor':['Carly','Guido','Steve']})
print(df3)
print(df4)
print(pd.merge(df3,df4))

  employee        group  hire_date
0      Bob   Accounting       2004
1     Jake  Engineering       2008
2     Lisa  Engineering       2012
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2004      Carly
1     Jake  Engineering       2008      Guido
2     Lisa  Engineering       2012      Guido
3      Sue           HR       2014      Steve


In [5]:
#다대다 조인
#왼쪽과 오른쪽 배열의 키열에 모두 중복 항목이 존재하면 발생
df5=pd.DataFrame({'group':['Accounting','Accounting','Engineering','Engineering','HR','HR'],
                  'skills':['math','spreadsheets','coding','linux','spreadsheets','organization']})
print(df1)
print(df5)
print(pd.merge(df1,df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization
  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


# 병합 키 지정

In [6]:
#on 키워드
#키 열의 이름을 명시적으로 지정하는 것이다, 왼쪽과 오른쪽 DataFrame이 모두 지정된 열 이름을 가진 경우에만 동작 
print(df1)
print(df2)
print(pd.merge(df1,df2,on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0      Bob       2004
1     Jake       2008
2     Lisa       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2004
1     Jake  Engineering       2008
2     Lisa  Engineering       2012
3      Sue           HR       2014


In [7]:
#left_on 과 right_on 키워드
#다른 열 이름을 가진 두 데이터 세트를 병합하고 싶은 경우
df3=pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                'salary':[70000,80000,120000,90000]})
print(df1)
print(df3)
print(pd.merge(df1,df3,left_on='employee',right_on='name'))  #불필요하게 중복된 열을 갖게 된다

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


In [8]:
print(pd.merge(df1,df3,left_on='employee',right_on='name').drop('name',axis=1)) 

  employee        group  salary
0      Bob   Accounting   70000
1     Jake  Engineering   80000
2     Lisa  Engineering  120000
3      Sue           HR   90000


In [9]:
#left_index 와 right_index 키워드
#열을 병합하는 대신 인덱스로 병합하는 경우
df1a=df1.set_index('employee')
df2a=df2.set_index('employee')
print(df1a)
print(df2a)

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Bob            2004
Jake           2008
Lisa           2012
Sue            2014


In [10]:
print(df1a)
print(df2a)
print(pd.merge(df1a,df2a,left_index=True,right_index=True))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Bob            2004
Jake           2008
Lisa           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2004
Jake      Engineering       2008
Lisa      Engineering       2012
Sue                HR       2014


In [11]:
#DataFrame은 기본적으로 인덱스 기반으로 조인하는 병합을 join() 메서드로 구현한다
print(df1a)
print(df2a)
print(df1a.join(df2a))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Bob            2004
Jake           2008
Lisa           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2004
Jake      Engineering       2008
Lisa      Engineering       2012
Sue                HR       2014


In [12]:
print(df1a)
print(df3)
print(pd.merge(df1a,df3,left_index=True,right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
         group  name  salary
0   Accounting   Bob   70000
1  Engineering  Jake   80000
2  Engineering  Lisa  120000
3           HR   Sue   90000


# 조인을 위한 집합 연산 지정하기

In [13]:
df6=pd.DataFrame({'name':['Peter','Paul','Mary'],
                 'food':['fish','beans','bread']},
                 columns=['name','food'])
df7=pd.DataFrame({'name':['Mary','Joeseph'],
                 'drink':['wine','beer']},
                columns=['name','drink'])
print(df6)
print(df7)
print(pd.merge(df6,df7))    #'name'에서 공통 항목으로 유일하게 Mary를 가지고 있는 두 데이터세트를 병합(입력값의 두 집합에 대한 교집합)

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
      name drink
0     Mary  wine
1  Joeseph  beer
   name   food drink
0  Mary  bread  wine


In [14]:
pd.merge(df6,df7,how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [15]:
#how='outer' 의 경우 외부 조인으로 입력 데이터 열의 합집합으로 조인한 결과 반환하고 누락된 값은 NA로 채움
print(df6)
print(df7)
pd.merge(df6,df7,how='outer')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
      name drink
0     Mary  wine
1  Joeseph  beer


Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joeseph,,beer


In [16]:
#왼쪽 조인과 오른쪽 조인은 각각 왼쪽 항목과 오른쪽 항목을 기준으로 조인
print(df6)
print(df7)
pd.merge(df6,df7,how='left')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
      name drink
0     Mary  wine
1  Joeseph  beer


Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


# 열 이름이 겹치는 경우:suffixes 키워드

In [17]:
df8=pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                 'rank':[1,2,3,4]})
df9=pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                 'rank':[3,1,4,2]})
print(df8)
print(df9)
print(pd.merge(df8,df9,on='name'))   #결과값에 두 개의 충돌하는 열 이름이 있어 병합시 자동으로 접미사를 붙인다

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [18]:
#접미사를 별도로 지정 할 수 있다
print(df8)
print(df9)
print(pd.merge(df8,df9,on='name',suffixes=['_L','_R'])) 

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_L  rank_R
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


# 예제: 미국 주 데이터

In [19]:
pop=pd.read_csv('state-population.csv')
areas=pd.read_csv('state-areas.csv')
abbrevs=pd.read_csv('state-abbrevs.csv')
print(pop.head())
print(areas.head())
print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


In [20]:
#population DataFrame에 전체 주의 이름을 제공하는 다대다 병합
merged=pd.merge(pop,abbrevs,how='outer',
               left_on='state/region',right_on='abbreviation')
merged=merged.drop('abbreviation',1)  #중복 정보 삭제
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [21]:
#불일치하는 항목이 있는지 확인하기 위해 널 값을 가진 행을 찾는다
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [22]:
#어떤 항목이 널인지 확인
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,


In [23]:
#state 항목도 널 값인 것을 볼 수 있으면, abbrevs 키에 해당하는 값이 없음을 의미한다, 어느 지역인지 확인
merged.loc[merged['state'].isnull(),'state/region'].unique()

array(['PR', 'USA'], dtype=object)

In [24]:
merged.loc[merged['state/region']=='PR','state']='Puerto Rico'
merged.loc[merged['state/region']=='USA','state']='United States'
merged.isnull().any()       #state 열에 더 이상 널 값이 없음을 확인

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

In [25]:
#면적 데이터가 포함된 결과를 병합
final=pd.merge(merged,areas,on='state',how='left')   #양쪽에 'state' 열을 기준으로 조인
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [26]:
#일치하지 않는 항목이 있는지 보기 위해 널 값 여부를 확인
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [27]:
#area 열에 널 값이 있음을 확인, 다음으로 어느 지역이 누락됐는지 확인
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

In [28]:
#적절한 값을 삽입할 수 있지만, 여기서는 널 값을 삭제
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [29]:
#2010년과 전체 인구에 해당하는 데이터 부분을 선택
import numexpr
data2010=final.query("year ==2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [30]:
#인구 밀도를 계산하고 그것을 순서대로 표시
#먼저 주 기준으로 데이터 인덱스를 재배열하고 나서 결과를 계산
data2010.set_index('state',inplace=True)
density=data2010['population']/data2010['area (sq. mi)']

In [31]:
density.sort_values(ascending=False,inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [32]:
#리스트의 마지막 부분도 확인 가능
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64