In [1]:
import pandas as pd
import numpy as np

In [2]:
def make_df(cols, ind):
    data = {c : [str(c) + str(i) for i in ind]
           for c in cols}
    return pd.DataFrame(data,ind)


make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


#### 복습 : NumPy 배열 연결

In [4]:
x=[1,2,3]
y=[4,5,6]
z=[7,8,9]
np.concatenate([x,y,z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
x=[[1,2],
   [3,4]]
np.concatenate([x,x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

## pd.concat 을 이용한 간단한 연결

In [11]:
ser1 = pd.Series(['A','B','C'], index=[1,2,3])
ser2 = pd.Series(['D','E','F'], index=[4,5,6])
pd.concat([ser1,ser2], axis=0)

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [16]:
df1 = make_df('AB', [1,2])
df2 = make_df('AB',[3,4])
print(df1); print(df2); 

print("\nconcat 의 결과\n")
print(pd.concat([df1,df2]))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4

concat 의 결과

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


## 인덱스 복제
np.concatenate 와 pd.concat 의 가장 큰 차이는 Pandas 에서 연결은 복제된 인덱스를 유지한다!!!

In [18]:
x = make_df('AB',[0,1])
y = make_df('AB', [2,3])
y.index = x.index
print(x)
print(y)
print("concat 된 결과의 index 가 반복되는것을 볼 수 있다")
print(pd.concat([x,y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
concat 된 결과의 index 가 반복되는것을 볼 수 있다
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [20]:
# 인덱스가 반복되는 문제점을 해결하는 방법
# verify_integrity=True
    # 연결 작업에서 중복 인덱스가 있을때 예외처리를 한다.
try : 
    pd.concat([x,y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)
    

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


In [27]:
# 인덱스가 중요하지 않은 경우 
# ignore_index=True 
    # 정수 인덱스를 자동으로 생성해준다
print(x); print(y); 
print("인덱스가 정수로 자동 생성된것을 알 수 있다.")
print(pd.concat([x,y], ignore_index=True))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
인덱스가 정수로 자동 생성된것을 알 수 있다.
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [28]:
print(x); print(y); print(pd.concat([x,y], keys=['x','y']))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


## 조인을 이용한 연결
- 다른 소스에서 가져온 데이터가 다른 열 이름 집합을 가질 때

In [31]:
df5 = make_df('ABC', [1,2])
df6 = make_df('BCD', [3,4])
print(df5); print(df6); 
print("\n 채울값이 없는 항목은 Na 로 채워지는것을 확인할 수 있다.")
print(pd.concat([df5,df6]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4

 채울값이 없는 항목은 Na 로 채워지는것을 확인할 수 있다.
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [40]:
# join 의 inner, 와 outer 의 차이

# outer 가 기본값으로 설정되어 있다.
print(df5);print(df6);print(pd.concat([df5,df6],join='outer'))
print('\n\n')

print(df5);print(df6);print(pd.concat([df5,df6],join='inner'))
print('\n\n')

# 인덱스 객체의 목록을 취하는 join_axes 인수로 남은 열의 인덱스를 직접 지정하는 것
# pandas 버전 업그레이드 하기 ㅎㅎ
print(df5); print(df6); 
print(pd.concat([df5,df6], join_axes=[df5.columns]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4



    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4



    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


TypeError: concat() got an unexpected keyword argument 'join_axes'

#### append() 메서드

In [41]:
print(df1); print(df2) ; print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


# 병합과 조인
- 일대일 조인

In [46]:
# pd.merge()
# employee 가 자동으로 인식되어 기준으로 조인된다.
df1= pd.DataFrame({'employee':['Bob','Jake','Lisa','Sue'],
                  'group':['Accounting','Engineering', 'Engineering','HR']})
df2 = pd.DataFrame({'employee': ['Lisa','Bob','Jake','Sue'],
                   'hire_data': [2004,2008,2012,2014]})
df3 = pd.merge(df1,df2)
print(df1); print(df2)
print(pd.merge(df1,df2))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_data
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_data
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


- 다대일(Many-to-one)조인

In [48]:
df4 = pd.DataFrame({'group':['Accounting','Engineering','HR'],
                   'supervisor':['Carly', 'Guido','Steve']})
print(df3); print(df4); print(pd.merge(df3,df4))

  employee        group  hire_data
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_data supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


#### pd.merge()
- on 키워드 : 키 열의 이름을 지정해준다
    - 두 DataFrame 이 같은 column 을 가지고 있어야 작동한다.

In [50]:
print(df1) ; print(df2) ; print(pd.merge(df1,df2, on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_data
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_data
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


- left_on, right_on 키워드

In [54]:
df3  = pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                    'salary':[700,800,900,1000]})
print(df1); print(df3);
print(pd.merge(df1,df3, left_on='employee', right_on='name'))


# 불필요하게 중복이 되는 column 은 Drop을 해도 된다
print()
print(pd.merge(df1,df3, left_on='employee', right_on = 'name').drop('name',axis=1))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob     700
1  Jake     800
2  Lisa     900
3   Sue    1000
  employee        group  name  salary
0      Bob   Accounting   Bob     700
1     Jake  Engineering  Jake     800
2     Lisa  Engineering  Lisa     900
3      Sue           HR   Sue    1000

  employee        group  salary
0      Bob   Accounting     700
1     Jake  Engineering     800
2     Lisa  Engineering     900
3      Sue           HR    1000


- left_index, right_index 키워드

In [57]:
# 열 병합 대신 인덱스로 병합해야하는 경우!!!!!!!!!!
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
print(df1a) ; print(df2a)
print()
print(pd.merge(df1a,df2a, left_index=True, right_index=True))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_data
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014

                group  hire_data
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [58]:
# 혹은 join 메서드를 활용
print(df1a.join(df2a))

                group  hire_data
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


- 인덱스와 열을 섞어 활용하는 경우

In [59]:
print(df1a); print(df2a)
print(pd.merge(df1a, df3, left_index=True, right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_data
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
         group  name  salary
0   Accounting   Bob     700
1  Engineering  Jake     800
2  Engineering  Lisa     900
3           HR   Sue    1000


## 조인을 위한 집합 연산 지정하기

In [63]:
df6 = pd.DataFrame({'name': ['Peter','Paul','Mary'],
                   'food':['fish','beans','bread']},
                  columns = ['name','food'])
df7 = pd.DataFrame({'name' : ['Mary', 'Joseph'],
                   'drink' : ['wine','beer']},
                   columns =['name','drink'])

print(df6); print(df7)
print()
print(pd.merge(df6,df7))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer

   name   food drink
0  Mary  bread  wine


In [65]:
print(pd.merge(df6,df7, how='outer'))

     name   food drink
0   Peter   fish   NaN
1    Paul  beans   NaN
2    Mary  bread  wine
3  Joseph    NaN  beer


In [66]:
print(pd.merge(df6,df7, how='right'))

     name   food drink
0    Mary  bread  wine
1  Joseph    NaN  beer


In [67]:
print(pd.merge(df6,df7, how='left'))

    name   food drink
0  Peter   fish   NaN
1   Paul  beans   NaN
2   Mary  bread  wine


## 열 이름이 겹치는 경우 : suffixes 키워드
- 두개 입력 DataFrame 이 충돌하는 열 이름을 가진 경우 자동으로 나누어준다
    - 원하는 별도의 태깅이 있다면 suffixes 키워드를 활용한다

In [69]:
df8 = pd.DataFrame({'name' : ['Bob','Jake','Lisa','Sue'],
                   'rank':[1,2,3,4]})
df9 = pd.DataFrame({'name' : ['Bob','Jake','Lisa','Sue'],
                    'rank' : [3,1,4,2]})
print(df8);print(df9);print(pd.merge(df8,df9,on='name'))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [70]:
print(df8);print(df9);print(pd.merge(df8,df9,on='name', suffixes=["_L","_R"]))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_L  rank_R
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


## 예제)

In [138]:
pop = pd.read_csv('state-population.csv')
areas = pd.read_csv('state-areas.csv')
abbrevs=pd.read_csv('state-abbrevs.csv')

In [139]:
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [140]:
states = pop['state/region'].unique()
states

array(['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE', 'DC', 'FL', 'GA',
       'HI', 'ID', 'IL', 'IN', 'IA', 'KS', 'KY', 'LA', 'ME', 'MD', 'MA',
       'MI', 'MN', 'MS', 'MO', 'MT', 'NE', 'NV', 'NH', 'NJ', 'NM', 'NY',
       'NC', 'ND', 'OH', 'OK', 'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX',
       'UT', 'VT', 'VA', 'WA', 'WV', 'WI', 'WY', 'PR', 'USA'],
      dtype=object)

In [141]:
merged = pd.merge(pop, abbrevs, how='outer',
                 left_on='state/region', right_on='abbreviation')
merged = merged.drop('abbreviation', 1) # 중복 정보 삭제
# 혹은 join 활용
merged_2 = pop.join(abbrevs)
merged_2 = merged_2.drop('abbreviation',1)

print(merged.shape)
print(merged_2.shape)
merged.head()

(2544, 5)
(2544, 5)


Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [142]:
# 병합한 DataFrame에 Null 값이 있는지 확인한다.
merged.isnull().sum()

state/region     0
ages             0
year             0
population      20
state           96
dtype: int64

In [143]:
# null 값이 어떤 항목인지 확인한다
merged[merged['population'].isnull()]

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,
2453,PR,under18,1993,,
2454,PR,under18,1992,,
2455,PR,total,1992,,
2456,PR,under18,1994,,
2457,PR,total,1994,,


#### 관측 결과 2000년 이전의 푸에르토리코 항목이 NaN 인것을 확인할 수 있다.

In [155]:
merged.loc[merged['state'].isnull(), 'state/region'].unique()

array([], dtype=object)

In [156]:
# 차이가 나는 부분 찾아내기!!!
for state in states:
    if state not in abbrevs['abbreviation'].unique():
        print(state)
    else:
        continue

PR
USA


In [157]:
merged.loc[merged['state/region']=='PR','state'] = 'Puerto Rico'
merged.loc[merged['state/region']=='USA','state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

#### state 의 NaN 값을 채웠으니 Population 의 NaN 값을 채워보자

In [158]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [159]:
# null 값이 있는지 확인
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [160]:
# Missing Value 찾는 방법 1
final['state'][final['area (sq. mi)'].isnull()].unique()
# 방법 2
final.loc[final['area (sq. mi)'].isnull()]['state'].unique()

array(['United States'], dtype=object)

#### areas 의 DataFrame 이 미국 면접을 모두 담고 있지 않음을 알 수 있다

In [161]:
# NaN 값 삭제
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


## 문제) 2010년 인구 밀도 기준으로 미국 주와 지역 순위를 계산하고 싶다면?!

In [162]:
data2010 = final.query("year==2010 & ages=='total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [163]:
# 인구 밀도를 계산하고 순서대로 표시하기

In [164]:
data2010.set_index('state', inplace=True)
density = data2010['population']/data2010['area (sq. mi)']
density.sort_values(ascending=False, inplace=True)

## 결과 : 1 제곱 마일당 평균 주민수

In [165]:
# 상위 5개
print(density.head())

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64


In [167]:
# 하위 5개
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64