# Pandas 고급 - 1

In [2]:
import pandas as pd
import numpy as np

와인을 구성하는 화학적 성분을 나타내는 데이터셋을 사용합니다.

In [3]:
df = pd.read_csv("data/winequality-red.csv", sep=";")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


### DataFrame 을 csv file 로 write

원본 DataFrame의 특정 열만으로 새로운 DataFrame을 만들어 csv 파일로 저장합니다.

In [4]:
df2 = df.loc[:, ['quality', 'alcohol', 'pH']]
df2.to_csv('data/winequality-2.csv')

저장한 csv 파일을 읽어 들입니다.

In [5]:
pd.read_csv('data/winequality-2.csv', index_col=0).head()

Unnamed: 0,quality,alcohol,pH
0,5,9.4,3.51
1,5,9.8,3.2
2,5,9.8,3.26
3,6,9.8,3.16
4,5,9.4,3.51


### df.apply + lambda 
- 특정 column 에 함수의 반환값 저장

익명 함수를 DataFrame에 적용하여 그 결과를 새로운 column에 저장합니다.

In [6]:
df["New_val"] = df.apply(lambda x : (x["fixed acidity"] + x["citric acid"]) / 2 , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7


### lambda 보다 더 복잡한 함수 적용

익명 함수로 처리하기 어려운 복잡한 알고리즘이 필요한 경우 별도의 함수를 선언하여 적용할 수 있습니다.

In [7]:
def custom(alcohol , ph) :
    if alcohol < 10 :
        return ph * 1.5
    else :
        return ph * -1

df["New_pH"] = df.apply(lambda x : custom(x["alcohol"], x["pH"]) , axis = 1 )
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,New_val,New_pH
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,3.9,4.8
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,3.92,4.89
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,5.88,4.74
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,3.7,5.265


## DataFrame의 Indexing

올림픽 경기에 참가한 국가들의 메달 수를 기록한 데이터셋을 읽어드립니다.

In [9]:
df = pd.read_csv("data/olympics.csv", index_col=0, skiprows=1)
df.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


### column 명 변경
- column 명을 사용자 친화적으로 변경  
- 정규식(regular expression)을 지원하는 re 모듈을 이용하여 복잡한 column 명을 단순화 합니다.

In [10]:
import re

columns = [re.sub('№', '#', col) for col in df. columns]
columns = [re.sub('[! ]', '', col) for col in columns]
columns = [re.sub('01', 'Gold', col) for col in columns]
columns = [re.sub('02', 'Silver', col) for col in columns]
columns = [re.sub('03', 'Bronze', col) for col in columns]
print(columns)

['#Summer', 'Gold', 'Silver', 'Bronze', 'Total', '#Winter', 'Gold.1', 'Silver.1', 'Bronze.1', 'Total.1', '#Games', 'Gold.2', 'Silver.2', 'Bronze.2', 'Combinedtotal']


단순화한 column명으로 DataFrame의 column 명을 업데이트 합니다.

In [12]:
df.columns = columns
df.head()

Unnamed: 0,#Summer,Gold,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


### Boolean indexing

- Boolean mask condition 으로 DataFrame을 검색하여 조건에 맞는 row 검색

    - where : no value(NaN)를 포함하여 return  

    - boolean indexing : no value를 제외하고 return

특정 column에 대한 조건 check은 boolean 값을 반환합니다.

하계올림픽 금메달을 1 개 이상 얻은 나라

In [20]:
df['Gold'] > 0

Afghanistan (AFG)                               False
Algeria (ALG)                                    True
Argentina (ARG)                                  True
Armenia (ARM)                                    True
Australasia (ANZ) [ANZ]                          True
                                                ...  
Independent Olympic Participants (IOP) [IOP]    False
Zambia (ZAM) [ZAM]                              False
Zimbabwe (ZIM) [ZIM]                             True
Mixed team (ZZX) [ZZX]                           True
Totals                                           True
Name: Gold, Length: 147, dtype: bool

where 메소드를 이용하여 모든 NaN인 row 를 포함하는 DataFrame을 return 받습니다.

In [15]:
only_gold = df.where(df['Gold'] > 0)

print(only_gold.shape)
only_gold.head()

(147, 15)


Unnamed: 0,#Summer,Gold,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal
Afghanistan (AFG),,,,,,,,,,,,,,,
Algeria (ALG),12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0
Argentina (ARG),23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0
Armenia (ARM),5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0
Australasia (ANZ) [ANZ],2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0


boolean indexing을 이용하여 조건에 맞는 row만의 DataFrame을 return 받습니다.

In [16]:
only_gold = df[df['Gold'] > 0]

print(only_gold.shape)
only_gold.head()

(100, 15)


Unnamed: 0,#Summer,Gold,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480


하계올림픽 금메달 1 개 이상 또는 동계올림픽 금메달 1 개 이상인 국가의 숫자를 골라냅니다.

In [19]:
len(df[(df['Gold'] > 0) | (df['Gold.1'] > 0)])

101

하계올림픽 금메달은 없지만 동계올림픽 금메달 1 개 이상인 국가를 골라냅니다.

In [21]:
df[(df['Gold'] == 0) & (df['Gold.1'] > 0)]

Unnamed: 0,#Summer,Gold,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal
Liechtenstein (LIE),16,0,0,0,0,18,2,2,5,9,34,2,2,5,9


### 복사본 만들기 - 얕은 복사(shallow copy) / 깊은 복사(deep copy)

- 얕은 복사 : 원본과 index/data 공유  
- 깊은 복사 : 별도의 index/data 생성

깊은 복사(Deep Copy) 는 객체의 내부 구조를 포함하여 객체를 복제하는 객체의 복사본으로, 복사본에 대한 변경 사항이 원본 객체에 영향을 미치지 않도록 합니다.

In [26]:
df2 = df.copy()

df2의 index를 country column으로 옮기고, 금메달 숫자의 역순으로 새로운 index 를 설정합니다.

In [27]:
df2['country'] = df2.index

df2.set_index('Gold', inplace=True)

df2.sort_index(ascending=False, inplace=True)
df2.head()

Unnamed: 0_level_0,#Summer,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal,country
Gold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
4809,27,4775,5130,14714,22,959,958,948,2865,49,5768,5733,6078,17579,Totals
976,26,757,666,2399,22,96,102,84,282,48,1072,859,750,2681,United States (USA) [P] [Q] [R] [Z]
395,9,319,296,1010,9,78,57,59,194,18,473,376,355,1204,Soviet Union (URS) [URS]
236,27,272,272,780,22,10,4,12,26,49,246,276,284,806,Great Britain (GBR) [GBR] [Z]
202,27,223,246,671,22,31,31,47,109,49,233,254,293,780,France (FRA) [O] [P] [Z]


원본 DataFrame의 index를 reset 합니다.

In [28]:
df.reset_index(inplace=True)
df.head()

Unnamed: 0,index,#Summer,Gold,Silver,Bronze,Total,#Winter,Gold.1,Silver.1,Bronze.1,Total.1,#Games,Gold.2,Silver.2,Bronze.2,Combinedtotal
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


## 다중인덱싱 (Multi Index)

- index 가 여러개일 경우 다중 인덱싱이 가능하다.  

다중 인덱스를 가진 DataFrame을 생성합니다.

In [30]:
df = pd.DataFrame(np.random.rand(4, 2),
                              index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                              columns=['num1', 'num2'])
df

Unnamed: 0,Unnamed: 1,num1,num2
a,1,0.693464,0.155889
a,2,0.399493,0.367866
b,1,0.606958,0.243179
b,2,0.614335,0.47968


In [21]:
df.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

특정 다중 인덱스 값을 지정하면 series를 반환 받습니다.

In [32]:
df.loc[('a', 1)]

num1    0.693464
num2    0.155889
Name: (a, 1), dtype: float64

특정 다중 인덱스와 column을 지정하면 scalar 값을 반환 받습니다.

In [33]:
df.loc[('a', 1), 'num1']

0.6934644672379565

여러개의 다중 인덱스와 column을 지정하면 DataFrame이 반환 됩니다.

In [34]:
df.loc[[('a', 1), ('b', 2)], :]

Unnamed: 0,Unnamed: 1,num1,num2
a,1,0.693464,0.155889
b,2,0.614335,0.47968


## 다중 인덱스(multi index) 연습 
미국 인구 센서스 데이터를 이용하여 다중 인덱스 사용 실습을 해 보겠습니다.  
다중 인덱스를 이용하여 미국의 주별, 카운티별 summary 를 구합니다.
- STNAME : 주(state) 명 
- CTYNAME : 카운티(county) 명  
`SUMLEV` 의 값 50인 경우 카운티 수준의 합계를 나타냅니다. (이 경우, STNAME 과 CTYNAME이 동일)  
`SUMLEV` 의 값 40 은 주(state) 수준의 합계 입니다.

In [35]:
df = pd.read_csv("data/census.csv")
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


`SUMLEV` 의 value 분포

In [37]:
df['SUMLEV'].value_counts()

50    3142
40      51
Name: SUMLEV, dtype: int64

작업을 단순하게 하기 위해 필요한 column 외에는 삭제합니다.

In [38]:
columns_to_keep = ['STNAME', 'CTYNAME',
                   'BIRTHS2010', 'BIRTHS2011', 'BIRTHS2012', 'BIRTHS2013', 'BIRTHS2014', 'BIRTHS2015']

In [39]:
df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015
0,Alabama,Alabama,14226,59689,59062,57938,58334,58305
1,Alabama,Autauga County,151,636,615,574,623,600
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240
3,Alabama,Barbour County,70,335,300,283,260,269
4,Alabama,Bibb County,44,266,245,259,247,253


In [40]:
df.columns

Index(['STNAME', 'CTYNAME', 'BIRTHS2010', 'BIRTHS2011', 'BIRTHS2012',
       'BIRTHS2013', 'BIRTHS2014', 'BIRTHS2015'],
      dtype='object')

(state 명, county 명)으로 다중 인덱스(multi index)를 생성합니다.

In [41]:
df.set_index(['STNAME', 'CTYNAME'], inplace=True)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alabama,Alabama,14226,59689,59062,57938,58334,58305
Alabama,Autauga County,151,636,615,574,623,600
Alabama,Baldwin County,517,2187,2092,2160,2186,2240
Alabama,Barbour County,70,335,300,283,260,269
Alabama,Bibb County,44,266,245,259,247,253


In [42]:
df.index

MultiIndex([('Alabama',           'Alabama'),
            ('Alabama',    'Autauga County'),
            ('Alabama',    'Baldwin County'),
            ('Alabama',    'Barbour County'),
            ('Alabama',       'Bibb County'),
            ('Alabama',     'Blount County'),
            ('Alabama',    'Bullock County'),
            ('Alabama',     'Butler County'),
            ('Alabama',    'Calhoun County'),
            ('Alabama',   'Chambers County'),
            ...
            ('Wyoming',   'Niobrara County'),
            ('Wyoming',       'Park County'),
            ('Wyoming',     'Platte County'),
            ('Wyoming',   'Sheridan County'),
            ('Wyoming',   'Sublette County'),
            ('Wyoming', 'Sweetwater County'),
            ('Wyoming',      'Teton County'),
            ('Wyoming',      'Uinta County'),
            ('Wyoming',   'Washakie County'),
            ('Wyoming',     'Weston County')],
           names=['STNAME', 'CTYNAME'], length=3193)

New York 주에 속한 카운티 목록을 출력하고 중복 카운티 명을 제거합니다. 파이썬의 list comprehension과 집합(set) 자료형을 이용합니다.

In [44]:
print(set([county for state, county in df.index.values if state == 'New York']))

{'Allegany County', 'Herkimer County', 'Cayuga County', 'Orange County', 'Queens County', 'Orleans County', 'Schenectady County', 'Schuyler County', 'Schoharie County', 'Erie County', 'Tioga County', 'Broome County', 'Cattaraugus County', 'Columbia County', 'Rensselaer County', 'Cortland County', 'Essex County', 'Wayne County', 'Saratoga County', 'Chautauqua County', 'Oswego County', 'Suffolk County', 'Genesee County', 'Greene County', 'Wyoming County', 'Fulton County', 'Dutchess County', 'Sullivan County', 'St. Lawrence County', 'Seneca County', 'Hamilton County', 'Livingston County', 'Chemung County', 'Kings County', 'Montgomery County', 'Richmond County', 'Steuben County', 'Monroe County', 'Onondaga County', 'Ulster County', 'Ontario County', 'Oneida County', 'Clinton County', 'Warren County', 'Delaware County', 'Albany County', 'Lewis County', 'Franklin County', 'Niagara County', 'Madison County', 'Yates County', 'Bronx County', 'Otsego County', 'New York', 'New York County', 'Rock

특정 주와 카운티만 query 합니다. New York 주에 속한 카운티 중 두개 카운티를 선택합니다.

In [45]:
df.loc[[('New York', 'Albany County'), ('New York', 'Delaware County')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
New York,Albany County,785,3092,3124,3195,3108,3100
New York,Delaware County,121,468,400,407,368,366


apply 메소드를 사용하여 전체 카운티에 대해 최대, 최소값을 계산합니다.

In [46]:
# 최대, 최소값을 계산할 column 들
cols = df.columns.tolist()
cols

['BIRTHS2010',
 'BIRTHS2011',
 'BIRTHS2012',
 'BIRTHS2013',
 'BIRTHS2014',
 'BIRTHS2015']

최대/최소값을 series 로 반환하는 함수를 작성하여 DataFrame에 적용합니다.

In [47]:
def min_max(row):
    return pd.Series({'min': np.min(row), 'max': np.max(row)})

다중인덱스 + 반환된 series 값의 DataFrame이 반환됩니다.

In [49]:
df.apply(min_max, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,Alabama,14226,59689
Alabama,Autauga County,151,636
Alabama,Baldwin County,517,2240
Alabama,Barbour County,70,335
Alabama,Bibb County,44,266
...,...,...,...
Wyoming,Sweetwater County,167,657
Wyoming,Teton County,76,269
Wyoming,Uinta County,73,324
Wyoming,Washakie County,26,108


apply하는 DataFrame 의 새로운 column을 생성하는 함수를 생성할 수도 있습니다.

In [50]:
def min_max(row):
    row['max'] = np.max(row)
    row['min'] = np.min(row)
    return row

In [51]:
df.apply(min_max, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,max,min
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alabama,Alabama,14226,59689,59062,57938,58334,58305,59689,14226
Alabama,Autauga County,151,636,615,574,623,600,636,151
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,2240,517
Alabama,Barbour County,70,335,300,283,260,269,335,70
Alabama,Bibb County,44,266,245,259,247,253,266,44
...,...,...,...,...,...,...,...,...,...
Wyoming,Sweetwater County,167,640,595,657,629,620,657,167
Wyoming,Teton County,76,259,230,261,249,269,269,76
Wyoming,Uinta County,73,324,311,316,316,316,324,73
Wyoming,Washakie County,26,108,90,95,96,90,108,26


## Column Value Update
DataFrame의 특정 column 값을 update 할 수 있습니다. 

새로운 DataFrame을 생성 하겠습니다.

In [52]:
df = pd.DataFrame([{"name": "홍길동", "Item": "김치", "Cost": 22.50},
                                {"name": "김철수", "Item": "생선", "Cost": 2.50},
                                {"name": "이영희", "Item": "숫가락", "Cost": 5.00}],
                                index=['Store 1', 'Store 1', 'Store 2'])
df

Unnamed: 0,name,Item,Cost
Store 1,홍길동,김치,22.5
Store 1,김철수,생선,2.5
Store 2,이영희,숫가락,5.0


row 갯수에 해당하는 list 를 이용하여 새로운 column을 추가할 수 있습니다. 

In [60]:
df['Date'] = ['December 1', 'January 1', 'mid-May']
df

Unnamed: 0,name,Item,Cost,Date,Delivered
Store 1,홍길동,김치,22.5,December 1,True
Store 1,김철수,생선,2.5,January 1,True
Store 2,이영희,숫가락,5.0,mid-May,True


**broadcasting**     
데이터프레임 브로드캐스팅은 데이터프레임의 모든 요소에 스칼라 값을 적용하거나 동일한 모양의 다른 데이터프레임의 값을 사용하여 한 데이터프레임의 모든 요소에 연산을 적용할 수 있는 Pandas의 기능입니다.

In [54]:
df['Delivered'] = True
df

Unnamed: 0,name,Item,Cost,Date,Delivered
Store 1,홍길동,김치,22.5,December 1,True
Store 1,김철수,생선,2.5,January 1,True
Store 2,이영희,숫가락,5.0,mid-May,True


reset_index 메소드를 이용하여 index를 재설정할 수 있습니다.   
index 값은 `index`라는 새로운 column에 저장됩니다.

In [55]:
adf = df.reset_index()
adf

Unnamed: 0,index,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,December 1,True
1,Store 1,김철수,생선,2.5,January 1,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


`index` column 명을 `Store`로 변경합니다.

In [56]:
adf.rename(columns={'index': 'Store'}, inplace=True)
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,December 1,True
1,Store 1,김철수,생선,2.5,January 1,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


특정 column 의 값을 Series를 이용하여 update 합니다. row의 갯수가 부족하면 NaN으로 채워집니다.

In [58]:
adf['Date'] = pd.Series(['January 1', 'mid-May'])
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,January 1,True
1,Store 1,김철수,생선,2.5,mid-May,True
2,Store 2,이영희,숫가락,5.0,,True


특정 column의 값을 dictionary를 이용하여 update 합니다. dictionary의 key 값을 index 값으로 매칭 시킵니다.

In [61]:
adf['Date'] = pd.Series({0: 'January 1', 2: 'mid-May'})
adf

Unnamed: 0,Store,name,Item,Cost,Date,Delivered
0,Store 1,홍길동,김치,22.5,January 1,True
1,Store 1,김철수,생선,2.5,,True
2,Store 2,이영희,숫가락,5.0,mid-May,True


# 병합(Merging) 과 연결(Concatenating)

## 병합(merging)

데이터프레임 병합은 하나 이상의 공통 열을 기반으로 두 개 이상의 데이터프레임을 단일 데이터프레임으로 결합하는 프로세스입니다. 다음은 예제입니다.  

이 예제에서는 merge() 함수를 사용하여 키 열을 기준으로 두 데이터 프레임 df1 및 df2를 병합합니다. 병합된 결과 데이터 프레임에는 `key` 열에 공통 값이 있는 행만 포함됩니다.

In [63]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

# 'key있는 두 개의 데이터프레임을 병합합니다.
merged_df = pd.merge(df1, df2, on='key')
merged_df

Unnamed: 0,key,value_x,value_y
0,B,2,5
1,D,4,6


### 연결(concatenating)
데이터프레임 연결은 특정 축(행 또는 열)을 따라 두 개 이상의 데이터프레임을 결합하는 프로세스입니다. 다음은 예시입니다.  
이 예제에서는 concat() 함수를 사용하여 행 축을 따라 두 데이터 프레임 df1과 df2를 연결합니다. 결과적으로 연결된 데이터 프레임에는 두 데이터 프레임의 모든 행이 포함됩니다.

- DataFrame 들의 dimension 이 반드시 같아야 합니다.  
- SQL 의 UNION 에 해당 합니다.

In [69]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [4, 5, 6], 'B': [7, 8, 9]})

# axis=0 으로 지정하면 행 축을 따라 두 데이터 프레임을 연결합니다.
concatenated_df = pd.concat([df1, df2], axis=0)
concatenated_df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,4,7
1,5,8
2,6,9


In [71]:
# axis = 1 로 지정하면 column 축을 기준으로 프레임을 연결합니다.
pd.concat([df1, df2], axis=1)  

Unnamed: 0,A,B,A.1,B.1
0,1,4,4,7
1,2,5,5,8
2,3,6,6,9


## 병합(merging) 고급 기능

- Pandas 의 **merge** mothod는 SQL Table merge 와 유사한 기능을 제공합니다.   
- 두개의 DataFrame 을 대상으로 합니다.  
- index 를 기준으로 join 합니다.

### DataFrame 간의 Join

<img src="venDiagram.png" width=350>
<p> Inner Join (Intersection) </p>
<img src="innerJoin.png" width=250>

교직원 데이터프레임을 생성합니다.

In [72]:
staff_df = pd.DataFrame([{"Name": '홍길동', "Role": '인사부장'},
                         {"Name": "김철수", "Role": '중간간부'},
                         {"Name": "이영희", "Role": "평가자"}])

staff_df = staff_df.set_index("Name")

staff_df

Unnamed: 0_level_0,Role
Name,Unnamed: 1_level_1
홍길동,인사부장
김철수,중간간부
이영희,평가자


학생 데이터프레임을 생성합니다.

In [73]:
student_df = pd.DataFrame([{"Name": '홍길동', "Major": 'Business'},
                           {"Name": "유재석", "Major": 'AI'},
                           {"Name": "이영희", "Major": "Engineering"}])

student_df = student_df.set_index("Name")
student_df

Unnamed: 0_level_0,Major
Name,Unnamed: 1_level_1
홍길동,Business
유재석,AI
이영희,Engineering


### outer join 

- 두 DataFrame 의 모든 index를 포함한 새로운 DataFrame을 생성합니다.

In [74]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,Major
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
김철수,중간간부,
유재석,,AI
이영희,평가자,Engineering
홍길동,인사부장,Business


### inner join (default)
- intersection (교집합)  
- 두 DataFrame 에 공통적으로 존재하는 index를 기준으로 새로운 DataFrame을 생성합니다.

In [75]:
pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,Major
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,인사부장,Business
이영희,평가자,Engineering


### left join $\rightarrow$ SQL 의 left outer join 과 유사 
- left DataFrame 은 모두 포함되고 right DataFrame 은 공통 index 만 포함 됩니다.

In [76]:
pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,Major
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,인사부장,Business
김철수,중간간부,
이영희,평가자,Engineering


### right join $\rightarrow$ SQL 의 right outer join 과 유사 

- right DataFrame 은 모두 포함되고 left DataFrame 은 공통 index 만 포함 됩니다.

In [77]:
pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,Major
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,인사부장,Business
유재석,,AI
이영희,평가자,Engineering


### index 값이 단순 sequence 일 경우 join 에 사용할 column 지정

staff_df 의 index를 단순 sequence 로 reset 합니다.

In [78]:
staff_df = staff_df.reset_index()
staff_df

Unnamed: 0,Name,Role
0,홍길동,인사부장
1,김철수,중간간부
2,이영희,평가자


student_df의 index를 단순 sequence로 reset 합니다.

In [79]:
student_df = student_df.reset_index()
student_df

Unnamed: 0,Name,Major
0,홍길동,Business
1,유재석,AI
2,이영희,Engineering


merge 할 기준 column을 지정 합니다.

In [80]:
pd.merge(staff_df, student_df, left_on='Name', right_on='Name')

Unnamed: 0,Name,Role,Major
0,홍길동,인사부장,Business
1,이영희,평가자,Engineering


merge 할 때 중복된 column 명이 있을 경우 자동으로 suffix를 부여합니다.  

staff_df 와 student_df에 중복된 column 명을 생성합니다.

In [81]:
staff_df['Location'] = ['Korea', 'China', 'Europe']
staff_df

Unnamed: 0,Name,Role,Location
0,홍길동,인사부장,Korea
1,김철수,중간간부,China
2,이영희,평가자,Europe


In [82]:
student_df['Location'] = ['Seoul', 'Pusan', 'Jeju']
student_df

Unnamed: 0,Name,Major,Location
0,홍길동,Business,Seoul
1,유재석,AI,Pusan
2,이영희,Engineering,Jeju


중복된 column 명이 있으면 왼쪽 DataFrame의 column명에 `_x`, 오른쪽 DataFrame의 column명에 `_y` suffix를 자동으로 추가 합니다.

In [83]:
pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

Unnamed: 0,Name,Role,Location_x,Major,Location_y
0,홍길동,인사부장,Korea,Business,Seoul
1,김철수,중간간부,China,,
2,이영희,평가자,Europe,Engineering,Jeju


## 연습 문제 - 1

- 다음과 같은 두개의 DataFrame 을 생성하고 하나의 DataFrame 으로 join 하세요.

### product DataFrame

- productID를 index 로 사용하는 dataframe

| productID | Price | Product | 
|:---:|:---:|:---:|
| 4109| 5.0 | Sushi Roll | 
| 1412 | 0.5 | Egg |
| 8931 | 1.5 | Bagel |

### invoice DataFrame

- sequence가 index인 dataframe

<table>
    <th></th>
    <th>Customer</th>
    <th>ProductId</th>
    <th>Quantity</th>
    <tr>
    <td>0</td>
     <td>ALi</td>
     <td>4109</td>
     <td>1</td>
    </tr>
    <tr>
    <td>1</td>
    <td>Eric</td>
     <td>1412</td>
     <td>12</td>
     </tr>
    <tr>
     <td>2</td>
    <td>Ande</td>
     <td>8931</td>
     <td>6</td>
     </tr>
    <tr>
    <td>3</td>
    <td>Sam</td>
    <td>4109</td>   
    <td>2</td>
    </tr>
</table>

- productID를 기준으로 join 하세요.

In [None]:
answer_df = pd.merge(# Code Here )

```
  Customer  ProductID  Quantity  Price     Product
0      Ali          4109         1          5.0    Sushi Roll
3      Sam       4109         2          5.0    Sushi Roll
1     Eric         1412        12         0.5         Egg
2     Ande       8931         6          1.5       Bagel
```