In [1]:
import numpy as np # NumPy
import pandas as pd # Pandas

# IPython( jupyter notebook ) 디스플레이 설정 변경
# 출력할 열의 개수 한도 설정
pd.set_option( 'display.max_columns', 20 )
# 출력할 열의 너비 설정
pd.set_option( 'display.max_colwidth', 20 )
# 유니코드 사용 너비 조정
pd.set_option( 'display.unicode.east_asian_width', True )

# 경고( warnings ) 메시지 출력 방지
import warnings
warnings.filterwarnings( 'ignore' )

# Pandas DataFrame

## 행 인덱스 / 열 이름 변경

In [35]:
d = { '나이': [ 15, 17 ],
      '성별': [ '남', '여' ],
      '이름': [ 'hong', 'kim' ] }
df = pd.DataFrame( d, index = [ 'one', 'two' ] )
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [36]:
df.rename( columns = { '나이': 'age', '성별': 'gender',
                            '이름': 'name' } )

Unnamed: 0,age,gender,name
one,15,남,hong
two,17,여,kim


In [37]:
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [38]:
df.rename( index = { 'one': 'One', 'two': 'Two' } )

Unnamed: 0,나이,성별,이름
One,15,남,hong
Two,17,여,kim


In [39]:
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [40]:
df.rename( columns = { '나이': 'age', '성별': 'gender',
                            '이름': 'name' }, inplace = True )
df.rename( index = { 'one': 'One', 'two': 'Two' }, inplace = True )

In [41]:
df

Unnamed: 0,age,gender,name
One,15,남,hong
Two,17,여,kim


## 행/열 삭제

In [42]:
d = { '수학': [ 90, 80, 70 ],
      '영어': [ 98, 88, 78 ],
      '음악': [ 95, 85, 75 ],
      '체육': [ 92, 82, 72 ] }
df = pd.DataFrame( d, index = [ 'hong', 'kim', 'lee' ] )
df

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [43]:
df2 = df[ : ] # 데이터프레임 복사
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


### 행( 데이터 ) 삭제

In [44]:
df2.drop( 'kim' )

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [45]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [46]:
df2.drop( 'kim', inplace = True )

In [47]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [48]:
df2.drop( 'hong', axis = 0 )

Unnamed: 0,수학,영어,음악,체육
lee,70,78,75,72


In [49]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [50]:
df2.drop( 'hong', axis = 0, inplace = True )

In [51]:
df2

Unnamed: 0,수학,영어,음악,체육
lee,70,78,75,72


In [52]:
df2 = df.copy()
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [53]:
df2.drop( [ 'hong', 'lee' ] )

Unnamed: 0,수학,영어,음악,체육
kim,80,88,85,82


In [54]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [55]:
df2.drop( [ 'hong', 'lee' ], inplace = True )

In [56]:
df2

Unnamed: 0,수학,영어,음악,체육
kim,80,88,85,82


In [57]:
df2 = df[ : ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


### 열( 변수 ) 삭제

In [58]:
df2.drop( '수학', axis = 1, inplace = True )

In [59]:
df2

Unnamed: 0,영어,음악,체육
hong,98,95,92
kim,88,85,82
lee,78,75,72


In [60]:
df2.drop( [ '영어', '체육' ], axis = 1, inplace = True )

In [61]:
df2

Unnamed: 0,음악
hong,95
kim,85
lee,75


## 행( 데이터 ) 선택

In [62]:
df

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [63]:
df.loc[ 'hong' ]

수학    90
영어    98
음악    95
체육    92
Name: hong, dtype: int64

In [64]:
df.iloc[ 0 ]

수학    90
영어    98
음악    95
체육    92
Name: hong, dtype: int64

### 인덱스 배열을 이용하여 행( 데이터 ) 선택시 -> DataFrame

In [65]:
df.loc[ [ 'hong', 'lee' ] ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [66]:
df.iloc[ [ 0, 2 ] ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


### 슬라이싱을 이용한 행( 데이터 ) 선택시 -> DataFrame

In [67]:
df.loc[ 'hong':'lee' ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [68]:
df.iloc[ 0:2 ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82


In [69]:
df.iloc[ ::2 ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [70]:
df.iloc[ 0:3:2 ]

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
lee,70,78,75,72


In [71]:
df.iloc[ ::-1 ]

Unnamed: 0,수학,영어,음악,체육
lee,70,78,75,72
kim,80,88,85,82
hong,90,98,95,92


## 열( 변수 ) 선택

In [72]:
df[ '수학' ]

hong    90
kim     80
lee     70
Name: 수학, dtype: int64

In [73]:
df.수학

hong    90
kim     80
lee     70
Name: 수학, dtype: int64

In [74]:
df[ [ '체육', '수학' ] ]

Unnamed: 0,체육,수학
hong,92,90
kim,82,80
lee,72,70


In [76]:
df[ [ '수학', '체육' ] ]

Unnamed: 0,수학,체육
hong,90,92
kim,80,82
lee,70,72


In [77]:
df[ [ '체육' ] ]

Unnamed: 0,체육
hong,92
kim,82
lee,72


In [78]:
df[ '체육' ]

hong    92
kim     82
lee     72
Name: 체육, dtype: int64

In [79]:
type( df[ [ '체육' ] ] ), type( df[ '체육' ] )

(pandas.core.frame.DataFrame, pandas.core.series.Series)

## 원소 선택

### 하나의 원소 선택 - scalar

In [80]:
df.loc[ 'hong', '수학' ]

90

In [81]:
df.iloc[ 0, 0 ]

90

### 여러 열( 변수 ) 원소 선택 - Series

In [82]:
df.loc[ 'hong', [ '수학', '체육' ] ]

수학    90
체육    92
Name: hong, dtype: int64

In [83]:
df.iloc[ 1, [ 0, 2 ] ]

수학    80
음악    85
Name: kim, dtype: int64

### 여러 행( 데이터 ) 원소 선택 - Series

In [84]:
df.loc[ [ 'hong', 'lee' ], '음악' ]

hong    95
lee     75
Name: 음악, dtype: int64

In [85]:
df.iloc[ [ 0, 1 ], 1 ]

hong    98
kim     88
Name: 영어, dtype: int64

### 여러 행( 데이터 )와 여러 열( 변수 ) 선택 - DataFrame

In [87]:
df.loc[ [ 'hong', 'lee' ], [ '수학', '음악' ] ]

Unnamed: 0,수학,음악
hong,90,95
lee,70,75


In [88]:
df.iloc[ [ 0, 2 ], [ 0, 1 ] ]

Unnamed: 0,수학,영어
hong,90,98
lee,70,78


In [92]:
df.loc[ 'hong':'lee', '수학':'음악' ]

Unnamed: 0,수학,영어,음악
hong,90,98,95
kim,80,88,85
lee,70,78,75


In [91]:
df.iloc[ 0:2, 0:2 ]

Unnamed: 0,수학,영어
hong,90,98
kim,80,88


## 열( 변수 ) 추가

In [99]:
df2 = df[ : ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [100]:
df2[ '국어' ] = 80
df2

Unnamed: 0,수학,영어,음악,체육,국어
hong,90,98,95,92,80
kim,80,88,85,82,80
lee,70,78,75,72,80


In [101]:
df2[ '컴퓨터' ] = [ 75, 95, 85 ]
df2

Unnamed: 0,수학,영어,음악,체육,국어,컴퓨터
hong,90,98,95,92,80,75
kim,80,88,85,82,80,95
lee,70,78,75,72,80,85


## 행( 데이터 ) 추가

In [104]:
df2 = df[ : ]

In [105]:
df2.loc[ 'park' ] = 0
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72
park,0,0,0,0


In [106]:
df2.loc[ 'nam' ] = [ 82, 92, 72, 62 ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72
park,0,0,0,0
nam,82,92,72,62


In [107]:
df2.loc[ 6 ] = 0

In [108]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72
park,0,0,0,0
nam,82,92,72,62
6,0,0,0,0


In [109]:
df2.loc[ 'Hong' ] = df2.loc[ 'hong' ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72
park,0,0,0,0
nam,82,92,72,62
6,0,0,0,0
Hong,90,98,95,92


## 원소 값 변경

In [117]:
df2 = df[ : ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,85,99,95,92
kim,80,88,100,82
lee,70,78,75,72


### 행과 열을 각각 지정

In [118]:
df2.loc[ 'hong' ][ '영어' ] = 99
df2

Unnamed: 0,수학,영어,음악,체육
hong,85,99,95,92
kim,80,88,100,82
lee,70,78,75,72


In [119]:
df2.iloc[ 1 ][ 2 ] = 100
df2

Unnamed: 0,수학,영어,음악,체육
hong,85,99,95,92
kim,80,88,100,82
lee,70,78,75,72


### 행과 열을 함께 지정

In [120]:
df2.loc[ 'hong', '수학' ] = 85
df2

Unnamed: 0,수학,영어,음악,체육
hong,85,99,95,92
kim,80,88,100,82
lee,70,78,75,72


In [121]:
df2.iloc[ 2, 1 ] = 82 
df2

Unnamed: 0,수학,영어,음악,체육
hong,85,99,95,92
kim,80,88,100,82
lee,70,82,75,72


### 여러 행( 데이터 )이나 열( 변수 ) 값 변경

In [122]:
df2.loc[ 'hong', [ '수학', '음악' ] ] = 0
df2

Unnamed: 0,수학,영어,음악,체육
hong,0,99,0,92
kim,80,88,100,82
lee,70,82,75,72


In [123]:
df2.iloc[ [ 1, 2 ], 3 ] = 0 
df2

Unnamed: 0,수학,영어,음악,체육
hong,0,99,0,92
kim,80,88,100,0
lee,70,82,75,0


In [124]:
df2.loc[ 'hong', '수학':'음악' ] = 77 
df2

Unnamed: 0,수학,영어,음악,체육
hong,77,77,77,92
kim,80,88,100,0
lee,70,82,75,0


In [125]:
df2.iloc[ 0:2, 2 ] = 55
df2

Unnamed: 0,수학,영어,음악,체육
hong,77,77,55,92
kim,80,88,55,0
lee,70,82,75,0


### 행( 데이터 ) / 열( 변수 ) 위치 변경( 전치 )

In [126]:
df2 = df[ : ]
df2

Unnamed: 0,수학,영어,음악,체육
hong,77,77,55,92
kim,80,88,55,0
lee,70,82,75,0


In [127]:
df2 = df2.transpose()
df2

Unnamed: 0,hong,kim,lee
수학,77,80,70
영어,77,88,82
음악,55,55,75
체육,92,0,0


In [128]:
df2 = df2.T
df2

Unnamed: 0,수학,영어,음악,체육
hong,77,77,55,92
kim,80,88,55,0
lee,70,82,75,0


In [129]:
df2.T

Unnamed: 0,hong,kim,lee
수학,77,80,70
영어,77,88,82
음악,55,55,75
체육,92,0,0


In [130]:
df2

Unnamed: 0,수학,영어,음악,체육
hong,77,77,55,92
kim,80,88,55,0
lee,70,82,75,0


## 인덱스 활용

### 특정 열( 변수 )을 행 인덱스로 지정

In [136]:
d = { '이름': [ 'hong', 'kim', 'lee' ],
      '수학': [ 90, 80, 70 ],
      '영어': [ 98, 88, 78 ],
      '음악': [ 95, 85, 75 ],
      '체육': [ 92, 82, 72 ] }
df = pd.DataFrame( d )
df

Unnamed: 0,이름,수학,영어,음악,체육
0,hong,90,98,95,92
1,kim,80,88,85,82
2,lee,70,78,75,72


In [137]:
df2 = df[ : ]

In [138]:
df2.index

RangeIndex(start=0, stop=3, step=1)

In [140]:
df2.set_index( [ '이름' ], inplace = True )
df2

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [141]:
df2.index

Index(['hong', 'kim', 'lee'], dtype='object', name='이름')

In [142]:
df2.set_index( [ '체육' ], inplace = True )
df2

Unnamed: 0_level_0,수학,영어,음악
체육,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
92,90,98,95
82,80,88,85
72,70,78,75


In [143]:
df2.index

Int64Index([92, 82, 72], dtype='int64', name='체육')

In [144]:
df2 = df[ : ]

In [145]:
ndf = df2.set_index( [ '이름', '수학' ] ) # MultiIndex
ndf

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,음악,체육
이름,수학,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hong,90,98,95,92
kim,80,88,85,82
lee,70,78,75,72


In [146]:
ndf.index

MultiIndex([('hong', 90),
            ( 'kim', 80),
            ( 'lee', 70)],
           names=['이름', '수학'])

In [147]:
df2

Unnamed: 0,이름,수학,영어,음악,체육
0,hong,90,98,95,92
1,kim,80,88,85,82
2,lee,70,78,75,72


### 행( 데이터 ) 인덱스 재배열

In [149]:
d = { 'c0': [ 1, 2, 3 ],
      'c1': [ 4, 5, 6 ],
      'c2': [ 7, 8, 9 ],
      'c3': [ 10, 11, 12 ],
      'c4': [ 13, 14, 15 ] }
df = pd.DataFrame( d, index = [ 'r0', 'r1', 'r2' ] )
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [150]:
new_index = [ 'r0', 'r1', 'r2', 'r3', 'r4' ]
ndf = df.reindex( new_index )
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [151]:
ndf = df.reindex( new_index, fill_value = 0 )
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


### 행( 데이터 ) 인덱스 초기화

In [152]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [153]:
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


### 행( 데이터 ) 인덱스를 기준으로 데이터프레임 정렬

In [154]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [155]:
ndf = df.sort_index( ascending = False ) # Descending
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [156]:
ndf = ndf.sort_index( ascending = True ) # Ascending
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [157]:
ndf = df.sort_index( ascending = False ) # Descending
ndf2 = ndf.sort_index() # Ascending
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


## 특정 열( 변수 ) 내용을 기준으로 데이터프레임 정렬

In [158]:
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [159]:
ndf = df.sort_values( by = 'c1', ascending = False ) # Descending
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [160]:
ndf = ndf.sort_values( by = 'c1', ascending = True ) # Ascending
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


# 산술 연산

## 시리즈 객체에 대한 산술 연산

### 시리즈 vs 숫자( scalar )

In [161]:
s = pd.Series( { '국어': 100, '영어': 90, '수학': 95 } )
s

국어    100
영어     90
수학     95
dtype: int64

In [162]:
percentage = s / 200
percentage

국어    0.500
영어    0.450
수학    0.475
dtype: float64

### 시리즈 vs 시리즈

In [163]:
s1 = s
s2 = pd.Series( { '수학': 85, '국어': 75, '영어': 95 } )

In [164]:
s1

국어    100
영어     90
수학     95
dtype: int64

In [165]:
s2

수학    85
국어    75
영어    95
dtype: int64

In [166]:
add = s1 + s2 
subtract = s1 - s2
multiple = s1 * s2 
divide = s1 / s2

print( f'{add}\n\n{subtract}\n\n{multiple}\n\n{divide}' )

국어    175
수학    180
영어    185
dtype: int64

국어    25
수학    10
영어    -5
dtype: int64

국어    7500
수학    8075
영어    8550
dtype: int64

국어    1.333333
수학    1.117647
영어    0.947368
dtype: float64


In [167]:
df = pd.DataFrame( [ add, subtract, multiple, divide ],
                   index = [ '덧셈', '뺄셈', '곱셈', '나눗셈' ] )
df

Unnamed: 0,국어,수학,영어
덧셈,175.0,180.0,185.0
뺄셈,25.0,10.0,-5.0
곱셈,7500.0,8075.0,8550.0
나눗셈,1.333333,1.117647,0.947368


In [168]:
s1 = pd.Series( { '국어': 100, '영어': np.nan, '수학': 75 } )
s2 = pd.Series( { '영어': 90, '수학': np.nan, '국어': 88 } )

print( f'{s1}\n\n{s2}' )

국어    100.0
영어      NaN
수학     75.0
dtype: float64

영어    90.0
수학     NaN
국어    88.0
dtype: float64


In [169]:
s1 + s2 

국어    188.0
수학      NaN
영어      NaN
dtype: float64

### 연산 메서드

In [171]:
add = s1.add( s2, fill_value = 0 )
subtract = s1.sub( s2, fill_value = 0 )
multiple = s1.mul( s2, fill_value = 0 )
divide = s1.div( s2, fill_value = 0 )

print( f'{add}\n\n{subtract}\n\n{multiple}\n\n{divide}' )

국어    188.0
수학     75.0
영어     90.0
dtype: float64

국어    12.0
수학    75.0
영어   -90.0
dtype: float64

국어    8800.0
수학       0.0
영어       0.0
dtype: float64

국어    1.136364
수학         inf
영어    0.000000
dtype: float64
