사용자 정의 함수

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [2]:
# numpy.random.randn : 임의의 정규분포 데이터 생성
df = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['seoul', 'busan', 'daegu', 'incheon'])
df

Unnamed: 0,b,d,e
seoul,-0.457304,-0.542292,-1.177057
busan,-0.057147,0.776209,-0.656223
daegu,0.504678,0.540261,-0.572627
incheon,0.15411,0.538551,-1.158613


In [3]:
# 절대값
np.abs(df)

Unnamed: 0,b,d,e
seoul,0.457304,0.542292,1.177057
busan,0.057147,0.776209,0.656223
daegu,0.504678,0.540261,0.572627
incheon,0.15411,0.538551,1.158613


In [5]:
# 람다식(함수)
# 함수명 = lambda 파라미터 : 함수식
f = lambda x:x.max() - x.min()

In [6]:
# 열/행 단위 집계 : apply()

In [7]:
# 열단위 집계
df.apply(f)

b    0.961982
d    1.318501
e    0.604430
dtype: float64

In [8]:
# 행단위 집계
df.apply(f, axis=1)

seoul      0.719753
busan      1.432432
daegu      1.112888
incheon    1.697164
dtype: float64

In [9]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

In [10]:
df.apply(f)

Unnamed: 0,b,d,e
min,-0.457304,-0.542292,-1.177057
max,0.504678,0.776209,-0.572627


In [11]:
# 데이터프레임 객체에서 실수 값을 문자열 포맷으로 변환 : applymap()
format = lambda x : '%.2f' % x 

In [12]:
df.applymap(format)

Unnamed: 0,b,d,e
seoul,-0.46,-0.54,-1.18
busan,-0.06,0.78,-0.66
daegu,0.5,0.54,-0.57
incheon,0.15,0.54,-1.16


In [13]:
# 시리즈 객체에서 실수 값을 문자열 포맷으로 변환 : map()
df['e'].map(format)

seoul      -1.18
busan      -0.66
daegu      -0.57
incheon    -1.16
Name: e, dtype: object

정렬

In [None]:
# 행의 색인이나 열의 색인 순으로 정렬 하는 등의 기준이 필요

In [14]:
# numpy.random.randn : 임의의 정규분포 데이터 생성
df = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['seoul', 'busan', 'daegu', 'incheon'])
df

Unnamed: 0,b,d,e
seoul,-0.230972,0.186868,0.20424
busan,-0.579682,-1.499416,-0.755959
daegu,-0.521366,0.145573,-2.082231
incheon,-0.227931,1.291105,-1.936602


In [15]:
# 시리즈 정렬
format = lambda x : '%.2f' % x 

In [18]:
s1 = df['e'].map(format)
s1

seoul       0.20
busan      -0.76
daegu      -2.08
incheon    -1.94
Name: e, dtype: object

In [19]:
# 인덱스 순으로 정렬
s1.sort_index()

busan      -0.76
daegu      -2.08
incheon    -1.94
seoul       0.20
Name: e, dtype: object

In [20]:
# value 순으로 정렬
s1.sort_values()

busan      -0.76
incheon    -1.94
daegu      -2.08
seoul       0.20
Name: e, dtype: object

In [21]:
df2 = DataFrame(np.arange(8).reshape(2, 4), index=['three', 'one'], columns=list('dabc'))
df2

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [22]:
# 행기준 정렬
df2.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [23]:
# 열기준 정렬
df2.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [26]:
# 데이터(색인, 값)는 기본적으로 오름차순 정렬
# 내림차순 : asceding=False
df2.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [27]:
# 객체를 값에 따라 정렬할 때는 sort_values()
obj = Series([4, 7, -3, 1])
obj

0    4
1    7
2   -3
3    1
dtype: int64

In [28]:
obj.sort_values()

2   -3
3    1
0    4
1    7
dtype: int64

In [29]:
obj2 = Series([4, np.nan, 8, np.nan, -10, 2])
obj2

0     4.0
1     NaN
2     8.0
3     NaN
4   -10.0
5     2.0
dtype: float64

In [30]:
obj2.sort_values()       # 비어있는 값은 정렬시 가장 마지막에 위치

4   -10.0
5     2.0
0     4.0
2     8.0
1     NaN
3     NaN
dtype: float64

In [31]:
# dataframe

In [32]:
frame = DataFrame({'b':[4, 7, -5, 2], 'a':[0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-5,0
3,2,1


In [34]:
frame.sort_values(by='b')        # by옵션에 정렬기준으로 할 컬럼명을 넣어줘야 함

Unnamed: 0,b,a
2,-5,0
3,2,1
0,4,0
1,7,1


In [38]:
# 여러 개의 컬럼값을 기준으로 정렬
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-5,0
0,4,0
3,2,1
1,7,1


순위

In [35]:
# rank()

In [36]:
obj = Series([7, -2, 7, 4, 2, 0, 4])
obj

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [39]:
obj.rank()    # 원본데이터 그대로의 순위 (순서 정렬은 해주지 않는다)

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [40]:
# 동점(률) 처리 : 먼저 입력된 값을 우선순위
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [41]:
# 내림차순으로 순위를 매기기
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [42]:
# 내림차순으로 순위를 매기기 - 동점자 선입 우선순위 주기
obj.rank(ascending=False, method='first')

0    1.0
1    7.0
2    2.0
3    3.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [43]:
# 내림차순 그룹지어서 순위를 매기기
print(obj)
print('---------------------------------------------')
print(obj.rank(ascending=False, method='max'))

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64
---------------------------------------------
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64


기술통계

In [None]:
'''
# 일반적인 수학/통계 메소드를 제공해주고 있다.
# 처음부터 누락된 데이터를 제외하도록 설계되어 있다.
'''

In [44]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [46]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
              index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [47]:
# sum() : 각 컬럼의 합을 구해서 Series로 return
#       : 자동으로 NaN을 제외하고 더해주고 있음
df.sum()

one    9.25
two   -5.80
dtype: float64

In [48]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [49]:
# NaN을 제외하지 말고 수행
# skipna 옵션 (default : True)
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [53]:
# 최소, 최대
# idxmax(), idxmin() : 최소, 최대값을 가지고 있는 색인 값 같은 간접 통계를 반환
print(df.idxmax())
print('------------------------')
print(df.idxmin())

one    b
two    d
dtype: object
------------------------
one    d
two    b
dtype: object


In [54]:
# 누산 메소드 : cumsum()
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [55]:
# 유일한 값 : 도수(값의 수를 계산) 메소드
s1 = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
s1

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [57]:
u1 = s1.unique()         # 중복 제거 : unique()
u1

array(['c', 'a', 'd', 'b'], dtype=object)

In [58]:
u1.sort()               # unique()에 따른 결과값을 정렬되지 않는다

In [59]:
# 도수 메소드
cnt = s1.value_counts()
cnt

c    3
a    3
b    2
d    1
dtype: int64

In [None]:
# Series에 어떤 값이 있는지 찾는 메소드 : isin() - True/False로 리턴
# 데이터프레임, 시리즈 객체에서 원하는 값을 골라내고 싶을 때 유용한 메소드

In [60]:
mark = s1.isin(['b', 'c'])
mark

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [61]:
s1[mark]         # True인 값들만 인덱싱해줌

0    c
5    b
6    b
7    c
8    c
dtype: object

NaN 처리

In [None]:
'''
# 누락된 데이터 처리 (pandas 설계 목표 중 하나는 누락된 데이터를 쉽게 처리하기)
# pandas에서는 누락된 데이터를 실수이든 아니든 모두 NaN(Not a Number)로 취급한다

'''

In [62]:
strData = Series(['aaa', 'bbb', np.nan, 'ccc'])
strData

0    aaa
1    bbb
2    NaN
3    ccc
dtype: object

In [63]:
# NaN은 파이썬의 None, NA와 같은 값으로 취급
strData.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [65]:
strData[0] = None
strData

0    None
1     bbb
2     NaN
3     ccc
dtype: object

In [66]:
strData.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [64]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
from numpy import nan as NA

## 누락된 데이터 골라내기

In [68]:
data = Series([1, NA, 3.4, NA, 8])
data

0    1.0
1    NaN
2    3.4
3    NaN
4    8.0
dtype: float64

In [69]:
data.dropna()       # 결과값을 시리즈 객체로 반환, 인덱스조차 없어짐을 확인

0    1.0
2    3.4
4    8.0
dtype: float64

In [70]:
# 불리언 색인을 이용해서 직접 찾은 다음 골라내기
data.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [71]:
data[data.notnull()]

0    1.0
2    3.4
4    8.0
dtype: float64

In [72]:
# dataframe
data = DataFrame([[1, 5.5, 3], [1, NA, NA], [NA, NA, NA], [NA, 3.3, 3]])
data

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [73]:
data.dropna()        # 기본적으로 하나라도 NaN이 있다면 그 행은 제외

Unnamed: 0,0,1,2
0,1.0,5.5,3.0


In [74]:
# 모든 값이 NA인 행만 제외
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
3,,3.3,3.0


In [75]:
# 모든 값이 NA인 열만 제외
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [76]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [77]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [78]:
# value 갯수를 지정행서 그만큼 들어있는 행을 추출 : thresh인자
data.dropna(thresh=2)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
3,,3.3,3.0,


누락된 데이터 채우기

In [None]:
'''
# 데이터 프레임 객체는 누락된 데이터를 완벽하게 골라낼 수 없음. 보통 다른 데이터도 함께 버려지기 떄문.
# 그러므로 비어있는 값을 채우는 방향으로 많이 처리
'''

In [80]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [81]:
data.fillna(0)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,3.3,3.0,0.0


In [85]:
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [82]:
# fillna를 여러 활용법에 따라 다양하게 채워넣을 수 있음
data.fillna({1:10, 4:30})

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,30.0
1,1.0,10.0,,30.0
2,,10.0,,30.0
3,,3.3,3.0,30.0


In [83]:
# 바로 위에 있는 값으로 채우기
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [86]:
data.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,5.5,3.0,
2,1.0,,,
3,,3.3,3.0,


In [87]:
data = Series([1, NA, 4, NA, 7])
data

0    1.0
1    NaN
2    4.0
3    NaN
4    7.0
dtype: float64

In [88]:
# 평균값으로 채우기
data.fillna(data.mean())

0    1.0
1    4.0
2    4.0
3    4.0
4    7.0
dtype: float64