### 함수


In [5]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [3]:
# numpy.random.randn : 임의의 정규분포 데이터 생성
df = DataFrame(np.random.randn(4,3), columns = list('bde'), index=['seoul','busan','daegu','incheon'])
df

Unnamed: 0,b,d,e
seoul,-1.802843,1.376839,-0.263143
busan,-0.145605,0.50175,-0.39168
daegu,-0.747405,-0.034479,1.089502
incheon,0.260543,0.658544,0.964816


In [4]:
# 절대값
np.abs(df)

Unnamed: 0,b,d,e
seoul,1.802843,1.376839,0.263143
busan,0.145605,0.50175,0.39168
daegu,0.747405,0.034479,1.089502
incheon,0.260543,0.658544,0.964816


In [8]:
# 람다식(함수)
# 함수명 = Lambda 파라미터 : 함수식
f = lambda x:x.max() - x.min()


In [None]:
# 열/행 단위 집계:apply()

In [9]:
# 열단위집계
df.apply(f)

b    2.063386
d    1.411318
e    1.481182
dtype: float64

In [10]:
# 행단위 집계
df.apply(f,axis=1)

seoul      3.179682
busan      0.893430
daegu      1.836907
incheon    0.704273
dtype: float64

In [6]:
def f(x):
    return Series([x.min(), x.max()], index=['min','max'])

In [12]:
df.apply(f)

Unnamed: 0,b,d,e
min,-1.802843,-0.034479,-0.39168
max,0.260543,1.376839,1.089502


In [7]:
# 데이터프레임 객체에서 실수 값을 문자열 포맷으로 변환 : applymap()
format = lambda x : '%.2f'

In [15]:
# 시리즈 객체에서 실수 값을 문자열 포맷으로 변환 : map()
df['e'].map(format)

seoul      %.2f
busan      %.2f
daegu      %.2f
incheon    %.2f
Name: e, dtype: object

### 정렬

In [None]:
# 행의 색인이나 열의 색인 순으로 정렬 하는 등의 행위

In [16]:
# numpy.random.randn : 임의의 정규분포 데이터 생성
df = DataFrame(np.random.randn(4,3), columns = list('bde'), index=['seoul','busan','daegu','incheon'])
df

Unnamed: 0,b,d,e
seoul,0.103663,-1.057179,1.943925
busan,0.61117,1.751863,-0.505108
daegu,-1.003533,-0.470439,0.529033
incheon,-0.610039,0.243684,-0.342741


In [8]:
# 시리즈 정렬
format = lambda x : '%.2f' % x

In [18]:
df['e'].map(format)

seoul       1.94
busan      -0.51
daegu       0.53
incheon    -0.34
Name: e, dtype: object

In [19]:
# 인덱스 순으로 정렬
s1 = df['e'].map(format)
s1


seoul       1.94
busan      -0.51
daegu       0.53
incheon    -0.34
Name: e, dtype: object

In [20]:
# 인덱스 순으로 정렬
s1.sort_index()

busan      -0.51
daegu       0.53
incheon    -0.34
seoul       1.94
Name: e, dtype: object

In [22]:
# value 순으로 정렬
s1.sort_values()

incheon    -0.34
busan      -0.51
daegu       0.53
seoul       1.94
Name: e, dtype: object

In [10]:
df2 = DataFrame(np.arange(8).reshape(4,2), columns = list('da'), index=['one','two','three','four'])
df2

Unnamed: 0,d,a
one,0,1
two,2,3
three,4,5
four,6,7


In [11]:
# 행기준 정렬
df2.sort_index()

Unnamed: 0,d,a
four,6,7
one,0,1
three,4,5
two,2,3


In [12]:
# 열기준 정렬
df2.sort_index(axis=1)

Unnamed: 0,a,d
one,1,0
two,3,2
three,5,4
four,7,6


In [13]:
# 데이터(색인, 값)는 기본적으로 오름차순 정렬
# 내림차순 : asceding=False
df2.sort_index(axis=1, ascending=False)

Unnamed: 0,d,a
one,0,1
two,2,3
three,4,5
four,6,7


In [14]:
# 객체를 값에 따라 정렬할 때는 sort_values()
obj = Series([4,7,-3,1])
obj

0    4
1    7
2   -3
3    1
dtype: int64

In [15]:
obj.sort_values()

2   -3
3    1
0    4
1    7
dtype: int64

In [16]:
obj2 = Series([4, np.nan, 8, np.nan, -10, 2])
obj2

0     4.0
1     NaN
2     8.0
3     NaN
4   -10.0
5     2.0
dtype: float64

In [17]:
obj2.sort_values() # 비어있는 값은 정렬 시 가장 마지막에 위치

4   -10.0
5     2.0
0     4.0
2     8.0
1     NaN
3     NaN
dtype: float64

In [22]:
# dataframe
frame = DataFrame({'b':[4,7,-5,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-5,0
3,2,1


In [23]:
frame.sort_values(by='b') # by옵션에 정렬기준으로 할 컬럼명을 넣어줘야 함

Unnamed: 0,b,a
2,-5,0
3,2,1
0,4,0
1,7,1


In [None]:
# 순위 

In [None]:
# rank()

In [24]:
obj = Series([7,-2,7,4,2,0,4])
obj

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [25]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [26]:
# 동점(률) 처리 : 먼저 입력된 값을 우선순위
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [27]:
# 내림차순으로 순위를 매기기 - 동점자 선입 우선순위 주기
obj.rank(ascending=False,method='first')

0    1.0
1    7.0
2    2.0
3    3.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [28]:
# 내림차순 그룹지어서 순위를 매기기
print(obj)
print('----------------------------------')
print(obj.rank(ascending=False, method='max'))

0    7
1   -2
2    7
3    4
4    2
5    0
6    4
dtype: int64
----------------------------------
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64


In [None]:
'''
# 처음부터 누락된 데이터를 제외하도록 설계되어있다.
'''

In [29]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [31]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                  index=['a','b','c','d'], columns=['one','two']
              )
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [32]:
# sum() : 각 컬럼의 합을 구해서 Series로 return
df.sum()

one    9.25
two   -5.80
dtype: float64

In [33]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [36]:
# idxmax(), idxmin() : 

print(df.idxmax())
print(df.idxmin())

one    b
two    d
dtype: object
one    d
two    b
dtype: object


In [38]:
# 누산 메소드 : cumsum()
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [39]:
# 유일한 값 : 도수(값의 수를 계산) 메소드
s1 = Series(['c','a','d','a','a','b','b','c','c'])
s1

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [40]:
# 도수 메소드
cnt = s1.value_counts()
cnt

a    3
c    3
b    2
d    1
dtype: int64

In [None]:
# Series에 어떤 값이 있는지 찾는 메소드  isin() - True/False로 리턴
# 데이터프레임, 시리즈 객체에서 원하는 값을 골라내고 싶을 때 유용한 메소드

In [41]:
mark = s1.isin(['b','c'])
mark

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [42]:
s1[mark]

0    c
5    b
6    b
7    c
8    c
dtype: object

## NaN 처리

In [None]:
'''
# 누락된 데이터 처리 (pandas 설계 목표 중 하나는 누락된 데이터를 쉽게 처리하기)
# pandas 에서는 누락된 데이터를 실수이든 아니든 모두 NaN(Not a Number)로 취급한다
'''

In [45]:
strData

NameError: name 'strData' is not defined

In [44]:
strData.isnull()

NameError: name 'strData' is not defined

In [46]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
from numpy import nan as NA

### 누락된 데이터 골라내기

In [47]:
data = Series([1,NA,3.4,NA,8])
data

0    1.0
1    NaN
2    3.4
3    NaN
4    8.0
dtype: float64

In [48]:
data.dropna() # 결과값을 시리즈 객체로 반환, 인덱스조차 없어짐을 확인

0    1.0
2    3.4
4    8.0
dtype: float64

In [49]:
# 불리언 색인을 이용해서 직접 찾은 다음 골라내기
data.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [51]:
data = DataFrame([[1, 5.5, 3],[1,NA,NA], [NA,NA,NA], [NA,3.3,3]])
data

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [52]:
data.dropna() # 기본적으로 하나라도 NaN이 있다면 그 행은 제외

Unnamed: 0,0,1,2
0,1.0,5.5,3.0


In [53]:
# 모든 값이 NA 인 행만 제외
data.dropna(how ='all')

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
3,,3.3,3.0


In [54]:
# 모든 값이 NA인 열만 제외
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [55]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


### 누락된 데이터 채우기

In [None]:
'''
# 데이터 프레임 객체는 누락된 데이터를 완벽하게 골라낼 수 없음. 보통 다른 데이터도 함께 버려지기 때문

'''

In [56]:
data.fillna(0)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,3.3,3.0,0.0


In [57]:
# fillna를 여러 활용법에 따라 다양하게 채워넣을 수 있음
data.fillna({1:10, 3:30})

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,10.0,,
2,,10.0,,
3,,3.3,3.0,


In [58]:
# 바로 위에 있는 값으로 채우기
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [59]:
data.fillna(method='ffill')

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,5.5,3.0,
2,1.0,5.5,3.0,
3,1.0,3.3,3.0,


In [60]:
data = Series([1, NA, 4, NA, 7])
data

0    1.0
1    NaN
2    4.0
3    NaN
4    7.0
dtype: float64

In [61]:
# 평균값으로 채우기
data.fillna(data.mean())

0    1.0
1    4.0
2    4.0
3    4.0
4    7.0
dtype: float64