### 함수 적용과 매핑
* pandas 객체에도 NumPy의 유니버설 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다

In [1]:
import pandas as pd
import numpy as np
# from pandas import DataFrame, Series

In [2]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [3]:
frame

Unnamed: 0,b,d,e
Utah,-0.69543,1.660951,-0.267265
Ohio,1.917611,-0.946454,-1.579709
Texas,1.107968,-0.08259,0.438217
Oregon,-0.670773,-0.864851,-1.11271


In [4]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.69543,1.660951,0.267265
Ohio,1.917611,0.946454,1.579709
Texas,1.107968,0.08259,0.438217
Oregon,0.670773,0.864851,1.11271


In [5]:
# 각 컬럼이나 로우의 1차원 배열에 함수 적용하는 것도 자주 사용
f = lambda x: x.max() - x.min()

In [6]:
# 각 컬럼에 대해 한 번만 수행하며 결괏값은 계산을 적용한 컬럼을 색인으로 하는 Series 반환
frame.apply(f)

b    2.613041
d    2.607404
e    2.017926
dtype: float64

In [7]:
# apply 함수에 axis='columns'인자를 넘기면 각 로우에 대해 한 번씩만 수행한다
frame.apply(f, axis='columns')

Utah      2.356381
Ohio      3.497320
Texas     1.190558
Oregon    0.441937
dtype: float64

In [8]:
# 배열에 대한 일반적인 통계(sum이나 mean 등)는 DataFrame 메서드로 존재하므로 apply 메서드를 사용할 필요 없음
# apply 메서드에 전달된 함수는 스칼라값 외에도 여러 값을 가진 Series 반환 가능
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [9]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.69543,-0.946454,-1.579709
max,1.917611,1.660951,0.438217


In [10]:
# 배열의 각 원소에 파이썬 함수 사용 가능
format = lambda x: '%.2f' % x

In [11]:
# applymap: frame 객체에서 실숫값을 문자열 포맷으로 변환하는 메서드
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.7,1.66,-0.27
Ohio,1.92,-0.95,-1.58
Texas,1.11,-0.08,0.44
Oregon,-0.67,-0.86,-1.11


### applymap 메서드 이름의 이유
* Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문

In [12]:
frame['e'].map(format)

Utah      -0.27
Ohio      -1.58
Texas      0.44
Oregon    -1.11
Name: e, dtype: object

### 정렬과 순위
* 로우나 컬럼의 색인을 알파벳순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 됨

In [13]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [14]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [15]:
# DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있음
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d','a','b','c'])

In [16]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [17]:
# column 기준 정렬
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [18]:
# 기본적으로 오름차순으로 정렬, 내림차순으로 정렬 가능
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [19]:
# Series 객체를 값에 따라 정렬하고 싶으면 sort_values 메서드 사용
obj = pd.Series([4, 7, -3, 2])

In [20]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [21]:
# 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [22]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [91]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [92]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [93]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [94]:
# 여러 개의 컬럼을 정렬하려면 컬럼 이름이 담긴 리스트 전달
frame.sort_values(by=['b', 'a'])

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


### 순위
* 정렬과 거의 흡사
* 1부터 배열의 유효한 데이터 개수까지 순서를 매김
* Series와 DataFrame은 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매김

In [27]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [28]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [29]:
# ?? 이 결과가 뭐지 왜 평균 순위가 6.5? 아,,? 아 6위랑 7위의 평균
# 0번과 2번 항목에 대해 평균 순위인 6.5를 적용하는 대신 먼저 출현한대로 6과 7적용
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [30]:
# 데이터 상에 나타나는 순서에 따라 순위를 매길 수도 있음
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [31]:
# 내림차순으로 순위를 매길 수 있음
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [95]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

In [96]:
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [97]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 중복 색인
* 위까지의 사례는 축 이름이 유일한 경우
* pandas의 많은 함수에서 색인값은 유일해야 하지만 의무는 아님
* 중복된 색인값을 가지는 Series 객체에 대해서 살펴봄

In [35]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [36]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [37]:
# 색인의 is_unique 속성은 해당 값의 유일성을 판단
obj.index.is_unique

False

> * 중복된 색인이 있다면 색인을 이용한 데이터 접근 시 다르게 동작
* 중복되는 색인 없을 시 색인을 이용해서 데이터에 접근하면 스칼라값 반환/ 중복되는 색인값 있을 시 하나의 Series 객체 반환

In [38]:
obj['a']

a    0
a    1
dtype: int64

In [39]:
obj['c']

4

In [40]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [41]:
df

Unnamed: 0,0,1,2
a,-0.314694,-1.143327,0.344855
a,0.158755,0.519854,-1.320679
b,-0.075499,-0.29102,1.453353
b,0.55182,-0.81029,1.207169


In [42]:
df.loc['b']

Unnamed: 0,0,1,2
b,-0.075499,-0.29102,1.453353
b,0.55182,-0.81029,1.207169


### 기술 통계 계산과 요약
* pandas 메서드의 대부분은 하나의 Series나 DataFrame의 로우나 컬럼에서 단일 값(합/평균 등)을 구하는 축소 혹은 요약 통계 범주에 속함
* 순수 NumPy 배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계됨

In [43]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])

In [44]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [45]:
# DataFrame의 sum 메서드를 호출하면 각 컬럼의 합을 담은 Series를 반환한다
df.sum()

one    9.25
two   -5.80
dtype: float64

In [46]:
# axis에 'columns'나 1 옵션을 넘기면, 각 로우(인덱스)의 합! 즉 컬럼별 합을 반환!
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [47]:
# 전체 로우나 컬럼의 값이 NA가 아니라면 NA값은 제외되고 계산된다 (skipna 옵션으로 조정 가능)
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [48]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [49]:
# idxmin이나 idxmax같은 메서드는 최댓값 혹은 최솟값을 가지고 있는 색인 반환 (간접 통계 반환)
df.idxmax()

one    b
two    d
dtype: object

In [50]:
# 누산을 구하는 메서드는 cumsum()
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [51]:
# 한 번에 여러 개의 통계 결과를 만들어 내는 메서드 describe()
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [52]:
# 수치 데이터가 아닌 경우 다른 요약 통계 생성
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

In [53]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 상관관계와 공분산
* 요약 통계 계산
* 두 쌍의 인자를 필요로 함

In [None]:
# 진행할 프로젝트: Pandas-datareader 패키지를 이용해 야후! 금융 사이트에서 구한 주식가격과 시가총액을 담고 있는 다음 DataFrame을 활용하기

In [54]:
import pandas_datareader.data as web

In [71]:
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

In [58]:
returns = price.pct_change()

In [59]:
# 주식의 퍼센트 변화율
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-07-17,-0.00202,0.00887,-0.0051,-0.001614
2020-07-20,0.021074,0.010071,0.042981,0.033103
2020-07-21,-0.013802,-0.002453,-0.013469,-0.004662
2020-07-22,0.002809,0.020704,0.014371,0.006462
2020-07-23,-0.045516,-0.010414,-0.043495,-0.033669


In [60]:
"""Series에서 corr 메서드와 cov 메서드"""
# corr(): NA가 아닌 정렬된 색인에서 연속하는 두 Series에 대해 상관관계 계산
# cov(): 공분산 계산

In [62]:
returns['MSFT'].corr(returns['IBM'])

0.592989390971782

In [63]:
# MSFT는 파이썬 속성 이름 규칙에 어긋나지 않으므로 좀 더 편리한 문법(속성처럼 .을 이용하여 접근)으로 해당 컬럼 검색 가능
returns.MSFT.corr(returns.IBM)

0.592989390971782

In [64]:
"""DataFrame에서 corr 메서드와 cov 메서드"""
# corr은 행렬에서의 상관관계, cov는 행렬에서 공분산

'DataFrame에서 corr 메서드와 cov 메서드'

In [65]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.526908,0.716719,0.671967
IBM,0.526908,1.0,0.592989,0.543374
MSFT,0.716719,0.592989,1.0,0.785882
GOOG,0.671967,0.543374,0.785882,1.0


In [66]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000334,0.000155,0.000228,0.000204
IBM,0.000155,0.000259,0.000167,0.000146
MSFT,0.000228,0.000167,0.000304,0.000228
GOOG,0.000204,0.000146,0.000228,0.000277


In [67]:
# corrwith(): 다른 Series나 DataFrame과의 상관관계를 계산
# Series를 넘기면 각 컬럼에 대해 계산한 상관관계를 담고 있는 Series 반환

In [68]:
returns.corrwith(returns.IBM)

AAPL    0.526908
IBM     1.000000
MSFT    0.592989
GOOG    0.543374
dtype: float64

In [72]:
returns.corrwith(volume)

AAPL   -0.133460
IBM    -0.103855
MSFT   -0.065961
GOOG   -0.142484
dtype: float64

### 유일값, 값 세기, 멤버십
* 1차원 Series에 담긴 값의 정보 추출하는 메서드 알아보기

In [73]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [75]:
# unique(): 중복되는 값 제거한 유일값 담은 Series 반환
uniques = obj.unique()

In [76]:
# 정렬된 순서대로 반환 ㄴㄴ 필요하다면 sort() 메서드를 이용하여 정렬 가능
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [77]:
# value_counts(): Series에서 빈도수(frequency) 계산 후 반환
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [78]:
# 반환하는 Series 값을 내림차순으로 정렬
# value_counts()는 pandas의 최상위 메서드
# 어떤 배열이나 순차 자료구조에서도 사용할 수 있음
pd.value_counts(obj.values, sort=False)

a    3
c    3
b    2
d    1
dtype: int64

In [79]:
# isin메서드는 어떤 값이 Series에 존재하는지 나타내는 불리언 벡터를 반환
# Series나 DataFrame의 컬럼에서 값을 골라내고 싶을 때 유용하게 사용
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [80]:
# isin과 관련이 있는 Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있다
mask = obj.isin(['b', 'c'])

In [81]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [82]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [83]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])

In [84]:
unique_vals = pd.Series(['c', 'b', 'a'])

In [85]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

In [98]:
# DataFrame의 여러 컬럼에 대해 히스토그램을 구해야 하는 경우
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})

In [99]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [102]:
# 위 DataFrame의 apply 함수에 pandas.value_counts를 넘기면 아래와 같은 결과를 얻을 수 있음
result = data.apply(pd.value_counts).fillna(0)

In [103]:
# 로우 라벨은 전체 컬럼의 유일한 값들을 담고 있음
# 각 값은 각 컬럼에서 해당 값이 몇 번 출현했는지 나타냄
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
