## 정렬과 순위

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [2]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

* 로우나 컬럼의 색인을 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용한다.

In [3]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

* DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [4]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [5]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [6]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


* 내림차순으로 정렬할 수도 있다.

In [7]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


- Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용한다.

In [8]:
obj = Series([4, 7, -3, 2])

In [9]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

- 정렬할 때 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [10]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [11]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

- DataFrame에서는 컬럼에 있는 값으로 정렬이 필요할 수 있다.
- by 옵션에 정렬이 필요한 컬럼의 이름을 넘긴다.

In [12]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [13]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [14]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


- 여러 개의 컬럼을 정렬하려면 컬럼의 이름이 담긴 리스트를 전달한다.

In [15]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


- 순위는 정렬과 거의 유사하다.
- 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다.
- numpy.argsort에서 반환하는 간접 정렬 색인과 유사하지만 동률인 순위를 처리하는 방식이 다르다.
- 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [16]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [17]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

- 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [18]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

- 내림차순으로 순위를 매길 수도 있다.

In [19]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

- DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [20]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})

In [21]:
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [22]:
frame.rank(axis=1)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


- average: 기본값, 같은 값을 가지는 항목의 평균 값을 순위로 삼는다.
- min: 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
- max: 같은 값을 가지는 그룹을 높은 순위로 매긴다.
- first: 데이터 내에서 위치에 따라 순위를 매긴다.

## 중복 색인

In [23]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [24]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

- 색인의 is_unique 속성은 해당 값이 유일하면 True 유일하지 않다면 False를 반환한다.

In [25]:
obj.index.is_unique

False

- 중복되는 색인 값이 있으면 색인을 이용한 데이터 선택은 Series 객체를 반환한다.
- 중복되는 색인 값이 없으면 색인을 이용한 데이터 선택은 스칼라 값을 반환한다.

In [26]:
obj['a']

a    0
a    1
dtype: int64

In [27]:
obj['c']

4

In [28]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [29]:
df

Unnamed: 0,0,1,2
a,0.995032,0.507735,1.549496
a,-1.115398,-0.756902,-1.520788
b,2.361103,0.370371,0.302974
b,2.019627,-1.3359,0.033163


In [30]:
df.loc['a']

Unnamed: 0,0,1,2
a,0.995032,0.507735,1.549496
a,-1.115398,-0.756902,-1.520788


## 기술통계 계산과 요약

- pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다.
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속한다.
- numpy 배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다.

In [31]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index = ['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [32]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [33]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [34]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

- NaN을 제외하는 것은 skipna 옵션으로 조정할 수 있다.

In [35]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

- 공통적으로 사용되는 옵션은 다음과 같다.
- axis: 연산을 수행할 축
- skipna: 누락된 값을 포함/제외를 설정. 기본 값은 True
- level: 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

- idxmin, idxmax 메서드는 최소 혹은 최대 값을 가지고 있는 색인 값을 반환한다.

In [36]:
df.idxmin()

one    d
two    b
dtype: object

In [37]:
df.idxmax()

one    b
two    d
dtype: object

In [38]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- 누적합 cumsum은 skipna 옵션에 영향을 받지 않는다.

In [39]:
df.cumsum(skipna=True)

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- describe 메서드는 한 번에 통계 결과를 여러 개 만들어 낸다.

In [40]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


- describe는 수치 데이터가 아닐 경우 다른 요약통계를 생성한다.

In [41]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [42]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [43]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

## 상관관계와 공분산 

In [44]:
# import pandas as pd
# from pandas_datareader import data

# all_data = {}
# for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
#     all_data[ticker] = data.DataReader(ticker, 'yahoo', '2015-01-01', '2016-01-01')

##  유일 값, 값 세기, 멤버십

In [45]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

- unique 함수는 Series에서 중복되는 값을 제거하고 유일 값만 담고 있는 Series를 반환한다.
- 유일 값은 정렬된 순서로 반환되지 않지만 uniques.sort() 등으로 정렬할 수 있다.

In [46]:
uniques = obj.unique()

In [47]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

- value_counts는 Series에서 빈도수를 계산하여 반환한다.

In [48]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

- isin 메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환한다.
- Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 유용하다.

In [49]:
mask = obj.isin(['b', 'c'])

In [50]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [51]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

- value_counts를 이용하여 DataFrame의 여러 로우에 대한 히스토그램을 구할 수 있다.

In [52]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [53]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [54]:
result = data.apply(pd.value_counts).fillna(0)

In [55]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


- value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에 fillna(0) 함수를 이용하여 비어있는 값은 0으로 채운다.

## 누락된 데이터 처리하기

In [56]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [57]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [58]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

- 파이썬의 None 값도 NaN으로 취급한다.

In [59]:
string_data[0] = None

In [60]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

- NA 처리 메서드
- dropna 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
- fillna 누락된 데이터를 대신할 값을 채우거나 ffill, bfill 같은 보간 메서드를 적용할 수 있다.
- isnull 누락되거나 NA인 값을 알려주는 불리언 값이 저장된 같은 형의 객체를 반환한다.
- notnull isnull과 반대 메서드

## 누락되니 데이터 골라내기

In [61]:
from numpy import nan as NA

In [62]:
data = Series([1, NA, 3.5, NA, 7])

- dropna를 사용하면 실제 데이터가 들어있는 색인 값과 데이터를 Series 값으로 반환한다.

In [63]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

- 불리언 색인을 이용해서 직접 계산하는 것도 가능하다.

In [64]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

- DataFrame의 경우 모두 NA인 로우나 컬럼을 제외하던가 하나로도 NA인 값을 포함하고 있는 로우나 컬럼을 제외시킬 수도 있다.

In [65]:
data = DataFrame([[1, 6.5, 3], [1, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [66]:
cleaned = data.dropna()

In [67]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [68]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


- how='all' 옵션을 주면 모든 값이 NA인 로우만 제외한다.

In [69]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [70]:
data[4] = NA

In [71]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


- 칼럼을 제외시키는 방법은 옵션을 axis = 1을 주면 로우를 제외시키는 것과 동일한 방식으로 동작한다.

In [72]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


- DataFrame의 로우를 제외시키는 방법은 주로 시계열 데이터에 사용되는 경향이 있다.
- 몇 개 이상의 값이 들어있는 로우만 살펴보고 싶다면 thresh 인자에 원가는 값을 넘긴다.

In [73]:
df = DataFrame(np.random.randn(7, 3))

In [74]:
df.iloc[:4, 1] = NA

In [75]:
df

Unnamed: 0,0,1,2
0,1.621291,,0.72653
1,-0.582652,,0.969132
2,-1.419842,,0.049461
3,0.110407,,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


In [76]:
df.iloc[:2, 2] = NA

In [77]:
df

Unnamed: 0,0,1,2
0,1.621291,,
1,-0.582652,,
2,-1.419842,,0.049461
3,0.110407,,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


In [78]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,-1.419842,,0.049461
3,0.110407,,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


In [79]:
df.dropna(thresh=3)

Unnamed: 0,0,1,2
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


## 누락된 값 채우기

In [80]:
df.fillna(0)

Unnamed: 0,0,1,2
0,1.621291,0.0,0.0
1,-0.582652,0.0,0.0
2,-1.419842,0.0,0.049461
3,0.110407,0.0,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


- fillna에 사전 값을 넘겨서 각 칼럼마다 다른 값을 채워 넣을 수도 있다.

In [81]:
df.fillna({1: 0.5, 3: -1})

Unnamed: 0,0,1,2
0,1.621291,0.5,
1,-0.582652,0.5,
2,-1.419842,0.5,0.049461
3,0.110407,0.5,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


- fillna는 새로운 객체를 반환하지만 기존 객체를 변경할 수도 있다.

In [82]:
_ = df.fillna(0, inplace=True)

In [83]:
df

Unnamed: 0,0,1,2
0,1.621291,0.0,0.0
1,-0.582652,0.0,0.0
2,-1.419842,0.0,0.049461
3,0.110407,0.0,0.353429
4,1.209255,-0.41056,-0.537173
5,-1.221155,-2.179291,-1.153912
6,1.133552,-1.883844,1.429612


- 재색인에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용 가능하다.

In [84]:
df = DataFrame(np.random.randn(6, 3))

In [86]:
df.loc[2:, 1] = NA

In [87]:
df

Unnamed: 0,0,1,2
0,-0.437613,-0.648494,-0.451973
1,-0.308458,-2.786506,-1.327606
2,0.500917,,-1.438694
3,-1.233379,,0.221399
4,-0.829307,,0.647565
5,-0.480869,,0.918012


In [88]:
df.iloc[4:, 2] = NA

In [89]:
df

Unnamed: 0,0,1,2
0,-0.437613,-0.648494,-0.451973
1,-0.308458,-2.786506,-1.327606
2,0.500917,,-1.438694
3,-1.233379,,0.221399
4,-0.829307,,
5,-0.480869,,


In [90]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.437613,-0.648494,-0.451973
1,-0.308458,-2.786506,-1.327606
2,0.500917,-2.786506,-1.438694
3,-1.233379,-2.786506,0.221399
4,-0.829307,-2.786506,0.221399
5,-0.480869,-2.786506,0.221399


In [91]:
df.fillna(method='bfill')

Unnamed: 0,0,1,2
0,-0.437613,-0.648494,-0.451973
1,-0.308458,-2.786506,-1.327606
2,0.500917,,-1.438694
3,-1.233379,,0.221399
4,-0.829307,,
5,-0.480869,,


In [92]:
df.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2
0,-0.437613,-0.648494,-0.451973
1,-0.308458,-2.786506,-1.327606
2,0.500917,-2.786506,-1.438694
3,-1.233379,,0.221399
4,-0.829307,,0.221399
5,-0.480869,,


- 조금만 창의적으로 생각하면 fillna를 이용해서 다양한 일을 할 수 있다.
- 예를 들면 Series의 평균 값이나 중간 값을 전달할 수도 있다.

In [93]:
data = Series([1, NA, 3.5, NA, 7])

In [94]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

- fillna 함수의 인자는 다음과 같다.
- value: 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체
- method: 보간 방식. 기본적으로 ffill을 사용한다.
- axis: 값을 채워 넣을 축. 기본 값은 0
- inplace: 본사본을 생성하지 않고 호출한 객체를 변경한다. 기본값은 False
- limit: 값을 앞, 뒤에서부터 몇 개까지 채울지 결정한다.

## 계층적 색인 Hierarchical indexing

- 축에 대해 다중 색인을 지정할 수 있다.

In [95]:
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [96]:
data

a  1    1.642669
   2    0.194201
   3   -0.233193
b  1    1.608594
   2    0.214834
   3    0.824042
c  1   -0.011541
   2    0.950565
d  2   -0.810407
   3   -0.409094
dtype: float64

- 위 객체는 MultiIndex를 색인으로 하는 Series
- 상위 단계의 색인을 이용해서 하위 계층을 직접 접근할 수 있다.

In [97]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

- 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인으로 접근(partial indexing)하는 것이 가능하다.

In [98]:
data['b']

1    1.608594
2    0.214834
3    0.824042
dtype: float64

In [99]:
data['b':'c']

b  1    1.608594
   2    0.214834
   3    0.824042
c  1   -0.011541
   2    0.950565
dtype: float64

In [100]:
data.loc[['b', 'c']]

b  1    1.608594
   2    0.214834
   3    0.824042
c  1   -0.011541
   2    0.950565
dtype: float64

- 하위 계층의 객체를 선택하는 것도 가능하다.

In [101]:
data[:, 2]

a    0.194201
b    0.214834
c    0.950565
d   -0.810407
dtype: float64

- 계층적인 색인은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 때 중요하게 사용된다.
- 예를들어 DataFrame 객체에 unstack 메서드를 사용하여 데이터를 새롭게 배열할 수도 있다.

In [102]:
data.unstack()

Unnamed: 0,1,2,3
a,1.642669,0.194201,-0.233193
b,1.608594,0.214834,0.824042
c,-0.011541,0.950565,
d,,-0.810407,-0.409094


In [103]:
data.unstack().stack()

a  1    1.642669
   2    0.194201
   3   -0.233193
b  1    1.608594
   2    0.214834
   3    0.824042
c  1   -0.011541
   2    0.950565
d  2   -0.810407
   3   -0.409094
dtype: float64

- DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있다.

In [105]:
frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])

In [106]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


- 계층적 색인의 각 단계는 이름(어떤 파이썬 객체라도 가능하다.)을 가질 수 있다.
- 이름이 있다면 콘솔 출력 시에 함께 나타난다.
- 색인의 이름과 축의 라벨을 혼동하지 말자.

In [107]:
frame.index.names = ['key1', 'key2']

In [108]:
frame.columns.names = ['state', 'color']

In [109]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


- 칼럼의 부분집합도 partial indexing으로 접근할 수 있다.

In [110]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10
