In [1]:
import pandas as pd
import numpy as np

# pandas 자료구조 : Series, DataFrame

## Series
일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이며 어떤 NumPy 자료형이라도 담을 수 있다.

색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [2]:
list1 = [4,7,-5,3]
obj = pd.Series(list1)
print(obj)
print('\n')
print(obj.index)       # range(4)와 같음
print(obj.values)

0    4
1    7
2   -5
3    3
dtype: int64


RangeIndex(start=0, stop=4, step=1)
[ 4  7 -5  3]


In [3]:
# 인덱스 지정해주기

index1 = ['d','b','a','c']
obj2 = pd.Series(list1, index=index1)
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [4]:
# 인덱스는 대입하여 변경할 수 있다.

obj2.index = ['d','e','a','c']
obj2

d    4
e    7
a   -5
c    3
dtype: int64

In [5]:
# 색인으로 라벨을 사용할 수 있다.

print(obj2['a'])
print(obj2[['c','a','d']])       # 여러 값을 선택할 때는 색인들도 배열이나 리스트의 형태로 입력해야 한다.

-5
c    3
a   -5
d    4
dtype: int64


- obj2[obj2 > 0]
- np.exp(obj2)
- 'b' in obj2

이런 식으로 NumPy 배열처럼 연산하는 것도 가능하다

### 사전형으로 Series 데이터 저장

In [6]:
nations = {'Korea':13,'Vietnam': 22, 'German': 30, 'France': 6, 'Russia': 27}

obj3 = pd.Series(nations)
obj3

Korea      13
Vietnam    22
German     30
France      6
Russia     27
dtype: int64

In [7]:
# 인덱스와 값이 매치가 안되는 경우

obj4 = pd.Series(nations, index=['Korea','China','France','German'])
obj4

Korea     13.0
China      NaN
France     6.0
German    30.0
dtype: float64

In [8]:
obj4.isnull() # pd.isnull(obj4)와 같음, 반대로 notnull의 메서드 역시 존재

Korea     False
China      True
France    False
German    False
dtype: bool

### name 속성
기억해두자

In [9]:
obj4.name = 'countries'
obj4.index.name = 'ranking'
obj4

ranking
Korea     13.0
China      NaN
France     6.0
German    30.0
Name: countries, dtype: float64

## DataFrame
표와 같은 스프레드시트 형식의 자료구조

사전과 그 안에 중첩된 리스트(혹은 NumPy 배열)를 통해 생성할 수 있다.

In [10]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame 

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [11]:
print(frame.columns)
print(frame.index)
print(frame.values)

Index(['state', 'year', 'pop'], dtype='object')
RangeIndex(start=0, stop=6, step=1)
[['Ohio' 2000 1.5]
 ['Ohio' 2001 1.7]
 ['Ohio' 2002 3.6]
 ['Nevada' 2001 2.4]
 ['Nevada' 2002 2.9]
 ['Nevada' 2003 3.2]]


데이터와 컬럼, 인덱스를 따로 넘겨서 생성할 수도 있다.

(이 경우는 컬럼과 인덱스의 순서를 지정하는 것도 가능)

In [12]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],
                     index= ['one','two','three','four','five','six'])
frame2
# Series와 마찬가지로 매치되지 않으면 결측치 반환

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [13]:
# head 메서드를 사용하면 위에서부터 원하는만큼만 출력할 수 있다. 괄호 안은 5가 기본값임

frame2.head(3)

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,


In [14]:
# 당연하게도 원하는 컬럼이나 인덱스만 지정해서 출력시킬 수도 있다.

pd.DataFrame(data, columns = ['year','pop'])

Unnamed: 0,year,pop
0,2000,1.5
1,2001,1.7
2,2002,3.6
3,2001,2.4
4,2002,2.9
5,2003,3.2


In [15]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근한다.

print(frame2['state'])     
print('\n')
print(frame2.year)       # 둘 다 Series 타입으로 반환

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object


one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64


In [16]:
# 마찬가지 방법으로 값을 대입해 줄 수도 있다. 없는 컬럼에 값을 부여하면 새 컬럼이 추가됨

frame2.debt = np.arange(6.)     # 스칼라값, 배열, Series 등을 넣어줄 수 있다.
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


### 삭제, 전치, name

In [17]:
# del : 삭제

del frame2['debt']
frame2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


In [18]:
# 전치(로우와 컬럼을 뒤집음)

frame2.T

Unnamed: 0,one,two,three,four,five,six
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2


In [19]:
# Series처럼 컬럼과 로우에 각각 이름을 달아줄 수 있다.

frame2.index.name = 'number'; frame2.columns.name = 'attribute'
frame2

attribute,year,state,pop
number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


DataFrame 생성을 위해서 다음과 같은 데이터들이 사용된다.
- 2차원 ndarray, 배열, 리스트, 튜플, 사전, NumPy의 구조화 배열
- Series의 사전 : 각 값이 컬럼이 되고 명시적 색인을 넘겨주지 않으면 Series의 색인이 합쳐져 로우의 색인이 됨
- 사전의 사전 : 내부에 있는 사전이 컬럼이 된다.
- 사전이나 Series의 리스트, 리스트나 튜플의 리스트, 다른 DataFrame, NumPy MaskedArray

## 색인 객체
대충 이런 객체도 있다는 것만 알고 넘어가자

In [20]:
obj = pd.Series(range(3),index=['a','b','c'])
index = obj.index
index              # Index 객체

Index(['a', 'b', 'c'], dtype='object')

In [21]:
# Index 객체에서 다시 원하는 값을 찾는 것(색인)은 가능하나 다른 값을 대입하는 것은 불가능

index[1] = 'd'

TypeError: Index does not support mutable operations

# 핵심 기능
## 재색인
reindex 객체를 주로 이용, 새로운 색인에 맞도록 객체를 새로 생성한다.

In [22]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d','b','c','a']) 
obj2 = obj.reindex(['a','b','c','d','e'])

obj2      # 존재하지않는 색인값은 NaN

a    3.6
b    7.2
c   -5.3
d    4.5
e    NaN
dtype: float64

In [23]:
# method 옵션을 이용해 결측치를 해결할 수 있다. ffill : 직전의 값으로 채워넣는다.

obj3 = pd.Series(['Blue','Purple','Yellow'], index = [0,2,4])
obj3.reindex(range(6),method = 'ffill')

0      Blue
1      Blue
2    Purple
3    Purple
4    Yellow
5    Yellow
dtype: object

In [24]:
# DataFrame도 똑같음

frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns= ['Ohio','Texas','California'])
frame.reindex(['a','d'],['Texas','California'])   
# 이 방법은 모호하므로 선택할 index와 columns를 명시적으로 표시해줘야함

	'.reindex(a, b)' as 
	'.reindex(index=a, columns=b)'.
Use named arguments to remove any ambiguity. In the future, using positional arguments for 'index' or 'columns' will raise  a 'TypeError'.
  after removing the cwd from sys.path.


Unnamed: 0,Texas,California
a,1,2
d,7,8


재색인(reindex) 함수 인자
- index : 색인으로 사용활 순서
- method : 채움 메서드, ffill은 직전 값, bfill은 다음 값을 채워넣는다.
- fill_value :  재색인 과정 중 새롭게 나타나는 비어있는 데이터 채우기 위한 값
- limit, tolerance : 전/후 보간시 사용할 최대 갭 크기(limit은 채워넣을 원소 수, tolerance은 값의 차이)
- level : 다중색인의 경우 단계를 설정(따로 값을 주지 않으면 제일 하위집합에 맞춰짐)
- copy : True인 경우 새 색인이 이전 색인과 동일하더라고 데이터를 복사, False인 경우 새 색인이 이전 색인과 동일할 경우 복사하지 않음

## 로우나 컬럼 삭제
drop 메서드

In [25]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                 index = ['Seoul','Daejeon','Ulsan',"Busan"],columns = ['빵집','한식','중식','일식'])
data.drop('Seoul')   # axis가 따로 주어지지 않으면 해당 로우의 값 모두 삭제

Unnamed: 0,빵집,한식,중식,일식
Daejeon,4,5,6,7
Ulsan,8,9,10,11
Busan,12,13,14,15


In [26]:
data.drop(['빵집','일식'],axis = 1)  # axis를 1 혹은 'columns'로 하면 컬럼이 삭제된다. del은 데이터 자체를 바꿔버린다.

Unnamed: 0,한식,중식
Seoul,1,2
Daejeon,5,6
Ulsan,9,10
Busan,13,14


In [27]:
# inplace :  버려지는 값은 모두  삭제 (del처럼 data 자체가 변경됨)

data.drop(['빵집','중식'],axis = 1, inplace = True)
data

Unnamed: 0,한식,일식
Seoul,1,3
Daejeon,5,7
Ulsan,9,11
Busan,13,15


## 색인하기, 선택하기, 거르기
- Series의 색인은 NumPy 배열과 유사하나 정수가 아니어도 된다는 점이 다르다.

In [28]:
obj = pd.Series(np.arange(5.),index = ['a','b','c','d','e'])
obj['b']  ==  obj[1]     # 마찬가지로 배열이나 슬라이싱 문법을 줘서 여러 개를 반환시킬 수 있음

True

- DataFrame의 경우

In [29]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                 index = ['Seoul','Daejeon','Ulsan',"Busan"],columns = ['빵집','한식','중식','일식'])
data[['빵집','일식']]  # 컬럼 명을 통해 컬럼 색인하기, 로우명를 지정해서 색인하기 위해서는 다른 방법이 필요(loc,iloc)

Unnamed: 0,빵집,일식
Seoul,0,3
Daejeon,4,7
Ulsan,8,11
Busan,12,15


In [30]:
data[:2]  # 슬라이싱하는 경우에는 로우를 선택

Unnamed: 0,빵집,한식,중식,일식
Seoul,0,1,2,3
Daejeon,4,5,6,7


In [31]:
data[data['빵집'] >3] # 불리언 배열로도 로우 선택

Unnamed: 0,빵집,한식,중식,일식
Daejeon,4,5,6,7
Ulsan,8,9,10,11
Busan,12,13,14,15


In [32]:
# data<0 --> 불리언 배열 반환

data[data<7] = 0
data

Unnamed: 0,빵집,한식,중식,일식
Seoul,0,0,0,0
Daejeon,0,0,0,7
Ulsan,8,9,10,11
Busan,12,13,14,15


### loc와 iloc
- loc : 축 이름을 선택
- iloc :  정수 색인으로 선택

In [33]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                 index = ['Seoul','Daejeon','Ulsan',"Busan"],columns = ['빵집','한식','중식','일식'])
data

Unnamed: 0,빵집,한식,중식,일식
Seoul,0,1,2,3
Daejeon,4,5,6,7
Ulsan,8,9,10,11
Busan,12,13,14,15


In [34]:
# loc를 사용할 때는 로우 배열, 컬럼 배열 순으로 입력한다, 'Seoeul':'Ulsan'처럼 슬라이싱 문법도 가능하다
# 배열이 아니라 단일 값으로 입력할 경우 [] 여부에 따라 Series 혹은 DataFrame으로 반환된다.

# 컬럼 중에서만 선택하고 싶으면 df.loc[:,val]와 같은 방법 이용

data.loc[['Seoul','Ulsan'],['빵집','일식']]

Unnamed: 0,빵집,일식
Seoul,0,3
Ulsan,8,11


In [35]:
# iloc 역시 로우,컬럼 순, 슬라이싱 문법도 가능하다.
# 배열이 아니라 단일 값으로 입력할 경우 [] 여부에 따라 Series 혹은 DataFrame으로 반환된다.

data.iloc[[2,3],[0,3]]

Unnamed: 0,빵집,일식
Ulsan,8,11
Busan,12,15


In [36]:
data.iloc[:,:3][data.중식>5]       # 조건절과 중첩하여 사용하는 것도 가능하다.

Unnamed: 0,빵집,한식,중식
Daejeon,4,5,6
Ulsan,8,9,10
Busan,12,13,14


DataFrame의 값을 선택하는 방법
- df[val] : 하나 혹은 여러개의 컬럼을 선택, 슬라이스, 불리언 배열, 불리언 DataFrame 등을 넣어 사용할 수 있다,
- df.loc, df.iloc
- df.at[label_i,label_j] : 로우와 컬럼의 라벨로 단일 값을 선택(loc와의 차이점은 단일 값만 반환할 수 있다는 것)
- df.iat[i,j] : at과 마찬가지이지만 로우와 컬럼의 정수 색인으로 단일 값 선택
- reindex : 하나 이상의 축을 새로운 색인으로 맞춘다.(index=~ , columns=~ 이런 식으로)
- get_value, set_value 메서드 : 로우와 컬럼 이름으로 DataFrame의 값을 선택

## 정수 색인
라벨 색인이 0,1,2 등을 포함할 경우 라벨 색인으로 선택하려는 것인지 정수 색인으로 선택하려는 것인지 혼동될 수 있음.

예) ser[2] 

라벨 색인이 우선되나 loc, iloc로 구분해 주는 것이 좋음

## 산술연산과 데이터 정렬
- Series는 배열연산처럼 작동, 매치 되지 않는 인덱스의 경우 결측치로서 인덱스 추가된 형태로 반환
- DataFrame 역시 마찬가지

In [37]:
df1 = pd.DataFrame(np.arange(4).reshape((2,2)),index=['a','b'],columns=['e','f']2)),index=['a','b'],columns=['e','f'])
df2 = pd.DataFrame(np.arange(4).reshape((2,2)),index=['a','c'],columns=['e','g'])
df1 + df2

Unnamed: 0,e,f,g
a,0.0,,
b,,,
c,,,


### 산술 연산시 비어있는 값 채우기
산술 연산 메서드를 이용
- add/radd, sub/rsub
- div/rdiv : df1.div(df2)는 df1/df2와 같음, df1.rdiv(df2)는 df2/df1와 같음
- floordiv,rfloordiv : 소수점 내림(//) 연산을 위한 메서드
- mul/rmul
- pow/rpow : 멱승(**)을 위한 메서드

In [38]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),columns = list('abcde'))
df2.loc[1,'b']=np.nan
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [39]:
# 결측치를 여러 옵션으로 채울 수 있다.(위에 정리된 재색인 함수 인자들이 있으니 참고)

df1.add(df2,fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### DataFrame과 Series 간의 연산
다른 차원의 NumPy 연산(브로드캐스팅)처럼 DataFrame과 Series 간의 연산 역시 잘 정의되어 있다.

In [40]:
arr = np.arange(12.).reshape((3,4))
print(arr); print('\n')
print(arr[0]); print('\n')
print(arr-arr[0])           #브로드캐스팅

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]


[0. 1. 2. 3.]


[[0. 0. 0. 0.]
 [4. 4. 4. 4.]
 [8. 8. 8. 8.]]


In [41]:
frame = pd.DataFrame(np.arange(12).reshape((4,3)),
                        columns = list('abc'), index = ['ㄱ','ㄴ','ㄷ','ㄹ'])
frame

Unnamed: 0,a,b,c
ㄱ,0,1,2
ㄴ,3,4,5
ㄷ,6,7,8
ㄹ,9,10,11


In [42]:
series = frame.iloc[0]       # (혹은 series = pd.Series([0,1,2],index=['a','b','c'])로 그냥 써도 ok)
series

a    0
b    1
c    2
Name: ㄱ, dtype: int32

In [43]:
# 기본적으로 DataFrame과 Series 간의 산술 연산은 Series의 색인을 DataFrame의 컬럼에 맞추고 아래 로우로 전파한다.
# 아래는 컬럼을 기준으로 연산이 수행되었음

frame - series

Unnamed: 0,a,b,c
ㄱ,0,0,0
ㄴ,3,3,3
ㄷ,6,6,6
ㄹ,9,9,9


In [44]:
# 만약 색인값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 없다면 형식을 맞추기 위해 재색인된다.

series = pd.Series([0,1,2],index=['a','e','c'])
frame-series

Unnamed: 0,a,b,c,e
ㄱ,0.0,,0.0,
ㄴ,3.0,,3.0,
ㄷ,6.0,,6.0,
ㄹ,9.0,,9.0,


In [45]:
# 기본적으로 컬럼에 대해 연산이 적용되나 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드 이용

series = frame.loc[:,'c']
series

ㄱ     2
ㄴ     5
ㄷ     8
ㄹ    11
Name: c, dtype: int32

In [46]:
frame.sub(series,axis=0)   # (혹은 axis=’index’)  --> 이 경우에도 색인이 맞아야 오류가 나지 않음

Unnamed: 0,a,b,c
ㄱ,-2,-1,0
ㄴ,-2,-1,0
ㄷ,-2,-1,0
ㄹ,-2,-1,0


## 함수 적용과 매핑
pandas 객체에도 NumPy의 유니버설 함수를 적용할 수 있다.

In [47]:
frame = pd.DataFrame(np.arange(-6,6).reshape((4,3)),
                        columns = list('abc'), index = ['ㄱ','ㄴ','ㄷ','ㄹ'])
frame
np.abs(frame)

Unnamed: 0,a,b,c
ㄱ,6,5,4
ㄴ,3,2,1
ㄷ,0,1,2
ㄹ,3,4,5


### apply 메서드

In [48]:
f=lambda x:x.max()-x.min()
frame.apply(f)    # 각 컬럼을 기준으로 한 번씩 수행(세로 방향)

a    9
b    9
c    9
dtype: int64

In [49]:
frame.apply(f,axis ='columns')     # 로우에 대해서 한 번씩 수행(가로 방향)

# 'columns'를 입력한 것에 대해 헷갈릴 수 있는데 axis=0,1 과 관련하여 계산 방향을 생각하면 됨

ㄱ    2
ㄴ    2
ㄷ    2
ㄹ    2
dtype: int64

In [50]:
# apply 메서드에 전달된 함수는 꼭 스칼라값을 반환하지 않고 여러 값을 가진 Series를 반환해도 된다.

def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])
frame.apply(f,axis = 1)

Unnamed: 0,min,max
ㄱ,-6,-4
ㄴ,-3,-1
ㄷ,0,2
ㄹ,3,5


배열의 각 원소에 적용되는 함수 사용

In [51]:
# 실수값을 문자열 포맷으로 변경하기

format = lambda x: '%.2f' % x

# DataFrame에 대하여   (applymap 메서드 기억)
a = frame.applymap(format) 
print(type(a.iloc[1,2]))

# Series에 대하여
b = frame['c'].map(format)
print(type(b[2]))

<class 'str'>
<class 'str'>


## 정렬
- sort_index : 로우나 컬럼을 기준으로 정렬
- sort_values : Series의 경우 객체의 값을 기준으로 정렬, DataFrame의 경우 by 옵션으로 어떤 컬럼의 값을 기준으로 삼을지 정할 수 있음

예 sort_index)

obj : Series
- obj.sort_index()

frame : DataFrame
- frame.sort_index() : 로우를 기준으로 정렬, 기본적으로 오름차순
- frame.sort_index(axis=1) : 컬럼을 기준으로 정렬
- frame.sort_index(axis=1,ascending=False) : 내림차순 정렬도 가능  

정렬시 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치

sort_values의 예는 코드를 통해서

In [52]:
frame = pd.DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]})

frame.sort_values(by=['a','b'])  # 기준이 되는 컬럼: a 우선, 동일한 값이면 b를 기준으로 정렬

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


## 순위
1부터 배열의 유효한 데이터 개수까지 순서를 매긴다.

In [53]:
# Series와 DataFrame의 rank메서드는 기본적으로 동점인 항목에 대해 평균 순위를 매긴다.
# rank 메서드는 정렬 기능까지 제공하지는 않는다.

obj = pd.Series([7,-5,7,4,2,0,4])
obj.rank().sort_values()

1    1.0
5    2.0
4    3.0
3    4.5
6    4.5
0    6.5
2    6.5
dtype: float64

### 동점을 처리하는 방법들
- obj.rank(method='first') : 데이터 내 위치에 따라 순위 매김 (이하 적용방법은 똑같음)
- average : 기본값. 같은 값을 가지는 항목들의 평균값을 순위로 삼는다.
- min/max : 같은 값을 가지는 그룹을 낮은 순위/높은 순위로 매긴다.
- dense : method='min'과 같지만 같은 순위를 적용하지 않고 1씩 증가시킨다.(1등이 3명이면 그 다음 점수가 4등이 아닌 2등이라는 얘기임)

## 중복색인
색인 값은 반드시 유일할 필요는 없음

중복된 색인을 이용하면 중복된 값이 모두 출력됨

# 기술 통계 계산과 요약
예를 직접 코드로 확인하자.

In [54]:
df= pd.DataFrame([[1.4, np.nan],[7.1,-4.5],[np.nan, np.nan],[0.75,-1.3]],
                     index=['a','b','c','d'],columns=['one','two'])
df.sum()

one    9.25
two   -5.80
dtype: float64

In [55]:
df.mean(axis=1,skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

### 축소 메서드 옵션
- axis
- skipna : 누락된 값을 제외할 것인지 정하는 옵션, 기본값은 True
- level : 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

### 요약 통계 관련 메서드
- count : 결측치를 제외한 값의 수를 반환
- decribe : 각 컬럼에 대한 요약 통계를 계산한다.
- idmin, idmax : 각각 최소값과 최대값을 담고 있는 색인의 값을 반환한다.
- prod : 모든 값의 곱
- mad : 평균값에서 평균절대편차를 계산한다.
- skew : 3차 적률
- kurt : 4차 적률
- diff : 1차 산술차를 계산(시계열 데이터 처리 시 유용함)
- pct_change : 퍼센트 변화율을 계산한다.
- min, max, argmin, argmax, sum, mean, median, var,std, cumsum. cummin, cummax, cumprod

## 유일값, 값 세기, 멤버십
Series에 담긴 값의 정보를 추출하는 메서드 

In [56]:
# unique 메서드는 중복 값을 제거한 Sdeeries 반환

obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique()
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

In [57]:
# value_counts 메서드는 Series에서 도수(frequency)를 계산하여 반환한다.
# pd.value_counts(obj)로 써도 마찬가지

obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [58]:
# isin메서드는 Series의 각 원소가 넘겨받은 값 들을 속하는지 나타내는 불리언 배열 반환, DataFrame에도 적용가능

mask = obj.isin(['b','c'])  
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [59]:
# Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있다.

matching = pd.Series(['c','a','b','b','c','a'])
unique_val = pd.Series(['c','b','a'])
pd.Index(unique_val).get_indexer(matching)

# matching의 원소들은 각각 unique_val 배열의 몇 번째에 위치하고 있는가

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [60]:
# value_counts는 DataFrame에는 적용하지 못하지만 apply메서드를 사용하면 컬럼별로 적용된 결과를 볼 수 있다.

data = pd.DataFrame({'Qu1':[1,3,4,3,4],'Qu2':[22,3,1,2,3],'Qu3':[1,5,2,4,4]})
data.apply(pd.value_counts).fillna(0)

# 깔끔한 모양의 결과는 아니지만 data.apply(pd.value_counts,axis=1)처럼 aixs를 설정하는 것도 가능하다

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,1.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
22,0.0,1.0,0.0


## 상관관계와 공분산
상관관계와 공분산은 두 쌍의 인자를 필요로 한다.

pandas-datareader 패키지를 이용해서 야후! 금융 사이트에서 구한 주식가격과 시가총액을 담고 있는 DataFrame을 생각하자.

conda를 이용하여 pandas-datareader 모듈을 설치하였음
- conda install pandas-datareader

In [61]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
           for ticker in ['AAPL','IBM','MSFT','GOOG']}
price = pd.DataFrame({ticker:data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker:data['Volume']
                      for ticker, data in all_data.items()})

In [62]:
# 각 주식의 퍼센트 변화율

returns = price.pct_change()
returns.tail()         # tail은 큰 DataFrame의 마지막 로우 부근을 보여줌

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-02-19,0.014483,-0.001588,0.002999,0.004619
2020-02-20,-0.010259,0.002386,-0.015271,-0.005594
2020-02-21,-0.022635,-0.009126,-0.031613,-0.021763
2020-02-24,-0.0475,-0.022758,-0.043115,-0.042771
2020-02-25,-0.033872,-0.032234,-0.016502,-0.023312


#### corr : 상관관계 계산

#### cov :  공분산 계산

In [63]:
# 두 개의 Series간 계산

returns['MSFT'].corr(returns['IBM'])

# 위에서 이미 다뤘듯 returns.MSFT.corr(returns.IBM)와 똑같음

0.47122686094163335

In [64]:
returns['MSFT'].cov(returns['IBM'])

8.954650148230676e-05

In [65]:
# DataFrame에서 corr과 cov 메서드는 상관관계와 공분산을 계산해준다.

returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.394182,0.589381,0.541601
IBM,0.394182,1.0,0.471227,0.411059
MSFT,0.589381,0.471227,1.0,0.676188
GOOG,0.541601,0.411059,0.676188,1.0


In [66]:
returns.cov()

# 당연하게도 둘다 대칭행렬이다.

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000244,8.1e-05,0.000134,0.000128
IBM,8.1e-05,0.000171,9e-05,8.1e-05
MSFT,0.000134,9e-05,0.000211,0.000149
GOOG,0.000128,8.1e-05,0.000149,0.000229


#### corrwith : 다른 Series나 DataFrame과의 상관관계를 계산한다.

In [67]:
returns.corrwith(returns.IBM)

AAPL    0.394182
IBM     1.000000
MSFT    0.471227
GOOG    0.411059
dtype: float64

In [68]:
# DataFrame을 넘기면 맞아떨어지는 컬럼 이름에 대한 상관관계를 계산한다.
# = returns.AAPL과 volume.AAPL, returns.IBM과 volume.IBM....간의 상관관계 반환

returns.corrwith(volume)
# 마찬가지로 axis 옵션을 줄 수 있다.

AAPL   -0.156945
IBM    -0.086598
MSFT   -0.041887
GOOG   -0.023240
dtype: float64