판다스 기초

In [1]:
import pandas as pd

# Pandas의 자료구조 소계

## Series
- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다.
- 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [3]:
obj = pd.Series([1,2,3,4])
obj

0    1
1    2
2    3
3    4
dtype: int64

왼쪽에 색인, 오른쪽에 값을 보여준다.

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
obj.values

array([1, 2, 3, 4], dtype=int64)

색인을 지정할 수 도 있다.

In [7]:
obj2 = pd.Series([1,2,3,4], index=['a','b','c','d'])
obj2

a    1
b    2
c    3
d    4
dtype: int64

색인을 라벨로 사용할 수 있다.

In [8]:
obj2['a']

1

In [10]:
obj2['b']=9
obj2

a    1
b    9
c    3
d    4
dtype: int64

In [13]:
obj2[['c','a','b']]

c    3
a    1
b    9
dtype: int64

Numpy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [15]:
obj2[obj2>2]

b    9
c    3
d    4
dtype: int64

In [16]:
obj2*2

a     2
b    18
c     6
d     8
dtype: int64

In [19]:
np.exp(obj2)

a       2.718282
b    8103.083928
c      20.085537
d      54.598150
dtype: float64

사전형을 대체하여 사용할 수 있다.

In [20]:
'b' in obj2

True

In [21]:
'e' in obj2

False

In [22]:
sdata = {'Ohio':3000, 'Texas':2000, 'Oregon':2344, 'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio      3000
Texas     2000
Oregon    2344
Utah      5000
dtype: int64

색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넣어줄 수도 있다.

In [24]:
states = ['California', 'Ohio','Oregon','Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California       NaN
Ohio          3000.0
Oregon        2344.0
Texas         2000.0
dtype: float64

isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.

In [25]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [26]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [27]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Series의 유요한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.  
join 연산과 비슷하다.

In [29]:
obj3 + obj4

California       NaN
Ohio          6000.0
Oregon        4688.0
Texas         4000.0
Utah             NaN
dtype: float64

name속성

In [31]:
obj4.name = 'popular'
obj4.index.name = 'state'
obj4

state
California       NaN
Ohio          3000.0
Oregon        2344.0
Texas         2000.0
Name: popular, dtype: float64

Series의 색인은 변경할 수 있다.

In [33]:
obj.index = ['a','b','c','d']
obj

a    1
b    2
c    3
d    4
dtype: int64

## DataFrame 
- 표 같은 스프레드시트 형식의 자료구조이다.
- 각 컬럼은 서로 다른 종류의 값을 담을 수 있다.
- 로우와 컬럼에 대한 색인을 가지고 있다.

In [51]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
       'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data, columns=['state','year','pop','dept'], index=['a','b','c','d','e','f'])
frame

Unnamed: 0,state,year,pop,dept
a,Ohio,2000,1.5,
b,Ohio,2001,1.7,
c,Ohio,2002,3.6,
d,Nevada,2001,2.4,
e,Nevada,2002,2.9,
f,Nevada,2003,3.2,


원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [52]:
pd.DataFrame(data, columns=['year','state','pop']).head(3)

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6


사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.

In [53]:
frame['state']

a      Ohio
b      Ohio
c      Ohio
d    Nevada
e    Nevada
f    Nevada
Name: state, dtype: object

In [54]:
frame.year

a    2000
b    2001
c    2002
d    2001
e    2002
f    2003
Name: year, dtype: int64

로우의 위치나 loc 속성을 이용해 접근할 수 있다.

In [55]:
frame.loc['a']

state    Ohio
year     2000
pop       1.5
dept      NaN
Name: a, dtype: object

DataFrame에 Series를 대입하면 색인 값에 따라 대입된다.

In [57]:
val = pd.Series([8,6,3,4], index=['b','a','d','f'])
frame['dept']=val
frame

Unnamed: 0,state,year,pop,dept
a,Ohio,2000,1.5,6.0
b,Ohio,2001,1.7,8.0
c,Ohio,2002,3.6,
d,Nevada,2001,2.4,3.0
e,Nevada,2002,2.9,
f,Nevada,2003,3.2,4.0


존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다.

In [63]:
frame['eastern']= frame.state=='Ohio'
frame

Unnamed: 0,state,year,pop,dept,eastern
a,Ohio,2000,1.5,6.0,True
b,Ohio,2001,1.7,8.0,True
c,Ohio,2002,3.6,,True
d,Nevada,2001,2.4,3.0,False
e,Nevada,2002,2.9,,False
f,Nevada,2003,3.2,4.0,False


del 예약어를 이용해서 컬럼을 삭제 할 수 있다.

In [64]:
del frame['eastern']
frame.columns

Index(['state', 'year', 'pop', 'dept'], dtype='object')

중첩된 사전을 이용해서 데이터를 생성할 수 있다.

In [66]:
pop = {'Nevada':{2001:2.4, 2002:2.9},
      'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame2 = pd.DataFrame(pop)
frame2

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


전치도 할 수 있다.

In [67]:
frame2.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


색인을 지정할 수 있다.

In [68]:
pd.DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [70]:
frame2.index.name='year'
frame2.columns.name='state'
frame2

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


values 속성은 2차원 배열로 반환한다.

In [71]:
frame2.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [72]:
frame.values

array([['Ohio', 2000, 1.5, 6.0],
       ['Ohio', 2001, 1.7, 8.0],
       ['Ohio', 2002, 3.6, nan],
       ['Nevada', 2001, 2.4, 3.0],
       ['Nevada', 2002, 2.9, nan],
       ['Nevada', 2003, 3.2, 4.0]], dtype=object)

| 형  |  설명|
|--------------------|-----------------|
| 2차원 ndarray | 데이터를 담고 있는 행렬|
|배열, 리스트, 튜플의 사전| 모든 항목은 같은 길이를 가져야 한다.|
| Numpy의 구조화 배열 | 배열의 사전과 같은 방식으로 취급|
|Series의 사전 | 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 로우의 색인이 된다.|
|사전의 사전 | 내부에 있는 사전이 컬럼이 된다.|
| 사전이나 Series의 리스트 | 각 항목이 로우가 된다.|
| 리시트나 튜플의 리스트 | '2차원 ndarray'와 같은 방식으로 취급된다.|
|다른 DataFrame | 색인을 지정하지 않으면 색인이 그대로 사용된다.|

## 색인 객체
- 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터를 저장하는 객체이다.

In [75]:
obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [76]:
index[1:]

Index(['b', 'c'], dtype='object')

색인 객체는 변경이 불가능하다.

In [None]:
index[1]='d' #TypeError 발생

In [78]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [81]:
obj2 = pd.Series([8,3,7], index=labels)
obj2

0    8
1    3
2    7
dtype: int64

In [83]:
obj2.index is labels

True

파이썬의 집합과 달리 pandas의 인덱스는 중복되는 값을 허용한다.

In [85]:
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

### 색인 메서드와 속성

#### append
- 추가적인 색인 객체를 덧붙여 새로운 색인을 반환한다.

In [96]:
index1 = pd.Index(['a','b','c','d'])
index2 = pd.Index(['c','d','e','f'])
index1.append(index2)

Index(['a', 'b', 'c', 'd', 'c', 'd', 'e', 'f'], dtype='object')

#### difference
- 색인의 차집합

In [97]:
index1.difference(index2)

Index(['a', 'b'], dtype='object')

#### intersection
- 색인의 교집합

In [98]:
index1.intersection(index2)

Index(['c', 'd'], dtype='object')

#### union
- 색인의 합집합

In [99]:
index1.union(index2)

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

#### isin
- 색인에 존재하는지 알려주는 불리언 배열을 반환.

In [102]:
index1.isin(index2)

array([False, False,  True,  True])

#### delete
- 위치의 색인이 삭제된 후 색인을 반환한다.

In [108]:
index1.delete(1)

Index(['a', 'c', 'd'], dtype='object')

#### drop
- 넘겨받은 값이 삭제된 후 색인을 반환한다.

In [112]:
index1.drop('b')

Index(['a', 'c', 'd'], dtype='object')

#### insert
- 추가 후 색인을 반환한다.

In [113]:
index1.insert(3, 'f')

Index(['a', 'b', 'c', 'f', 'd'], dtype='object')

#### is_monotonic
- 색인이 단조성을 가진다면 True를 반환한다.

In [116]:
index1.is_monotonic

True

In [117]:
index2 = pd.Index(['d','q','h','z'])
index2.is_monotonic

False

#### is_unique
- 중복된 색인이 있는지

In [128]:
index1.is_unique

True

In [129]:
index2 = pd.Index(['d','q','h','z','z'])
index2.is_unique

False

#### unique
- 중복되는 요소를 제거한다.

In [133]:
index2.unique()

Index(['d', 'q', 'h', 'z'], dtype='object')

<br>
<br>

# 핵심 기능

## 재색인
- reindex, 새로운 색인에 맞도록 객체를 새로 생성한다.

In [4]:
obj = pd.Series([4,5,6,7], index = ['d','b','a','c'])
obj

d    4
b    5
a    6
c    7
dtype: int64

In [5]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a    6.0
b    5.0
c    7.0
d    4.0
e    NaN
dtype: float64

ffill 누락된 값을 직전의 값으로 채워 넣는다.

In [8]:
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [11]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','b'],
                    columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
b,6,7,8


DataFrame에 대한 reindex는 컬럼, 로우 둘 다 변경 가능하다.  
그냥 순서만 넘기면 로우가 재색인된다.

In [13]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,6.0,7.0,8.0
c,3.0,4.0,5.0
d,,,


In [19]:
states = ['Texas','Utha','California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utha,California
a,1,,2
c,4,,5
b,7,,8


### index
- 색인으로 사용할 새로운 순서

In [38]:
frame.reindex(index=['a','b','c'])

Unnamed: 0,Ohio,Texas,California
a,6,7,8
b,3,4,5
c,0,1,2


### method
- ffill은 직전 값, bfill은 다음 값을 채워 넣는다.

In [128]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','e'],
                    columns=['Ohio','Texas','California'])

In [46]:
frame.reindex(['a','b','c','d','e','f'])

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,,,
e,6.0,7.0,8.0
f,,,


In [47]:
frame.reindex(['a','b','c','d','e','f'],method='ffill')

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,0,1,2
c,3,4,5
d,3,4,5
e,6,7,8
f,6,7,8


In [48]:
frame.reindex(['a','b','c','d','e','f'],method='bfill')

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,3.0,4.0,5.0
d,6.0,7.0,8.0
e,6.0,7.0,8.0
f,,,


### fill_value
- 비어 있는 데이터를 채운다.

In [50]:
frame.reindex(['a','b','c','d','e','f'],fill_value=99)

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,99,99,99
c,3,4,5
d,99,99,99
e,6,7,8
f,99,99,99


### limit
- method 로 변경할 값을 제한한다.

In [67]:
frame.reindex(['f','g','h'],method='ffill')

Unnamed: 0,Ohio,Texas,California
f,6,7,8
g,6,7,8
h,6,7,8


In [132]:
frame.reindex(['f','g','h'],method='ffill', limit=2)

Unnamed: 0,Ohio,Texas,California
f,6.0,7.0,8.0
g,6.0,7.0,8.0
h,,,


### tolerance
- |변경 전 인덱스 - 변경 후 인덱스| $\le$ tolerance 를 만족하는 범위를 채운다.

In [133]:
frame.index = [1,6,10]
frame

Unnamed: 0,Ohio,Texas,California
1,0,1,2
6,3,4,5
10,6,7,8


In [135]:
frame.reindex(index = [2,9,15],method='ffill',tolerance=5)

Unnamed: 0,Ohio,Texas,California
2,0,1,2
9,3,4,5
15,6,7,8


In [142]:
frame.reindex(index = [1,2,6,9,10,15],method='ffill',tolerance=3)

Unnamed: 0,Ohio,Texas,California
1,0.0,1.0,2.0
2,0.0,1.0,2.0
6,3.0,4.0,5.0
9,3.0,4.0,5.0
10,6.0,7.0,8.0
15,,,


## 하나의 로우나 컬럼 삭제하기

In [181]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [183]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [184]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [185]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

DataFrame에서는 로우와 컬럼 모두 삭제 할 수 있다.

In [202]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [189]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


컬럼 값을 삭제할 떄는 axis=1 또는 axis='columns'

In [190]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


inplace 옵션을 사용하는 경우 버려지는 값을 모두 삭제한다.

In [203]:
data.drop(['Ohio','Colorado'], inplace=True)

In [204]:
data

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


## 색인하기, 선택하기, 거르기

In [206]:
obj = pd.Series(np.arange(4.), index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [207]:
obj['b']

1.0

In [208]:
obj[1]

1.0

In [209]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [211]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [212]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [213]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다.

In [214]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [216]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [217]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [218]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [219]:
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [220]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [222]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [223]:
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [225]:
data[data<5]=0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### loc과 iloc으로 선택하기

In [226]:
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

In [228]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [230]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [231]:
data.loc[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [232]:
data.iloc[:, :3][data.three>5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### 정수 색인

In [None]:
ser = pd.Series(np.arange(3.))
ser[-1] #key Error

정수 색은 가능.

In [238]:
ser2 = pd.Series(np.arange(3.), index=['a','b','c'])
ser2[-1]

2.0

라벨에 대해선 loc 정수 색인에 대해선 iloc

In [244]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [242]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [243]:
ser.iloc[:1]

0    0.0
dtype: float64

### 산술 연산과 데이터 정렬

In [245]:
s1 = pd.Series([7, 2, 3, 1], index=['a','c','d','e'])
s2 = pd.Series([2,3,1,4,3], index=['a','c','e','f','g'])

In [246]:
s1

a    7
c    2
d    3
e    1
dtype: int64

In [247]:
s2

a    2
c    3
e    1
f    4
g    3
dtype: int64

In [248]:
s1+s2

a    9.0
c    5.0
d    NaN
e    2.0
f    NaN
g    NaN
dtype: float64

서로 겹치지 않는 색인은 NA갑이 된다.

In [249]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'),
                  index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'),
                  index=['Utah','Ohio','Texas','Oregon'])

In [250]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [251]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [252]:
df1 +df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


### 산술 연산 메서드에 채워 넣을 값 지정하기

In [253]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),
                  columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),
                  columns=list('abcde'))

In [254]:
df2.loc[1,'b']= np.nan

In [255]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [256]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [257]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


fill_value 값으로 빈공간을 매꾼다.

In [258]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [259]:
1/df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [261]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


재색인할 때도 fill_value를 사용할 수 있다.

In [262]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


|메서드 | 설명|
|------------|-------------|
|add, radd | 덧셈 +|
|sub, rsub | 뺼셈 -|
|div, rdiv | 나눗셈 /|
|floordiv, rfloordiv | 소수점 내림 //|
|mul, rmul | 곱셈 * |
|pow, rpow | 멱승 ** |

### DataFrame과 Series 간의 연산

In [263]:
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [264]:
arr[0]

array([0., 1., 2., 3.])

In [265]:
arr- arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

각 로우에 대해 한 번씩만 수행된다. 이를 **브로드캐스팅**이라고 한다.

In [266]:
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                    columns=list('bde'),
                    index=['Utah','Ohio','Texas','Oregon'])
series = frame.iloc[0]

In [267]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [268]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [269]:
frame-series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


만약 색인값을 찾을 수 없다면 재색인 된다.

In [271]:
series2 = pd.Series(range(3), index=['b','e','f'])
frame+series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


만약 로우에 대한 연산을 수행하고 싶다면 산술 연산 메서드를 사용한다.

In [275]:
series3 =frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [274]:
frame.sub(series3,axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 함수 적용과 매핑

In [276]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                    index=['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.082036,-0.108722,-0.183318
Ohio,0.998118,0.801369,0.973664
Texas,1.817274,-0.286201,0.264681
Oregon,0.957882,-0.449296,-0.61149


In [277]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.082036,0.108722,0.183318
Ohio,0.998118,0.801369,0.973664
Texas,1.817274,0.286201,0.264681
Oregon,0.957882,0.449296,0.61149


In [278]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.899310
d    1.250665
e    1.585154
dtype: float64

In [279]:
frame.apply(f, axis='columns')

Utah      0.101282
Ohio      0.196749
Texas     2.103475
Oregon    1.569372
dtype: float64

In [280]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

In [281]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.082036,-0.449296,-0.61149
max,1.817274,0.801369,0.973664


각 원소에 적용되는 파이썬 함수 사용가능.

In [282]:
format = lambda x: '%.2f' % x

In [283]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.08,-0.11,-0.18
Ohio,1.0,0.8,0.97
Texas,1.82,-0.29,0.26
Oregon,0.96,-0.45,-0.61


이름이 applymap인 이유는 Series는 각 원소에 적용할 함수를 지정하기 위한 map메서드를 가지고 있기 때문이다.

In [284]:
frame['e'].map(format)

Utah      -0.18
Ohio       0.97
Texas      0.26
Oregon    -0.61
Name: e, dtype: object

### 정렬과 순위

In [285]:
obj = pd.Series(range(4), index=['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [286]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=['three','one'],
                    columns=list('dabc'))
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [287]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


기본적으로 오름차순으로 정렬된다.

In [289]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Series 객체를 값에 따라 정렬하려면

In [290]:
obj = pd.Series([4,7,-3,2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [291]:
obj = pd.Series([4,np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [293]:
frame =  pd.DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [294]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [295]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


순위는 1부터 순서를 매긴다.

In [298]:
obj = pd.Series([7,5,-3,2,4,0,1,4])
obj.rank()

0    8.0
1    7.0
2    1.0
3    4.0
4    5.5
5    2.0
6    3.0
7    5.5
dtype: float64

동점에 대해 순서에 따라 순위를 매긴다.

In [299]:
obj.rank(method='first')

0    8.0
1    7.0
2    1.0
3    4.0
4    5.0
5    2.0
6    3.0
7    6.0
dtype: float64

내림차순으로 순위를 매긴다.

In [300]:
obj.rank(ascending=False, method='max')

0    1.0
1    2.0
2    8.0
3    5.0
4    4.0
5    7.0
6    6.0
7    4.0
dtype: float64

In [303]:
frame = pd.DataFrame({'b':[4,3,7,1],'a':[0,1,0,1],'c':[3,7,6,1]})
frame

Unnamed: 0,b,a,c
0,4,0,3
1,3,1,7
2,7,0,6
3,1,1,1


In [304]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,1.0,2.0
1,2.0,1.0,3.0
2,3.0,1.0,2.0
3,2.0,2.0,2.0


순위의 동률을 처리하는 메서드

|메서드 | 설명|
|-----------|---------------|
|'average' | 기본값, 평균값 순위|
|'min' | 같은 값 낮은 순위 |
|'max' | 같은 값 높은 순위|
|'first' | 위치에 따라 |
|'dense' | min과 같지만 1씩 증가시킨다. |

### 중복 색인

In [2]:
obj = pd.Series(range(5), index=['a','a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

is_unique : 해당 값이 유일한지 알려준다.

In [3]:
obj.index.is_unique

False

In [4]:
obj['a'] #중복 색인일 경우 Series객체를 반환

a    0
a    1
dtype: int64

In [6]:
obj['c'] #중복 색이이 없을 경우 스칼라 값 반환.

4

In [7]:
df = pd.DataFrame(np.random.randn(4,3), index=['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,-0.28798,0.122849,2.012898
a,-0.075184,-1.247516,-0.102708
b,-0.228617,-1.00513,-0.488823
b,0.235485,-0.489207,1.052314


In [9]:
df.loc['b'] #데이터프레임도 같다.

Unnamed: 0,0,1,2
b,-0.228617,-1.00513,-0.488823
b,0.235485,-0.489207,1.052314


### 기술 통계 계산과 요약 
처음부터 누락된 데이터를 제외하도록 설계되었다.

In [11]:
df = pd.DataFrame([[1.4, np.nan],[7,-4],
                  [np.nan, np.nan],[0.75, -1]],
                 index = ['a','b','c','d'],
                 columns=['one','two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.0,-4.0
c,,
d,0.75,-1.0


In [12]:
df.sum()

one    9.15
two   -5.00
dtype: float64

In [13]:
df.sum(axis=1)

a    1.40
b    3.00
c    0.00
d   -0.25
dtype: float64

In [15]:
df.mean(axis=1,skipna=True)

a    1.400
b    1.500
c      NaN
d   -0.125
dtype: float64

In [14]:
df.mean(axis=1,skipna=False) #누락된 값을 제외할 것인가?

a      NaN
b    1.500
c      NaN
d   -0.125
dtype: float64

In [16]:
df.idxmax() #최대값을 가지고 있는 색인

one    b
two    d
dtype: object

In [17]:
df.cumsum() #누산

Unnamed: 0,one,two
a,1.4,
b,8.4,-4.0
c,,
d,9.15,-5.0


In [18]:
df.describe() #여러 개의 통계 결과를 만든다.

Unnamed: 0,one,two
count,3.0,2.0
mean,3.05,-2.5
std,3.436204,2.12132
min,0.75,-4.0
25%,1.075,-3.25
50%,1.4,-2.5
75%,4.2,-1.75
max,7.0,-1.0


수치 데이터가 아닐 경우 다른 요약 통계를 생성한다.

In [19]:
obj = pd.Series(['a','a','b','c'] *4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

| 메서드 | 설명 |
|---------------------|-----------------------|
|count | NA 값을 제외한 값의 수를 반환.| 
| describe | 요약 통계를 계산.|
| min, max | 최솟값, 최댓값 |
| argmin, argmax | 최솟값, 최댓값을 담고 있는 색인의 위치를 반환.|
|idxmin, idxmax | 최솟값, 최대값을 담고 있는 색인의 값을 반환.|
|quantile | 0부터 1까지의 분위수를 계산한다. |
|sum | 합|
|mean | 평균 |
|median | 중간값 |
| mad | 평균값에서 평균절대편차를 계산 |
|prod | 모든 값의 곱|
|var | 표본분산 |
|std | 표준편차 |
| skew | 표본비대칭정도(3차적률) |
|kurt | 포본첨도(4차 적률) |
|cumsum | 누적합 |
|cummin, cummax | 누적 최솟값, 최댓값 |
|cumprod | 누적곱 |
|diff | 1차 산술치 계산 (시계열 데이터 처리 시 유용)|
|pct_change | 퍼센트 변화율을 계산 |

#### 상관관계와 공분산
따로 해야함.

In [6]:
web.get_data_yahoo?

####  유일값, 값 세기, 멤버십

In [13]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])

In [15]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [18]:
obj.value_counts() #기본적으로 내림차순 정렬을 한다.

c    3
a    3
b    2
d    1
dtype: int64

In [21]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [22]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [24]:
mask = obj.isin(['b','c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [25]:
obj[mask] #값을 골라낼 때 좋다.

0    c
5    b
6    b
7    c
8    c
dtype: object

In [26]:
to_match = pd.Series(['c','a','b','b','c','a'])

In [29]:
uniques_vals = pd.Series(['c','b','a'])

In [30]:
pd.Index(uniques_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

| 메서드 | 설명 |
|--------------------- |--------------------|
|isin | 값에 속하는지 나타내는 불리언 배열을 반환 |
|match | 유일한 값을 담고 있는 배열에서의 정수 색인을 반환 |
|unique | 중복 값을 제거하고 유일한값만 포함하는 배열을 반환 |
|value_counts | 유일한 값에 대한 색인과 도수를 계산 |  

match 빼고 나머지는 Series에서

데이터프레임의 여러 컬럼에 대해 히스토 그램을 구해야 하는 경우

In [31]:
data = pd.DataFrame({'Qu1': [1,3,4,3,4],
                    'Qu2':[2,3,1,2,3],
                    'Qu3': [1,5,2,4,4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [32]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


결괏값의 로우 라벨은 전체 컬럼의 유일한 값들을 담고 있다.  
각 값은 각 컬럼에서 해당 값이 몇 번 출현했는지 나타낸다.