# Pandas
## Series
- 데이터 테이블: 정형화된 데이터의 모습, 인덱스, feature 갖고 있음
- Series: 일련의 객체를 담을 수 있는 1차원 배열, array, index, dtype 속성을 통해 확인 가능

In [113]:
import pandas as pd
personal_info = pd.Series(index=["name", "gender", "age"])

- name 속성
- 색인 교체, 데이터 추가는 dictionary와 비슷하게 가능

## DataFrame 생성

In [114]:
from pandas import Series, DataFrame

In [115]:
# 동일한 길이의 리스트가 value로 담긴 딕셔너리 -> DataFrame으로 생성 가능
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada", ],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

# data를 데이터프레임으로 변환
frame = DataFrame(data)

In [116]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## head(), tail()

- head(): 상위 5개 인덱스의 데이터를 보여줌
- tail(): 하위 5개 인덱스의 데이터를 보여줌

In [117]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9


In [118]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## Feature 선택적으로 생성

In [119]:
DataFrame(data, columns=["year", "state"])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2003,Nevada
4,2004,Nevada
5,2005,Nevada


## 없는 Feature 선택 시 결측치로 생성

In [120]:
# data 딕셔너리에 debt 키는 없기 때문에 결측치(NaN)로 생성됨
frame2 = DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,
5,2005,Nevada,3.2,


## Feature 확인, Feature별 데이터 호출

In [121]:
# index를 마음대로 변경 가능, 하지만 함부로 바꾸면 data가 망가지기 때문에 최대한 하지 않는 것이 좋음
# 각 샘플 호출
frame2.index

RangeIndex(start=0, stop=6, step=1)

In [122]:
# 각 feature 이름
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [123]:
# DataFrame에서 특정 column 호출 -> Series 객체
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [124]:
frame2.year

0    2000
1    2001
2    2002
3    2003
4    2004
5    2005
Name: year, dtype: int64

## 특정 Feature 데이터는 Series 객체

In [125]:
type(frame2)

pandas.core.frame.DataFrame

In [126]:
type(frame2["year"])

pandas.core.series.Series

# Feature 수정

In [127]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


In [128]:
frame["debt"] = 16.5
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,16.5
1,Ohio,2001,1.7,16.5
2,Ohio,2002,3.6,16.5
3,Nevada,2003,2.4,16.5
4,Nevada,2004,2.9,16.5
5,Nevada,2005,3.2,16.5


In [129]:
frame["state"] == "Ohio"

0     True
1     True
2     True
3    False
4    False
5    False
Name: state, dtype: bool

In [130]:
frame["eastern"] = frame["state"] == "Ohio"
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,16.5,True
1,Ohio,2001,1.7,16.5,True
2,Ohio,2002,3.6,16.5,True
3,Nevada,2003,2.4,16.5,False
4,Nevada,2004,2.9,16.5,False
5,Nevada,2005,3.2,16.5,False


In [131]:
val = Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
# val = Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame["debt"] = val # 해당 index가 없기 때문에 debt의 값이 결측치로 처리
frame

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,,True
1,Ohio,2001,1.7,,True
2,Ohio,2002,3.6,,True
3,Nevada,2003,2.4,,False
4,Nevada,2004,2.9,,False
5,Nevada,2005,3.2,,False


## Feature 삭제

In [132]:
del frame["eastern"]
frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,
3,Nevada,2003,2.4,
4,Nevada,2004,2.9,
5,Nevada,2005,3.2,


In [133]:
frame.pop("debt")

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
Name: debt, dtype: float64

In [134]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


# 중첩 딕셔너리 활용 DataFrame 생성
## 동일한 길이로 value가 이루어진 딕셔너리 -> DataFrame
### 결측치 X

In [135]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada", ],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


## 딕셔너리 리스트 -> DataFrame
### 같은 길이의 리스트를 가질 필요가 없음
- 각 딕셔너리가 샘플이 됨
- 키의 합집합이 feature 이름(결측치 생성 가능성)

In [136]:
data1 = {"state": "Ohio",
         "year": 2000,
         "pop": 1.5}
data2 = {"state": "Mass",
         "year": 2000,
         "GDP": 1.8}
data3 = {"year": 2011,
         "pop": 1.1}

In [137]:
DataFrame([data1, data2, data3])

Unnamed: 0,state,year,pop,GDP
0,Ohio,2000,1.5,
1,Mass,2000,,1.8
2,,2011,1.1,


## 딕셔너리들의 딕셔너리 -> DataFrame
### index 이름 지정 가능
- 바깥쪽 키가 feature 이름
- 안쪽 키의 합집합이 index(결측치 생성 가능성)

In [138]:
# 외부 딕셔너리의 키가 feature 이름
# 내부 딕셔너리에서 키의 합집합이 index가 됨
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}

In [139]:
frame3 = DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


## name 속성
- index name과 feature(columns) name 속성

In [140]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [141]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

## Reindex(재색인)
### 기존 색인-feature 관계 유지, 새롭게 색인
### 순서나 원하는 데이터만 뽑아서 reindex

In [142]:
obj = Series([4.5, 7.2, -5.3, -3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c   -3.6
dtype: float64

In [143]:
obj.index = ["a", "b", "c", "d"]
obj     # 원래 index-feature 사이의 관계가 깨짐(index 새로 assign)

a    4.5
b    7.2
c   -5.3
d   -3.6
dtype: float64

### reindex는 기존 index-feature 사이 관계 유지

In [144]:
obj2 = obj.reindex(["a", "c", "d", "b", "e"])
obj2    # 각각의 index에 매칭되어 있던 값이 유지

a    4.5
c   -5.3
d   -3.6
b    7.2
e    NaN
dtype: float64

In [145]:
obj3 = Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [146]:
import numpy as np
obj3.reindex(np.arange(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [147]:
# method로 결측치 처리
# ffill: 결측치 발생 시 이전의 값으로 채움
obj3.reindex(np.arange(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [148]:
# bfill: 결측치 발생 시 이후의 값으로 채움
obj3.reindex(np.arange(6), method="bfill")

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [149]:
# fill_value: 해당 값을 원하는 값으로 채울 수 있음
obj3.reindex(np.arange(6), fill_value=777)

0      blue
1       777
2    purple
3       777
4    yellow
5       777
dtype: object

## DataFame에서의 재색인

In [150]:
frame = DataFrame(np.arange(9).reshape(3, 3),
                  index=["a", "c", "d"],
                  columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [151]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [152]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)   # index에서 reindex 할지, columns에서 reindex 할지 정의해야 함

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### axis = "columns" OR axis = "index"로 reindex 방향 적용 가능(1 OR 0으로도 가능)

In [153]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [154]:
frame.reindex(states, axis=1)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


- name, gender, age를 index로 하는 personal_info 이름의 Series가 있을 때, reindex를 활용하여, 그 순서를 gender,name,age로 바꾸세요

- frame의 index를 a와 d만 남겨놓으세요

In [155]:
personal_info = Series(["Min Kyoung", "F", 24], index=["name", "gender", "age"])
personal_info

name      Min Kyoung
gender             F
age               24
dtype: object

In [156]:
personal_info_re = personal_info.reindex(["gender", "name", "age"])
personal_info_re

gender             F
name      Min Kyoung
age               24
dtype: object

In [157]:
frame_re = frame.reindex(["a", "d"], axis=0)
frame_re

Unnamed: 0,Ohio,Texas,California
a,0,1,2
d,6,7,8


## 행/열 삭제(drop)
- del나 pop과 다르게 DataFrame이나 Series를 변경하지 않음

In [158]:
obj = Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [159]:
obj.drop(index=["a", "b"])

c    2.0
d    3.0
e    4.0
dtype: float64

## 색인, 선택, 필터(loc, iloc)
### Series
#### numpy 배열처럼 색인 가능
- 1차원 numpy 배열처럼 취급
- boolean 배열 활용 -> 색인, 팬시 색인 적용 가능
- index 이름, index 순서로도 색인 가능 -> 혼란 발생 가능성

In [160]:
obj = Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [161]:
obj[0]  # Series는 순서로 index 접근 가능

  obj[0]  # Series는 순서로 index 접근 가능


0.0

In [162]:
obj["a"]

0.0

In [163]:
obj[["d", "b"]]

d    3.0
b    1.0
dtype: float64

In [164]:
obj[[3, 1]]

  obj[[3, 1]]


d    3.0
b    1.0
dtype: float64

In [165]:
obj[obj < 2]    # 각각의 요소에 조건부 연산 적용

a    0.0
b    1.0
dtype: float64

- 정수 색인과 정수인 색인 사이의 혼란 가능성

In [166]:
obj = Series(np.arange(4.), index=["a", 2, 1, 0])

In [167]:
obj[0]

3.0

In [168]:
obj[3]

KeyError: 3

### loc과 iloc

In [169]:
obj

a    0.0
2    1.0
1    2.0
0    3.0
dtype: float64

In [170]:
obj.loc

<pandas.core.indexing._LocIndexer at 0x22ef7f999a0>

In [171]:
obj.iloc

<pandas.core.indexing._iLocIndexer at 0x22ef7efa3f0>

In [172]:
obj.loc["a"], obj.loc[2], obj.loc[1], obj.loc[0]    # index label만 고려

(0.0, 1.0, 2.0, 3.0)

In [173]:
obj.iloc[0], obj.iloc[1], obj.iloc[2], obj.iloc[3]  # iloc에서 i가 아마 integer

(0.0, 1.0, 2.0, 3.0)

### DataFrame
- columns 이름을 통해 색인 가능

In [174]:
data = DataFrame(np.arange(16).reshape(4, 4),
                 index=["Ohio", "Colorado", "Utah", "New York"],
                 columns=["one", "two", "three", "four"])

In [175]:
data.loc["Colorado"]

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [176]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


In [177]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int32

In [178]:
data.loc[["Colorado"], ["two", "three"]]

Unnamed: 0,two,three
Colorado,5,6


In [179]:
data.iloc[1:2]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7


In [180]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [181]:
data.iloc[:, 1]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [182]:
data.iloc[[2, 1]]   # 팬시 색인 적용 가능

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,4,5,6,7


In [183]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 레이블의 슬라이싱 -> 레이블도 포함

In [184]:
data.loc[:"Utah", "two"]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [185]:
data.iloc[:, :3]

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [186]:
data.loc[data.three > 5]    # boolean 객체를 포함한 인덱싱

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [187]:
data.iloc[data.three > 5]   # iloc에서는 boolean 객체를 포함한 인덱싱 적용 불가

ValueError: iLocation based boolean indexing cannot use an indexable as a mask

- 아래 두 Series가 있을 때, 각각에 대해서 각각 loc과 iloc을 써서 [3,2,1]을 value로 갖는 Series를 반환받으시오.

obj1 = Series([1, 2, 3], index=[2, 0, 1])

obj2 = Series([1, 2, 3], index=[“c", "b", “a"])

- data 데이터프레임에 대해서, columns의 three가 7보다 큰 주에 대해서만 one과 two를 호출하시오 (loc을 사용)

In [188]:
obj1 = Series([1, 2, 3], index=[2, 0, 1])
obj2 = Series([1, 2, 3], index=["c", "b", "a"])

In [189]:
obj1

2    1
0    2
1    3
dtype: int64

In [190]:
obj1.loc[[1, 0, 2]]

1    3
0    2
2    1
dtype: int64

In [191]:
obj1.iloc[[2, 1, 0]]

1    3
0    2
2    1
dtype: int64

In [192]:
obj2

c    1
b    2
a    3
dtype: int64

In [193]:
obj2.loc[["a", "b", "c"]]

a    3
b    2
c    1
dtype: int64

In [194]:
obj2.iloc[[2, 1, 0]]

a    3
b    2
c    1
dtype: int64

## 산술 연산과 데이터 정렬

In [195]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1],
            index=["a", "c", "e", "f", "g"])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [196]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [197]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [198]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [199]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [200]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [201]:
df1 = DataFrame({"A": [1, 2]})
df2 = DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [202]:
df2

Unnamed: 0,B
0,3
1,4


In [203]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


In [204]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [205]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [206]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [207]:
df1.add(df2, fill_value=0)  # fill_value: 결측치가 있는 데이터와 연산할 때 결측치를 바꿔줄 숫자

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [208]:
df1.add(df2, fill_value=100)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,104.0
1,9.0,11.0,13.0,15.0,109.0
2,18.0,20.0,22.0,24.0,114.0
3,115.0,116.0,117.0,118.0,119.0


In [209]:
df1.rsub(df2, fill_value=100)   # sub과 부호 반전

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,-96.0
1,1.0,1.0,1.0,1.0,-91.0
2,2.0,2.0,2.0,2.0,-86.0
3,-85.0,-84.0,-83.0,-82.0,-81.0


## DataFrame과 Series 간 연산
numpy 배열의 연산을 따름

In [210]:
frame = DataFrame(np.arange(12.).reshape(4, 3),
                  columns=list("bde"),
                  index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [211]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [212]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [213]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [214]:
series2 = Series(np.arange(3), index=["b", "e", "f"])
series2

b    0
e    1
f    2
dtype: int32

In [215]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [216]:
series3 = frame["d"]
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [217]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [218]:
frame.sub(series, axis="index")

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


In [219]:
frame.sub(series, axis="columns")

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [220]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [221]:
frame.sub(series3, axis="columns")  # column 방향향

Unnamed: 0,Ohio,Oregon,Texas,Utah,b,d,e
Utah,,,,,,,
Ohio,,,,,,,
Texas,,,,,,,
Oregon,,,,,,,


In [222]:
frame.sub(series3, axis="index")    # index 방향

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


## 함수 적용과 맵핑
### universal 함수가 적용될 수 있음
### apply < 중요 (행 또는 열을 따라 적용)

In [223]:
frame = DataFrame(np.random.standard_normal((4, 3)),
                  columns=list("bde"),
                  index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,0.999179,-0.072762,0.093688
Ohio,-0.679147,-0.162715,0.179362
Texas,0.327571,-1.502004,-1.40854
Oregon,-0.278987,0.797054,0.644904


In [224]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.999179,0.072762,0.093688
Ohio,0.679147,0.162715,0.179362
Texas,0.327571,1.502004,1.40854
Oregon,0.278987,0.797054,0.644904


In [225]:
def f1(x):
    return x.max() - x.min()

frame.apply(f1)

b    1.678325
d    2.299057
e    2.053443
dtype: float64

In [226]:
frame.apply(lambda x: x.max() - x.min())

b    1.678325
d    2.299057
e    2.053443
dtype: float64

In [227]:
frame.apply(f1, axis="index")   # 기본 방향: index

b    1.678325
d    2.299057
e    2.053443
dtype: float64

In [228]:
frame.apply(f1, axis="columns") # column 방향을 따라 함수 적용

Utah      1.071941
Ohio      0.858508
Texas     1.829575
Oregon    1.076041
dtype: float64

In [229]:
frame

Unnamed: 0,b,d,e
Utah,0.999179,-0.072762,0.093688
Ohio,-0.679147,-0.162715,0.179362
Texas,0.327571,-1.502004,-1.40854
Oregon,-0.278987,0.797054,0.644904


In [230]:
def f2(x):
    return Series([x.min(), x.max()], index=["min", "max"])
type(frame.apply(f2))

pandas.core.frame.DataFrame

In [231]:
frame.apply(f2) # 기본 axis: index

Unnamed: 0,b,d,e
min,-0.679147,-1.502004,-1.40854
max,0.999179,0.797054,0.644904


In [232]:
s1 = frame["b"]
s1

Utah      0.999179
Ohio     -0.679147
Texas     0.327571
Oregon   -0.278987
Name: b, dtype: float64

In [233]:
s1.map(lambda x: 2*x)

Utah      1.998357
Ohio     -1.358293
Texas     0.655143
Oregon   -0.557975
Name: b, dtype: float64

In [234]:
frame

Unnamed: 0,b,d,e
Utah,0.999179,-0.072762,0.093688
Ohio,-0.679147,-0.162715,0.179362
Texas,0.327571,-1.502004,-1.40854
Oregon,-0.278987,0.797054,0.644904


In [235]:
frame.applymap(lambda x: 2*x)

  frame.applymap(lambda x: 2*x)


Unnamed: 0,b,d,e
Utah,1.998357,-0.145525,0.187375
Ohio,-1.358293,-0.325431,0.358724
Texas,0.655143,-3.004007,-2.817079
Oregon,-0.557975,1.594108,1.289807
