## Pandas ( Series, DataFrame )
- 고수준의 1,2차원 데이터 분석 도구 포함
- numpy 기반으로 개발
- from pandas import Series, DataFrame
- import pandas as pd
- Series : 1차원 데이터 + Index
- DataFrame : 2차원 데이터 + Row Index + Column Index
- Row Index(df.index), Column Index(df.columns), Values(Series의 집합)
- DataFrame의 한행 혹은 한개의 열을 구성하는 자료구조(1차원) : Series 

### Series

In [55]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [56]:
ser = Series([4, 7, -5, 3], dtype=np.int32)
ser   

0    4
1    7
2   -5
3    3
dtype: int32

In [72]:
ser = pd.Series([4, 7, -5, 3], dtype=np.int32)
ser

0    4
1    7
2   -5
3    3
dtype: int32

In [73]:
ser[0]

4

In [75]:
ser.values, type(ser.values)  # 기본 데이터는 ndarray 사용한다

(array([ 4,  7, -5,  3]), numpy.ndarray)

In [76]:
ser.index= ['a','b','c','d']
ser

a    4
b    7
c   -5
d    3
dtype: int32

In [77]:
ser[0], ser['a']

(4, 4)

In [78]:
ser.values[0]

4

In [80]:
# ser.values['a']   # 오류
ser.values[0]       # 오류 없음

4

In [81]:
# 색인 지정
ser2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'a'])
ser2

d    4
b    7
a   -5
a    3
dtype: int64

In [11]:
ser2.index

Index(['d', 'b', 'a', 'a'], dtype='object')

In [23]:
ser2.values

array([ 4,  7, 10, 10], dtype=int64)

In [25]:
type(ser2.values)   # numpy.ndarray

numpy.ndarray

In [83]:
ser2['a'] = 10
ser2

d     4
b     7
a    10
a    10
dtype: int64

In [84]:
ser2[['a','b']]

a    10
a    10
b     7
dtype: int64

In [85]:
ser2>5

d    False
b     True
a     True
a     True
dtype: bool

In [87]:
# 불리언 인덱싱
ser2[ ser2>5 ]    # True 인 조건에 해당하는 데이터만 가져옴

b     7
a    10
a    10
dtype: int64

In [15]:
# Broadcasting
ser2 * 2

d     8
b    14
a    20
a    20
dtype: int64

In [88]:
# Numpy의 유니버설 함수 사용가능
np.exp(ser2)

d       54.598150
b     1096.633158
a    22026.465795
a    22026.465795
dtype: float64

In [89]:
# 인덱스에 포함되어 있는가?
'a' in ser2   # True

True

In [90]:
'e' in ser2   # False

False

In [26]:
# dict 사용하여 index, values 생성 가능
sample_dict = {
    'Ohio'  : 35000,
    'Texas' : 71000,
    'Oregon': 16000,
    'Utah'  : 5000
}

In [32]:
ser3 = pd.Series(sample_dict)
ser3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [31]:
# 인덱스 순서 변경
ser4 = Series(sample_dict, index=['Oregon','Ohio','Texas','Utah'])
ser4

Oregon    16000
Ohio      35000
Texas     71000
Utah       5000
dtype: int64

In [33]:
ser5 = Series(sample_dict, index=['Oregon','Ohio','Texas','Utah','California'])
ser5   # California 인덱스는 기존에 존재하지 않았기 때문에 NaN으로 표시됨

Oregon        16000.0
Ohio          35000.0
Texas         71000.0
Utah           5000.0
California        NaN
dtype: float64

### pd.isnull(), pd.notnull()
- isnull() : NaN, NA 등의 누락된 값이 있는 경우 True, 그 외에는 False
- notnull() : NaN, NA 등의 누락된 값이 있는 경우 False, 그 외에는 True

In [35]:
pd.isnull(ser5)   # NaN 인 위치는 True, 아니면 False

Oregon        False
Ohio          False
Texas         False
Utah          False
California     True
dtype: bool

In [92]:
# 결측치를 찾아서 특정 값으로 대치하는 예
ser5[ pd.isnull(ser5) ] = 10
ser5

Oregon        16000.0
Ohio          35000.0
Texas         71000.0
Utah           5000.0
California       10.0
dtype: float64

In [36]:
pd.notnull(ser5)

Oregon         True
Ohio           True
Texas          True
Utah           True
California    False
dtype: bool

In [93]:
ser5['California'] = np.NaN
ser5

Oregon        16000.0
Ohio          35000.0
Texas         71000.0
Utah           5000.0
California        NaN
dtype: float64

In [96]:
# NaN이 아닌 곳의 데이터 평균을 NaN에 입력하고자 할 때
# 평균 구하기
ser5_mean = ser5[pd.notnull(ser5)].mean()
ser5[ pd.isnull(ser5) ] = ser5_mean

31750.0

In [38]:
# 위의 기능은 인스턴스 메소드를 사용할 수도 있다
ser5.isnull()
ser5.notnull()

Oregon         True
Ohio           True
Texas          True
Utah           True
California    False
dtype: bool

In [41]:
ser34_add = ser3 + ser4   # 동일 인덱스를 찾아 덧셈
ser34_add

Ohio       70000
Oregon     32000
Texas     142000
Utah       10000
dtype: int64

In [42]:
ser34_add.name = 'sum of ser3 and ser4'
ser34_add

Ohio       70000
Oregon     32000
Texas     142000
Utah       10000
Name: sum of ser3 and ser4, dtype: int64

In [52]:
ser = pd.Series([1,2,3,4], index=['a','b','c','d'])
ser.values[0] = 5
ser

a    5
b    2
c    3
d    4
dtype: int64

In [97]:
# values 속성은 ndarray 이므로 값에 대한 접근은 ndarray 방식만 사용가능
#ser.values['a'] = 7   # 오류 발생
ser['a'] = 7
ser

a    7
b    7
c   -5
d    3
dtype: int32

## DataFrame
- 2차원 데이터 표현(표와 같은 형식)
- 각 컬럼은 자료형이 달라도 된다
- 숫자, 문자열, 불리언 값을 저장
- Values, Row Index(df.index), Column Index(df.columns)

In [99]:
import pandas as pd

In [100]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002],
        'pop'  : [1.5, 1.7, 3.6, 2.4, 2.9]
}
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [101]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [102]:
frame['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

In [105]:
# DF의 행 다루기
frame.loc[0]   # Row Index를 지정한 경우에 사용

state    Ohio
year     2000
pop       1.5
Name: 0, dtype: object

In [104]:
# DF의 행 다루기
frame.iloc[0]   # 디폴트 색인번호만 가능

state    Ohio
year     2000
pop       1.5
Name: 0, dtype: object

In [106]:
frame.index = ['A','B','C','D','E']
frame

Unnamed: 0,state,year,pop
A,Ohio,2000,1.5
B,Ohio,2001,1.7
C,Ohio,2002,3.6
D,Nevada,2001,2.4
E,Nevada,2002,2.9


In [107]:
frame['year']

A    2000
B    2001
C    2002
D    2001
E    2002
Name: year, dtype: int64

In [108]:
frame.loc['C']   # 행 인덱스가 'C' 인 행

state    Ohio
year     2002
pop       3.6
Name: C, dtype: object

In [110]:
# frame.loc[0]  # 행 인덱스가 설정된 상태일 경우에는 KeyError 발생

In [113]:
frame.iloc[0]  # 디폴트 행 인덱스(정수)만 사용가능

state    Ohio
year     2000
pop       1.5
Name: A, dtype: object

In [114]:
frame2 = pd.DataFrame(data, columns=['state','pop', 'year'])
frame2

Unnamed: 0,state,pop,year
0,Ohio,1.5,2000
1,Ohio,1.7,2001
2,Ohio,3.6,2002
3,Nevada,2.4,2001
4,Nevada,2.9,2002


In [115]:
frame3 = pd.DataFrame(data, 
            columns=['state','year','pop'],
            index=['가','나','다','라','마'])
frame3

Unnamed: 0,state,year,pop
가,Ohio,2000,1.5
나,Ohio,2001,1.7
다,Ohio,2002,3.6
라,Nevada,2001,2.4
마,Nevada,2002,2.9


In [116]:
frame3.columns

Index(['state', 'year', 'pop'], dtype='object')

In [117]:
frame3.index

Index(['가', '나', '다', '라', '마'], dtype='object')

In [118]:
frame3['state']
frame3.state

가      Ohio
나      Ohio
다      Ohio
라    Nevada
마    Nevada
Name: state, dtype: object

In [119]:
frame3

Unnamed: 0,state,year,pop
가,Ohio,2000,1.5
나,Ohio,2001,1.7
다,Ohio,2002,3.6
라,Nevada,2001,2.4
마,Nevada,2002,2.9


In [126]:
# 컬럼기반으로 특정 값 추출하기
res = frame3['year']
type(res)   # pandas.core.series.Series

pandas.core.series.Series

In [122]:
res.index

Index(['가', '나', '다', '라', '마'], dtype='object')

In [123]:
res.values

array([2000, 2001, 2002, 2001, 2002], dtype=int64)

In [125]:
res[0], res['가']

(2000, 2000)

In [128]:
res = frame3.loc['가']
res

state    Ohio
year     2000
pop       1.5
Name: 가, dtype: object

In [129]:
type(res)  # pandas.core.series.Series

pandas.core.series.Series

In [131]:
res[1], res['year']

(2000, 2000)

In [138]:
frame3.loc['가','year']

2000

In [139]:
frame3.iloc[0,1]

2000

In [142]:
frame3['year'][0], frame3['year']['가']

(2000, 2000)

In [144]:
frame3.loc['가'][1]

2000

In [153]:
frame3

Unnamed: 0,state,year,pop
가,Ohio,2000,1.5
나,Ohio,2001,1.7
다,Ohio,2002,3.6
라,Nevada,2001,2.4
마,Nevada,2002,2.9


In [157]:
frame3.iloc[0][1], frame3.iloc[0,1]

(2000, 2000)

In [158]:
frame3['price'] = [30,45,37,42,56]
frame3

Unnamed: 0,state,year,pop,price
가,Ohio,2000,1.5,30
나,Ohio,2001,1.7,45
다,Ohio,2002,3.6,37
라,Nevada,2001,2.4,42
마,Nevada,2002,2.9,56


In [159]:
frame3['price'] = 0
frame3

Unnamed: 0,state,year,pop,price
가,Ohio,2000,1.5,0
나,Ohio,2001,1.7,0
다,Ohio,2002,3.6,0
라,Nevada,2001,2.4,0
마,Nevada,2002,2.9,0


In [162]:
# price컬럼에 값을 입력할 때 Series를 생성하여 전달해보세요.
frame3['price'] = pd.Series([34,45,67,89,90], index=['다','나','가','라','마'])
frame3

Unnamed: 0,state,year,pop,price
가,Ohio,2000,1.5,67
나,Ohio,2001,1.7,45
다,Ohio,2002,3.6,34
라,Nevada,2001,2.4,89
마,Nevada,2002,2.9,90


In [173]:
#frame3['price']['다'] = np.NaN   # 경고와 함께 원본값이 변경됨

In [166]:
frame3.loc['다','price'] = np.NaN   # 경고 없이 원본값이 변경됨
frame3

Unnamed: 0,state,year,pop,price
가,Ohio,2000,1.5,67.0
나,Ohio,2001,1.7,45.0
다,Ohio,2002,3.6,
라,Nevada,2001,2.4,89.0
마,Nevada,2002,2.9,90.0


In [187]:
pd.isnull(frame3)

Unnamed: 0,state,year,pop,price
가,False,False,False,False
나,False,False,False,False
다,False,False,False,True
라,False,False,False,False
마,False,False,False,False


In [186]:
~pd.notnull(frame3)

Unnamed: 0,state,year,pop,price
가,False,False,False,False
나,False,False,False,False
다,False,False,False,True
라,False,False,False,False
마,False,False,False,False


In [191]:
frame3.isnull().sum()

state    0
year     0
pop      0
price    1
dtype: int64

In [194]:
frame3

Unnamed: 0,state,year,pop,price
가,Ohio,2000,1.5,67.0
나,Ohio,2001,1.7,45.0
다,Ohio,2002,3.6,
라,Nevada,2001,2.4,89.0
마,Nevada,2002,2.9,90.0


In [195]:
# 중첩된 사전으로부터 데이터프레임을 만들 수 있다.
# 바깥의 인덱스 명이 열이 된다.
pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio':   {2000: 1.5,
                  2001: 1.7,
                  2002: 3.6}}
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [196]:
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [197]:
frame3['Ohio'][0:2]

2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [198]:
frame3['Nevada'][:2]

2001    2.4
2002    2.9
Name: Nevada, dtype: float64

In [199]:
# 행과 열을 바꿀 수 있다 (transpose)
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [200]:
# 인덱스를 명시적으로 지정할 수 있다
# 값이 없으면 NaN이 된다
DataFrame(frame3, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [201]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [202]:
# 인덱스와 열의 이름을 별도로 지정할 수 있다.
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [204]:
# 내용만 보려면 values를 사용한다
frame3.values, type(frame3.values)

(array([[2.4, 1.7],
        [2.9, 3.6],
        [nan, 1.5]]),
 numpy.ndarray)

In [205]:
'Ohio' in frame3.columns

True

In [206]:
2010 in frame3.index

False

In [207]:
1.5 in frame3.values

True

In [210]:
index = pd.Index(np.arange(3))
index

Int64Index([0, 1, 2], dtype='int64')

In [208]:
index2 = pd.Index(np.arange(5))
index2

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [211]:
sum_index = index.append(index2)
sum_index

Int64Index([0, 1, 2, 0, 1, 2, 3, 4], dtype='int64')

In [212]:
ser = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
ser

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [216]:
ser.reindex(['a', 'b', 'c', 'd', 'e'])  # 변경된 사본을 리턴함

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [217]:
ser   # 원본은 변경되지 않았음

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [219]:
# 인덱스만 있고, 데이터가 없는 경우에는 0으로 채운다
ser.reindex(['a','b','c','d','e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

In [221]:
ser = pd.Series(['blue','purple','yellow'], index=[0,2,3])
ser

0      blue
2    purple
3    yellow
dtype: object

In [223]:
ser.reindex(range(6), method='ffill')  # 앞의 값으로 NaN 값을 대치한다

0      blue
1      blue
2    purple
3    yellow
4    yellow
5    yellow
dtype: object

In [225]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index=['a','c','d'],
                    columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [226]:
df2 = frame.reindex(['a','b','c','d'])
df2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [228]:
# 컬럼 인덱스를 재배치하려면, reindex() 사용시 columns 키워드를 사용한다
frame.reindex(columns=['Texas','Utah','California'])

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [229]:
frame.reindex(index=['a','b','c','d'], columns=['Texas','Utah','California'])

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [231]:
frame.reindex(index=['a','b','c','d'], 
              columns=['Texas','Utah','California'], fill_value=0)

Unnamed: 0,Texas,Utah,California
a,1,0,2
b,0,0,0
c,4,0,5
d,7,0,8


### 행, 열 삭제

In [232]:
ser = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
ser

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [234]:
# drop으로 행 삭제하기
new_ser = ser.drop('c')
new_ser

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [236]:
ser.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [249]:
df = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [250]:
#help(df.drop)

In [251]:
df.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [252]:
# 컬럼(열) 삭제
df.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [254]:
df   # 원본은 변함 없음

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [255]:
df2 = df.drop('two', axis=1)
df2

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [242]:
df.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 인덱싱, 선택, 거르기
- Series의 인덱싱은 설정된 이름이나 디폴트 정수를 사용해도 된다
- ser[0],  ser['a'], ser[[0,1]], ser[['a','b']]
- ser[불리언인덱싱]
- df['컬럼명'], df[['c1','c2']]
- df[불리언 인덱싱]
- df.loc[인덱스], df.loc['r1','c1'], df.loc[['r1','r2'], ['c1','c2']]
- df.iloc[디폴트정수], 패턴은 loc와 같음

In [256]:
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [257]:
df[df<5]  # 선택/출력

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,,,
Utah,,,,
New York,,,,


In [258]:
df[df<5] = 5  # 선택/입력
df

Unnamed: 0,one,two,three,four
Ohio,5,5,5,5
Colorado,5,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [259]:
# df 으로부터 한개의 셀 값을 추출하여 그 자료형을 확인해보세요.
# df으로부터 한개의 컬럼 내에서 다수개를 추출하여 그 자료형 확인
# df으로부터 다수개의 행, 다수개의 컬럼에서 값을 추출하여 그 자료형 확인

In [260]:
ret = df.iloc[0,0]
ret  # scala 

5

In [261]:
ret = df.iloc[0,[0,1]]
ret  # Series

one    5
two    5
Name: Ohio, dtype: int32

In [262]:
ret = df.iloc[[0,1],[0,1]]
ret   # DataFrame

Unnamed: 0,one,two
Ohio,5,5
Colorado,5,5


In [266]:
df.iloc[:,1]>10

Ohio        False
Colorado    False
Utah        False
New York     True
Name: two, dtype: bool

In [269]:
bool_exp = df.iloc[:,1]>10

In [271]:
# 인덱서 안에서 다수개를 표현할 때는 리스트만 허용됨
df.iloc[0:2, bool_exp.tolist()]   

Unnamed: 0,four
Ohio,5
Colorado,7


### 이름(행,열)으로 슬라이싱할 때는 양 끝점이 포함된다
- df.loc['a':'c'] : a, b, c행이 선택
- df.iloc[0:2]    : 0, 1 행이 선택

In [275]:
df

Unnamed: 0,one,two,three,four
Ohio,5,5,5,5
Colorado,5,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [276]:
df.loc[:,'one':'two']   # 양 끝점이 모두 포함됨

Unnamed: 0,one,two
Ohio,5,5
Colorado,5,5
Utah,8,9
New York,12,13


In [279]:
df.iloc[:, 0:1]   # 끝점은 stop으로 사용되어 포함되지 않음

Unnamed: 0,one
Ohio,5
Colorado,5
Utah,8
New York,12


In [280]:
df['two']   # 열 기준

Ohio         5
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [282]:
df[['one','two']]   # 다수개를 지정할 때는 리스트 사용

Unnamed: 0,one,two
Ohio,5,5
Colorado,5,5
Utah,8,9
New York,12,13


In [284]:
# 슬라이싱이나 불리언 배열을 사용하면 행을 기준으로 선택
df[:2]  # 0,~1 2개의 행

Unnamed: 0,one,two,three,four
Ohio,5,5,5,5
Colorado,5,5,6,7


In [288]:
df['one']>5

Ohio        False
Colorado    False
Utah         True
New York     True
Name: one, dtype: bool

In [287]:
df[df['one']>5]  # 컬럼 조건을 사용하여 행을 선택한다

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [286]:
df

Unnamed: 0,one,two,three,four
Ohio,5,5,5,5
Colorado,5,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [289]:
df['Ohio':'Utah']

Unnamed: 0,one,two,three,four
Ohio,5,5,5,5
Colorado,5,5,6,7
Utah,8,9,10,11


In [290]:
# 이름을 이용하여 다수개의 행을 선택하고 그 안에서 다수개의 컬럼을 선택하여 표시
df.loc['Ohio':'Colorado', 'two':'four']

Unnamed: 0,two,three,four
Ohio,5,5,5
Colorado,5,6,7


In [294]:
df.loc['Ohio':'Colorado', ['two','three','four']]

Unnamed: 0,two,three,four
Ohio,5,5,5
Colorado,5,6,7


In [292]:
df.loc['Ohio':'Colorado', (df['two']>5).tolist()]

Unnamed: 0,three,four
Ohio,5,5
Colorado,6,7


### 산술연산

In [295]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [296]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [298]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)),
                columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [299]:
df2 = DataFrame(np.arange(12.).reshape((4, 3)),
                columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [300]:
df1 + df2   # 덧셈 상대가 없으면 NaN

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [301]:
df1.add(df2)   # 위와 동일

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [308]:
df1.add(df2, fill_value=0)   # 한쪽 상대가 없으면 0으로 채움, 양쪽 모두 없으면 NaN

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


In [313]:
display(df1)
display(df2)

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
# add, sub, div, mul

### Broadcasting

In [314]:
frame = DataFrame(np.arange(12.).reshape((4, 3)),
                  columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [315]:
ser = frame.iloc[0]
ser

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [317]:
frame - ser  # frame 각 행에서 ser 값을 뺀다

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [318]:
ser2 = Series(range(3), index=['b', 'e', 'f']) 
ser2

b    0
e    1
f    2
dtype: int64

In [319]:
frame + ser2   # frame의 각행에 ser2를 더한다

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [320]:
frame.sub(ser)

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


### 함수적용, 매핑

In [321]:
frame = DataFrame(np.random.randn(4, 3),
                  columns=['b', 'd', 'e'],
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.490124,-0.426146,-0.313858
Ohio,1.986044,1.061775,0.616027
Texas,0.516925,-0.512142,0.084581
Oregon,1.44585,0.164541,0.813722


In [322]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.490124,0.426146,0.313858
Ohio,1.986044,1.061775,0.616027
Texas,0.516925,0.512142,0.084581
Oregon,1.44585,0.164541,0.813722


In [323]:
np.exp(frame)

Unnamed: 0,b,d,e
Utah,0.61255,0.653021,0.730623
Ohio,7.286652,2.891499,1.851557
Texas,1.676863,0.599211,1.088261
Oregon,4.24546,1.178851,2.25629


In [324]:
f = lambda x: x.max()-x.min()

In [326]:
frame

Unnamed: 0,b,d,e
Utah,-0.490124,-0.426146,-0.313858
Ohio,1.986044,1.061775,0.616027
Texas,0.516925,-0.512142,0.084581
Oregon,1.44585,0.164541,0.813722


In [328]:
#help(frame.apply)

In [330]:
frame.apply(f)   # axis=0

b    2.476168
d    1.573917
e    1.127580
dtype: float64

In [329]:
frame.apply(f, axis=1)

Utah      0.176266
Ohio      1.370017
Texas     1.029067
Oregon    1.281310
dtype: float64

In [331]:
frame.apply(lambda x: x.max()-x.min(), axis=1)

Utah      0.176266
Ohio      1.370017
Texas     1.029067
Oregon    1.281310
dtype: float64

In [334]:
frame

Unnamed: 0,b,d,e
Utah,-0.490124,-0.426146,-0.313858
Ohio,1.986044,1.061775,0.616027
Texas,0.516925,-0.512142,0.084581
Oregon,1.44585,0.164541,0.813722


In [332]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

In [333]:
frame.apply(f)   # 각 컬럼의 최소, 최대값을 Series에 저장하여 리턴

Unnamed: 0,b,d,e
min,-0.490124,-0.512142,-0.313858
max,1.986044,1.061775,0.813722


In [335]:
format = lambda x: '{:.2f}'.format(x)

In [336]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.49,-0.43,-0.31
Ohio,1.99,1.06,0.62
Texas,0.52,-0.51,0.08
Oregon,1.45,0.16,0.81
