In [3]:
import pandas as pd
import numpy as np



## Series 객체 다루기

In [4]:
# Series: 판다스의 1차원 배열 객체를 의미함
# Series의 생성
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# Series의 인덱스를 원하는 데이터로 넣을 수 있음
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [6]:
# Series를 생성하면서 인덱스 넣기
obj2 = pd.Series([4, 7, -5, 3], index=["d", "a", "b", "c"])
obj2

d    4
a    7
b   -5
c    3
dtype: int64

In [7]:
# 시리즈의 인덱싱: 인덱스를 통해서 할 수 있음
obj2["a"]

7

In [8]:
# 여러개의 원소를 같이 인덱싱 할 수 있음
obj2[["c", "a", "d"]]

c    3
a    7
d    4
dtype: int64

In [9]:
# boolean 연산을 통해 인덱싱 할 수 있음
obj2[obj2 > 0]

d    4
a    7
c    3
dtype: int64

In [10]:
# numpy를 통해 인덱싱 할 수 있음
np.exp(obj2)

d      54.598150
a    1096.633158
b       0.006738
c      20.085537
dtype: float64

In [11]:
# Series는 Python의 Dictionary자료형과 매우 유사함
# 딕셔너리를 통한 시리즈 객체 생성
sdata = {
    'Ohio': 35000,
    'Texas': 70000,
    'Oregon': 16000,
    'Utah': 5000
}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     70000
Oregon    16000
Utah       5000
dtype: int64

In [12]:
#딕셔너리 형태의 데이터에 다른 인덱스를 넣어서 시리즈를 생성할 수 있다.
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
# California는 인덱스에 있지 않기 때문에 NaN이 나타남
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
dtype: float64

In [13]:
# isnull과 notnull을 사용하여 누락된 값을 찾을 수 있다.
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [14]:
pd.notnull(obj4)
# 인덱스에 따라 값을 더하거나 빼는 연산을 수행할 수 있다.
# 이 때 인덱스에 없는 값이 포함될 경우 연산이 불가하여 NaN이 출력된다.
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         140000.0
Utah               NaN
dtype: float64

In [15]:
# 시리즈 객체의 이름을 정할 수 있음
obj4.name = 'population'
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
Name: population, dtype: float64

In [16]:
# 시리즈 객체 내 인덱스의 이름을 정할 수 있음
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
Name: population, dtype: float64

## DataFrame 객체 다루기

In [17]:
# DataFrame: 직사각형의 테이블에 여러 컬럼이 존재하며 각 컬럼에는 서로 다른 종류의 데이터를 담을 수 있다.
data = {
    "state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
    "year": [2000, 2001, 2002, 2001, 2002, 2003],
    "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [18]:
# DF의 처음 5개의 row를 출력하기
frame.head(5)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [19]:
# 컬럼의 순서를 임의로 정할 수 있다.
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [20]:
# 딕셔너리 컬럼에 없는 컬럼명을 출력할 경우 해당 데이터의 모든 값이 NaN으로 출력된다.
frame2 = pd.DataFrame(
    data,
    columns=['year', 'state', 'pop', 'debt'],
    index=['one', 'two', 'three', 'four', 'five', 'six']
)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [21]:
# 컬럼의 정보 가져오기
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [22]:
# DF의 컬럼은 딕셔너리처럼 컬럼명으로 접근하거나 attribute로 접근 가능하다.
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [23]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [24]:
# row로의 접근은 loc[인덱스명]으로 접근 가능하다.
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [25]:
# numpy처럼 동일 컬럼에 있는 값을 한꺼번에 적용할 수 있다.
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [26]:
# debt컬럼을 0~5까지의 값으로 순서대로 대입
# numpy.arange()함수를 이용
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [27]:
# Series 객체를 DF 컬럼에 대입할 경우 인덱스에 따라 값이 대입되며, 인덱스가 없는 경우 NaN이 대입된다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


### 컬럼 삭제

In [28]:
# 불필요한 컬럼 생성
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [29]:
# eastern 컬럼 삭제
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [30]:
# 딕셔너리의 요소가 딕셔너리라도 DF로 만들 수 있다.
pop = {
    'Nevada': {2001: 2.4, 2002: 2.9},
    'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [31]:
# Numpy와 같이 Transpose를 할 수 있음
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [32]:
# 인덱스를 새로 명시하여 생성할 수도 있음
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [33]:
# Series 객체를 담아서 처리해도 DF를 생성할 수 있다.
pdata = {
    'Ohio': frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [34]:
# DF는 인덱스와 컬럼 이름을 바꿀 수 있다.
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [35]:
# DF에 저장될 값을 2차원 배열로 반환
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [36]:
# 배열의 자료형이 다른 경우에는 배열의 자료형을 일치시키기 위해 dtype이 object로 생성된다.
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

## 인덱스 객체
> 각 Row와 Column에 대한 인덱스 명이나 메타데이터를 저장하는 객체

In [37]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [38]:
# 인덱스의 값은 변경할 수 없음
index[1] = 'd'

TypeError: Index does not support mutable operations

In [None]:
# 배열과 유사하게 인덱스 객체도 고정된 크기로 동작한다.
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

In [None]:
# Python Set자료형과 다르게 Pandas의 인덱스는 중복을 허용한다.
# 중복되는 인ㄷ게스 값을 선택할 시 해당하는 모든 값이 선택된다.
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

## ReIndexing

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

In [None]:
# 새로 생성한 인덱스에 맞게 데이터를 재배열 시킬 수 있다. 'e'는 값이 존재하지 않기 때문에 NaN으로 출력된다.
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

In [None]:
# 값을 보강하거나 채워넣어야 할 때 method 옵션을 사용할 수 있다.
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

In [None]:
# ffill: 값이 존재하지 않는 1, 3, 5번 인덱스에 가장 직전에 입력되어 있는 값으로 누락된 값을 채움
obj3.reindex(range(6), method='ffill')

In [None]:
# DF에도 reindex를 할 수 있다.
frame = pd.DataFrame(
    np.arange(9).reshape((3, 3)),
    index=['a', 'c', 'd'],
    columns=['Ohio', 'Texas', 'California']
)
frame

In [None]:
frame = frame.reindex(['a', 'b', 'c', 'd'])
frame

In [None]:
# Column의 인덱스를 reindexing하고 싶을 때 columns 키워드를 사용한다.
states = ['Texas', 'Utah', 'California']
frame = frame.reindex(columns=states)
frame

In [None]:
# DF를 한꺼번에 인덱싱 할수 있다.
frame.loc[['a', 'b', 'c', 'd'], states]

## drop: 특정 row나 column을 삭제하고 싶을 때 사용

In [None]:
# series에서 특정 인덱스에 해당하는 요소 삭제하기
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
# row 삭제
new_obj = obj.drop('c')
new_obj

In [None]:
# 여러 개의 row 삭제
new_obj = obj.drop(['c', 'd'])
new_obj

In [None]:
# DF에서 row 삭제하기
data = pd.DataFrame(
    np.arange(16).reshape((4, 4)),
    index=['Ohio', 'Colorado', 'Utah', 'New York'],
    columns=['one', 'two', 'three', 'four']
)
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
# DF에서 Column 삭제하기
data.drop('two', axis=1)

In [None]:
# 실행하는 결과가 실제 데이터에 반영되도록 설정하기
obj.drop('c', inplace=True)
obj

## Indexing, Selection and Filtering

### Series

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

In [41]:
# 인덱스를 통한 인덱싱
obj['a']

0.0

In [42]:
# 인덱스 위치를 통한 인덱싱
obj[1]

1.0

In [43]:
# 슬라이싱도 가능
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [44]:
# 리스트를 통한 인덱싱이 가능
# 순서를 지정하여 출력
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [45]:
# 정수 리스트를 이용한 인덱싱
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [46]:
# boolean 배열을 이용한 인덱싱이 가능
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [47]:
# 라벨 값을 통한 슬라이싱이 가능하다.
# 하지만 파이썬 리스트의 슬라이싱과 다르게 끝점을 포함한다.
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [49]:
# 슬라이싱을 통해 값 수정이 가능하다
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

### DataFrame

In [50]:
data = pd.DataFrame(
    np.arange(16).reshape(4, 4),
    index=['Ohio', 'Colorado', 'Utah', 'New York'],
    columns=['one', 'two', 'three', 'four']
)
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [51]:
# 컬럼을 통한 셀렉션
data['two']  # 컬럼에 해당하는 요소들의 시리즈 객체가 반환된다.

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [52]:
# 컬럼 라벨리스트를 통한 셀렉션
# 리스트에 정의된 컬럼들이 DF객체로 출력된다.
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [53]:
# 정수를 통한 슬라이싱
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [54]:
# boolean DF를 통한 인덱싱
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [57]:
# 값 일괄 수정 가능
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [58]:
# loc를 통해 라벨을 통한 인덱싱 가능
# loc[row에 해당하는 인자, 컬럼에 해당하는 인자]
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [59]:
# iloc를 통해 인덱스 위치(정수)를 통한 인덱싱이 가능
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [60]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [61]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [62]:
# loc를 활용한 슬라이싱이 가능하다.
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [63]:
#iloc와 boolean인덱싱을 한번에 하기
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [70]:
# 정수 인덱싱
# > 인덱스를 따로 선언하지 않은 상태에서 -1과 같은 인덱싱은
# 정수 인덱싱인지 라벨인덱싱인지 파악하기 힘들기 때문에
# 에러를 반환한다.
ser = pd.Series(np.arange(3.))
ser[-1]

KeyError: -1

In [67]:
# 인덱스를 따로 선언할 경우 -1을 인덱싱해도 정수 인덱싱인 것이 확실하게
# 되므로 정상적인 값을 반환한다.
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

In [71]:
# loc vs iloc
# 라벨 슬라이싱은 1번 요소를 포함한다.
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [72]:
# 정수 슬라이싱은 1번 요소를 포함하지 않는다 (파이썬 리스트와 동일)
ser.iloc[:1]

0    0.0
dtype: float64

## 산술 연산과 데이터 할당

In [73]:
# Series의 산술연산
# 인덱스가 서로 겹치는 것끼리 연산하고, 겹치지 않는 것은 NaN으로 처리된다.
s1 = pd.Series(
    [7.3, -2.5, 3.4, 1.5],
    index=['a', 'c', 'd', 'e']
)
s2 = pd.Series(
    [-2.1, 3.6, -1.5, 4, 3.1],
    index=['a', 'c', 'e', 'f', 'g']
)
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [74]:
#DF의 연산에도 컬럼, 인덱스끼리만 연산이 가능하다. (이외는 NaN)
df1 = pd.DataFrame(
    np.arange(9.).reshape((3, 3)),
    columns=list('bcd'),
    index=['Ohio', 'Texas', 'Colorado']
)
df2 = pd.DataFrame(
    np.arange(12.).reshape((4, 3)),
    columns=list('bde'),
    index=['Utah', 'Ohio', 'Texas', 'Oregon']
)
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [75]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [76]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [77]:
# 산술 계산시 NaN으로 나오는 것을 방지하기 위해 대체 값을 넣을 수 있다.
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [79]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [80]:
# fill_value: nan으로 값이 나오는 것은 없는 인덱스가 0이라고 가정하고 계산하게 함.
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [81]:
# reindex함수를 사용할 때에도 fill_value 속성을 사용할 수 있다.
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


## DataFrame과 Series의 연산
> 대체적으로 Numpy의 Broadcasting와 유사하다.

In [83]:
frame = pd.DataFrame(
    np.arange(12.).reshape((4, 3)),
    columns=list("bde"),
    index=['Utah', 'Ohio', 'Texas', 'Oregon']
)
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [90]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [91]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [92]:
# DF에서 컬럼이나 시리즈의 인덱스에서 인덱스 값을 찾을 수 없다면 해당 객체에는 reindex 형태로 출력된다.
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [93]:
# 각 row에 대해서 Series와 DF 간에 연산을 하고 싶은 경우 산술연산 method를 사용할 수 있다.
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [95]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


## 함수

In [103]:
# Pandas객체에 함수를 적용하고 싶을 때 apply 메서드를 사용할 수 있다.
# Numpy Ufunc사용 가능
frame = pd.DataFrame(
    np.random.randn(4, 3),
    columns=list("bde"),
    index=['Utah', 'Ohio', 'Texas', 'Oregon']
)
frame

Unnamed: 0,b,d,e
Utah,1.748779,1.945035,0.817837
Ohio,-0.320629,0.283985,0.179983
Texas,0.220151,0.524489,1.505128
Oregon,0.151924,-1.803392,-0.369193


In [104]:
# Numpy Ufunc 적용하기
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.748779,1.945035,0.817837
Ohio,0.320629,0.283985,0.179983
Texas,0.220151,0.524489,1.505128
Oregon,0.151924,1.803392,0.369193


In [105]:
# 각 Column이나 Row에 1차원 함수 적용하기 -> apply
f = lambda x: x.max() - x.min()
frame.apply(f)  # 각 컬럼에 있는 요소의 최댓값에서 최소값을 뺀 결과 도출

b    2.069408
d    3.748428
e    1.874321
dtype: float64

In [107]:
# 각 Row에 있는 요소의 최댓값에서 최소값을 뺀 값 도출
frame.apply(f, axis="columns")

Utah      1.127198
Ohio      0.604614
Texas     1.284977
Oregon    1.955317
dtype: float64

In [108]:
# 함수는 Scala 값만 반환할 필요 없이 시퀀스 값을 반환해도 된다.
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])


frame.apply(f)

Unnamed: 0,b,d,e
min,-0.320629,-1.803392,-0.369193
max,1.748779,1.945035,1.505128


In [109]:
# 배열의 각 원소에 사용되는 파이썬 함수를 사용할 수도 있음.
# 실수 값의 자리수를 소수점 2번째 자리까지 변경하는 함수
# 실수 값을 문자열의 형태로 바꿈
format = lambda x: "%.2f" % x
frame.applymap(format)
# applymap을 사용하는 이유
# > Series 객체는 각 원소에 적용할 map이라는 함수를 갖고 있기 때문

Unnamed: 0,b,d,e
Utah,1.75,1.95,0.82
Ohio,-0.32,0.28,0.18
Texas,0.22,0.52,1.51
Oregon,0.15,-1.8,-0.37


In [110]:
frame['e'].map(format)

Utah       0.82
Ohio       0.18
Texas      1.51
Oregon    -0.37
Name: e, dtype: object

## 정렬

In [115]:
# 인덱스 정렬
obj = pd.Series(
    range(4),
    index=list("dabc")
)
obj

d    0
a    1
b    2
c    3
dtype: int64

In [121]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [125]:
# DF에서는 index를 기준으로 정렬할 수도, column을 기준으로 정렬할 수도 있다.
frame = pd.DataFrame(
    np.arange(8).reshape((2, 4)),
    index=['three', 'one'],
    columns=list("dabc")
)
# default: row로 정렬
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [127]:
# 축을 지정하여 정렬할 수 있음.
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [128]:
# 내림차순 정렬도 가능하다.
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [131]:
# Series에서 값을 기준으로 정렬할 수 있다.
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [132]:
# NaN이 포함된 Series객체의 경우 정렬된 요소의 제일 뒤에 NaN값이 위치하게 된다.
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [133]:
# DF에서도 값을 기준으로 정렬을 수행할 수 있다.
# 단 by를 통해 하나 이상의 정렬할 컬럼을 명시하여야 한다.
frame = pd.DataFrame(
    {
        'b': [4, 7, -3, 2],
        'a': [0, 1, 0, 1]
    }
)
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [135]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [136]:
# rank: 정렬한 후 순위화 된 점수를 반환하는 함수
# 동 순위의 경우 순위의 평균값이 순위로 반환된다.
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [137]:
# 평균 값이 나오지 않게 하기 위해 method속성을 부여할 수 있다.
obj.rank(method="first")
# 이 경우 먼저 출현한 순서대로 순위 점수가 부여된다.

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [140]:
# 동률일 경우 더 높은 순위 점수를 부여한다
# 1등이 두명인 경우 2등만 두명이 부여하는 식이다
obj.rank(ascending=False, method="max")

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [143]:
# DF 상에서는 Row와 Column에 대한 순위화가 가능하다.
frame = pd.DataFrame(
    {
        "b": [4.3, 7, -3, 2],
        'a': [0, 1, 0, 1],
        'c': [-2, 5, 8, -2.5]
    }
)
# 컬럼을 기준으로 순위화 하기
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


## 중복된 인덱스

In [144]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [145]:
# 중복된 인덱스가 Series내에 존재하는지 확인하기
obj.index.is_unique

False

In [146]:
# Series내에서의 중복된 인덱스 인덱싱
obj['a']  # 중복된 인덱스로 되어있는 요소가 다 출력된다.

a    0
a    1
dtype: int64

In [147]:
# DF내에서의 중복된 인덱스 인덱싱
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.226717,0.182074,-0.964729
a,-0.893316,0.538314,0.174705
b,0.729279,-0.28464,-0.042397
b,0.683976,1.372891,-0.215949


In [148]:
df.loc['b']  # 중복된 인덱스에 있는 값들이 DF형태로 반환

Unnamed: 0,0,1,2
b,0.729279,-0.28464,-0.042397
b,0.683976,1.372891,-0.215949


## Reduction
> Series나 DF에 Row나 Column으로부터 생성된 하나의 값을 추출하기 위해 만들어진 메서드 (기본적으로는 NaN값을 연산에서 제외한다.)

In [149]:
df = pd.DataFrame(
    [
        [1.4, np.nan],
        [7.1, -4.5],
        [np.nan, np.nan],
        [0.75, -1.3]
    ],
    index=['a', 'b', 'c', 'd'],
    columns=['one', 'two']
)
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [150]:
# 각 컬럼별 합 출력
df.sum()

one    9.25
two   -5.80
dtype: float64

In [151]:
# 각 row별 합 출력
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [153]:
# skipna: NaN값을 연산에 포함시킬 지 말지 여부를 물음
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [156]:
# 최대값을 가진 인덱스를 반환함
df.idxmax()

one    b
two    d
dtype: object

In [157]:
df.cumsum()
# 누적 합을 계산함

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [161]:
# Non-numeric Data와 Numeric data에 따라 다른 요약통계 결과를 제공하는 메서드
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [159]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


## Unique Values, Values Count, Membership

In [162]:
# 중복되는 값을 제거하고 유일한 값만 담고있는 Series 객체를 반환
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [163]:
# Value counts: unique한 값들을 계수(Series에서 도수값을 제공함)
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [186]:
# 인덱스를 정렬해서 계수할 수 있음
# 동작 안함
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [187]:
# 어떤 값이 Series에 존재하는지 여부를 반환
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [188]:
# Boolean Series객체를 이용한 인덱싱
obj[mask]  # b와 c만 값으로 갖는 객체를 반환

0    c
5    b
6    b
7    c
8    c
dtype: object

In [195]:
# to_match Series에서 unique_vals의 원소가 존재하는 인덱스 위치 반환
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
uniques_vals = to_match.unique()
pd.Index(uniques_vals).get_indexer(to_match)

# DF의 각 Column에 대해서 Histogram을 구하는 방법.
data = pd.DataFrame({
    'Qu1': [1, 3, 4, 3, 4],
    'Qu2': [2, 3, 1, 2, 3],
    'Qu3': [1, 5, 2, 4, 4]
})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [196]:
# DF의 각 Column에 대해서 Histogram을 구하는 방법
# fillna: NaN은 0으로 처리
data.apply(pd.value_counts).fillna(0)





Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
