
### 판다스



In [1]:
import pandas as pd
import numpy as np

#### 5.1.1 Series

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [3]:
print(obj.array) # Series 배열
print(obj.index) # Series 색인

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64
RangeIndex(start=0, stop=4, step=1)


In [4]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

Unnamed: 0,0
d,4
b,7
a,-5
c,3


In [5]:
# 색인으로 레이블 사용
obj2["a"]

-5

In [6]:
obj2["d"] = 6
obj2[["c", "a", "d"]]

Unnamed: 0,0
c,3
a,-5
d,6


In [7]:
# 불리언 배열 사용해서 값 걸러내기
obj2[obj2 > 0]

Unnamed: 0,0
d,6
b,7
c,3


In [8]:
# 스칼라 곱셈 수행하기
obj2 * 2

Unnamed: 0,0
d,12
b,14
a,-10
c,6


In [9]:
# 수학 함수 적용하기
np.exp(obj2)

Unnamed: 0,0
d,403.428793
b,1096.633158
a,0.006738
c,20.085537


In [10]:
# Series는 고정된 길이의 정렬된 딕셔너리
print("b" in obj2)
print("e" in obj2)

True
False


In [11]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [12]:
# to_dict(): Series를 딕셔너리로 변환
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [13]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [14]:
# isnull, notnull: 누락된 데이터 찾기
pd.isna(obj4)

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [15]:
pd.notna(obj4)

Unnamed: 0,0
California,False
Ohio,True
Oregon,True
Texas,True


In [16]:
obj4.isna()

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [17]:
obj3 + obj4

Unnamed: 0,0
California,
Ohio,70000.0
Oregon,32000.0
Texas,142000.0
Utah,


In [18]:
# Series 객체와 색인은 모두 name 속성 가짐 (이 속성은 판다스의 다른 기능들과 통합)
obj4.name = "population"
obj4.index.name = "state"
obj4

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [19]:
# 대입으로 Series 색인 변경하기
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [20]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Unnamed: 0,0
Bob,4
Steve,7
Jeff,-5
Ryan,3


### 5.1.2 DataFrame
- DataFrame: 표 같은 스프레드시트 형식의 자료 구조
- 여러 개의 열이 있고 서로 다른 종류의 값(숫자, 문자열, 불리언 등) 담을 수 있음.
- 행과 열에 대한 색인을 가지며, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 딕셔너리

### [DataFrame 생성을 위한 입력 데이터 종류]
- 2차원 ndarray: 데이터를 담고 있는 행렬, 선택적으로 행과 열의 이름 전달
- 배열, 리스트, 튜플의 딕셔너리: 딕셔너리의 모든 항목은 길이가 동일해야 하며, 각 항목의 내용은 DataFrame의 열이 된다.
- 넘파이의 구조화 배열: 배열의 딕셔너리와 동일한 방식으로 취급.
- Series의 딕셔너리: Series의 각 값이 열이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 딕셔너리와 마찬가지로 합쳐져서 행의 색인이 된다.
- 딕셔너리나 Series의 리스트: 리스트의 각 항목이 DataFrame의 행이 된다. 합쳐진 딕셔너리의 키 값이나 Series의 색인이 DataFrame의 열 이름이 된다.
- 리스트나 튜플의 리스트; 2차원 ndarray의 경우와 동일한 방식으로 취급.
- 다른 DataFrame: 색인을 따로 지정하지 않으면 DataFrame의 색인이 그대로 사용
- 넘파이의 MaskedArray: 2차원 ndarray의 경우와 동일한 방식으로 취급되나, 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.

In [21]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada",],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.45, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.45
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [22]:
# head 메서드: 처음 5개의 행만 출력
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.45
4,Nevada,2002,2.9


In [23]:
# tail: 마지막 5개의 행
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.45
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [24]:
# columns 를 원하는 순서대로 지정 가능
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.45
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [25]:
# 딕셔너리에 없는 값을 columns에 넘기면 결과에 결측치 표시
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.45,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [26]:
# DataFrame 열은 Series처럼 딕셔너리 형식의 표기법이나 점 표기법으로 접근 가능
frame2["state"]

Unnamed: 0,state
0,Ohio
1,Ohio
2,Ohio
3,Nevada
4,Nevada
5,Nevada


In [27]:
frame2.year

Unnamed: 0,year
0,2000
1,2001
2,2002
3,2001
4,2002
5,2003


In [28]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.45,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [29]:
frame2.loc[1]

Unnamed: 0,1
year,2001
state,Ohio
pop,1.7
debt,


In [30]:
frame2.iloc[2]

Unnamed: 0,2
year,2002
state,Ohio
pop,3.6
debt,


In [31]:
# 대입으로 열 수정 가능
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.45,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [32]:
frame2['debt'] = np.arange(6.) # 0~5까지 실수
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.45,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [33]:
# 리스트나 배열을 대입할 때는 대입하려는 값의 길이와 DataFrame 길이가 같아야 함
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
# 존재하지 않는 색인에는 결측치 대입
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.45,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [223]:
frame2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [34]:
# 존재하지 않는 열 대입 시 새로운 열 생성
# State 값이 Ohio 인지 검사한 결과를 불리언 값으로 나타내는 새로운 열
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.45,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [35]:
# del 예약어: 삭제
del frame2["eastern"]
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.45,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [36]:
# 중첩된 딕셔너리를 이용해 데이터 생성
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}
               }

# 중첩된 딕셔너리를 DataFrame에 넘기면 바깥에 있는 딕셔너리의 키가 열이 되고
# 안에 있는 키는 행이 된다.
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [37]:
# 전치: 행과 열 뒤집기
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [38]:
# 중첩된 딕셔너리를 이용해 DataFrame을 생성하면
# 안쪽에 있는 딕셔너리 값은 키의 값별로 조합되어 결과의 색인이 되나
# 색인을 직접 지정하면 지정된 색인으로 DataFrame 생성
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [39]:
# Series 객체를 담고 있는 딕셔너리 데이터도 동일한 방식으로 취급
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][:2]}

pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [40]:
# DataFrame 색인과 열에 name 속성이 설정되어 있을 경우, 이 정보도 함께 출력
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [41]:
# DataFrame의 to_numpy 메서드는 DataFrame에 포함된 데이터를 2차원 형태의 ndarray로 반환
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [42]:
# DataFrame 열이 서로 다른 자료형을 갖는다면 모든 열을 수용하기 위해 반환된 배열의 자료형 선택
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.45, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 5.1.3 색인 객체
- 판다스의 색인 객체는 축 레이블(DataFrame의 열 이름 포함)과 다른 메타데이터 (축의 이름 등)를 저장하는 객체
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 다른 순차적인 레이블은 내부적으로 색인으로 변환
- 인덱스 객체는 불변 객체이므로 수정 불가
- 인덱스 객체는 데이터 구조 간에 공유하여 사용해도 안전
- 인덱스 객체는 배열과 유사하게 동작하며, 고정 크기의 세트처럼 사용 가능
- 인덱스는 중복된 레이블 포함 가능
- 인덱스 객체는 다양한 집합 연산 메서드 제공
### <br>[색인 메서드의 속성]
- append(): 추가적인 객체를 덧붙여 새로운 색인 반환
- difference(): 색인의 차집합 반환
- intersection(); 색인의 교집합 반환
- union(): 색인의 합집합 반환
- isin(): 색인이 넘겨받은 색인에 존재 여부를 알려주는 불리언 값 반환
- delete(): i 위치의 색인이 삭제된 새로운 색인 반환
- drop(): 넘겨받은 값이 삭제된 새로운 색인 반환
- insert(): i 위치에 색인이 추가된 새로운 색인 반환
- is_monotonic: 색인이 단조성 가질 경우 True 반환
- is_unique: 중복되는 색인이 없을 경우 True 반환
- unique(): 색인에서 중복되는 요소를 제거하고 유일한 값만 반환

In [43]:
obj = pd.Series(np.arange(3), index=["a","b","c"])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [44]:
index[1:]

Index(['b', 'c'], dtype='object')

In [45]:
# 색인 객체는 변경 불가
# index[1] = "d" # TyoeError
# 이러한 불변성 덕분에 자료구조 사이에서 색인 공유 가능
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [46]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

Unnamed: 0,0
0,1.5
1,-2.5
2,0.0


In [47]:
obj2.index is labels

True

In [48]:
# 배열과 유사하게 Index 객체도 고정된 크기로 작동
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [49]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [50]:
"Ohio" in frame3.columns

True

In [51]:
2003 in frame3.index

False

In [52]:
# 파이썬의 색인은 중복 값 허용
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

In [224]:
# 정수형, 실수형도 중복 가능
pd.Index([0, 0, 1, 1, 2.2, 2.2])

Index([0.0, 0.0, 1.0, 1.0, 2.2, 2.2], dtype='float64')

# 5.2 핵심 기능
- redindex() 메서드 사용하여 인덱스 재정렬, 결측치 채우기 가능
- method 옵션 사용하여 시계열 데이터와 같은 정렬된 데이터의 결측치 보간
- DataFrame에서 행 또는 열의 인덱스 재정렬 가능, axis 옵션 사용하여 재정렬할 축 지정
- drop() 메서드 사용하여 특정 축에서 레이블 제거
- loc, iloc 사용하여 레이블 또는 정수 위치를 기반으로 데이터 선택
- [] 연산자 사용하여 열 선택 또는 행 필터링 가능. 슬라이싱과 불리언 배열 사용 가능
- loc 사용 시 슬라이싱의 endpoint 포함됨
- iloc 사용 시는 endpoint 미포함

## 5.2.1 재색인 (reindex)
- 새로운 색인에 적합하도록 객체를 새로 생성하는 기능
- Series 객체에 대해 reindex 호출 시 데이터를 새로운 색인에 맞게 재배열 (존재하지 않는 색인값이 있을 경우 NaN 추가)
- method 옵션: ffill - 누락된 값을 직전의 값으로 채워 넣음
- DataFrame에 대한 reindex는 행(색인), 열 또는 둘 다 변경 가능 (순서만 전달하면 됨)


In [53]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d","b","a","c"])
obj

Unnamed: 0,0
d,4.5
b,7.2
a,-5.3
c,3.6


In [54]:
# 재색인 (존재하지 않는 색인 값에는 NaN 추가)
obj2 = obj.reindex(["a","b","c","d","e"])
obj2

Unnamed: 0,0
a,-5.3
b,7.2
c,3.6
d,4.5
e,


In [225]:
# method 옵션: ffill - 누락된 값을 직전의 값으로 채워 넣음
obj3 = pd.Series(["blue","purple","yellow"], index=[0, 2, 4])
obj3

Unnamed: 0,0
0,blue
2,purple
4,yellow


In [226]:
obj3.reindex(np.arange(6), method="ffill") # foward fill

Unnamed: 0,0
0,blue
1,blue
2,purple
3,purple
4,yellow
5,yellow


In [227]:
obj3.reindex(np.arange(6), method="bfill") # backward fill

Unnamed: 0,0
0,blue
1,purple
2,purple
3,yellow
4,yellow
5,


In [230]:
# DataFrame 의 reindex
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index=["a","b","c"],
                     columns=["Ohio","Texas","California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [231]:
frame2 = frame.reindex(index=["a","b","c","d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [232]:
# 열은 columns 예약어를 사용해 재색인
states = ["Texas","Utah","California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


In [233]:
# 특정 축 재색인의 또다른 방법
# 새로운 축 레이블을 인수로 넘긴 다음 axis 키워드 사용
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


In [235]:
frame.reindex(states, axis=1)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


#### reindex 함수 인수
- lables: 색인으로 사용할 순서. Index 인스턴스나 다른 순차적인 파이썬 자료구조 사용 가능. Index는 복사가 이뤄지지 않고 그대로 사용
- index: 전달된 시퀀스를 새로운 행 레이블로 지정
- columns; 전달된 시퀀스를 새로운 열 레이블로 지정
- axis: 색인으로 사용할 축(행 또는 열)을 지정하며, 기본값은 행(index).
<br> reindex(index=new_labels) 또는 reindex(columns=new_lables)와 같이 사용
- method: 채움 메서드. ffill: 직전 값 채워넣기 / bfill: 다음 값 채워넣기
- fill_value: 재색인 과정 중에 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값.
<br> 빈 곳의 결과에 null을 채워 넣으려면 fill_value="missing"
- limit: 전/후 보간 시에 사용할 최대 갭 크기(채워넣을 원소 수)
- tolerance: 전/후 보간 시에 사용할 최대 갭 크기(값의 차이)
- level: MultiIndex의 단계(level)에 단순 색인을 맞춤. 그렇지 않을 경우 MultiIndex의 하위 집합에 맞춤
- copy: True인 경우 새로운 색인이 이전 색인과 동일하더라도 기본 데이터 복사. False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음.

In [61]:
# loc 색인을 이용해서 재색인 가능
# 모든 새로운 색인 레이블이 DataFrame에 존재하는 경우에만 작동
frame.loc[["a","b","c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
b,5,4
c,8,7


## 5.2.2 하나의 행이나 열 삭제하기
- 삭제하려는 축이 제외된 리스트를 이미 가지고 있거나, 색인 배열을 갖고 있다면
<br> > reindex 메서드나 .loc 기반의 색인 이용
- 이 방법의 경우 데이터의 모양을 변경하는 작업 필요
- drop 메서드 사용 시 선택한 값들이 삭제된 새로운 객체 얻을 수 있음.

In [62]:
obj = pd.Series(np.arange(5.), index=["a","b","c","d","e"])
obj

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0
e,4.0


In [63]:
new_obj = obj.drop("c")
new_obj

Unnamed: 0,0
a,0.0
b,1.0
d,3.0
e,4.0


In [64]:
obj.drop(["d","c"])

Unnamed: 0,0
a,0.0
b,1.0
e,4.0


In [236]:
frame = pd.DataFrame(np.arange(16).reshape((4,4)),
                     index=["a","b","c","d"],
                     columns=["Ohio", "Texas", "California", "Utah"])
frame

Unnamed: 0,Ohio,Texas,California,Utah
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [237]:
frame.drop(index=['b','a'])

Unnamed: 0,Ohio,Texas,California,Utah
c,8,9,10,11
d,12,13,14,15


In [238]:
frame.drop(columns=["California"])

Unnamed: 0,Ohio,Texas,Utah
a,0,1,3
b,4,5,7
c,8,9,11
d,12,13,15


In [239]:
frame.drop("c", axis=0)

Unnamed: 0,Ohio,Texas,California,Utah
a,0,1,2,3
b,4,5,6,7
d,12,13,14,15


In [240]:
frame.drop("Utah", axis=1)

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,4,5,6
c,8,9,10
d,12,13,14


In [241]:
frame.drop(["Utah","Texas"], axis="columns")

Unnamed: 0,Ohio,California
a,0,2
b,4,6
c,8,10
d,12,14


In [65]:
# DataFrame에서는 행과 열 모두에서 색인 값 삭제 가능
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ["Ohio", "Colorado", "Utah", "New York"],
                    columns = ["one", "two", "three", "four"]
                    )
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [66]:
# drop 함수 인수로 삭제하고 싶은 행 이름을 넘기면 해당 행의 값 모두 삭제
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [67]:
# 열의 레이블 삭제때는 columns 키워드 사용
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [68]:
# 열의 값 삭제 시, axis=1 또는 axis="columns" 도 가능
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [69]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


## 5.2.3 색인하기, 선택하기, 거르기
### <br> [DataFrame] 색인 옵션
- df[column]: DataFrame애서 하나의 열이나 여러 열 선택.
<br> 불리언 배열, 슬라이스, 불리언 DataFrame 사용
- df.loc[rows]: DataFrame에서 레이블 값으로 하나의 행 또는 행의 부분집합 선택
- df.loc[:, cols]: 레이블 값으로 하나의 열 또는 열의 부분집합 선택
- df.loc[rows, cols]: 레이블 값으로 행과 열 모두 선택
- df.iloc[rows]: DataFrame에서 정수 위치로 하나의 행 또는 행의 부분집합 선택
- df.iloc[:, cols]: 정수 위치로 하나의 열 또는 열의 부분집합 선택
- df.iloc[rows, cols]: 정수 위치로 행과 열 모두 선택
- df.at[row, col]: 행과 열의 레이블로 단일 스칼라 값 선택
- df.iat[row, col]: 행과 열의 위치(정수)로 단일 스칼라 값 선택
- reindex 메서드: 행과 열 이름으로 DataFrame 값 선택

In [70]:
obj = pd.Series(np.arange(4.), index=["a","b","c","d"])
obj

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0


In [71]:
obj["b"]

1.0

In [72]:
obj[1]

  obj[1]


1.0

In [73]:
obj[2:4]

Unnamed: 0,0
c,2.0
d,3.0


In [74]:
obj[["b", "a", "d"]]

Unnamed: 0,0
b,1.0
a,0.0
d,3.0


In [75]:
obj[[1, 3]]

  obj[[1, 3]]


Unnamed: 0,0
b,1.0
d,3.0


In [76]:
obj[obj < 2]

Unnamed: 0,0
a,0.0
b,1.0


In [77]:
# loc를 이용하는 방식이 더 선호됨
obj.loc[["b","a","d"]]

Unnamed: 0,0
b,1.0
a,0.0
d,3.0


In [78]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj1

Unnamed: 0,0
2,1
0,2
1,3


In [79]:
obj2 = pd.Series([1, 2, 3], index=["a","b","c"])
obj2

Unnamed: 0,0
a,1
b,2
c,3


In [80]:
obj1[[0, 1, 2]]

Unnamed: 0,0
0,2
1,3
2,1


In [81]:
obj2[[0, 1, 2]]

  obj2[[0, 1, 2]]


Unnamed: 0,0
a,1
b,2
c,3


In [82]:
obj1.iloc[[0, 1, 2]]

Unnamed: 0,0
2,1
0,2
1,3


In [83]:
obj2.iloc[[0, 1, 2]]

Unnamed: 0,0
a,1
b,2
c,3


In [84]:
# 레이블 사용하여 슬라이싱 가능(엔드포인트 포함 됨)
obj2.loc["b":"c"]

Unnamed: 0,0
b,2
c,3


In [85]:
obj2.loc["b":"c"]=5
obj2

Unnamed: 0,0
a,1
b,5
c,5


In [246]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ["Ohio", "Colorado", "Utah", "New York"],
                    columns = ["one", "two", "three", "four"]
                    )
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [87]:
data["two"]

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9
New York,13


In [88]:
data[["one", "three"]]

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [89]:
# 슬라이싱으로 행 선택하기
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [245]:
# 조건에 부함하는 데이터 필터링
data > 5

Unnamed: 0,one,two,three,four
Ohio,False,False,False,False
Colorado,False,False,True,True
Utah,True,True,True,True
New York,True,True,True,True


In [243]:
data["three"] > 5

Unnamed: 0,three
Ohio,False
Colorado,True
Utah,True
New York,True


In [90]:
# 불리언 배열로 행 선택하기
data[data["three"] > 5] # three 칼럼의 값이 5보다 큰 행만 출력

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [91]:
# DataFrame을 사용해 True 값을 가진 위치에 0 할당하기
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### loc와 iloc로 선택하기
- loc: 축 레이블
- iloc: 정수 색인
> 정숫값을 담고 있는 축 색인이 있다면 우선적으로 레이블을 먼저 찾도록 구현
레이블에 대해서는 loc, 정수 색인에 대해서는 iloc 사용


In [92]:
# loc: 축 레이블
data.loc["Colorado"]

Unnamed: 0,Colorado
one,0
two,5
three,6
four,7


In [93]:
# 여러행 선택 시에는 리스트로 넘김
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [94]:
# loc에서 쉼표로 구분하여 행과 열 조합해 선택하기
data.loc["Colorado", ["two", "three"]]

Unnamed: 0,Colorado
two,5
three,6


In [95]:
# iloc: 정수 색인
data.iloc[2]

Unnamed: 0,Utah
one,8
two,9
three,10
four,11


In [96]:
data.iloc[[2, 1]]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,0,5,6,7


In [97]:
data.iloc[2, [3, 0, 1]] # 2번 칼럼 + 3번, 0번, 1번 행

Unnamed: 0,Utah
four,11
one,8
two,9


In [98]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [99]:
# loc, iloc 색인 함수는 슬라이스도 지원
data.loc[:"Utah", "two"]

Unnamed: 0,two
Ohio,0
Colorado,5
Utah,9


In [247]:
# "three" 값이 2 이상인 행
data.iloc[:][data.three >= 2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [248]:
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [249]:
data.loc[:, :'three'][data.three >= 2] # loc는 endpoint 포함

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [100]:
# 단일 레이블이나 레이블 리스트도 지원
data.iloc[:, :3][data.three < 5]

Unnamed: 0,one,two,three
Ohio,0,0,0


In [101]:
# loc: 불리언 배열 사용 가능
# iloc: 불리언 배열 사용 불가
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [102]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [103]:
data.loc[:, "one"] = 1
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,1,9,10,11
New York,1,13,14,15


In [104]:
data.iloc[2] = 5
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,5,5,5,5
New York,1,13,14,15


In [105]:
data.loc[data["four"] > 5] = 3
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [106]:
# 연쇄 색인을 피하기 위해 단일 loc 연산 사용
data.loc[data.three == 5, "three"] = 6 # data.three 열의 값이 5인 곳을 6으로 변환
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


## 5.2.4 산술 연산과 데이터 정렬
- add, radd: 덧셈(+) 메서드
- sub, rsub: 뺄셈(-) 메서드
- div, rdiv: 나눗셈(/) 메서드
- floordiv, rfloordiv: 소수점 내림(//) 메서드
- mul, rmul: 곱셈(*) 메서드
- pow: rpow: 거듭제곱(**) 메서드

In [107]:
# 객체를 더할 때 짝이 맞지 않는 색인이 있다면 두 결과에 두 색인이 통합
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a","c","d","e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a","c","e","f","g"])

In [108]:
s1

Unnamed: 0,0
a,7.3
c,-2.5
d,3.4
e,1.5


In [109]:
s2

Unnamed: 0,0
a,-2.1
c,3.6
e,-1.5
f,4.0
g,3.1


In [110]:
s1 + s2 # 겹치지 않는 부분은 NaN

Unnamed: 0,0
a,5.2
c,1.1
d,
e,0.0
f,
g,


In [111]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])

In [112]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [113]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [114]:
# DataFrame을 더하면 DataFrame에 있는 색인과 열이 하나로 통합
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [115]:
# 공통 열이나 행 레이블이 없는 DataFrame을 더하면 결과는
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1 + df2

Unnamed: 0,A,B
0,,
1,,


#### 산술 연산 메서드에 채워 넣을 값 지정하기 (np.nan)

In [116]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list("abcde"))
df2.loc[1, "b"] = np.nan

In [117]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [118]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [119]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [120]:
df1.add(df2, fill_value=0) # 연산에서 누락된 값은 fill_value 값으로 대체

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [121]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [122]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [123]:
# Series나 DataFrame 재색인 시에도 fill_value 지정 가능
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


#### DataFrame과 Series간의 연산
- DataFrame과 Series 간의 산술 연산은 Series의 색인을 DataFrame의 열에 맞추고 아래 행으로 브로드캐스팅

In [124]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [125]:
arr[0]

array([0., 1., 2., 3.])

In [126]:
# 브로드캐스팅
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [127]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"]
                     )
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [128]:
series = frame.iloc[0]
series

Unnamed: 0,Utah
b,0.0
d,1.0
e,2.0


In [129]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [130]:
# 만약 색인값을 DataFrame의 열이나 Series의 색인에서 찾을 수 없는 경우
# 그 객체는 형식을 맞추기 위해 재색인
series2 = pd.Series(np.arange(3), index=["b","e","f"])
series2

Unnamed: 0,0
b,0
e,1
f,2


In [131]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [132]:
# 브로드캐스팅 대신 각 행에 대해 연산 수행 시
# 산술 연산 메서드 사용
series3 = frame["d"]
series3

Unnamed: 0,d
Utah,1.0
Ohio,4.0
Texas,7.0
Oregon,10.0


In [133]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [134]:
# 산술 연산자 사용
frame.sub(series3, axis="index") # axis 값은 연산을 적용할 축 번호 (index는 DataFrame의 열을 따라 연산 수행하라는 의미)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


## 5.2.5 함수 적용과 매핑
- Numpy의 ufunc(유니버셜 함수, element-wise 배열 메서드)를 판다스 객체에도 사용 가능
- apply() 메서드를 사용하여 각 열 또는 행에 함수 적용 가능
- applymap() 메서드를 사용하여 각 요소에 함수 적용 가능
- Series에는 각 요소에 함수를 적용하는 map() 메서드 있음

In [250]:
# 판다스 객체에도 넘파이의 유니버셜 함수 적용
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns = list("bde"),
                     index = ["Utah", "Ohio", "Texas", "Oregon"]
                     )
frame

Unnamed: 0,b,d,e
Utah,-0.639511,-0.249354,1.285583
Ohio,-1.069148,-0.778922,1.173065
Texas,-0.261293,1.676064,0.756389
Oregon,0.27072,-0.18672,1.41766


In [136]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.089706,0.911285,1.633262
Ohio,0.098685,0.704733,0.053273
Texas,0.6548,0.619932,0.649714
Oregon,0.25265,1.444418,2.143284


In [137]:
def f1(x):
  return x.max() - x.min()

In [138]:
# DataFrame의 apply 메서드로 함수 적용
frame.apply(f1)

Unnamed: 0,0
b,0.753485
d,2.355703
e,3.776545


In [139]:
# apply 함수에서 axis="columns" 를 넘기면 각 행에 대해 한 번씩만 수행 (열 따라 적용)
frame.apply(f1, axis="columns")

Unnamed: 0,0
Utah,2.544547
Ohio,0.803418
Texas,1.274731
Oregon,3.587701


In [140]:
# apply 메서드에 전달된 함수는 스클라 값을 반환할 필요 없음.
# 여러 값을 가진 Series 반환 가능
def f2(x):
  return pd.Series([x.min(), x.max()], index=["min", "max"])

In [141]:
frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.098685,-1.444418,-1.633262
max,0.6548,0.911285,2.143284


In [251]:
# 배열의 각 원소에 적용되는 파이썬 함수
# 부동소수점을 문자열 포맷으로 변환 (applymap)
def my_format(x):
  return f"{x:.2f}"

In [252]:
# frame.applymap(my_format) # applymap deprecated 됨
frame.map(my_format)

Unnamed: 0,b,d,e
Utah,-0.64,-0.25,1.29
Ohio,-1.07,-0.78,1.17
Texas,-0.26,1.68,0.76
Oregon,0.27,-0.19,1.42


In [144]:
# applymap인 이유는 Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 갖기 때문
frame["e"].map(my_format)

Unnamed: 0,e
Utah,-1.63
Ohio,0.05
Texas,0.65
Oregon,2.14


## 5.2.6 정렬과 순위
- sort_index 메서드: 행과 열의 색인 정렬
### <br>[순위의 동률을 처리하는 메서드]
- average: 기본값. 같은 값을 갖는 항목들의 평균값을 순위로 매김
- min: 같은 값을 갖는 그룹을 낮은 순위로 매김
- max; 같은 값을 갖는 그룹을 높은 순위로 매김
- first: 데이터 내의 위치에 따라 순위 매김
- dense: method="min"과 같으나, 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가시킴

In [253]:
# 알파벳순으로 정렬하기
obj = pd.Series(np.arange(4), index=["a","d", "b", "c"])
obj

Unnamed: 0,0
a,0
d,1
b,2
c,3


In [254]:
obj.sort_index()

Unnamed: 0,0
a,0
b,2
c,3
d,1


In [255]:
obj.sort_index(ascending=False)

Unnamed: 0,0
d,1
c,3
b,2
a,0


In [147]:
# DataFrame은 행과 열 중 하나의 인덱스를 기준으로 정렬 가능
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d","a","b","c"]
                     )
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [148]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [149]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [150]:
# 오름차순 및 내림차순 가능
frame.sort_index(axis="columns", ascending=True)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [151]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [152]:
# Series 객체를 값에 따라 정렬 시에는 sort_values
obj = pd.Series([4, -7, -3, 2])
obj

Unnamed: 0,0
0,4
1,-7
2,-3
3,2


In [153]:
obj.sort_values()

Unnamed: 0,0
1,-7
2,-3
3,2
0,4


In [154]:
# 정렬 시 결측치(누락된 값)는 Series 객체의 가장 마지막에 위치
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

Unnamed: 0,0
0,4.0
1,
2,7.0
3,
4,-3.0
5,2.0


In [155]:
obj.sort_values()

Unnamed: 0,0
4,-3.0
5,2.0
0,4.0
2,7.0
1,
3,


In [156]:
# na_position 옵션 사용하여 누락된 값 먼저 정렬 가능
obj.sort_values(na_position="first")

Unnamed: 0,0
1,
3,
4,-3.0
5,2.0
0,4.0
2,7.0


In [157]:
# DataFrame에서 하나 이상의 열에 있는 값으로 정렬할 경우 sort_values 함수에 필요한 열의 이름 입력
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [158]:
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [159]:
# 여러 개 열 정렬 시 열 이름의 리스트 넘김
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [256]:
# 순위: 가장 낮은 값부터 시작해 배열의 유효한 데이터 개수까지 순서 매김
# rank: 동점인 항목에 대해서는 평균 순위를 매겨 책정
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

Unnamed: 0,0
0,7
1,-5
2,7
3,4
4,2
5,0
6,4


In [257]:
obj.rank()

Unnamed: 0,0
0,6.5
1,1.0
2,6.5
3,4.5
4,3.0
5,2.0
6,4.5


In [258]:
# 데이터상에서 나타나는 순서에 따라 순서 매기기
obj.rank(method="first")

Unnamed: 0,0
0,6.0
1,1.0
2,7.0
3,4.0
4,3.0
5,2.0
6,5.0


In [259]:
obj.rank(method="min")

Unnamed: 0,0
0,6.0
1,1.0
2,6.0
3,4.0
4,3.0
5,2.0
6,4.0


In [260]:
obj.rank(method="max")

Unnamed: 0,0
0,7.0
1,1.0
2,7.0
3,5.0
4,3.0
5,2.0
6,5.0


In [163]:
# 내림차순으로 순서 매기기
obj.rank(ascending=False)

Unnamed: 0,0
0,1.5
1,7.0
2,1.5
3,3.5
4,5.0
5,6.0
6,3.5


In [261]:
# DataFrame에서 순서 매기기
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4,0,-2.0
1,7,1,5.0
2,-3,0,8.0
3,2,1,-2.5


In [262]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [263]:
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


## 5.2.7 중복 색인
- pandas는 중복된 축 레이블 허용
- is_unique 속성을 사용하여 인덱스 레이블 고유 여부 확인
- 중복된 레이블로 인덱싱하면 Series 반환하고, 고유한 레이블로 인덱싱하면 스칼라값 반환
- DF의 경우에도 마찬가지로 동작


In [264]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

Unnamed: 0,0
a,0
a,1
b,2
b,3
c,4


In [167]:
# is_unique: 유일한지 여부 알려줌
obj.index.is_unique

False

In [265]:
obj['a']

Unnamed: 0,0
a,0
a,1


In [266]:
obj['c']

4

In [168]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                  index = ["a", "a", "b", "b", "c"]
                  )
df

Unnamed: 0,0,1,2
a,0.772381,1.385566,-0.609105
a,-0.326542,0.327511,-0.287051
b,-1.662331,0.10504,-1.420727
b,-0.60579,-0.18954,0.843275
c,-0.146804,-0.043752,0.483307


In [169]:
df.loc["b"]

Unnamed: 0,0,1,2
b,-1.662331,0.10504,-1.420727
b,-0.60579,-0.18954,0.843275


In [170]:
df.loc["c"]

Unnamed: 0,c
0,-0.146804
1,-0.043752
2,0.483307


# 5.3 기술통계 계산과 요약
- 판다스의 메서드는 누락된 데이터 제외
- pandas 객체는 다양한 수학 및 통계 메서드를 제공.
- sum(), mean(), count() 와 같은 메서드는 축을 따라 요약 통계를 계산.
- skipna 옵션을 사용하여 결측치를 제외할지 여부를 지정할 수 있음.
- idxmin(), idxmax() 메서드는 최솟값 또는 최댓값이 있는 인덱스를 반환.
- cumsum() 메서드는 누적 합계를 계산.
- describe() 메서드는 여러 통계 요약을 한 번에 제공.
- 비숫자 데이터에 대한 describe() 메서드는 다른 요약 통계를 제공.

### <br>[축소 메서드 옵션]
- axis: 축소할 축. DataFrame 행:index, 열: columns
- skipna: 누락된 값 제외여부 (기본값은 True)
- level: 계산하려는 축이 계층적 색인(MultiIndex)일 경우 레벨에 따라 묶어서 계산

### <br> [요약 통계 관련 메서드]
- count: NA 값을 제외한 값의 수 반환
- describe: Series나 DataFrame의 각 열에 대한 요약 통계 계산
- min, max: 최솟값과 최댓값
- argmin, argmax: 각각 최솟값과 최댓값을 담고 있는 색인의 위치(정수) 반환
- idxmin, idxmax: 각각 최솟값과 최댓값을 담고 있는 색인의 값 반환
- quantile: 0부터 1까지의 사분위수 계산
- sum: 합 계산
- mean: 평균 계산
- median: 중앙값(50% 사분위수) 계산
- mad: 평균값에서 평균 절대 편차 계산
- prod: 모든 값의 곱
- var: 표본 분산의 값 계산
- std; 표본 표준편차의 값 계산
- skew: 표본 비대칭도(3차 적률)의 값 계산
- kurt: 표본 첨도(4차 적률)의 값 계산
- cumsum: 누적합
- cumprod: 누적곱
- cummin, cummax; 누적 최솟값과 누적 최댓값
- diff: 1차 산술차 계산 (시계열 데이터 처리시 유용)
- pct_chage: 퍼센트 변화율 계산

In [171]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                   index=["a","b","c","d"],
                   columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [172]:
# sum: 각 열의 합을 담은 Series 반환
df.sum()

Unnamed: 0,0
one,9.25
two,-5.8


In [173]:
# axis="columns" 또는 axis=1 옵션을 넘기면 각 열의 합 반환
df.sum(axis="columns")

Unnamed: 0,0
a,1.4
b,2.6
c,0.0
d,-0.55


In [174]:
# 전체 행과 열의 모든 값이 NA라면 그 합은 0이 되고 값이 하나라도 NA라면 결괏값은 NA가 됨
df.sum(axis=1)

Unnamed: 0,0
a,1.4
b,2.6
c,0.0
d,-0.55


In [175]:
# skipna 를 사용하면 행과 열의 NA 값을 해당 결과를 NA로 지정
df.sum(axis="index", skipna=False)

Unnamed: 0,0
one,
two,


In [176]:
df.sum(axis="columns", skipna=False)

Unnamed: 0,0
a,
b,2.6
c,
d,-0.55


In [177]:
# 평균 같은 일부 집계에서는 결괏값 생성을 위해 최소 하나 이상의 NA가 아닌 값 필요
df.mean(axis="columns")

Unnamed: 0,0
a,1.4
b,1.3
c,
d,-0.275


In [178]:
# idxmin, idxmax: 최소 혹은 최댓값을 가진 색인값
df.idxmin()

Unnamed: 0,0
one,d
two,b


In [179]:
df.idxmax()

Unnamed: 0,0
one,b
two,d


In [180]:
# 누적합, 누적곱 등
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [181]:
df.cumprod()

Unnamed: 0,one,two
a,1.4,
b,9.94,-4.5
c,,
d,7.455,5.85


In [182]:
# describe: 요약 통계
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [183]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj

Unnamed: 0,0
0,a
1,a
2,b
3,c
4,a
5,a
6,b
7,c
8,a
9,a


In [184]:
obj.describe()

Unnamed: 0,0
count,16
unique,3
top,a
freq,8


### 5.3.1 상관관계와 공분산
- 일부 요약 통계(예: 상관 관계 및 공분산)는 쌍의 인수를 사용하여 계산.
- Series의 corr 메서드는 두 Series에서 겹치는 NA가 아닌 인덱스 정렬된 값의 상관 관계를 계산.
- 관련하여 cov는 공분산을 계산.
- 반면 DataFrame의 corr 및 cov 메서드는 각각 DataFrame으로 전체 상관 관계 또는 공분산 행렬을 반환.
- DataFrame의 corrwith 메서드를 사용하면 DataFrame의 열 또는 행과 다른 Series 또는 DataFrame 간의 쌍별 상관 관계를 계산.
- 고유 값, 값 개수 및 멤버십: 다른 클래스의 관련 메서드는 1차원 Series에 포함된 값에 대한 정보를 추출

In [185]:
# 파이썬 피클 바이너리
# price = pd.read_pickle("examples/yahoo_price.pkl") # 주식가격
# volume = pd.read_pickle("examples/yahoo_volume.pkl") # 거래량

In [186]:
# 야후 파이낸스에서 주식 데이터 가져오기
import yfinance as yf

In [187]:
import pandas_datareader as pdr
date_range = pd.date_range(start='2016-10-17', periods=5)
start = pd.to_datetime('2016-10-17')
end = pd.to_datetime('2016-10-21')

In [188]:
AAPL = yf.download('AAPL', start=start, end=end)
AAPL.head()

[*********************100%***********************]  1 of 1 completed


Price,Close,High,Low,Open,Volume
Ticker,AAPL,AAPL,AAPL,AAPL,AAPL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2016-10-17,27.077087,27.143886,26.899721,27.026411,94499600
2016-10-18,27.058657,27.229112,27.054049,27.222202,98214000
2016-10-19,26.978037,27.125458,26.213291,27.007981,80138400
2016-10-20,26.964214,27.037925,26.796063,26.918146,96503200


In [189]:
GOOG = yf.download('GOOG', start=start, end=end)
GOOG.head()

[*********************100%***********************]  1 of 1 completed


Price,Close,High,Low,Open,Volume
Ticker,GOOG,GOOG,GOOG,GOOG,GOOG
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2016-10-17,38.858383,39.151827,38.735822,38.850412,21860000
2016-10-18,39.62064,39.937004,39.137626,39.251468,41138000
2016-10-19,39.931522,40.085966,39.758643,39.769104,35336000
2016-10-20,39.705833,40.054583,39.659001,40.021202,35150000


In [190]:
IBM = yf.download('IBM', start=start, end=end)
IBM.head()

[*********************100%***********************]  1 of 1 completed


Price,Close,High,Low,Open,Volume
Ticker,IBM,IBM,IBM,IBM,IBM
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2016-10-17,102.125748,102.864792,101.842012,101.914597,6161358
2016-10-18,99.453369,99.638128,97.519993,98.991468,13358048
2016-10-19,99.809669,100.594895,99.525934,99.816262,4846013
2016-10-20,99.981224,100.89182,99.651296,99.822858,4208163


In [191]:
MSFT = yf.download('MSFT', start=start, end=end)
MSFT.head()

[*********************100%***********************]  1 of 1 completed


Price,Close,High,Low,Open,Volume
Ticker,MSFT,MSFT,MSFT,MSFT,MSFT
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2016-10-17,51.509029,51.725074,51.19396,51.635056,23830000
2016-10-18,51.905106,52.166162,51.680057,51.78808,19149500
2016-10-19,51.788086,52.067147,51.671063,51.734077,22878400
2016-10-20,51.536026,51.779078,51.004912,51.761074,49455600


In [192]:
# 각 종목의 'Close' 데이터를 1차원 배열로 변환한 후 DataFrame 생성
price = pd.DataFrame({
    "AAPL": AAPL['Close'].values.ravel(),  # ravel()로 1차원으로 변경
    "GOOG": GOOG['Close'].values.ravel(),
    "IBM": IBM['Close'].values.ravel(),
    "MSFT": MSFT['Close'].values.ravel()
}, index=AAPL.index)  # AAPL의 인덱스를 사용

# 결과 출력
print(price)

                 AAPL       GOOG         IBM       MSFT
Date                                                   
2016-10-17  27.077087  38.858383  102.125748  51.509029
2016-10-18  27.058657  39.620640   99.453369  51.905106
2016-10-19  26.978037  39.931522   99.809669  51.788086
2016-10-20  26.964214  39.705833   99.981224  51.536026


In [200]:
volume = pd.DataFrame({
    "AAPL": AAPL['Volume'].values.ravel(),  # ravel()로 1차원으로 변경
    "GOOG": GOOG['Volume'].values.ravel(),
    "IBM": IBM['Volume'].values.ravel(),
    "MSFT": MSFT['Volume'].values.ravel()
}, index=AAPL.index)  # AAPL의 인덱스를 사용

print(volume)

                AAPL      GOOG       IBM      MSFT
Date                                              
2016-10-17  94499600  21860000   6161358  23830000
2016-10-18  98214000  41138000  13358048  19149500
2016-10-19  80138400  35336000   4846013  22878400
2016-10-20  96503200  35150000   4208163  49455600


In [268]:
# 저자 github에서 불러오기
price = pd.read_pickle('/content/yahoo_price.pkl')
volume = pd.read_pickle('/content/yahoo_volume.pkl')

In [269]:
returns = price.pct_change()
returns

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,,,,
2010-01-05,0.001729,-0.004404,-0.012080,0.000323
2010-01-06,-0.015906,-0.025209,-0.006496,-0.006137
2010-01-07,-0.001849,-0.023280,-0.003462,-0.010400
2010-01-08,0.006648,0.013331,0.010035,0.006897
...,...,...,...,...
2016-10-17,-0.000680,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.007690
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867


In [270]:
# corr: 상관관계 계산
returns["MSFT"].corr(returns["IBM"])

0.49976361144151144

In [271]:
# cov: 공분산 계산
returns["MSFT"].cov(returns["IBM"])

8.870655479703546e-05

In [196]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,-0.1004,-0.495539,0.260979
GOOG,-0.1004,1.0,-0.814445,0.934265
IBM,-0.495539,-0.814445,1.0,-0.96781
MSFT,0.260979,0.934265,-0.96781,1.0


In [197]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,2e-06,-2e-06,-1.1e-05,2e-06
GOOG,-2e-06,0.00016,-0.000172,7.8e-05
IBM,-1.1e-05,-0.000172,0.000278,-0.000107
MSFT,2e-06,7.8e-05,-0.000107,4.4e-05


In [198]:
# DataFrame의 corrwith 메서드: 다른 Series나 DataFrame과의 상관관계 계산
returns.corrwith(returns["IBM"])

Unnamed: 0,0
AAPL,-0.495539
GOOG,-0.814445
IBM,1.0
MSFT,-0.96781


In [202]:
# 거래량과 백분율 변화에 대한 상관관계
returns.corrwith(volume)

Unnamed: 0,0
AAPL,0.989227
GOOG,0.859883
IBM,-0.992996
MSFT,-0.741381


## 5.3.2 유일값, 값 세기, 멤버십
- isin: Series의 각 원소가 넘겨받은 연속된 값에 속하는지 여부 반환(불리언 배열)
- get_indexer: 각 값에 대해 유일한 값을 담고 있는 배열에서의 정수 색인 계산 (데이터 정렬이나 조인 형태 연산 시 유용)
- unique: Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열 반환 (Series에서 발견된 순서대로 반환)
- value_counts: Series에서 유일한 값에 대한 색인과 도수(개수) 계산. 도수는 내림차순으로 반환


In [203]:
# unique 함수: Series에서 중복 값 제거하고 유일값 반환
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

In [205]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [207]:
# .sort: 정렬된 순서로 반환
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

In [208]:
# value_counts: 데이터 개수 계산해 반환
obj.value_counts()

Unnamed: 0,count
c,3
a,3
b,2
d,1


In [210]:
pd.value_counts(obj.to_numpy(), sort=False)

  pd.value_counts(obj.to_numpy(), sort=False)


Unnamed: 0,count
c,3
a,3
d,1
b,2


In [211]:
# isin: 존재 여부 반환 (boolean)
obj

Unnamed: 0,0
0,c
1,a
2,d
3,a
4,a
5,b
6,b
7,c
8,c


In [212]:
mask = obj.isin(["b", "c"])
mask

Unnamed: 0,0
0,True
1,False
2,False
3,False
4,False
5,True
6,True
7,True
8,True


In [213]:
obj[mask] # isin() 함수를 이용한 필터링

Unnamed: 0,0
0,c
5,b
6,b
7,c
8,c


In [272]:
# Index.get_indexer: 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열 구함
to_match = pd.Series(["c", "a", "b", "b", "c", "a"]) # 비교할 값
unique_vals = pd.Series(["c", "b", "a"]) # 고윳값

indices = pd.Index(unique_vals).get_indexer(to_match) # 값의 위치 매칭
indices

array([0, 2, 1, 1, 0, 2])

In [216]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [218]:
# 단일 열에 대한 값 개수 계산
data["Qu1"].value_counts().sort_index()

Unnamed: 0_level_0,count
Qu1,Unnamed: 1_level_1
1,1
3,2
4,2


In [220]:
# 모든 열에 대한 값 개수 계산
# apply 메서드에 pandas.value_counts
result = data.apply(pd.value_counts).fillna(0)
result

  result = data.apply(pd.value_counts).fillna(0)


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [221]:
# 각 행을 튜플로 간주해 구별되는 행의 수 계산
data = pd.DataFrame({"a":[1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data

Unnamed: 0,a,b
0,1,0
1,1,0
2,1,1
3,2,0
4,2,0


In [222]:
data.value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
a,b,Unnamed: 2_level_1
1,0,2
2,0,2
1,1,1
