In [None]:
# Chapter 5 Pandas 시작하기

In [None]:
# Pandas는 앞으로 가장 자주 살펴볼 라이브러리다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다.

In [None]:
# pandas는 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 사용하는 경우가 흔하다. 

In [None]:
# pandas는 for 문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용했다. 

In [None]:
# pandas와 NumPy의 가장 큰 차이는 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다는 것이다. NumPy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다. 

In [None]:
# 앞으로 pandas의 import 컨벤션을 다음과 같이 사용할 예정이다.

In [None]:
import pandas as pd

In [None]:
import numpy as np

In [None]:
# 앞으로 코드에서 pd.를 보면 pandas를 지칭하는 것으로 이해하자. Series와 DataFrame은 로컬 네임스페이스로 임포트하는 것이 훨씬 편하므로 그렇게 사용하도록 하겠다.

In [None]:
from pandas import Series, DataFrame

In [None]:
# 5.1 pandas 자료구조 소개

In [None]:
# pandas에 대해 알아보려면 Series와 DataFrame, 이 두 가지 자료구조에 익숙해질 필요가 있다. 이 두 가지 자료구조로 모든 문제를 해결할 순 없지만 대부분의 애플리케이션에서 사용하기 쉽다.
# 또한 탄탄한 기반을 제공한다.

In [None]:
# 5.1.1 Series 

In [None]:
# Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다(어떤 NumPy 자료형이라도 담을 수 있다). 그리고 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [None]:
# 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다. 

In [None]:
obj = pd.Series([4, 7, -5, 3])

In [None]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
# Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다. 

In [None]:
# 위 에제에서는 데이터의 색인을 지정하지 않았으니 기본 색인인 정수 0에서 N - 1(N은 데이터의 길이)까지의 숫자가 표시된다. 

In [None]:
# Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [None]:
obj.values

array([ 4,  7, -5,  3])

In [None]:
obj.index # range(4)와 같다. 

RangeIndex(start=0, stop=4, step=1)

In [None]:
# 각각의 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음처럼 한다.

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])

In [None]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [None]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [None]:
# NumPy 배열과 비교하자면, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다. 

In [None]:
obj2["a"]

-5

In [None]:
obj2["d"] = 6

In [None]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [None]:
# 여기서 ["c", "a", "d"]는 (정수가 아니라 문자열이 포함되어 있지만) 색인의 배열로 해석된다.

In [None]:
# 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [None]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [None]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [None]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [None]:
# Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형이라고 생각하는 것이다. 

In [None]:
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다. 

In [None]:
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [None]:
"b" in obj2

True

In [None]:
"e" in obj2

False

In [None]:
# 파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [None]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah":5000}

In [None]:
obj3 = pd.Series(sdata)

In [None]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
# 사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [None]:
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [None]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [None]:
obj4 = pd.Series(sdata, index=states)

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
# 이 예제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, "California"에 대한 값은 찾을 수 없기 때문이다.

In [None]:
# 이 값은 NaN(not a number)으로 표시되고 pandas에서는 누락된 값, 혹은 NA 값으로 취급한다.

In [None]:
# "Utah"는 states에 포함되어 있지 않으므로 실행 결과에서 빠지게 된다.

In [None]:
# 앞으로 "누락된" 또는 "NA"를 누락된 데이터를 지칭하는 데 사용하도록 하겠다. pandas의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.

In [None]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [None]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [None]:
# 이 메서드는 Series의 인스턴스 메서드로도 존재한다. 

In [None]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [None]:
# 누락된 데이터를 처리하는 방법은 7장에서 조금 더 자세히 살펴볼 예정이다.

In [None]:
# Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [None]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [None]:
# 데이터 정렬에 대한 내용은 차후에 살펴볼 것이다. 데이터베이스를 사용해본 경험이 있다면 join 연산과 비슷하다고 여겨질 것이다.

In [None]:
# Series 객체와 Series의 색인은 "모두 name 속성이 있는데" 이 속성은 pandas의 핵심 기능과 밀접한 관련이 있다. 

In [None]:
obj4.name = "population"

In [None]:
obj4.index.name = "state"

In [None]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [None]:
# Series의 색인은 대입하여 변경할 수 있다.

In [None]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [None]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [None]:
# 5.1.2 DataFrame

In [None]:
# DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.

In [None]:
# DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.

In [None]:
# 내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장된다.

In [None]:
# 구체적인 DataFrame의 내부 구조는 이 책에서 다루는 내용에서 한참 벗어나므로 생략하겠다.

In [None]:
# DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다.

In [None]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"], 
        "year" : [2000, 2001, 2002, 2001, 2002, 2003], 
        "pop" : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
# 만들어진 DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장된다.

In [None]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
# 주피터 노트북을 사용한다면 DataFrame 객체는 브라우저에서 좀 더 보기 편하도록 HTML 표 형식으로 출력될 것이다.

In [None]:
# 큰 DataFrame을 다룰 때는 head 메서드를 이용해서 처음 5개의 로우만 출력할 수도 있다.

In [None]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [None]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [None]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [None]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

In [None]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"],
                      index=["one", "two", "three", "four", 
                             "five", "six"]) 

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [None]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [None]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근하거나 속성 형식으로 접근할 수 있다.

In [None]:
frame2["state"]

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [None]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [None]:
# 반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

In [None]:
# 로우나 위치는 loc 속성을 이용해서 이름을 통해 접근할 수 있다.

In [None]:
frame2.loc["three"]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [None]:
# 컬럼은 대입이 가능하다. 예를 들어 현재 비어 있는 "debt" 컬럼에 스칼라값이나 배열의 값을 대입할 수 있다.

In [None]:
frame2["debt"] = 16.5

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [None]:
frame2["debt"] = np.arange(6.)

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [None]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다.

In [None]:
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])

In [None]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [None]:
# 존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다. 파이썬 사전형에서처럼 del 예약어를 사용해서 컬럼을 삭제할 수 있다.

In [None]:
# del 예약어에 대한 예제로, state 컬럼의 값이 "Ohio"인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼을 생성해보자.

In [None]:
frame2["eastern"] = frame2.state == "Ohio"

In [None]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,0.0,True
two,2001,Ohio,1.7,1.0,True
three,2002,Ohio,3.6,2.0,True
four,2001,Nevada,2.4,3.0,False
five,2002,Nevada,2.9,4.0,False
six,2003,Nevada,3.2,5.0,False


In [None]:
# del 예약어를 이용해서 이 컬럼을 삭제할 수 있다.

In [None]:
del frame2["eastern"]

In [None]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [None]:
# 중첩된 사전을 이용해서 데이터를 생성할 수 있다. 다음과 같은 중첩된 사전이 있다고 하자.

In [None]:
pop = {"Nevada": {2001: 2.4, 2002: 2.9}, 
       "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
# 이 중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [None]:
frame3 = pd.DataFrame(pop)

In [None]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
# NumPy 배열과 유사한 문법으로 데이터를 전치(컬럼과 로우를 뒤집음)할 수 있다.

In [None]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [None]:
# 중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만 색인을 직접 지정하면 지정된 색인으로 DataFrame을 생성한다.

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [None]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급된다.

In [None]:
pdata = {"Ohio": frame3["Ohio"][:1], 
         "Nevada": frame3["Nevada"][:2]}

In [None]:
# DataFrame 생성자에 넘길 수 있는 자료형의 목록은 [표 5-1]을 참조하자. 195페이지

In [None]:
# 만일 데이터프레임을 색인(index)과 컬럼(columns)에 name 속성을 지정했다면 이 역시 함께 출력된다.

In [None]:
frame3.index.name = "year"; frame3.columns.name = "state"

In [None]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.

In [None]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [None]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택된다.

In [None]:
frame2.values

array([[2000, 'Ohio', 1.5, 0.0],
       [2001, 'Ohio', 1.7, 1.0],
       [2002, 'Ohio', 3.6, 2.0],
       [2001, 'Nevada', 2.4, 3.0],
       [2002, 'Nevada', 2.9, 4.0],
       [2003, 'Nevada', 3.2, 5.0]], dtype=object)

In [None]:
# 5.1.3 색인 객체

In [None]:
# pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 데이터이다.

In [None]:
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [None]:
obj = pd.Series(range(3), index=["a", "b", "c"])

In [None]:
index = obj.index

In [None]:
index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
index[1:]

Index(['b', 'c'], dtype='object')

In [None]:
# 색인 객체는 변경이 불가능하다.

In [None]:
# index[1] = "d" # TypeError 발생

In [None]:
# 그러므로 자료구조 사이에서 안전하게 공유될 수 있다.

In [None]:
labels = pd.Index(np.arange(3))

In [None]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [None]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [None]:
obj2.index is labels

True

In [None]:
# 또한 배열과 유사하게 Index 객체도 고정 크기로 동작한다.

In [None]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [None]:
"Ohio" in frame3.columns

True

In [None]:
2003 in frame3.index

False

In [None]:
# 파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용한다.

In [None]:
dup_labels = pd.Index(["foo" ,"foo", "bar", "bar"])

In [None]:
# 중복되는 값으로 선택을 하면 해당 값을 가진 모든 항목이 선택된다.

In [None]:
# 각각의 색인은 자신이 담고 있는 데이터에 대한 정보를 취급하기 위한 여러가지 메서드와 속성을 가지고 있다. 이는 표[5-2]를 참조하자. 197페이지

In [None]:
# 5.2 핵심 기능

In [None]:
# 이 절에서는 Series나 DataFrame에 저장된 데이터를 다루는 기본적인 방법을 설명하겠다. 다음 몇몇 장에서는 pandas를 이용한 데이터 분석과 조작을 더 자세히 살펴볼 것이다.

In [None]:
# 이 책은 pandas 라이브러리의 완전한 설명을 포함하지 않고 중요한 기능에만 초점을 맞추고 있다.

In [None]:
# 5.2.1 재색인

In [None]:
# pandas 객체의 중요한 기능 중 하나는 reindex인데, 새로운 색인에 "맞도록" 객체를 새로 생성한다.

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])

In [None]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [None]:
# 이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.

In [None]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])

In [None]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [None]:
# 시계열 같은 순차적인 데이터를 재색인할 때 값을 보관하거나 채워 넣어야 할 경우가 있다.

In [None]:
# method 옵션을 이용해서 이를 해결할 수 있으며, ffill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [None]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])

In [None]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [None]:
obj3.reindex(range(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [None]:
# DateFrame에 대한 reindex는 로우(색인), 컬럼 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 로우가 재색인된다.

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"], 
                     columns=["Ohio", "Texas", "Calfornia"])

In [None]:
frame

Unnamed: 0,Ohio,Texas,Calfornia
a,0,1,2
c,3,4,5
d,6,7,8


In [None]:
frame2 = frame.reindex(["a", "b", "c", "d"])

In [None]:
frame2

Unnamed: 0,Ohio,Texas,Calfornia
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [None]:
# 컬럼은 columns 예약어를 사용해서 재색인할 수 있다.

In [None]:
states = ["Texas", "Utah", "Calfornia"]

In [None]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,Calfornia
a,1,,2
c,4,,5
d,7,,8


In [None]:
# reindex의 인자는 [표 5-3]을 참조하자. 200페이지

In [None]:
# 곧 다루겠지만 재색인은 loc를 이용해서 라벨로 색인하면 좀 더 간결하게 할 수 있으며 대부분의 사용자는 명시적으로 이 방식을 사용하는 것을 선호한다.

In [None]:
# frame.loc[["a", "b", "c", "d"], states] - 오류 발생으로 인한 주석 처리, 정정 예정

In [None]:
# 5.2.2 하나의 로우나 컬럼 삭제하기

In [None]:
# 색인 배열, 또는 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있는데 이 방법은 데이터의 모양을 변경하는 작업이 필요하다.

In [None]:
# drop 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [None]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])

In [None]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [None]:
new_obj = obj.drop("c")

In [None]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [None]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

In [None]:
# DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있다. 다음 예제를 살펴보자.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                    index=["Ohio", "Colorado", "Utah", "New York"], 
                    columns=["one", "two", "three", "four"])

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# drop 함수에 인자로 로우 이름을 넘기면 해당 로우 (axis 0)의 값을 모두 삭제한다.

In [None]:
data.drop(["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 컬럼의 값을 삭제할 때는 axis=1 또는 axis="columns"를 인자로 넘겨주면 된다.

In [None]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [None]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [None]:
# drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [None]:
obj.drop("c", inplace=True)

In [None]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [None]:
# inplace 옵션을 사용하는 경우 버려지는 값을 모두 삭제하므로 주의해서 사용하자.

In [None]:
# 5.2.3 색인하기, 선택하기, 거르기

In [None]:
# Series의 색인(obj[...])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다르다. 몇 가지 예제를 보자.

In [None]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])

In [None]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj["b"]

1.0

In [None]:
obj[1]

1.0

In [None]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [None]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [None]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [None]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [None]:
# 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다는 것이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [None]:
obj["b":"c"]

b    1.0
c    2.0
dtype: float64

In [None]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작한다.

In [None]:
obj["b":"c"] = 5

In [None]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [None]:
# 색인으로 DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [None]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [None]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 로우를 선택할 수 있다.

In [None]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# data[:2] 형식의 문법으로 편리하게 로우를 선택할 수 있다. [] 연산자에 단일 값을 남기거나 리스트를 넘겨서 여러 컬럼을 선택할 수 있다. 

In [None]:
# 또다른 방법으로는 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 것이다.

In [None]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [None]:
data[data < 5] = 0

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 위 예제는 DataFrame을 2차원 ndarray와 문법적으로 비슷하게 보이도록 의도한 것이다.

In [None]:
# loc와 iloc으로 선택하기

In [None]:
# DataFrame의 로우에 대해 라벨로 색인하는 방법으로 특수한 색인 필드인 loc과 iloc을 소개한다. 

In [None]:
# 이 방법을 이용하면 NumPy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있다. 

In [None]:
# 축 이름을 선택할 떄는 loc를, 정수 색인으로 선택할 때는 iloc을 사용한다.

In [None]:
# 앞선 예제에서 축의 라벨로 하나의 로우와 여러 컬럼을 선택해보자.

In [None]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
# iloc을 이용하면 정수 색인으로도 위와 비슷하게 선택할 수 있다.

In [None]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [None]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [None]:
# 이 두 함수는 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원한다.

In [None]:
data.loc[:"Utah", "two"]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [None]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
# 지금까지 살펴봤듯이 pandas 객체에서 데이터를 선택하고 재배열하는 방법은 여러 가지가 있다. [표5-4]에 다양한 방법을 요약해두었다. 

In [None]:
# 나중에 살펴볼 계층적 색인을 이용하면 좀 더 다양한 방법을 사용할 수 있다.

In [None]:
# 5.2.4 정수 색인

In [None]:
# 정수 색인으로 pandas 객체를 다루다보면 리스트나 튜플 같은 파이썬 내장 자료구조에서 색인을 다루는 방법과의 차이점 때문에 실수하게 되는 경우가 있다.

In [None]:
# 예를 들어 다음 코드가 에러가 발생할 것이라고 생각하지 않을 것이다.

In [None]:
ser = pd.Series(np.arange(3.))

In [None]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [None]:
# ser[-1] ValueError: -1 is not in range Error 발생

In [None]:
# 이 경우 pandas는 라벨 색인을 찾는 데 실패하므로 정수 색인으로 값을 찾는다. 하지만 이를 어떤 경우에도 버그 없이 잘 작동하도록 구현하기란 쉽지 않다.

In [None]:
# 라벨 색인이 0, 1, 2를 포함하는 경우 사용자가 라벨 색인으로 선택하려는 것인지 정수 색인으로 선택하려는 것인지 추측하기 쉽지 않다.

In [None]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [None]:
# 반면 정수 기반의 색인을 사용하지 않는 경우 이런 모호함은 사라진다.

In [None]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])

In [None]:
ser2[-1]

2.0

In [None]:
# 일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현되어 있다.

In [None]:
# 좀 더 세밀하게 사용하고 싶다면 라벨에 대해서는 loc을 사용하고 정수 색인에 대해서는 iloc을 사용하자.

In [None]:
ser[:1]

0    0.0
dtype: float64

In [None]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [None]:
ser.iloc[:1]

0    0.0
dtype: float64

In [None]:
# 5.2.5 산술 연산과 데이터 정렬

In [None]:
# pandas에서 가장 중요한 기능 중 하나는 다른 색인을 가지고 있는 객체 간의 산술 연산이다.

In [None]:
# 객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합된다.

In [None]:
# 데이터베이스를 사용해본 경험이 있다면 색인 라벨에 대한 외부 조인과 유사하게 동작한다고 생각할 수 있다. 예제를 보자. 

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])

In [None]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [None]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [None]:
# 이 두 객체를 더하면 다음과 같은 결과를 얻는다. 

In [None]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [None]:
# 서로 겹치는 색인이 없는 경우 데이터는 NA 값이 된다. 산술 연산 시 누락된 값은 전파된다.

In [None]:
# DataFrame의 경우 정렬은 로우와 컬럼 모두에 적용된다.

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"), 
                   index=["Utah", "Ohio", "Texas", "Oregeon"])

In [None]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [None]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregeon,9.0,10.0,11.0


In [None]:
# 이 두 DataFrame을 더하면 각 DataFrame에 있는 색인과 컬럼이 하나로 합쳐진다.

In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregeon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
# "c"와 "e" 컬럼이 양쪽 DataFrame 객체에 존재하지 않으므로 결과에서는 모두 없는 값으로 나타난다.  

In [None]:
# 로우 역시 마찬가지로 양쪽에 다 존재하지 않는 라벨에 대해서는 없는 값으로 나타난다.

In [None]:
# 공통되는 컬럼 라벨이나 로우 라벨이 없는 DataFrame을 더하면 결과에 아무것도 나타나지 않을 것이다.

In [None]:
df1 = pd.DataFrame({"A": [1, 2]})

In [None]:
df2 = pd.DataFrame({"B": [3, 4]})

In [None]:
df1

Unnamed: 0,A
0,1
1,2


In [None]:
df2

Unnamed: 0,B
0,3
1,4


In [None]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


In [None]:
# 산술 연산 메서드에 채워 넣을 값 지정하기

In [None]:
# 서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(0 같은)으로 지정하고 싶을 때는 다음과 같이 할 수 있다.

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))

In [None]:
df2.loc[1, "b"] = np.nan

In [None]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
# 위 둘을 더하면 겹치지 않는 부분은 NA 값이 된다. 

In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [None]:
# df1에 add 메서드를 사용하고, df2와 fill_value 값을 인자로 전달한다.

In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
# [표 5-5]에 Series와 DataFrame의 산술 연산 메서드를 정리했다.

In [None]:
# 각각의 산술 연산 메서드는 r로 시작하는 계산 인자를 뒤집어 계산하는 짝궁 메서드를 가진다.

In [None]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
# Series나 DataFrame을 재색인할 때도 fill_value를 지정할 수 있다.

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [None]:
# [표 5-5] 산술 연산 메서드 페이지 214쪽

In [None]:
# DataFrame과 Series 간의 연산

In [None]:
# 다른 차원의 NumPy 배열과의 연산처럼 DataFrame과 Series 간의 연산도 잘 정의되어 있다. 먼저 2차원 배열과 그 배열의 한 로우의 차이에 대해 생각할 수 있는 예제를 보자. 

In [None]:
arr = np.arange(12.).reshape((3, 4))

In [None]:
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]

array([0., 1., 2., 3.])

In [None]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
# arr에서 arr[0]을 빼면 계산은 각 로우에 대해 한 번씩만 수행한다. 이를 브로드캐스팅이라고 하는데 더 자세한 내용은 부록 A에서 다룰 것이다.

In [None]:
# DataFrame과 Series 간의 연산은 이와 유사하다.

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                    columns=list("bde"), 
                    index=["Utah", "Ohio", "Texas", "Oregeon"])

In [None]:
series = frame.iloc[0]

In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregeon,9.0,10.0,11.0


In [None]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [None]:
# 기본적으로 DataFrame과 Series 간의 색인을 DataFrame의 컬럼에 맞추고 아래 로우로 전파한다.

In [None]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregeon,9.0,9.0,9.0


In [None]:
# 만약 색인값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인된다.

In [None]:
series2 = pd.Series(range(3), index=["b", "e", "f"])

In [None]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregeon,9.0,,12.0,


In [None]:
# 만약 각 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드를 사용하면 된다.

In [None]:
series3 = frame["d"]

In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregeon,9.0,10.0,11.0


In [None]:
series3

Utah        1.0
Ohio        4.0
Texas       7.0
Oregeon    10.0
Name: d, dtype: float64

In [None]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregeon,-1.0,0.0,1.0


In [None]:
# 인자로 넘기는 axis 값은 연산을 적용할 축 번호다. axis="index"나 axis=0은 DataFrame의 로우를 따라 연산을 수행하라는 의미다.

In [None]:
# 5.2.6 함수 적용과 매핑

In [None]:
# Pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list("bde"), 
                     index=["Utah", "Ohio", "Texas", "Oregeon"])

In [None]:
frame

Unnamed: 0,b,d,e
Utah,3.137241,-0.246419,0.484869
Ohio,1.760723,-0.90814,-0.830763
Texas,-1.787867,-1.924173,-0.175281
Oregeon,1.212485,0.122239,-0.512302


In [None]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,3.137241,0.246419,0.484869
Ohio,1.760723,0.90814,0.830763
Texas,1.787867,1.924173,0.175281
Oregeon,1.212485,0.122239,0.512302


In [None]:
# 자주 사용되는 또 다른 연산은 각 컬럼이나 로우의 1차원 배열에 함수를 적용하는 것이다. 

In [None]:
# DataFrame의 apply 메서드를 이용해 수행할 수 있다.

In [None]:
f = lambda x: x.max() - x.min()

In [None]:
frame.apply(f)

b    4.925109
d    2.046412
e    1.315632
dtype: float64

In [None]:
# 여기서 함수 f는 Series의 최댓값과 최솟값의 차이를 계산하는 함수다.

In [None]:
# frame의 각 컬럼에 대해 한 번만 수행되며 결괏값은 계산을 적용한 컬럼을 색인으로 하는 Series를 반환한다.

In [None]:
# apply 함수에 axis="columns" 인자를 넘기면 각 로우에 대해 한 번씩만 수행된다.

In [None]:
frame.apply(f, axis="columns")

Utah       3.383661
Ohio       2.668862
Texas      1.748892
Oregeon    1.724786
dtype: float64

In [None]:
# 배열에 대한 일반적인 통계(sum이나 mean 같은)는 DataFrame의 메서드로 존재하므로 apply 메서드를 사용할 필요가 없다.

In [None]:
# apply 메서드에 전달된 함수는 스칼라값을 반환할 필요가 없다. 여러 값을 가진 Series를 반환해도 된다.

In [None]:
def f(x):
  return pd.Series([x.min(), x.max()], index=["min", "max"])

In [None]:
# 배열의 각 원소에 적용되는 파이썬 함수를 사용할 수도 있다. frame 객체에서 실숫값을 문자열 포맷으로 변환하고 싶다면 applymap을 이용해서 다음과 같이 할 수 있다.

In [None]:
format = lambda x: "%.2f" % x

In [None]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,3.14,-0.25,0.48
Ohio,1.76,-0.91,-0.83
Texas,-1.79,-1.92,-0.18
Oregeon,1.21,0.12,-0.51


In [None]:
# 이 메서드의 이름이 applymap인 이유는 Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문이다.

In [None]:
# 5.2.7 정렬과 순위

In [None]:
# 어떤 기준에 근거해서 데이터를 정렬하는 것 역시 중요한 명령이다. 로우나 컬럼의 색인을 알파벳순으로 정렬하려면 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다.

In [None]:
obj = pd.Series(range(4), index=["d","a", "b", "c"])

In [None]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [None]:
# DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])

In [None]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [None]:
# 데이터는 기본적으로 오름차순으로 정렬되고 내림차순으로 정렬할 수도 있다. 

In [None]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [None]:
# Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용하면 된다.

In [None]:
obj = pd.Series([4, 7, -3, 2])

In [None]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [None]:
# 정렬할 때 비어 있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [None]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [None]:
# DataFrame에서 하나 이상의 컬럼에 있는 값으로 정렬을 하는 경우 sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기면 된다.

In [None]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})

In [None]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [None]:
frame.sort_values(by="b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
# 여러 개의 컬럼을 정렬하려면 컬럼 이름이 담긴 리스트를 전달하면 된다.

In [None]:
frame.sort_values(by=["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [None]:
# 순위는 정렬과 거의 흡사한데, 1부터 배열의 유효한 데이터 개수까지 순서를 매긴다.

In [None]:
# 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [None]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [None]:
# 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [None]:
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [None]:
# 여기서 0번째와 2번째 항목에 대해 평균 순위인 6.5를 적용하는 대신 먼저 출현한 순서대로 6과 7을 적용했다. 

In [None]:
# 내림차순으로 순위를 매길 수도 있다. 

In [None]:
# 동률인 경우 그룹 내에서 높은 순위를 적용한다.

In [None]:
obj.rank(ascending=False, method="max")

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [None]:
# 표[5-6]에 사용 가능한 동률 처리 메서드를 나열해두었다. 페이지 224

In [None]:
# DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [None]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})

In [None]:
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [None]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [None]:
# 5.2.8 중복 색인

In [None]:
# 지금까지 살펴본 모든 예제는 축 이름(색인값)이 유일한 경우 밖에 없었다.

In [None]:
# pandas의 많은 함수(reindex 같은)에서 색인값은 유일해야 하지만 의무적이지는 않다. 

In [None]:
# 중복된 색인값을 가지는 Series 객체를 살펴보자.

In [None]:
obj = pd.Series(range(5), index=["a", "a", "b", "b", "c"])

In [None]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [None]:
# 색인의 is_unique 속성은 해당 값이 유일한지 아닌지 알려준다.

In [None]:
obj.index.is_unique

False

In [None]:
# 중복되는 색인값이 있다면 색인을 이용해서 데이터에 접근했을 때 다르게 동작한다.

In [None]:
# 중복되는 색인값이 없을 때는 색인을 이용해서 데이터에 접근하면 스칼라값을 반환하지만 중복되는 색인값이 있을 때는 하나의 Series 객체를 반환한다.

In [None]:
obj["a"]

a    0
a    1
dtype: int64

In [None]:
obj["c"]

4

In [None]:
# 이는 라벨이 반복되는지 여부에 따라 색인을 이용해서 선택한 결과가 다를 수 있기 때문에 코드를 좀 더 복잡하게 만들 수 있다.

In [None]:
# DataFrame에서 로우를 선택하는 것도 동일하다.

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), index=["a", "a", "b", "b"])

In [None]:
df

Unnamed: 0,0,1,2
a,1.613385,-1.264374,0.52003
a,-0.765826,1.810107,-0.970791
b,-0.363409,0.043225,-2.246586
b,-0.791786,0.1081,-0.801369


In [None]:
df.loc["b"]

Unnamed: 0,0,1,2
b,-0.363409,0.043225,-2.246586
b,-0.791786,0.1081,-0.801369


In [None]:
# 5.3 기술 통계 계산과 요약

In [None]:
# pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다.

In [None]:
# 이 메서드의 대부분은 하나의 Series나 DataFrame의 로우나 컬럼에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약 통계 범주에 속한다.

In [None]:
# 순수 NumPy 배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다. 다음과 같은 DataFrame을 생각해보자.

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]], 
                  index=["a", "b", "c", "d"], 
                  columns=["one", "two"])

In [None]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
# DataFrame의 sum 메서드를 호출하면 각 컬럼의 합을 담은 Series를 반환한다.

In [None]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [None]:
# axis="columns" 또는 axis=1 옵션을 넘기면 각 컬럼의 합을 반환한다.

In [None]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [None]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [None]:
# [표 5-7]에서 공통적으로 사용되는 축소 메서드의 옵션을 확인할 수 있다. 페이지 227

In [None]:
# idxmin이나 idxmax 같은 메서드는 최솟값 혹은 최댓값은 가지고 있는 색인값과 같은 간접 통계를 반환한다.

In [None]:
df.idxmax()

one    b
two    d
dtype: object

In [None]:
# 또 다른 메서드로 누산이 있다.

In [None]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [None]:
# 축소나 누산이 아닌 다른 종류의 메서드로 describe가 있는데, 이 메서드는 한 번에 여러 개의 통계 결과를 만들어낸다.

In [None]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [None]:
# 수치 데이터가 아닐 경우 describe는 다른 요약 통계를 생성한다.

In [None]:
obj = pd.Series(["a", "a", "b", "c"] * 4)

In [None]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [None]:
# [표 5-8]에 요약 통계 관련 메서드의 전체 목록을 나열했다. 페이지 228-229

In [None]:
# 5.3.1 상관관계와 공분산

In [None]:
# 상관관계나 공분산 같은 요약 통계 계산은 두 쌍의 인자를 필요로 한다.

In [None]:
# pandas-datareader 패키지를 이용해서 야후! 금융 사이트에서 구한 주식 가격과 시가총액을 담고 있는 DataFrame을 생각해보자.

In [None]:
# 아직 설치하지 않았다면 conda나 pip를 통해 설치할 수 있다.

In [None]:
# 2017년에 버라이즌이 야후를 인수했기 때문에 지금 시점에 야후 금융 서비스가 작동하지 않는다. 따라서 주석 처리 후 코드를 작성하겠다. 결괏값은 패스한다. 

In [None]:
# pandas_datareader 모듈을 이용해서 주가 정보를 다운로드하자.

In [None]:
import pandas_datareader.data as web

In [None]:
# import pandas_datareader.data as web
# all_data = {ticker: web.get_data_yahoo(ticker)
#             for ticker in ["AAPL", "IBM", "MSFT", "GOOG"]}
# price = pd.DataFrame({ticker: data["Adj Close"]
#                       for ticker, data in all_data.items()})
# volume = pd.DataFrame({ticker: data["Volume"]
#                        for ticker, data in all_data.items()})

In [None]:
# 이제 각 주식의 퍼센트 변화율을 계산해보자. 시계열을 다루는 법은 11장에서 자세히 설명하겠다.

In [None]:
# returns = price.pct_shange()

In [None]:
# return.tail()

In [None]:
# corr 메서드는 NA가 아니며 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계산하고 cov 메서드는 공분산을 계산한다.

In [None]:
# returns["MSFT"].corr(returns["IBM"])

In [None]:
# returns["MSFT"].cov(returns["IBM"])

In [None]:
# MSFT는 파이썬 속성 이름 규칙에 어긋나지 않으므로 좀 더 편리한 문법으로 해당 컬럼을 선택할 수 있다.

In [None]:
# return.MSFT.corr(returns.IBM)

In [None]:
# 반면에 DataFrame에서 corr과 cov 메서드는 DataFrame 행렬에서 상관관계와 공분산을 계산한다.

In [None]:
# returns.corr()

In [None]:
# returns.cov()

In [None]:
# DataFrame의 corrwith 메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산한다.

In [None]:
# Series를 넘기면 각 컬럼에 대해 계산한 상관관계를 담과 있는 Series를 반환한다.

In [None]:
# return.corrwith(returns.IBM)

In [None]:
# DataFrame을 넘기면 맞아떨어지는 컬럼 이름에 대한 상관관계를 계산한다.

In [None]:
# 여기서 시가총액의 퍼센트 변화율에 대한 상관관계를 계산해보았다. 

In [None]:
# returns.corrwith(volume)

In [None]:
# axis="columns" 옵션을 넘기면 각 컬럼에 대한 상관관계와 공분산을 계산한다.

In [None]:
# 모든 경우 데이터는 상관관계를 계산하기 전에 색인의 이름순으로 정렬된다.

In [None]:
# 5.3.2 유일값, 값 세기, 멤버쉽

In [None]:
# 또 다른 종류의 메서드로는 1차원 Series에 담긴 값의 정보를 추출하는 메서드가 있다.

In [None]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

In [None]:
# unique 메서드는 중복되는 값을 제거하고 유일값만 담고 있는 Series를 반환한다.

In [None]:
uniques = obj.unique()

In [None]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [None]:
# 유일값은 정렬된 순서대로 반환되지 않지만 필요하다면 uniques.sort()를 이용해서 나중에 정렬할 수 있다. 

In [None]:
# 그리고 value_counts 메서드는 Series에서 도수를 계산하여 반환한다.

In [None]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [None]:
# value_counts에서 반환하는 Series는 담고 있는 값을 내림차순으로 정렬한다.

In [None]:
# value_counts 메서드는 pandas의 최상위 메서드로, 어떤 배열이나 순차 자료구조에서도 사용할 수 있다. 

In [None]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [None]:
# isin 메서드는 어떤 값이 Series에 존재하는지 나타내는 불리언 벡터를 반환하는데, Series나 DataFrame의 컬럼에서 값을 골라내고 싶을 때 유용하다.

In [None]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [None]:
mask = obj.isin(["b", "c"])

In [None]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [None]:
# isin과 관련이 있는 Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있다.

In [None]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a"])

In [None]:
unique_vals = pd.Series(["c", "b", "a"])

In [None]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

In [None]:
# [표 5-9]에서 지금까지 살펴본 메서드를 참조하자. 페이지 234

In [None]:
# DataFrame의 여러 컬럼에 대해 히스토그램을 구해야하는 경우가 있다.

In [None]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3], 
                     "Qu3": [1, 5, 2, 4, 4]})

In [None]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [None]:
# 위 DataFrame의 apply 함수에 pandas.value_counts를 넘기면 다음과 같은 결과를 얻을 수 있다.

In [None]:
result = data.apply(pd.value_counts).fillna(0)

In [None]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [None]:
# 여기서 결괏값의 로우 라벨은 전체 컬럼의 유일한 값들을 담고 있다. 각 값은 각 컬럼에서 해당 값이 몇 번 출현했는지 나타낸다.

In [None]:
# 마치며; 다음 장에서는 pandas를 이용해서 데이터셋을 읽고 쓰는 도구를 다룰 것이다. 그 다음에는 데이터를 정제하고 분석하고 시각화하는 도구를 더 깊이 살펴본다.

In [None]:
# Chapter 6 데이터 로딩과 저장, 파일 형식

In [None]:
# 이 책에서 다루는 대부분의 도구를 사용하는 첫 관문은 데이터에 접근하는 것이다. 

In [None]:
# 다양한 형식의 데이터를 읽고 쓸 수 있는 많은 라이브러리가 있지만 이 책에서는 pandas에 초점을 맞춰 설명한다.

In [None]:
# 일반적으로 입출력은 몇 가지 작은 범주로 나뉘는데, 텍스트 파일을 이용하는 방법, 데이터 베이스를 이용하는 방법, 웹 API를 이용해서 네트워크를 불러오는 방법이 있다.

In [None]:
# 6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

In [493]:
# pandas에는 표 형식의 자료를 DataFrame 객체로 읽어오는 몇 가지 기능을 제공하고 있다.

In [494]:
# 아마 read_csv와 read_table을 주로 사용하게 될 테지만 [표6-1]에 다른 함수도 정리해두었다. 페이지 237, 238

In [495]:
# 위 함수들은 텍스트 데이터를 DataFrame으로 읽어오기 위한 함수인데, 아래와 같은 몇 가지 옵션을 취한다.

In [496]:
# 1. 색인: 반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 컬럼 이름을 받거나 아무것도 받지 않을 수 있다.

In [497]:
# 2. 자료형 추론과 데이터 변환: 사용자 정의 값 변환과 비어 있는 값을 위한 사용자 리스트를 포함한다.

In [498]:
# 3. 날짜 분석: 여러 컬럼에 걸쳐 있는 날짜와 시간 정보를 하나의 컬럼에 조합해서 결과에 반영한다.

In [499]:
# 4. 반복: 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.

In [500]:
# 5. 정제되지 않은 데이터 처리: 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 것들의 처리를 해준다.

In [501]:
# 실제 데이터는 엉망진창인 상태이므로 데이터를 불러오는 함수(특히 read_csv 같은)는 개발이 계속됨에 따라 복잡도가 급속도로 증가한다.

In [502]:
# 넘쳐나는 함수 인자들(read_csv의 함수 인자는 현재 50개가 넘는다)을 보고 있으면 머리가 아파온다.

In [503]:
# pandas 온라인 문서에는 각 인자들이 어떻게 동작하는지 다양한 예제와 함께 설명하고 있으므로 특정 파일을 읽는 데 어려움을 느낀다면 필요한 인자와 그에 맞는 예제가 도움이 될 것이다.

In [504]:
# 이런 함수들 중 일부, 예를 들어 pandas.read_csv 같은 함수들은 데이터 형식에 자료형이 포함되어 있지 않은 관계로 타입 추론을 수행한다. 

In [505]:
# HDF5나 Feather, msgpack의 경우에는 데이터 형식에 자료형이 포함되어 있다.

In [506]:
# 날짜나 다른 몇 가지 사용자 정의 자료형을 처리하려면 수고가 조금 필요하다. 쉼표로 구분된 작은 CSV 파일을 한 번 살펴보자.

In [508]:
# 현재 코랩을 이용해서 웹으로 코딩을 하고 있는데 제약이 있기에, 이 부분은 vscode로 진행하겠다.

/bin/bash: line 0: type: examples/ex1.csv: not found
