In [6]:
# Chapter 5 Pandas 시작하기

In [7]:
# Pandas는 앞으로 가장 자주 살펴볼 라이브러리다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다.

In [8]:
# pandas는 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 사용하는 경우가 흔하다. 

In [9]:
# pandas는 for 문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용했다. 

In [10]:
# pandas와 NumPy의 가장 큰 차이는 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다는 것이다. NumPy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다. 

In [11]:
# 앞으로 pandas의 import 컨벤션을 다음과 같이 사용할 예정이다.

In [12]:
import pandas as pd

In [13]:
import numpy as np

In [14]:
# 앞으로 코드에서 pd.를 보면 pandas를 지칭하는 것으로 이해하자. Series와 DataFrame은 로컬 네임스페이스로 임포트하는 것이 훨씬 편하므로 그렇게 사용하도록 하겠다.

In [15]:
from pandas import Series, DataFrame

In [16]:
# 5.1 pandas 자료구조 소개

In [17]:
# pandas에 대해 알아보려면 Series와 DataFrame, 이 두 가지 자료구조에 익숙해질 필요가 있다. 이 두 가지 자료구조로 모든 문제를 해결할 순 없지만 대부분의 애플리케이션에서 사용하기 쉽다.
# 또한 탄탄한 기반을 제공한다.

In [18]:
# 5.1.1 Series 

In [19]:
# Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다(어떤 NumPy 자료형이라도 담을 수 있다). 그리고 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [20]:
# 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다. 

In [21]:
obj = pd.Series([4, 7, -5, 3])

In [22]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [23]:
# Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다. 

In [24]:
# 위 에제에서는 데이터의 색인을 지정하지 않았으니 기본 색인인 정수 0에서 N - 1(N은 데이터의 길이)까지의 숫자가 표시된다. 

In [25]:
# Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [26]:
obj.values

array([ 4,  7, -5,  3])

In [27]:
obj.index # range(4)와 같다. 

RangeIndex(start=0, stop=4, step=1)

In [28]:
# 각각의 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음처럼 한다.

In [29]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])

In [30]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [31]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [32]:
# NumPy 배열과 비교하자면, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다. 

In [33]:
obj2["a"]

-5

In [34]:
obj2["d"] = 6

In [35]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [36]:
# 여기서 ["c", "a", "d"]는 (정수가 아니라 문자열이 포함되어 있지만) 색인의 배열로 해석된다.

In [37]:
# 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [38]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [39]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [40]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [41]:
# Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형이라고 생각하는 것이다. 

In [42]:
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다. 

In [43]:
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [44]:
"b" in obj2

True

In [45]:
"e" in obj2

False

In [46]:
# 파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [47]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah":5000}

In [48]:
obj3 = pd.Series(sdata)

In [49]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [50]:
# 사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [51]:
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [52]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [53]:
obj4 = pd.Series(sdata, index=states)

In [54]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [55]:
# 이 예제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, "California"에 대한 값은 찾을 수 없기 때문이다.

In [56]:
# 이 값은 NaN(not a number)으로 표시되고 pandas에서는 누락된 값, 혹은 NA 값으로 취급한다.

In [57]:
# "Utah"는 states에 포함되어 있지 않으므로 실행 결과에서 빠지게 된다.

In [58]:
# 앞으로 "누락된" 또는 "NA"를 누락된 데이터를 지칭하는 데 사용하도록 하겠다. pandas의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.

In [59]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [60]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [61]:
# 이 메서드는 Series의 인스턴스 메서드로도 존재한다. 

In [62]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [63]:
# 누락된 데이터를 처리하는 방법은 7장에서 조금 더 자세히 살펴볼 예정이다.

In [64]:
# Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [65]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [66]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [67]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [68]:
# 데이터 정렬에 대한 내용은 차후에 살펴볼 것이다. 데이터베이스를 사용해본 경험이 있다면 join 연산과 비슷하다고 여겨질 것이다.

In [69]:
# Series 객체와 Series의 색인은 "모두 name 속성이 있는데" 이 속성은 pandas의 핵심 기능과 밀접한 관련이 있다. 

In [70]:
obj4.name = "population"

In [71]:
obj4.index.name = "state"

In [72]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [73]:
# Series의 색인은 대입하여 변경할 수 있다.

In [74]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [75]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [76]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [77]:
# 5.1.2 DataFrame

In [78]:
# DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.

In [79]:
# DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.

In [80]:
# 내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장된다.

In [81]:
# 구체적인 DataFrame의 내부 구조는 이 책에서 다루는 내용에서 한참 벗어나므로 생략하겠다.

In [82]:
# DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다.

In [83]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"], 
        "year" : [2000, 2001, 2002, 2001, 2002, 2003], 
        "pop" : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [84]:
# 만들어진 DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장된다.

In [85]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [86]:
# 주피터 노트북을 사용한다면 DataFrame 객체는 브라우저에서 좀 더 보기 편하도록 HTML 표 형식으로 출력될 것이다.

In [87]:
# 큰 DataFrame을 다룰 때는 head 메서드를 이용해서 처음 5개의 로우만 출력할 수도 있다.

In [88]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [89]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [90]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [91]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

In [92]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"],
                      index=["one", "two", "three", "four", 
                             "five", "six"]) 

In [93]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [94]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [95]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근하거나 속성 형식으로 접근할 수 있다.

In [96]:
frame2["state"]

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [97]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [98]:
# 반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

In [99]:
# 로우나 위치는 loc 속성을 이용해서 이름을 통해 접근할 수 있다.

In [100]:
frame2.loc["three"]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [101]:
# 컬럼은 대입이 가능하다. 예를 들어 현재 비어 있는 "debt" 컬럼에 스칼라값이나 배열의 값을 대입할 수 있다.

In [102]:
frame2["debt"] = 16.5

In [103]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [104]:
frame2["debt"] = np.arange(6.)

In [105]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [106]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다.

In [107]:
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [108]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])

In [109]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [110]:
# 존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다. 파이썬 사전형에서처럼 del 예약어를 사용해서 컬럼을 삭제할 수 있다.

In [111]:
# del 예약어에 대한 예제로, state 컬럼의 값이 "Ohio"인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼을 생성해보자.

In [112]:
frame2["eastern"] = frame2.state == "Ohio"

In [113]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,0.0,True
two,2001,Ohio,1.7,1.0,True
three,2002,Ohio,3.6,2.0,True
four,2001,Nevada,2.4,3.0,False
five,2002,Nevada,2.9,4.0,False
six,2003,Nevada,3.2,5.0,False


In [114]:
# del 예약어를 이용해서 이 컬럼을 삭제할 수 있다.

In [115]:
del frame2["eastern"]

In [116]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [117]:
# 중첩된 사전을 이용해서 데이터를 생성할 수 있다. 다음과 같은 중첩된 사전이 있다고 하자.

In [118]:
pop = {"Nevada": {2001: 2.4, 2002: 2.9}, 
       "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [119]:
# 이 중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [120]:
frame3 = pd.DataFrame(pop)

In [121]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [122]:
# NumPy 배열과 유사한 문법으로 데이터를 전치(컬럼과 로우를 뒤집음)할 수 있다.

In [123]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [124]:
# 중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만 색인을 직접 지정하면 지정된 색인으로 DataFrame을 생성한다.

In [125]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [126]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급된다.

In [127]:
pdata = {"Ohio": frame3["Ohio"][:1], 
         "Nevada": frame3["Nevada"][:2]}

In [128]:
# DataFrame 생성자에 넘길 수 있는 자료형의 목록은 [표 5-1]을 참조하자. 195페이지

In [129]:
# 만일 데이터프레임을 색인(index)과 컬럼(columns)에 name 속성을 지정했다면 이 역시 함께 출력된다.

In [130]:
frame3.index.name = "year"; frame3.columns.name = "state"

In [131]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [132]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.

In [133]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [134]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택된다.

In [135]:
frame2.values

array([[2000, 'Ohio', 1.5, 0.0],
       [2001, 'Ohio', 1.7, 1.0],
       [2002, 'Ohio', 3.6, 2.0],
       [2001, 'Nevada', 2.4, 3.0],
       [2002, 'Nevada', 2.9, 4.0],
       [2003, 'Nevada', 3.2, 5.0]], dtype=object)

In [136]:
# 5.1.3 색인 객체

In [137]:
# pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 데이터이다.

In [138]:
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [139]:
obj = pd.Series(range(3), index=["a", "b", "c"])

In [140]:
index = obj.index

In [141]:
index

Index(['a', 'b', 'c'], dtype='object')

In [142]:
index[1:]

Index(['b', 'c'], dtype='object')

In [143]:
# 색인 객체는 변경이 불가능하다.

In [146]:
index[1] = "d" # TypeError 발생

TypeError: ignored

In [147]:
# 그러므로 자료구조 사이에서 안전하게 공유될 수 있다.

In [148]:
labels = pd.Index(np.arange(3))

In [149]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [150]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [151]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [152]:
obj2.index is labels

True

In [153]:
# 또한 배열과 유사하게 Index 객체도 고정 크기로 동작한다.

In [154]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [155]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [156]:
"Ohio" in frame3.columns

True

In [157]:
2003 in frame3.index

False

In [158]:
# 파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용한다.

In [159]:
dup_labels = pd.Index(["foo" ,"foo", "bar", "bar"])

In [160]:
# 중복되는 값으로 선택을 하면 해당 값을 가진 모든 항목이 선택된다.

In [161]:
# 각각의 색인은 자신이 담고 있는 데이터에 대한 정보를 취급하기 위한 여러가지 메서드와 속성을 가지고 있다. 이는 표[5-2]를 참조하자. 197페이지

In [162]:
# 5.2 핵심 기능

In [163]:
# 이 절에서는 Series나 DataFrame에 저장된 데이터를 다루는 기본적인 방법을 설명하겠다. 다음 몇몇 장에서는 pandas를 이용한 데이터 분석과 조작을 더 자세히 살펴볼 것이다.

In [164]:
# 이 책은 pandas 라이브러리의 완전한 설명을 포함하지 않고 중요한 기능에만 초점을 맞추고 있다.

In [165]:
# 5.2.1 재색인

In [166]:
# pandas 객체의 중요한 기능 중 하나는 reindex인데, 새로운 색인에 "맞도록" 객체를 새로 생성한다.

In [167]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])

In [168]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [169]:
# 이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.

In [170]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])

In [171]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [172]:
# 시계열 같은 순차적인 데이터를 재색인할 때 값을 보관하거나 채워 넣어야 할 경우가 있다.

In [173]:
# method 옵션을 이용해서 이를 해결할 수 있으며, ffill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [174]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])

In [175]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [176]:
obj3.reindex(range(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [177]:
# DateFrame에 대한 reindex는 로우(색인), 컬럼 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 로우가 재색인된다.

In [178]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"], 
                     columns=["Ohio", "Texas", "Calfornia"])

In [179]:
frame

Unnamed: 0,Ohio,Texas,Calfornia
a,0,1,2
c,3,4,5
d,6,7,8


In [180]:
frame2 = frame.reindex(["a", "b", "c", "d"])

In [181]:
frame2

Unnamed: 0,Ohio,Texas,Calfornia
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [182]:
# 컬럼은 columns 예약어를 사용해서 재색인할 수 있다.

In [183]:
states = ["Texas", "Utah", "Calfornia"]

In [184]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,Calfornia
a,1,,2
c,4,,5
d,7,,8


In [185]:
# reindex의 인자는 [표 5-3]을 참조하자. 200페이지

In [186]:
# 곧 다루겠지만 재색인은 loc를 이용해서 라벨로 색인하면 좀 더 간결하게 할 수 있으며 대부분의 사용자는 명시적으로 이 방식을 사용하는 것을 선호한다.

In [187]:
# frame.loc[["a", "b", "c", "d"], states] - 오류 발생으로 인한 주석 처리, 정정 예정

In [188]:
# 5.2.2 하나의 로우나 컬럼 삭제하기

In [189]:
# 색인 배열, 또는 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있는데 이 방법은 데이터의 모양을 변경하는 작업이 필요하다.

In [190]:
# drop 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [191]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])

In [192]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [193]:
new_obj = obj.drop("c")

In [194]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [195]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

In [196]:
# DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있다. 다음 예제를 살펴보자.

In [197]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                    index=["Ohio", "Colorado", "Utah", "New York"], 
                    columns=["one", "two", "three", "four"])

In [198]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [199]:
# drop 함수에 인자로 로우 이름을 넘기면 해당 로우 (axis 0)의 값을 모두 삭제한다.

In [200]:
data.drop(["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [201]:
# 컬럼의 값을 삭제할 때는 axis=1 또는 axis="columns"를 인자로 넘겨주면 된다.

In [202]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [203]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [204]:
# drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [205]:
obj.drop("c", inplace=True)

In [206]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [207]:
# inplace 옵션을 사용하는 경우 버려지는 값을 모두 삭제하므로 주의해서 사용하자.

In [208]:
# 5.2.3 색인하기, 선택하기, 거르기

In [209]:
# Series의 색인(obj[...])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다르다. 몇 가지 예제를 보자.

In [210]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])

In [211]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [212]:
obj["b"]

1.0

In [213]:
obj[1]

1.0

In [214]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [215]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [216]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [217]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [218]:
# 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다는 것이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [219]:
obj["b":"c"]

b    1.0
c    2.0
dtype: float64

In [220]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작한다.

In [221]:
obj["b":"c"] = 5

In [222]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [223]:
# 색인으로 DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다.

In [224]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])

In [225]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [226]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [227]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [228]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 로우를 선택할 수 있다.

In [229]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [230]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [231]:
# data[:2] 형식의 문법으로 편리하게 로우를 선택할 수 있다. [] 연산자에 단일 값을 남기거나 리스트를 넘겨서 여러 컬럼을 선택할 수 있다. 

In [232]:
# 또다른 방법으로는 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 것이다.

In [233]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [234]:
data[data < 5] = 0

In [235]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [236]:
# 위 예제는 DataFrame을 2차원 ndarray와 문법적으로 비슷하게 보이도록 의도한 것이다.

In [237]:
# loc와 iloc으로 선택하기

In [238]:
# DataFrame의 로우에 대해 라벨로 색인하는 방법으로 특수한 색인 필드인 loc과 iloc을 소개한다. 

In [239]:
# 이 방법을 이용하면 NumPy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있다. 

In [240]:
# 축 이름을 선택할 떄는 loc를, 정수 색인으로 선택할 때는 iloc을 사용한다.

In [241]:
# 앞선 예제에서 축의 라벨로 하나의 로우와 여러 컬럼을 선택해보자.

In [242]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [243]:
# iloc을 이용하면 정수 색인으로도 위와 비슷하게 선택할 수 있다.

In [244]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [245]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [246]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [247]:
# 이 두 함수는 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원한다.

In [248]:
data.loc[:"Utah", "two"]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [249]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [250]:
# 지금까지 살펴봤듯이 pandas 객체에서 데이터를 선택하고 재배열하는 방법은 여러 가지가 있다. [표5-4]에 다양한 방법을 요약해두었다. 

In [251]:
# 나중에 살펴볼 계층적 색인을 이용하면 좀 더 다양한 방법을 사용할 수 있다.

In [252]:
# 5.2.4 정수 색인

In [253]:
# 정수 색인으로 pandas 객체를 다루다보면 리스트나 튜플 같은 파이썬 내장 자료구조에서 색인을 다루는 방법과의 차이점 때문에 실수하게 되는 경우가 있다.

In [254]:
# 예를 들어 다음 코드가 에러가 발생할 것이라고 생각하지 않을 것이다.

In [255]:
ser = pd.Series(np.arange(3.))

In [256]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [258]:
# ser[-1] ValueError: -1 is not in range Error 발생

In [259]:
# 이 경우 pandas는 라벨 색인을 찾는 데 실패하므로 정수 색인으로 값을 찾는다. 하지만 이를 어떤 경우에도 버그 없이 잘 작동하도록 구현하기란 쉽지 않다.

In [260]:
# 라벨 색인이 0, 1, 2를 포함하는 경우 사용자가 라벨 색인으로 선택하려는 것인지 정수 색인으로 선택하려는 것인지 추측하기 쉽지 않다.

In [261]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [262]:
# 반면 정수 기반의 색인을 사용하지 않는 경우 이런 모호함은 사라진다.

In [263]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])

In [264]:
ser2[-1]

2.0

In [265]:
# 일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현되어 있다.

In [267]:
# 좀 더 세밀하게 사용하고 싶다면 라벨에 대해서는 loc을 사용하고 정수 색인에 대해서는 iloc을 사용하자.

In [268]:
ser[:1]

0    0.0
dtype: float64

In [269]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [270]:
ser.iloc[:1]

0    0.0
dtype: float64