In [1]:
# Chapter 5 Pandas 시작하기

In [2]:
# Pandas는 앞으로 가장 자주 살펴볼 라이브러리다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다.

In [3]:
# pandas는 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 사용하는 경우가 흔하다. 

In [4]:
# pandas는 for 문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용했다. 

In [5]:
# pandas와 NumPy의 가장 큰 차이는 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다는 것이다. NumPy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다. 

In [6]:
# 앞으로 pandas의 import 컨벤션을 다음과 같이 사용할 예정이다.

In [7]:
import pandas as pd

In [8]:
import numpy as np

In [9]:
# 앞으로 코드에서 pd.를 보면 pandas를 지칭하는 것으로 이해하자. Series와 DataFrame은 로컬 네임스페이스로 임포트하는 것이 훨씬 편하므로 그렇게 사용하도록 하겠다.

In [10]:
from pandas import Series, DataFrame

In [11]:
# 5.1 pandas 자료구조 소개

In [12]:
# pandas에 대해 알아보려면 Series와 DataFrame, 이 두 가지 자료구조에 익숙해질 필요가 있다. 이 두 가지 자료구조로 모든 문제를 해결할 순 없지만 대부분의 애플리케이션에서 사용하기 쉽다.
# 또한 탄탄한 기반을 제공한다.

In [13]:
# 5.1.1 Series 

In [14]:
# Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다(어떤 NumPy 자료형이라도 담을 수 있다). 그리고 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [15]:
# 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다. 

In [16]:
obj = pd.Series([4, 7, -5, 3])

In [17]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [18]:
# Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다. 

In [19]:
# 위 에제에서는 데이터의 색인을 지정하지 않았으니 기본 색인인 정수 0에서 N - 1(N은 데이터의 길이)까지의 숫자가 표시된다. 

In [20]:
# Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [21]:
obj.values

array([ 4,  7, -5,  3])

In [22]:
obj.index # range(4)와 같다. 

RangeIndex(start=0, stop=4, step=1)

In [23]:
# 각각의 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음처럼 한다.

In [24]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])

In [25]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [26]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [27]:
# NumPy 배열과 비교하자면, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다. 

In [28]:
obj2["a"]

-5

In [29]:
obj2["d"] = 6

In [30]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [31]:
# 여기서 ["c", "a", "d"]는 (정수가 아니라 문자열이 포함되어 있지만) 색인의 배열로 해석된다.

In [32]:
# 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [33]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [34]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [35]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [36]:
# Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형이라고 생각하는 것이다. 

In [37]:
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다. 

In [38]:
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [39]:
"b" in obj2

True

In [40]:
"e" in obj2

False

In [41]:
# 파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [42]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah":5000}

In [43]:
obj3 = pd.Series(sdata)

In [44]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [45]:
# 사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [46]:
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [47]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [48]:
obj4 = pd.Series(sdata, index=states)

In [49]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [50]:
# 이 예제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, "California"에 대한 값은 찾을 수 없기 때문이다.

In [51]:
# 이 값은 NaN(not a number)으로 표시되고 pandas에서는 누락된 값, 혹은 NA 값으로 취급한다.

In [52]:
# "Utah"는 states에 포함되어 있지 않으므로 실행 결과에서 빠지게 된다.

In [53]:
# 앞으로 "누락된" 또는 "NA"를 누락된 데이터를 지칭하는 데 사용하도록 하겠다. pandas의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.

In [54]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [55]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [56]:
# 이 메서드는 Series의 인스턴스 메서드로도 존재한다. 

In [57]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [58]:
# 누락된 데이터를 처리하는 방법은 7장에서 조금 더 자세히 살펴볼 예정이다.

In [59]:
# Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [60]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [61]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [62]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [63]:
# 데이터 정렬에 대한 내용은 차후에 살펴볼 것이다. 데이터베이스를 사용해본 경험이 있다면 join 연산과 비슷하다고 여겨질 것이다.

In [64]:
# Series 객체와 Series의 색인은 "모두 name 속성이 있는데" 이 속성은 pandas의 핵심 기능과 밀접한 관련이 있다. 

In [65]:
obj4.name = "population"

In [66]:
obj4.index.name = "state"

In [67]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [68]:
# Series의 색인은 대입하여 변경할 수 있다.

In [69]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [70]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [71]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [72]:
# 5.1.2 DataFrame

In [73]:
# DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.

In [74]:
# DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.

In [75]:
# 내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장된다.

In [76]:
# 구체적인 DataFrame의 내부 구조는 이 책에서 다루는 내용에서 한참 벗어나므로 생략하겠다.

In [77]:
# DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다.

In [78]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"], 
        "year" : [2000, 2001, 2002, 2001, 2002, 2003], 
        "pop" : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [79]:
# 만들어진 DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장된다.

In [80]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [81]:
# 주피터 노트북을 사용한다면 DataFrame 객체는 브라우저에서 좀 더 보기 편하도록 HTML 표 형식으로 출력될 것이다.

In [82]:
# 큰 DataFrame을 다룰 때는 head 메서드를 이용해서 처음 5개의 로우만 출력할 수도 있다.

In [83]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [84]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [85]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [86]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

In [87]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"],
                      index=["one", "two", "three", "four", 
                             "five", "six"]) 

In [88]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [89]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [90]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근하거나 속성 형식으로 접근할 수 있다.

In [91]:
frame2["state"]

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [92]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [93]:
# 반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

In [94]:
# 로우나 위치는 loc 속성을 이용해서 이름을 통해 접근할 수 있다.

In [95]:
frame2.loc["three"]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [96]:
# 컬럼은 대입이 가능하다. 예를 들어 현재 비어 있는 "debt" 컬럼에 스칼라값이나 배열의 값을 대입할 수 있다.

In [97]:
frame2["debt"] = 16.5

In [98]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [99]:
frame2["debt"] = np.arange(6.)

In [100]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [101]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다.

In [102]:
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [103]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])

In [104]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [105]:
# 존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다. 파이썬 사전형에서처럼 del 예약어를 사용해서 컬럼을 삭제할 수 있다.

In [106]:
# del 예약어에 대한 예제로, state 컬럼의 값이 "Ohio"인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼을 생성해보자.

In [107]:
frame2["eastern"] = frame2.state == "Ohio"

In [108]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,0.0,True
two,2001,Ohio,1.7,1.0,True
three,2002,Ohio,3.6,2.0,True
four,2001,Nevada,2.4,3.0,False
five,2002,Nevada,2.9,4.0,False
six,2003,Nevada,3.2,5.0,False


In [109]:
# del 예약어를 이용해서 이 컬럼을 삭제할 수 있다.

In [110]:
del frame2["eastern"]

In [111]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [112]:
# 중첩된 사전을 이용해서 데이터를 생성할 수 있다. 다음과 같은 중첩된 사전이 있다고 하자.

In [113]:
pop = {"Nevada": {2001: 2.4, 2002: 2.9}, 
       "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [114]:
# 이 중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [115]:
frame3 = pd.DataFrame(pop)

In [116]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [117]:
# NumPy 배열과 유사한 문법으로 데이터를 전치(컬럼과 로우를 뒤집음)할 수 있다.

In [118]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [119]:
# 중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만 색인을 직접 지정하면 지정된 색인으로 DataFrame을 생성한다.

In [120]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [121]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급된다.

In [122]:
pdata = {"Ohio": frame3["Ohio"][:1], 
         "Nevada": frame3["Nevada"][:2]}

In [123]:
# DataFrame 생성자에 넘길 수 있는 자료형의 목록은 [표 5-1]을 참조하자. 195페이지

In [124]:
# 만일 데이터프레임을 색인(index)과 컬럼(columns)에 name 속성을 지정했다면 이 역시 함께 출력된다.

In [125]:
frame3.index.name = "year"; frame3.columns.name = "state"

In [126]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [127]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.

In [128]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [129]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택된다.

In [130]:
frame2.values

array([[2000, 'Ohio', 1.5, 0.0],
       [2001, 'Ohio', 1.7, 1.0],
       [2002, 'Ohio', 3.6, 2.0],
       [2001, 'Nevada', 2.4, 3.0],
       [2002, 'Nevada', 2.9, 4.0],
       [2003, 'Nevada', 3.2, 5.0]], dtype=object)

In [131]:
# 5.1.3 색인 객체

In [132]:
# pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 데이터이다.

In [133]:
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [134]:
obj = pd.Series(range(3), index=["a", "b", "c"])

In [135]:
index = obj.index

In [136]:
index

Index(['a', 'b', 'c'], dtype='object')

In [137]:
index[1:]

Index(['b', 'c'], dtype='object')

In [138]:
# 색인 객체는 변경이 불가능하다.

In [139]:
index[1] = "d" # TypeError 발생

TypeError: ignored

In [None]:
# 그러므로 자료구조 사이에서 안전하게 공유될 수 있다.

In [None]:
labels = pd.Index(np.arange(3))

In [140]:
labels

NameError: ignored

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [None]:
obj2

In [141]:
obj2.index is labels

NameError: ignored

In [None]:
# 또한 배열과 유사하게 Index 객체도 고정 크기로 동작한다.

In [None]:
frame3

In [None]:
frame3.columns

In [142]:
"Ohio" in frame3.columns

True

In [143]:
2003 in frame3.index

False

In [144]:
# 파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용한다.

In [145]:
dup_labels = pd.Index(["foo" ,"foo", "bar", "bar"])

In [146]:
# 중복되는 값으로 선택을 하면 해당 값을 가진 모든 항목이 선택된다.

In [147]:
# 각각의 색인은 자신이 담고 있는 데이터에 대한 정보를 취급하기 위한 여러가지 메서드와 속성을 가지고 있다. 이는 표[5-2]를 참조하자. 197페이지

In [148]:
# 5.2 핵심 기능

In [149]:
# 이 절에서는 Series나 DataFrame에 저장된 데이터를 다루는 기본적인 방법을 설명하겠다. 다음 몇몇 장에서는 pandas를 이용한 데이터 분석과 조작을 더 자세히 살펴볼 것이다.

In [150]:
# 이 책은 pandas 라이브러리의 완전한 설명을 포함하지 않고 중요한 기능에만 초점을 맞추고 있다.

In [151]:
# 5.2.1 재색인

In [152]:
# pandas 객체의 중요한 기능 중 하나는 reindex인데, 새로운 색인에 "맞도록" 객체를 새로 생성한다.

In [153]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])

In [154]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [155]:
# 이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.

In [156]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])

In [157]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [158]:
# 시계열 같은 순차적인 데이터를 재색인할 때 값을 보관하거나 채워 넣어야 할 경우가 있다.

In [159]:
# method 옵션을 이용해서 이를 해결할 수 있으며, ffill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [160]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])

In [161]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [162]:
obj3.reindex(range(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [163]:
# DateFrame에 대한 reindex는 로우(색인), 컬럼 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 로우가 재색인된다.

In [164]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"], 
                     columns=["Ohio", "Texas", "Calfornia"])

In [165]:
frame

Unnamed: 0,Ohio,Texas,Calfornia
a,0,1,2
c,3,4,5
d,6,7,8


In [166]:
frame2 = frame.reindex(["a", "b", "c", "d"])

In [167]:
frame2

Unnamed: 0,Ohio,Texas,Calfornia
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [168]:
# 컬럼은 columns 예약어를 사용해서 재색인할 수 있다.

In [169]:
states = ["Texas", "Utah", "Calfornia"]

In [170]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,Calfornia
a,1,,2
c,4,,5
d,7,,8


In [171]:
# reindex의 인자는 [표 5-3]을 참조하자. 200페이지

In [172]:
# 곧 다루겠지만 재색인은 loc를 이용해서 라벨로 색인하면 좀 더 간결하게 할 수 있으며 대부분의 사용자는 명시적으로 이 방식을 사용하는 것을 선호한다.

In [177]:
# frame.loc[["a", "b", "c", "d"], states]