In [1]:
# Chapter 5 Pandas 시작하기

In [2]:
# Pandas는 앞으로 가장 자주 살펴볼 라이브러리다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다.

In [3]:
# pandas는 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 사용하는 경우가 흔하다. 

In [4]:
# pandas는 for 문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 NumPy의 배열 기반 계산 스타일을 많이 차용했다. 

In [5]:
# pandas와 NumPy의 가장 큰 차이는 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다는 것이다. NumPy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다. 

In [6]:
# 앞으로 pandas의 import 컨벤션을 다음과 같이 사용할 예정이다.

In [7]:
import pandas as pd

In [38]:
import numpy as np

In [39]:
# 앞으로 코드에서 pd.를 보면 pandas를 지칭하는 것으로 이해하자. Series와 DataFrame은 로컬 네임스페이스로 임포트하는 것이 훨씬 편하므로 그렇게 사용하도록 하겠다.

In [40]:
from pandas import Series, DataFrame

In [41]:
# 5.1 pandas 자료구조 소개

In [42]:
# pandas에 대해 알아보려면 Series와 DataFrame, 이 두 가지 자료구조에 익숙해질 필요가 있다. 이 두 가지 자료구조로 모든 문제를 해결할 순 없지만 대부분의 애플리케이션에서 사용하기 쉽다.
# 또한 탄탄한 기반을 제공한다.

In [43]:
# 5.1.1 Series 

In [44]:
# Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다(어떤 NumPy 자료형이라도 담을 수 있다). 그리고 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

In [45]:
# 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다. 

In [46]:
obj = pd.Series([4, 7, -5, 3])

In [47]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [48]:
# Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다. 

In [49]:
# 위 에제에서는 데이터의 색인을 지정하지 않았으니 기본 색인인 정수 0에서 N - 1(N은 데이터의 길이)까지의 숫자가 표시된다. 

In [50]:
# Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [51]:
obj.values

array([ 4,  7, -5,  3])

In [52]:
obj.index # range(4)와 같다. 

RangeIndex(start=0, stop=4, step=1)

In [53]:
# 각각의 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음처럼 한다.

In [54]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])

In [55]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [56]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [57]:
# NumPy 배열과 비교하자면, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다. 

In [58]:
obj2["a"]

-5

In [59]:
obj2["d"] = 6

In [60]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [61]:
# 여기서 ["c", "a", "d"]는 (정수가 아니라 문자열이 포함되어 있지만) 색인의 배열로 해석된다.

In [62]:
# 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [63]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [64]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [65]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [66]:
# Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형이라고 생각하는 것이다. 

In [67]:
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다. 

In [68]:
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [69]:
"b" in obj2

True

In [70]:
"e" in obj2

False

In [71]:
# 파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [72]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah":5000}

In [73]:
obj3 = pd.Series(sdata)

In [74]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [75]:
# 사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [76]:
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [77]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [78]:
obj4 = pd.Series(sdata, index=states)

In [79]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [80]:
# 이 예제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, "California"에 대한 값은 찾을 수 없기 때문이다.

In [81]:
# 이 값은 NaN(not a number)으로 표시되고 pandas에서는 누락된 값, 혹은 NA 값으로 취급한다.

In [82]:
# "Utah"는 states에 포함되어 있지 않으므로 실행 결과에서 빠지게 된다.

In [83]:
# 앞으로 "누락된" 또는 "NA"를 누락된 데이터를 지칭하는 데 사용하도록 하겠다. pandas의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.

In [84]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [85]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [87]:
# 이 메서드는 Series의 인스턴스 메서드로도 존재한다. 

In [88]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [89]:
# 누락된 데이터를 처리하는 방법은 7장에서 조금 더 자세히 살펴볼 예정이다.

In [90]:
# Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [91]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [92]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [93]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [94]:
# 데이터 정렬에 대한 내용은 차후에 살펴볼 것이다. 데이터베이스를 사용해본 경험이 있다면 join 연산과 비슷하다고 여겨질 것이다.

In [95]:
# Series 객체와 Series의 색인은 "모두 name 속성이 있는데" 이 속성은 pandas의 핵심 기능과 밀접한 관련이 있다. 

In [96]:
obj4.name = "population"

In [97]:
obj4.index.name = "state"

In [98]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [99]:
# Series의 색인은 대입하여 변경할 수 있다.

In [102]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [103]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [104]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64