In [1]:
import numpy as np
import pandas as pd

from pandas import Series, DataFrame

판다스에 대해서 알아보려면, 두 가지 자료구조 Series와 DataFrame에 익숙해질 필요가 있다.
두 자료구조로 모든 문제를 해결할 수 없지만, 대부분의 데이터 업무에서 사용하기 쉽고 탄탄한 기반을 제공한다.

Series
- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다.
    - 어떤 넘파이 자료형이라도 담을 수 있다. 
- 그리고, 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 갖는다.
- 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.
- 왼쪽에는 색인을, 오른쪽에는 해당 색인의 값을 보여준다.
    - 아래의 예제에선, 데이터의 색인을 지정하지 않았으니, 기본 색인의 정수 0에서부터 N-1(N은 데이터의 길이다.)까지의 숫자가 표시된다.
    - Series의 배열과 색인 객체는 각각 array와 index 속성을 통해 얻을 수 있다.

In [3]:
obj = pd.Series([4, 7, -5, 3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.array # Series의 배열

<PandasArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

In [5]:
obj.index # Series의 색인 객체

RangeIndex(start=0, stop=4, step=1)

일반적으로 .array 속성의 결과는 넘파이 배열을 감싸는 PandasArray이다.
- 이는 특별한 확장 배열 타입으로, 7.3절에서 더 자세히 설명한다.
- 각 데이터를 지칭하는 색인을 지정하여, Series 객체를 생성해야 할 때는 다음처럼 생성한다.

In [7]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "C"])

obj2

d    4
b    7
a   -5
C    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'C'], dtype='object')

넘파이 배열과 비교하면, 단일 값을 선택하거나 여러 개의 값을 선택할 때 색인으로 레이블(라벨: index)을 사용할 수 있다.

In [9]:
obj2["a"]

-5

In [11]:
obj2[["C", "a", "d"]]

C    3
a   -5
d    4
dtype: int64

불리언 배열을 사용해서, 값을 걸러내거나, 스칼라 곱셈을 수행하거나, 수학 함수를 적용하는 등 넘파이 배열 연산을 수행해도 색인과 값 연결은 유지된다.

In [12]:
obj2[obj2 > 0]

d    4
b    7
C    3
dtype: int64

In [13]:
obj2 * 2

d     8
b    14
a   -10
C     6
dtype: int64

In [14]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
C      20.085537
dtype: float64

Series를 이해하는 다른 방법은 고정 길이의 정렬된 딕셔너리라고 생각하는 것이다.
- Series는 색인값에 데이터 값을 매핑하고 있으므로, 파이썬의 딕셔너리와 비슷하다.
- 파이썬의 딕셔너리가 필요한 곳에 Series 객체를 사용할 수 있다.

In [15]:
"b" in obj2

True

파이썬 딕셔너리에 데이터를 저장해야 한다면, 파이썬 딕셔너리 객체로부터 Series 객체를 생성할 수 있다.

In [16]:
sdata = {"Ohio" : 35000, "Texas" : 71000, "Oregon" : 16000, "Utah" : 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [17]:
# to_dict 메서드를 이용하여, Series를 다시 딕셔너리로 변환할 수 있다.
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

딕셔너리 객체만 가지고 Series 객체를 생성하면, 생성된 Series 객체의 색인은 딕셔너리의 key 메서드에서 반환되는 키의 값 순서대로 들어간다.
- 색인을 직접 지정하고 싶다면, 원하는 순서대로 색인을 넘길 수도 있다.

In [18]:
states = ["California", "Ohio", "Oregon", "Texas"]

obj4 = pd.Series(sdata, index=states)

obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

위의 코드를 보면, sdata에 있는 값 중 3개만 확인할 수 있다.
- California에 대한 값을 찾을 수 없기 때문
    - 이 값은 NaN(Not a Number)으로 표기되고, 판다스에서는 누락된 값 또는 NA 값으로 취급된다.
    - Utah는 states에 포함되어 있지 않으므로, 실행 결과에서는 빠지게 된다.

판다스의 isna과 notna 함수는 누락된 데이터를 찾을 때 사용한다.

In [21]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [22]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [23]:
obj4.isna() # Series의 NA를 찾는 인스턴스 메서드이다.

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Series의 유용한 기능은 산술 연산에서 색인과 레이블로 자동 정렬하는 기능이다.

In [24]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [25]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [26]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series 객체와 색인은 모두 name 속성을 가지며, 이 속성은 판다스의 다른 기능들과 통합되어 있다.

In [28]:
obj4.name = "population"

obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [30]:
obj4.index

Index(['California', 'Ohio', 'Oregon', 'Texas'], dtype='object', name='state')

대입으로 Series의 색인을 변경할 수 있다.

In [31]:
# 대입으로 Series의 색인을 변경할 수 있다.
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [32]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [33]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

DataFrame
- 표 같은 스프레드시트 형식의 자료구조이다.
- 여러 개의 열이 있고, 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.
- DataFrame은 행과 열에 대한 색인을 가지며, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 딕셔너리로 생각하면 편하다.
- 물리적으로, DataFrame은 2차원이지만, 계층적(hierarchical) 색인을 이용하여, 고차원의 데이터를 표현할 수 있다.

여러가지 방법으로 DataFrame 객체를 생성할 수 있지만, 가장 흔한 방법은 동일한 길이의 리스트에 담긴 딕셔너리를 이용하거나, 넘파이 배열을 이용하는 방법이다.

In [35]:
data = {
    "state" : ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
    "year" : [2000, 2001, 2002, 2001, 2002, 2003],
    "pop" : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
frame = pd.DataFrame(data)

만들어진 DataFrame의 색인은 Series와 동일한 방식으로 자동 할당된다.
열은 data의 키 순서에 따라서 정렬되어 저장된다.(딕셔너리 삽입 순서에 따라 다르다.)

In [36]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [37]:
# 큰 DataFrame을 다룰 때는 head 메서드를 이용하여 처음 5개의 행만 출력할 수 있다.
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [38]:
# tail()을 이용하여 마지막 5개의 행을 출력할 수도 있다.
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [40]:
# columns를 원하는 순서대로 지정하면, 해당 순서로 정렬된 DataFrame 객체가 생성된다.
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [42]:
# 딕셔너리에 없는 값을 columns에 넘기면, 결과에 결측치(missing value)가 표시된다.
frame2 = pd.DataFrame(data, columns = ["year", "state" , "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [43]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [44]:
# DataFrame의 열은 Series처럼 딕셔너리 형식의 표기법이나 점 표기법으로 접근할 수 있다.
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [45]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

반환될 Series 객체가 DataFrame과 같은 색인을 가지면, 알맞은 값으로 name 속성이 채워진다.
- iloc이나 loc같은 몇 가지 속성을 사용하여 위치나 이름으로 행에 접근할 수 있다.

In [46]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [47]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

대입으로 열을 수정할 수 있다.
- 예를 들어, 현재 비어 있는 debt 열에 스칼라 값이나 배열의 값을 대입할 수 있다.

In [48]:
frame2["debt"] = 16.5

frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [49]:
frame2["debt"] = np.arange(6.)

frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


리스트나 배열을 열에 대입할 때는 대입하려는 값의 길이가 DataFrame의 길이와 동일해야 한다.
- Series를 대입하면, DataFrame의 색인에 따라 값이 대입되며, 존재하지 않는 색인에는 결측치가 대입된다.

In [50]:
val = pd.Series([-1.2, -1.5, -1.7], index = ["two", "four", "five"])

frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


존재하지 않는 열을 대입할 경우 새로운 열이 생성된다.
- 파이썬 딕셔너리처럼 del 예약어를 사용하여 열을 삭제할 수 있다.
    - 예를 들어, state 열의 값이 "Ohio"인지 검사한 결과를 불리언 값으로 나타내는 새로운 열을 생성한다.

In [51]:
frame2["eastren"] = frame2["state"] == "Ohio"

frame2

Unnamed: 0,year,state,pop,debt,eastren
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [53]:
# del 예약어를 이용하여, 새롭게 만든 열을 삭제한다.
del frame2["eastren"]

In [54]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 색인을 이용하여 얻은 열은 내부 데이터에 대한 뷰일 뿐이며, 복사가 이뤄지지 않는다.
- 즉, 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다.
    - 복사본이 필요하다면, series의 copy 메서드를 이용해야 한다.

In [62]:
# 중첩된 딕셔너리를 이용하여 데이터를 생성할 수 있다.
populations = {"Ohio" : {2000: 1.5, 2001 : 1.7, 2002: 3.6},
"Nevada" : {2001 : 2.4, 2002 : 2.9}}

In [63]:
# 중첩된 딕셔너리를 DataFrame에 넘기면, 바깥에 있는 딕셔너리의 키가 열이 되고 안에 있는 키는 행이 된다.
frame3 = pd.DataFrame(populations)

frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [60]:
# 넘파이 배열과 유사한 문법으로 데이터를 전치할 수 있다.
# 즉, 아래와 같이 행과 열을 뒤집을 수 있다.
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


중첩된 딕셔너리를 이용해서 DataFrame을 생성하면, 안쪽에 있는 딕셔너리 값은 키의 값별로 조합되어 결과의 색인이 되지만,
색인을 직접 지정하면, 지정된 색인으로 DataFrame을 생성한다.

In [64]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [65]:
# Series 객체를 담고 있는 딕셔너리 데이터도 동일한 방식으로 취급된다.
pdata = {
    "Ohio" : frame3["Ohio"][:-1],
    "Nevada" : frame3["Nevada"][:2]
}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


DataFrame 생성을 위한 입력 데이터의 종류
- 2차원 ndarray
    - 데이터를 담고 있는 행렬, 선택적으로 행과 열의 이름을 전달할 수 있다.
- 배열, 리스트, 튜플의 딕셔너리
    - 딕셔너리의 모든 항목은 길이가 동일해야 하며, 각 항목의 내용은 DataFrame의 열이 된다.
- 넘파이의 구조화 배열
    - 배열의 딕셔너리와 동일한 방식으로 취급된다.
- Series의 딕셔너리
    - Series의 각 값이 열이 된다.
    - 명시적으로 색인을 넘겨주지 않으면, 각 Series의 색인이 하나로 합쳐져서 행의 색인이 된다.
- 딕셔너리의 딕셔너리
    - 내부에 있는 딕셔너리가 열이 된다.
    - 키의 값은, "Series의 딕셔너리"와 마찬가지로 합쳐져서 행의 색인이 된다.
- 딕셔너리나 Series의 리스트
    - 리스트의 각 항목이 DataFrame의 행이 된다.
    - 합쳐진 딕셔너리의 키 값이나, Series의 색인이 DataFrame의 열 이름이 된다.
- 리스트나 튜플의 리스트
    - "2차원 ndarray"의 경우와 동일한 방식으로 취급된다.
- 다른 DataFrame
    - 색인을 따로 지정하지 않으면, DataFrame의 색인이 그대로 사용된다.
- 넘파이 MaskedArray
    - "2차원 ndarray"의 경우와 동일한 방식으로 취급되지만, 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.

In [66]:
# 만일, DataFrame의 색인과 열에 name 속성이 설정되어 있따면, 이 정보도 함께 출력된다.
frame3.index.name = "year"

frame3.columns.name = "state"

frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [70]:
# Series와 달리, DataFrame에는 name 속성이 없다.
# DataFrame의 to_numpy 메서드는 DataFrame에 포함된 데이터를 2차원 형태의 ndarray로 반환한다.
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [71]:
# DataFrame의 열이 서로 다른 자료형을 갖는다면, 모든 열을 수용하기 위해 반환된 배열의 자료형이 선택된다.
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

색인 객체
- 판다스의 색인 객체는 축 레이블(DataFrame의 열 이름 포함)과 다른 메타데이터(축의 이름 등)를 저장하는 객체이다.
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 다른 순차적인 레이블은 내부적으로 색인으로 변환된다.

In [72]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])

index = obj.index

index

Index(['a', 'b', 'c'], dtype='object')

In [73]:
obj

a    0
b    1
c    2
dtype: int32

In [74]:
index[1:]

Index(['b', 'c'], dtype='object')

In [None]:
# 색인 객체는 변경이 불가능하다.
index[1] = "d" # TypeError

In [77]:
# 불변성 덕분에 자료구조 사이에서 색인을 안전하게 공유할 수 있다.
labels = pd.Index(np.arange(3))

labels

Index([0, 1, 2], dtype='int32')

In [78]:
obj2 = pd.Series([1.5, -2.5, 0], index = labels)

obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [79]:
obj2.index is labels

True

In [80]:
# 배열과 유사하게 Index 객체도 고정된 크기로 작동한다.
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [81]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [82]:
"Ohio" in frame3.columns

True

In [83]:
2003 in frame3.index

False

In [84]:
# 파이썬의 집합과는 달리 판다스의 색인은 중복되는 값을 허용한다.
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

색인 메서드와 속성
- append()
    - 추가적인 색인 객체를 덧붙여 새로운 색인을 반환한다.
- difference()
    - 색인의 차집합을 반환한다.
- intersection()
    - 색인의 교집합을 반환한다.
- union()
    - 색인의 합집합을 반환한다.
- isin()
    - 색인이 넘겨받은 색인에 존재하는지 알려주는 불리언 배열을 반환한다.
- delete()
    - i 위치의 색인이 삭제된 새로운 색인을 반환한다.
- drop()
    - 넘겨받은 값이 삭제된 새로운 색인을 반환한다.
- insert()
    - i 위치에 색인이 추가된 새로운 색인을 반환한다.
- is_monotonic
    - 색인이 단조성을 가지게되면 True를 반환한다.
- is_unique
    - 중복되는 색인이 없다면, True를 반환한다.
- unique
    - 색인에서 중복되는 요소를 제거하고, 유일한 값만 반환한다.