**Pandas**는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다.

- pandas는 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statemodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 사용하는 경우가 흔한다.

## 5.1 Pandas 자료구조 소개

**Pandas의 대표 자료구조 : Series, DataFrame**

###5.1.1 Series

**Series**

* 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조
* **색인 (index)**이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.
* 가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.

In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다.

In [3]:
obj.values

array([ 4,  7, -5,  3])

In [4]:
obj.index  # range(4)와 같다

RangeIndex(start=0, stop=4, step=1)

In [5]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

NumPy 배열과 비교해보면, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다.

In [7]:
obj2['a']

-5

In [8]:
obj2['d']

4

In [9]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

여기서 ['c', 'a', 'd']는 (정수가 아니라 문자열이 포함되어 있지만) 색인의 배열로 해석된다.
불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [10]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [11]:
obj2 *2

d     8
b    14
a   -10
c     6
dtype: int64

In [12]:
import numpy as np


In [13]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series는 고정 길이의 정렬된 사정형

* Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다.
* Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [14]:
'b' in obj2

True

In [15]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [16]:
sdata = {'Ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [17]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

이 예제를 보면 sdata에 있는 값 중 3개만 확인할 수 있는데, 'California'에 대한 값은 찾을 수 없기 때문이다. 이 값은 NaN(Not a Number) 으로 표시되고 pandas에서는 누락된 값, 혹은 NA 값으로 취급된다. 'Utah'는 states에 포함되지 않으므로 실행 결과에서 빠지게 된다.

pandas의 **isnull과 notnull** 함수는 누락된 데이터를 찾을 때 사용된다.

In [18]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [19]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [20]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Series 의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [21]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [22]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [23]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series의 색인은 모두 name 속성이 있다.

In [24]:
obj4.name = 'population'

In [25]:
obj4.index.name = 'state'

In [26]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series의 색인은 대입하여 변경할 수 있다.

In [27]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [28]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2 DataFrame

DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있다.

* DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다.

In [29]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002, 2003],
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [30]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [31]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [32]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [33]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [34]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

**DataFrmae**의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.

In [35]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [36]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

변환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

* 로우는 위치나 loc 속성을 이용해서 이름을 통해 접근할 수 있다.
* 컬럼은 대입이 가능하다.

In [37]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [38]:
frame['debt'] = np.arange(6.)

In [39]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


리스트나 배열을 컴럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다. Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [40]:
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])

In [42]:
frame2['debt'] = val

In [43]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다. 파이썬 사전형에서처럼 del 예약어를 사용해서 컬럼을 삭제할 수 있다.

del 예약어에 대한 예제로, state 컬럼의 값이 'Ohio'인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼 생성

In [44]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [46]:
del frame2['eastern']

In [47]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame 의 색인을 이용해서 얻은 컬럼은 내부 데이터에 대한 뷰(view)이며 복사가 이루어지지 않는다. 이렇게 얻는 Series 객체에 대한 변경은 실제 DataFrame에 반영된다. 복사본이 필요할 때는 Series의 copy 메서드를 이용한다.

* 중첩된 사전을 이용해서 데이터 생성 가능하다.

In [48]:
pop = {'Nevada' : {2001 : 2.4, 2002 : 2.9},
       'Ohio' : {2000 : 1.5, 2001 : 1.7, 2002 : 3.6 }}

이 중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [49]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


NumPy 배열과 유사한 문법으로 데이터를 전치(컬럼과 로우를 뒤집음) 할 수 있다.

In [50]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만 색인을직접 지정하면 지정된 색인으로 DataFrame을 생성한다,

In [51]:
pd.DataFrame(pop, index = [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [52]:
pdata = {'Ohio' : frame3['Ohio'][:-1],
         'Nevada' : frame3['Nevada'][:2]}

In [53]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [54]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


데이터프레임의 색인(index)와 컬럼(columns)에 name 속성을 지정했다면 함께 출력된다.

In [55]:
frame3.index.name = 'year' ;  frame3.columns.name = 'state'

In [56]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Series와 유사하게 value 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.

In [57]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택된다.

In [58]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### DataFrame 생성을 위한 입력 데이터의 종류

**2차원 ndarray** : 데이터를 담고 있는 행렬. 선택적으로 행(로우)와 열(컬럼)의 이름을 전달할 수 있다.

**배열, 리스트, 튜플의 사전** : 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 컬럼이 된다.

**NumPy의 구조화 배열** : 배열의 사전과 같은 방식으로 취급된다.

**Series의 사전** : Series의 각 값이 컬럼이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 로우의 색인이 된다.

**사전의 사전** : 내부에 있는 사전이 컬럼이 된다. 키값은 'Series의 사전'과 마찬가지로 합쳐져서 로우의 색인이 된다.

**사전이나 Series의 리스트** : 리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키값이나 Series의 색인이 DataFrame의 컬럼 이름이 된다.

**리스트나 튜플의 리스트** : '2차원 ndarray'의 경우와 같은 방식으로 취급된다.

**다른 DataFrame** :  색인을 따로 지정하지 않으면 DataFrame의 색인이 그대로 사용된다.

**NumPy MaskedArray** : '2차원 ndarray'의 경우와 같은 방식으로 취급되지만 마스크값은 반환되는 DataFrame에서 NA 값이 된다.

### 5.1.3 색인 객체
pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체다. Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [59]:
obj = pd.Series(range(3), index = ['a', 'b', 'c'])

In [60]:
index = obj.index

In [61]:
index

Index(['a', 'b', 'c'], dtype='object')

In [62]:
index[1:]

Index(['b', 'c'], dtype='object')

색인 객체는 변경이 불가능하다.

In [63]:
# index[1] = 'd' # TypeError 발생

TypeError: ignored

그러므로 자료구조 사이에서 안전하게 공유될 수 있다.

In [65]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [66]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [67]:
obj2.index is labels

True

배열과 유사하게 Index 객체도 고정 크기로 동작한다.

In [68]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [70]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [71]:
'Ohio' in frame3.columns

True

In [72]:
2003 in frame.index

False

파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용한다.

In [74]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

중복되는 값으로 선택을 하면 해당 값을 가진 모든 항목이 선택된다.
각각의 색인은 자신이 담고 있는 데이터에 대한 정보를 취급하기 위한 여러 가지 메서드와 속성을 가지고 있다.

### 색인 메서드와 속성

**append** : 추가적인 색인 객체를 덧붙여 새로운 색인을 반환한다.

**difference** : 색인의 차집합을 반환한다.

**intersection** : 색인의 교집합을 반환한다.

**union** : 색인의 합집합을 반환한다.

**isin** : 색인이 넘겨받은 색인에 존재하는지 알려주는 불리언 배열을 반환한다.

**delete** : i 위치의 색인이 삭제된 새로운 색인을 반환한다.

**drop** : 넘겨받은 값이 삭제된 새로운 색인을 반환한다.

**insert** : i 위취에 색인이 추가된 새로운 색인을 반환한다.

**is_monotonic** :  색인이 단조성을 가진다면 True를 반환한다.

**is_unique** : 중복되는 색인이 없다면 True를 반환한다.

**unique** : 색인에서 중복되는 요소를 제거하고 유일한 값만 반환한다.