# 1. pandas 자료 구조 소개

## 1.1 Series

### * Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조 (numpy 자료형도 담을 수 있음)
* 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있음

In [1]:
from pandas import Series, DataFrame

import pandas as pd
import numpy as np

In [10]:
obj = Series([4,6,2,-1])
obj

0    4
1    6
2    2
3   -1
dtype: int64

In [7]:
obj.values

array([ 4,  6,  2, -1])

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
obj2 = Series([4,2,3,-1], index=['d','b','a','c'])
obj2

d    4
b    2
a    3
c   -1
dtype: int64

In [13]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [15]:
# 값의 선택 or 대입 -> index를 이용해 접근

obj2['a']

3

In [18]:
obj2['d'] = 10

In [20]:
# 2개 이상의 값을 선택할때는 리스트에 담아서 접근

obj2[['c','d']]

c    -1
d    10
dtype: int64

In [21]:
# numpy 배열 연산을 해도 색인-값 연결은 유지된다.
# ex) 불리언 배열을 사용해서 값을 걸러내기, 산술연산, 수학함수 적용

obj>2

0     True
1     True
2    False
3    False
dtype: bool

In [22]:
obj[obj>2]

0    4
1    6
dtype: int64

In [24]:
obj*2

0     8
1    12
2     4
3    -2
dtype: int64

In [25]:
np.exp(obj)

0     54.598150
1    403.428793
2      7.389056
3      0.367879
dtype: float64

In [2]:
# dict 객체 -> Series객체를 생성할 수 있다.
sdata = {'Ohio':35000, 'Texas': 72000, 'Oregon':15000}

obj3 = Series(sdata)

In [4]:
states = ['Califonia', 'Ohio', 'Oregon', 'Texas']

obj4 = Series(sdata, index = states)
obj4

Califonia        NaN
Ohio         35000.0
Oregon       15000.0
Texas        72000.0
dtype: float64

In [7]:
pd.isnull(obj4)

Califonia     True
Ohio         False
Oregon       False
Texas        False
dtype: bool

In [8]:
pd.notnull(obj4)

Califonia    False
Ohio          True
Oregon        True
Texas         True
dtype: bool

In [11]:
# isnull은 Series의 인스턴스 메서드이기도 하다.
obj4.isnull()

Califonia     True
Ohio         False
Oregon       False
Texas        False
dtype: bool

In [12]:
# Series의 객체와 Series index는 name속성이 있음
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
Califonia        NaN
Ohio         35000.0
Oregon       15000.0
Texas        72000.0
Name: population, dtype: float64

In [13]:
# Series의 색인은 대입을 통해 변경이 가능
obj4.index = ['Bob','Steve','Jeff','Ryan']
obj4

Bob          NaN
Steve    35000.0
Jeff     15000.0
Ryan     72000.0
Name: population, dtype: float64

## 1.2 DataFrame

###DataFrame 객체 생성
* list in Dict
* Numpy

In [14]:
data = {'State': ['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year': [2000,2001,2002,2003,2004],
       'pop' : [1.5, 1.7, 2.3, 3.4, 2.2]}

df = DataFrame(data)

In [15]:
df

Unnamed: 0,State,pop,year
0,Ohio,1.5,2000
1,Ohio,1.7,2001
2,Ohio,2.3,2002
3,Nevada,3.4,2003
4,Nevada,2.2,2004


In [16]:
DataFrame(data, columns=['year', 'pop', 'State'])

Unnamed: 0,year,pop,State
0,2000,1.5,Ohio
1,2001,1.7,Ohio
2,2002,2.3,Ohio
3,2003,3.4,Nevada
4,2004,2.2,Nevada


In [26]:
df2 = DataFrame(data, columns=['State', 'year', 'pop', 'debt'],
                      index= ['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,State,year,pop,debt
one,Ohio,2000,1.5,
two,Ohio,2001,1.7,
three,Ohio,2002,2.3,
four,Nevada,2003,3.4,
five,Nevada,2004,2.2,


In [27]:
# column 접근방법
# 사전형식 표기법 접근 (Series와 동일)
df2['State']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: State, dtype: object

In [29]:
# 속성형식 접근
df2.year

one      2000
two      2001
three    2002
four     2003
five     2004
Name: year, dtype: int64

In [30]:
# row 접근방법
# ix, iloc, loc
# 1. ix : label과 number 모두 index로 사용 가능
df2.ix['three']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


State    Ohio
year     2002
pop       2.3
debt      NaN
Name: three, dtype: object

In [33]:
# loc : label based
df2.loc['three']

State    Ohio
year     2002
pop       2.3
debt      NaN
Name: three, dtype: object

In [35]:
# iloc : positional based
df2.iloc[2]

State    Ohio
year     2002
pop       2.3
debt      NaN
Name: three, dtype: object

In [37]:
# Column은 값 대입이 가능 -> 스칼라 or 배열
# 스칼라 대입
df2['debt'] = 12.2
df2

Unnamed: 0,State,year,pop,debt
one,Ohio,2000,1.5,12.2
two,Ohio,2001,1.7,12.2
three,Ohio,2002,2.3,12.2
four,Nevada,2003,3.4,12.2
five,Nevada,2004,2.2,12.2


In [41]:
df2['debt'] = np.arange(5.)
df2

Unnamed: 0,State,year,pop,debt
one,Ohio,2000,1.5,0.0
two,Ohio,2001,1.7,1.0
three,Ohio,2002,2.3,2.0
four,Nevada,2003,3.4,3.0
five,Nevada,2004,2.2,4.0


In [43]:
# 배열 대입 -> 없는 값은 NaN으로 표현된다.
val = Series([-1.2, 2.4, 1.1], index=['one', 'three', 'five'])
df2['debt'] = val
df2

Unnamed: 0,State,year,pop,debt
one,Ohio,2000,1.5,-1.2
two,Ohio,2001,1.7,
three,Ohio,2002,2.3,2.4
four,Nevada,2003,3.4,
five,Nevada,2004,2.2,1.1


In [44]:
# 없는 칼렁 대입시 칼럼이 새롭게 생성된다.
df2['size'] = val
df2

Unnamed: 0,State,year,pop,debt,size
one,Ohio,2000,1.5,-1.2,-1.2
two,Ohio,2001,1.7,,
three,Ohio,2002,2.3,2.4,2.4
four,Nevada,2003,3.4,,
five,Nevada,2004,2.2,1.1,1.1


In [47]:
# 칼럼 삭제 -> del
df2['estern'] = df2.State=='Ohio'
df2

Unnamed: 0,State,year,pop,debt,size,estern
one,Ohio,2000,1.5,-1.2,-1.2,True
two,Ohio,2001,1.7,,,True
three,Ohio,2002,2.3,2.4,2.4,True
four,Nevada,2003,3.4,,,False
five,Nevada,2004,2.2,1.1,1.1,False


In [48]:
del df2['estern']

In [50]:
df2.columns

Index(['State', 'year', 'pop', 'debt', 'size'], dtype='object')

In [51]:
# Dict in Dict -> 바깥 키 : column / 안쪽 키 : index
pop = {'Seoul':{2011:2.2, 2012:2.1},
       'incheon':{2010:2.0, 2011:2.1, 2012:1.9}}
df3 = DataFrame(pop)
df3

Unnamed: 0,Seoul,incheon
2010,,2.0
2011,2.2,2.1
2012,2.1,1.9


In [52]:
df3.T

Unnamed: 0,2010,2011,2012
Seoul,,2.2,2.1
incheon,2.0,2.1,1.9


In [53]:
DataFrame(pop, index=[2011, 2012, 2013])

Unnamed: 0,Seoul,incheon
2011,2.2,2.1
2012,2.1,1.9
2013,,


In [54]:
pdata = {'Seoul': df3['Seoul'][:-1],
         'incheon': df3['incheon'][:2]}
DataFrame(pdata)

Unnamed: 0,Seoul,incheon
2010,,2.0
2011,2.2,2.1


In [60]:
# values : DataFrame에 저장된 데이처를 2차원 배열로 반환
df3.values

array([[nan, 2. ],
       [2.2, 2.1],
       [2.1, 1.9]])

In [61]:
df2.values

array([['Ohio', 2000, 1.5, -1.2, -1.2],
       ['Ohio', 2001, 1.7, nan, nan],
       ['Ohio', 2002, 2.3, 2.4, 2.4],
       ['Nevada', 2003, 3.4, nan, nan],
       ['Nevada', 2004, 2.2, 1.1, 1.1]], dtype=object)

### DataFrame 생성자에 입력 가능한 입력 데이터
* 2차원 ndarray : 데이터를 담고 있는 행력, 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.
* 배열, 리스트, 튜플의 사전 : 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 칼럼이 된다.
* Numpy의 구조화 배열 : 배열과 같은 방식으로 취급
* Series Dict : Series의 각 값이 칼럼이 된다. 명시적으로 index를 넘기지 않으면 각 Series의 index가 하나로 합쳐져서 row index가 됨
* Dict in Dict : 내부 Dict가 column이 된다. 키 값은 Series Dict와 동일
* Dict or Series list : list의 각 항목이 DataFrame의 row가 된다. 합처진 키 값이나 Series의 index가 DataFrame column name
* list or tuple list : 2차원 ndarray와 동일
* other DataFrame : 색인을 따로 정하지 않을 경우 기존 DataFrame의 index가 그대로 사용됨

## 1.3 색인 객체 (index object)

In [63]:
obj = Series(range(3), index=['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [64]:
index[1:]

Index(['b', 'c'], dtype='object')

In [None]:
# 색인 객체는 변경이 불가능
obj[1] = 'b'

### 색인 메서드와 속성
* append : 추가적인 index 객체를 덧붙여 새로운 색인을 반환한다.
* diff : 색인의 차집합 반환
* intersection : 색인의 교집합 반환
* union : 색인의 합집합 반환
* isin : 넘겨받은 값이 해당색인 위치에 존재하는지 알려주는 불리언 배열 반환
* delete : i위치의 색인이 삭제된 새로운 색인을 반환한다.
* drop : 넘겨받은 값이 삭제된 새로운 색인을 반환
* insert : i위치의 값이 추가된 새로운 색인 반환
* is_monotonic : 색인이 단조성을 가진다면 True를 반환
* is_unique : 중복되는 색인 없다면 True를 반환
* unique : 색인에서 중복되는 요소를 제거하고 유일한 값만 반환