In [1]:
import pandas as pd
from pandas import Series,DataFrame
import numpy as np

## 5.1 pandas 자료구조 소개

### 5.1.1 Series

In [2]:
obj = Series([4,7,-5,3])
obj
obj.values
obj.index
obj.dtype

0    4
1    7
2   -5
3    3
dtype: int64

array([ 4,  7, -5,  3], dtype=int64)

RangeIndex(start=0, stop=4, step=1)

dtype('int64')

In [3]:
#인덱스 지정하여 생성
obj2 = Series([4,7,-5,3],index = ['d','b','a','c'])
obj2
obj2['a']
obj2[0]

d    4
b    7
a   -5
c    3
dtype: int64

-5

4

In [4]:
obj2[['a','b']]
obj2['a'] = 100
obj2

a   -5
b    7
dtype: int64

d      4
b      7
a    100
c      3
dtype: int64

In [5]:
#불리언 연산을 해도 색인-값이 연결되어있음
obj2[obj2>2]
#수학연산을 해도 연결되어있음
obj2 **2

d      4
b      7
a    100
c      3
dtype: int64

d       16
b       49
a    10000
c        9
dtype: int64

In [6]:
#크기가 고정되고 정렬된 사전형이라 생각하면됨, 사전형을 대체하여 사용가능
'a' in obj2
'k' in obj2
7 in obj2.values

#사전형으로 부터 Series 생성도 가능함, 키값은 순서대로 들어가고 순서를 지정해줄수도 있음
sdata = {
    'Ohio':35000,
    'Texas':71000,
    'Oregon':16000,
    'Utah':5000
}
obj3 = Series(sdata)
obj3
state = ['California','Utah','Ohio']
obj4 = Series(sdata,index=state)
obj4

True

False

True

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California        NaN
Utah           5000.0
Ohio          35000.0
dtype: float64

In [7]:
#isnull, notnull
obj4
obj4.isnull()
obj4.notnull()

California        NaN
Utah           5000.0
Ohio          35000.0
dtype: float64

California     True
Utah          False
Ohio          False
dtype: bool

California    False
Utah           True
Ohio           True
dtype: bool

- Series의 유용한 기능은 산술연산에서 색인과 라벨로 자동정렬하는것

In [8]:
obj3
obj4
obj3+obj4

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California        NaN
Utah           5000.0
Ohio          35000.0
dtype: float64

California        NaN
Ohio          70000.0
Oregon            NaN
Texas             NaN
Utah          10000.0
dtype: float64

In [9]:
#Series 객체와 색인은 모두 name속성이 있음
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Utah           5000.0
Ohio          35000.0
Name: population, dtype: float64

In [10]:
#색인은 대입해서 변경이 가능함
obj
obj.index=['a','k','c','e']
obj
obj.index = np.arange(len(obj))
obj

0    4
1    7
2   -5
3    3
dtype: int64

a    4
k    7
c   -5
e    3
dtype: int64

0    4
1    7
2   -5
3    3
dtype: int64

### 5.1.2 DataFrame  
색인의 모양이 같은 Series를 담고있는 사전이라 생각하면 편함

In [11]:
data = {
    'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
    'year':[2000,2001,2002,2001,2002,2003],
    'pop':[1.5,1.7,3.6,2.4,2.9,3.2]
}

frame = DataFrame(data)
frame
#frame.set_index('state')
#frame.reset_index()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [12]:
#순서를 지정할수 있음
DataFrame(data,columns = ['pop','state','year'])

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [13]:
frame2 = DataFrame(data,columns = ['pop','state','year','nono'],
                  index=['one','two','three','four','five','six'])
frame2

Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,
two,1.7,Ohio,2001,
three,3.6,Ohio,2002,
four,2.4,Nevada,2001,
five,2.9,Nevada,2002,
six,3.2,Nevada,2003,


In [14]:
#컬렁믄 사전처럼 접근도 가능하고 속성으로 접근도 가능함
frame2['pop']
frame2.nono

#반환되는 Series에는 Name속성이 알맞게 채워짐

one      1.5
two      1.7
three    3.6
four     2.4
five     2.9
six      3.2
Name: pop, dtype: float64

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
six      NaN
Name: nono, dtype: object

In [15]:
#row에 접근하려면 loc 를 이용
frame2.loc['one']
frame2.loc[['one','three']]
frame2.loc['one','pop']

pop       1.5
state    Ohio
year     2000
nono      NaN
Name: one, dtype: object

Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,
three,3.6,Ohio,2002,


1.5

In [16]:
# 컬럼에는 대입이 가능함
frame2['nono'] = 2
frame2
frame2['nono'] = [1,2,3,4,5,6]#np.arange(len(frame2))
frame2
# 리스트나 배열을 대입할때는 크기가 동일해야함

# Series를 대입하면 index따라 대입되고, 결측은 Nan
a = Series([1,2,3],index=['one','three','Nine'])
frame2['nono'] = a
frame2

Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,2
two,1.7,Ohio,2001,2
three,3.6,Ohio,2002,2
four,2.4,Nevada,2001,2
five,2.9,Nevada,2002,2
six,3.2,Nevada,2003,2


Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,1
two,1.7,Ohio,2001,2
three,3.6,Ohio,2002,3
four,2.4,Nevada,2001,4
five,2.9,Nevada,2002,5
six,3.2,Nevada,2003,6


Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,1.0
two,1.7,Ohio,2001,
three,3.6,Ohio,2002,2.0
four,2.4,Nevada,2001,
five,2.9,Nevada,2002,
six,3.2,Nevada,2003,


del 예약어를 사용해 컬럼 삭제가능

In [17]:
frame2['eastern'] = frame2['state']=='Ohio'
frame2
del frame2['eastern']
frame2

Unnamed: 0,pop,state,year,nono,eastern
one,1.5,Ohio,2000,1.0,True
two,1.7,Ohio,2001,,True
three,3.6,Ohio,2002,2.0,True
four,2.4,Nevada,2001,,False
five,2.9,Nevada,2002,,False
six,3.2,Nevada,2003,,False


Unnamed: 0,pop,state,year,nono
one,1.5,Ohio,2000,1.0
two,1.7,Ohio,2001,
three,3.6,Ohio,2002,2.0
four,2.4,Nevada,2001,
five,2.9,Nevada,2002,
six,3.2,Nevada,2003,


**색인을 통해 얻은 컬럼은 데이터에 대한 뷰이므로 변경시 원본도 변경되는것에 주의, 복사하려면 Series의 copy 명령어 사용**

In [18]:
#중첩된 사전으로부터 DataFrame 생성
data = {
    'Nevada':{2001:2.4,2002:2.9},
    'Ohio':{2000:1.5,2001:1.7,2002:3.6}
}
frame3 = DataFrame(data)
frame3
DataFrame(data,columns = ['Ohio'])
DataFrame(data,index = [2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


Unnamed: 0,Ohio
2000,1.5
2001,1.7
2002,3.6


Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [19]:
#전치 가능
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [20]:
#색인과 컬럼의 이름도 지정가능함
frame3.index.name = 'year';frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [21]:
#values 속성은 데이터 전체를 2차원으로 반환
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

### 5.1.3 색인객체

In [22]:
obj = pd.Series(range(3),index=['a','b','c'])
index = obj.index
index
index[:2]

Index(['a', 'b', 'c'], dtype='object')

Index(['a', 'b'], dtype='object')

In [23]:
#색인 객체는 요소를 바꿀수 없으므로 자료구조사이에서 안전하게 공유할수 있다.
labels = pd.Index(np.arange(3))
labels
obj2 = pd.Series([1.5,-2.5,0],index = labels)
obj2
obj2.index is labels
obj2.index = [0,1,2]
obj2
obj2.index is labels

Int64Index([0, 1, 2], dtype='int64')

0    1.5
1   -2.5
2    0.0
dtype: float64

True

0    1.5
1   -2.5
2    0.0
dtype: float64

False