# 5. Pandas 

In [1]:
import pandas as pd 
from pandas import Series,DataFrame
import numpy as np 

pandas는 표 형식의 데이터 혹은 다양한 형태의 데이터를 다루는데 초점이 맞춰 설계되어 있다. 

## 1) Pandas 자료구조

### Series 객체
Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

In [10]:
# Series 선언
# row의 각 label은 index를 통해 저장한다. 

obj = pd.Series([4,5,6,7])
obj2 = pd.Series([4,5,6,7],index = ['a','b','c','d'])
obj

0    4
1    5
2    6
3    7
dtype: int64

In [11]:
print(obj.values)
print(obj2.values)

[4 5 6 7]
[4 5 6 7]


In [13]:
print(obj.index)
print(obj2.index)

RangeIndex(start=0, stop=4, step=1)
Index(['a', 'b', 'c', 'd'], dtype='object')


In [16]:
# Series의 indexing
print(obj2['a'])
print('----------')
print(obj2[['a','b','c']])

4
----------
a    4
b    5
c    6
dtype: int64


In [19]:
# Series의 연산
print(obj2 * 2)
print('------')

print('a' in obj2)


a     8
b    10
c    12
d    14
dtype: int64
------
True


In [21]:
# value에 없는 index는 NaN으로 값을 처리한다. 
sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)

states = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata,index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [25]:
# Series의 다양한 method : isnull, notnull ...
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [85]:
# Series name 속성을 이용하여 series객체와 index에 이름을 부여할 수 있다. 
obj4.name = 'population'
obj.index.name = 'states'
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame 객체

DataFrame : 표 같은 스프레드 시트 형식의 자료구조, 여러개의 칼럽은 서로 다른 종류의 값을 저장 가능하다. 

In [27]:
# DataFrame 선언 : 같은 길이의 리스트에 담긴 사전 이용 or Numpy 배열 이용
# columns : 세로 방향의 데이터
# rows : 가로 방향의 데이터 

data = { 'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

In [28]:
pd.DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [34]:
# 원하는 columns만 지정하여 출력할 수 있다.
pd.DataFrame(data,columns=['year','state'])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


In [31]:
# columns와 index를 재지정할 수 있다. 
# data에 존재하지 않는 columns의 value는 Nan으로 표시된다. 
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],
                      index = ['one','two','three','four','five','six'])

frame2                      

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [36]:
# DataFrame은 사전형식 표기법이나 속성으로 접근이 가능하다. 
print(frame2['state'])
print('----------')
# loc['행','열']
print(frame2.loc['three'])

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
----------
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


#### DataFrame에 새로운 columns 생성하기 

In [44]:
# 리스트, 배열을 칼럽에 대입하려면 대입하려는 값의 길이와 DataFrame의 길이가 동일해야 함 
frame2['tem'] = [1,2,3,4,5,6]

# Series를 대입할 때는 DataFrame의 index에 따라 대입하며, 존재하지 않는 index는 결측치로 대입함 
val = pd.Series([-1.2,-1.5,-1.7],index = ['two','one','three'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt,tem
one,2000,Ohio,1.5,-1.5,1
two,2001,Ohio,1.7,-1.2,2
three,2002,Ohio,3.6,-1.7,3
four,2001,Nevada,2.4,,4
five,2002,Nevada,2.9,,5
six,2003,Nevada,3.2,,6


#### DataFrame에 있는 columns 지우기

In [45]:
# 예약어 del 

del frame2['tem']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.5
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,-1.7
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


## index 객체 

index 객체 : 각 row, columns에 대한 이름, 다른 메타 데이터를 저장하는 객체 

In [49]:
obj = pd.Series(range(3),index = ['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [50]:
# index 객체는 변경이 불가능하다. 여러 곳에서 공유하는 데이터이기 때문이다. 
index[1] = 'd'

TypeError: Index does not support mutable operations

In [51]:
# index 객체는 dict와 달리 중복되는 값을 허용한다.  
dup_lables = pd.Index(['foo','foo','bar','bar'])
dup_lables

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 2) Pandas 기능

### pandas 기능 1 :  재색인

In [52]:
# reindex : 새로운 index에 맞춰서 객체를 새로 생성함 
obj = pd.Series([1,2,3,4],index = ['a','d','c','b'])

# Series의 reindex, 존재하지 않는 reindex의 value는 NaN
obj2 = obj.reindex(['a','b','c','d','e'])
obj2


a    1.0
b    4.0
c    3.0
d    2.0
e    NaN
dtype: float64

In [53]:
# method option : 순차적인 데이터를 재색인할 때 보간, 채워 넣을 때 

obj3 = pd.Series(['blue','purple','yellow'], index = [0,2,4])
obj3


0      blue
2    purple
4    yellow
dtype: object

In [54]:
obj3.reindex(range(6),method = 'ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [66]:
# DataFrame의 reindex
# row와 columns 둘 다 변경이 가능하다. 

frame = pd.DataFrame(np.arange(9).reshape(3,3),
                     index = ['a','b','c'],
                     columns=['Ohio','Texas','California'])
# row reindex
frame2 = frame.reindex(['a','b','c','d'])
print(frame2)

# columns reindex 
states = ['Texas','Utah','California']
print(frame.reindex(states))

   Ohio  Texas  California
a   0.0    1.0         2.0
b   3.0    4.0         5.0
c   6.0    7.0         8.0
d   NaN    NaN         NaN
            Ohio  Texas  California
Texas        NaN    NaN         NaN
Utah         NaN    NaN         NaN
California   NaN    NaN         NaN


### padnas 기능 2 : row, column 삭제하기 

In [68]:
# drop : 선택한 값들이 삭제된 새로운 객체를 반환함
obj = pd.Series(np.arange(5.),index = ['a','b','c','d','e'])
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [69]:
# DataFrame에서는 row, columns 모두 값을 삭제 가능하다. 
# axis = 0은 row를 삭제시키고 axis = 1 or axis = 'columns'는 column을 삭제시킨다. 

data = pd.DataFrame(np.arange(16).reshape(4,4),
                    index = [1,2,3,4],
                    columns=['one','two','three','four'])

In [70]:
data.drop([1,2])

Unnamed: 0,one,two,three,four
3,8,9,10,11
4,12,13,14,15


In [71]:
data.drop(['one','two'],axis=1)

Unnamed: 0,three,four
1,2,3
2,6,7
3,10,11
4,14,15


### pandas 기능 3 : 색인, 선택, 거르기

In [73]:
# Series index : numpy와 유사하나 정수가 아니어도 된다. 

obj = pd.Series(np.arange(4,),index = ['a','b','c','d'])
obj['b']

1

In [83]:
# DataFrame index
data = pd.DataFrame(np.arange(16).reshape(4,4),
                    index = [1,2,3,4],
                    columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15


In [76]:
data[data < 5]

Unnamed: 0,one,two,three,four
1,0.0,1.0,2.0,3.0
2,4.0,,,
3,,,,
4,,,,


In [77]:
# loc, iloc 활용하기 

# loc : DataFrame의 row,column의 label을 활용하여 그 값을 가져온다. 
data.loc[1,['three','four']]


three    2
four     3
Name: 1, dtype: int64

In [84]:
# iloc : DataFrame의 row,cloumn의 순서를 활용하여 그 값을 가져온다. 
data.iloc[0,[2,3]]

three    2
four     3
Name: 1, dtype: int64