# 5. Pandas 

In [1]:
import pandas as pd 
from pandas import Series,DataFrame
import numpy as np 

pandas는 표 형식의 데이터 혹은 다양한 형태의 데이터를 다루는데 초점이 맞춰 설계되어 있다. 

## 1) Pandas 자료구조

### Series 객체
Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

In [3]:
# Series 선언
# row의 각 label은 index를 통해 저장한다. 

obj = pd.Series([4,5,6,7])
obj2 = pd.Series([4,5,6,7],index = ['a','b','c','d'])

In [4]:
# value 
print(obj.values)
print(obj2.values)

[4 5 6 7]
[4 5 6 7]


In [5]:
# index
print(obj.index)
print(obj2.index)

RangeIndex(start=0, stop=4, step=1)
Index(['a', 'b', 'c', 'd'], dtype='object')


In [6]:
# Series의 indexing
print(obj2['a'])
print('----------')
print(obj2[['a','b','c']])

4
----------
a    4
b    5
c    6
dtype: int64


In [7]:
# Series의 연산
print(obj2 * 2)
print('------')

print('a' in obj2)

a     8
b    10
c    12
d    14
dtype: int64
------
True


In [8]:
# value에 없는 index는 NaN으로 값을 처리한다. 
sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)

states = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata,index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [9]:
# Series의 다양한 method : isnull, notnull ...
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [10]:
# Series name 속성을 이용하여 series객체와 index에 이름을 부여할 수 있다. 
obj4.name = 'population'
obj.index.name = 'states'
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame 객체

DataFrame : 표 같은 스프레드 시트 형식의 자료구조, 여러개의 칼럼은 서로 다른 종류의 값을 저장 가능하다. 

In [11]:
# DataFrame 선언 : 같은 길이의 리스트에 담긴 사전 이용 or Numpy 배열 이용
# columns : 세로 방향의 데이터
# rows : 가로 방향의 데이터 

data = { 'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

In [12]:
pd.DataFrame(data)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [13]:
# 원하는 columns만 지정하여 출력할 수 있다.
pd.DataFrame(data,columns=['year','state'])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


In [14]:
# columns와 index를 재지정할 수 있다. 
# data에 존재하지 않는 columns의 value는 Nan으로 표시된다. 
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],
                      index = ['one','two','three','four','five','six'])

frame2                      

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [15]:
# DataFrame은 사전형식 표기법이나 속성으로 접근이 가능하다. 
print(frame2['state'])
print('----------')
# loc['행','열']
print(frame2.loc['three'])

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
----------
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


#### DataFrame에 새로운 columns 생성하기 

In [44]:
# 리스트, 배열을 칼럽에 대입하려면 대입하려는 값의 길이와 DataFrame의 길이가 동일해야 함 
frame2['tem'] = [1,2,3,4,5,6]

# Series를 대입할 때는 DataFrame의 index에 따라 대입하며, 존재하지 않는 index는 결측치로 대입함 
val = pd.Series([-1.2,-1.5,-1.7],index = ['two','one','three'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt,tem
one,2000,Ohio,1.5,-1.5,1
two,2001,Ohio,1.7,-1.2,2
three,2002,Ohio,3.6,-1.7,3
four,2001,Nevada,2.4,,4
five,2002,Nevada,2.9,,5
six,2003,Nevada,3.2,,6


#### DataFrame에 있는 columns 지우기

In [45]:
# 예약어 del 
del frame2['tem']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.5
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,-1.7
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


### index 객체  
index 객체 : 각 row, columns에 대한 이름, 다른 메타 데이터를 저장하는 객체 

In [49]:
obj = pd.Series(range(3),index = ['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [50]:
# index 객체는 변경이 불가능하다. 여러 곳에서 공유하는 데이터이기 때문이다. 
index[1] = 'd'

TypeError: Index does not support mutable operations

In [51]:
# index 객체는 dict와 달리 중복되는 값을 허용한다.  
dup_lables = pd.Index(['foo','foo','bar','bar'])
dup_lables

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 2) Pandas 기능

### pandas 기능 1 :  재색인

In [52]:
# reindex : 새로운 index에 맞춰서 객체를 새로 생성함 
obj = pd.Series([1,2,3,4],index = ['a','d','c','b'])

# Series의 reindex, 존재하지 않는 reindex의 value는 NaN
obj2 = obj.reindex(['a','b','c','d','e'])
obj2


a    1.0
b    4.0
c    3.0
d    2.0
e    NaN
dtype: float64

In [53]:
# method option : 순차적인 데이터를 재색인할 때 보간, 채워 넣을 때 
obj3 = pd.Series(['blue','purple','yellow'], index = [0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [54]:
obj3.reindex(range(6),method = 'ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [66]:
# DataFrame의 reindex
# row와 columns 둘 다 변경이 가능하다. 

frame = pd.DataFrame(np.arange(9).reshape(3,3),
                     index = ['a','b','c'],
                     columns=['Ohio','Texas','California'])
# row reindex
frame2 = frame.reindex(['a','b','c','d'])
print(frame2)

# columns reindex 
states = ['Texas','Utah','California']
print(frame.reindex(states))

   Ohio  Texas  California
a   0.0    1.0         2.0
b   3.0    4.0         5.0
c   6.0    7.0         8.0
d   NaN    NaN         NaN
            Ohio  Texas  California
Texas        NaN    NaN         NaN
Utah         NaN    NaN         NaN
California   NaN    NaN         NaN


### padnas 기능 2 : row, column 삭제하기 

In [68]:
# drop : 선택한 값들이 삭제된 새로운 객체를 반환함
obj = pd.Series(np.arange(5.),index = ['a','b','c','d','e'])
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [2]:
# DataFrame에서는 row, columns 모두 값을 삭제 가능하다. 
# axis = 0은 row를 삭제시키고 axis = 1 or axis = 'columns'는 column을 삭제시킨다. 

data = pd.DataFrame(np.arange(16).reshape(4,4),
                    index = [1,2,3,4],
                    columns=['one','two','three','four'])

In [4]:
data.drop([1,2])

Unnamed: 0,one,two,three,four
3,8,9,10,11
4,12,13,14,15


In [5]:
data.drop(['one','two'],axis=1)

Unnamed: 0,three,four
1,2,3
2,6,7
3,10,11
4,14,15


### pandas 기능 3 : 색인, 선택, 거르기

In [6]:
# Series index : numpy와 유사하나 정수가 아니어도 된다. 

obj = pd.Series(np.arange(4),index = ['a','b','c','d'])
obj['b']

1

In [83]:
# DataFrame index
data = pd.DataFrame(np.arange(16).reshape(4,4),
                    index = [1,2,3,4],
                    columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15


In [76]:
data[data < 5]

Unnamed: 0,one,two,three,four
1,0.0,1.0,2.0,3.0
2,4.0,,,
3,,,,
4,,,,


In [77]:
# loc, iloc 활용하기 

# loc : DataFrame의 row,column의 label을 활용하여 그 값을 가져온다. 
data.loc[1,['three','four']]

three    2
four     3
Name: 1, dtype: int64

In [84]:
# iloc : DataFrame의 row, column의 순서를 활용하여 그 값을 가져온다. 
data.iloc[0,[2,3]]

three    2
four     3
Name: 1, dtype: int64

### pandas 기능 4 : 산술연산

#### series 통합

In [10]:
s1 = pd.Series([7.3,-2.5,3.4,1.5],index = ['a','b','c','d'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])

In [11]:
# 인덱스가 일치하는 부분만 계산, 일치하지 않는 부분은 모두 NaN
s1 + s2

a    5.2
b    NaN
c    7.0
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

#### DataFrame 통합
row와 column 모두 일치해야 계산함, 일치하지 않다면 NaN 값으로 처리함

NaN값으로 처리하고 싶지 않은 경우 산술 연산 메서드를 통해 채워 넣을 값을 지정하는 것도 가능하다. 

In [12]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),columns = list('abcde'))


In [14]:
# 일반 연산자를 사용한 경우 결과 
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [15]:
# 산술 연산 메서드를 통해 채워 넣을 값을 지정한 결과
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [20]:
# reindex시에도 없는 column 혹은 row에 대해 넣을 값을 지정하는 것이 가능하다.
df1.reindex(columns = df2.columns, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


#### reverse 연산

In [17]:
print(1 / df1)
print(df1.rdiv(1))

       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909
       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909


#### DataFrame과 Series 연산

In [33]:
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                     columns = list('bde'),
                     index = ['utha','ohio','texas','oregon'])
series = frame.iloc[0]
print(frame)
print('*****')
print(series)

          b     d     e
utha    0.0   1.0   2.0
ohio    3.0   4.0   5.0
texas   6.0   7.0   8.0
oregon  9.0  10.0  11.0
*****
b    0.0
d    1.0
e    2.0
Name: utha, dtype: float64


In [34]:
frame - series

Unnamed: 0,b,d,e
utha,0.0,0.0,0.0
ohio,3.0,3.0,3.0
texas,6.0,6.0,6.0
oregon,9.0,9.0,9.0


In [36]:
series2 = pd.Series(range(3),index = ['b','e','f'])
series2

b    0
e    1
f    2
dtype: int64

In [37]:
frame + series2

Unnamed: 0,b,d,e,f
utha,0.0,,3.0,
ohio,3.0,,6.0,
texas,6.0,,9.0,
oregon,9.0,,12.0,


In [39]:
series3 = frame['d']
series3

utha       1.0
ohio       4.0
texas      7.0
oregon    10.0
Name: d, dtype: float64

In [40]:
frame.sub(series3,axis='index')

Unnamed: 0,b,d,e
utha,-1.0,0.0,1.0
ohio,-1.0,0.0,1.0
texas,-1.0,0.0,1.0
oregon,-1.0,0.0,1.0


#### 함수 적용과 매핑

In [42]:
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index = list('abcd'))
frame

Unnamed: 0,b,d,e
a,0.434994,1.77767,-0.080636
b,-1.028829,0.528003,-0.036701
c,-0.474411,2.208708,0.768104
d,-0.709056,-1.044162,-0.978134


In [43]:
np.abs(frame)

Unnamed: 0,b,d,e
a,0.434994,1.77767,0.080636
b,1.028829,0.528003,0.036701
c,0.474411,2.208708,0.768104
d,0.709056,1.044162,0.978134


In [45]:
# apply() : 각 row 혹은 column 단위로 입력된 함수를 적용함
f = lambda x : x.max() - x.min()
frame.apply(f)

b    1.463823
d    3.252870
e    1.746237
dtype: float64

In [46]:
# axis가 columns면 index 'a'열 중에서 
frame.apply(f,axis = 'columns')

a    1.858306
b    1.556833
c    2.683119
d    0.335107
dtype: float64

In [48]:
def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

In [56]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.028829,-1.044162,-0.978134
max,0.434994,2.208708,0.768104


In [54]:
# applymap() : 각 원소 단위로 함수를 적용함 
format = lambda x : '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
a,0.43,1.78,-0.08
b,-1.03,0.53,-0.04
c,-0.47,2.21,0.77
d,-0.71,-1.04,-0.98


### pandas 기능 5 : 정렬과 순위 

In [None]:
# sort_index와 sort_values
obj = pd.Series(range(4),index = ['d','a','b','c'])
obj.sort_index()

In [62]:
# ranking 
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [58]:
# method option first : 동점 없이 나타나는 순서에 따라 rank
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [59]:
# max option : 동률은 큰 값으로 통일함 (1등이 2명이면 모두 2등)
obj.rank(ascending=False,method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

### pandas 기능 6 : 중복 색인

In [63]:
# Series에서 index가 중복인 경우 
obj = pd.Series(range(5),index=['a','a','b','b','c'])

In [66]:
# 중복된 index가 있는 경우 series를 반환함
obj['a']

a    0
a    1
dtype: int64

In [67]:
# DataFrame에서 
df = pd.DataFrame(np.random.rand(4,3),index = ['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,0.56657,0.377075,0.923389
a,0.584525,0.258645,0.409206
b,0.255559,0.262753,0.853733
b,0.487776,0.771751,0.352955


In [68]:
df.loc['b']

Unnamed: 0,0,1,2
b,0.255559,0.262753,0.853733
b,0.487776,0.771751,0.352955


### pandas 기능 7 : 기술 통계 계산과 요약 