In [1]:
# 데이터구조 pandas
# 데이터 분석에서 가장 많이 사용하는 데이터 구조들을 소개한다
# 데이터프레임을 배운다

In [2]:
# 시리즈와 데이터프레임 두가지가 기본이다
# 시리즈는 1차원 배열과 같은 형태를 갖는데 다른점은 강 항목마다 인덱스를 지정할 수 있다
# 자동으로 인덱스가 만들어진다

import numpy as np
from pandas import Series, DataFrame
import pandas as pd

s = Series([34,54,78])
s

0    34
1    54
2    78
dtype: int64

In [3]:
#시리즈 데이터셋을 구성한다.
s = Series(['kim', 'lee', 'park'])
s

0     kim
1     lee
2    park
dtype: object

In [4]:
s.values

array(['kim', 'lee', 'park'], dtype=object)

In [5]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [6]:
# 인덱스를 임의로 지정할 수 있다
s = Series(['kim', 'lee', 'park'], index=['a', 'b', 'r'])
s

a     kim
b     lee
r    park
dtype: object

### 실습예제 1
'BMW', 'Nissan', 'Honda', 'Audi'를 값으로 갖고 'one', 'two', 'three', 'four'를 인덱스로 갖는 시리즈 데이터 셋을 선언하시오

In [7]:
# 인덱스로 해당 값을 얻을 수 있다
s['r']

'park'

In [8]:
#특정값이 데이터에 속해있는지 확인할수있다
'r' in s

True

In [9]:
'park' in s

False

In [10]:
# 파이썬 기본 타입인 사전으로부터 시리즈를 만들 수 있다
dic = {'서울':800, '부산':150, '대구': 100}
dic

{'대구': 100, '부산': 150, '서울': 800}

In [11]:
s = Series(dic)
s

대구    100
부산    150
서울    800
dtype: int64

In [12]:
city = ['서울', '부산', '대구', '대전']

In [13]:
s2 = Series(s, index=city)
s2
# 인덱스 '대전'에 해당하는 값이 없으므로 NaN으로 표시된다

서울    800.0
부산    150.0
대구    100.0
대전      NaN
dtype: float64

In [14]:
# NaN값이면 True를 반환하고 값이 있을 경우 False를 반환한다
pd.isnull(s2)

서울    False
부산    False
대구    False
대전     True
dtype: bool

In [15]:
# NaN값이면 False를 반환하고 값이 있을 경우 True를 반환한다
pd.notnull(s2)

서울     True
부산     True
대구     True
대전    False
dtype: bool

In [16]:
# 아래도 같은 동작을 한다 (인스턴스 메서드라고 부른다)
s2.isnull()

서울    False
부산    False
대구    False
대전     True
dtype: bool

In [17]:
s2

서울    800.0
부산    150.0
대구    100.0
대전      NaN
dtype: float64

In [18]:
# 변수 선언 없이 바로 사전으로 시리즈 데이터 셋으로 변환할수 있다
s3 = Series({'서울':800, '광주':300, '대구': 100, '부산':50})

In [19]:
s3

광주    300
대구    100
부산     50
서울    800
dtype: int64

In [20]:
# 두 시리즈에 연산을 하면 공통의 인덱스가 있는 부부만 처리된다
s2 + s3

광주       NaN
대구     200.0
대전       NaN
부산     200.0
서울    1600.0
dtype: float64

In [21]:
s2 - s3

광주      NaN
대구      0.0
대전      NaN
부산    100.0
서울      0.0
dtype: float64

### 실습예제 2
'BMW':15000, 'Nissan':8000, 'Honda':8000, 'Audi':10000를 사전(dictionary)으로 선언하고 해당 사전을 이용하여 시리즈 데이터셋을 선언하시오

In [22]:
# 인데스나 시리즈 자체에 이름(name)을 줄 수 있다

s2.name = '물가지수'
s2.index.name = '도시명'
s2

도시명
서울    800.0
부산    150.0
대구    100.0
대전      NaN
Name: 물가지수, dtype: float64

In [23]:
# 데이터프레임은 테이블 구조의 데이터를 다루며 각 컬럼마다 임의의 데이터 형식을 담을 수 있다
# 2차원 구조의 사전형식이라고 볼 수 있다
# 시리즈의 성격을 가지고 있다

# 사전으로부터 데이터프레임을 만드는 법

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [24]:
# 컬럼의 순서를 변경할 수 있다
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [25]:
# 없는 컬럼 값을 주면 NaN으로 처리된다 (아래에서 debt)
# 아래에서 인덱스 값을 새롭게 정의할 수 있다
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


### 실습예제 3
'name': ['Aaron Brooks', 'Brendan Haywood', 'Cory Joseph', 'Darius Miller'],
        'height': [180, 210, 187.5, 200],
        'weight': [72.45, 120.6, 86.85, 105.75]
        
인 사전을 이용하여 tFrame이란 이름을 가진 데이터프레임을 만드시오

In [26]:
sdata = {'name': ['Aaron Brooks', 'Brendan Haywood', 'Cory Joseph', 'Darius Miller'],
        'height': [180, 210, 187.5, 200],
        'weight': [72.45, 120.6, 86.85, 105.75]}
tFrame = DataFrame(sdata)
tFrame

Unnamed: 0,height,name,weight
0,180.0,Aaron Brooks,72.45
1,210.0,Brendan Haywood,120.6
2,187.5,Cory Joseph,86.85
3,200.0,Darius Miller,105.75


### 실습예제 4
인덱스를 'one', 'two', 'three', 'four'로 재정의 하시오

### 실습예제 5
컬럼의 순서를 name, height, weight순으로 변경하시오

In [27]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [28]:
# 컬럼(열)을 얻는 방법
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [29]:
# 같은 결과를 얻는다 (속성 값으로 액세스)
frame2.state 

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [30]:
# 로(행)을 얻는 법 
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

### 실습예제 6
tFrame의 name값을 출력하시오

### 실습예제 7
tFrame의 컬럼(열)을 출력하시오

In [31]:
# 컬럼 값을 채워널 수 있다
# 벡터화 방법
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [32]:
# 갯수가 일치해야 한다
# numpy.arange(start, stop, step)는 start부터 stop까지 step간격으로 된 배열을 반환한다
# start는 default값으로 0을 가지고 step는 default값으로 1을 가진다
frame2['debt'] = np.arange(5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [33]:
# 시리즈를 사용하여 컬럼 값을 입력할 수 있다 (없는 인덱스는 NaN이 된다)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [34]:
#frame2에 eastern 칼럼을 만들고 frame2.state가 Ohio면 True값을 넣고 아닐경우 False를 넣는다
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


### 실습예제 8
tFrame에 key 칼럼을 만들고 height가 200이상이면 True값을 넣고 200미만일 경우 False값을 넣으시오

In [35]:
# 컬럼을 간단히 삭제하는 명령으로 del이 있다
# 참고로 복사본을 만들지 않고 원본을 바로 수정하므로 주의해야 한다
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

### 실습예제 9
del명령어를 사용하여 tFrame에서 key 칼럼을 삭제하고 칼럼을 출력하시오

In [36]:
# 중첩된 사전으로부터 바로 데이터프레임을 만들 수 있다
# 바깥의 인덱스 명이 열이 된다
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [37]:
frame3.T
# 행과 열을 간단히 바꿀 수 있다 (transpose)

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [38]:
# 인덱스를 명시적으로 지정할 수 있다
# 값이 없으면 NaN이 된다
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [39]:
# 인덕스와 열의 이를을 지정할 수 있다
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [40]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

In [41]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

In [42]:
# 색인(index) 객체
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [43]:
index[1:]

Index(['b', 'c'], dtype='object')

In [44]:
index[1] = 'd'
# 색인은 변경할 수 없다

TypeError: Index does not support mutable operations

In [45]:
# 시리즈와 데이터프레이의 주요 기능
# reindex: 새로 정하는 색인의 순서대로 시리즈를 재배열한다
obj = Series([10,20,30,40], index=['d', 'b', 'a', 'c'])
obj

d    10
b    20
a    30
c    40
dtype: int64

In [46]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a    30.0
b    20.0
c    40.0
d    10.0
e     NaN
dtype: float64

In [47]:
# fill_value값을 주면 NaN값을 해당 값으로 대체한다
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a    30
b    20
c    40
d    10
e     0
dtype: int64

In [48]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')
# 앞의 값으로 채운다 forward fill (pad)

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [49]:
# 뒤의 값으로 채우려면 bfill(backward fill)을 사용한다
obj3.reindex(range(6), method='bfill')

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [50]:
# reshape함수를 이용하여 배열의 형태를 재설정 할 수있다
# reshape(A, B)는 배열을 AxB로 바꿔준다
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [51]:
# 기본적으로는 행을 중심으로 재배열을 수행한다
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [52]:
# 열의 이름을 명시적으로 지정하여 재배열할 수도 있다
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [53]:
frame.ix[['a', 'b', 'c', 'd'], states]

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [54]:
# drop으로 행 삭제하기
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [55]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [56]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [57]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [58]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [59]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 실습예제 10
drop 함수를 이용하여 tFrame의 첫번째 행을 삭제하시오

### 실습예제 11
drop함수를 이용하여 name 칼럼을 삭제하고 원본데이터에 적용하시오

### 실습예제 12
del함수와 drop함수의 차이점을 서술하시오.

In [60]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj['b']

1.0

In [61]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [62]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [63]:
obj[['b','a','c']]

b    1.0
a    0.0
c    2.0
dtype: float64

In [64]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

In [65]:
obj['b':'c']
# 양 끝점을 포함시킨다

b    1.0
c    2.0
dtype: float64

In [66]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 실습예제 13
인덱스가 'Brendan Haywood', 'Cory Joseph', 'Darius Miller'이고 컬럼(열)이 'one', 'two', 'three', 'four', 'five'인 3x5 데이터프레임을 만드시오(이름은 sample으로 하고, 값은 0부터 차례대로 채우시오)

In [67]:
data['two']
# 'two'라는 컬럼을 가진 값들을 가져온다

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [68]:
data[['three', 'one']]
# 'three'와 'one'이라는 컬럼을 가진 값들을 가져온다

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [69]:
data[:2]
# 2까지 로(행)을 가져온다

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [70]:
data[data['three'] > 5]
# 칼럼 'three'의 값이 5 초과인 값들을 가져온다

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 실습예제 14
sample 데이터에서 컬럼 four의 값이 5 이상인 값들을 가져오시오

### 실습예제 15
sample 데이터에서 2번째부터 3번째까지 로(행)을 가져오시오

### 실습예제 16
sample 데이터에서 칼럼 'one'과 'five'를 가져오시오

In [71]:
data.ix['Colorado', ['two', 'three']]
# Colorado 로(행)의 'two'와 'three'값을 Series 구조로 가져온다

two      5
three    6
Name: Colorado, dtype: int32

In [72]:
data.ix[['Colorado', 'Utah'], [3, 0, 1]]
# Colorado와 'Utah'행의 3, 0, 1번째 컬럼(열) 순서로 가져온다

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [73]:
data.ix[2]
# 2번째 로(행)의 값을 가져온다

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [74]:
data.ix[:'Utah', 'two']
# 0부터 Utah까지 행의 컬럼 'two' 값을 가져온다

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [75]:
data.ix[data.three > 5, :3]
# 컬럼 three의 값이 5 초과인 값의 컬럼 3번째 까지 값을 가져온다

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


### 실습예제 17
sample 데이터의 five 칼럼이 9인 값의 컬럼 3번째 까지 값을 가져오시오

In [76]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [77]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [78]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [79]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [80]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [81]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [82]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [83]:
# 함수 적용
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.447613,-0.433355,0.612768
Ohio,-1.252928,-2.373916,0.165255
Texas,-0.377568,-0.275341,1.730919
Oregon,1.284537,-1.490655,-0.933486


In [84]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.447613,0.433355,0.612768
Ohio,1.252928,2.373916,0.165255
Texas,0.377568,0.275341,1.730919
Oregon,1.284537,1.490655,0.933486


In [85]:
f = lambda x: x.max() - x.min()

In [86]:
frame.apply(f)

b    2.537464
d    2.098575
e    2.664405
dtype: float64

In [87]:
frame.apply(f,axis=1)

Utah      1.060381
Ohio      2.539172
Texas     2.108487
Oregon    2.775192
dtype: float64

In [88]:
# 리턴 값이 스칼라가 아니라 시리즈로 될 수도 있다
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.252928,-2.373916,-0.933486
max,1.284537,-0.275341,1.730919


In [89]:
# 포맷을 바꾸는 예
format = lambda x: '%.4f' % x # 소수 4번쨰 자리까지 표시한다
frame.applymap(format)
# DataFrame구조에 applymap 함수를 이용하여 값에 함수를 적용한다

Unnamed: 0,b,d,e
Utah,-0.4476,-0.4334,0.6128
Ohio,-1.2529,-2.3739,0.1653
Texas,-0.3776,-0.2753,1.7309
Oregon,1.2845,-1.4907,-0.9335


In [90]:
frame['e'].map(format)
# Series구조에 applymap 함수를 이용하여 값에 함수를 적용한다

Utah       0.6128
Ohio       0.1653
Texas      1.7309
Oregon    -0.9335
Name: e, dtype: object

### 실습예제 18
lambda를 이용하여 sample데이터의 평균을 구하시오