## DataFrame

In [6]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

DataFrame

pandas.core.frame.DataFrame

In [3]:
data = {u'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


#### 열을 특정한 방식으로 구성하고 싶으면, columns를 설정하면 된다.

In [5]:
frame = DataFrame(data,
                 columns=['year', 'state', 'pop'])  # 중요한 것은 컬럼 순서를 list로 받아왔다는 것이다.
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [18]:
# debt는 key가 추가된 것이므로 exception이 아니라 값을 할당하지 않아도 추가된다. NaN = Not a Number
frame2 = DataFrame(data,
                 columns=['year', 'state', 'pop', 'debt'],
                  index=['하나', '둘', '셋', '넷', '다섯'])
frame2

Unnamed: 0,year,state,pop,debt
하나,2000,Ohio,1.5,
둘,2001,Ohio,1.7,
셋,2002,Ohio,3.6,
넷,2001,Nevada,2.4,
다섯,2002,Nevada,2.9,


In [9]:
frame2.index

Index([u'하나', u'둘', u'셋', u'넷', u'다섯'], dtype='object')

In [10]:
frame2.columns

Index([u'year', u'state', u'pop', u'debt'], dtype='object')

#### 특정 열 선택

In [13]:
frame2['state']  # unicode 한글명으로 한 경우, 'frame2.주'이런식으로 어렵다.

하나      Ohio
둘       Ohio
셋       Ohio
넷     Nevada
다섯    Nevada
Name: state, dtype: object

In [12]:
frame2.state

하나      Ohio
둘       Ohio
셋       Ohio
넷     Nevada
다섯    Nevada
Name: state, dtype: object

In [15]:
type(frame2.state) # DataFrame에서 하나만 선택했으므로 Series다.

pandas.core.series.Series

#### 행 선택

In [16]:
frame2.ix['셋']  # ix : index의 약자

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 셋, dtype: object

In [19]:
# 브로드캐스팅
# 반복문으로 각 행을 반복하여 값을 설정하지 않아도 된다.
frame2.debt = 16.5
frame2

Unnamed: 0,year,state,pop,debt
하나,2000,Ohio,1.5,16.5
둘,2001,Ohio,1.7,16.5
셋,2002,Ohio,3.6,16.5
넷,2001,Nevada,2.4,16.5
다섯,2002,Nevada,2.9,16.5


In [20]:
frame2['debt'] = range(5)
frame2

Unnamed: 0,year,state,pop,debt
하나,2000,Ohio,1.5,0
둘,2001,Ohio,1.7,1
셋,2002,Ohio,3.6,2
넷,2001,Nevada,2.4,3
다섯,2002,Nevada,2.9,4


In [21]:
frame2['debt'] = range(4)  # Series에 index 갯수만큼 모자라게 값을 할당하면 error
frame2

ValueError: Length of values does not match length of index

In [22]:
val = Series([-1.2, -1.5, -1.7, -1.8],
            index=['둘', '넷', '다섯', '여섯'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
하나,2000,Ohio,1.5,
둘,2001,Ohio,1.7,-1.2
셋,2002,Ohio,3.6,
넷,2001,Nevada,2.4,-1.5
다섯,2002,Nevada,2.9,-1.7


#### 컬럼 추가는 값 할당으로 가능

In [28]:
frame2[u'동부'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,동부
하나,2000,Ohio,1.5,,True
둘,2001,Ohio,1.7,-1.2,True
셋,2002,Ohio,3.6,,True
넷,2001,Nevada,2.4,-1.5,False
다섯,2002,Nevada,2.9,-1.7,False


In [25]:
frame2.state == 'Ohio'  # Ohio라는 스칼라 값과 비교

하나     True
둘      True
셋      True
넷     False
다섯    False
Name: state, dtype: bool

#### 열 삭제. 간단한 방식. 그러나 이후에 더 나은 방식이 있음.

In [29]:
del frame2[u'동부']  # 파이썬은 del을 한다고 해서, 메모리 삭제가 일어나지는 않는다. --> GC 가 수행
frame2

Unnamed: 0,year,state,pop,debt
하나,2000,Ohio,1.5,
둘,2001,Ohio,1.7,-1.2
셋,2002,Ohio,3.6,
넷,2001,Nevada,2.4,-1.5
다섯,2002,Nevada,2.9,-1.7


그런데, 인덱스는 다음의 방식으로 삭제 불가

In [30]:
del frame2.ix['다섯']  # 인덱스는 의식적이고 다른 방식으로 삭제해야 함

AttributeError: __delitem__

In [31]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000:1.5, 2001:1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


frame3.T # 행, 열을 뒤바꿔보자. 

#### 도전과제

학생은 각각 국어,수학,과학의 점수를 갖는다. 학생 세 명의 점수를 DataFrame으로 표현하시오.

a. 모든 학생의 수학 점수를 출력하시오.

b. 각 학생의 과목 평균 입력을 위해 '평균' 열을 추가하시오. 평균값은 아직 계산하지 않아서, 초기값을 0이 되도록 한다.

c. 과목 점수는 국어, 수학, 과학의 순으로 표시하시오.

d. 각 학생의 성별 정보를 '남자' 또는 '여자'로 지정한다. 성별 정보를 활용해 새 열 '여성'을 추가하고, 성별 정보에 따라 True 또는 False의 값을 갖도록 한다. 그리고 문자열로 지정된 원래의 '성별'열은 삭제한다.

In [46]:
data = {u'수학': [80,20,30], 
        u'국어': [10,90,50], 
        u'과학': [20,30,100]}
frame = DataFrame(data)

# 모든 학생의 수학 점수 출력
print(sum(frame[u'수학']))

# 평균 열 추가, 초기값 0 세팅
frame[u'평균'] = 0

# 과목 점수를 국어,수학,과학 순으로 표시하는 새로운 DataFrame 생성
frame2 = DataFrame(data,
                  columns = [u'국어', u'수학', u'과학', u'평균'],
                  index = [u'박성진', u'유재석', u'노홍철'])
frame2[u'평균'] = 0

# 여성을 정보 추가
frame2[u'성별'] = [u'여성', u'남자', u'남자'] 
frame2[u'여성'] = frame2[u'성별'] == u'여성'

# 성별 컬럼 삭제
del frame2[u'성별']
frame2

130


Unnamed: 0,국어,수학,과학,평균,여성
박성진,10,80,20,0,True
유재석,90,20,30,0,False
노홍철,50,30,100,0,False


## 색인 객체

DataFrame에서 정렬 기준

In [47]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [48]:
index = obj.index
index

Index([u'a', u'b', u'c'], dtype='object')

In [49]:
index[0]  # 인덱싱

'a'

In [51]:
index[1:]  # 슬라이싱

Index([u'b', u'c'], dtype='object')

In [52]:
# 인덱스의 임의 값을 변경이 어렵다. 거의 문자열과 마찬가지로 immutable
index[1] = 'a' # 오류!

TypeError: Indexes does not support mutable operations

In [54]:
obj2 = Series([1.5, -2.5, 0], index=index)
obj2

a    1.5
b   -2.5
c    0.0
dtype: float64

In [55]:
obj.index is obj2.index

True

## 재색인

In [56]:
obj = Series([4.5, 7.2, -5.3, 3.6],
            index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [87]:
from pandas import Series
s = Series(range(3))
print(s)
s.reindex(['a', 'b', 'c'])

0    0
1    1
2    2
dtype: int64


a   NaN
b   NaN
c   NaN
dtype: float64

객체가 생성된 이후 인덱스 조작

In [57]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

.reindex() --> 새로운 객체가 반환된다.

In [88]:
obj is obj2

False

In [59]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

In [60]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

#### 중간을 채워주는 보간 (interpolation)

In [62]:
obj3.reindex(range(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [63]:
obj3.reindex(range(6), method='ffill')  # ffill : forward fill,  계속 없어면 앞의 것으로 채워라

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [64]:
obj3.reindex(range(6), method='bfill') # bfill : backward fill, 뒤에 것을 채워라

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

#### DataFrame 재색인

In [65]:
import numpy as np

data = np.arange(9).reshape((3,3))
frame = DataFrame(data, index=['a', 'b', 'c'],
                 columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [66]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [67]:
# DataFrame과 Series의 차이점
# DataFrame은 2차원, Seires는 1차원
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


In [68]:
frame.ix[['a', 'b', 'c', 'd'], states]

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,4.0,,5.0
c,7.0,,8.0
d,,,


#### 도전과제

성주는 SJ전자와 매크로소프트 사의 주식을 가지고 있다.

a. 각 주식의 10일 간이 가격을 DataFrame으로 표현하시오. 가격 정보는 임의로 설정하시오.

b. 메론 사의 주식 정보를 DataFrame에 추가하시오.

c. 매크로소프트, 메론, SJ전자 순으로 회사명이 행 방향으로 표시되도록 하시오.

d. 코드베이직 사는 5일 전에 새로 상장되었다. 그래서 지난 5일 간의 가격만 있고, 이전 가격은 없다.
   코드베이직 사의 가격을 DataFrame에 추가하시오.
   
e. d에서 추가된 주식을 포함해, 모든 주식이 가격 정보가 있는 구간만을 선택하시오.

f. 코드베이직과 SJ전자의 6일부터 8일까지의 가격만을 선택하시오.

In [89]:
#data = {u'SJ전자': range(100, 110),
#       u'매크로소프트': range(10, 20)} 
stock_prices = {u'SJ전자':
               np.random.randint(100,200, size=10),
               u'매크로소프트':
               np.random.randint(100,200, size=10)}
frame = DataFrame(stock_prices, columns=[u'SJ전자', u'매크로소프트'])
frame

Unnamed: 0,SJ전자,매크로소프트
0,104,158
1,159,167
2,108,115
3,189,138
4,168,173
5,178,116
6,177,110
7,145,179
8,169,128
9,158,168


In [90]:
# frame[u'메론'] = range(30, 40)
frame[u'메론'] = np.random.randint(100,200, size=10)
frame

Unnamed: 0,SJ전자,매크로소프트,메론
0,104,158,103
1,159,167,153
2,108,115,106
3,189,138,193
4,168,173,117
5,178,116,187
6,177,110,159
7,145,179,189
8,169,128,153
9,158,168,163


In [93]:
frame.reindex(columns=[u'매크로소프트', u'메론', u'SJ전자']).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
매크로소프트,158,167,115,138,173,116,110,179,128,168
메론,103,153,106,193,117,187,159,189,153,163
SJ전자,104,159,108,189,168,178,177,145,169,158


In [96]:
frame[u'코드베이직'] = Series(np.random.randint(100,200, size=5),
                         index=range(5,10))
frame

Unnamed: 0,SJ전자,매크로소프트,메론,코드베이직
0,104,158,103,
1,159,167,153,
2,108,115,106,
3,189,138,193,
4,168,173,117,
5,178,116,187,105.0
6,177,110,159,173.0
7,145,179,189,139.0
8,169,128,153,194.0
9,158,168,163,189.0


In [97]:
np.NaN == 0 #numpy에서 정의된 상수값, NaN = Not a Number

False

In [98]:
np.NaN < 0

False

In [99]:
np.NaN > 0

False

In [101]:
frame.ix[frame[u'코드베이직']].notnull()

Unnamed: 0,SJ전자,매크로소프트,메론,코드베이직
,False,False,False,False
,False,False,False,False
,False,False,False,False
,False,False,False,False
,False,False,False,False
105.0,False,False,False,False
173.0,False,False,False,False
139.0,False,False,False,False
194.0,False,False,False,False
189.0,False,False,False,False


In [102]:
frame.notnull()

Unnamed: 0,SJ전자,매크로소프트,메론,코드베이직
0,True,True,True,False
1,True,True,True,False
2,True,True,True,False
3,True,True,True,False
4,True,True,True,False
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,True,True


In [104]:
frame.ix[5:9, [u'코드베이직', u'SJ전자']]

Unnamed: 0,코드베이직,SJ전자
5,105,178
6,173,177
7,139,145
8,194,169
9,189,158


#### 행열 삭제

In [107]:
obj = Series(np.arange(5.), index=['a','b','c','d','e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: float64

In [109]:
print(obj.drop('c'))  # 새로운 객체가 생성, 원본 obj에는 변함이 없다.
print(obj)

a    0
b    1
d    3
e    4
dtype: float64
a    0
b    1
c    2
d    3
e    4
dtype: float64


In [110]:
obj.drop(['d', 'c']) # 기본적으로 행방향으로 drop이 진행되며, 옵션을 주면 열방향도 가능

a    0
b    1
e    4
dtype: float64

In [112]:
data = np.arange(16).reshape((4,4))
frame = DataFrame(data, index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'trois', 'quatre'])
frame

Unnamed: 0,one,two,trois,quatre
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [113]:
frame.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,trois,quatre
Utah,8,9,10,11
New York,12,13,14,15


In [116]:
# axis 는 연산의 방향을 설정 가능
# DataFrame에서 기본 방향은 index방향이고, axis = 0이다.
# Columns 방향은 axis = 1이다.
frame.drop(['one', 'two'], axis=1)  # 열방향으로 drop하고 싶을때

Unnamed: 0,trois,quatre
Ohio,2,3
Colorado,6,7
Utah,10,11
New York,14,15


## 색인, 선택, 필터

obj[<선택조건>]

In [117]:
obj = Series(np.arange(4.0), index=list('abcd'))
obj

a    0
b    1
c    2
d    3
dtype: float64

In [118]:
obj[[1,3]]

b    1
d    3
dtype: float64

In [119]:
obj[obj<2]

a    0
b    1
dtype: float64

#### 문자 라벨 슬라이싱

원래 존재하지 않으나, pandas에서 추가된 것

In [126]:
obj = Series(range(5), index=['d', 'e', 'b', 'a', 'c'])
print(obj)
print(obj['b':'d']) # index 순서가 안맞아서 결과가 없다.
print(obj[2:4])
print(obj['b':])

d    0
e    1
b    2
a    3
c    4
dtype: int64
Series([], dtype: int64)
b    2
a    3
dtype: int64
b    2
a    3
c    4
dtype: int64


In [129]:
data = np.arange(16).reshape((4,4))
frame = DataFrame(data, index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'trois', 'quatre'])
frame

Unnamed: 0,one,two,trois,quatre
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [131]:
frame['two'] # 기본적으로 axis = 0으로 Series가 가져와진다.

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

#### 질문: 열 방향으로 선택되어야 하는거 아니야?

In [132]:
frame[:2] # 왜 애는 행이 선택되는 거야?

Unnamed: 0,one,two,trois,quatre
Ohio,0,1,2,3
Colorado,4,5,6,7


In [139]:
frame[frame['trois'] > 5]

Unnamed: 0,one,two,trois,quatre
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 행열 방향 색인과 슬라이싱

In [140]:
frame.ix['Colorado', ['two', 'three']]

two       5
three   NaN
Name: Colorado, dtype: float64

In [141]:
frame.ix[['Colorado', 'Utah'], [3,0,1]]

Unnamed: 0,quatre,one,two
Colorado,7,4,5
Utah,11,8,9


#### 도전과제

학생은 각각 국어, 수학, 과학의 점수를 갖는다. 학생 세 명이 점수를 DataFrame으로 표현하시오.

a. 학생1과 학생3의 수학, 과학 점수만을 선택하시오.

b. 수학 점수가 80점 이상인 학생들만 표시하시오.

In [148]:
scores = {u'국어':
          np.random.randint(0,100, size=3),
          u'수학':
          np.random.randint(0,100, size=3),
          u'과학':
          np.random.randint(0,100, size=3)}
frame = DataFrame(scores, columns=[u'국어', u'수학', u'과학'],
                 index=[u'학생1', u'학생2', u'학생3'])
frame


Unnamed: 0,국어,수학,과학
학생1,49,70,11
학생2,22,84,61
학생3,2,91,27


In [149]:
frame.ix[[u'학생1', u'학생3'], [u'수학', u'과학']]

Unnamed: 0,수학,과학
학생1,70,11
학생3,91,27


In [150]:
frame[frame[u'수학'] >= 80]

Unnamed: 0,국어,수학,과학
학생2,22,84,61
학생3,2,91,27


In [176]:
# 강사님 답안
from pandas import DataFrame, Series

scores = {u'학생1': {u'국어': 80, u'수학': 80, u'과학': 100},
          u'학생2': {u'수학': 30, u'국어': 60, u'과학': 30},
          u'학생3': {u'과학': 20, u'수학': 90, u'국어': 10}}
frame = DataFrame(scores)
frame


Unnamed: 0,학생1,학생2,학생3
과학,100,30,20
국어,80,60,10
수학,80,30,90


In [177]:
frame.ix[[u'수학', u'과학'], [u'학생1', u'학생3']]

Unnamed: 0,학생1,학생3
수학,80,90
과학,100,20


In [174]:
frame[frame.ix[u'수학'] >= 80]

IndexingError: Unalignable boolean Series key provided

In [179]:
# ix를 통해서 행,렬을 명시적으로 해주는 것이 바람직 하다.
# 이차원 행렬의 index를 통해서
column_filter = frame.ix[u'수학']>=80 
frame.ix[:, column_filter]  #모든 행, 컬럼이 80점 이상인 것

Unnamed: 0,학생1,학생3
과학,100,20
국어,80,10
수학,80,90


## 산술연산

In [183]:
s1 = Series([7.3, -2.5, 3.4, 1.5, 3],
           index=['a','b','c','d','e'])
s2 = Series([-2.1, 3, 6, -1.5, 4],
           index=['a','c','d','b','e'])

In [184]:
s1 + s2

a    5.2
b   -4.0
c    6.4
d    7.5
e    7.0
dtype: float64

In [185]:
df1 = DataFrame(np.arange(12.).reshape((3,4)),
               columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4,5)),
               columns=list('abcde'))

In [186]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [187]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [188]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


#### NaN 대신 기본값 설정하기

In [191]:
df1.add(df2, fill_value=0) # shape에 순서 + 0 값이 채워진다

Unnamed: 0,a,b,c,d,e
0,0,2,4,6,4
1,9,11,13,15,9
2,18,20,22,24,14
3,15,16,17,18,19


#### DataFrame과 Series 연산

In [242]:
frame = DataFrame(np.random.randn(4,3),
                 columns=list('bde'),
                 index=['Utah','Ohio','Texas','Oregon'])

series = frame.ix[0]

print(frame)
print(frame - series) # Name과 상관없이 broadcast로 다 연산이 수행된다.

               b         d         e
Utah    0.344383 -0.968871 -0.874227
Ohio   -0.610869 -0.688287  1.095775
Texas   0.788833  0.650970 -0.097183
Oregon  2.115553 -1.975382  1.110282
               b         d         e
Utah    0.000000  0.000000  0.000000
Ohio   -0.955252  0.280583  1.970002
Texas   0.444451  1.619840  0.777044
Oregon  1.771170 -1.006511  1.984509


In [236]:
series = frame.ix[0]
series

b    1.772125
d    0.008699
e    1.021572
Name: Utah, dtype: float64

In [240]:
data = series.values
series_copy = Series(data, index=frame.columns)
series_copy.name = series.name
series_copy

b    1.772125
d    0.008699
e    1.021572
Name: Utah, dtype: float64

In [241]:
print(frame)
print(frame - series)
print(frame - series_copy)

               b         d         e
Utah    1.772125  0.008699  1.021572
Ohio   -0.562305 -0.513525  0.414461
Texas  -0.022088  1.210578  2.929717
Oregon -0.439634  1.599765 -0.064037
               b         d         e
Utah    0.000000  0.000000  0.000000
Ohio   -2.334430 -0.522224 -0.607111
Texas  -1.794213  1.201880  1.908145
Oregon -2.211759  1.591066 -1.085609
               b         d         e
Utah    0.000000  0.000000  0.000000
Ohio   -2.334430 -0.522224 -0.607111
Texas  -1.794213  1.201880  1.908145
Oregon -2.211759  1.591066 -1.085609


In [200]:
series2 = Series(range(1,4), index=['b','e','f']) # 해당 Series는 무명 --> Name이라는 속성이 없다.
series2

b    1
e    2
f    3
dtype: int64

In [203]:
print(series2) # d가 시리즈에 없기 때문에, NaN
print(frame)
print(frame + series2) # 일종의 broadCast : 한개의 스칼라 값이 여러개에 적용되기 때문

b    1
e    2
f    3
dtype: int64
               b         d         e
Utah    1.772125  0.008699  1.021572
Ohio   -0.562305 -0.513525  0.414461
Texas  -0.022088  1.210578  2.929717
Oregon -0.439634  1.599765 -0.064037
               b   d         e   f
Utah    2.772125 NaN  3.021572 NaN
Ohio    0.437695 NaN  2.414461 NaN
Texas   0.977912 NaN  4.929717 NaN
Oregon  0.560366 NaN  1.935963 NaN


In [205]:
series3 = frame['d']
series3

Utah      0.008699
Ohio     -0.513525
Texas     1.210578
Oregon    1.599765
Name: d, dtype: float64

#### series의 인덱스는 frame의 columns로 간주하고 연산 수행(기본)

In [207]:
frame - series3

Unnamed: 0,Ohio,Oregon,Texas,Utah,b,d,e
Utah,,,,,,,
Ohio,,,,,,,
Texas,,,,,,,
Oregon,,,,,,,


#### series의 인덱스를 frame의 인덱스로 간주하고 연산 수행

In [208]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,1.763427,0,1.012873
Ohio,-0.04878,0,0.927986
Texas,-1.232667,0,1.719139
Oregon,-2.039399,0,-1.663802


#### 도전과제

10명의 학생이 5개의 과목 점수를 갖는다. 과목 점수는 [0,100] 범위이다. 과목명은 숫자 코드로 되어 있으며, 숫자코드는 [101,105] 구간의 값이다.

a. 과목코드 102의 성적이 잘못 매겨졌다. 전체 10명의 학생은 재채점 결과에 따라 각각 [-10, 10] 범위의 임의 점수가 현재 점수에 반영되도록 한다.

b. 과목 점수 재조정 시, 점수가 음수가 되거나, 100을 초과하지 않도록 하시오.

In [211]:
scores = np.random.randint(0,100, size=(10,5)) # 10x5
frame_scores = DataFrame(scores,
                        index=range(1,11),
                        columns=range(101,106))
frame_scores

Unnamed: 0,101,102,103,104,105
1,89,12,33,43,80
2,46,81,92,27,24
3,65,23,6,71,37
4,53,14,92,5,9
5,12,5,86,54,82
6,15,69,84,99,96
7,68,82,42,86,1
8,49,99,62,56,10
9,85,76,86,56,40
10,54,31,0,59,92


In [230]:
# print(frame_scores[102])

# a
delta = np.random.randint(-10, 10, size=10)
series_delta = Series(delta, index=frame_scores.index)

frame_scores.add(series_delta, axis=0)

Unnamed: 0,101,102,103,104,105
1,84,7,28,38,75
2,54,89,100,35,32
3,59,17,0,65,31
4,49,10,88,1,5
5,13,6,87,55,83
6,24,78,93,108,105
7,65,79,39,83,-2
8,43,93,56,50,4
9,90,81,91,61,45
10,56,33,2,61,94


In [244]:
#score_delta = frame_scores[102]
#frame_new_scores = frame_scores.sub(score_delta, axis=0) # 여기서 무조건 broadcast로 연산이 수행된다.

frame_scores[102] = frame_scores[102] - score_delta

print(score_delta)
print(frame_scores[:5])
print(frame_new_scores[:5])

1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
Name: 102, dtype: int64
   101  102  103  104  105
1   89    0   33   43   80
2   46    0   92   27   24
3   65    0    6   71   37
4   53    0   92    5    9
5   12    0   86   54   82
   101  102  103  104  105
1   77    0   21   31   68
2  -35    0   11  -54  -57
3   42    0  -17   48   14
4   39    0   78   -9   -5
5    7    0   81   49   77


In [None]:
# b
frame = DataFrame(np.random.randint(-10,10, size=10).reshape)