#### 5.2.4 정수 색인 p.209

In [3]:
# p.209
'''
정수 색인으로 pandas 객체를 다루다보면,
리스트나 튜플 같은 파이썬 내장 자료구조에서 색인을 다루는 방법과의 차이점 때문에
실수하게 되는 경우가 있다.

아래의 경우, pandas 는 라벨 색인을 찾는 데 실패하므로 정수 색인으로 값을 찾는다.
하지만 이를 어떤 경우에도 버그 없이 잘 작동하도록 구현하기란 쉽지 않다.

라벨 색인이 0, 1, 2를 포함하는 경우 사용자가 라벨 색인으로 선택하려는 것인지
정수 색인으로 선택하려는 것인지 추측하기 쉽지 않다.

ser = pd.Series(np.arange(3.), index=[1, -1, 2])
print(ser[-1])
'''
import pandas as pd
import numpy as np

ser = pd.Series(np.arange(3.))
print(ser)
print(ser[-1])      # 오류 발생

0    0.0
1    1.0
2    2.0
dtype: float64


KeyError: -1

In [6]:
# p.209
'''
정수 기반의 색인을 사용하지 않는 경우,
위에서와 같은 모호함은 사라진다.
'''
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
print(ser2)
print(ser2[-1])

a    0.0
b    1.0
c    2.0
dtype: float64


2.0

In [7]:
# p.209
'''
일관성을 유지하기 위해 정수값을 담고 있는 축 색인이 있다면
우선적으로 라벨을 먼저 찾아보도록 구현되어 있다.

좀 더 세밀하게 사용하고 싶다면,
라벨에 대해서는 loc 을 사용하고
정수 색인에 대해서는 iloc 을 사용하자.
'''
print(ser[:1])
print()
print(ser.loc[:1])  # 라벨 슬라이싱의 경우에는 해당 라벨도 포함됨
print()
print(ser.iloc[:1])

0    0.0
dtype: float64

0    0.0
1    1.0
dtype: float64

0    0.0
dtype: float64


#### 5.2.5 산술 연산과 데이터 정렬 p.210

In [8]:
# p.210
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print()
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [9]:
# p.211
'''
짝이 맞지 않는 색인이 있다면
결과에 두 색인이 통합됨
'''
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [10]:
# p.211
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print()
print(df2)

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0


In [11]:
# p.212
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [12]:
# p.212
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print()
print(df2)
print()
print(df1 - df2)

   A
0  1
1  2

   B
0  3
1  4

    A   B
0 NaN NaN
1 NaN NaN


**산술 연산 메서드에 채워 넣을 값 지정하기 p.213**

In [13]:
# p.213
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))

df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

df2.loc[1, 'b'] = np.nan

print(df1)
print()
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [14]:
# p.213
df1 + df2   # 없는 색인의 값을 연산하려고 하면 NaN 값이 출력됨

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [15]:
# p.214
df1.add(df2, fill_value=0)  #  없는 색인의 값을 0 으로 채움(add 함수 사용)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


**DataFrame 과 Series 간의 연산 p.215**

In [16]:
# p.215
arr = np.arange(12.).reshape((3, 4))
print(arr)
print()
print(arr[0])
print()
print(arr - arr[0])     # 브로드캐스팅(자세한 내용은 부록 A - p.602, p.603)

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]

[0. 1. 2. 3.]

[[0. 0. 0. 0.]
 [4. 4. 4. 4.]
 [8. 8. 8. 8.]]


In [17]:
# p.215
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
print(frame)
print()
print(series)

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64


In [18]:
# p.216
'''
기본적으로 DataFrame 과 Series 간의 산술 연산은
Series 의 인덱스를 DataFrame 의 칼럼에 맞추고 아래 로우로 전파함
'''
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [19]:
# p.216
'''
색인값을 DataFrame 의 칼럼이나 Series 의 색인에서 찾을 수 없다면,
그 객체는 형식을 맞추기 위해 재색인됨
'''
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

print(frame)
print()
print(series2)
print()
print(frame + series2)

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

b    0
e    1
f    2
dtype: int64

          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN


In [20]:
# p.217
'''
각 로우에 대해 연산을 수행하고 싶다면,
산술 연산 메서드 사용
'''
series3 = frame['d']
print(frame)
print()
print(series3)
print()
print(frame.sub(series3, axis='index'))     # axis=0 과 동일

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0


#### 5.2.6 함수 적용과 매핑 p.217

In [21]:
# p.217
'''
pandas 객체에도 NumPy 의 유니버설 함수 적용 가능
유니버설 함수: 배열의 각 원소에 적용되는 메서드
'''
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(frame)
print()
print(np.abs(frame))

               b         d         e
Utah   -1.614551  1.387887  0.115161
Ohio   -1.821127 -0.295745 -1.140169
Texas   0.694564 -0.162764 -0.868883
Oregon  0.493126 -0.984043  0.387963

               b         d         e
Utah    1.614551  1.387887  0.115161
Ohio    1.821127  0.295745  1.140169
Texas   0.694564  0.162764  0.868883
Oregon  0.493126  0.984043  0.387963


In [22]:
# p.218
'''
def f(x):
    return x.max() - x.min()

print(frame.apply(f))
'''

'''
123,456 --> 123456
'''
f = lambda x: x.max() - x.min()
print(frame.apply(f))

b    2.515691
d    2.371930
e    1.528132
dtype: float64


In [None]:
# p.218
print(frame)
print()
print(frame.apply(f, axis='columns'))   # axis=1 과 동일