<h1>02장 Numpy 소개</h1>

<h2> Numpy 배열의 기초</h2>

<b>배열 속성 지정</b> <br>
배열의 크기, 모양, 메모리 소시량, 데이터 타입을 결정한다.<br>
<b>배열 인덱싱</b><br>
개별 배열 요솟값을 가져오고 설정한다.<br>
<b>배열 슬라이싱</b><br>
큰 배열 내에 있는 작은 하위 배열을 가져오고 설정한다.<br>
<b>배열 재구조화</b><br>
해당 배열의 형상을 변경한다.<br>
<b>배열 결합 및 분할</b><br>
여러 배열을 하나로 결합하고 하나의 배열을 여러 개로 분할 한다.<br>

<b>NumPy 배열 속성 지정 </b>

In [3]:
import numpy as np
np.random.seed(0) #재현 가능성을 위한 시드 값

x1 = np.random.randint(10, size = 6)         # 1차원 배열
x2 = np.random.randint(10, size = (3, 4))    # 2차원 배열
x3 = np.random.randint(10, size = (3, 4, 5)) # 3차원 배열

In [5]:
print("x3 ndim:", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size:", x3.size) 

x3 ndim: 3
x3 shape: (3, 4, 5)
x3 size: 60


In [6]:
print("dtype:", x3.dtype)

dtype: int64


In [11]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 8 bytes
nbytes: 480 bytes


<b>배열 인덱싱 : 단일 요소에 접근하기</b>

In [12]:
x1

array([5, 0, 3, 3, 7, 9])

In [13]:
x1[0]

5

In [14]:
x1[4]

7

In [15]:
x1[-1]

9

In [16]:
x1[-2]

7

In [17]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [18]:
x2[0,0]

3

In [20]:
x2[2,0]

1

In [21]:
x2[2,-1]

7

In [22]:
x2[0,0] = 12

In [23]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

<p> 파이썬 리스트와 달리 NumPy 배열은 고정 타입을 가짐. 정ㅅ 배열에 부동 소수점을 삽입하려고 하면 그 값의 소수점 이하를 잘라버림</p>

In [25]:
x1[0] = 3.14159 # 이 값의 소수점 이하는 삭제함

In [26]:
x1

array([3, 0, 3, 3, 7, 9])

<b> 배열 슬라이딩: 하위 배열에 접근하기 </b> <br>
꺾쇠괄호를 사용해 개별 배열 요소에 접근할 수 있는 것처럼 콜론(:) 기호로 표시되는 슬라이스(slice) 표기법으로 하위 배열에 접근 가능<br>

<p>x[start:stop:step]</p>

In [30]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [36]:
x[:5]   # 처음부터 5개 요소

array([0, 1, 2, 3, 4])

In [37]:
x[5:]   # 인덱스 5 다음 요소들

array([5, 6, 7, 8, 9])

In [38]:
x[4:7]  # 중간 하위 배열

array([4, 5, 6])

In [39]:
x[::2]  # 하나 걸러 하나씩의 요소로 구성된 배열

array([0, 2, 4, 6, 8])

In [40]:
x[1::2] # 인덱스 1에서 시작해 하나 걸러 하나씩 요소로 구성된 배열

array([1, 3, 5, 7, 9])

In [41]:
x[::1]  # 모든 요소를 거꾸로 나열

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
x[5::-2] # 인덱스 5부터 하나 걸러 하나씩 요소를 거꾸로 나열

array([5, 3, 1])

<b> 다차원 하위 배열</b>

In [44]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [45]:
x2[:2, :3]

array([[12,  5,  2],
       [ 7,  6,  8]])

In [46]:
x2[:3, ::2]

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [47]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

In [51]:
print(x2[:, 0]) # x2의 첫번째 열

[12  7  1]


In [53]:
print(x2[0, :])

[12  5  2  4]


In [54]:
print(x2[0]) #x2[0, :]와 동일

[12  5  2  4]


<b>사본이 아닌 뷰로서의 하위 배열</b><br>
배열 슬라이스의 중요한 기능 중 하나는 배열 슬라이스가 배열 데이터의 사본(copy)가 아니라 뷰(view)를 반환한다는 점. 

In [55]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


In [58]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]


In [59]:
x2_sub[0,0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [60]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


<p>큰 데이터 세트를 다룰 때, 기반 데이터 버퍼를 복사하지 않아도 이 데이터의 일부에 접근하고 처리 할 수 있음<p>

 <b>배열의 사본 만들기 / .copy()</b>

In [62]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


In [63]:
x2_sub_copy[0,0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [64]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


In [65]:
x2_sub_copy[0,0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [66]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


<b>배열 재구조화 / .reshape()</b>

In [68]:
grid = np.arange(1,10).reshape((3,3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


<p> 이 코드가 동작하려면 초기 배열의 규보가 형상이 변경된 배열의 규모와 일치해야 한다.<br>
일반적인 재구조화 패턴은 1차원 배열을 2차원 행이나 열 매트릭스로 전환하는 것이며, reshape 로 하지 못하면, newaxis 키워드를 사용해 더 쉽게 처리할 수 있다.<p>

In [71]:
x = np.array([1,2,3]) 
# reshape을 이용한 행 벡터 
x.reshape((1,3))

array([[1, 2, 3]])

In [74]:
# newaxis를 이용한 행 벡터 
x[np.newaxis, :]

array([[1, 2, 3]])

In [76]:
# reshape를 이용한 열 벡터 
x.reshape((3,1))

array([[1],
       [2],
       [3]])

In [78]:
# newaxis를 이용한 열 벡터 
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

<b>배열 연결 및 분할</b><br>
<b>배열 연결/ np.concatenate, np.vstack, np.hstack</b>

In [80]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [81]:
z = [99,99,99]
print(np.concatenate([x,y,z]))

[ 1  2  3  3  2  1 99 99 99]


In [83]:
grid = np.array([[1,2,3],
                [4,5,6]])
# 첫번 째 축을 따라 연결
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [84]:
# 두 번쨰 축을 따라 연결(0부터 시작하는 인덱스 방식)
np.concatenate([grid, grid], axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [89]:
x = np.array([1,2,3])
grid = np.array([[9,8,7],
               [6,5,4]])
# 배열을 수직으로 쌓음
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [90]:
# 배열을 수평으로 쌓음
y = np.array([[99],
            [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

<b>배열 분할 하기/ np.split np.hsplit np.vsplit</b>

In [96]:
x = [1,2,3,99,99,3,2,1]
x1, x2, x3 = np.split(x, [3,5]) # 분할 지점을 의미한다.
print(x1,x2,x3)

[1 2 3] [99 99] [3 2 1]


In [101]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [102]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower) 

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [None]:
left, right = np.hsplit(grid,[2])
print(left)
print(right) 

<p>비슷하게 np.dsplit 는 세번쨰 축을 따라 배열을 분할한다.</p>

<b>NumPy 배열 연산 : 유니버설 함수</b>

<b>루프는 느리다</b>

In [113]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

values = np.random.randint(1, 10, size = 5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [115]:
big_array = np.random.randint(1, 100, size=100)
%timeit compute_reciprocals(big_array)

191 µs ± 901 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


<b>UFincs 소개</b>  <br>
벡터화 연산은 간단히 배열에 연산을 수행해 각 요소에 적용함으로써 수행하는 것. <br>
백터화 방식은 루프를 NumPy의 기저를 이루는 컴파일된 계층으로 밀어 넣음으로써 훨씬 빠르게 실행되도록 설계됐다.</p>

In [117]:
print(compute_reciprocals(values))
print(1.0/values)


[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [118]:
%timeit (1.0/ big_array)

1.2 µs ± 16.1 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [119]:
np.arange(5) / np.arange(1,6)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

In [121]:
x = np.arange(9).reshape((3,3))
2**x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

<p>ufunc를 통한 벡터화를 이용한 연산은 파이썬 루프를 통해 구현된 연산보다 대부분 더 효율적이며, 특히 배열의 크기가 커질수록 그 차이가 확연해진다.<br>
<p>


<B>NumPy 유니버설 함수(UFuncs)</B>


<b>배열 산술 연산</b>

In [8]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2) 
print("x / 2 =", x / 2) 
print("x // 2 =", x // 2) #바닥 나눗셈(나머지는 버림) 

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]


In [9]:
print("-x      =", -x)
print("x ** 2  =", x ** 2)
print("x % 2 = ", x % 2)

-x      = [ 0 -1 -2 -3]
x ** 2  = [0 1 4 9]
x % 2 =  [0 1 0 1]


In [10]:
-(0.5 * x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

In [11]:
np.add(x, 2)

array([2, 3, 4, 5])

<b>표2-2 표준 NumPy 데이터 타입</b>
<table style="width:100%">
  <tr>
    <th>연산자</th>
    <th>대응 ufuncs</th> 
    <th>설명</th>
  </tr>
  <tr>
    <td>+</td>
    <td>np.add</td> 
    <td>덧셈(예: 1 + 1 = 2)</td>
  </tr>
  <tr>
    <td>-</td>
    <td>np.subtract</td> 
    <td>뺄셈(예: 3 - 2 = 1)</td>
  </tr>
  <tr>
    <td>-</td>
    <td>np.negative</td> 
    <td>단항 음수(예: -2)</td>
  </tr>
  <tr>
    <td>\*</td>
    <td>np.multiply</td> 
    <td>곱셈(예: 2 * 3 = 6)</td>
  </tr>
  <tr>
    <td>/</td>
    <td>np.divide</td> 
    <td>나눗셈(예: 3 / 2 = 1.5)</td>
  </tr>
  <tr>
    <td>//</td>
    <td>np.floor_divide</td> 
    <td>바닥 나눗셈(예: 3 // 2 = 1)</td>
  </tr>
  <tr>
    <td>\*\*</td>
    <td>np.power</td> 
    <td>지수 연산(예: 2 ** 3 = 8)</td>
  </tr>
  <tr>
    <td>/</td>
    <td>np.mod</td> 
    <td>나머지 연산(예: 9 % 4 = 1)</td>
  </tr>
</table>

<b>절대값 함수</b>

In [13]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

In [17]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [18]:
np.abs(x)

array([2, 1, 0, 1, 2])

In [20]:
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.abs(x)

array([5., 5., 2., 1.])

<b>삼각함수</b>

In [21]:
theta = np.linspace(0, np.pi, 3)

In [24]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("con(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta      =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
con(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [27]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x)) 

x         =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [3.14159265 1.57079633 0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


<b>지수와 로그</b>

In [31]:
x = [1,2,3]
print("x    =", x)
print("e^x  =", np.exp(x))
print("2^x  =", np.exp2(x))
print("3^x  =", np.power(3,x))

x    = [1, 2, 3]
e^x  = [ 2.71828183  7.3890561  20.08553692]
2^x  = [2. 4. 8.]
3^x  = [ 3  9 27]


In [32]:
x = [1,2,4,10]
print("x        =", x)
print("ln(x)   =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
log(x)   = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


In [33]:
x = [0, 0.001, 0.01, 0.1]
print("exp(x)  -1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

exp(x)  -1 = [0.         0.0010005  0.01005017 0.10517092]
log(1 + x) = [0.         0.0009995  0.00995033 0.09531018]


<b>특화된 유니버설 함수</b>

In [35]:
from scipy import special
# 감마 함수(일반화 된 계승)와 관련 함수
x = [1, 5, 10]
print("gamma(x)     =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x,2) =", special.beta(x,2))

gamma(x)     = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)| = [ 0.          3.17805383 12.80182748]
beta(x,2) = [0.5        0.03333333 0.00909091]


In [38]:
#오차 함수(가우스 적분), 그 보수(complemnet)와 역수(inverse)
x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x)   =", special.erf(x))
print("erfc(x)   =", special.erfc(x))
print("erfinv(x)   =", special.erfinv(x))

erf(x)   = [0.         0.32862676 0.67780119 0.84270079]
erfc(x)   = [1.         0.67137324 0.32219881 0.15729921]
erfinv(x)   = [0.         0.27246271 0.73286908        inf]


<b>고급 Ufunc 기능</b>

<b>출력지정</b> 
<p>대규모 연산인 경우, 연산 결과를 저장할 배열을 지정하는 것이 유용할 때가 있음. <br>
임시 배열을 생성하지 않고 지정한 배열을 이용해 원하는 메모리 위치에 직접 연산 결과를 쓸 수 있음<p>

In [41]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out = y)
print(y)

[ 0. 10. 20. 30. 40.]


In [42]:
y = np.zeros(10)
np.power(2, x, out = y[::2])
print(y)

[ 1.  0.  2.  0.  4.  0.  8.  0. 16.  0.]


<b>집계</b> <br>
이항 ufuncs의 경우, 객체로부터 직접 연산을 할 수 있다.<br>
배열을 특정 연산으로 축소하고자 한다면, ufunc의 reduce 메서드를 사용한다.<br>
reduce는 결과가 하나만 남을 때까지 해당 연산을 배열 요소에 반복해서 적용한다.<br>

In [45]:
x = np.arange(1,6)
print(x)
np.add.reduce(x)

[1 2 3 4 5]


15

In [46]:
np.multiply.reduce(x)

120

In [49]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [50]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

연산의 경우, 결과를 계산하는 np.sum np.prod, np.cumsum, np.cumprod 도 있다.

<b>외적(Outer products)</b>

In [55]:
x = np.arange(1,6)
print(x)
np.multiply.outer(x, x)

[1 2 3 4 5]


array([[ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25]])

<b>Ufuncs: 더 알아보기</b>

<b>집계: 최소값, 최대값, 그리고 그 사이의 모든 것</b>

<b>배열의 값의 합 구하기</b>