# NumPy
Vectorization 기법으로 구현된 행렬 및 벡터 연산 라이브러리

## Numerical Python = NumPy
- 벡터, 행렬 연산을 위한 수치해석용 python 라이브러리
  - 빠른 수치 계산을 위한 Structured Array 및 vectorized arithmetic operations (without having to write loops) and sophisticated broadcasting을 통한 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공
  - Linear algebra, random number generation, and Fourier transform capabilities
  - 메모리 버퍼에 배열 데이터를 저장하고 처리
    - list, array 비교하면 NumPy의 ndarray 객체를 사용하면 더 많은 데이터를 더 빠르게 처리
    - ndarray는 타입을 명시하여 원소의 배열로 데이터를 유지
    - 다차원 데이터도 연속된 메모리 공간이 할당됨
    - 많은 연산이 strides를 잘 활용하면 효율적으로 가능
    - transpose는 strides를 바꾸는 것으로 거의 추가 구현이 필요치 않음
  - C로 구현 (파이썬용 C라이브러리)
  - BLAS/LAPACK 기반
- 많은 과학 계산 라이브러리가 NumPy를 기반으로 둠
  - scipy, matplotlib, pandas, scikit-learn, statsmodels, etc.  라이브러리 간의 공통 인터페이스
  - Tools for integrating code written in C, C++, and Fortran

## Scientific Python = SciPy
- NumPy 기반 다양한 과학, 공학분야에 활용할 수 있는 함수 제공

## Why NymPy ?
NumPy를 사용하는 이유는 다음과 같다.
- 속도가 빠르다. (5배 ~ 20배 정도의 성능 차이)
- 쉽게 만들어져 사용하기 편리하다. (Fancy Indexing 등)
- 효율적인 자료구조 및 알고리즘으로 구성되어있다. (ndarray)

## Vectorization
- Arrays are important because they enable you to express batch operations on data <b>without writing any for loops.</b> This is usually called vectorization. Any arithmetic operations between equal-size arrays applies the operation elementwise.
  - 벡터화하여 계산
- 실제 코딩의 양을 줄일뿐만아니라, 벡터 계산은 병렬 계산이 가능하기 때문에, Multi core 활용 가능
  - CPU 지원 (vector processor)
  - https://blogs.msdn.microsoft.com/nativeconcurrency/2012/04/12/what-is-vectorization/
- https://www.labri.fr/perso/nrougier/from-python-to-numpy/
- NumPy는 싱글 코어와 대형 배열에 최적화된 라이브러리라는 한계가 존재
  - 실제로 배열의 크기가 100개 이내인 경우 NumPy는 순수 파이썬 구현 보다도 오히려 낮은 성능을 보임

## Python에서의 array
순수 파이썬에서도 호모지니어스 자료구조인 `array`가 있다.

```python
import array
```

그러나 앞에서 언급했듯 성능 차이 때문에 NumPy를 사용한다.

## NumPy 사용하기

```python
import numpy as np
```

본 문서에서 사용하는 현재 `numpy` 버전은 `1.15.4`이다.

```python
np.__version__
```

    '1.15.4'

```python
a = np.array(0)
```

```python
a
```

    array(0)

numpy로 만든 array의 타입은 `numpy.ndarray`이다.

```python
type(a)
```

    numpy.ndarray

여러 요소를 포함하는 다차원 배열을 선언할 때, <b>관례적</b>으로 `list`로 묶어준다.

```python
b = np.array([1, 2, 3, 4, 5])
```

```python
b
```

    array([1, 2, 3, 4, 5])

## 다차원 배열

2차원 배열은 다음과 같이 리스트 안에 리스트를 포함하도록 선언한다.

```python
c = np.array([[1, 2, 3], [4, 5, 6]])
```

```python
c
```

    array([[1, 2, 3],
           [4, 5, 6]])

ndarray의 차수를 알기 위해서는 다음과 같이 `ndim`을 사용해서 알 수 있다.

```python
c.ndim
```

    2

3차원 배열도 마찬가지로 다음과 같이 선언할 수 있다.

```python
d = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
              [[10, 11, 12], [13, 14, 15], [16, 17, 18]]])
```

```python
d
```

    array([[[ 1,  2,  3],
            [ 4,  5,  6],
            [ 7,  8,  9]],
    
           [[10, 11, 12],
            [13, 14, 15],
            [16, 17, 18]]])

```python
d.ndim
```

    3

원소의 개수를 알고싶을 때는 `size`를 사용한다.

```python
d.size
```

    18

`shape`은 일반적으로 배열의 현재 모양을 가져 오는 데 사용되지만 배열 크기의 튜플을 할당하여 현재 위치에서 배열을 다시 모양을 바꾸는 데에도 사용할 수 있다. 마찬가지로 `numpy.reshape`처럼 `-1`로 할 경우, 이 값은 배열 크기와 나머지 치수에서 유추하여 크기를 맞춰준다.

`shape`과 `dtype`은 자주 사용하게 될 것이다.

```python
d.shape
```

    (2, 3, 3)

```python
e = d.reshape(3, 2, -1)
```

```python
e
```

    array([[[ 1,  2,  3],
            [ 4,  5,  6]],
    
           [[ 7,  8,  9],
            [10, 11, 12]],
    
           [[13, 14, 15],
            [16, 17, 18]]])

```python
e.shape
```

    (3, 2, 3)

배열의 데이터 타입을 알고싶을 때는 `dtype`을 사용한다.

```python
d.dtype
```

    dtype('int64')

NumPy의 `dtype` 종류는 다음과 같다.

### Generic types
| NumPy Generic types       |        |
| --------------------------|--------|
| number, inexact, floating |  float |
| complexfloating           | cfloat |
| integer, signedinteger    |  int_  |
| unsignedinteger           |  uint  |
| character                 | string |
| generic, flexible         |  void  |

### Built-in Python types
| NumPy Generic types ||
| ------------|----------------------------------------|
| int         |  int_                                  |
| bool        |  bool_                                 |
| float       | float_                                 |
| complex     | cfloat                                 |
| bytes       | bytes_                                 |
| str         | bytes_ (Python2) or unicode_ (Python3) |
| unicode     | unicode_                               |
| buffer      | void                                   |
|(all others) | object_                                |

다른 `dtype`을 포함시켰을 경우, 한가지 타입으로 통일해준다. 이는 `ndarray`가 `호모지니어스`라는 특성을 가지기 때문이다.

```python
f = np.array([1, 2, 3, '4', 5])
```

```python
f
```

    array(['1', '2', '3', '4', '5'], dtype='<U21')

`astype`으로 64비트 정수형으로 변경해본다.

```python
f = f.astype('int64')
```

```python
f
```

    array([1, 2, 3, 4, 5])

```python
f.strides
```

    (8,)

## strides

배열을 순회할 때 각 차원에서 단계별로 이동할 수 있는 튜플이다.

```python
g = np.array([[1, 2, 3], [4, 5, 6]])
```

```python
g.strides
```

    (24, 8)

```python
g[1, 2]
```

    6

```python
g[1, 0]
```

    4

```python
y = np.reshape(np.arange(2 * 3 * 4), (2, 3, 4))
```

```python
y
```

    array([[[ 0,  1,  2,  3],
            [ 4,  5,  6,  7],
            [ 8,  9, 10, 11]],
    
           [[12, 13, 14, 15],
            [16, 17, 18, 19],
            [20, 21, 22, 23]]])

```python
y.strides
```

    (96, 32, 8)

```python
y[1, 1, 1]
```

    17

```python
offset = sum(y.strides * np.array((1, 1, 1)))
```

```python
offset // y.itemsize
```

    17

## slicing
각 축마다 범위를 지정해서 해당 요소를 가져올 수 있다.

```python
g
```

    array([[1, 2, 3],
           [4, 5, 6]])

```python
g[:, 0]
```

    array([1, 4])

```python
g[0:1, 1:2]
```

    array([[2]])

## 팬시 인덱싱 (Fancy Indexing)

```python
h = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
```

```python
h
```

    array([[[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]],
    
           [[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]]])

```python
h[[0]]
```

    array([[[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]]])

```python
h[[0, 1]]
```

    array([[[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]],
    
           [[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]]])

```python
h[[0], [1]]
```

    array([[4, 5, 6]])

```python
h[[0]]
```

    array([[[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]]])

```python
h[[0]].shape
```

    (1, 3, 3)

```python
h[[0]][0, 0:1, 2:]
```

    array([[3]])

## 브로드캐스팅 (Broadcasting)

NumPy는 다음과 같이 `브로드캐스팅 연산`도 지원한다.

```python
a = np.array([1, 2, 3, 4, 5])
```

```python
b = np.array([6, 7, 8, 9, 10])
```

```python
a + b
```

    array([ 7,  9, 11, 13, 15])

```python
a * b
```

    array([ 6, 14, 24, 36, 50])

```python
a + 3
```

    array([4, 5, 6, 7, 8])

```python
b - 1
```

    array([5, 6, 7, 8, 9])

```python
np.sum(a)
```

    15

```python
a = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
```

```python
a
```

    array([[ 1,  2,  3,  4,  5],
           [ 6,  7,  8,  9, 10]])

```python
np.sum(a)
```

    55

```python
np.sum(a, axis=0)
```

    array([ 7,  9, 11, 13, 15])

```python
np.sum(a, axis=1)
```

    array([15, 40])

```python
b.sum()
```

    40

```python
a.dot(b)
```

    array([130, 330])

## 성능 비교

### 순수 파이썬 리스트

```python
%%timeit
a = []
for i in range(1000):
    a.append(i)
sum(a)
```

    39.8 µs ± 425 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

### 컴프리헨션

```python
%%timeit
sum([x for x in range(1000)])
```

    20.9 µs ± 266 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

### NumPy

```python
%%timeit
sum(np.array([x for x in range(1000)]))
```

    101 µs ± 527 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

```python
%%timeit
np.sum([x for x in range(1000)])
```

    66.7 µs ± 10.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

```python
%%timeit
np.sum(np.arange(1000))
```

    3.42 µs ± 56.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

```python
a = np.array([x for x in range(1000)])
```

```python
%%timeit
np.sum(a)
```

    2.23 µs ± 36.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

요소가 `100개 미만`일 경우에는 기존 파이썬 자료구조보다 성능이 좋진 않다. 따라서 데이터가 많으면 많을수록, 즉 `빅데이터`를 다루게 될 경우에는 `NumPy`가 더 효율적이다.

```python
%%timeit
sum([x for x in range(11)])
```

    445 ns ± 4.85 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

```python
%%timeit
sum(np.arange(11))
```

    1.41 µs ± 24.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

```python
%%timeit
np.sum(np.arange(11))
```

    2.22 µs ± 35.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

## ufunc

- 벡터화된 연산
  - NumPy는 이미 컴파일된 코드로 만들어진 다양한 벡터화된 연산을 제공
  - 이런 종류의 연산을 ufunc라고 함
  - 더 간결하고 효율적
  - 원하는 것을 설명하는 편이 명령을 내리는 것보다 낫다 (데이터 타입을 사용하자)
  - 이를 통해 컴파일된 언어의 성능을 끌어다 쓸수 있음
  - 벡터화한 것이 명시적인 루프보다 좋다
  - 모든 연산은 기본적으로 개별원소마다(elementwise)적용
  - 파이썬에서 기본적으로 제공하는 함수와 섞어 쓰지 않을것
- np.info()

- 함수와 메소드를 동일하게 처리
  - numpy 모듈에 함수, ndarray 내의 메소드가 이 중으로 지원하는 함수와 메소드가 많지만 용도에 맞춰사용 -> 메소드 사용을 권고

```python
def add(self, x, y):
    return x + y

class A(object):
    add = add
```

```python
a = A()
```

```python
a.add(5, 5)
```

    10

```python
type(a.add)
```

    method

```python
type(add)
```

    function

- 1개의 배열에 대한 ufunc 함수: Unary univerasal functions
- 2개의 배열 간 ufunc 함수: Binary universal functions

## Unary ufuncs

<table border='1'>
    <tr>
        <th>Function</th>
        <th>Description</th>
    </tr>
    <tr>
        <td>abs, fabs</td>
        <td>Compute the absolute value element-wise for integer, floating point, or comple
x values. Use fabs as a faster alternative for non-complex-valued data</td>
    </tr>
    <tr>
        <td>sqrt</td>
        <td>Compute the square root of each element. Equivalent to arr ** 0.5</td>
    </tr>
    <tr>
        <td>square</td>
        <td>Compute the square of each element. Equivalent to arr ** 2</td>
    </tr>
    <tr>
        <td>exp</td>
        <td>Compute the exponent ex of each element</td>
    </tr>
    <tr>
        <td>log, log10, log2, log1p </td>
        <td>Natural logarithm (base e), log base 10, log base 2, and log(1 + x), respectively</td>
    </tr>
    <tr>
        <td>sign</td>
        <td>Compute the sign of each element: 1 (positive), 0 (zero), or -1 (negative)</td>
    </tr>
    <tr>
        <td>ceil</td>
        <td>Compute the ceiling of each element, i.e. the smallest integer greater than or e
qual to each element</td>
    </tr>
    <tr>
        <td>floor</td>
        <td>Compute the floor of each element, i.e. the largest integer less than or equal t
o each element</td>
    </tr>
    <tr>
        <td>rint</td>
        <td>Round elements to the nearest integer, preserving thedtype</td>
    </tr>
    <tr>
        <td>modf</td>
        <td>Return fractional and integral parts of array as separate array</td>
    </tr>
    <tr>
        <td>isnan</td>
        <td>Return boolean array indicating whether each value isNaN (Not a Number)</td>
    </tr>
    <tr>
        <td>isfinite, isinf</td>
        <td>Return boolean array indicating whether each element is finite (non-inf, non-Na
N) or infinite, respectively</td>
    </tr>
    <tr>
        <td>cos, cosh, sin, sinh, tan, t
anh</td>
        <td>Regular and hyperbolic trigonometric functions</td>
    </tr>
    <tr>
        <td>arccos, arccosh, arcsin, ar
csinh, arctan, arctanh</td>
        <td>Inverse trigonometric functions</td>
    </tr>
    <tr>
        <td>logical_not</td>
        <td>Compute truth value of not x element-wise. Equivalent to -arr.</td>
    </tr>
</table>

# Binary universal functions

<table border='1'>
    <tr>
        <th>Function</th>
        <th>Description</th>
    </tr>
    <tr>
        <td>add</td>
        <td>Add corresponding elements in arrays</td>
    </tr>
    <tr>
        <td>subtract</td>
        <td>Subtract elements in second array from first array</td>
    </tr>
    <tr>
        <td>multiply</td>
        <td>Multiply array elements</td>
    </tr>
    <tr>
        <td>divide, floor_divide</td>
        <td>Divide or floor divide (truncating the remainder)</td>
    </tr>
    <tr>
        <td>power</td>
        <td>Raise elements in first array to powers indicated in second array</td>
    </tr>
    <tr>
        <td>maximum, fmax</td>
        <td>Element-wise maximum. fmax ignores NaN</td>
    </tr>
    <tr>
        <td>minimum, fmin</td>
        <td>Element-wise minimum. fmin ignores NaN</td>
    </tr>
    <tr>
        <td>mod</td>
        <td>Element-wise modulus (remainder of division)</td>
    </tr>
    <tr>
        <td>copysign</td>
        <td>Copy sign of values in second argument to values in first argum
ent</td>
    </tr>
    <tr>
        <td>greater, greater_equal, less, less_equal,
equal, not_equal</td>
        <td>Perform element-wise comparison, yielding boolean array. Equiva
lent to infix operators &gt;, &gt;=, &lt;, &lt;=, ==, !=</td>
    </tr>
    <tr>
        <td>logical_and, logical_or, logical_xor</td>
        <td>Compute element-wise truth value of logical operation. Equivale
nt to infix operators & |, ^</td>
    </tr>
</table>

# Basic array statistical methods

<table border='1'>
    <tr>
        <th>Method</th>
        <th>Description</th>
    </tr>
    <tr>
        <td>sum</td>
        <td>Sum of all the elements in the array or along an axis. Zero-length arrays
have sum 0.</td>
    </tr>
    <tr>
        <td>mean</td>
        <td>Arithmetic mean. Zero-length arrays have NaN mean.</td>
    </tr>
    <tr>
        <td>std, var</td>
        <td>Standard deviation and variance, respectively, with optional degrees of fre
edom adjustment (default denominator n).</td>
    </tr>
    <tr>
        <td>min, max</td>
        <td>Minimum and maximum.</td>
    </tr>
    <tr>
        <td>argmin, argmax</td>
        <td>Indices of minimum and maximum elements, respectively.</td>
    </tr>
    <tr>
        <td>cumsum</td>
        <td>Cumulative sum of elements starting from 0</td>
    </tr>
    <tr>
        <td>cumprod</td>
        <td>Cumulative product of elements starting from 1</td>
    </tr>
</table># Basic array statistical methods

<table border='1'>
    <tr>
        <th>Method</th>
        <th>Description</th>
    </tr>
    <tr>
        <td>sum</td>
        <td>Sum of all the elements in the array or along an axis. Zero-length arrays
have sum 0.</td>
    </tr>
    <tr>
        <td>mean</td>
        <td>Arithmetic mean. Zero-length arrays have NaN mean.</td>
    </tr>
    <tr>
        <td>std, var</td>
        <td>Standard deviation and variance, respectively, with optional degrees of fre
edom adjustment (default denominator n).</td>
    </tr>
    <tr>
        <td>min, max</td>
        <td>Minimum and maximum.</td>
    </tr>
    <tr>
        <td>argmin, argmax</td>
        <td>Indices of minimum and maximum elements, respectively.</td>
    </tr>
    <tr>
        <td>cumsum</td>
        <td>Cumulative sum of elements starting from 0</td>
    </tr>
    <tr>
        <td>cumprod</td>
        <td>Cumulative product of elements starting from 1</td>
    </tr>
</table>

# Array set operations

<table border='1'>
    <tr>
        <th>Method</th>
        <th>Description</th>
    </tr>
    <tr>
        <td>unique(x)</td>
        <td>Compute the sorted, unique elements in x</td>
    </tr>
    <tr>
        <td>intersect1d(x, y)</td>
        <td>Compute the sorted, common elements in x and y</td>
    </tr>
    <tr>
        <td>union1d(x, y)</td>
        <td>Compute the sorted union of elements</td>
    </tr>
    <tr>
        <td>in1d(x, y)</td>
        <td>Compute a boolean array indicating whether each element of x is contained in y
</td>
    </tr>
    <tr>
        <td>setdiff1d(x, y)</td>
        <td>Set difference, elements in x that are not in y
</td>
    </tr>
    <tr>
        <td>setxor1d(x, y)</td>
        <td>Set symmetric differences; elements that are in either of the arrays, but not both</td>
    </tr>
</table>


```python
import numpy as np
```

## indexing & slicing

```python
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
```

```python
x
```

    array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

`i:j:k` 여기서 `i`는 시작 인덱스이고, `j`는 정지 인덱스, `k`는 단계이다.

```python
x[1:7:2]
```

    array([1, 3, 5])

음수 `i`와 `j`는 `n + i`와 `n + j`로 해석된다. 여기서 `n`은 해당 차원의 요소 수이다. 음수 `k`는 더 작은 인덱스로 이동한다.

```python
x[-2:10]
```

    array([8, 9])

```python
x[-3:3:-1]
```

    array([7, 6, 5, 4])

```python
x[5:]
```

    array([5, 6, 7, 8, 9])

```python
x = np.array([[[1], [2], [3]], [[4], [5], [6]]])
```

```python
x
```

    array([[[1],
            [2],
            [3]],
    
           [[4],
            [5],
            [6]]])

```python
x.shape
```

    (2, 3, 1)

### Ellipsis

```python
x[..., 0]
```

    array([[1, 2, 3],
           [4, 5, 6]])

## np.newaxis

`None`에 대한 numpy 별칭으로 배열을 인덱싱하는 데 유용하다.

```python
np.newaxis is None
```

    True

```python
x[:, np.newaxis, :, :].shape
```

    (2, 1, 3, 1)

## Integer array indexing

```python
x = np.array([[1, 2], [3, 4], [5, 6]])
```

```python
x[[0, 1, 2], [0, 1, 0]]
```

    array([1, 4, 5])

```python
x = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
```

```python
rows = np.array([[0, 0],
                  [3, 3]], dtype=np.intp)
```

```python
columns = np.array([[0, 2],
                     [0, 2]], dtype=np.intp)
```

```python
x[rows, columns]
```

    array([[ 0,  2],
           [ 9, 11]])

## np.ix_

다차원 배열을 인덱싱한다.

```python
a = np.arange(10).reshape(2, 5)
```

```python
a
```

    array([[0, 1, 2, 3, 4],
           [5, 6, 7, 8, 9]])

```python
ixgrid = np.ix_([0, 1], [2, 4])
```

```python
ixgrid
```

    (array([[0],
            [1]]), array([[2, 4]]))

```python
ixgrid[0].shape, ixgrid[1].shape
```

    ((2, 1), (1, 2))

```python
a[ixgrid]
```

    array([[2, 4],
           [7, 9]])

```python
a[[0, 1]][:, [2,3]]
```

    array([[2, 3],
           [7, 8]])

```python
import numpy as np
```

행과 열의 개념을 `np.newaxis`를 통해 다시 한번 살펴보고자 한다.

```python
a = np.array([1, 2, 3])
```

```python
a
```

    array([1, 2, 3])

```python
a[np.newaxis]
```

    array([[1, 2, 3]])

```python
a[:, np.newaxis]
```

    array([[1],
           [2],
           [3]])

```python
b = np.array([[1, 2, 3], [4, 5, 6]])
```

```python
b
```

    array([[1, 2, 3],
           [4, 5, 6]])

```python
b[np.newaxis]
```

    array([[[1, 2, 3],
            [4, 5, 6]]])

```python
b[:, np.newaxis]
```

    array([[[1, 2, 3]],
    
           [[4, 5, 6]]])

```python
c = np.array([[1, 2], [3, 4], [5, 6]])
```

```python
c
```

    array([[1, 2],
           [3, 4],
           [5, 6]])

```python
c[np.newaxis]
```

    array([[[1, 2],
            [3, 4],
            [5, 6]]])

```python
c[:, np.newaxis]
```

    array([[[1, 2]],
    
           [[3, 4]],
    
           [[5, 6]]])

```python
c[:, :, np.newaxis]
```

    array([[[1],
            [2]],
    
           [[3],
            [4]],
    
           [[5],
            [6]]])

```python
c[np.newaxis, :]
```

    array([[[1, 2],
            [3, 4],
            [5, 6]]])

```python
c[np.newaxis, :, :]
```

    array([[[1, 2],
            [3, 4],
            [5, 6]]])

## 스칼라 (Scalar)
스칼라는 크기만 있고 방향을 가지지 않는 양을 의미한다.

## 벡터 (Vector)
벡터는 방향과 크기를 가지는 것을 의미한다.

## 행렬 (Matrix)
행렬은 복수의 차원을 가지는 데이터가 다시 여러 개 있는 경우, 데이터를 합쳐서 표기한 것이다. 2차원 배열을 행렬이라고 부르며, 3차원 이상 배열은 텐서(tensor)라고 한다.

## 다차원 배열의 축(axis)

<img src='https://taewanmerepo.github.io/2017/09/numpy_axis/axis.jpg' />

`벡터`는 x 축만을 갖는 자료형이다. 1차원 배열에 해당하는 벡터의 각 요소는 그 자체가 `열(row)`이다.

2차원 배열 형태의 `행렬`은 x축의 행과 y축의 `행(column)`을 갖는다. 2차원 배열 행렬은 개념적으로 `깊이(depth)`가 1이라고 생각할 수 있다.

3차원 배열 형태의 `텐서`는 행과 열을 갖고 각 컬럼은 벡터 형태를 갖는다. 이러한 벡터를 깊이`(depth)`로 표현한다.

```python
a = np.array([[[0, 1, 2], [3, 4, 5]], [[6, 7, 8], [9, 10, 11]]])
```

```python
a
```

    array([[[ 0,  1,  2],
            [ 3,  4,  5]],
    
           [[ 6,  7,  8],
            [ 9, 10, 11]]])

위와 같이 3차원 배열이 있다고 하였을때, 각 의미를 풀이해보면 다음과 같다.

```python
[
    [ # 열(Row)
        [0,  1,  2], # 행(Column)
      #  -   -   -     깊이(Depth) 1 ~ 3
        [3,  4,  5]  # 행(Column)
      #  -   -   -     깊이(Depth) 1 ~ 3
    ],
    [ # 열(Row)
        [6,  7,  8], # 행(Column)
      #  -   -   -     깊이(Depth) 1 ~ 3
        [9, 10, 11]  # 행(Column)
      #  -   -   -     깊이(Depth) 1 ~ 3
    ]
]
```

`np.genfromtxt`를 통해 `csv` 파일을 불러온다. 이 외에 불러오는 방식이 여러 가지가 있으며, 각각 차이가 있기 때문에 불러오는 옵션을 체크하지 않고 불러오면 잦은 에러를 발생시킬 수 있다.

```python
%%writefile test.csv
1,2,3
4,5,6
```

    Writing test.csv

```python
x = np.genfromtxt('test.csv')
```

```python
x
```

    array([nan, nan])

`np.fr`까지 입력한 후 자동 완성키 `TAB`키를 눌러보면 여러 방식으로 불러올 수 있는 것을 확인할 수 있다.

```python
y = np.fromfile('test.csv')
```

```python
y
```

    array([9.38200607e-96])

```python
y = np.fromfile('test.csv', sep=',')
```

```python
y
```

    array([1., 2., 3.])

```python
z = np.array([[1, 2, 3], [4, 5, 6]])
```

ndarray 타입을 그대로 `npy` 파일로 저장하고 불러올 수 있다.

```python
np.save('test', z)
```

```python
z = np.load('test.npy')
```

```python
z
```

    array([[1, 2, 3],
           [4, 5, 6]])

## pickle

pickle 모듈은 파이썬 객체 구조의 직렬화와 역 직렬화를 위한 바이너리 프로토콜을 구현한다.

`피클링(pickling)`은 파이썬 객체 계층 구조가 바이트 스트림으로 변환되는 절차이며, `역 피클링(unpickling)`은 반대 연산으로, (바이너리 파일 이나 바이트열류 객체로 부터의) 바이트 스트림을 객체 계층 구조로 복원한다. 피클링(그리고 역 피클링)은 `직렬화(serialization)`, `마샬링(marshalling)` 또는 `평탄화(flattening)` 라고도 한다. 그러나 혼란을 피하고자, 여기에서 사용된 용어는 `피클링`과 `역 피클링`이다.

```python
import pickle
```

```python
with open('pickle.ss', 'wb') as file:
    pickle.dump(z, file)
```

```python
with open('pickle.ss', 'rb') as file:
    my_z = pickle.load(file)
```

```python
my_z
```

    array([[1, 2, 3],
           [4, 5, 6]])

여기까지 NumPy를 간단히 살펴보았다. 위의 코드를 보면 알겠지만, 파일을 불러오는 데 불편한 점을 느낄 수 있다. 

따라서 이제는 데이터를 불러올 때 <b>판다스(Pandas)</b> 패키지를 사용하여 데이터를 불러온 후 `탐색적 데이터 분석(EDA)` 및 `데이터 전처리(Pre-processing)`, `시각화(Visualization)`를 하는 방법에 대해 다루고자 한다.