# Unit01.넘파이배열
- Numeriacal Python 
- 고성능 과학 연산을 위한 패키지로 데이터 분석, 머신러닝 등에 필수로 사용된다. 
- 강력한 다차원 배열(array)를 지원한다. 
- 벡터 연산을 지원한다. 

## 1.1 구조
|구조|내용|
|--|--|
|스칼라(Scalar)|하나의 숫자로 이루어진 데이터|
|벡터(Vector)|1D Array (1차원 배열)<br>여러개의 숫자들을 특정한 순서대로 모아놓은 데이터 모음(데이터 레코드)|
|행렬(Matrix)|2D Array (2차원 배열)<br>벡터들을 모아놓은 데이터 집합|
|텐서(Tensor)|ND Array (다차원 배열)<br>같은 크기의 행렬들(텐서들)을 모아놓은 데이터 집합|



## 1.2 용어
|용어|내용|
|--|--|
|축(axis)|값들의 나열 방향<br>하나의 축(axis)은 하나의 범주(category)이다.|
|랭크(rank)|데이터 집합에서 축의 갯수|
|형태/형상(shape)|각 축(axis)별 데이터 갯수|
|크기(size)|배열 내 원소의 총 갯수|

## 1.3 차원 dimension
- 벡터에서 차원 : 원소의 갯수
- 넘파이배열에서 차원 : 축의 갯수 

![ndarray dimensions](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/assets/elsp_0105.png)
[출처: https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html]

## 1.1 넘파이 패키지 임포트
- 배열을 사용하기 위해서 넘파이 패키지를 임포트.
- 넘파이는 np라는 이름으로 임포트 하는 것이 관례.

In [151]:
import numpy as np

## 1.2 배열 생성 array
- np.array(배열형태객체, [dtype])
- 배열형태 겍체가 가진 원소들로 구성된 넘파이 배열을 생성한다. 
- 이때 배열 형태의 객체는 리스트, 튜플, 넘파이배열(ndarray), Series를 의미한다. 

### 1.2.1 1차원 배열 생성
- 넘파이의 array함수에 리스트를 넣으면 ndarray(배열)클래스 객체로 변환
- 리스트와 비슷해보이지만 type명령으로 자료형을 보면 ndarray(배열)이다. 
- 배열객체와 리스트 객체의 차이점 
    - 리스트 클래스 객체 : 각각의 원소가 다른 자료형 가능.
    - 배열 클래스 객체 : 모든 원소가 같은 자료형. 
        - C 언어의 배열처럼 연속적인 메모리에 배치하기 때문에 같은 자료형
        - 따라서 원소에 대한 접근과 반복문 실행이 빠름

In [2]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(a) 
print(type(a))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


## 1.2.2  2차원 배열 생성
- ndarray (N-dimension Array)는 1차원, 2차원, 3차원 배열 등 다차원 배열 자료구조를 지원.
- 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성.
- 2차원 배열은 행렬(matrix)라고 하며 
    - 가로줄을 행(Row) , 바깥쪽 리스트의 길이 = 행렬의 행의 수 = 세로크기
    - 세로줄을 열(Column), 안쪽 리스트의 길이 = 행렬의 열의 수 = 가로크기
- ![그림넣기]()  # todo

In [None]:
a = np.array([[0, 1, 2],[3, 4, 5]]) # 2 * 3 array
print(len(a)) # 행의 갯수 : 2
print(len(a[0])) # 열의 갯수 : 3 

In [None]:
a = np.array([[10, 20, 30, 40],[50, 60, 70, 80]])
a # array([[10, 20, 30, 40],[50, 60, 70, 80]])

In [None]:
a = np.arange(10,90,10).reshape(2,4)
a # # array([[10, 20, 30, 40],[50, 60, 70, 80]])

## 1.2.3 3차원 배열만들기
- 리스트의 리스트의 리스트를 이용하면 3차원 배열 생성
- 3차원 배열의 깊이, 행, 열 <-- 구조 의 기준 axis0, axis1, axis2 다르다? 
- |--|--|
|--|--|
|3차원 배열의 깊이|len(d)|
|3차원 배열의 행|len(d[0]|
|3차원 배열의 열|len(d[0][0])|

In [160]:
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array
len(d) # 3차원 배열의 깊이 : 2
len(d[0]) # 3차원 배열의 행 : 3 
len(d[0][0]) # 3차원 배열의 열 : 4 

4

## 1.3 벡터화 연산
- 배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산을 지원 
- 벡터화 연산을 하면 for반복문 없이 한번의 연산을 할 수 있다.
- 따라서 계산 속도도 반복문을 사용할 때 보다 훨씬 빠르다. 
- 벡터화 연산은 비교연산과 논리 연산을 포함한 모든 종류의 수학 연산에 적용 

In [161]:
# 리스트에서 각 원소에 2배 하기위해서는 for문을 돌려서 연산 해야한다. 

data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
answer = []
for di in data : 
    answer.append(2 * di)
print(answer) # [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 
print(data * 2)  # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [162]:
# 하지만 벡터화 연산은 for 반복문 없이 한번에 연산 가능

x = np.array(data)
2 * x # array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [163]:
# 벡터화 연산은 비교연산, 논리연산 등 연산 가능 

a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

print(2*a+b) # [12 24 36]
print(a == 2) # [False  True False]
print(b > 10) # [False  True  True]
print((a == 2)&(b > 10)) # [False  True False]

[12 24 36]
[False  True False]
[False  True  True]
[False  True False]


## 1.4  배열의 차원과 크기
- 배열의 차원 : ndim속성
- 배열의 크기 : shape속성

In [164]:
# 1차원 배열 
a = np.array([1, 2, 3]) 
print(a.ndim) # 1
print(a.shape) # (3,)

# 2차원 배열 
b = np.array([[0, 1, 2], [3, 4, 5]]) 
print(b.ndim) # 2
print(b.shape) # (2,3)

# 3차원 배열 
c = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])
print(c.ndim) # 3
print(c.shape) # (2, 3, 4)

1
(3,)
2
(2, 3)
3
(2, 3, 4)


## 1.4 배열의 인덱싱
### 1.4.1 1차원 배열인덱싱
- 1차원 배열의 인덱싱은 리스트의 인덱싱과 같다

In [165]:
a = np.array([0, 1, 2, 3, 4])
a[2] # 2
a[-1] # 4

4

### 1.4.2 다차원배열 인덱싱
- 다차원 배열일때는 콤마를 사용해 접근
- 콤마로 구분된 차원을 축(axis)이라 한다.
- 축(axis) : 그래프의 x축 ,y축을 떠올리면 된다.

In [166]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a[0,0] # 0
a[0,1] # 1
a[-1,-1] # 마지막행의 마지막열 : 5

5

## 1.5 배열의 슬라이싱
- 배열 객체로 구현한 다차원 배열 원소 중 복수개를 접근하려면 일반적인 파이썬 슬라이싱과 콤마(,)를 함께 사용


In [167]:
# 2차원 배열 슬라이싱
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a[0,:] # 첫번째 행 전체 : array([0, 1, 2, 3])
a[:,1] # 두번째 열 전체 : array([1, 5])
a[1,1:] # 두번째 행 두번째 열부터 : array([5, 6, 7]) 
a[:2, :2] # array([[0, 1],[4, 5]]) 

array([[0, 1],
       [4, 5]])

> <B>연습문제 2</B>
> - m = np.array([[ 0,  1,  2,  3,  4], [ 5,  6,  7,  8,  9],[10, 11, 12, 13, 14]])     
> 1) 이 행렬에서 값 7을 인덱싱한다.    
> 2) 이 행렬에서 값 14을 인덱싱한다.     
> 3) 이 행렬에서 배열 [6,7] 을 슬라이싱한다.      
> 4) 이 행렬에서 배열 [7, 12] 을 슬라이싱 한다.     
> 5) 이 행렬에서 배열[[3, 4], [8, 9]]을 슬라이싱 한다.     

In [168]:
m = np.array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9],[10, 11, 12, 13, 14]])
m[1,2] # 7 
m[-1,-1] # 14
m[1,1:3] # array([6, 7])
m[1:3,2] # array([ 7, 12])
m[:2, 3:5] # array([[3, 4],[8, 9]])

array([[3, 4],
       [8, 9]])

## 1.6 배열 인덱싱
- 넘파이 배열 객체의 또다른 강력한 기능 팬시인덱싱(
- DB질의(Query)기능을 수행
- 배열 인덱싱에는 대괄호([])안에 인덱싱 정보를 숫자나 슬라이스가 아닌 위치정보를 나타내는 또 다른 ndarray배열을 받을 수있다.
- 배열 인덱싱 방법 2가지
    - 1) 불리언(boolean)방식
    - 2) 정수 배열 방식
    
    
### 1.6.1 불리언 방식
- 인덱스 배열의 원소가 True, False 두 값으로만 구성
- 인덱스 배열의 크기가 원래 ndarray객체의 크기가 같아야 한다.

In [169]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([ True, False,  True, False,  True, False,  True, False,  True, False])
a[idx] # array([0, 2, 4, 6, 8])

array([0, 2, 4, 6, 8])

In [170]:
print(a % 2) # array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)
print(a % 2 == 0) # array([ True, False,  True, False,  True, False,  True, False,  True, False])
print(a[a % 2 == 0]) # [0 2 4 6 8]

[0 1 0 1 0 1 0 1 0 1]
[ True False  True False  True False  True False  True False]
[0 2 4 6 8]


### 1.6.2 정수 배열 방식
- 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수여야 한다.
- 배열 인덱스의 크기가 원래 배열 크기와 달라도 상관없음. 
- 즉, 같은 원소를 반복해서 가리키는 경우 배열 인덱스가 원래 배열보다 더 커짐

In [171]:
# 1차원 배열에서 홀수번째 원소만 골라내기 
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx] # array([11, 33, 55, 77, 99])

array([11, 33, 55, 77, 99])

In [155]:
# 배열 인덱스의 크기가 원래 배열 크기와 같지 않아도 됨.
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx] # array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

### 1.6.3 다차원 배열 인덱싱

In [156]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a[:, [True, False, False, True]] # array([[ 1,  4], [ 5,  8], [ 9, 12]])
a[[2, 0, 1],:] # array([[ 9, 10, 11, 12], [ 1,  2,  3,  4],[ 5,  6,  7,  8]])

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

> <B>연습문제 3 </B>
> - x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 29, 20])
> - 1) 이 배열에서 3의 배수를 찾아라.
> - 2) 이 배열에서 4로 나누면 1이 남는 수를 찾아라.
> - 3) 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남은 수를 찾아라.m

In [157]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 29, 20])
x[x % 3 == 0] # array([ 3,  6,  9, 12, 15, 18])
x[x % 4 == 1] # array([ 1,  5,  9, 13, 17, 29])
x[(x % 3 == 0) | (x % 4 == 1)] # array([ 1,  3,  5,  6,  9, 12, 13, 15, 17, 18, 29])

array([ 1,  3,  5,  6,  9, 12, 13, 15, 17, 18, 29])

# Unit02.배열의 생성과 변형

## 2.1 넘파이 자료형
- 넘파이 배열 ndarray클래스는 원소가 모두 **같은 자료형**
- array명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 dtype인수를 사용 
- 만약 dtype인수가 없으면 주어진 데이터를 저장할수 있는 자료형을 유추
- 배열의 자료형을 보려면 dtype속성 사용 

- #TODO : 그림 자료 추가 

In [158]:
x = np.array([1, 2, 3])
x.dtype # dtype('int64')

y = np.array([1.0, 2.0, 3.0])
y.dtype # dtype('float64')

z = np.array([1, 2, 3.0])
z.dtype # dtype('float64')

x = np.array([1, 2, 3], dtype = 'f')
x.dtype # dtype('float32')
x[0] + x[1] # 3.0

y = np.array([1, 2, 3], dtype = 'U')
y.dtype # dtype('<U1')
y[0] + y[1] # '12' 

'12'

## 2.2 Inf, Nan
- inf : 넘파이에서 무한대를 표현
    - 예를 들면, 1을 0으로 나누려고 하거나 0에 대한 로그 값을 계산하면 무한대인 np.inf가 나온다.
- Nan : 정의할 수 없는 숫자 
    - 예를 들면, 0을 0으로 나누려고 시도하면 np.Nan이 나온다.

In [159]:
print(np.array([0, 1, -1, 0])/np.array([1, 0, 0, 0])) # array([  0.,  inf, -inf,  nan])
np.log(0) # -inf
np.exp(-np.inf) # 0.0

[  0.  inf -inf  nan]


  print(np.array([0, 1, -1, 0])/np.array([1, 0, 0, 0])) # array([  0.,  inf, -inf,  nan])
  print(np.array([0, 1, -1, 0])/np.array([1, 0, 0, 0])) # array([  0.,  inf, -inf,  nan])
  np.log(0) # -inf


0.0

# TODO : 설명추가, 강사님 설명 추가

## 2.3  배열 생성

### 2.3.1 zeros
- 크기가 정해져 있고 **모든 값이 0인 배열** 생성 
- 인수로는 배열의 크기를 넣는다. 
- dtype 인수를 넣어 자료형 원소를 가진 배열 생성 
- 문자열 배열도 가능하지만 모든 원소의 문자열의 크기가 같아야 한다.
- 만약 더 큰 크기의 문자열 할당하면 잘릴 수 있다. 

In [23]:
# 1차원 zeros
a = np.zeros(5) 

# 다차원 zeros
b = np.zeros((2, 3))

# dtype 지정
c = np.zeros((5, 2), dtype = 'i')

# 문자열 지정 가능 
d = np.zeros(5, dtype = 'U4')

In [24]:
z1 = np.zeros(10) # size가 10인 vector(1d array)
print(z1.shape)

(10,)


In [25]:
z2 = np.zeros([3,5]) #3 x 5 행렬
print(z2.shape)
print(z2)
print(z2.dtype)

(3, 5)
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
float64


In [26]:
z3 = np.zeros((5,3,2,5,6), dtype=np.float32)
print(z3.shape)
print(z3.dtype)
z3

(5, 3, 2, 5, 6)
float32


array([[[[[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.]],

         [[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.]]],


        [[[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.]],

         [[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.]]],


        [[[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.]],

         [[0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0.],
          [0.,

### 2.3.2 ones
- 1로 초기화된 배열 생성

In [27]:
e = np.ones((2, 3, 4), dtype = 'int')
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [28]:
o1 = np.ones(10) #shape 정수: 1차원배열
print(o1.shape)
print(o1.ndim)
print(o1.dtype)
o1

(10,)
1
float64


array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [29]:
o2 = np.ones((10,5))
print(o2.shape)
o2

(10, 5)


array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [30]:
o3 = np.ones((10,5,3))
print(o3.shape)
o3

(10, 5, 3)


array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1.,

### 2.3.3 zeros_like
- 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열 생성 

In [31]:
f = np.zeros_like(b, dtype = 'f')
f

array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)

In [32]:
print(a8.shape)
a_8 = np.zeros_like(a8)
print(a_8.shape)
a_8

NameError: name 'a8' is not defined

### 2.3.4 ones_like

In [37]:
a = np.array([1, 2, 3, 4, 5])
a_1 = np.ones_like(a)
print(a.shape, a_1.shape)
print(a_1)

(5,) (5,)
[1 1 1 1 1]


### 2.3.5 empty
- 배열의 크기가 커지면 배열을 초기화 하는데도 시간이 걸린다.
- 시간을 단축하려면 배열을 생성만 하고 특정한 값으로 초기화를 하지 않는 empty 명령을 사용할 수 있다.
- empty명령으로 생선된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열의 원소값을 미리 알 수 없다. 

In [None]:
g = np.empty((4, 3))

# [결과]
# array([[2.68156159e+154, 2.68679050e+154, 2.96439388e-323],
#        [0.00000000e+000, 2.12199579e-314, 2.42336543e-057],
#        [7.42620238e-091, 1.33621713e+165, 8.26884811e-072],
#        [5.24825413e+174, 3.99910963e+252, 9.03823221e-309]])

### 2.3.6 arange
- np.arange(start, stop, step, dtype) 
- 특정한 규칙에 따라 증가하는 수열 생성
- start : 범위의 시작값으로 포함되며 기본값 0으로 생략가능하다. 
- stop : 범위의 끝값으로 포함하지 않는다. 필수이다. 
- step : 간격으로 기본값은 1이다. 
- dtype: 요소의 타입 

In [None]:
np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.arange(3, 21, 2) # array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

In [None]:
a1 = np.arange(1, 10, 2)  #범위: 1 ~ 10-1, 2씩 증가
a1

In [None]:
a2 = np.arange(1, 10) #범위: 1 ~ 9, [1씩증가]
a2

In [None]:
a3 = np.arange(10) # 범위: [0] ~ 9, [1씩 증가]
a3

In [None]:
a4 = np.arange(10,0,-1) #감소: 10 ~ 0+1, -1씩 증가
a4

In [None]:
a5 = np.arange(0, 1, 0.1)  # 0 ~ 1-0.1, 0.1씩 증가
a5

In [None]:
np.arange(0, 10).reshape(2,5)

### 2.3.7 linspace
- np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
- 선형구간을 지정한 구간의 수만큼 분할한다. 
- 시작과 끝을 균등하게 나눈 값들을 가지는 배열을 생성한다. 
- start : 시작값
- stop : 종료값
- num : 나눌 개수. 기본-50, 양수 여야한다.
- endpoint : stop을 포함시킬 것인지 여부. 기본 True
- retstep : 생성된 배열 샘플과 함께 간격(step)도 리턴할지 여부. True일경우 간격도 리턴(sample, step) 튜플로 받는다.
- dtype : 데이터 타입

In [None]:
np.linspace(0, 100, 5) # array([  0.,  25.,  50.,  75., 100.])

In [None]:
a = np.linspace(1,10) # 1 ~ 10 : 50개로 분할
print(a.shape)
a

In [None]:
a2 = np.linspace(1,100, num=10) 
print(a2.shape)
a2

In [None]:
a3 = np.linspace(1,100, num=10, retstep=True) 
print(a3)
# (배열, step)
print(a3[0])
print(a3[1])

In [None]:
a4 = np.linspace(1, 100, endpoint=False, num=10)
a4

### 2.3.8 logspace
- 로그구간을 지정한 구간의 수만큼 분할

In [None]:
np.logspace(0.1, 1, 10)

# [결과]
# array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
#         3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

### 2.3.9 full
- 원소들을 원하는 값으로 채운 배열 생성

In [35]:
f1 = np.full(10, 5)
print(f1.dtype)
print(f1)

int64
[5 5 5 5 5 5 5 5 5 5]


In [36]:
f2 = np.full(shape = (5,3), fill_value = 7, dtype = np.float32)
print(f2.shape)
print(f2.dtype)
print(f2)

(5, 3)
float32
[[7. 7. 7.]
 [7. 7. 7.]
 [7. 7. 7.]
 [7. 7. 7.]
 [7. 7. 7.]]


### 2.3.10 eye
- todo : 설명 필요 
- 


In [179]:
e1 = np.eye(5) # 5 X 5
e1

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [180]:
e2 = np.eye(5,3)
e2

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.],
       [0., 0., 0.]])

### 2.3.11 identity
- todo : 설명 필요 

In [176]:
i = np.identity(3) # 3 X 3의 항등행렬
print(i.shape)
i

(3, 3)


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [177]:
np.identity(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [178]:
np.identity(5) * 7

array([[7., 0., 0., 0., 0.],
       [0., 7., 0., 0., 0.],
       [0., 0., 7., 0., 0.],
       [0., 0., 0., 7., 0.],
       [0., 0., 0., 0., 7.]])

## 2.4 전치연산
- 배열의 전치연산(transpose) : 행과 열을 바꾸는 작업
- 이는 배열의 T속성으로 구할 수 있다.

In [None]:
A = np.array([[1, 2, 3],[4, 5, 6]])
A
# [결과]
# array([[1, 2, 3],
#        [4, 5, 6]])

A.T
# [결과]
# array([[1, 4],
#        [2, 5],
#        [3, 6]])

## 2.5 배열의 형태 변경
- 배열의 내부데이터는 보존한 채로 형태만 바꾸려면 reshape명령이나 메서드를 사용한다. 

### 2.5.1 reshape
- 사용하는 원소의 갯수가 정해져있기 때문에 reshape명령의 형태
- -1를 통해 나머지 reshape 값을 계산하여 형태를 만들어 준다. 

In [None]:
a = np.arange(12)
a.size # (12,)

In [None]:
a1 = a.reshape(3, -1)
a1.shape # (3, 4)
a1

In [None]:
a2 = a.reshape(2, 2, -1)
a2.shape # (2, 2, 3)
a2

In [None]:
a3 = a.reshape(2, -1, 3)
a3.shape # (2, 2, 3)
a3

## 2.6 차원 늘리기(확대)

### 2.6.1 newaxis

### 2.6.2 expand_dims

## 2.7 차원 줄이기(축소)

### 2.7.1 squeeze

### 2.7.2 flatten, ravel
- 다차원 배열을 무조건 1차원으로 만들기 위해서 flatten 이나 ravel 메서드를 사용한다.

In [None]:
a = np.arange(12).reshape(3,4)
a
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11]])

b = a.flatten()
print(b) # [ 0  1  2  3  4  5  6  7  8  9 10 11]

c = a.ravel()
print(c) # [ 0  1  2  3  4  5  6  7  8  9 10 11]

## 2.8 배열연결

### 2.8.1 concatencate

### 2.8.2 hstack
- **행의 수가 같은** 2개 이상의 배열을 **옆으로 연결**하며 **열의 수를 늘린다.**
- 연결한 배열은 하나의 리스트에 담아야 한다. 

In [None]:
a1 = np.ones((2, 3))
a2 = np.zeros((2, 2))

print(np.hstack([a1, a2]))

# [결과]
# [[1. 1. 1. 0. 0.]
#  [1. 1. 1. 0. 0.]]

### 2.8.3 vstack
- **열의 수가 같은** 두개 이상의 배열을 **위아래로 연결**하여 **행의 수를 늘린다.**

In [None]:
b1 = np.ones((2, 3))
b2 = np.zeros((3, 3))

print(np.vstack([b1, b2]))

# [결과]
# [[1. 1. 1.]
#  [1. 1. 1.]
#  [0. 0. 0.]
#  [0. 0. 0.]
#  [0. 0. 0.]]

### 2.8.4 dstack 
- 제3의 축 : 행이나 열이 아닌 깊이(depth)방향으로 배열을 합친다.
- 가장 안쪽 원소의 차원이 증가한다. 
- 즉, 가장 내부의 숫자 원소가 배열이 된다.
- shape정보로 보자면 가장 끝값 ??

# ?? 무슨말인지 이해 안됨  다시 확인

### 2.8.5 stack
- stack명령은 dstack의 기능을 확장한 것으로 dstack처럼 마지막차원으로 연결하는 것이 아니라
- 사용자가 지정한 차원(축으로) 배열을 연결 
- axis인수를 사용하여 연결 후의 회전 방향을 정한다.
- axis인수의 기본값은 0이고 가장 앞쪽에 차원이 생성된다.
- 즉, 배열 두개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 한다.

# TODO: 여기 예제 다시 확인 기억이 잘 안남

### 2.8.6 r_메서드
- hstack명령과 비슷하게 배열을 좌우로 연결 
- 다만 메서드임에도 불구하고 소괄호\(\)를 사용하지 않고 대괄호\[\]를 사용
- 이런 특수메서드를 인덱서라 한다.

In [None]:
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])]

# [결과]
# array([1, 2, 3, 4, 5, 6])

### 2.8.7 c_메서드 
- 배열의 차원을 증가시킨 후 좌우로 연결 
- 만약 1차원 배열을 연결하면 2차원 배열이 된다 

In [None]:
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6])]

# [결과]
# array([[1, 4],
#        [2, 5],
#        [3, 6]])

### 2.8.8 tile
- 동일한 배열을 반복하여 연결

In [None]:
a = np.array([[0, 1, 2],[3, 4, 5]])

np.tile(a, 2)
#[결과]
# array([[0, 1, 2, 0, 1, 2],
#        [3, 4, 5, 3, 4, 5]])

np.tile(a, (3,2))
#[결과]
# array([[0, 1, 2, 0, 1, 2],
#        [3, 4, 5, 3, 4, 5],
#        [0, 1, 2, 0, 1, 2],
#        [3, 4, 5, 3, 4, 5],
#        [0, 1, 2, 0, 1, 2],
#        [3, 4, 5, 3, 4, 5]])

## 2.9 배열분할하기

### 2.9.1 split()

### 2.9.2 hsplit()

### 2.9.3 vsplit()

## 2.10 원소 추가 및 삭제

### 2.10.1 append

### 2.10.2 insert

### 2.10.3 delete

# ======Unit03. =========

# Unit03.배열의 연산

## 3.1 벡터화, 벡터연산
- 벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산 할 수 있다.
- 선형대수공식과 동일한 
- TODO : 그림 추가 ? 

만약 벡터화 연산을 사용하지 않으면? 반복문을 사용해서 만들어야 하는 번거로움이 있다. 

In [None]:
# 반복문 사용 코드 

벡터화 연산을 사용하면 덧셈 연산 하나로 끝난다.

사칙연산뿐 아니라 비교연산자 같은 논리연산도 벡터 연산이 가능하다.

원소들을 일일이 비교하는 것이 아니라 배열의 모든 원소가 같은지 알고싶다면 all명령어를 사용한다. 

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

np.all(a == b) # False
np.all(a == c) # True

지수함수, 로그함수 등 수학함수도 벡터화 연산을 지원한다.

In [None]:
a = np.arange(5) # [0 1 2 3 4]
np.exp(a)   # array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

10**a       # array([    1,    10,   100,  1000, 10000])

np.log(a+1) # array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

### 3.1.1 벡터,행렬과 스칼라 연산

In [None]:
a = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
100 * x # array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

b = np.arange(12).reshape(3,4)
100 * b
#[결과]
# array([[   0,  100,  200,  300],
#        [ 400,  500,  600,  700],
#        [ 800,  900, 1000, 1100]])

### 3.1.2 벡터, 행렬간 연산

## 3.2 브로드캐스팅
- 벡터(또는 행렬)끼리 덧셈, 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크리가 같아야 한다.
- 넘파이에서는 서로 다른 크기를 가진 두 배열의 사칙연산도 지원한다.
- 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법이다.

- ToDO : 예시그림?

In [39]:
x = np.arange(5)
y = np.ones_like(x)
print(x + y)
print(x + 1)

[1 2 3 4 5]
[1 2 3 4 5]


브로드캐스팅은 다음처럼 더 차원 높은 경우에도 적용된다.

In [40]:
x = np.vstack([range(7)[i:i+3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [42]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [43]:
print(x + y)

[[ 0  1  2]
 [ 2  3  4]
 [ 4  5  6]
 [ 6  7  8]
 [ 8  9 10]]


## 3.3 내적

### 3.3.1 벡터간 내적

### 3.3.2 행렬간 내적

## 3.4 범용함수

### 3.4.1 단항범용함수

### 3.4.2 이항범용함수

## 3.5 누적연산함수

### 3.5.1 reduce

### 3.5.2 accumulate

### 3.6.3 불리언
- all
- any

In [None]:
np.all([True, True, False]) # False
np.any([True, True, False]) # True

In [None]:
a = np.zeros((100,100), dtype = int)
np.any(a != 0) # False
np.all(a == 0) # True

In [None]:
x = np.array([1, 2, 3, 2])
y = np.array([2, 2, 3, 2])
z = np.array([6, 4, 4, 5])

(x <= y) & (y <= z) # array([ True,  True,  True,  True])
((x <= y) & (y <= z)).all() # True

## 3.7 정렬

### 3.7.1 sort
- axis인수를 사용하여 행을 정렬할 것인지 열을 정렬할 것인지 결정한다.
- axis = 0 각각의 행을 따로따로 정렬
- axis = 1 각각의 열을 따로따로 정렬 
- 디폴트 값은 -1, 즉 가장 안쪽(나중)의 차원이다. 

In [None]:
a = np.array([
    [4, 3, 5, 7], 
    [1, 12, 11, 9],
    [2, 15, 1, 14]
])

np.sort(a) # axis의 기본값은 -1
# [결과]
# array([[ 3,  4,  5,  7],
#        [ 1,  9, 11, 12],
#        [ 1,  2, 14, 15]])

np.sort(a, axis = 0)
# [결과]
# array([[ 1,  3,  1,  7],
#        [ 2, 12,  5,  9],
#        [ 4, 15, 11, 14]])

sort메서드는 해당 객체의 자료 자체가 변화하는 자체변화(inplace)메서드이므로 사용할 때 주의해야 한다.

### 3.7.2 argsort --> 이부분 확인
- 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort

In [None]:
# a = np.array([]) 

# =====Unit04. 기술통계 =====

# Unit04. 기술통계

## 4.1 데이터의 개수 :  len
- 데이터의 개수는 len명령으로 구한다.

In [44]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])
len(x)

26

## 4.2 표본 평균 : mean
- np.mean()
- 평균을 통계용어로는 표본평균이라 한다.(sample average, smple mean)
- x데이터에 대한 표본 평균은 {}로 표시
- TODO : 식 


In [47]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

np.mean(x)

4.8076923076923075

## 4.3 표본 분산 : var
- np.var()
- 표본분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균 
- 표본 분산이 작으면 데이터가 모여 있는것이고, 크면 데이터가 흩어진 것이다. 
- TODO : 식 = ?? 

In [49]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

print(np.var(x)) # 분산
print(np.var(x, ddof = 1)) # 비편향 분산. 

115.23224852071006
119.84153846153846


## 4.4 표본 표준편차 :  std
- np.std()
- 표본 표준편차

In [50]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

np.std(x)

10.734628476137871

## 4.5 최댓값과 최솟값
    - np.min()
    - np.max()
    - np.argmin() : 최솟값의 인덱스
    - npargmax() : 최댓값의 인덱스

In [None]:
x = np.array([4, 2, 3, 6])
print(x.max())     # 6
print(x.min())     # 2
print(x.argmin())  # 1
print(x.argmax())  # 3

## 4.6 중앙값 
- np.median()
- 데이터를 크기대로 정렬하였을 때 가장 가운데 있는 수 
- 만약 데이터의 수가 짝수이면 가장 가운데 있는 두수의 평균을 사용한다.

## 4.7 사분위수 
- np.quartile()
- 데이터를 가장 작은 수 부터 가장 큰 수 까지 크기가 커지는 순서대로 정렬하였을 때 
- 1/4(1사분위) : 
- 2/4(2사분위) :  
- 3/4(3사분위) : 
- 4/4(4사분위) : 

## 4.8 백분위수
- np.percentile()
- 위치를 1/100단위로 나눔 

# Unit05. 난수발생과 카운팅

## 5.1 시드설정 seed
- 컴퓨터 프로그램에서 발생하는 무작위수는 사실 엄격히 무작위수가아니다. 
- 특정한 시작 숫자를 정해주면 컴퓨터가 정한 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 
- 시작숫자를 시드라고 한다. 
- 시드 값은 한번만 정해주면 된다.
- 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측가능하다. 
- 코드 결과를 재현하기 위해 항상 시드를 설정한다. 
- 인수로는 0 이상의 정수를 넣어준다. 

In [94]:
np.random.seed(0)

In [98]:
# 밑에 계속 실행하면 계속 변한다. 시드 실행하고 다시 실행하면 
print(np.random.rand(5))
print(np.random.rand(10))

[0.67063787 0.21038256 0.1289263  0.31542835 0.36371077]
[0.57019677 0.43860151 0.98837384 0.10204481 0.20887676 0.16130952
 0.65310833 0.2532916  0.46631077 0.24442559]


## 5.2 데이터 순서 바꾸기 shuffle
- 데이터 순서를 바꾸려면 shuffle함수를 사용한다. 
- suffle함수도 자체 변환(in-place)함수로 한번 사용하면 변수의 값이 바뀌므로 사용에 주의해야 한다. 

In [106]:
x = np.arange(10)
np.random.shuffle(x)
x

array([5, 0, 8, 6, 7, 9, 2, 1, 4, 3])

## 5.3 데이터 샘플링 choice
- np.random.choid(a, size = Noen, replace = True, p = None)
- a : 배열이면 원래의 데이터, 정수이면 arange(a)명령으로 데이터 생성
- size : 정수, 샘플 숫자
- replace : 불리언, True이면 한번 선택한 데이터를 다시 선택 가능
- p : 배열, 각 데이터가 선택될 수 있는 확률 

In [107]:
np.random.choice(5, 5, replace = True)

array([2, 3, 0, 3, 2])

In [109]:
np.random.choice(5, 3, replace = False)

array([1, 2, 4])

In [110]:
np.random.choice(5, 10) # 반복해서 10개 선택

array([0, 3, 2, 3, 0, 4, 0, 0, 2, 3])

In [111]:
np.random.choice(5, 10, p = [0.1, 0, 0.3, 0.6, 0]) # 선택확률을 다르게 해서 10개 선택 

array([3, 2, 3, 3, 2, 3, 3, 3, 3, 3])

## 5.4 난수 생성
- 넘파이의 random서브 패키지는 이외에도 난수를 생성하는 다양한 함수를 제공한다. 
- rand : 0부터 1사이의 균일 분포
- randn : 표준 정규 분포
- randint : 균일 분포의 정수 난수
- normal : todo 

### 5.4.1 rand
- 0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성한다.
- 숫자 인수는 생성할 난수의 크기이다.
- 여러개의 인수를 넣으면 해당 크기를 가진 행렬을 생성한다. 

np.random.rand(10) # 0 - 1 사이의 10개 생성 

np.random.rand(3, 5)

### 5.4.2 randn
- 기댓값이 0이고 표준편차가 1인 표준 정규분포를 따르는 난수를 생성한다. 
- 질문 : 범위가 어떻게 되는거야?

np.random.randn(10) # 10개 생성 

np.random.randn(3, 5)

### 5.4.3 randint
- np.random.randint(low, high = None, size = None)
- 만약 high를 입력하지 않으면 0과 low사이의 숫자를 
- high를 입력하면 low와 high 사이의 숫자를 출력한다.
- size는 난수의 숫자이다.

np.random.randint(10, size = 10) # 0과 10사이의 숫자 10개 출력 
np.random.randint(10, 20, size = 10) # 10 - 20 사이 숫자 10개 출력
np.random.randint(10, 20, size = (3, 5)) 

### 5.4.4 normal
- np.random.normal(loc=0.0, scale=1.0, size=None)
- 정규분포를 따르는 난수이다. 
- loc: 평균
- scale: 표준편차
- loc, scale 생략시 표준정규 분포를 따르는 난수를 제공 

array([0.97857093, 0.11620191, 0.7670237 , 0.41182014, 0.67543908,
       0.24979628, 0.31321833, 0.96541622, 0.58846509, 0.65966841])

array([[0.53320625, 0.23053302, 0.39486929, 0.61880856, 0.47486752],
       [0.47013219, 0.71607453, 0.287991  , 0.38346223, 0.74916984],
       [0.87845219, 0.10286336, 0.09237389, 0.35404666, 0.55181626]])

array([ 0.46235833,  0.35354835, -1.06197932, -0.26135467, -1.17139852,
       -1.85708744, -0.14481625, -0.48386811, -0.77979698,  1.21390595])

array([[-2.12251201e+00, -1.37766811e-01, -4.17322625e-01,
        -4.06536527e-01,  1.06095115e+00],
       [-1.03522496e-01,  1.41816829e-01,  5.81819743e-01,
         1.35454064e+00,  4.61577057e-01],
       [-6.51715276e-01,  3.81171943e-05,  8.89754310e-01,
        -1.15628147e+00,  3.97217397e-01]])

array([1, 2, 1, 4, 2, 5, 5, 5, 2, 5])

array([17, 17, 16, 11, 16, 17, 12, 13, 11, 19])

array([[15, 19, 19, 12, 10],
       [19, 11, 19, 10, 16],
       [10, 14, 18, 14, 13]])

## 5.5 정수데이터 카운팅
- 이렇게 발생시킨 난수가 실수값이면 히스토그램 등을 사용하여 분석하면 된다. 
- 만약 난수가 정수 값이면 unique명령이나 bincount명령으로 데이터 값을 분석할 수 있다. 

### 5.5.1 unique
- 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. 
- return_counts인수를 True로 설정하면 각 값을 가진 데이터 갯수도 출력한다. 

In [121]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [123]:
a = np.array(['a','b','b','c','a'])
index, count = np.unique(a, return_counts = True)
print(index)
print(count)

['a' 'b' 'c']
[2 2 1]


- 그러나 unique함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. 
- 예를 들어 주사위 10번 던졌는데 6이 한번도 나오지 않으면 이 값을 0으로 세어주지 않는다.
- 따라서 데이터가 주사위를 던졌을 때 나오는 수 처럼 특정범위안의 수인 경우에는 bincount를 사용한다. 

### 5.5.2 bincount
- bincount함수는 0부터 minlength-1까지의 숫자에 대해 각각 카운트를 한다.
- 데이터가 없을 경우에는 카운트 값이 0이 된다. 

In [125]:
np.bincount([1, 1, 2, 2, 3], minlength = 6)

array([0, 2, 2, 1, 0, 0])

- 0의 경우 : 0개 
- 1의 경우 : 2개 
- 2의 경우 : 2개 
- 3의 경우 : 1개 
- 4의 경우 : 0개 
- 5의 경우 : 0개 

# Unit06. 파일 저장 및 불러오기

## 6.1 바이너리 파일로 저장 및 불러오기
### 6.1.1 np.save
- np.save('파일경로', 배열)
- 배열을 압축하지 않은 raw바이너리 형식으로 저장한다. 
- 파일명에 확장자로 npy를 붙인다. 


### 6.1.2 np.load
- np.load('파일경로')
- 파일에 저장된 배열을 불러온다.

In [127]:
import numpy as np
a = np.arange(10)
b = np.arange(12).reshape(4,3)
c = np.arange(24).reshape(4,2,3)

In [128]:
# 한개의 배열저장
np.save('a.npy', a) #배열 a를 'a.npy' 파일로 저장

In [133]:
np.save('b', b) #확장자를 생략해도 npy 확장자는 자동으로 붙는다.

np.save('c.arr', c)

In [143]:
np.save('c.arr', c) # 확장자를 생략해도 .npy 확장자는 자동으로 붙는다. 

In [144]:
a2 = np.load('a.npy')
a2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [145]:
b2 = np.load('b.npy')
b2

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [146]:
c2 = np.load('c.arr.npy')
c2

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23]]])

### 6.1.3 np.savez
- np.load('파일경로', 이름 = 배열, 이름 = 배열, ...)
- 여러개의 배열을 저장할 때 사용한다.
- 파일명에 확장자로 npz가 붙는다. 
- 내부적으로 압축해서 저장한다.
- load()함수로 불러오면 저장된 배열목록이 반환된다.
- 저장 시 지정한 이름을 이용해 조회한다. 

In [None]:
#  한파일에 여러배열 저장 (압축)
np.savez('arr.npz', one=a, two=b, three=c)

In [None]:
arr = np.load('arr.npz')
arr

In [None]:
arr.files #배열의 이름들을 반환

In [None]:
a3 = arr['one']
b3 = arr['two']
c3 = arr['three']

In [None]:
a3

In [None]:
b3

In [None]:
c3

## 6.2 텍스트 파일로 저장 및 불러오기
### 6.2.1 savetxt
- savetxt('파일경로', 배열, [delimiter = '공백'])
- 각 원소는 공백을 기준으로 나뉘며 delimiter속성으로 구분자를 지정할 수 있다. 
- delimiter 생략 시 공백으로 구분한다. 
- 1차원과 2차원 배열만 저장 가능하다. 3차원 이상은 저장이 안된다. 


### 6.2.2 loadtxt
- loadtxt('파일경로', [dtype = float, delimiter = 공백])

In [147]:
# 텍스트 파일로 저장
np.savetxt('a.txt', a)

np.savetxt('b.txt', b)

In [148]:
np.savetxt('b.csv', b, delimiter=',')

In [149]:
np.savetxt('c.txt', c) # error : 1,2차원 배열만 저장가능.

ValueError: Expected 1D or 2D array, got 3D array instead

In [150]:
b4 = np.loadtxt('b.csv', delimiter=',')
b4

array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.],
       [ 9., 10., 11.]])