# Numpy
- Numeriacal Python
- 파이썬 머신러닝 패키지인 scikit-learn에서 기본 데이터 구조로 사용되어 Numpy 배열 형태의 데이터를 사용
- 파이썬 기반 데이터 분석 환경에서 행렬 및 벡터 연산에 필요한 다양한 함수를 제공
- 메모리 소모가 많은 반복문 없이 전체 데이터 배열에 빠른 연산을 처리할 수 있는 표준 수학 함수
> 배열 : 동일한 특성(데이터 타입) 및 일정한 규칙을 가지는 여러 개의 요소가 나열되어 있는 데이터 집합
- 파이썬 list 객체를 사용할 때 보다 Numpy의 ndarray 객체를 사용하면 연산 속도가 개선되어 더 많은 데이터를 더 빠르게 처리

In [29]:
import numpy as np

## 0. Numpy 배열 : `numpy.ndarray`
- 다차원 배열(1차원, 2차원, 3차원)으로 입체적인 데이터 구조를 구성하고 여러 개의 데이터 방향을 가진다.
- 배열 속성 : shape, ndim, dtype 등
- 데이터 방향 : axis = 0(행/높이), 1(열/폭), 2(채널/깊이)
- 사진을 집어넣을때는 img태그 를 사용합니다.

<img src='img/nparr1.jpg' width='600' height='400' align='left'>

## 1. `ndarray` 배열 생성
- np.array(data)
    - 파이썬 list객체를 전달받아 numpy list로 교환해주는 명령어
    - 배열 속성
        - `shape` : 구조 (행, 열, 차원)
        - `ndim` : 차원
        - `dtype` : 데이터 타입 > 자료형 통일돼야 함
        - `size` : 요소 개수 = 행 * 열 * 차원
    - 배열 메서드
        - `astype()` : 데이터 타입 변환(문자 > 실수, 실수 > 문자 등...)
    - 파이썬 내장함수를 사용한 속성값
        - `type()` : 객체의 자료형 확인
        - `len()` : 요소 내부의 자료 길이.
    - Numpy 함수를 사용한 속성
        - `reshape(row, column)` : 배열 재배치(1 * 12 > 3 * 4, 4 * 5 > 2 * 10 등...)
    - kind : 데이터 종류에 대한 구분 기호
        - b boolean
        - i 정수(int)
        - u 부호없는 정수(unsigned int, +- 개념 없이 절대값만 존재)
        - f 실수
        - c 복소 부동소수점
        - O 객체
        - S 바이트 문자열(ascii 코드, 영문자, 일부특문, 숫자)
        - U 유니코드 문자열(한글, 중국어, 태국어, 아랍어 등 영어와 다른 문자)

<br>

- Python 1차원 list > Numpy `ndarry`로 변환

In [33]:
tmp_list = [1, 2, 3, 4, 5, 6]

my_arr = np.array(tmp_list)
print(my_arr)

[1 2 3 4 5 6]


<br>

- 배열 객체`ndarry`의 속성: 자료형 > `numpy.ndarry`

In [34]:
print(type(tmp_list))
print(type(my_arr))

<class 'list'>
<class 'numpy.ndarray'>


<br>

- 배열 객체`ndarray`의 속성: 구조 확인하기 `ndarray.shape` > shape(행(row), 열(column), 차원(면))
- (정수, ): 정수 개수의 item을 가진 list가 `ndarray`로 변환 된 결과물

In [35]:
print(my_arr.shape)

(6,)


<br>

- 배열 객체`ndarray`의 속성:길이 > (n, )

<br>

- 배열 객체`ndarray`의 속성: 차원 `ndarray.ndim`

In [36]:
my_arr.ndim

1

<br>

- 배열 객체의 속성: item 개수

In [37]:
my_arr.size

6

<br>

- 배열 객체의 속성: data type

In [14]:
arr.dtype

dtype('int32')

<br>

- 배열 객체의 속성: data type의 변환: `astype` > 원본 data 유지

In [15]:
arr2 = arr.astype(float)
arr2

array([1., 2., 3., 4., 5., 6.])

<br>

- 배열 구조 변환 > 기존 배열 item수(6개)와 변환하려는 구조의 item수는 일치해야 함

In [17]:
arr3 = arr.reshape(2, 3)
print(arr3)
print(arr)

[[1 2 3]
 [4 5 6]]
[1 2 3 4 5 6]


<br>

- Numpy 객체 정보를 좀 더 편하게 확인하기 위한 사용자 함수 정의   
\> 객체타입, 구조, 차원, 데이터타입, 내부자료를 확인하기 위해 정의하는 함수

In [19]:
def np_print(arr):
    text = '''
    type : {}
    shape : {}
    ndim : {}
    dtype : {}
    array data : \n {}'''.format(type(arr), arr.shape, arr.ndim, arr.dtype, arr)
    print(text)

<br>

- list item type이 통일되지 않으면 우선순위에 따라 내부 데이터의 dtype이 통일됨
- 우선순위: str > float > int

- 서로 다른 타입의 혼합(1): int + str > str로 통일

In [21]:
tmp = [1, 2, 3, '4']
my_arr = np.array(tmp)
np_print(my_arr)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : <U11
    array data : 
 ['1' '2' '3' '4']


<br>

- 서로 다른 타입의 혼합(2): int + float > float

In [22]:
int_float = [1, 2, 3.3, 4]
my_arr = np.array(int_float)
np_print(my_arr)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : float64
    array data : 
 [1.  2.  3.3 4. ]


<br>

- 서로 다른 타입의 혼합(3): float + str > str

In [23]:
float_str = ['1', 2.3, 4]
my_arr = np.array(float_str)
np_print(my_arr)


    type : <class 'numpy.ndarray'>
    shape : (3,)
    ndim : 1
    dtype : <U32
    array data : 
 ['1' '2.3' '4']


### 1.2. 2차원 list로 Numpy array 생성

- 2차원 array의 shape 속성: 행(row, 세로축 개수), 열(column, 가로축 개수)만 반환

In [26]:
tmp_list = [[1, 2, 3, 4],
           [5, 6, 7, 8]]

my_arr = np.array(tmp_list)
np_print(my_arr)
print(my_arr[1][1])


    type : <class 'numpy.ndarray'>
    shape : (2, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3 4]
 [5 6 7 8]]
6


### 1.3. 3차원 list로 Numpy ndarray 생성

In [52]:
tmp_list = [
    [
        [1, 2, 3], [4, 5, 6]
    ],
    [
        [7, 8, 9], [10, 11, 12]
    ]
]

arr_3d = np.array(tmp_list)

np_print(arr_3d)


    type : <class 'numpy.ndarray'>
    shape : (2, 2, 3)
    ndim : 3
    dtype : int32
    array data : 
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


<br>

- data type을 parameter로 지정해서 `Numpy.ndarray` 내부 자료형 변경 가능
- `np.ndarray(data, dtype="data type")`

## 2. 생성 및 초기화

- 초기값을 지정하여 data를 자동으로 가지는 `ndarray` 생성

    - np.zeros()

    - np.ones()

    - np.full()

    - np.eye()

    - np.empty()

### 2.1. `np.zeros()`

<br>

- `dtype`만 int로 바꿔서 생성

In [50]:
ndarr_zeros = np.zeros((3, 4), dtype=int)

np_print(ndarr_zeros)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


### 2.2. `np.ones(shape(row, col), dtype=float)`

- 지정된 구조의 `ndarray`생성, 모든 item 1로 초기화

- `shape`: tuple type, row, col 구조 지정

- `dtype`: 객체의 data type 지정, dedault == `numpy.float64`

<br>

- 3행 4열, 초기값 1로 가지는 배열

In [51]:
ndarr_ones = np.ones((3, 4), dtype=float)

np_print(ndarr_ones)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


<br>

### 2.3. `np.full(shape, fill_value, dtype)`

- 지정된 구조의 `ndarray`생성, 모든 item을 `fill_value` 값으로 초기화
 
- `shape`: tuple data type, 행*열 구조 지정

- `dtype`: `ndarray`의 data type 지정, default = input data type

<br>

- 3행 4열 초기값 5인 배열

In [48]:
ndarr_full = np.full((3, 4), 5, int)

np_print(ndarr_full)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]


<br>

### 2.4. `np.eye(N, M=None, dtype=float)`

- (N, M) 구조의 단위 행렬 생성

- `M`: col 개수 지정, dafault = N
    
- `dtype`: `ndarray`의 data type 지정, default = `numpy.float64`

In [47]:
ndarr_eye = np.eye(3)
np_print(ndarr_eye)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


<br>

- row = 5, col = 3인 단위행렬

In [54]:
ndarr_i = np.eye(5, 3)

np_print(ndarr_i)


    type : <class 'numpy.ndarray'>
    shape : (5, 3)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]
 [0. 0. 0.]]


<br>

### 2.5. `np.empty(shape, dtype=float)`

- 지정된 `shape`의 `ndarray` 생성, 모든 item에 대한 초기화 없이 직전 memory에 저장된 값 사용

- `ndarry` 생성 시 가장 빠르고 효율적인 방법

- `shape`: data type tule, row * col 구조 지정
    
- `dtype`: `ndarray`의 data type 지정, default = `numpy.float64`

<br>

- 7 * 2 `ndarray` 생성

In [56]:
ndarr_ones = np.ones((7, 2))

np_print(ndarr_ones)


    type : <class 'numpy.ndarray'>
    shape : (7, 2)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


<br>

- `np.empty()` 사용해서 3 * 4 구조로 변형

In [57]:
ndarr_empty = np.empty((3, 4))

np_print(ndarr_empty)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


<br>

### 2.6. like method

- 전달받은 `ndarray`와 동일한 shape으로 새로운 `ndarray` 생성
    
    - np.zeros_like(): 초기값 == 0
    
    - np.ones_like(): 초기값 == 1
    
    - np.full_like(): 초기값 == fill_vaule

<br>

- `ones_like()`

- 2 * 3 구조, 1 ~ 6으로 구성된 `ndarray`

In [58]:
my_data = [[1, 2, 3], [4, 5, 6]]

my_ndarr = np.array(my_data)
np_print(my_ndarr)


    type : <class 'numpy.ndarray'>
    shape : (2, 3)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3]
 [4 5 6]]


In [59]:
ones_like_ndarr = np.ones_like(my_ndarr)

np_print(ones_like_ndarr)


    type : <class 'numpy.ndarray'>
    shape : (2, 3)
    ndim : 2
    dtype : int32
    array data : 
 [[1 1 1]
 [1 1 1]]


## 3. 1차원 배열 생성 및 초기화 with range, condition

- 범위와 조건이 있는 데이터를 가지는 1차원 배열 생성
    
    - np.linspace()
    
    - np.arange()
    
    - np.logspace()

### 3.1. `np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)`

- 시작값(start)부터 마지막값(stop) 사이의 범위에서 균등한 간격으로 일정 개수(num)개의 데이터를 가지는 배열 생성

- num : 데이터 개수, 기본값 = 50

- endpoint : 마지막값에 stop을 포함/제외하는 조건 지정, 기본값 = True(포함)

- retstep : True로 전달하면 (배열, 데이터 사이의 간격)의 데이터를 담은 tuple을 반환

- dtype : 배열의 데이터 타입을 지정, 기본값 = None

<br>

- 기본값

- 0이상 1이하의 범위에서 발생한 숫자 5개를 포함하는 배열

In [60]:
ndarr_linspace = np.linspace(0, 1, num=5)

np_print(ndarr_linspace)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : float64
    array data : 
 [0.   0.25 0.5  0.75 1.  ]


<br>

- `endpoint=False`일 때

In [62]:
endpoint_false = np.linspace(0, 1, num=5, endpoint=False)

np_print(endpoint_false)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : float64
    array data : 
 [0.  0.2 0.4 0.6 0.8]


<br>

- `retstep` 설정 > 반환값 tuple: (ndarray, 간격값)

In [65]:
linspace_retstep = np.linspace(0, 1, num=5, retstep=True)

print(linspace_retstep)

(array([0.  , 0.25, 0.5 , 0.75, 1.  ]), 0.25)


<br>

### 3.2. `np.arange(start=0, stop, step=1, dtype=None)`

- 시작값(start)부터 마지막값(stop) 사이의 범위에서 지정한 간격(step)으로 일정 개수(num)개의 데이터를 가지는 배열 생성

- 파이썬 내장함수 range()와 유사

- start : 시작값, 기본값 = 0

- stop : 마지막값으로 범위에 포함되지 않음

- step : 데이터 사이의 간격, 기본값 = 1

- dtype : 배열의 데이터 타입을 지정, 기본값 = None

In [66]:
list(range(5))

[0, 1, 2, 3, 4]

<br>

- 기본값

- 0이상 5미만의 범위에서 1씩 증가하는 정수를 가지는 `ndarray`

In [67]:
ndarr_arange = np.arange(5)

np_print(ndarr_arange)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : int32
    array data : 
 [0 1 2 3 4]


<br>

- 시작값, 끝값, 간격 설정
- 0 이상, 5 미만, 0.5씩 증가하는 숫자를 가진 `ndarray`

In [69]:
arange_5 = np.arange(0, 5, 0.5)

np_print(arange_5)


    type : <class 'numpy.ndarray'>
    shape : (10,)
    ndim : 1
    dtype : float64
    array data : 
 [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]


<br>

- `arange()` method `ndarray` vs. `shape(1, 5)` `ndarray`   
\> shape와 dimension이 다르다

### 3.3. `np.logspace(start, stop, num=50, endpoint=True, dtype=None)`

- 시작값(start)부터 마지막값(stop)사이의 log scale로 지정된 range에서    
균등한 간격으로 일정 개수(num)개의 data를 가지는 `ndarray`생성

- `num`: data 개수, default == 50

- `endpoint`: 마지막값에 `stop`을 포함 or 제외하는 조건, default == True(포함)

- `dtype`: `ndarray` data type, default == None

<br>

- 기본값
- 0이상 1이하 range > log scale 적용한 값(num=50)을 가진 `ndarray`
- 밑 == 10인 log값 기준

In [70]:
log_ndarr = np.logspace(0, 1)

np_print(log_ndarr)


    type : <class 'numpy.ndarray'>
    shape : (50,)
    ndim : 1
    dtype : float64
    array data : 
 [ 1.          1.04811313  1.09854114  1.1513954   1.20679264  1.26485522
  1.32571137  1.38949549  1.45634848  1.52641797  1.59985872  1.67683294
  1.75751062  1.84206997  1.93069773  2.02358965  2.12095089  2.22299648
  2.32995181  2.44205309  2.55954792  2.6826958   2.8117687   2.9470517
  3.0888436   3.23745754  3.39322177  3.55648031  3.72759372  3.90693994
  4.09491506  4.29193426  4.49843267  4.71486636  4.94171336  5.17947468
  5.42867544  5.68986603  5.96362332  6.25055193  6.55128557  6.86648845
  7.19685673  7.54312006  7.90604321  8.28642773  8.68511374  9.10298178
  9.54095476 10.        ]


In [71]:
log_ndarr2 = np.logspace(0, 3, 4)

np_print(log_ndarr2)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : float64
    array data : 
 [   1.   10.  100. 1000.]


<br>

- `endpoint` 설정

In [73]:
log_endpoint = np.logspace(0, 1, 40, endpoint=False)

np_print(log_endpoint)


    type : <class 'numpy.ndarray'>
    shape : (40,)
    ndim : 1
    dtype : float64
    array data : 
 [1.         1.05925373 1.12201845 1.18850223 1.25892541 1.33352143
 1.41253754 1.49623566 1.58489319 1.67880402 1.77827941 1.88364909
 1.99526231 2.11348904 2.23872114 2.37137371 2.51188643 2.66072506
 2.81838293 2.98538262 3.16227766 3.34965439 3.54813389 3.75837404
 3.98107171 4.21696503 4.46683592 4.73151259 5.01187234 5.30884444
 5.62341325 5.95662144 6.30957344 6.68343918 7.07945784 7.49894209
 7.94328235 8.41395142 8.91250938 9.44060876]


## 4. 난수 배열 생성 및 초기화

- 난수(특정한 순서나 규칙을 가지지 않는 무작위의 수)를 데이터로 가지는 배열을 생성

    - np.random.normal()

    - np.random.rand()

    - np.random.randn()

    - np.random.randint()

    - np.random.random()

### 4.1. `np.random.normal(loc=0.0, scale=1.0, size=None)`

- 정규 분포 확률 밀도에서 표본을 추출하여 데이터로 가지는 배열을 생성

- loc : 정규분포의 평균, 기본값 = 0.0

- scale : 정규분포의 표준편차, 기본값 = 1.0

- size : (행,열,차원)의 배열 구조, 기본값 = single value(배열이 아닌 하나의 값을 반환)

#### \* 분포의 종류

1. 균등분포: 모든 요소가 출력될 확률이 동등한 경우 e.g. 로또 번호

2. 정규분포: 평균에 가까울수록 출력될 확률이 높고 평균에서 멀어질수록 확률이 낮아짐 e.g. 키, 시험 성적 

<br>

- 기본값
- 평균 0, 표준편차 1로 난수 생성

In [248]:
n_max = 0s

In [1192]:
v = np.random.normal(0, 1)
print(v)
if v > n_max:
    n_max = v

-0.6196039645326118


In [1193]:
print(n_max)

3.1977672921177573
