## 1. 개요

- **Num**eric **Py**thon의 약자로, 핵심은 **연산이 가능**하다는 것!
    - 과학 계산 컴퓨팅, 데이터 분석에 필요한 기본적인 패키지
- numpy배열은 python list와 거의 흡사
    - 리스트보다 훨씬 빠르고 메모리 효율성이 높아서 성능상 우의
    - list는 원본이 안바뀐다, np.array는 원본이 같이 변한다.
        - `list`: 기존의 것을 메모리에 카피해놓고, 새롭게 생성한 뷰를 사용함
        - `np.array` : 메모리상에서 따로 저장을 하지않아 **메모리의 효율성**이 좋고 연산의 **속도가 더 빠름**
    - `list`는 여러가지 자료형이 원소로 올 수 있지만, `np.array`는 한가지 자료형만 원소로 쓰일 수 있음
- Padas의 기반이되는 패키지
- `numpy.ndarray` : 다차원 행렬구조를 지원하는 Numpy의 핵심 클래스

### 라이브러리 임포트

In [5]:
# 라이브러리 임포트
import numpy as np

# 버전확인
print(np.__version__)

# 약칭으로 저장할 때, 이름 확인하는 방법
print(np.__name__)

1.21.4
numpy


### ⭐️list와 차이점 with code

In [1]:
a = [1, 2, 3, 4]
b = [4, 5, 6, 7]

# list는 원소간 연산 X, 리스트 확장
a + b

[1, 2, 3, 4, 4, 5, 6, 7]

In [4]:
numpy_a = np.array(a)
numpy_b = np.array(b)

# numpy array는 연산 가능
sum_arr = numpy_a + numpy_b
sum_arr

array([ 5,  7,  9, 11])

In [None]:
'''
리스트는 원본이 안바뀐다. 변경하면 기존의 것을 카피해놓고(메모리에) 새롭게 생성한 뷰를 쓴다.
반면에 numpy nd배열은 원본뷰가 바뀐다.
이것이 메모리상에서의 리스트와 numpy nb배열의 가장 큰 차이점!

--> 메모리 효율성과 연관되는 부분이 발생한다.
--> list와 비교 했을 때, 메모리의 효율성이 좋고 연산의 속도가 더 빠른 것은 numpy!
'''
myList = [4, 5, 6, 7]
myArr = np.array(myList)

myList_sub = myList[1:3]
print(myList_sub)

myArr_sub = myArr[1:3]
print(myArr_sub)

print('='*20)
myList_sub[0] = -5
myArr_sub[0] = -5
print(myList_sub)
print(myArr_sub)

print('='*20)
print(myList)
print(myArr)

In [7]:
# 리스트는 다양한 자료형의 원소 가능
li = [1, 2, 3, 9, '4', 'kb']

# array는 한가지 자료형만 가능 (1)
arr = np.array(li)
print(arr)  # 타입을 알아서 변환하여 통일함

# array (2)
arr2 = np.array([1, 6, 3, 9.2])
print(arr2) # 타입을 알아서 실수로 반환하여 통일함

['1' '2' '3' '9' '4' 'kb']
[1.  6.  3.  9.2]


## 2. 세부 내용

### 1. np 배열 생성 | 리스트와 비교
    1. array() 함수 사용
    2. rand() 함수 사용

#### 1) array 함수

In [8]:
a = [1, 2, 3, 4]
b = [4, 5, 6, 7]

print(a, type(a))
print(b, type(b))

[1, 2, 3, 4] <class 'list'>
[4, 5, 6, 7] <class 'list'>


In [9]:
# list는 원소간 연산 X, 리스트 확장
a + b

[1, 2, 3, 4, 4, 5, 6, 7]

In [10]:
# 1차원
numpy_a = np.array(a)
numpy_b = np.array(b)

print(numpy_a, type(numpy_a))
print(numpy_b, type(numpy_b))

[1 2 3 4] <class 'numpy.ndarray'>
[4 5 6 7] <class 'numpy.ndarray'>


In [11]:
# numpy array는 연산 가능
sum_arr = numpy_a + numpy_b
sum_arr

array([ 5,  7,  9, 11])

In [12]:
mul_arr = numpy_a * numpy_b
mul_arr

array([ 4, 10, 18, 28])

In [13]:
myList = [4, 5, 6, 7]
myArr = np.array(myList)

print(myList)
print(myArr)
print(type(myList))
print(type(myArr))  # numpy.ndarray : 다차원 행렬구조를 지원하는 넘파이의 핵심 클래스

[4, 5, 6, 7]
[4 5 6 7]
<class 'list'>
<class 'numpy.ndarray'>


In [14]:
# 다차원
np.array([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### 2) random 모듈의 난수 생성
- `np.random.rand()` : numpy 배열 리턴
- `np.random.randint()` : 정수
    - `size = (n, m)` : **n행 m열**로 만드는 옵션
- `np.random.randn()`
    - 정규 분포 → 머신이 학습하기 좋은 데이터
    - n행 m열의 난수값 생성 → 학습시킬 때 사용하면 good!

In [42]:
a = np.random.rand(5)  # numpy 배열 리턴
print(a)
print(type(a))

print("="*70)
b = np.random.randint(1, 10, 5)  # 1 <= x < 9인 정수 5개 리턴
print(b)
print(type(b))

print("="*70)
c = np.random.randn(10)  # 정규분포 10개 -> 머신이 학습하기 좋은 데이터가 생김
print(c)
print(type(c))

print("="*70)
d = np.random.randn(3, 5)  # 3행 5열의 난수값 생성 -> 학습시킬 때 쓰자!
print(d)
print(type(d))

[0.21263721 0.77588489 0.84373444 0.10057255 0.13560915]
<class 'numpy.ndarray'>
[2 1 9 5 8]
<class 'numpy.ndarray'>
[ 0.57803243  1.47120266  1.01284361 -0.55763274  0.48288659  0.98637476
  0.15427477  0.51486331  0.64711655 -0.61852216]
<class 'numpy.ndarray'>
[[-0.60328173 -0.16015352 -0.90320004  0.21614679 -0.82058659]
 [ 0.99353958  1.19276074  0.76598538 -1.13476705  0.4696442 ]
 [-2.19400341 -1.68875809  2.27652865 -0.84955035 -0.70020492]]
<class 'numpy.ndarray'>


In [50]:
# n행 m열의 난수값 정수로 생성하는 방법
# 아래 두 코드는 같은 코드임
np.random.randint(1, 10, size=(3, 5))
np.random.randint(10, size=(3, 5))  # start 디폴트가 1임

array([[1, 5, 7, 2, 6],
       [1, 0, 4, 1, 3],
       [3, 0, 5, 3, 7]])

In [31]:
b = np.random.randint?

[0;31mDocstring:[0m
randint(low, high=None, size=None, dtype=int)

Return random integers from `low` (inclusive) to `high` (exclusive).

Return random integers from the "discrete uniform" distribution of
the specified dtype in the "half-open" interval [`low`, `high`). If
`high` is None (the default), then results are from [0, `low`).

.. note::
    New code should use the ``integers`` method of a ``default_rng()``
    instance instead; please see the :ref:`random-quick-start`.

Parameters
----------
low : int or array-like of ints
    Lowest (signed) integers to be drawn from the distribution (unless
    ``high=None``, in which case this parameter is one above the
    *highest* such integer).
high : int or array-like of ints, optional
    If provided, one above the largest (signed) integer to be drawn
    from the distribution (see above for behavior if ``high=None``).
    If array-like, must contain integer values
size : int or tuple of ints, optional
    Output shape.  If the given

### 2. np배열의 초기화(생성과 동시에 특정한 값으로 초기화)


1. `np.zeros(n)` : n개의 0으로 이루어진 array 
2. `np.ones(n)` : n개의 1으로 이루어진 array 
3. `np.eye(n)` : n차원의 **정방향 행렬**, **대각 행렬**(주대각선 성분이 아닌 모든 성분이 0인 정사각 행렬)
4. `np.arange(start, end, step)`
5. 0, 1이 아닌 3, 4 등 **다른 원하는 숫자로 초기화**하기
    1. 곱하기 : `np.ones(n) * n`
    2. 더하기 : `np.zeros(n) + n`
6. `np.full((n, m), 원하는 수)` : n행 m열의 원하는 수로 이루어진 2차원 array만들기
    - shape는 항상 튜플로 표현되는 것 주의! ⭐️

In [54]:
# 1. zeros
az = np.zeros(10)
print(az)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [55]:
# 2.ones
ao = np.ones(10)
print(ao)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [60]:
# 3. eye
'''n차원의 정방향 행렬, 대각 행렬(주대각선 성분이 아닌 모든 성분이 0인 정사각 행렬)'''
ae = np.eye(3)
print(ae)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [61]:
# 4. arange(start, end, step)
aa = np.arange(10)
print(aa)

aa = np.arange(3, 10, 2)
print(aa)

[0 1 2 3 4 5 6 7 8 9]
[3 5 7 9]


In [69]:
# 5. 0, 1이 아닌 3, 4, 5, 6 등 다른 원하는 숫자로 초기화하기
# case 1: 곱하기
ao7 = np.ones(10) * 7
print(ao7)

# case 2 : 더하기
print(np.zeros(10)+7)

[7. 7. 7. 7. 7. 7. 7. 7. 7. 7.]
[7. 7. 7. 7. 7. 7. 7. 7. 7. 7.]


#### ⭐️ shape는 항상 튜플로 표현된다! 매우 중요!

In [70]:
af = np.full((7, 5), 23)  # shape는 항상 튜플로 표현
print(af)

[[23 23 23 23 23]
 [23 23 23 23 23]
 [23 23 23 23 23]
 [23 23 23 23 23]
 [23 23 23 23 23]
 [23 23 23 23 23]
 [23 23 23 23 23]]


### 3. np.reshape() : numpy 배열 형태변경 ⭐️⭐️

- numpy Array의 가장 큰 장점
- -1은 딱 1번만 사용할 수 있으며 자동으로 적절한 형태를 계산
    - -1의 의미 : 나머지는 알아서 해라
    - (5, -1) : 5행은 만들되 열은 알아서 해라
    - (-1, 5) : 5열은 만들되 행은 알아서 해라

In [15]:
import sys
arr = np.array([1, 2, 3, 4])
arr_f = np.array([1, 2, 3, 4], dtype=np.float64)

# 메모리에 올라갈 데이터의 용량을 반환하는 함수
print(sys.getsizeof(arr))  # 120
print(sys.getsizeof(arr_f))  # 136 -> 메모리를 차지하는 공간이 다르다

136
136


In [16]:
arr1 = np.array([[1.0, 2, 3],
                [4, 5, 6]], dtype = np.int32)

print(arr1)
print(type(arr1))

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>


In [90]:
arr.reshape(2,2)

array([[1, 2],
       [3, 4]])

In [91]:
arr

array([1, 2, 3, 4])

### 4. Numpy Indexing, Slicing

파이썬에서 사용하던 인덱스, 슬라이싱과 동일

#### Indexing

`1차원 인덱싱`

In [127]:
arr1 = np.array([1, 2, 3, 4, 5])
arr1[2]  # 3
arr1[-1]  # 5
# arr1[6]  # our of ineex
arr1[:2]  # 1, 2
arr[-4:-1]  # 1, 2, 3
arr1[::-1]  # 역순

array([5, 4, 3, 2, 1])

#### 조건 인덱싱

In [130]:
np.random.seed(0)  # 난수 고정
arr1 = np.random.randn(4, 4)
arr1


array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433]])

In [131]:
# 1. 논리연산자를 사용해서 값을 받아옴
arr1[arr1<0]  # 값이 나옴

array([-0.97727788, -0.15135721, -0.10321885])

In [132]:
arr1<0  # bool로 나옴

array([[False, False, False, False],
       [False,  True, False,  True],
       [ True, False, False, False],
       [False, False, False, False]])

In [134]:
arr1[arr1<0] = 0  # 오버라이트 : 조건에 해당하는 애들이 0으로 바뀜 -> 원본이 바뀜
arr1  # 원본이 바뀐다!!!!

array([[1.76405235, 0.40015721, 0.97873798, 2.2408932 ],
       [1.86755799, 0.        , 0.95008842, 0.        ],
       [0.        , 0.4105985 , 0.14404357, 1.45427351],
       [0.76103773, 0.12167502, 0.44386323, 0.33367433]])

`2차원 인덱싱과 reshape  
 reshape는 변환전과 후의 행과 열 곱한 수가 동일해야 한다
`

In [135]:
arr2 = np.arange(32).reshape(4, 8)
print(arr2)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]]


In [141]:
arr2[:, 1:3]

array([[ 1,  2],
       [ 9, 10],
       [17, 18],
       [25, 26]])

In [142]:
arr2[-1:, 1:3]

array([[25, 26]])

In [8]:
arr3 = np.arange(1, 13).reshape(3, 4)
print(arr3)
print(arr3[:,:3])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]]


In [9]:
arr3

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [10]:
arr3[:, np.arange(3)]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

`2차원 배열 슬라이싱과 reshape`

### 5. 정렬 ⭐️⭐️⭐️ 중요

1. `arr.sort()` : 리턴값이 없고, 원본 값을 sort해준다.(배열 자체를 정렬하면서 동시에 원본 저장)

2. `np.sort(arr)`⭐️ : 정렬된 값을 리턴하고, 원본 값은 변하지않는다. (numpy 라이브러리에서 가져온 함수로 배열을 정렬, 재대입 해주지 않으면 정렬이 유지되지 않음)

➡️ 원본 데이터를 훼손할 수도 있기 때문에 중간 중간 테스트 해보기 위해 기능이 나누어져있다! 현업에서는 **2번 방법을 많이** 사용한다. 1번은 위험하다. 되도록 안쓴다.

In [143]:
arr3 = np.array([1, 10, 5, 3, 4, 2, 7, 1, 8, 5, 9])

In [144]:
np.sort(arr3)

array([ 1,  1,  2,  3,  4,  5,  5,  7,  8,  9, 10])

In [145]:
arr3

array([ 1, 10,  5,  3,  4,  2,  7,  1,  8,  5,  9])

`하지만 이 값들은 유지되지 않습니다. ⭐️⭐️⭐️
`

In [None]:
arr3 = np.sort(arr3)  # 솔루션1 : 재할당!

In [146]:
arr3.sort()  # 솔루션2: 원본값을 sort해줌

In [147]:
arr3

array([ 1,  1,  2,  3,  4,  5,  5,  7,  8,  9, 10])

#### N차원 정렬

- [documentation](https://numpy.org/doc/stable/reference/generated/numpy.sort.html)
- 열방향 정렬 : `axis = 1` → 축을 수평하게 둔다 → 모든 열을 정렬 (가로로)
- 행방향 정렬 : `axis = 0` → 축을 수직으로 둔다 → 모든 행을 정렬 (세로로)

In [149]:
arr2d = np.array([[5, 6, 7, 8],
                    [4, 3, 2, 1],
                    [10, 9, 12, 11]])

arr2d.shape
arr2d

array([[ 5,  6,  7,  8],
       [ 4,  3,  2,  1],
       [10,  9, 12, 11]])

In [150]:
# 열발향 정렬(가로)
np.sort(arr2d, axis=1)

array([[ 5,  6,  7,  8],
       [ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

In [151]:
# 행방향 정렬(세로)
np.sort(arr2d, axis=0)

array([[ 4,  3,  2,  1],
       [ 5,  6,  7,  8],
       [10,  9, 12, 11]])

In [153]:
np.sort?

[0;31mSignature:[0m [0mnp[0m[0;34m.[0m[0msort[0m[0;34m([0m[0ma[0m[0;34m,[0m [0maxis[0m[0;34m=[0m[0;34m-[0m[0;36m1[0m[0;34m,[0m [0mkind[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0morder[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return a sorted copy of an array.

Parameters
----------
a : array_like
    Array to be sorted.
axis : int or None, optional
    Axis along which to sort. If None, the array is flattened before
    sorting. The default is -1, which sorts along the last axis.
kind : {'quicksort', 'mergesort', 'heapsort', 'stable'}, optional
    Sorting algorithm. The default is 'quicksort'. Note that both 'stable'
    and 'mergesort' use timsort or radix sort under the covers and, in general,
    the actual implementation will vary with data type. The 'mergesort' option
    is retained for backwards compatibility.

    .. versionchanged:: 1.15.0.
       The 'stable' option was added.

order : str or list 

### 6. 연산

1. `Element wise` : 딥러닝, 머신러닝에서 사용
    - 원소간의 연산
    - 행렬에서 같은 위치에 있는 원소들끼리 사칙연산을 진행
    - 두 array의 shape이 다르면 에러!
2. `Broad casting` : 스칼라를 array에 연산(방송 뿌리기)
3. `내적곱(행렬연산)` : nxm 과 mxk 곱하고 더해서 계산

![image](https://user-images.githubusercontent.com/89832134/163811711-4d026f17-1110-4228-85c6-e85945806db4.png)

#### Element Wise

In [27]:
import numpy as np

x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])

In [28]:
x+y

array([[ 6,  8],
       [10, 12]])

In [29]:
x-y

array([[-4, -4],
       [-4, -4]])

In [30]:
x*y

array([[ 5, 12],
       [21, 32]])

#### Broadcsting

In [31]:
x/y

array([[0.2       , 0.33333333],
       [0.42857143, 0.5       ]])

In [32]:
x * 100

array([[100, 200],
       [300, 400]])

In [33]:
x - 100

array([[-99, -98],
       [-97, -96]])

In [34]:
np.sqrt(x)  # x값 전체에 루트를 씌운 깂

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

#### 통계함수
* sum, mean, min, max, argmin, argmax, cumsum

- sum : `arr.sum()` `np.sum(arr)`
    - 두 함수 모두 리턴값이 있고 동작이 완전히 같기때문에 사용하기 편한걸 사용하면 된다.
    - `arr.sum(axis=1)` : 열 연산 (행끼리 더하기)
- mean : `arr.mean()` `np.mean(arr)`
- min, max
    - `arr.min()` `np.min(arr)`
    - `arr.max()` `np.max(arr)`
- std, var(표준편차와 분산)
    - 분산 : 데이타가 펴져있는 정도를 수치화 한것
        - `arr.var()` `np.var(arr)`
    - 표준편차 : 분산의 제곱근
        - `np.std(arr)` `arr.std()`
        - `np.sqrt(arr.var())`  # `arr.std()`와 같음
- argmin, argmax, cumsum

In [17]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [18]:
arr.sum()

78

In [19]:
np.sum(arr)

78

In [20]:
# 열연산(행 방향으로)
print(arr.sum(axis=1))
print(np.sum(arr, axis=1))

[10 26 42]
[10 26 42]


In [21]:
print(arr.mean())
print(np.mean(arr))

6.5
6.5


In [22]:
print(arr.min())
print(np.min(arr))

1
1


In [23]:
print(arr.max())
print(np.max(arr))

12
12


In [24]:
print(np.std(arr))
print(arr.std())

3.452052529534663
3.452052529534663


In [25]:
print(arr.var())
print(np.var(arr))

11.916666666666666
11.916666666666666


In [26]:
np.sqrt(arr.var())  # arr.std()와 같음

3.452052529534663