# **⭐️⭐️ Numpy ⭐️⭐️**

*출처 : 파이썬 머신러닝 완벽 가이드 (권철민 저)*

## **Numpy 개요 🤓**

### **📍 What is Numpy ?**

- *Numerical Python*의 약자
- 파이썬의 대표적인 행렬과 선형대수를 다루는 패키지
- 머신러닝의 이론적 백그라운드는 선형대수와 통계로 이루어져 있는데, 사이킷런을 비롯한 많은 머신러닝 패키지가 넘파이 기반으로 되어 있다. 

### **📍 Why Numpy?**

- 머신러닝 알고리즘이 대부분 넘파이 기반으로 되어있어서.
- 이들 알고리즘의 입력/출력 데이터를 **Numpy 배열 타입** 으로 사용하기 때문.
- Numpy 의 **배열을 다루는 기본 방식**은 또 다른 중요한 데이터 핸들링 패키지, **Pandas** 를 이해하는 것과도 밀접함.

### **📍 Numpy의 기본 데이터 배열 | `ndarray`**

- Numpy 기반 데이터 배열은 ndarray
- ndarray 를 이용해 Numpy에서 다차원 (Multi-dimension) 배열을 쉽게 생성하고, 다양한 연산을 수행 할 수 있다.

### **📍 Numpy의 기본 데이터 타입**

- int, str, bool 등 모두 가능
- ndarray내의 데이터 타입은 그 연산의 특성상 **같은 테이터 타입만 가능**
- 만약, 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변환시, **데이터 크기가 더 큰** 데이터 타입으로 **형 변환을 일괄적용** 한다.
- 데이터 타입은 `.dtype` 으로 확인 가능

In [10]:
# 다른 데이터 유형의 데이터 크기가 더 큰 데이터 타입으로 형 변환 일곽적용 예시 (1) - int to str
list1 = [1, 2, 'test']
array1 = np.array(list1)
print(array1, array1.dtype)

['1' '2' 'test'] <U21


In [11]:
# 다른 데이터 유형의 데이터 크기가 더 큰 데이터 타입으로 형 변환 일곽적용 예시 (2) - int to float
list2 = [1, 2, 3.2]
array2 = np.array(list2)
print(array2, array2.dtype)

[1.  2.  3.2] float64


## **Get into Numpy 👾**

### **📍 Numpy 불러오기**

In [2]:
import numpy as np

### **📍 ndarray 생성** 

#### **1. `numpy.array()`**

- `array()` 함수의 인자로는, 기본적으로 파이썬의 **리스트** 객체가 주로 사용됨
  - `[]`: 1차원 생성
  - `[[]]` : 2차원 생성

##### **1-1. 1차원 array 생성**

In [6]:
array1 = np.array([1, 2 ,3])
print(array1)
print(array1.shape)

[1 2 3]
(3,)


##### **1-2. 2차원 array 생성**
* 2차원 데이터부터 *로우* 와 *칼럼* 으로 구성

In [7]:
array2 = np.array([[1, 2, 3],
                  [4, 5, 6]])
print(array2)
print(array2.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


In [8]:
array3 = np.array([[1, 2, 3]])
print(array3)
print(array3.shape)

[[1 2 3]]
(1, 3)


#### **2. `numpy.arange()`**

* 파이썬의 `range()` 와 유사한 기능
* <start 값> ~ <stop 값 -1> 까지의 값을 순차적으로 ndarray의 데이터값으로 변환

In [4]:
array_arange = np.arange(10)
array_arange

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### **3. `numpy.zeros()`**

* 튜플 형태의 shape 값을 입력하면, 0으로 채워진 ndarray를 반환
* dtype 을 지정해주지 않으면, 기본으로 float64 형의 데이터로 ndarray를 채움 

In [7]:
# dtype 지정 X
array_zeros_default = np.zeros((2,3))
array_zeros_default

array([[0., 0., 0.],
       [0., 0., 0.]])

In [8]:
# dtype 지정 ('int32')
array_zeros_int = np.zeros((2,3), dtype='int32')
array_zeros_int

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

#### **4. `numpy.ones()`**

* 튜플 형태의 shape 값을 입력하면, 1으로 채워진 ndarray를 반환
* dtype 을 지정해주지 않으면, 기본으로 float64 형의 데이터로 ndarray를 채움

In [9]:
array_ones_int = np.ones((2,2), dtype='int32')
array_ones_int

array([[1, 1],
       [1, 1]], dtype=int32)

### **📍 데이터 확인**

#### **`.shape`**

#### **`.dtype`**

### **📍 데이터 타입/차원 변경**

#### **`.astype('')` - 타입 변경**

* `()` 인자로 원하는 타입을 지정
* 이렇게 데이터 타입을 변경하는 경우는, 대용량 데이터의 ndarray를 만들 때 많은 메모리가 사용되는데, 메모리를 절약할 때 보통 이용된다 (예: float->int 로 변경시 메모리가 절약된다.)
  * 대부분의 머신러닝 알고리즘은 데이터를 전체 로딩한 다음, 이를 기반으로 알고리즘을 적용하기 때문에 대용량의 데이터를 로딩할 때는 수행속도가 느려지거나, 메모리 부족으로 인한 오류가 왕왕 발생한다.

In [22]:
array_float = np.array([1.0,2.0,3.0])
array_int = array_float.astype('int32')
array_str = array_int.astype('str')

print('array_float: ', array_float, array_float.dtype)
print('array_int: ', array_int, array_int.dtype)
print('array_str: ', array_str, array_str.dtype)

array_float:  [1. 2. 3.] float64
array_int:  [1 2 3] int32
array_str:  ['1' '2' '3'] <U11


#### **`.reshape()` - 차원 변경**

**<개요>**
* ndarray를 특정 **차원** 및 **크기**로 변환
* `.reshape(row, column)`
* 지정된 사이즈로 변경이 불가능하다면, 오류를 반환함. (예를들어, 10개의 데이터를 3,3 즉 9개의 데이터프레임에 넣을 수 없음)

**<`.reshape(-1,*)` / `.reshape(*,-1)`>**
* -1을 인자로 사용하면, 호환되는 새로운 shape으로 변환 해 줌
* 위와 마찬가지로, 지정된 사이즈로 변경이 불가능하다면, 오류를 반환함.

**<가장 많이 활용되는 예: `.reshape(-1, 1)`>**
* 원본 ndarray가 어떤 형태라도 **2차원**이고, 여러개의 로우를 가지되, 반드시 **1개의 컬럼**을 가진 shape으로 변환
* 여러 개의 넘파이 ndarray는 stack이나 concat으로 결합할 때, 각각의 ndarray의 형태를 통일해 유용하게 사용됨

In [12]:
# 개요
array_origin = np.arange(10)
array_reshape = array_origin.reshape(2,5)

print('array_origin: ', array_origin)
print('array_reshape:\n', array_reshape)

array_origin:  [0 1 2 3 4 5 6 7 8 9]
array_reshape:
 [[0 1 2 3 4]
 [5 6 7 8 9]]


In [14]:
# .reshape(-1,*) / .reshape(*,-1)
array1 = array_origin.reshape(-1, 5)
array2 = array_origin.reshape(5, -1)

print('array1:\n', array1)
print('array2:\n', array2)

array1:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array2:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [17]:
# 가장 많이 활용되는 예: .reshape(-1, 1)

# 재료
array1d = np.arange(8) # 1차원 데이터
array3d = array1d.reshape(2,2,2) # 3차원 데이터

# 1차원 데이터 -> 2차원 데이터
array2d = array1d.reshape(-1, 1)

# 3차원 데이터 -> 2차원 데이터
array2d_1 = array3d.reshape(-1, 1)

print('array1d:\n', array1d)
print('array3d:\n', array3d)
print('array2d:\n', array2d)
print('array2d_1:\n', array2d_1)

array1d:
 [0 1 2 3 4 5 6 7]
array3d:
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array2d:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array2d_1:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


### **📍 특정 데이터 추출 | 인덱싱**

#### **단일 값 추출**

#### **슬라이싱 `[:]`**

#### **팬시 인덱싱 (Fancy Indexing)**

#### **불린(조건) 인덱싱 (Boolean Indexing)**

### **📍 행렬의 정렬**

### **📍 선형대수 연산 | 행렬 내적, 전치 행렬**