# numpy 기본 
- numpy 소개
- ndarray(배열객체) 생성하기
- numpy random 함수 예제
- ndarray 의 데이터 타입
- ndarray 주요 속성 및 메소드
- indexing 과 slicing
- ndarray 값 할당, 삭제, 추가
- 정렬, 필터링
- ndarray 연산
- numpy.where()
- unsqueeze()

# numpy

NumPy는 파이썬에서 `수치 계산`을 위한 핵심 라이브러리로서, `효율`적인 `다차원 배열`과 배열 기반의 수치 계산 기능을 제공합니다. NumPy는 `"Numerical Python"`의 줄임말로 알려져 있으며, 다차원 배열을 다루기 위한 강력한 함수와 도구를 제공하여 데이터 과학, 공학, 인공지능, 머신러닝 등 다양한 분야에서 매우 중요한 역할을 합니다.

NumPy를 배워야 하는 이유는 다음과 같습니다:

- `빠른 계산`: NumPy는 `C`로 구현된 다차원 배열을 사용하여 계산을 빠르게 수행합니다. 파이썬의 기본 리스트보다 훨씬 효율적으로 데이터를 다룰 수 있으며, `벡터화 연산`을 사용하여 `루프 없이` 배열에 대한 계산을 수행하여 빠른 실행 속도를 제공합니다.

- `다차원 배열`: NumPy의 다차원 배열은 `파이썬 리스트보다 더 유연하고 강력한 기능`을 제공합니다. 다차원 배열을 사용하여 `행렬 연산`, `통계 계산`, `선형 대수` 등 다양한 수치 계산을 쉽게 처리할 수 있습니다.

- `데이터 분석과 과학`: `데이터 분석`, `과학`, `머신러닝`, `딥러닝` 등 다양한 분야에서 NumPy는 기본적인 라이브러리로 자리 잡고 있습니다. NumPy를 배움으로써 데이터를 다루고 처리하는데 매우 유용한 기능을 습득할 수 있습니다.

- `데이터 구조의 통일성`: NumPy의 다차원 배열은 데이터 구조의 통일성을 제공합니다. `모든 원소가 동일한 데이터 타입`을 갖는다는 특성 때문에 데이터를 효율적으로 저장하고 다룰 수 있으며, 데이터의 일관성을 유지할 수 있습니다.

- `다른 라이브러리와 통합`: NumPy는 다른 파이썬 라이브러리와의 통합성이 뛰어나며, `SciPy`, `Matplotlib`, `Pandas` 등과 함께 사용하면 데이터 분석, 시각화, 과학 기술 계산 등을 더욱 효율적으로 수행할 수 있습니다.

- `머신러닝과 딥러닝`: NumPy는 머신러닝과 딥러닝에서 자주 사용되는 라이브러리로서, 다양한 모델의 `데이터 전처리`와 학습을 위한 기능을 제공합니다. 따라서 데이터 과학과 머신러닝 분야에 관심이 있다면 NumPy를 배워두는 것이 유용합니다.



NumPy를 사용하기 위해서는 먼저 NumPy를 설치해야 합니다. 일반적으로 아래와 같은 방법으로 설치할 수 있습니다:

```bash
pip install numpy
```

In [None]:
#!pip --trusted-host pypi.python.org --trusted-host download.pytorch.org --trusted-host pypi.org --trusted-host files.pythonhosted.org --proxy http://10.241.3.7:8080/ install pandas

## ndarray(배열객체) 생성하기

In [None]:
"""
리스트(list)로부터 ndarray 생성:
"""
import numpy as np

# 1차원 배열 생성
a = np.array([1, 2, 3, 4, 5])
print(type(a), a, sep="\n")

In [None]:
# 2차원 배열 생성
a = np.array([[1, 2, 3], [4, 5, 6]])
print(type(a), a, sep="\n")

In [None]:
a.shape

In [None]:
a.size

In [None]:
len(a)

In [None]:
len(a[0])

In [None]:
a.ndim

In [None]:
"""
범위 지정으로 ndarray 생성:
"""
import numpy as np

np.arange(10)

In [None]:
np.arange(9).reshape(3,3)

In [None]:
np.arange(9).reshape(3,2) # error - ValueError: cannot reshape array of size 9 into shape (3,2)

In [None]:
np.arange(0.1, 0.9, 0.03)

In [None]:
"""
모든 원소가 0 또는 1인 ndarray 생성:
"""
import numpy as np

np.zeros((3,3))

In [None]:
np.ones((3,3,))

In [None]:
"""
특정 범위 내에서 균등 간격으로 원소를 생성하는 ndarray:
"""
import numpy as np

np.linspace(0,1,5)

In [None]:
np.linspace(0,1,40)

In [None]:
"""
랜덤한 값을 갖는 ndarray 생성:
"""
import numpy as np

np.random.rand(3,3)

In [None]:
"""
random.rand() 함수를 사용하여 0과 1 사이의 랜덤한 값으로 배열 생성:
"""
import numpy as np

np.random.rand(10)

In [None]:
np.random.rand(2,3,4)

In [None]:
"""
random.randint(low, high, size) 함수를 사용하여 정수형 랜덤 배열 생성:
"""

import numpy as np
np.random.randint(1,5,12)

In [None]:
a = np.random.rand(10000)*100
b = np.random.randint(1,100,10000)

In [None]:
from matplotlib import pyplot as plt

In [None]:
a = np.random.rand(1000)*100
b = np.random.randint(1,100,1000)
plt.hist((a,b), bins=10)

In [None]:
"""
random.randn() 함수를 사용하여 평균이 0이고 표준 편차가 1인 랜덤 배열 생성:
"""

import numpy as np

np.random.randn(2,2,2)

In [None]:
a = np.random.randn(1000)+5
b = np.random.normal(10,3,1000)
plt.hist((a,b), bins=30, )

In [None]:
"""
random.choice() 함수를 사용하여 주어진 배열에서 랜덤한 값 선택:
"""

import numpy as np

a = np.array([10,20,30])
np.random.choice(a, 4)

## ndarray 의 데이터 타입

|**데이터형 dtype**|**코드**|**설명**|
|--|--|--|
|int8|i1|부호 있는 8비트 정수형|
|int16|i2|부호 있는 16비트 정수형|
|int32|i4|부호 있는 32비트 정수형
|int64|i8|부호 있는 64비트 정수형|
|unit8|u1|부호 없는 8비트 정수형|
|unit16|u2|부호 없는 16비트 정수형|
|unit32|u4|부호 없는 32비트 정수형|
|unit64|u8|부호 없는 64비트 정수형|
|float16|f2|실수형 ; 반 정밀도 부동소수점형 (부호 1비트, 지수 5비트, 가수 10비트)|
|float32|f4|실수형; 단 정밀도 부동소수점형 (부호 1비트, 지수 8비트, 가수 23비트)|
|float64|f8|실수형; 배 정밀도 부동소수점형 (부호 1비트, 지수 11비트, 가수 54비트)|
|float128|f16|실수형; 네배 정밀도 부동소수점형 (부호 1비트, 지수 15비트, 가수 112비트)|
|complex64|c8|복소수 (실수부, 허수부 각각 float32)|
|complex128|c16|복소수 (실수부, 허수부 각각 float64)|
|complex256|c32|복소수 (실수부, 허수부 각각 float128)|
|bool|?|불형 (true 또는 false)|
|unicode|U|unicode문자열|
|object|0|Python 오브젝트형|

In [None]:
"""
정수형 데이터 타입:
"""
import numpy as np

a = np.array([1,2,3])

In [None]:
a.dtype

In [None]:
a = np.array([1,2,3], dtype=np.int64)

In [None]:
a.dtype

In [None]:
"""
실수형 데이터 타입:
"""
import numpy as np

f = np.array([1,2,3.0])

In [None]:
f.dtype

In [None]:
f = np.array([1,2,3.0], dtype=np.float32)

In [None]:
f.dtype

In [None]:
"""
문자열 데이터 타입:
"""
import numpy as np

a = np.array(["a", "b"], dtype="<U4")


In [None]:
a.dtype

In [None]:
"""
불리언 데이터 타입:
"""
import numpy as np

a = np.array([True, False])
a.dtype

In [None]:
"""
복소수형 데이터 타입:
"""
import numpy as np
a = np.array([1+4j, 2+4j])

In [None]:
a.dtype

In [None]:
np.array([1,2.0,True,'3', 1+2j])

## 타입변경

NumPy의 ndarray의 데이터 타입을 변경하기 위해서는  
astype() 메서드를 사용합니다.

In [None]:
"""
astype() 메서드를 사용하여 데이터 타입 변경:
"""
import numpy as np
a = np.array([1,2,3])
a.dtype

In [None]:
b = a.astype(np.float32)
b.dtype

In [None]:
a

In [None]:
b

>데이터 타입 변경은 원본 데이터를 변환하여 새로운 ndarray를 생성하는 것이므로, 원본 배열과 새로운 배열은 서로 다른 객체입니다.

In [None]:
a is b

In [None]:
a == b

## ndarray 주요 속성 및 메소드

|이름|설명|
|--|--|
|shape|배열의 차원을 튜플로 반환|
|dtype|배열의 데이터 타입을 반환|
|size|배열의 총 원소 개수를 반환|
|reshape()|배열의 형태를 변경|
|transpose()| 배열의 전치행렬을 반환|
|max(),min(),sum(),count(),mean()||

### 속성

In [None]:
"""
shape: 배열의 차원을 튜플로 반환합니다. 각 차원별 원소의 개수를 나타냅니다.
"""

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)
arr.shape

In [None]:
"""
dtype: 배열의 데이터 타입을 반환합니다.
"""

import numpy as np

arr = np.array([1, 2, 3])
arr.dtype

In [None]:
"""
size: 배열의 총 원소 개수를 반환합니다.
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.size)  # 출력: 6

### 메소드

In [None]:
"""
reshape(): 배열의 형태를 변경합니다.
"""
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])
reshaped_arr = arr.reshape(2, 3)
print(reshaped_arr)
# 출력:
# [[1 2 3]
#  [4 5 6]]


In [None]:
"""
reshape() 에서 -1 은 배열의 차원을 자동으로 계산해주는 특별한 값입니다.
해당 차원의 크기는 남은 차원의 크기와 데이터의 총 개수를 기반으로 자동으로 계산됩니다.
"""
a = np.arange(0,16)
a

In [None]:
a.reshape(4,4)

In [None]:
a.reshape(4, -1)

In [None]:
a.reshape(-1, 4)

In [None]:
"""
transpose(): 배열의 전치행렬을 반환합니다.
"""
import numpy as np

arr = np.arange(1,7).reshape(2,3)
arr


In [None]:
arr.shape

In [None]:
arr.transpose()

In [None]:
arr.transpose().shape

In [None]:
arr

In [None]:
"""
- max()
- min()
- sum()
- mean()
"""
import numpy as np

arr = np.arange(1,11).reshape(2,5)
arr

In [None]:
np.max(arr)

In [None]:
arr.max()

In [None]:
arr.min()

In [None]:
arr.sum()

In [None]:
arr.mean()

# indexing 과 slicing

In [None]:
"""
인덱싱(indexing)
"""
import numpy as np

# 1차원 배열 인덱싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[0])  # 출력: 1 (첫 번째 원소)
print(arr1d[3])  # 출력: 4 (네 번째 원소)


In [None]:
# 2차원 배열 인덱싱
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)
print(arr2d[0, 1])  # 출력: 2 (첫 번째 행의 두 번째 열)
print(arr2d[1, 2])  # 출력: 6 (두 번째 행의 세 번째 열)

In [None]:
arr2d[0][1]

In [None]:
"""
슬라이싱(slicing)
"""
import numpy as np

# 1차원 배열 슬라이싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[1:4])  # 출력: [2 3 4] (인덱스 1부터 3까지의 원소)

In [None]:
a = np.arange(5)
b = a[1:3]
print(a,b,sep="\n")

In [None]:
a[1] = 999
print(a,b, sep="\n")

In [None]:
a = list(range(5))
b = a[1:3]
print(a,b,sep="\n")

In [None]:
a[1] = 999
print(a,b,sep="\n")

In [None]:
# 2차원 배열 슬라이싱
arr2d = np.arange(1,7).reshape(2,3)
print(arr2d)

In [None]:
print(arr2d[:, 1:3])
# 출력:
# [[2 3]
#  [5 6]] (모든 행의 두 번째와 세 번째 열)


## ndarray 값 할당, 삭제, 추가

In [None]:
"""
값을 할당하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.arange(5)+1
arr

In [None]:
# 인덱스를 이용하여 값을 할당

arr[2] = 10
arr

In [None]:
# 슬라이싱을 이용하여 값 할당
arr[1:4] = 100
arr

In [None]:
"""
값을 삭제하는 예제:
"""
import numpy as np

# 1차원 배열 생성
a = np.array([1, 2, 3, 4, 5])

# 인덱스를 이용하여 값 삭제
b = np.delete(a,2)
print(a,b,sep="\n")

In [None]:
# 슬라이싱을 이용하여 값 삭제
a = np.array([1, 2, 3, 4, 5])
b = np.delete(arr, slice(1,4))
print(a, b, sep="\n")

In [None]:
# 파이썬 기본 배열에서의 삭제
a = [1,2,3,4,5]
del a[2]
print(a)

In [None]:
"""
값을 추가하는 예제:
"""
import numpy as np

# 1차원 배열 생성
a = np.array([1, 2, 3, 4, 5])
b = np.insert(a, 2, 0)
print(a,b,sep="\n")

## 정렬, 필터링

In [None]:
"""
배열 정렬 예제:
"""
import numpy as np

# 1차원 배열 생성
a = np.array([3, 1, 4, 2, 5])

# 오름차순으로 배열 정렬
b = np.sort(a)

print(a,b,sep="\n")

In [None]:
c = np.sort(a)[::-1]
c

In [None]:
"""
배열 필터링 예제:
"""
import numpy as np

# 1차원 배열 생성
a = np.array([1, 2, 3, 4, 5])
print(a, a[a>2], sep="\n")

In [None]:
a > 2

In [None]:
a[[False, False,  True,  True,  True]]

In [None]:
a[a>2]

In [None]:
b = a[a>2]
print(a, b, sep="\n")

In [None]:
a[4] = -999
print(a, b, sep="\n")

# view() and copy()

- 넘파이에서는 배열을 `인덱싱`/`슬라이싱` 한 후에 그 결과로 나온 배열은 원본 배열의 `뷰(View)`입니다. (성능Performance과 효율성Efficiency을 위해서)
- 뷰를 새로운 값으로 수정, 변경하게되면 원본 배열도 변경이 됩니다.
- 넘파이에서 원본 배열의 변경 없이 인덱싱/슬라이싱 한 결과 배열을 복사하고 싶다면 `copy()` 메서드를 사용합니다.

In [None]:
a = np.array([ 0,  1,  2,  3])
b = a
v = a.view()
c = a.copy()

In [None]:
print(f"{'origin':10s}{id(a)}\n{'assign: ':10s}{id(b)}\n{'view: ':10s}{id(v)}\n{'copy: ':10s}{id(c)}")

In [None]:
print(a is b, a is v, a is c, sep="\n")

In [None]:
a[0] = -999

In [None]:
print("origin: ", a)
print("assign: ", b)
print("view:   ",v)
print("copy:   ",c)

## 배열 연산

In [None]:
"""
덧셈연산
"""

import numpy as np

# 1차원 배열 생성
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])

# 배열 간 덧셈 연산
print(a1, a2, a1+a2, sep="\n")


In [None]:
import numpy as np

# 1차원 배열 생성
a1 = np.array([1, 2, 3, 4])
a2 = np.array([5, 6, 7])

# 배열 간 덧셈 연산
print(a1, a2, a1+a2, sep="\n")  # error - ValueError: operands could not be broadcast together with shapes (4,) (3,) 


## numpy.where()
NumPy의 numpy.where() 함수는 조건에 따라 배열의 값을 다르게 할당하는 데 사용됩니다.   
이 함수는 원하는 조건에 따라 배열의 원소를 대체하는데 유용합니다.

```python
a = numpy.where(condition, x, y)
```

```java
// 삼항연사자
a = (condition)? x: y
```

- `condition`: 조건을 나타내는 불리언 배열이거나 조건식입니다. 만족하는 경우에만 값을 변경합니다.
- `x`: condition이 True인 경우의 값이 대체됩니다.
- `y`: condition이 False인 경우의 값이 대체됩니다.

`x`와 `y`는 `배열` 또는 `스칼라`값이 될 수 있습니다.  
만약 x와 y가 배열인 경우, 두 배열은 같은 크기 또는 브로드캐스팅 규칙을 만족해야 합니다.

In [None]:
"""
조건에 따라 배열 값을 변경하는 예제 1
"""

import numpy as np

a = np.array([1, 2, 3, 4, 5])
np.where(a>3, a, 0)

In [None]:
"""
조건에 따라 배열 값을 변경하는 예제 2
"""

import numpy as np

a = np.array([1, 2, 3, 4, 5])
b1 = np.array([10, 20, 30, 40, 50])
b2 = np.array([-10, -20, -30, -40, -50])
np.where(a>3, b1, b2)

## squeeze()

In [None]:
"""
squeeze() 함수:
squeeze() 함수는 배열의 차원 중 사이즈가 1인 차원을 제거하는데 사용됩니다. 
만약 배열이 이미 1차원 이상이고, 그 중 사이즈가 1인 차원이 있다면 해당 차원을 제거하여 배열을 더 축소시킵니다.
"""

import numpy as np

# 1차원 배열 생성
a = np.array([[[1, 2, 3]]])
print(a.shape, a, sep="\n")

In [None]:
# 사이즈가 1인 차원을 제거
b = np.squeeze(a)
print(b.shape, b, sep="\n")

In [None]:
a = np.array([[[[1],[2], [3]]]])
b = np.squeeze(a)

print(a.shape, a, sep="\n")
print(b.shape, b, sep="\n")