# numpy 기본 
- numpy 소개
- ndarray(배열객체) 생성하기
- numpy random 함수 예제
- ndarray 의 데이터 타입
- ndarray 주요 속성 및 메소드
- indexing 과 slicing
- ndarray 값 할당, 삭제, 추가
- 정렬, 필터링
- ndarray 연산
- numpy.where()
unsqueeze()

# numpy

NumPy는 파이썬에서 `수치 계산`을 위한 핵심 라이브러리로서, `효율`적인 `다차원 배열`과 배열 기반의 수치 계산 기능을 제공합니다. NumPy는 `"Numerical Python"`의 줄임말로 알려져 있으며, 다차원 배열을 다루기 위한 강력한 함수와 도구를 제공하여 데이터 과학, 공학, 인공지능, 머신러닝 등 다양한 분야에서 매우 중요한 역할을 합니다.

NumPy를 배워야 하는 이유는 다음과 같습니다:

- `빠른 계산`: NumPy는 `C`로 구현된 다차원 배열을 사용하여 계산을 빠르게 수행합니다. 파이썬의 기본 리스트보다 훨씬 효율적으로 데이터를 다룰 수 있으며, `벡터화 연산`을 사용하여 `루프 없이` 배열에 대한 계산을 수행하여 빠른 실행 속도를 제공합니다.

- `다차원 배열`: NumPy의 다차원 배열은 `파이썬 리스트보다 더 유연하고 강력한 기능`을 제공합니다. 다차원 배열을 사용하여 `행렬 연산`, `통계 계산`, `선형 대수` 등 다양한 수치 계산을 쉽게 처리할 수 있습니다.

- `데이터 분석과 과학`: `데이터 분석`, `과학`, `머신러닝`, `딥러닝` 등 다양한 분야에서 NumPy는 기본적인 라이브러리로 자리 잡고 있습니다. NumPy를 배움으로써 데이터를 다루고 처리하는데 매우 유용한 기능을 습득할 수 있습니다.

- `데이터 구조의 통일성`: NumPy의 다차원 배열은 데이터 구조의 통일성을 제공합니다. `모든 원소가 동일한 데이터 타입`을 갖는다는 특성 때문에 데이터를 효율적으로 저장하고 다룰 수 있으며, 데이터의 일관성을 유지할 수 있습니다.

- `다른 라이브러리와 통합`: NumPy는 다른 파이썬 라이브러리와의 통합성이 뛰어나며, `SciPy`, `Matplotlib`, `Pandas` 등과 함께 사용하면 데이터 분석, 시각화, 과학 기술 계산 등을 더욱 효율적으로 수행할 수 있습니다.

- `머신러닝과 딥러닝`: NumPy는 머신러닝과 딥러닝에서 자주 사용되는 라이브러리로서, 다양한 모델의 `데이터 전처리`와 학습을 위한 기능을 제공합니다. 따라서 데이터 과학과 머신러닝 분야에 관심이 있다면 NumPy를 배워두는 것이 유용합니다.



NumPy를 사용하기 위해서는 먼저 NumPy를 설치해야 합니다. 일반적으로 아래와 같은 방법으로 설치할 수 있습니다:

```bash
pip install numpy
```

In [None]:
#!pip --trusted-host pypi.python.org --trusted-host download.pytorch.org --trusted-host pypi.org --trusted-host files.pythonhosted.org --proxy http://10.241.3.7:8080/ install pandas

## ndarray(배열객체) 생성하기

In [54]:
"""
리스트(list)로부터 ndarray 생성:
"""
import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3, 4, 5])

# 2차원 배열 생성
arr2 = np.array([[1, 2, 3], [4, 5, 6]])



In [55]:
arr1

array([1, 2, 3, 4, 5])

In [56]:
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [57]:
type(arr2)

numpy.ndarray

In [58]:
arr2.shape

(2, 3)

In [59]:
arr2.size

6

In [60]:
len(arr2)

2

In [61]:
len(arr2[0])

3

In [62]:
arr2.ndim

2

In [63]:
"""
범위 지정으로 ndarray 생성:
"""
import numpy as np

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [66]:
np.arange(9).reshape(3,3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [64]:
"""
모든 원소가 0 또는 1인 ndarray 생성:
"""
import numpy as np

np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [65]:
np.ones((3,3,))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [67]:
"""
특정 범위 내에서 균등 간격으로 원소를 생성하는 ndarray:
"""
import numpy as np

np.linspace(0,1,7)

array([0.        , 0.16666667, 0.33333333, 0.5       , 0.66666667,
       0.83333333, 1.        ])

In [68]:
"""
랜덤한 값을 갖는 ndarray 생성:
"""
import numpy as np

np.random.rand(3,3)

array([[0.93470081, 0.71358458, 0.88546472],
       [0.08163613, 0.02887823, 0.72328472],
       [0.16541319, 0.49368657, 0.32791986]])

## numpy random 함수 예제

In [70]:
"""
random.rand() 함수를 사용하여 0과 1 사이의 랜덤한 값으로 배열 생성:
"""
import numpy as np

np.random.rand(10)

array([0.36947924, 0.40416336, 0.56324044, 0.03760148, 0.687814  ,
       0.38989957, 0.00363169, 0.78141484, 0.96837813, 0.75483735])

In [71]:
np.random.rand(2,5)

array([[0.48192054, 0.08611826, 0.57969641, 0.92137982, 0.46909849],
       [0.40637406, 0.64915944, 0.67250031, 0.1940048 , 0.15321991]])

In [72]:
np.random.rand(2,5,2)

array([[[0.68678225, 0.78124059],
        [0.03352903, 0.35861483],
        [0.56669261, 0.09426528],
        [0.96983541, 0.00449615],
        [0.06217542, 0.56935708]],

       [[0.99033665, 0.28242201],
        [0.33841652, 0.92165016],
        [0.95431136, 0.36415197],
        [0.47476451, 0.56408654],
        [0.23012164, 0.36957757]]])

In [73]:
"""
random.randint(low, high, size) 함수를 사용하여 정수형 랜덤 배열 생성:
"""

import numpy as np
np.random.randint(1,10,11)

array([2, 5, 7, 1, 6, 5, 5, 1, 3, 9, 5])

In [74]:
"""
random.randn() 함수를 사용하여 평균이 0이고 표준 편차가 1인 랜덤 배열 생성:
"""

import numpy as np

np.random.randn(2,2,2)

array([[[-1.43475365, -2.14324535],
        [-1.00200694,  0.4804698 ]],

       [[-0.60788674,  0.25139158],
        [ 0.34089201,  0.31344771]]])

In [81]:
"""
random.choice() 함수를 사용하여 주어진 배열에서 랜덤한 값 선택:
"""

import numpy as np

a = np.array([10,20,30])
np.random.choice(a, 4)

array([10, 20, 20, 10])

## ndarray 의 데이터 타입

NumPy의 ndarray는 업캐스팅과 object dtype을 활용하여 데이터 타입을 혼합하여 사용할 수 있습니다. 하지만 혼합된 데이터 타입을 사용하면 일부 NumPy의 기능이 제한될 수 있으며, 성능 면에서도 일반적인 ndarray보다 느릴 수 있으므로, 혼합된 데이터 타입을 사용하기 전에 장단점을 고려하여 사용해야 합니다. 일반적으로 **데이터 타입이 동일한** ndarray를 사용하는 것이 가장 효율적입니다.

In [82]:
"""
정수형 데이터 타입:
"""
import numpy as np

a = np.array([1,2,3])

In [83]:
a.dtype

dtype('int32')

In [84]:
a = np.array([1,2,3], dtype=np.int64)

In [85]:
a.dtype

dtype('int64')

In [86]:
"""
실수형 데이터 타입:
"""
import numpy as np

f = np.array([1,2,3.0])

In [87]:
f.dtype

dtype('float64')

In [88]:
f = np.array([1,2,3.0], dtype=np.float32)

In [89]:
f.dtype

dtype('float32')

In [92]:
"""
문자열 데이터 타입:
"""
import numpy as np

a = np.array(["a", "b"], dtype="<U4")


In [93]:
a.dtype

dtype('<U4')

In [94]:
"""
불리언 데이터 타입:
"""
import numpy as np

a = np.array([True, False])
a.dtype

dtype('bool')

In [99]:
"""
복소수형 데이터 타입:
"""
import numpy as np
a = np.array([1+4j, 2+4j])

In [100]:
a.dtype

dtype('complex128')

In [96]:
a = 1 + 4j

In [97]:
type(a)

complex

## 타입변경

NumPy의 ndarray의 데이터 타입을 변경하는 방법에는 두 가지가 있습니다.  
하나는 astype() 메서드를 사용하는 방법이고,  
다른 하나는 생성 시 dtype 파라미터를 사용하여 타입을 지정하는 방법입니다

In [101]:
a = 1.0

In [102]:
type(a)

float

In [104]:
b = int(a)

In [105]:
type(b), b

(int, 1)

In [106]:
"""
astype() 메서드를 사용하여 데이터 타입 변경:
"""
import numpy as np
a = np.array([1,2,3])
a.dtype

dtype('int32')

In [108]:
b = a.astype(np.float32)

In [109]:
b.dtype

dtype('float32')

In [111]:
a

array([1, 2, 3])

In [110]:
b

array([1., 2., 3.], dtype=float32)

>데이터 타입 변경은 원본 데이터를 변환하여 새로운 ndarray를 생성하는 것이므로, 원본 배열과 새로운 배열은 서로 다른 객체입니다.

In [112]:
a is b

False

In [113]:
a == b

array([ True,  True,  True])

In [None]:
"""
생성 시 dtype 파라미터를 사용하여 데이터 타입 변경:
"""
import numpy as np



## ndarray 주요 속성 및 메소드

|이름|설명|
|--|--|
|shape|배열의 차원을 튜플로 반환|
|dtype|배열의 데이터 타입을 반환|
|size|배열의 총 원소 개수를 반환|
|reshape()|배열의 형태를 변경|
|transpose()| 배열의 전치행렬을 반환|
|max(),min(),sum(),count(),mean()||

### 속성

In [114]:
"""
shape: 배열의 차원을 튜플로 반환합니다. 각 차원별 원소의 개수를 나타냅니다.
"""

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.shape)  # 출력: (2, 3)

(2, 3)


In [115]:
"""
dtype: 배열의 데이터 타입을 반환합니다.
"""

import numpy as np

arr = np.array([1, 2, 3])
print(arr.dtype)  # 출력: int64

int32


In [116]:
"""
size: 배열의 총 원소 개수를 반환합니다.
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.size)  # 출력: 6

6


### 메소드

In [117]:
"""
reshape(): 배열의 형태를 변경합니다.
"""
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])
reshaped_arr = arr.reshape(2, 3)
print(reshaped_arr)
# 출력:
# [[1 2 3]
#  [4 5 6]]


[[1 2 3]
 [4 5 6]]


In [None]:
"""
reshape() 에서 -1 은 배열의 차원을 자동으로 계산해주는 특별한 값입니다.
해당 차원의 크기는 남은 차원의 크기와 데이터의 총 개수를 기반으로 자동으로 계산됩니다.
"""
arr = np.arange(0,16)
arr

In [118]:
a = np.arange(16)

In [119]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [120]:
a.reshape(4,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [121]:
a.reshape(4, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [125]:
a.reshape(4, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
import numpy as np

In [128]:
"""
transpose(): 배열의 전치행렬을 반환합니다.
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
arr


array([[1, 2, 3],
       [4, 5, 6]])

In [129]:
arr.shape

(2, 3)

In [130]:
arr.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [131]:
arr.transpose().shape

(3, 2)

In [146]:
"""
- max()
- min()
- sum()
- mean()
"""
import numpy as np

arr = np.array([[1, 2, 3, 5, 6]])

In [147]:
np.max(arr)

6

In [148]:
arr.max()

6

In [149]:
arr.min()

1

In [150]:
arr.sum()

17

In [151]:
arr.mean()

3.4

# indexing 과 slicing

In [153]:
"""
인덱싱(indexing)
"""
import numpy as np

# 1차원 배열 인덱싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[0])  # 출력: 1 (첫 번째 원소)
print(arr1d[3])  # 출력: 4 (네 번째 원소)


1
4


In [154]:
# 2차원 배열 인덱싱
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)
print(arr2d[0, 1])  # 출력: 2 (첫 번째 행의 두 번째 열)
print(arr2d[1, 2])  # 출력: 6 (두 번째 행의 세 번째 열)

[[1 2 3]
 [4 5 6]]
2
6


In [155]:
"""
슬라이싱(slicing)
"""
import numpy as np

# 1차원 배열 슬라이싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[1:4])  # 출력: [2 3 4] (인덱스 1부터 3까지의 원소)

[2 3 4]


In [156]:
# 2차원 배열 슬라이싱
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)


[[1 2 3]
 [4 5 6]]


In [157]:
print(arr2d[:, 1:3])
# 출력:
# [[2 3]
#  [5 6]] (모든 행의 두 번째와 세 번째 열)

print(arr2d[0, :])  # 출력: [1 2 3] (첫 번째 행의 모든 열)


[[2 3]
 [5 6]]
[1 2 3]


In [None]:
print(arr2d[1, 1:])  # 출력: [5 6] (두 번째 행의 두 번째와 세 번째 열)

## ndarray 값 할당, 삭제, 추가

In [158]:
"""
값을 할당하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])



In [159]:
# 인덱스를 이용하여 값을 할당

arr[2] = 10
arr



array([ 1,  2, 10,  4,  5])

In [160]:

# 슬라이싱을 이용하여 값 할당
arr[1:4] = 100


In [161]:
arr

array([  1, 100, 100, 100,   5])

In [162]:
"""
값을 삭제하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])


In [163]:
# 인덱스를 이용하여 값 삭제
np.delete(arr,2)

array([1, 2, 4, 5])

In [164]:
arr

array([1, 2, 3, 4, 5])

In [165]:
# 슬라이싱을 이용하여 값 삭제
np.delete(arr, slice(1,4))

array([1, 5])

In [166]:
"""
값을 추가하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])



In [167]:
np.insert(arr, 2, 10)

array([ 1,  2, 10,  3,  4,  5])

In [168]:
arr

array([1, 2, 3, 4, 5])

In [None]:
# 인덱스를 이용하여 값 추가


## 정렬, 필터링

In [172]:
"""
배열 정렬 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([3, 1, 4, 2, 5])



In [173]:
arr

array([3, 1, 4, 2, 5])

In [175]:
arr[::-1]

array([5, 2, 4, 1, 3])

In [170]:
# 오름차순으로 배열 정렬

np.sort(arr)


array([1, 2, 3, 4, 5])

In [171]:
np.sort(arr)[::-1]

array([5, 4, 3, 2, 1])

In [None]:
# 내림차순으로 배열 정렬



In [176]:
"""
배열 필터링 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])






In [180]:
arr>2

array([False, False,  True,  True,  True])

In [181]:
arr[[False, False,  True,  True,  True]]

array([3, 4, 5])

In [177]:
arr[arr>2]

array([3, 4, 5])

In [178]:
# 조건을 만족하는 원소 필터링
filtered_arr = arr[arr > 2]
print(filtered_arr)
# 출력: [3 4 5]

[3 4 5]


In [179]:
arr2d % 2 == 0

array([[False,  True, False],
       [ True, False,  True]])

# view() and copy()

- 넘파이에서는 배열을 `인덱싱`/`슬라이싱` 한 후에 그 결과로 나온 배열은 원본 배열의 `뷰(View)`입니다. (성능Performance과 효율성Efficiency을 위해서)
- 뷰를 새로운 값으로 수정, 변경하게되면 원본 배열도 변경이 됩니다.
- 넘파이에서 원본 배열의 변경 없이 인덱싱/슬라이싱 한 결과 배열을 복사하고 싶다면 `copy()` 메서드를 사용합니다.

In [182]:
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])


In [183]:
b=a

In [184]:
b is a

True

In [185]:
id(b), id(a)

(2408578692944, 2408578692944)

In [186]:
a[0,0] = -1

In [187]:
a, b

(array([[-1,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]),
 array([[-1,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]))

In [188]:
# view 
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])



In [189]:
b = a.view()

In [190]:
a == b

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [191]:
a is b

False

In [192]:
a[0,0] = -1

In [193]:
a,b

(array([[-1,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]),
 array([[-1,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]))

In [194]:
# copy 
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])

b = a.copy()

In [195]:
a == b

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [196]:
a is b

False

In [197]:
a[0,0] = -1

In [198]:
a,b

(array([[-1,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]),
 array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]))

## 배열 연산

In [199]:
"""
덧셈연산
"""

import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

# 배열 간 덧셈 연산



In [200]:
arr1 + arr2

array([5, 7, 9])

## numpy.where()
NumPy의 numpy.where() 함수는 조건에 따라 배열의 값을 다르게 할당하는 데 사용됩니다. 이 함수는 원하는 조건에 따라 배열의 원소를 대체하는데 유용합니다.

```python
numpy.where(condition, x, y)
```

- `condition`: 조건을 나타내는 불리언 배열이거나 조건식입니다. 만족하는 경우에만 값을 변경합니다.
- `x`: condition이 True인 경우의 값이 대체됩니다.
- `y`: condition이 False인 경우의 값이 대체됩니다.

`x`와 `y`는 `배열` 또는 `스칼라`값이 될 수 있습니다.  
만약 x와 y가 배열인 경우, 두 배열은 같은 크기 또는 브로드캐스팅 규칙을 만족해야 합니다.

In [201]:
"""
조건에 따라 배열 값을 변경하는 예제 1
"""

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
condition = arr>3
np.where(condition, arr, 0)

array([0, 0, 0, 4, 5])

In [202]:
"""
조건에 따라 배열 값을 변경하는 예제 2
"""

import numpy as np

arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([10, 20, 30, 40, 50])
np.where(arr1>3, arr1, arr2)

array([10, 20, 30,  4,  5])

## squeeze()

In [206]:
"""
squeeze() 함수:
squeeze() 함수는 배열의 차원 중 사이즈가 1인 차원을 제거하는데 사용됩니다. 
만약 배열이 이미 1차원 이상이고, 그 중 사이즈가 1인 차원이 있다면 해당 차원을 제거하여 배열을 더 축소시킵니다.
"""

import numpy as np

# 1차원 배열 생성
arr = np.array([[[1, 2, 3]]])

arr.shape

(1, 1, 3)

In [204]:
arr

array([[[1, 2, 3]]])

In [207]:
# 사이즈가 1인 차원을 제거
np.squeeze(arr).shape

(3,)