# numpy

NumPy는 파이썬에서 수치 계산을 위한 핵심 라이브러리로서, 효율적인 다차원 배열과 배열 기반의 수치 계산 기능을 제공합니다. NumPy는 "Numerical Python"의 줄임말로 알려져 있으며, 다차원 배열을 다루기 위한 강력한 함수와 도구를 제공하여 데이터 과학, 공학, 인공지능, 머신러닝 등 다양한 분야에서 매우 중요한 역할을 합니다.

NumPy를 배워야 하는 이유는 다음과 같습니다:

빠른 계산:
NumPy는 C로 구현된 다차원 배열을 사용하여 계산을 빠르게 수행합니다. 파이썬의 기본 리스트보다 훨씬 효율적으로 데이터를 다룰 수 있으며, 벡터화 연산을 사용하여 루프 없이 배열에 대한 계산을 수행하여 빠른 실행 속도를 제공합니다.

다차원 배열:
NumPy의 다차원 배열은 파이썬 리스트보다 더 유연하고 강력한 기능을 제공합니다. 다차원 배열을 사용하여 행렬 연산, 통계 계산, 선형 대수 등 다양한 수치 계산을 쉽게 처리할 수 있습니다.

데이터 분석과 과학:
데이터 분석, 과학, 머신러닝, 딥러닝 등 다양한 분야에서 NumPy는 기본적인 라이브러리로 자리 잡고 있습니다. NumPy를 배움으로써 데이터를 다루고 처리하는데 매우 유용한 기능을 습득할 수 있습니다.

데이터 구조의 통일성:
NumPy의 다차원 배열은 데이터 구조의 통일성을 제공합니다. 모든 원소가 동일한 데이터 타입을 갖는다는 특성 때문에 데이터를 효율적으로 저장하고 다룰 수 있으며, 데이터의 일관성을 유지할 수 있습니다.

다른 라이브러리와 통합:
NumPy는 다른 파이썬 라이브러리와의 통합성이 뛰어나며, SciPy, Matplotlib, Pandas 등과 함께 사용하면 데이터 분석, 시각화, 과학 기술 계산 등을 더욱 효율적으로 수행할 수 있습니다.

머신러닝과 딥러닝:
NumPy는 머신러닝과 딥러닝에서 자주 사용되는 라이브러리로서, 다양한 모델의 데이터 전처리와 학습을 위한 기능을 제공합니다. 따라서 데이터 과학과 머신러닝 분야에 관심이 있다면 NumPy를 배워두는 것이 유용합니다.

요약하면, NumPy는 파이썬에서 수치 계산과 데이터 처리를 위해 매우 중요한 도구이며, 데이터 과학, 공학, 머신러닝, 딥러닝 등 다양한 분야에서 필수적인 라이브러리입니다. 데이터를 다루고 처리하는데 필요한 기본적인 기능들을 익히고, 파이썬의 데이터 생태계를 구성하는데 있어서 필수적인 역할을 합니다.

NumPy를 사용하기 위해서는 먼저 NumPy를 설치해야 합니다. 일반적으로 아래와 같은 방법으로 설치할 수 있습니다:

```bash
pip install numpy
```

## ndarray(배열객체) 생성하기

In [None]:
"""
리스트(list)로부터 ndarray 생성:
"""
import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3, 4, 5])

# 2차원 배열 생성
arr2 = np.array([[1, 2, 3], [4, 5, 6]])



In [1]:
"""
범위 지정으로 ndarray 생성:
"""
import numpy as np

# 0부터 9까지의 정수로 1차원 배열 생성
arr1 = np.arange(10)

# 1부터 10까지의 정수로 1차원 배열 생성
arr2 = np.arange(1, 11)

# 0부터 9까지의 정수로 2차원 배열 생성
arr3 = np.arange(10).reshape(2, 5)




In [2]:
"""
모든 원소가 0 또는 1인 ndarray 생성:
"""
import numpy as np

# 모든 원소가 0인 3x3 배열 생성
zeros_arr = np.zeros((3, 3))
zeros_arr = np.zeros((3, 3))

# 모든 원소가 1인 2x4 배열 생성
ones_arr = np.ones((2, 4))



In [None]:
"""
특정 범위 내에서 균등 간격으로 원소를 생성하는 ndarray:
"""
import numpy as np

# 0부터 1 사이의 균등 분포를 갖는 5개의 원소로 1차원 배열 생성
uniform_arr = np.linspace(0, 1, 5)


In [4]:
"""
랜덤한 값을 갖는 ndarray 생성:
"""
import numpy as np

# 0과 1 사이의 랜덤한 값으로 3x3 배열 생성
random_arr = np.random.rand(3, 3)


## numpy random 함수 예제

In [7]:
"""
random.rand() 함수를 사용하여 0과 1 사이의 랜덤한 값으로 배열 생성:
"""
import numpy as np

# 3x3 배열 생성 (0과 1 사이의 랜덤한 값)
rand_arr = np.random.rand(3, 3)


[[0.12987079 0.64026404 0.47184813]
 [0.41360316 0.35751678 0.04541253]
 [0.88681578 0.81610795 0.04638476]]


In [8]:
"""
random.randint(low, high, size) 함수를 사용하여 정수형 랜덤 배열 생성:
"""

import numpy as np

# 1부터 10 사이의 랜덤한 정수 값으로 1차원 배열 생성 (10개의 원소)
rand_int_arr = np.random.randint(1, 11, 10)

In [None]:
"""
random.randn() 함수를 사용하여 평균이 0이고 표준 편차가 1인 랜덤 배열 생성:
"""

import numpy as np

# 평균이 0이고 표준 편차가 1인 3x3 배열 생성
randn_arr = np.random.randn(3, 3)

In [None]:
"""
random.choice() 함수를 사용하여 주어진 배열에서 랜덤한 값 선택:
"""

import numpy as np

# 주어진 배열로부터 랜덤하게 5개의 값 선택
arr = np.array([10, 20, 30, 40, 50])
rand_choice = np.random.choice(arr, 5)

## ndarray 의 데이터 타입

NumPy의 ndarray는 업캐스팅과 object dtype을 활용하여 데이터 타입을 혼합하여 사용할 수 있습니다. 하지만 혼합된 데이터 타입을 사용하면 일부 NumPy의 기능이 제한될 수 있으며, 성능 면에서도 일반적인 ndarray보다 느릴 수 있으므로, 혼합된 데이터 타입을 사용하기 전에 장단점을 고려하여 사용해야 합니다. 일반적으로 데이터 타입이 동일한 ndarray를 사용하는 것이 가장 효율적입니다.

In [9]:
"""
정수형 데이터 타입:
"""
import numpy as np

# 1차원 정수형 배열 (기본적으로 int64로 설정됨)
arr_int = np.array([1, 2, 3])
print(arr_int.dtype)  # 출력: int64

# int32 데이터 타입으로 지정된 1차원 배열
arr_int32 = np.array([1, 2, 3], dtype=np.int32)
print(arr_int32.dtype)  # 출력: int32


int64
int32


In [None]:
"""
실수형 데이터 타입:
"""
import numpy as np

# 1차원 실수형 배열 (기본적으로 float64로 설정됨)
arr_float = np.array([1.0, 2.5, 3.7])
print(arr_float.dtype)  # 출력: float64

# float32 데이터 타입으로 지정된 1차원 배열
arr_float32 = np.array([1.0, 2.5, 3.7], dtype=np.float32)
print(arr_float32.dtype)  # 출력: float32



In [None]:
"""
문자열 데이터 타입:
"""
import numpy as np

# 1차원 문자열 배열 (기본적으로 <U1로 설정됨, 1글자 유니코드 문자)
arr_str = np.array(['A', 'B', 'C'])
print(arr_str.dtype)  # 출력: <U1

# <U4 데이터 타입으로 지정된 1차원 배열 (4글자 유니코드 문자)
arr_str_u4 = np.array(['Hello', 'World'], dtype='<U4')
print(arr_str_u4.dtype)  # 출력: <U4



In [None]:
"""
불리언 데이터 타입:
"""
import numpy as np

import numpy as np

# 1차원 불리언 배열
arr_bool = np.array([True, False, True])
print(arr_bool.dtype)  # 출력: bool



In [None]:
"""
복소수형 데이터 타입:
"""
import numpy as np

# 1차원 복소수형 배열 (기본적으로 complex128로 설정됨)
arr_complex = np.array([1 + 2j, 3 + 4j])
print(arr_complex.dtype)  # 출력: complex128

# complex64 데이터 타입으로 지정된 1차원 배열
arr_complex64 = np.array([1 + 2j, 3 + 4j], dtype=np.complex64)
print(arr_complex64.dtype)  # 출력: complex64




## 타입변경

NumPy의 ndarray의 데이터 타입을 변경하는 방법에는 두 가지가 있습니다.  
하나는 astype() 메서드를 사용하는 방법이고,  
다른 하나는 생성 시 dtype 파라미터를 사용하여 타입을 지정하는 방법입니다

In [None]:
"""
astype() 메서드를 사용하여 데이터 타입 변경:
"""
import numpy as np

# 원본 배열 (int64 데이터 타입)
arr_int = np.array([1, 2, 3], dtype=np.int64)

# 데이터 타입 변경 (float64로 변환)
arr_float = arr_int.astype(np.float64)


In [None]:
"""
생성 시 dtype 파라미터를 사용하여 데이터 타입 변경:
"""
import numpy as np

# int64 데이터 타입으로 생성된 배열
arr_int = np.array([1, 2, 3], dtype=np.int64)

# 생성 시 dtype 파라미터를 사용하여 데이터 타입 변경 (float64로 변환)
arr_float = np.array(arr_int, dtype=np.float64)


## ndarray 주요 속성 및 메소드

### 속성

In [10]:
"""
shape: 배열의 차원을 튜플로 반환합니다. 각 차원별 원소의 개수를 나타냅니다.
"""

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.shape)  # 출력: (2, 3)

(2, 3)


In [None]:
"""
dtype: 배열의 데이터 타입을 반환합니다.
"""

import numpy as np

arr = np.array([1, 2, 3])
print(arr.dtype)  # 출력: int64

In [None]:
"""
size: 배열의 총 원소 개수를 반환합니다.
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.size)  # 출력: 6

### 메소드

In [None]:
"""
reshape(): 배열의 형태를 변경합니다.
"""
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])
reshaped_arr = arr.reshape(2, 3)
print(reshaped_arr)
# 출력:
# [[1 2 3]
#  [4 5 6]]


In [None]:
"""
transpose(): 배열의 전치행렬을 반환합니다.
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
transpose_arr = arr.transpose()
print(transpose_arr)
# 출력:
# [[1 4]
#  [2 5]
#  [3 6]]


In [13]:
"""
- max()
- min()
- sum()
- mean()
"""
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])


# indexing 과 slicing

In [14]:
"""
인덱싱(indexing)
"""
import numpy as np

# 1차원 배열 인덱싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[0])  # 출력: 1 (첫 번째 원소)
print(arr1d[3])  # 출력: 4 (네 번째 원소)

# 2차원 배열 인덱싱
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d[0, 1])  # 출력: 2 (첫 번째 행의 두 번째 열)
print(arr2d[1, 2])  # 출력: 6 (두 번째 행의 세 번째 열)


1
4
2
6


In [15]:
"""
슬라이싱(slicing)
"""
import numpy as np

# 1차원 배열 슬라이싱
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d[1:4])  # 출력: [2 3 4] (인덱스 1부터 3까지의 원소)

# 2차원 배열 슬라이싱
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d[:, 1:3])
# 출력:
# [[2 3]
#  [5 6]] (모든 행의 두 번째와 세 번째 열)

print(arr2d[0, :])  # 출력: [1 2 3] (첫 번째 행의 모든 열)
print(arr2d[1, 1:])  # 출력: [5 6] (두 번째 행의 두 번째와 세 번째 열)


[2 3 4]
[[2 3]
 [5 6]]
[1 2 3]
[5 6]


## ndarray 값 할당, 삭제, 추가

In [None]:
"""
값을 할당하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 인덱스를 이용하여 값을 할당
arr[2] = 10
print(arr)
# 출력: [ 1  2 10  4  5]

# 슬라이싱을 이용하여 값 할당
arr[1:4] = 100
print(arr)
# 출력: [  1 100 100 100   5]



In [None]:
"""
값을 삭제하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 인덱스를 이용하여 값 삭제
arr = np.delete(arr, 2)
print(arr)
# 출력: [1 2 4 5]

# 슬라이싱을 이용하여 값 삭제
arr = np.delete(arr, slice(1, 4))
print(arr)
# 출력: [1 5]




In [16]:
"""
값을 추가하는 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 인덱스를 이용하여 값 추가
arr = np.insert(arr, 2, 10)
print(arr)
# 출력: [ 1  2 10  3  4  5]

# 슬라이싱을 이용하여 값 추가
arr = np.insert(arr, 1, [20, 30, 40])
print(arr)
# 출력: [ 1 20 30 40  2 10  3  4  5]





[ 1  2 10  3  4  5]
[ 1 20 30 40  2 10  3  4  5]


## 정렬, 필터링

In [None]:
"""
배열 정렬 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([3, 1, 4, 2, 5])

# 오름차순으로 배열 정렬
sorted_arr = np.sort(arr)
print(sorted_arr)
# 출력: [1 2 3 4 5]

# 내림차순으로 배열 정렬
sorted_arr_desc = np.sort(arr)[::-1]
print(sorted_arr_desc)
# 출력: [5 4 3 2 1]

# 다차원 배열 정렬
arr2d = np.array([[3, 1, 4], [2, 5, 6]])
sorted_arr2d = np.sort(arr2d, axis=None)  # axis=None은 배열을 평평하게 만듦
print(sorted_arr2d)
# 출력: [1 2 3 4 5 6]


In [None]:
"""
배열 필터링 예제:
"""
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 조건을 만족하는 원소 필터링
filtered_arr = arr[arr > 2]
print(filtered_arr)
# 출력: [3 4 5]

# 다차원 배열 필터링
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
filtered_arr2d = arr2d[arr2d % 2 == 0]
print(filtered_arr2d)
# 출력: [2 4 6]
 


## 배열 연산

In [19]:
"""
덧셈연산
"""

import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

# 배열 간 덧셈 연산
result = arr1 + arr2
print(result)
# 출력: [5 7 9]


[5 7 9]


## numpy.where()
NumPy의 numpy.where() 함수는 조건에 따라 배열의 값을 다르게 할당하는 데 사용됩니다. 이 함수는 원하는 조건에 따라 배열의 원소를 대체하는데 유용합니다.

```python
numpy.where(condition, x, y)
```

- `condition`: 조건을 나타내는 불리언 배열이거나 조건식입니다. 만족하는 경우에만 값을 변경합니다.
- `x`: condition이 True인 경우의 값이 대체됩니다.
- `y`: condition이 False인 경우의 값이 대체됩니다.

`x`와 `y`는 `배열` 또는 `스칼라`값이 될 수 있습니다.  
만약 x와 y가 배열인 경우, 두 배열은 같은 크기 또는 브로드캐스팅 규칙을 만족해야 합니다.

In [27]:
"""
조건에 따라 배열 값을 변경하는 예제 1
"""

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
condition = arr > 3

result = np.where(condition, arr, 0)


In [28]:
"""
조건에 따라 배열 값을 변경하는 예제 2
"""

import numpy as np

arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([10, 20, 30, 40, 50])
condition = arr1 > 3

result = np.where(condition, arr1, arr2)

## squeeze(), unsqueeze()

In [18]:
"""
squeeze() 함수:
squeeze() 함수는 배열의 차원 중 사이즈가 1인 차원을 제거하는데 사용됩니다. 
만약 배열이 이미 1차원 이상이고, 그 중 사이즈가 1인 차원이 있다면 해당 차원을 제거하여 배열을 더 축소시킵니다.
"""

import numpy as np

# 1차원 배열 생성
arr = np.array([[[1, 2, 3]]])

# 사이즈가 1인 차원을 제거
result = np.squeeze(arr)
print(result)
# 출력: [1 2 3]
print(result.shape)
# 출력: (3,)

[1 2 3]
(3,)


In [None]:
"""
unsqueeze() 함수:
unsqueeze() 함수는 배열에 새로운 차원을 추가하는데 사용됩니다.
원하는 위치에 새로운 차원을 추가하여 배열의 차원을 확장합니다.
"""

import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3])

# 새로운 차원을 추가하여 2차원 배열로 만듦
result = np.expand_dims(arr, axis=0)
print(result)
# 출력: [[1 2 3]]
print(result.shape)
# 출력: (1, 3)
