<a href="https://colab.research.google.com/github/eunseojeon/NumPy/blob/main/NumPy_0702.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 📖 NumPy란?

- NumPy는 파이썬에서 **고성능의 수치 계산**과 **다차원 배열(array) 데이터 처리**를 위해 널리 사용되는 라이브러리입니다.
- "Numerical Python"의 줄임말입니다.
- **다차원 배열(ndarray) 지원**:
NumPy의 핵심 객체는 ndarray로, 동일한 데이터 타입을 갖는 원소들로 구성된 다차원 배열입니다. 이 배열은 파이썬의 기본 리스트보다 훨씬 빠르고 효율적으로 대량의 데이터를 처리할 수 있습니다.
- **벡터화 연산**: NumPy 배열은 반복문 없이도 배열 전체에 대해 연산(사칙연산, 비교 등)을 빠르게 수행할 수 있습니다. 이를 벡터화 연산이라고 하며, 데이터 분석과 과학 계산에서 매우 유용합니다.
- **다양한 수학 함수와 연산 지원**: 선형대수, 푸리에 변환, 난수 생성, 통계, 브로드캐스팅(서로 다른 크기의 배열 간 연산) 등 다양한 수학적 연산을 지원.
- **배열 생성 및 조작**: 다양한 방식으로 배열을 생성할 수 있습니다. 예를 들어, np.array, np.arange, np.zeros, np.ones, np.random 등 함수가 제공됩니다. 배열의 모양(shape) 변경, 인덱싱, 슬라이싱, 결합, 분할 등도 간편하게 할 수 있습니다.
- **다른 라이브러리와의 연계**: pandas, matplotlib, SciPy 등 데이터 분석 및 시각화, 과학 연구용 라이브러리들과 함께 사용되어 파이썬 데이터 생태계의 핵심 기반이 됩니다.

### ❓ 왜 NumPy를 사용해야 하나요

- 파이썬에서는 배열의 역할을 하는 리스트가 있지만, 처리 속도가 느립니다.

- NumPy는 기존 Python 리스트보다 **최대 50배 빠른 배열 객체를 제공**하는 것을 목표로 합니다.

- NumPy의 배열 객체는 **ndarray** 라고 불리며, **ndarray** 작업을 매우 쉽게 만드는 많은 지원 함수를 제공합니다.

- 배열은 속도와 리소스가 매우 중요한 데이터 과학에서 매우 자주 사용됩니다.

*(데이터 과학: 데이터를 저장하고, 사용하고, 분석하여 정보를 도출하는 방법을 연구하는 컴퓨터 과학의 한 분야)*

### 🏃🏻‍♀️ NumPy가 리스트보다 빠른 이유

- **연속적인(Contiguous) 메모리 저장**: 넘파이 배열은 메모리상에 한 번에 연속적으로 저장되어 있어 CPU가 데이터를 더 빠르게 읽고 쓸 수 있지만, 반면 파이썬 리스트는 각 요소가 분산되어 저장되고 각 요소마다 포인터를 따라가야 하므로 접근 속도가 느립니다.
- **벡터화 및 C로 구현된 연산**: 넘파이는 반복문 없이 배열 전체에 연산을 적용하는 벡터화를 지원하며, 대부분의 연산이 파이썬이 아닌 C(혹은 Fortran)로 구현되어 있습니다. 이로 인해 파이썬 인터프리터의 오버헤드 없이 매우 빠르게 계산이 이루어집니다.
- **동일한 데이터 타입(고정형) 사용**: 넘파이 배열은 모든 요소가 동일한 데이터 타입을 가지므로 타입 체크나 변환 과정이 필요 없어 연산이 빠릅니다. 반면 파이썬 리스트는 다양한 타입을 섞어 담을 수 있어 연산 시마다 타입 체크가 필요해 느려집니다

### **📝 NumPy 배열 생성**

In [None]:
import numpy

arr = numpy.array([1, 2, 3, 4, 5])

print(arr)

[1 2 3 4 5]


- import키워드를 추가하여 애플리케이션에 가져옵니다.
---

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr)

[1 2 3 4 5]


- NumPy는 일반적으로 **np** 별칭으로 가져옵니다.
---

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr)

[1 2 3 4 5]


- 가져오는 동안 키워드 **as** 로 별칭을 만듭니다.
---

In [None]:
import numpy as np

print(np.__version__)

2.0.2


- 버전 문자열은 __version__ 속성에 저장
- 2.0.2가 출력된 이유: 현재 컴퓨터에 Numpy 2.0.2 버전이 설치되어 있기 때문
---

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr)

print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


- NumPy의 배열 객체는 ndarray.

- array() 함수를 사용하여 NumPy ndarray 객체를 만들 수 있습니다.
---

In [None]:
import numpy as np

arr = np.array((1, 2, 3, 4, 5)) #튜플을 사용해 Numpy 배열을 생성

print(arr)

[1 2 3 4 5]


In [None]:
import numpy as np

arr = np.array(42) #값이 42인 0차원 배열을 만든다.

print(arr)

42


In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5]) #1,2,3,4,5 값을 포함하는 1차원 배열

print(arr)

[1 2 3 4 5]


In [None]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]]) #1, 2, 3과 4, 5, 6 값을 갖는 두 개의 배열을 포함하는 2차원 배열

print(arr)

[[1 2 3]
 [4 5 6]]


In [None]:
import numpy as np

a = np.array(42)
b = np.array([1, 2, 3, 4, 5])
c = np.array([[1, 2, 3], [4, 5, 6]])
d = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

print(a.ndim)
print(b.ndim)
print(c.ndim)
print(d.ndim)

0
1
2
3


- NumPy Arrays는 ndim배열의 차원 수를 알려주는 정수를 반환하는 속성을 제공
---

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4], ndmin=5) #고차원 배열(여기서는 5차원)

print(arr)
print('number of dimensions :', arr.ndim)

[[[[[1 2 3 4]]]]]
number of dimensions : 5


### **NumPy 배열 인덱싱**

- 배열 인덱싱은 배열 요소에 액세스하는 것과 같습니다.

- 배열 요소에 접근하려면 인덱스 번호를 참조하면 됩니다.

- NumPy 배열의 인덱스는 0부터 시작합니다. 즉, 첫 번째 요소의 인덱스는 0이고, 두 번째 요소의 인덱스는 1입니다.

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr[0]) #첫번째 요소를 가져옴

1


In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr[2] + arr[3]) #세번째와 네번째 요소를 가져와서 더함

7


In [None]:
import numpy as np

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('첫 번째 행의 두 번째 요소:', arr[0, 1])
#2번째 행, 5번째 열의 요소에 접근

첫 번째 행의 두 번째 요소: 2


In [None]:
import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

print(arr[0, 1, 2])

6


- 첫 번째 숫자는 두 개의 배열 [[1, 2, 3], [4, 5, 6]]과[[7, 8, 9], [10, 11, 12]]을 나타
냅니다. 0을 선택했으므로 0첫 번째 배열
[[1, 2, 3] , [4, 5, 6]]이 남습니다.

- 두 번째 숫자는 두 개의 배열 [1, 2, 3]과 [4, 5, 6] 을 나타냅니다. 1을 선택했으므로 두 번째 배열 [4, 5, 6]이 남습니다.

- 세 번째 숫자는 세 개의 값(4, 5, 6)을 나타냅니다.
2를 선택했으므로 세 번째 값**(6)** 이 답이 됩니다.
---

In [None]:
import numpy as np

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('두 번째 행의 마지막 요소:', arr[1, -1]) #음수 인덱싱

두 번째 행의 마지막 요소: 10


### **NumPy 배열 Slicing**

- 파이썬에서 슬라이싱은 주어진 인덱스에서 다른 주어진 인덱스로 요소를 옮기는 것을 의미합니다.

- 인덱스 대신 슬라이스를 이렇게 전달합니다: [start:end]

- 다음과 같이 단계를 정의할 수도 있습니다 : [start:end:step]

- 시작을 통과하지 못하면 0으로 간주됩니다.

- 우리가 end를 전달하지 않으면 해당 차원의 배열의 길이가 고려됩니다.

- 만약 우리가 단계를 통과하지 못한다면 그것은 1로 간주됩니다

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[1:5]) #인덱스 1부터 5까지의 요소를 슬라이스

[2 3 4 5]


*- 참고: 결과 에 시작 인덱스는 포함되지만 끝 인덱스는 제외됩니다 .*

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[4:]) #인덱스 4번부터 끝까지 출력

[5 6 7]


In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[1:5:2])

[2 4]


**arr[1:5:2]의 의미**
- 1: 시작 인덱스(포함) → 두 번째 요소부터 (값: 2)
- 5: 끝 인덱스(미포함) → 여섯 번째 요소 전까지 (값: 6 전까지)
- 2: 간격(스텝) → 두 칸씩 건너뜀

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[::2]) #처음부터 끝까지 2칸씩 건너뛰며 값 추출

[1 3 5 7]


In [None]:
import numpy as np

arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

print(arr[0:2, 2]) #두 요소에서 인덱스 2를 반환

[3 8]


In [None]:
import numpy as np

arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

print(arr[0:2, 1:4])

[[2 3 4]
 [7 8 9]]


### **NumPy 데이터 유형**

- NumPy에는 몇 가지 추가 데이터 타입이 있으며, 데이터 타입을 한 글자로 나타냅니다.
- 예를 들어, 정수는 i, 부호 없는 정수는 u 등으로 표시합니다.

- 아래는 NumPy의 모든 데이터 타입과 이를 나타내는 문자 목록입니다.

| 문자 목록 | 데이터 타입 | 영어로 |
| --------- | ---------------- | -------------------------- |
i | 정수 | integer
b | 불리언 | boolean
u | 부호 없는 정수 | unsigned integer
f | 부동 소수점 | float
c | 복소수 | complex float
m | 시간 간격 | timedelta
M | 날짜/시간 | datetime
O | 객체 | object
S | 문자열 | string
U | 유니코드 문자열 | unicode string
V | 고정 메모리 조각 | fixed chunk of memory (void)

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr.dtype) #배열의 데이터 유형 출력

int64


In [None]:
import numpy as np

arr = np.array(['apple', 'banana', 'cherry'])

print(arr.dtype) #문자열을 포함하는 배열의 데이터 유형을 가져옴

<U6


- U는 NumPy에서 "유니코드 문자열(Unicode string)" 타입을 의미
- 6은 배열의 각 요소가 가질 수 있는 최대 문자 수를 의미
- <는 메모리의 바이트 순서를 나타내며, 일반적으로 리틀 엔디안(대부분의 환경에서 의미 없음)을 나타냄

In [None]:
import numpy as np

arr = np.array([1.1, 2.1, 3.1])

newarr = arr.astype('i') #'i'매개변수 값을 사용하여 데이터 유형을 float에서 정수로 변경

print(newarr)
print(newarr.dtype)

[1 2 3]
int32


In [None]:
import numpy as np

arr = np.array([1, 0, 3])

newarr = arr.astype(bool)

print(newarr)
print(newarr.dtype)

[ True False  True]
bool


- 넘파이에서 정수 → 불리언 변환 시, 0은 False, 0이 아닌 값은 True 로 변환
---

### **The Difference Between Copy and View(복사와 뷰의 차이점)**

- 배열의 복사본과 뷰의 주요 차이점은 복사본은 **새로운 배열**이고, 뷰는 단지 **원본 배열**의 뷰라는 점입니다.

- 복사본은 **데이터를 소유**하며 복사본에 적용된 변경 사항은 원본 배열에 영향을 미치지 않고 원본 배열에 적용된 변경 사항은 복사본에 영향을 미치지 않습니다.

- 뷰는 **데이터를 소유하지 않으며** , 뷰에 적용된 모든 변경 사항은 원래 배열에 영향을 미치고, 원래 배열에 적용된 모든 변경 사항은 뷰에 영향을 미칩니다.

- **Copy**

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
x = arr.copy()
arr[0] = 42

print(arr)
print(x)

[42  2  3  4  5]
[1 2 3 4 5]


- **View**

In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
x = arr.view()
arr[0] = 42

print(arr)
print(x)

[42  2  3  4  5]
[42  2  3  4  5]
