# 데이터 분석

## Numpy

### NumPy의 정의

- Numpy는 **대규모 다차원 배열 및 행렬 연산을 위한 고성능 수학 함수와 도구를 제공하는 파이썬 라이브러리**
- NumPy는 대규모 다차원 배열(ndarray)과 행렬(matrix)을 처리할 수 있는 고성능 데이터 구조 제공
- 이러한 데이터 구조를 기반으로 수학 연산, 선형대수, 통계, 변환, 기본적인 수치 계산 등이 가능하도록 다양한 함수와 도구 포함

### NumPy의 주요 특징

|  |  |
|--|--|
|특징|설명|
|다차원 배열 객체 (ndarray)| NumPy는 고성능의 N차원 배열 객체를 제공하며, 동일한 데이터 타입의 요소를 효율적으로 저장하고 조작|
|빠른 연산 속도|NumPy는 C 및 Fortran으로 구현된 내부 연산을 활용하여 파이썬 리스트보다 빠른 연산 수행|
|브로드캐스팅|	NumPy는 크기가 다른 배열 간의 연산을 자동으로 확장하여 반복문 없이도 효과적인 계산이 가능하도록 지원|
|다양한 수학 함수 제공|	NumPy는 선형대수, 통계, 난수 생성 등 수치 계산을 위한 다양한 기능을 포함|
|강력한 인덱싱 및 슬라이싱|	NumPy는 배열의 특정 부분을 효과적으로 선택하고 수정할 수 있도록 강력한 인덱싱 및 슬라이싱 기능을 제공|
|다른 라이브러리와의 호환성|	NumPy는 Pandas, SciPy, TensorFlow 등 다양한 데이터 분석 및 머신러닝 라이브러리와 원활하게 연동|

### 사용법

In [1]:
!pip install numpy

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [2]:
import numpy as np

# NumPy 버전 확인
print("NumPy version:", np.__version__)

NumPy version: 2.3.1


## 차원(Dimension)

### NumPy 차원

<img src = 'https://towardsdatascience.com/wp-content/uploads/2024/09/1T8BqVvPTcyuXbzWubPt8Zw.png'>
Graphical representations of arrays in one, two, and three-dimensions (from Python Tools for Scientists) (This and several future links to my book are affiliate links)


In [3]:
dim_1 = np.array([5, 4, 9])
dim_1.shape

(3,)

In [4]:
dim_2 = np.array([[4.1, 2.0, 6.7],[0.3, 9.4, 2.2]])
dim_2.shape

(2, 3)

In [5]:
dim_3 = np.random.randint(0, 2, (4, 2, 3))
# re_dim_3 = dim_3.reshape(2,3,4)
dim_3

array([[[0, 1, 0],
        [1, 1, 0]],

       [[0, 1, 1],
        [1, 1, 0]],

       [[0, 1, 1],
        [0, 1, 1]],

       [[1, 0, 0],
        [1, 1, 1]]])

In [6]:
dim_3.shape

(4, 2, 3)

In [7]:
re_dim_3 = np.random.randint(0, 2, (2, 3, 4))
# re_dim_3 = dim_3.reshape(2,3,4)
re_dim_3

array([[[1, 0, 0, 1],
        [0, 1, 0, 0],
        [0, 1, 0, 0]],

       [[1, 1, 0, 1],
        [1, 0, 1, 0],
        [0, 0, 0, 0]]])

In [9]:
re_dim_3.shape

(2, 3, 4)

In [10]:
dim_4 = np.random.randint(0, 2, (2, 4, 3, 2))
dim_4

array([[[[1, 1],
         [0, 1],
         [0, 0]],

        [[1, 1],
         [0, 0],
         [1, 1]],

        [[0, 1],
         [1, 0],
         [1, 0]],

        [[0, 0],
         [0, 1],
         [0, 0]]],


       [[[0, 1],
         [0, 1],
         [0, 1]],

        [[1, 0],
         [0, 0],
         [0, 1]],

        [[0, 0],
         [0, 1],
         [0, 0]],

        [[1, 1],
         [1, 1],
         [0, 0]]]])

In [11]:
dim_4.shape

(2, 4, 3, 2)

In [12]:
dim_4_zero = np.zeros((4,2,3,4))
print(dim_4_zero)


[[[[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]

  [[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]]


 [[[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]

  [[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]]


 [[[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]

  [[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]]


 [[[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]

  [[0. 0. 0. 0.]
   [0. 0. 0. 0.]
   [0. 0. 0. 0.]]]]


### NumPy가 메모리를 할당하는 방법

- The values of an `ndarray` are stored as a contiguous block of memory in your computer’s RAM, as shown by the "Memory Block" diagram
- This is efficient, as processors prefer items in memory to be in chunks rather than randomly scattered about.
- The latter occurs when you store data in Python datatypes like lists, which keep track of pointers to objects in memory, creating "overhead" that slows down processing.
- The ndarray strides attribute is a tuple of the number of bytes to step in each dimension when traversing an array. This tuple informs NumPy on how to convert from the contiguous "Memory Block" to the "Python View" array

<img src='https://towardsdatascience.com/wp-content/uploads/2024/09/1Nz0HQW-oKVrzq5gD4b2geQ.png'>
How NumPy allocates memory (from Python Tools for Scientists)(https://towardsdatascience.com/introducing-numpy-part-1-understanding-arrays-3f6fecc97e3d/)

In [None]:
arr = np.array(np.arange(0,12), dtype=np.int32).reshape(3,4)

In [None]:
print(arr)

In [None]:
arr.dtype

In [None]:
arr.ndim

In [None]:
arr.shape

In [None]:
arr.strides

In [None]:
np.array([1, 'a', True])

In [None]:
np.array([1, 'a', (1, 'b', True)])

## 형태(Shape)

In [13]:
# 스칼라 Scalar / 0-D Tensor

In [14]:
s = np.array(1)

In [15]:
s.ndim

0

In [16]:
s.shape

()

In [17]:
# 벡터 Vector / 1-D Tensor

In [18]:
v = np.array([1, 2, 3])

In [19]:
v.ndim

1

In [20]:
v.shape

(3,)

In [21]:
# 행렬 Matrix / 2-D Tensor

In [22]:
m = np.array([[1,2,3],
              [4,5,6]])

In [23]:
m.ndim

2

In [24]:
m.shape

(2, 3)

In [25]:
# 3차원 텐서 () / 3-D Tensor

In [26]:
t = np.array([  
        [[1, 2], 
         [3, 4]],
        [[5, 6], 
         [7, 8]],
        [[9, 10], 
         [11, 12]]
    ])

In [27]:
t.ndim

3

In [28]:
t.shape

(3, 2, 2)

### 사용 방법

In [29]:
import numpy as np

# 2차원 배열 생성
array = np.array([[1, 2, 3], [4, 5, 6]])

# 배열의 형태 확인
print(array.shape)

(2, 3)


### 배열의 형태 변경 방법

- NumPy는 배열의 형태를 동적으로 변경할 수 있는 여러 방법을 제공
- 형태 변경을 통해 데이터를 원하는 구조로 조정하여 분석 및 처리 작업을 더욱 효율적으로 수행

`reshape()`를 사용한 형태 변경
- `reshape()` 메서드를 사용하면 기존 데이터를 유지한 채 새로운 형태로 배열을 변경
- 단, 새로운 형태의 배열 크기는 원래 배열의 크기와 같아야 함

In [30]:
array = np.array([1, 2, 3, 4, 5, 6])

reshaped_array = array.reshape(2, 3)
print(reshaped_array)

[[1 2 3]
 [4 5 6]]


`resize()`를 사용한 형태 변경
- resize() 함수는 원본 배열 자체를 변경하며, 필요할 경우 배열을 확장하거나 축소
- 부족한 값은 기본적으로 0으로 채워짐

In [31]:
array = np.array([1, 2, 3, 4])
array.resize(2, 3)
print(array)

[[1 2 3]
 [4 0 0]]


`np.newaxis`를 사용한 차원 추가
- `np.newaxis`를 사용하면 배열에 새로운 차원을 추가

In [32]:
array = np.array([1, 2, 3])
print(array.ndim)
print(array.shape)

1
(3,)


In [33]:
expanded_array = array[:, np.newaxis]

In [34]:
expanded_array

array([[1],
       [2],
       [3]])

In [35]:
print(expanded_array.ndim)
print(expanded_array.shape)

2
(3, 1)


`flatten()`을 사용한 다차원 배열 평탄화
- `flatten()` 메서드는 다차원 배열을 1차원 배열로 변환하는 데 사용

In [36]:
array = np.array([[1, 2, 3], [4, 5, 6]])
flattened_array = array.flatten()
print(flattened_array)

[1 2 3 4 5 6]


In [37]:
flattened_array[-1] = 999

In [38]:
flattened_array

array([  1,   2,   3,   4,   5, 999])

In [39]:
array

array([[1, 2, 3],
       [4, 5, 6]])

`ravel()`을 사용한 다차원 배열 평탄화 (참조 반환)
- ravel() 메서드는 다차원 배열을 1차원으로 변환하지만, 원본 배열에 대한 참조(view)를 반환
- 즉, 반환된 배열을 수정하면 원본 배열도 변경

In [100]:
array = np.array([[1, 2, 3], [4, 5, 6]])
print('array :\n', array)
raveled_array = array.ravel()
print('raveled_array:\n', raveled_array)

array :
 [[1 2 3]
 [4 5 6]]
raveled_array:
 [1 2 3 4 5 6]


In [102]:
# 참조를 통한 원본 변경 확인
raveled_array[0] = 99
print('array [0]요소 변경후 :\n', array)

array [0]요소 변경후 :
 [[99  2  3]
 [ 4  5  6]]


위 코드에서 ravel()을 사용하여 배열을 1차원으로 변환한 후, 반환된 배열의 첫 번째 요소를 수정하면 원본 배열도 변경되는 것을 확인

`transpose()`를 사용한 배열 축 전환
- `transpose()` 메서드는 배열의 차원을 전환하여 데이터를 새로운 방식으로 재배치할 수 있도록 함

In [42]:
array = np.array([[1, 2, 3], [4, 5, 6]])
print(array)

[[1 2 3]
 [4 5 6]]


In [43]:
transposed_array = array.transpose()
print(transposed_array)

[[1 4]
 [2 5]
 [3 6]]


## 데이터 타입(Data Type) 

| | | |
|-|-|-|
|데이터 타입|	설명|	예시|
|정수형<br>(Integers)	|부호 있는 또는 없는 정수를 저장하는 타입<br>뒤의 숫자는 부동소수점을 저장하는 데 쓰이는 비트 수를 의미함|int8, int16, int32, int64, uint8, uint16|
|부동소수점형<br>(Floating Point)|소수점을 포함한 숫자를 저장하는 타입|	float16, float32, float64|
|복소수형<br>(Complex Numbers)|	실수와 허수를 포함한 복소수를 저장하는 타입|	complex64, complex128|
|문자열형<br>(Strings)|	고정된 길이의 문자열을 저장하는 타입|	str_ 또는 unicode_|
|불리언형<br>(Boolean)|	True 또는 False 값을 저장하는 타입|	bool_|
|객체형<br>(Object)|	파이썬 객체를 포함할 수 있는 타입|	object_|
|유니버설 타입<br>(Generic)|	특정 크기에 국한되지 않는 범용 타입|	int_, float_|

### NumPy 데이터 타입의 특징
- NumPy에서 제공하는 데이터 타입은 C 언어의 기본 데이터 타입을 기반으로 함
- 일반적인 파이썬의 데이터 타입보다 메모리 사용량이 적고, 연산 속도가 빠른 것이 특징
- Python의 기본 리스트는 서로 다른 데이터 타입을 혼합할 수 있지만, NumPy 배열은 단일 데이터 타입만을 허용

| | |
|------------|-|
|특징         |	설명|
|정확한 크기 지정|	NumPy는 각 데이터 타입의 크기를 명확하게 정의할 수 있도록 비트(bit) 단위의 크기를 지정. 예를 들어, int32는 32비트 크기의 정수를 의미|
|동일한 타입 요소 유지|	NumPy 배열은 모든 요소가 동일한 데이터 타입을 가져야 함|
|자동 형변환 기능|	배열을 생성할 때, NumPy는 입력된 데이터에 따라 적절한 데이터 타입을 자동으로 설정<br>그러나 명시적 형 변환을 통해 원하는 타입으로 변경 가능|

### NumPy 데이터 타입 사용 이유
- 데이터 타입은 메모리를 절약하고 연산 속도를 높이기 위해서 사용
- NumPy에서 데이터 타입은 배열의 각 요소가 가질 수 있는 값의 유형을 지정하는 중요한 속성
- 데이터 타입을 명확하게 정의하면 메모리 효율성, 연산 속도 향상, 데이터의 일관성 유지, 시스템 간 호환성 등 다양한 이점을 얻을 수 있음
- Python의 기본 리스트는 서로 다른 데이터 타입을 혼합할 수 있지만, NumPy 배열은 단일 데이터 타입만을 허용

| | |
|--|--|
|이유|	설명|
|메모리 효율성 향상|	NumPy 배열은 각 요소에 대해 고정된 크기의 메모리를 할당하므로,Python의 동적 리스트보다 메모리를 적게 사용<br>예를 들어, int8 타입을 사용하면 각 요소가 1바이트만 차지하므로 대량의 데이터를 효율적으로 저장|
|연산 속도 향상|	NumPy는 배열의 요소가 동일한 데이터 타입을 가지므로, 내부적으로 최적화된 C 기반 연산을 수행하여 Python의 기본 리스트보다 훨씬 빠른 연산 속도를 제공<br>대규모 데이터 분석 및 머신러닝 연산 시 성능이 중요한 요소|
|데이터 일관성 유지|	모든 요소가 동일한 데이터 타입을 가지므로, 연산 중 불필요한 형 변환이 발생하지 않으며, 일관된 데이터 처리 및 안정적인 계산이 가능<br>데이터 무결성을 보장하는 데 중요한 역할을 합니다.|
|시스템 및 라이브러리 간 호환성|	NumPy의 데이터 타입은 C, Fortran과 같은 저수준 언어와 호환되도록 설계되어 있어, 다른 시스템 및 라이브러리와 데이터를 주고받을 때 효율적<br>머신러닝, 시뮬레이션, 데이터 분석 등 다양한 분야에서 필수적인 요소|

### 사용방법

In [44]:
import numpy as np

# 정수형 배열 생성
array = np.array([10, 20, 30])
print(array.dtype)

int64


배열 생성 시 데이터 타입 지정

In [45]:
import numpy as np

# int32 타입의 정수형 배열 생성
int_array = np.array([1, 2, 3], dtype=np.int32)
print(int_array.dtype)

# float64 타입의 부동소수점 배열 생성
float_array = np.array([1.5, 2.3, 3.7], dtype=np.float64)
print(float_array.dtype)

# 문자열 배열 생성
string_array = np.array(["apple", "banana", "cherry"], dtype=np.str_)
print(string_array.dtype)

# int32       # (환경에 따라 다를 수 있음)
# float64     # (환경에 따라 다를 수 있음)
# <U6         # (최대 6자의 유니코드 문자열)

int32
float64
<U6


Q: 데이터 타입이 int32일 때 32비트 이상의 값을 할당하면 어떻게 되나요?

> nt32는 -2,147,483,648부터 2,147,483,647까지만 표현할 수 있습니다. 
이 범위를 넘어서는 값을 할당하면 오버플로우(overflow)가 발생하여 값이 잘못 저장됩니다. 
예를 들어 np.int32(2_147_483_648)을 하면 정상적인 값이 아니라 범위를 벗어난 수가 잘린 형태로 저장됩니다.

In [46]:
import numpy as np

x = np.int32(2_147_483_648)   # int32의 최대값 + 1
y = np.int32(-2_147_483_649)  # int32의 최소값 - 1

print("x:", x)
print("y:", y)

OverflowError: Python integer 2147483648 out of bounds for int32

In [47]:
2 ** 32

4294967296

In [48]:
abs(-2_147_483_648) + 2_147_483_647 + len([0])

4294967296

### 배열 데이터 타입 속성 확인

- NumPy 배열의 여러 속성을 활용하면 데이터 타입과 관련된 유용한 정보를 얻을 수 있음

In [49]:
array = np.array([10, 20, 30], dtype=np.int16)

print(array.dtype)    # 배열의 데이터 타입을 반환 출력: int16
print(array.itemsize) # 배열의 각 요소가 차지하는 바이트 크기 확인 출력: 2 
print(array.nbytes)   # 배열 전체의 메모리 사용량 확인 출력: 6 

# int16   # (환경에 따라 다를 수 있음)
# 2       # (각 요소가 2바이트)
# 6       # (3개 요소 * 2바이트)

int16
2
6


### 데이터 타입 변환

- NumPy에서는 astype() 메서드를 사용하여 기존 배열의 데이터 타입을 다른 타입으로 변환

In [50]:
array = np.array([1, 2, 3], dtype=np.int32)

# int32 -> float64로 변환
converted_array = array.astype(np.float64)
print(converted_array.dtype)

# float64 -> int8로 변환 (데이터 손실 주의)
converted_int_array = converted_array.astype(np.int8)
print(converted_int_array.dtype)

float64
int8


## 인덱싱(Indexing)
- Indexing은 배열의 특정 요소에 접근하거나 값을 참조하기 위한 방법
- 인덱싱을 사용하면 배열의 개별 요소뿐만 아니라 특정 범위의 요소에도 접근할 수 있으며, 데이터를 효과적으로 조회하고 조작 가능
- NumPy의 인덱싱은 단순한 1차원 배열뿐만 아니라 다차원 배열에서도 사용되며, 배열의 크기와 차원에 따라 다양한 접근 방법을 제공
- `start:end` 슬라이싱 시 `start`는 포함되지만 `end`는 포함되지 않는 점을 유의

### 정수 인덱싱 (Integer Indexing)

In [51]:
# 1차원 배열
array = np.array([10, 20, 30, 40])
print(array[0])
print(array[-1])

# 2차원 배열
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(matrix[1, 2])

# 10
# 40    # (마지막 요소)
# 6     # (2번째 행, 3번째 열)

10
40
6


Q: 배열에 [숫자, 숫자]처럼 작성하는 문법은 무엇인가요?

> 이것은 인덱싱(indexing) 문법으로, 다차원 배열에서 특정 위치의 원소를 지정할 때 사용합니다. 첫 번째 숫자는 행(row) 인덱스, 두 번째 숫자는 열(column) 인덱스를 의미합니다. 예를 들어 matrix[1, 2]는 2번째 행, 3번째 열의 원소를 가리킵니다.

### 슬라이싱 (Slicing)
- 슬라이싱은 배열의 특정 범위를 선택하는 방법으로, start:end:step 형식으로 요소를 추출

In [52]:
array = np.array([10, 20, 30, 40, 50])

print(array[1:4])
print(array[:3])   
print(array[::2])

# [20 30 40]   # (1번부터 3번 인덱스까지)
# [10 20 30]   # (처음부터 2번 인덱스까지)
# [10 30 50]   # (0, 2, 4 인덱스만 선택)

[20 30 40]
[10 20 30]
[10 30 50]


### 불리언 인덱싱 (Boolean Indexing)
- 불리언 인덱싱은 조건식 결과(True/False 배열)를 이용해 원하는 원소만 선택하는 방법

In [53]:
data = np.array([5, 10, 15, 20, 25])

In [54]:
# 10보다 큰 요소만 선택
filtered = data[data > 10]
print('filtered: ', filtered)

filtered:  [15 20 25]


In [55]:
# 짝수만 선택
even_numbers = data[data % 2 == 0]
print('even_numbers: ', even_numbers)

even_numbers:  [10 20]


### 팬시 인덱싱 (Fancy Indexing)
- 리스트나 배열을 사용하여 여러 개의 특정 요소를 한 번에 선택하는 방식

In [56]:
array = np.array([10, 20, 30, 40, 50])

In [57]:
# 특정 인덱스 선택
indices = [0, 2, 4]
selected = array[indices]
print(selected)  # 출력: [10 30 50]

[10 30 50]


In [58]:
# 2차원 배열에서 특정 행 선택
matrix = np.array([[1, 2], [3, 4], [5, 6]])
rows = [0, 2]
print(matrix[rows])  # 출력: [[1 2] [5 6]]

[[1 2]
 [5 6]]


### 다차원 배열에서의 인덱싱
- NumPy는 2차원 이상의 배열에서도 특정 행과 열을 조합하여 요소를 추출
- 배열의 각 축(axis)에 대해 개별적으로 접근 가능

In [59]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [60]:
# 특정 요소 접근
print(matrix[1, 2]) # 2행 3열

6


In [61]:
# 특정 요소 접근
print(matrix[[1, 2]]) # 2행과 3행

[[4 5 6]
 [7 8 9]]


In [62]:
# 특정 행 전체 선택
print(matrix[0]) # 1행 전체

[1 2 3]


In [63]:
# 특정 열만 선택
print(matrix[:, 1]) # 모든 행의 2열

[2 5 8]


### 인덱싱을 활용한 데이터 수정

In [64]:
array = np.array([10, 20, 30, 40])

# 특정 요소 수정
array[2] = 99
print(array)  # 출력: [10 20 99 40]

# 여러 요소 수정
array[1:3] = [55, 77]
print(array)  # 출력: [10 55 77 40]

[10 20 99 40]
[10 55 77 40]


## 연산(Operation)
- 연산은 배열의 요소에 대해 수행되는 수학적 또는 논리적 계산
- NumPy는 고성능의 벡터화된 연산을 지원하며, 이를 통해 배열의 각 요소에 대해 효과적인 계산을 수행
- 연산은 배열 간의 요소별(element-wise) 연산부터, 축(axis)을 따라 수행되는 연산, 브로드캐스팅(broadcasting)과 같은 고급 연산 기법 등 다양

### NumPy 연산의 주요 특징

| | |
|-|-|
|특징|	설명|
|벡터화(Vectorization) 지원|	반복문 없이 배열의 모든 요소에 대해 동시에 연산을 수행하므로 코드가 간결하고 실행 속도가 빠름|
|요소별 연산(Element-wise Operation)|	배열의 각 요소에 대해 동일한 연산이 적용되며, 스칼라 값 또는 다른 배열과의 연산이 가능|
|다양한 연산 유형 제공|	기본적인 사칙연산(+, -, *, /)부터, 삼각함수, 지수/로그 연산, 비교 및 논리 연산 등 다양한 기능을 제공|
|브로드캐스팅(Broadcasting)| 크기가 다른 배열 간의 연산을 자동으로 조정하여 크기를 맞춰 연산할 수 있도록 함|
|배열 축(axis)| 기반 연산	특정 차원(행 또는 열)에 대한 합계, 평균 등 집계 연산을 지원|

### 요소별 연산 (Element-wise Operations)
- NumPy는 배열의 각 요소에 대해 연산을 수행하며, 동일한 크기의 배열에 대해 사칙연산을 수행

In [65]:
import numpy as np

# 배열 생성
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 덧셈, 뺄셈, 곱셈, 나눗셈 연산
print('a + b: ', a + b)
print('a - b: ', a - b)
print('a * b: ',a * b)
print('a / b: ',a / b)

a + b:  [5 7 9]
a - b:  [-3 -3 -3]
a * b:  [ 4 10 18]
a / b:  [0.25 0.4  0.5 ]


### 비교 연산 (Comparison Operations)
- 비교 연산은 배열의 각 요소를 조건과 비교하여 True/False 값을 반환하는 연산
- 특정 조건을 만족하는 데이터를 쉽게 판별
- 반환된 불리언 배열을 활용해 조건에 맞는 데이터만 선택

In [66]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 각 요소가 2보다 큰지 확인
print("a > 2:", a > 2)

# a와 b의 같은 위치 요소가 같은지 비교
print("a == b:", a == b)

# 각 요소가 2보다 작거나 같은지 확인
print("a <= 2:", a <= 2)

a > 2: [False False  True]
a == b: [False False False]
a <= 2: [ True  True False]


### 통계 연산 (Statistical Operations)

In [67]:
import numpy as np

data = np.array([10, 20, 30, 40, 50])

# np.mean(): 평균
print("np.mean(data):", np.mean(data))

# np.median(): 중앙값
print("np.median(data):", np.median(data))

# np.max(): 최댓값
print("np.max(data):", np.max(data))

# np.min(): 최솟값
print("np.min(data):", np.min(data))

# np.std(): 표준편차
print("np.std(data):", np.std(data))

np.mean(data): 30.0
np.median(data): 30.0
np.max(data): 50
np.min(data): 10
np.std(data): 14.142135623730951


### 선형대수 연산 (Linear Algebra Operations)
- 연산 속도: 반복문 없이 C 기반으로 구현된 함수를 사용해, 대규모 데이터의 선형대수 연산을 빠르게 처리
- 수학적 활용성: 전치, 내적, 역행렬 같은 연산은 회귀분석, 신호 처리, 머신러닝 알고리즘 등에서 핵심적으로 사용
- 코드 가독성: 수학적 기호를 그대로 옮긴 듯한 함수 이름을 사용해, 복잡한 연산을 짧고 명확하게 표현

In [68]:
matrix = np.array([[1, 2], [3, 4]])    
matrix

array([[1, 2],
       [3, 4]])

In [69]:
# 전치 행렬
print('np.transpose(matrix): \n', np.transpose(matrix))

# 행렬 곱 (내적)
vector = np.array([2, 3])
print('np.dot(matrix, vector): ',np.dot(matrix, vector))

# 역행렬 계산
inverse = np.linalg.inv(matrix)
print('np.linalg.inv(matrix): \n', inverse)

np.transpose(matrix): 
 [[1 3]
 [2 4]]
np.dot(matrix, vector):  [ 8 18]
np.linalg.inv(matrix): 
 [[-2.   1. ]
 [ 1.5 -0.5]]


In [70]:
matrix@inverse

array([[1.0000000e+00, 0.0000000e+00],
       [8.8817842e-16, 1.0000000e+00]])

In [71]:
np.dot(matrix, inverse)

array([[1.0000000e+00, 0.0000000e+00],
       [8.8817842e-16, 1.0000000e+00]])

In [72]:
np.dot([[2,3]], [[2],[3]])

array([[13]])

Q: 전치(Transpose)란 무엇인가요?
> 전치는 행과 열을 서로 바꾸는 연산으로, 행렬의 (i, j) 원소가 (j, i) 위치로 이동합니다.

In [73]:
import numpy as np
matrix = np.array([[1, 2], [3, 4]])
matrix

array([[1, 2],
       [3, 4]])

In [74]:
# np.transpose(): 행과 열을 바꾸는 함수
print("np.transpose(matrix):\n", np.transpose(matrix))

np.transpose(matrix):
 [[1 3]
 [2 4]]


Q: 내적(Dot Product)이란 무엇인가요?
> 내적은 행렬과 행렬, 또는 행렬과 벡터를 곱하는 연산입니다.

In [75]:
matrix = np.array([[1, 2], [3, 4]])
vector = np.array([2, 3])

In [76]:
matrix

array([[1, 2],
       [3, 4]])

In [77]:
matrix.shape

(2, 2)

In [78]:
vector

array([2, 3])

In [79]:
vector.shape

(2,)

In [80]:
# np.dot(): 행렬 곱 또는 벡터 내적을 계산하는 함수

print("np.dot(matrix, vector):\n", np.dot(matrix, vector))
# NumPy는 자동 브로드캐스트 없이 1차원 벡터를 적절히 2차원과 곱하도록 처리

np.dot(matrix, vector):
 [ 8 18]


Q: 역행렬(Inverse Matrix)이란 무엇인가요?
> 역행렬은 행렬과 곱했을 때 단위행렬(Identity Matrix)이 되는 행렬을 의미합니다. 

In [81]:
matrix = np.array([[1, 2], [3, 4]])

# np.linalg.inv(): 행렬의 역행렬을 계산하는 함수
inverse = np.linalg.inv(matrix)
print("np.linalg.inv(matrix):\n", inverse)

np.linalg.inv(matrix):
 [[-2.   1. ]
 [ 1.5 -0.5]]


In [82]:
5 * (1/5)

1.0

Q: 역행렬에서 말하는 단위행렬(Identity Matrix)이란 무엇인가요?
> 단위행렬은 대각선의 원소는 모두 1이고, 나머지 원소는 모두 0인 정사각 행렬을 말합니다. 행렬 곱셈에서 단위행렬은 일반 수에서의 1과 같은 역할을 합니다. 즉, 어떤 행렬 A가 있을 때 A × I = A가 성립합니다.

In [83]:
import numpy as np

# 2x2 단위행렬 생성
I = np.identity(2)
print("np.identity(2):\n", I)

np.identity(2):
 [[1. 0.]
 [0. 1.]]


In [84]:
# 행렬과 단위행렬의 곱
A = np.array([[1, 2], [3, 4]])
print("A × I:\n", np.dot(A, I))

A × I:
 [[1. 2.]
 [3. 4.]]


- np.identity(n)은 n×n 크기의 단위행렬을 생성합니다.
- 단위행렬은 행렬 곱에서 “곱셈에 대한 항등원” 역할을 하며, 역행렬 정의에서도 기준이 됩니다.
- 즉, 역행렬 A⁻¹은 원래 행렬 A와 곱했을 때 단위행렬이 나오는 행렬입니다.

Q: 항등원(Identity Element)이란 무엇인가요?
> 항등원은 연산을 했을 때 원래 값이 변하지 않도록 해주는 특별한 원소를 말합니다.
> - 덧셈에서의 항등원은 0입니다.
> - 예: a + 0 = a
> - 곱셈에서의 항등원은 1입니다.
> - 예: a × 1 = a
> - 행렬 곱셈에서의 항등원은 단위행렬(Identity Matrix)입니다.
> - 예: A × I = A
>   
> 즉, 항등원은 어떤 구조에서 “연산을 해도 자기 자신을 그대로 유지시켜주는 원소”입니다.

### 브로드캐스팅(Broadcasting)을 활용한 연산
- 브로드캐스팅은 서로 크기가 다른 배열 간의 연산을 자동으로 맞춰 수행할 수 있도록 작은 배열을 확장하는 규칙
- https://numpy.org/doc/stable/user/basics.broadcasting.html#

In [85]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([1, 2, 3])

In [86]:
matrix

array([[1, 2, 3],
       [4, 5, 6]])

In [87]:
vector

array([1, 2, 3])

In [88]:
result = matrix + vector
print("matrix + vector:\n", result)

matrix + vector:
 [[2 4 6]
 [5 7 9]]


### 논리 연산 (Logical Operations)
- 논리 연산은 불리언(Boolean) 배열을 대상으로 조건을 결합하거나 판별하는 연산
- 여러 조건을 동시에 적용해 데이터를 필터링
- 조건식을 간결하게 표현할 수 있어 가독성 높음

In [89]:
data = np.array([10, 20, 30, 40, 50])

In [90]:
# np.logical_and(): 두 조건이 모두 참일 때 True
print("np.logical_and(data > 15, data < 45):\n", \
      np.logical_and(data > 15, data < 45))

np.logical_and(data > 15, data < 45):
 [False  True  True  True False]


In [91]:
# np.logical_or(): 하나 이상의 조건이 참일 때 True
print("np.logical_or(data < 15, data > 45):\n", \
      np.logical_or(data < 15, data > 45))

np.logical_or(data < 15, data > 45):
 [ True False False False  True]


## 유니버설 함수(Universal Function)
- NumPy에서 유니버설 함수(Universal Functions, UFuncs)는 배열의 각 요소에 대해 반복적으로 수행되는 벡터화된 연산을 제공하는 함수
- 유니버설 함수는 단일 입력(single input) 및 다중 입력(multiple input)을 지원하며, 요소별(element-wise)로 동작하여 효과적인 수학 및 논리 연산을 수행

### NumPy 유니버설 함수의 주요 특징

|||
|-|-|
|특징| 설명|	
|다양한 함수 제공|	수학 함수(삼각함수, 지수, 로그), 논리 함수, 비교 함수 등 여러 가지 기본 및 고급 연산을 포함|
|다중 입력 및 출력 지원|	하나의 유니버설 함수는 여러 개의 입력 배열을 받아 연산을 수행하고, 하나 이상의 출력을 반환|
|유형 캐스팅(Type Casting) 지원|	서로 다른 데이터 유형 간 연산을 지원하며, 필요에 따라 자동 형변환을 수행|
|배열 브로드캐스팅 지원|크기가 다른 배열 간의 연산을 가능하게 하여 유연한 연산 처리가 가능|

### 사용이유

| | |
|-|-|
|이유|	설명|
|고속 연산 수행|	유니버설 함수는 C 기반으로 구현되어 있어 파이썬의 기본 반복문보다 훨씬 빠르게 연산을 수행. 수천만 개의 데이터도 빠르고 정확하게 처리|
|벡터화로 인한 코드 간결화|	반복문을 사용하지 않고 배열의 각 요소에 대해 연산을 적용할 수 있어 코드가 간결하고 가독성이 향상|
|다양한 수학적 기능 제공|	사칙연산, 삼각함수, 지수, 로그 연산 등 다양한 수학적 및 논리적 연산을 한 번에 수행할 수 있어 복잡한 계산을 간단하게 해결|
|메모리 효율성|	브로드캐스팅 기능을 통해 크기가 다른 배열 간 연산을 자동으로 조정하여 메모리를 절약하고 성능을 최적화|
|데이터 분석 및 과학적 계산 최적화|	대량의 데이터를 분석할 때, 벡터 연산을 통해 빠른 통계 분석 및 수치 계산이 가능하므로 실시간 분석에 적합|

### 사용 방법
- NumPy 유니버설 함수는 다음 형식으로 사용

```
import numpy as np

# 기본 문법: np.함수명(입력 배열)
result = np.function_name(array)

# 다중 입력 및 출력 지원
result = np.function_name(array1, array2, out=output_array)
```

- `np.function_name(array)`: 배열의 각 요소에 대해 해당 연산을 수행
- `out` 매개변수를 사용하면 결과를 새로운 배열이 아닌 기존 배열에 저장 가능

### 산술 연산 (Arithmetic Operations)

In [92]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# np.add(): 요소별 덧셈
print("np.add(a, b):", np.add(a, b))

# np.subtract(): 요소별 뺄셈
print("np.subtract(a, b):", np.subtract(a, b))

# np.multiply(): 요소별 곱셈
print("np.multiply(a, b):", np.multiply(a, b))

# np.divide(): 요소별 나눗셈
print("np.divide(a, b):", np.divide(a, b))

# np.power(): 거듭제곱 연산
print("np.power(a, 2):", np.power(a, 2))

np.add(a, b): [5 7 9]
np.subtract(a, b): [-3 -3 -3]
np.multiply(a, b): [ 4 10 18]
np.divide(a, b): [0.25 0.4  0.5 ]
np.power(a, 2): [1 4 9]


### 비교 연산 (Comparison Operations)

In [93]:
a = np.array([1, 2, 3, 4])
b = np.array([2, 2, 2, 2])

# np.equal(): 각 요소가 같은지 비교
print("np.equal(a, b):", np.equal(a, b))

# np.greater(): a의 요소가 b보다 큰지 비교
print("np.greater(a, b):", np.greater(a, b))

# np.less(): a의 요소가 b보다 작은지 비교
print("np.less(a, b):", np.less(a, b))

np.equal(a, b): [False  True False False]
np.greater(a, b): [False False  True  True]
np.less(a, b): [ True False False False]


### 논리 연산 (Logical Operations)

In [94]:
data = np.array([10, 20, 30, 40])

# np.logical_and(): 두 조건이 모두 참일 때 True
print("np.logical_and(data > 15, data < 35):", np.logical_and(data > 15, data < 35))

# np.logical_or(): 두 조건 중 하나라도 참일 때 True
print("np.logical_or(data < 15, data > 35):", np.logical_or(data < 15, data > 35))

# np.logical_not(): 조건이 거짓일 때 True
print("np.logical_not(data > 20):", np.logical_not(data > 20))

np.logical_and(data > 15, data < 35): [False  True  True False]
np.logical_or(data < 15, data > 35): [ True False False  True]
np.logical_not(data > 20): [ True  True False False]


### 삼각 함수 (Trigonometric Functions)

In [95]:
angles = np.array([0, np.pi/2, np.pi])

# np.sin(): 사인 값 계산
print("np.sin(angles):", np.sin(angles))

# np.cos(): 코사인 값 계산
print("np.cos(angles):", np.cos(angles))

# np.tan(): 탄젠트 값 계산
print("np.tan(angles):", np.tan(angles))

np.sin(angles): [0.0000000e+00 1.0000000e+00 1.2246468e-16]
np.cos(angles): [ 1.000000e+00  6.123234e-17 -1.000000e+00]
np.tan(angles): [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


### 지수 및 로그 연산 (Exponential and Logarithmic Functions)

In [96]:
values = np.array([1, np.e, 10])

# np.exp(): 지수 함수(e^x) 계산
print("np.exp(values):", np.exp(values))

# np.log(): 자연로그(밑 e) 계산
print("np.log(values):", np.log(values))

# np.log10(): 상용로그(밑 10) 계산
print("np.log10(values):", np.log10(values))

np.exp(values): [2.71828183e+00 1.51542622e+01 2.20264658e+04]
np.log(values): [0.         1.         2.30258509]
np.log10(values): [0.         0.43429448 1.        ]


### 브로드캐스팅과 유니버설 함수
- 브로드캐스팅은 **크기가 서로 다른 배열 간 연산 시, 작은 배열을 자동으로 확장하여 연산을 가능하게 하는 규칙**
- 유니버설 함수는 이 브로드캐스팅 기능을 지원하여, 반복문 없이도 직관적으로 연산을 수행

In [97]:
array = np.array([1, 2, 3])
scalar = 10

# np.add(): 배열과 스칼라 간 덧셈, 브로드캐스팅 적용
print("np.add(array, scalar):", np.add(array, scalar))

np.add(array, scalar): [11 12 13]


### `out` 매개변수를 사용한 연산 결과 저장

In [98]:
a = np.array([1, 2, 3])
result = np.empty_like(a)  # 결과를 기록할 기존 배열
print(result)

[4613303445314885481 4624720709277733498 4671783802770883936]


In [99]:
# np.multiply(): 요소별 곱, out으로 결과 저장
np.multiply(a, 10, out=result)
print("np.multiply(a, 10, out=result):", result)

np.multiply(a, 10, out=result): [10 20 30]
