
# Numpy 스터디 자료

## 1. Numpy란?
Numpy는 Python에서 과학 계산을 위한 핵심 라이브러리입니다. 
다차원 배열 객체(`ndarray`)를 제공하며, 수학적 연산을 빠르게 수행할 수 있도록 다양한 함수를 지원합니다.

### 주요 특징
- 다차원 배열(ndarray) 지원
- 벡터화 연산(Vectorized Operation)으로 속도 향상
- 다양한 수학, 통계 함수 제공
- 브로드캐스팅 기능 지원
- 다른 라이브러리(Pandas, Scikit-learn 등)와 호환성 우수
- 과학 계산을 위한 다양한 함수 제공


## 2. numpy 설치 및 사용 방법

In [None]:
pip install numpy




In [None]:
# numpy 라이브러리 사용을 위해 불러오기
import numpy as np

## 3. Numpy 배열의 기본

In [None]:
# 배열: 연관된 데이터를 모아서 관리하기 위한 데이터타입
# 배열 생성: python 리스트 [1,2,3,4,5]를 numpy 배열로 변환
arr= np.array([1,2,3,4,5])

# 배열 자체를 출력
print("배열: ", arr)

# 배열 타입 출력
print("배열의 타입: ", type(arr))

#배열 속성 확인
print("배열의 모양: ", arr.shape)        # 배열 모양
print("배열의 데이터 타입: ", arr.dtype)        # 데이터 타입

# numpy.ndarray = N-Dimensional Array의 약자(N차원 배열)
# (5,)는 1차원 배열에 요소가 5개 있음을 의미
# 배열의 데이터 타입(dtype)출력: 배열 요소의 자료형 확인


배열:  [1 2 3 4 5]
배열의 타입:  <class 'numpy.ndarray'>
배열의 모양:  (5,)
배열의 데이터 타입:  int32


## 4. 배열 생성 및 초기화

In [None]:
##  특정 값으로 채운 배열
# 0으로 초기화된 배열 
# np.zeros(shape): 지정한 shape 크기의 배열을 0으로 채움
zeros = np.zeros((3,3)) # 3x3 크기의 배열 생성
print(zeros)            # 0으로 채워진 3x3 배열 출력
print(zeros.shape)      # 배열의 모양(행, 열) 출력
print(zeros.dtype)      # 배열 요소의 자료형 출력 -> float64가 기본입니다.
print("===========================")

# 1로 초기화된 배열 
# np.ones(shape): 지정한 shape 크기의 배열을 1로 채움
ones = np.ones((2,4))   # 2x4 크기의 배열 생성
print(ones)             # 1로 채워진 2x4 배열 출력  
print(ones.shape)       # 배열의 모양 출력 -> (2,4)
print(ones.dtype)       # 배열 요소의 자료형 출력 -> float64
print("===========================")

# 특정 값으로 채운 배열(2x2를 7로 채우기)
# np.full(shape, value): 지정한 shape 크기의 배열을 특정 값으로 채움
full=np.full((2,2),7)   # 2x2 배열을 7로 채움
print(full)
print("===========================")

# 단위행렬 생성
# np.eye(n): nxn 단위 행렬 생성 (대각선이 1이고 나머지는 0)
identity = np.eye(3)    # 3x3 단위 행렬
print(identity)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
(3, 3)
float64
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]
(2, 4)
float64
[[7 7]
 [7 7]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
# 난수 배열
# np.random.rand(shape): 0 이상 1 미만의 난수를 발생시켜 배열 생성
random = np.random.rand(3,3) # 3x3 크기의 난수 배열
print(random)                # 0~1 사이의 실수 난수로 채워진 배열 출력
print("====================================")

# 정수 난수 배열
# np.random.randint(low, high, size):
# -low 이상 high 미만의 정수 난수 생성
# -size 파라미터로 배열의 모양 지정
randint = np.random.randint(1, 10, (3,3)) # 1부터 10 미만의 정수로 채워진 3x3 배열 생성
print(randint)

[[0.52284813 0.22143954 0.30141924]
 [0.44214143 0.23338424 0.84130669]
 [0.47960279 0.89598649 0.847466  ]]
[[6 7 4]
 [8 4 9]
 [7 8 6]]


## 5. 배열 연산
- 기본 사칙연산: `+`, `-`, `*`, `/`
- 브로드캐스팅(Broadcasting) 지원
- 유니버셜 함수: `np.sqrt`, `np.exp`, `np.log` 등

In [None]:
# 기본 산술 연산
arr = np.array([1,2,3,4])

# 배열 + 스칼라연산
print(arr+5)
print(arr*2)
print(arr-1)
print(arr/2)

[6 7 8 9]
[2 4 6 8]
[0 1 2 3]
[0.5 1.  1.5 2. ]


In [None]:
# 통계 함수

# 합계: 배열의 모든 원소를 더한 합 반환
print(arr.sum())

# 평균: 배열의 모든 원소의 평균 값 반환
print(arr.mean())

# 최대값: 배열에서 가장 큰 값 반환
print(arr.max())

# 최소값: 배열에서 가장 작은 값 반환
print(arr.min())

10
2.5
4
1


기본적으로 NumPy 연산들은 element-wise하게 연산이 되기에 벡터 혹은 
행렬 간 shape가 맞아야 할 것 같지만 
배열과 스칼라 또는 두 개의 서로 다른 크기의 
배열 간에 작업을 수행할 수 있습니다. 
이 broadcasting 기능은 Numpy가 파이썬 내장 리스트와 구별되는 큰 특징 중 하나 입니다.

아래의 그림처럼 a와 b의 크기가 다르지만 NumPy는 한 벡터(여기선 a)로 크기를 맞추어 연산을 해줍니다.

![image.png](attachment:image.png)

In [33]:
a = np.array([1.0, 2.0, 3.0])
b = 2.0
print(a * b)

# 실행 결과
# array([2.,  4.,  6.])

[2. 4. 6.]


In [None]:
# 브로드캐스팅
# 브로드캐스팅: 서로 다른 모양의 배열 간 연산을 가능하게 하는 기능

arr1=np.array([1,2,3]) # 1차원 배열 생성
arr2=np.array([[1],[2],[3]]) # 2차원 배열 생성

# 브로드캐스팅 연산
# arr1: (3,) → (1,3) 형태로 확장
# arr2: (3,1) 형태 유지
# 두 배열의 shape가 (3,3)으로 맞춰져 연산 수행
result = arr1 + arr2
print(result)

[[2 3 4]
 [3 4 5]
 [4 5 6]]


In [None]:
# 선형 연산
# 행렬 곱
A = np.array([[1, 2],[3, 4]])
B = np.array([[5, 6],[7, 8]])

# 행렬 원소별 곱(Element-wise product)
# '*' 연산자는 같은 위치의 원소끼리 곱함 (수학적 행렬 곱 아님)
print(A * B)
print("===================================")

# 행렬 곱 (Dot Product)
# np.dot(matrix1, matrix2) : 수학적 행렬 곱 수행
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[5, 6], [7, 8]])
result = np.dot(matrix1, matrix2)
print("행렬 곱 결과:\n", result)

print("===================================")

# 행렬 곱 연산자(@) 사용
# Python 3.5+부터 '@'는 np.dot()와 동일하게 행렬 곱 수행
print(matrix1 @ matrix2) # @ 연산자 사용

[[ 5 12]
 [21 32]]
행렬 곱 결과:
 [[19 22]
 [43 50]]
[[19 22]
 [43 50]]


## 6. 배열 인덱싱 & 슬라이싱
- 기본 인덱싱: `arr[0]`, `arr[1, 2]`
- 슬라이싱: `arr[1:3]`, `arr[:, 0]`
- 불리언 인덱싱: `arr[arr > 2]`

In [None]:
# 1차원 배열
arr = np.array([10,20,30,40])
# 배열 인덱싱
# arr[2] : 인덱스 2(세 번째 요소) 값 가져오기 → 30
print(arr[2])
print("===================================")

# 2차원 배열
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

# 특정 원소 접근
# arr2d[1,2] : 두 번째 행(인덱스 1), 세 번째 열(인덱스 2) 값 → 6
print(arr2d[1,2])  # 2행 3열의 값

# 특정 행 전체 접근
# arr2d[0] : 첫 번째 행(인덱스 0)의 모든 요소 반환 → [1 2 3]
print(arr2d[0])    # 1행 전체

30
6
[1 2 3]


In [None]:
# 슬라이싱
# 배열 부분 선택:

# 첫 번째 행 전체 선택
# arr2d[0, :] : 0행(첫 번째 행)의 모든 열을 선택
print(arr2d[0, :]) # 첫번째 행

# 두 번째 열 전체 선택
# arr2d[:, 1] : 모든 행에서 1열(두 번째 열) 값 선택
print(arr2d[:, 1]) # 두번째 열
print("===================================")

# 부분 배열 선택
print(arr2d[0:2, 1:3])  # 0~1행, 1~2열의 부분 배열


[1 2 3]
[2 5 8]
[[2 3]
 [5 6]]


In [None]:
# 특정 조건을 적용시키는 boolean 인덱싱 
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

# 조건을 사용한 Boolean 인덱싱
# a < 5 → 배열의 각 원소가 5보다 작은지 True/False로 반환
print(a[a < 5]) 

# 두 조건을 동시에 적용
# (a > 2) & (a < 11)
#   - 2보다 크고 11보다 작은 값만 True
print(a[(a > 2) & (a < 11)])

# 실행 결과
# [1 2 3 4]
# [ 3  4  5  6  7  8  9 10]

[1 2 3 4]
[ 3  4  5  6  7  8  9 10]


## 7. 행렬 연결 및 합치기 & 행렬 크기 바꾸기

In [None]:
# 행렬 연결 및 합치기
# np.concatenate((배열1, 배열2), axis)
#   axis=0 : 행 방향으로 연결 (위아래로 합치기)
#   axis=1 : 열 방향으로 연결 (좌우로 합치기)
x = np.array([[1, 1], [2, 2]])
y = np.array([[5, 6]])

# 행 방향으로 연결 → 결과는 3x2 행렬
print(np.concatenate((x, y), axis=0))

[[1 1]
 [2 2]
 [5 6]]


In [None]:
# 행렬 크기 바꾸기
# np.reshape((행, 열)) : 배열의 모양을 지정된 형태로 변경
mat2 = np.array([1,2,3,4,5,6,7,8,9])

# 3x3 행렬로 변환
mat2 = mat2.reshape((3,3))
print(mat2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


## 8. 고급 기능

In [None]:
# 고급 기능
# 조건부 연산
arr = np.array([1, 2, 3, 4, 5])
filtered = arr[arr>3]  # 3보다 큰 값만 선택
print("조건부 필터링 결과:", filtered)

print("===================================")

# numpy와 파일 입출력
# np.save(filename, array) : 배열을 .npy 형식으로 저장
# np.load(filename)        : 저장된 .npy 파일을 불러오기

# 배열을 파일로 저장
np.save('my_array.npy', arr)  # 배열을 .npy 파일로 저장
# 배열을 파일에서 불러오기
loaded_arr = np.load('my_array.npy')  # .npy 파일에서 배열 불러오기
print("불러온 배열:", loaded_arr)

print("===================================")

# numpy와 pandas 통합 사용
# Pandas DataFrame으로 변환
# numpy 배열을 하나의 컬럼으로 갖는 DataFrame 생성
import pandas as pd
df = pd.DataFrame(arr, columns=['Value'])
print("Pandas DataFrame:\n", df)

조건부 필터링 결과: [4 5]
불러온 배열: [1 2 3 4 5]
Pandas DataFrame:
    Value
0      1
1      2
2      3
3      4
4      5


In [None]:
# arange, linspace

# np.arange(start, stop, step)
# - start부터 stop 이전까지 step 간격으로 값 생성
# - 정수 배열이나 균등한 간격의 값 생성에 사용
arange_array = np.arange(0, 10, 2)  # 0부터 10 이전까지 2씩 증가 → [0 2 4 6 8]

# np.linspace(start, stop, num)
# - start부터 stop까지 num 개수만큼 균등하게 나눠 배열 생성
# - 소수 포함한 등분된 값 만들 때 유용
linspace_array = np.linspace(0, 1, 5)   # 0부터 1까지 5등분 → [0.   0.25 0.5  0.75 1.  ]


print("Arange 배열:", arange_array)
print("Linspace 배열:", linspace_array)

Arange 배열: [0 2 4 6 8]
Linspace 배열: [0.   0.25 0.5  0.75 1.  ]


## 9. Numpy를 이용한 통계
numpy는 파이썬에서 빠른 연산을 하기 위해 사용한다. numpy를 이용하여 평균, 표준편차, 사분위수, 왜도, 첨도를 구해봅시다.

먼저, 랜덤한 데이터를 생성해볼까요?

In [None]:
import numpy as np

# 난수 데이터 생성
# np.random.rand(10) : 0 이상 1 미만의 실수 난수 10개 생성
data = np.random.rand(10)
print(data)

[0.7857693  0.56101839 0.10661726 0.91034236 0.46482569 0.81052352
 0.68151977 0.66009821 0.31580504 0.62152141]


이제, numpy의 기본 함수들을 활용하여 평균, 표준편차, 사분위수를 각각 구해봅시다.

In [None]:
# np.mean(data) : 데이터의 평균 값 반환
print(f"평균: {np.mean(data)}")

# np.std(data) : 데이터의 표준편차(분산의 제곱근) 반환
print(f"표준편차: {np.std(data)}")

# 제 1 사분위수(25% 지점) 계산
# np.quantile(data, 0.25) : 데이터에서 25% 위치 값 반환
print(f"제 1 사분위수: {np.quantile(data, .25)}")


# 제 3 사분위수(75% 지점) 계산
# np.quantile(data, 0.75) : 데이터에서 75% 위치 값 반환
print(f"제 3 사분위수: {np.quantile(data, .75)}")

평균: 0.5918040961259309
표준편차: 0.2300383547281221
제 1 사분위수: 0.4888738604191156
제 3 사분위수: 0.7597069200104226


왜도와 첨도의 경우, numpy에서 기본으로 제공하지 않아 직접 계산해야합니다. 먼저, 왜도와 첨도를 계산하는 함수를 각각 작성해봅시다.

왜도 (Skewness):
왜도는 데이터 분포의 좌우 비대칭도를 표현하는 척도이다. 데이터의 분포가 얼마나 대칭이 아닌지를 나타내는데, 왼쪽으로 치우쳤을 때는 음수, 오른쪽으로 치우쳤을 때는 양수 값을 가지게 된다. 대부분 피어슨의 비대칭 계수를 사용하여 계산한다.

`왜도 = (평균 - 중앙값) / 표준편차`

In [None]:
# 왜도(Skewness) 계산 함수 정의
# skewness: 데이터의 비대칭 정도를 나타내는 통계량
# - 양수: 오른쪽 꼬리가 긴 분포
# - 음수: 왼쪽 꼬리가 긴 분포
# - 0에 가까움: 대칭 분포

def skewness(array:np.ndarray) -> float:
     # 평균 계산
    mean = np.mean(array)
    # 데이터 길이
    length = len(array)

    # 공식 구현 (여기서는 표본 왜도 계산과 유사한 형태)
    # (array - mean^3) 합계 → 분자
    # (array - mean)^2 합계 → 분모
    # 결과를 3/2 제곱으로 변환해 왜도 값 반환
    # np.power: Numpy에서 제곱(거듭제곱)을 계산하는 함수
    return np.power((np.sum((array - np.power(mean, 3)))/length)/(np.sum(np.power((array - mean), 2))/length), 3/2)

# 위에서 생성한 난수 data의 왜도 계산 및 출력
print(f"skewness: {skewness(data):.6f}")

skewness: 19.588608


첨도 (Kurtosis):
첨도는 분포가 정규분포보다 얼마나 뾰족하거나 완만한지를 나타내는 척도이다. 데이터가 중심에 많이 몰려 있을수록 뾰족한 모양이 되고, 두루 퍼지면 구릉모양을 보이게 된다. 첨도값이 기준보다 크면 양의 첨도 혹은 급첨, 작으면 음의 첨도 혹은 완첨이라 하는데, 기본적으로는 3이 기준 값이지만, 해석의 편의상 -3을 하여 0을 기준 값으로 하는 경우도 있다.

In [None]:
# 첨도(Kurtosis) 계산 함수
# 첨도: 데이터 분포의 뾰족한 정도를 나타내는 통계량
# - 값이 크면 분포가 뾰족(꼬리 두꺼움)
# - 값이 작으면 분포가 완만(꼬리 얇음)
# - 정규분포의 첨도는 3 (Fisher 첨도에서는 0)

def kurtosis(array:np.ndarray) -> float:
    # 평균값 계산
    mean = np.mean(array)
    # 데이터 개수(n)
    n = array.shape[0]
    # 공식:
    # n * Σ((x - mean)^4) / (Σ((x - mean)^2))^2
    # → 4차 중심적률 / (2차 중심적률)^2
    return n * np.sum(np.power((array - mean),4))/np.power(np.sum(np.power((array - mean),2)),2)

# 위에서 생성한 난수 data의 첨도 계산 후 출력
print(f"kurtosis: {kurtosis(data):.6f}")

kurtosis: 2.698534


## 10. 정리
- NumPy는 파이썬에서 숫자 계산과 과학적 작업을 위한 필수 도구입니다.
- 배열의 생성, 연산, 인덱싱, 슬라이싱 등 다양한 기능을 제공하면서도 효율적이고 강력한 성능을 보여줍니다.
- 데이터 과학, 머신 러닝, 이미지 처리 등 다양한 분야에서 NumPy는 필수적인 요소로 사용되니, 지금부터 NumPy를 배워보면 도움이 될 것입니다.