# 1주차: NumPy 기초와 배열 연산

## 학습 목표
- 데이터 분석의 기반이 되는 NumPy 이해하자
- NumPy 배열 생성과 인덱싱 방법을 익히자
- 배열 연산과 브로드캐스팅을 활용하자
- 기본 통계 함수들을 음원 데이터에 적용해보자

## 1. NumPy 라이브러리 소개

NumPy(Numerical Python)는 파이썬에서 과학적 컴퓨팅을 위한 핵심 라이브러리다. 음원 분석 연구에서 디지털 신호 데이터를 효율적으로 처리하기 위해 필수적이다.

N차원 배열 객체와 이를 다루는 도구들을 제공하여, 대용량 데이터를 빠르게 처리할 수 있게 해준다.
C언어로 구현된 핵심 부분 덕분에 순수 파이썬보다 수십 배에서 수백 배 빠른 성능을 보여준다.
음원 처리에서는 시간축 데이터(1차원), 스테레오 신호(2차원), 스펙트로그램*(2차원) 등을 효율적으로 다룰 수 있다.

*스펙토그램: 소리의 스펙트럼을 시각화하여 그래프로 표현하는 기법

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore', category=DeprecationWarning, module='matplotlib')

# 기본 설정
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.figsize'] = (10, 6)

print(f"NumPy 버전: {np.__version__}")
print("NumPy 라이브러리 로딩 완료!")

## 2. NumPy 배열 생성

### 2.1 기본 배열 생성 방법들

NumPy 배열(ndarray)는 동일한 데이터 타입의 원소들을 담는 다차원 컨테이너다.
파이썬 리스트와 달리 메모리 효율성이 높고 벡터화된 연산을 지원한다.
음원 데이터는 주로 1차원(모노) 또는 2차원(스테레오, 다채널) 배열로 표현된다.

In [None]:
# 1차원 배열 생성
arr_1d = np.array([1, 2, 3, 4, 5])
print("1차원 배열:", arr_1d)
print("배열 형태:", arr_1d.shape)
print("배열 차원:", arr_1d.ndim)
print("데이터 타입:", arr_1d.dtype)
print()

# 2차원 배열 생성
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("2차원 배열:")
print(arr_2d)
print("배열 형태:", arr_2d.shape)
print("배열 차원:", arr_2d.ndim)
print("데이터 타입:", arr_2d.dtype)


### 2.2 배열 생성 함수들

NumPy는 다양한 패턴의 배열을 쉽게 생성할 수 있는 함수들을 제공한다.
이러한 함수들은 신호 처리에서 필터 계수, 윈도우 함수, 시간축 등을 만들 때 매우 유용하다.
특히 `linspace`와 `arange`는 시간축 생성과 주파수 분석에서 핵심적으로 사용된다.

In [None]:
# 0으로 채운 배열
zeros_arr = np.zeros(5)
print("0으로 채운 배열:", zeros_arr)

# 1로 채운 배열
ones_arr = np.ones((2, 3))
print("1로 채운 2x3 배열:")
print(ones_arr)

# 특정 값으로 채운 배열
full_arr = np.full(4, 7.5)
print("7.5로 채운 배열:", full_arr)

# 등차수열 배열
range_arr = np.arange(0, 10, 2)
print("등차수열 배열 (0~10, 간격 2):", range_arr)

# 선형 공간 배열
linspace_arr = np.linspace(0, 1, 5)
print("선형 공간 배열 (0~1, 5개 점):", linspace_arr)

## 3. 배열 인덱싱과 슬라이싱

### 3.1 기본 인덱싱

배열의 특정 원소나 부분을 선택하는 것은 신호 처리에서 매우 중요한 기능이다.
음원 데이터에서 특정 시간 구간을 추출하거나, 특정 조건을 만족하는 샘플들을 찾을 때 사용한다.
파이썬의 슬라이싱 문법을 그대로 사용하지만, 훨씬 빠른 성능을 제공한다.

In [None]:
# 음원 데이터를 시뮬레이션한 배열 생성
audio_data = np.array([0.1, 0.3, -0.2, 0.8, -0.5, 0.2, 0.7, -0.1])
print("음원 데이터 샘플:", audio_data)
print()

# 인덱싱
print("첫 번째 샘플:", audio_data[0])
print("마지막 샘플:", audio_data[-1])
print("세 번째 샘플:", audio_data[2])
print()

# 슬라이싱
print("처음 3개 샘플:", audio_data[:3])
print("마지막 3개 샘플:", audio_data[-3:])
print("2번째부터 5번째까지:", audio_data[2:6])
print("짝수 인덱스 샘플들:", audio_data[::2])

### 3.2 2차원 배열 인덱싱

다채널 음원 데이터는 2차원 배열로 표현되며, 각 행이나 열이 특별한 의미를 가진다.
스테레오 음원의 경우 보통 첫 번째 차원이 채널, 두 번째 차원이 시간을 나타낸다.
2차원 인덱싱을 통해 특정 채널의 신호나 특정 시점의 모든 채널 값을 쉽게 추출할 수 있다.

In [None]:
# 스테레오 음원 데이터 시뮬레이션 (2채널)
stereo_data = np.array([
    [0.1, 0.3, -0.2, 0.8],  # 왼쪽 채널
    [-0.1, 0.2, 0.5, -0.3]  # 오른쪽 채널
])

print("스테레오 음원 데이터:")
print(stereo_data)
print("배열 형태:", stereo_data.shape)
print()

# 채널별 접근
print("왼쪽 채널 (첫 번째 행):", stereo_data[0])
print("오른쪽 채널 (두 번째 행):", stereo_data[1])
print()

# 특정 시점의 모든 채널 값
print("첫 번째 시점의 모든 채널:", stereo_data[:, 0])
print("세 번째 시점의 모든 채널:", stereo_data[:, 2])
print()

# 특정 요소 접근
print("왼쪽 채널의 두 번째 샘플:", stereo_data[0, 1])
print("오른쪽 채널의 마지막 샘플:", stereo_data[1, -1])

## 4. 배열 연산

### 4.1 기본 산술 연산

NumPy의 벡터화된 연산은 신호 처리의 핵심이다.
전체 배열에 대해 한 번에 연산을 수행할 수 있어, 반복문을 사용하는 것보다 훨씬 빠르다.
음원 처리에서 증폭, 감쇠, 믹싱, 필터링 등의 기본 연산들을 효율적으로 수행할 수 있다.

In [None]:
# 음원 신호 처리를 위한 배열 연산
signal = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
print("원본 신호:", signal)

# 스칼라 연산
amplified = signal * 2  # 증폭
attenuated = signal * 0.5  # 감쇠
offset = signal + 1  # DC 오프셋 추가

print("2배 증폭:", amplified)
print("0.5배 감쇠:", attenuated)
print("DC 오프셋 +1:", offset)
print()

# 배열 간 연산
signal1 = np.array([1, 2, 3, 4, 5])
signal2 = np.array([2, 1, 4, 2, 3])

sum_signals = signal1 + signal2  # 신호 합성
diff_signals = signal1 - signal2  # 신호 차이
mult_signals = signal1 * signal2  # 원소별 곱셈

print("신호 1:", signal1)
print("신호 2:", signal2)
print("신호 합성:", sum_signals)
print("신호 차이:", diff_signals)
print("원소별 곱셈:", mult_signals)

### 4.2 브로드캐스팅

브로드캐스팅은 서로 다른 크기의 배열 간에도 연산을 가능하게 해주는 강력한 기능이다.
다채널 음원에서 각 채널마다 다른 처리를 적용하거나, 시간에 따른 변화를 적용할 때 매우 유용하다.
메모리 효율성과 코드 간결성을 동시에 제공하는 NumPy의 핵심 특징 중 하나다.

In [None]:
# 스테레오 신호에 다른 처리 적용
stereo_signal = np.array([
    [1.0, 2.0, 3.0, 4.0],  # 왼쪽 채널
    [2.0, 1.0, 4.0, 2.0]   # 오른쪽 채널
])

print("스테레오 신호:")
print(stereo_signal)
print("형태:", stereo_signal.shape)
print()

# 각 채널에 다른 게인 적용
gains = np.array([0.8, 1.2])  # 왼쪽: 0.8, 오른쪽: 1.2
gains = gains.reshape(2, 1)  # (2, 1) 형태로 변경

processed_signal = stereo_signal * gains

print("채널별 게인:", gains.flatten())
print("처리된 스테레오 신호:")
print(processed_signal)
print()

# 시간에 따른 페이드 효과
fade_curve = np.linspace(1.0, 0.0, 4)  # 1에서 0으로 페이드
faded_signal = stereo_signal * fade_curve

print("페이드 커브:", fade_curve)
print("페이드 적용된 신호:")
print(faded_signal)

## 5. 기본 통계 함수

### 5.1 기본 통계량 계산

음원 신호의 특성을 파악하는 첫 번째 단계는 기본적인 통계량을 계산하는 것이다.
평균값은 DC 성분을, 표준편차는 신호의 동적 범위를, RMS는 신호의 에너지를 나타낸다.
이러한 통계량들은 신호의 품질 평가, 정규화, 그리고 후속 처리의 기준점을 제공한다.

In [None]:
# 음원 신호의 통계적 특성 분석
audio_signal = np.array([0.1, -0.3, 0.8, -0.2, 0.5, -0.7, 0.3, -0.1, 0.6, -0.4])

print("음원 신호:", audio_signal)
print(f"신호 길이: {len(audio_signal)} 샘플")
print()

# 기본 통계량
mean_val = np.mean(audio_signal)
std_val = np.std(audio_signal)
min_val = np.min(audio_signal)
max_val = np.max(audio_signal)
peak_to_peak = max_val - min_val

print(f"평균 (DC 성분): {mean_val:.3f}")
print(f"표준편차 (RMS 근사): {std_val:.3f}")
print(f"최솟값: {min_val:.3f}")
print(f"최댓값: {max_val:.3f}")
print(f"Peak-to-Peak: {peak_to_peak:.3f}")
print()

# 추가 통계량
median_val = np.median(audio_signal)
var_val = np.var(audio_signal)
rms_val = np.sqrt(np.mean(audio_signal**2))  # RMS 값

print(f"중앙값: {median_val:.3f}")
print(f"분산: {var_val:.3f}")
print(f"RMS 값: {rms_val:.3f}")

### 5.2 축별 통계 계산

다차원 데이터에서는 특정 축을 따라 통계량을 계산할 수 있다.
다채널 음원에서는 채널별 특성 비교나 시간별 변화 분석이 중요하다.
`axis` 매개변수를 활용하여 원하는 방향으로 통계량을 계산할 수 있으며, 이는 오디오 분석에서 매우 유용한 기능이다.

In [None]:
# 다채널 음원 데이터 분석
multichannel_data = np.random.randn(3, 100)  # 3채널, 100 샘플
print(multichannel_data)

multichannel_data[0] *= 0.5  # 첫 번째 채널은 작은 진폭
multichannel_data[1] *= 1.0  # 두 번째 채널은 중간 진폭
multichannel_data[2] *= 1.5  # 세 번째 채널은 큰 진폭

print("다채널 데이터 형태:", multichannel_data.shape)
print()

# 채널별 통계 (axis=1: 시간 축을 따라 계산)
channel_means = np.mean(multichannel_data, axis=1)
channel_stds = np.std(multichannel_data, axis=1)
channel_rms = np.sqrt(np.mean(multichannel_data**2, axis=1))

print("채널별 평균:")
for i, mean in enumerate(channel_means):
    print(f"  채널 {i+1}: {mean:.3f}")

print("\n채널별 표준편차:")
for i, std in enumerate(channel_stds):
    print(f"  채널 {i+1}: {std:.3f}")

print("\n채널별 RMS:")
for i, rms in enumerate(channel_rms):
    print(f"  채널 {i+1}: {rms:.3f}")

# 시간별 통계 (axis=0: 채널 축을 따라 계산)
time_means = np.mean(multichannel_data, axis=0)
print(f"\n시간별 평균 (처음 10개 샘플): {time_means[:10]}")

## 6. 음원 데이터 시뮬레이션과 분석

### 6.1 사인파 생성과 분석

실제 음원 데이터를 다루기 전에 수학적으로 정의된 신호로 연습하는 것이 중요하다.
사인파는 가장 기본적인 주기 신호로, 푸리에 분석의 기본 구성 요소다.
사인파의 통계적 특성을 이해하면 복잡한 음원 신호를 분석하는 기초를 다질 수 있다.

In [None]:
# 샘플링 파라미터
sample_rate = 1000  # 1kHz
duration = 2.0  # 2초
frequency = 50  # 50Hz 사인파

# 시간 배열 생성
t = np.linspace(0, duration, int(sample_rate * duration))
print(f"시간 배열 길이: {len(t)} 샘플")
print(f"샘플링 간격: {t[1] - t[0]:.4f} 초")
print()

# 사인파 생성
sine_wave = np.sin(2 * np.pi * frequency * t)

# 통계 분석
print("사인파 통계 분석:")
print(f"평균: {np.mean(sine_wave):.6f}")
print(f"표준편차: {np.std(sine_wave):.3f}")
print(f"RMS: {np.sqrt(np.mean(sine_wave**2)):.3f}")
print(f"최댓값: {np.max(sine_wave):.3f}")
print(f"최솟값: {np.min(sine_wave):.3f}")

# 시각화
plt.figure(figsize=(12, 4))
plt.plot(t[:200], sine_wave[:200])  # 처음 200개 샘플만 표시
plt.title(f'{frequency}Hz 사인파 (처음 0.2초)')
plt.xlabel('시간 (초)')
plt.ylabel('진폭')
plt.grid(True, alpha=0.3)
plt.show()

### 6.2 노이즈가 포함된 신호 분석

실제 음원에는 항상 노이즈가 포함되어 있으며, 이를 정량적으로 분석하는 것이 중요하다.
신호 대 잡음 비율(SNR)은 신호 품질을 평가하는 핵심 지표다.
노이즈가 신호의 통계적 특성에 미치는 영향을 이해하면, 실제 음원 처리에서 더 나은 판단을 할 수 있다.

In [None]:
# 노이즈 추가
noise_level = 0.3
noise = np.random.normal(0, noise_level, len(sine_wave))
noisy_signal = sine_wave + noise

# 신호별 통계 비교
signals = {
    "원본 사인파": sine_wave,
    "노이즈": noise,
    "노이즈 포함 신호": noisy_signal
}

print("신호별 통계 비교:")
print("-" * 60)
print(f"{'신호 종류':<15} {'평균':<10} {'표준편차':<10} {'RMS':<10} {'SNR(dB)':<10}")
print("-" * 60)

for name, signal in signals.items():
    mean_val = np.mean(signal)
    std_val = np.std(signal)
    rms_val = np.sqrt(np.mean(signal**2))
    
    if name == "노이즈 포함 신호":
        # SNR 계산 (Signal-to-Noise Ratio)
        signal_power = np.mean(sine_wave**2)
        noise_power = np.mean(noise**2)
        snr_db = 10 * np.log10(signal_power / noise_power)
        snr_str = f"{snr_db:.1f}"
    else:
        snr_str = "-"
    
    print(f"{name:<15} {mean_val:<10.3f} {std_val:<10.3f} {rms_val:<10.3f} {snr_str:<10}")

# 시각화
fig, axes = plt.subplots(3, 1, figsize=(12, 8))
time_slice = slice(0, 500)  # 처음 0.5초

axes[0].plot(t[time_slice], sine_wave[time_slice], 'b-', alpha=0.8)
axes[0].set_title('원본 사인파')
axes[0].set_ylabel('진폭')
axes[0].grid(True, alpha=0.3)

axes[1].plot(t[time_slice], noise[time_slice], 'r-', alpha=0.6)
axes[1].set_title('노이즈')
axes[1].set_ylabel('진폭')
axes[1].grid(True, alpha=0.3)

axes[2].plot(t[time_slice], noisy_signal[time_slice], 'g-', alpha=0.8)
axes[2].set_title('노이즈 포함 신호')
axes[2].set_xlabel('시간 (초)')
axes[2].set_ylabel('진폭')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 7. 추천 실습

### 실습 1: 배열 생성과 조작 연습

오늘 배운 내용을 스스로 복습해보는 시간을 가져보는 것을 추천한다.
다양한 형태의 배열을 만들어보고, 연산을 적용해보면서 NumPy의 동작 원리를 체득할 수 있다.
특히 브로드캐스팅 개념은 여러 번 실습해보면서 익히는 것이 좋다.

In [None]:
# 실습 제안:
# 1. 서로 다른 크기의 배열을 생성해보고 shape 확인하기
# 2. 3차원 배열을 만들어보고 각 차원의 의미 이해하기
# 3. 랜덤 배열을 생성하고 통계량 계산해보기
# 4. 두 배열의 브로드캐스팅이 가능한 경우와 불가능한 경우 실험해보기

### 실습 2: 데이터 분석 함수 작성

자신만의 데이터 분석 함수를 만들어보는 것도 좋은 학습 방법이다.
평균, 분산, 최댓값 등을 계산하는 함수를 직접 구현해보면 NumPy의 내장 함수들이 얼마나 효율적인지 체감할 수 있다.
또한 데이터 정규화나 스케일링 함수를 만들어보면서 데이터 전처리의 중요성을 이해할 수 있다.

In [None]:
# 실습 제안:
# 1. 데이터의 기본 통계량(평균, 분산, 최댓값, 최솟값)을 계산하는 함수 만들기
# 2. 데이터를 0과 1 사이로 정규화하는 함수 구현하기
# 3. 이동 평균(moving average)을 계산하는 함수 작성하기
# 4. 두 배열 간의 상관계수를 계산하는 함수 만들어보기

### 심화 학습을 위한 제안

관심이 있다면 다음과 같은 주제들도 탐구해보길 권한다:

1. **배열 형태 변환**: `reshape()`, `transpose()`, `flatten()` 등의 메서드 활용법
2. **고급 인덱싱**: 불리언 인덱싱, 팬시 인덱싱을 통한 효율적인 데이터 선택
3. **선형대수 연산**: `np.dot()`, `np.linalg` 모듈을 활용한 행렬 연산
4. **파일 입출력**: `np.save()`, `np.load()`를 통한 배열 데이터 저장과 불러오기

이러한 개념들은 실제 데이터 분석 프로젝트에서 매우 유용하게 활용될 수 있다.