In [9]:
import os
import librosa
import librosa.display
import numpy as np
import wave
import matplotlib.pyplot as plt
from scipy.io import wavfile as wav
from matplotlib.backends.backend_pdf import PdfPages

# 한글로 쓰기
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus']=False

# 특정 오디오 파일 경로
file_path = './wav/6.가전_5762_1.wav'  # your_file.wav를 원하는 파일명으로 변경
output_file = './audio_processing.pdf'  # 결과를 저장할 PDF 파일 경로

# 파일 정보 출력
obj = wave.open(file_path, 'r')
print(f"Processing {os.path.basename(file_path)}")
print("Number of channels:", obj.getnchannels())
print("Sampling rate:", obj.getframerate())
print("Number of samples:", obj.getnframes())
print("Play time(s):", obj.getnframes() / obj.getframerate())
obj.close()

# WAV 파일 읽기
rate, data = wav.read(file_path)

# 데이터를 부동 소수점으로 변환
data = data.astype(np.float32)

# 스테레오인 경우 모노로 변환
if len(data.shape) > 1:
    data = librosa.to_mono(data.T)

# 오디오 파일 자르기
duration = data.shape[0] / rate  # 파일의 총 길이(초)
chunk_size = 4 * rate  # 4초에 해당하는 샘플 수
num_chunks = int(np.ceil(duration / 4))  # 총 몇 개의 4초 조각이 있는지

# PDF 파일 열기
with PdfPages(output_file) as pdf:
    for i in range(num_chunks):
        start_sample = i * chunk_size
        end_sample = min((i + 1) * chunk_size, data.shape[0])
        chunk_data = data[start_sample:end_sample]

        # Plot for chunk data
        plt.figure(figsize=(10, 4))
        plt.plot(chunk_data)
        plt.title(f'{os.path.basename(file_path)} - 모노 채널 - Chunk {i + 1}')
        pdf.savefig()
        plt.close()

        # Librosa를 사용하여 오디오 청크 처리
        y = chunk_data

        # MFCC 계산 (40개 계수)
        mfcc_y = librosa.feature.mfcc(y=y, sr=rate, n_mfcc=40, n_fft=1024, hop_length=512)
        plt.figure(figsize=(10, 4))
        librosa.display.specshow(mfcc_y, x_axis='time')
        plt.colorbar()
        plt.title(f'MFCC (40 계수) - {os.path.basename(file_path)} - Chunk {i + 1}')
        plt.tight_layout()
        pdf.savefig()
        plt.close()

        # MFCC 계산 (20개 계수)
        mfcc_y = librosa.feature.mfcc(y=y, sr=rate, n_mfcc=20, n_fft=1024, hop_length=512)
        plt.figure(figsize=(10, 4))
        librosa.display.specshow(mfcc_y, x_axis='time')
        plt.colorbar()
        plt.title(f'MFCC (20 계수) - {os.path.basename(file_path)} - Chunk {i + 1}')
        plt.tight_layout()
        pdf.savefig()
        plt.close()


Processing 6.가전_5762_1.wav
Number of channels: 2
Sampling rate: 44100
Number of samples: 895230
Play time(s): 20.3


In [11]:
import os
import librosa
import librosa.display
import numpy as np
import wave
import matplotlib.pyplot as plt
from scipy.io import wavfile as wav
from matplotlib.backends.backend_pdf import PdfPages

# 한글로 쓰기
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False

# 특정 오디오 파일 경로
file_path = './wav/6.가전_5762_1.wav'  # your_file.wav를 원하는 파일명으로 변경
output_file = './audio_processing.pdf'  # 결과를 저장할 PDF 파일 경로

# 파일 정보 출력
obj = wave.open(file_path, 'r')
print(f"Processing {os.path.basename(file_path)}")
print("Number of channels:", obj.getnchannels())
print("Sampling rate:", obj.getframerate())
print("Number of samples:", obj.getnframes())
print("Play time(s):", obj.getnframes() / obj.getframerate())
obj.close()

# WAV 파일 읽기
rate, data = wav.read(file_path)

# 데이터를 부동 소수점으로 변환
data = data.astype(np.float32)

# 스테레오인 경우 모노로 변환
if len(data.shape) > 1:
    data = librosa.to_mono(data.T)

# 오디오 파일 자르기
duration = data.shape[0] / rate  # 파일의 총 길이(초)
chunk_size = 4 * rate  # 4초에 해당하는 샘플 수
num_chunks = int(np.ceil(duration / 4))  # 총 몇 개의 4초 조각이 있는지

# PDF 파일 열기
with PdfPages(output_file) as pdf:
    for i in range(num_chunks):
        start_sample = i * chunk_size
        end_sample = min((i + 1) * chunk_size, data.shape[0])
        chunk_data = data[start_sample:end_sample]

        # 시간 축 생성 (0초에서 4초로 설정)
        time_axis = np.arange(start_sample, end_sample) / rate
        time_axis = time_axis - time_axis[0]  # 시작 시간을 0초로 맞춤

        # Plot for chunk data
        plt.figure(figsize=(10, 4))
        plt.plot(time_axis, chunk_data)
        plt.xlabel('Time (s)')
        plt.ylabel('Amplitude')
        plt.title(f'{os.path.basename(file_path)} - 모노 채널 - Chunk {i + 1}')
        pdf.savefig()
        plt.close()

        # Librosa를 사용하여 오디오 청크 처리
        y = chunk_data

        # MFCC 계산 (40개 계수)
        mfcc_y = librosa.feature.mfcc(y=y, sr=rate, n_mfcc=40, n_fft=1024, hop_length=512)
        plt.figure(figsize=(10, 4))
        librosa.display.specshow(mfcc_y, sr=rate, x_axis='time', hop_length=512)
        plt.colorbar()
        plt.title(f'MFCC (40 계수) - {os.path.basename(file_path)} - Chunk {i + 1}')
        plt.tight_layout()
        pdf.savefig()
        plt.close()

        # MFCC 계산 (20개 계수)
        mfcc_y = librosa.feature.mfcc(y=y, sr=rate, n_mfcc=20, n_fft=1024, hop_length=512)
        plt.figure(figsize=(10, 4))
        librosa.display.specshow(mfcc_y, sr=rate, x_axis='time', hop_length=512)
        plt.colorbar()
        plt.title(f'MFCC (20 계수) - {os.path.basename(file_path)} - Chunk {i + 1}')
        plt.tight_layout()
        pdf.savefig()
        plt.close()


Processing 6.가전_5762_1.wav
Number of channels: 2
Sampling rate: 44100
Number of samples: 895230
Play time(s): 20.3
