# 음성 데이터 머신러닝 실습

## 1. 필수 라이브러리 설치

In [2]:
!pip install librosa mysql-connector-python sqlalchemy pymysql pandas tqdm matplotlib cryptography



## 2. Python으로 MySQL 데이터베이스 연결

In [1]:
from sqlalchemy import create_engine, Column, Integer, String, Float, Date, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker, relationship
from datetime import datetime

# MySQL 데이터베이스 연결 URL
DATABASE_URL =
engine = create_engine(DATABASE_URL)
Base = declarative_base()
Session = sessionmaker(bind=engine)
session = Session()

## 3. 3단계: SQLAlchemy로 테이블 매핑

In [10]:
class AudioFile(Base):
    __tablename__ = 'audio_files'

    id = Column(Integer, primary_key=True)
    file_path = Column(String(255), unique=True, nullable=False)
    recorder_id = Column(Integer)
    record_date = Column(Date)
    duration = Column(Float)
    peak_level = Column(Float)
    rms_level = Column(Float, nullable=True)

    json_labels = relationship("JsonLabel", back_populates="audio_file")

class JsonLabel(Base):
    __tablename__ = 'json_labels'

    id = Column(Integer, primary_key=True)
    audio_file_id = Column(Integer, ForeignKey('audio_files.id'))
    articulation_score = Column(Float)
    prosody_score = Column(Float)
    rating_sum = Column(Float)
    transcription = Column(String(255))
    phoneme_text = Column(String(255))

    audio_file = relationship("AudioFile", back_populates="json_labels")


## 4. 폴더 내 모든 파일 검색 및 매칭

In [5]:
import os
from tqdm import tqdm

def get_files_in_directory(directory, extension):
    """주어진 디렉토리에서 확장자가 일치하는 파일 목록 반환"""
    return [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith(extension)]

def match_files(wav_files, json_labels_df):
    """WAV 파일에 대해 JSON 파일을 매칭하는 함수"""
    matched_files = []
    for wav_path in wav_files:
        wav_file_name = os.path.basename(wav_path)  # 파일 이름만 추출
        print(f"매칭하려는 WAV 파일: {wav_file_name}")  # 디버깅용 출력

        # JSON 파일에서 'filename' 컬럼이 wav_file_name과 정확히 일치하는지 확인
        matched_json = json_labels_df[json_labels_df['filename'] == wav_file_name]

        if not matched_json.empty:
            json_file_path = matched_json['json_file'].values[0]  # JSON 파일 경로
            print(f"매칭된 JSON 파일: {json_file_path}")  # 디버깅용 출력
            matched_files.append((wav_path, json_file_path))
        else:
            print(f"매칭되지 않은 WAV 파일: {wav_file_name}")  # 디버깅용 출력

    return matched_files


def get_all_files(folder_path, extension):
    """디렉토리에서 파일을 순차적으로 불러오는 함수"""
    files = []
    for root, _, filenames in tqdm(os.walk(folder_path), desc="파일 불러오는 중", ncols=100):
        files.extend(get_files_in_directory(root, extension))
    return files

def process_files(folder_path, wav_extension='.wav', json_extension='.json'):
    # 파일 불러오기
    wav_files = get_all_files(folder_path, wav_extension)
    json_files = get_all_files(folder_path, json_extension)

    # JSON 파일을 사전으로 변환 (파일 이름을 키로 사용)
    json_files_dict = {os.path.basename(json_file): json_file for json_file in json_files}

    # 매칭 작업
    matched_files = []
    with tqdm(total=len(wav_files), desc="매칭 중", ncols=100) as pbar:
        for wav_file in wav_files:
            matched_files.extend(match_files([wav_file], json_files_dict))
            pbar.update(1)  # 진행 상태 업데이트
            pbar.set_postfix({"매칭된 파일 수": len(matched_files)})

    return matched_files

In [12]:
import os
from sqlalchemy.orm import sessionmaker
from tqdm import tqdm
from datetime import datetime
import json

# SQLAlchemy 설정
DATABASE_URL = "mysql+pymysql://root:12345678@localhost/pronunciation_db"
engine = create_engine(DATABASE_URL)
Session = sessionmaker(bind=engine)
session = Session()

# JSON 파일을 데이터베이스에 등록하는 함수
def save_json_to_db(json_files):
    """JSON 파일을 json_labels 테이블에 저장하는 함수"""
    for json_file in tqdm(json_files, desc="JSON 파일 등록 중", ncols=100):
        # JSON 파일 로드
        with open(json_file, 'r', encoding='utf-8') as f:
            json_data = json.load(f)

        # JsonLabel 객체 생성
        json_label = JsonLabel(
            audio_file_id=json_data.get('audio_file_id', None),  # 예시: audio_file_id
            articulation_score=json_data.get('articulation_score', None),
            prosody_score=json_data.get('prosody_score', None),
            rating_sum=json_data.get('rating_sum', None),
            transcription=json_data.get('transcription', ''),
            phoneme_text=json_data.get('phoneme_text', '')
        )

        # 데이터베이스에 저장
        session.add(json_label)

    session.commit()
    print(f"{len(json_files)}개의 JSON 파일이 데이터베이스에 저장되었습니다.")

# JSON 파일 경로 불러오기 함수
def get_all_json_files(folder_path):
    json_files = []
    for root, _, filenames in tqdm(os.walk(folder_path), desc="파일 불러오는 중", ncols=100):
        json_files.extend([os.path.join(root, f) for f in filenames if f.endswith('.json')])
    return json_files

# 예시 폴더 경로 설정
folder_path = '/Volumes/준서/ML용 데이터/037.교육용 한국인의 영어 음성 데이터/01-1.정식개방데이터/Training'

# JSON 파일 불러오기
json_files = get_all_json_files(folder_path)

# JSON 파일을 데이터베이스에 저장
save_json_to_db(json_files)


파일 불러오는 중: 62it [35:24, 34.27s/it]
JSON 파일 등록 중:   0%|                                                  | 0/81172 [14:40<?, ?it/s]


JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0)

## 5. 음성 분석 함수 정의

In [29]:
import librosa
import json
from datetime import datetime

def extract_audio_features(wav_path):
    y, sr = librosa.load(wav_path, sr=None)
    mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
    mfcc_mean = mfcc.mean(axis=1)
    return mfcc_mean, y.shape[0] / sr  # MFCC 평균과 길이(초) 반환

## 6. 데이터베이스에 데이터 저장 함수 정의

In [30]:
def add_data_to_db(audio_file_path, json_file_path):
    # 오디오 파일의 피처 추출
    mfcc_mean, duration = extract_audio_features(audio_file_path)
    
    # JSON 파일에서 발음 평가 데이터 불러오기
    with open(json_file_path, 'r') as f:
        json_data = json.load(f)
    
    # audio_files 테이블에 데이터 추가
    audio_file = AudioFile(
        file_path=audio_file_path,
        recorder_id=100477,
        record_date=datetime.strptime(json_data['recrdDt'], '%Y-%m-%d').date(),
        duration=duration,
        peak_level=json_data.get('peakLevel', None)
    )
    session.add(audio_file)
    session.commit()

    # json_labels 테이블에 데이터 추가
    json_label = JsonLabel(
        audio_file_id=audio_file.id,
        articulation_score=json_data['itemScript']['rating']['articulationScore'],
        prosody_score=json_data['itemScript']['rating']['prosodyScore'],
        rating_sum=json_data['itemScript']['ratingSum'],
        transcription=json_data['itemScript']['contents'][0]['sentence'],
        phoneme_text=json_data['itemScript']['contents'][0]['phonemeText']
    )
    session.add(json_label)
    session.commit()

## 7. 폴더 내 모든 파일 분석 및 매칭

In [46]:
from tqdm import tqdm

# 폴더 경로 설정
folder_path = '/Volumes/준서/ML용 데이터/037.교육용 한국인의 영어 음성 데이터/01-1.정식개방데이터'

# 병렬로 .wav와 .json 파일 불러오기
matched_files = process_files(folder_path)

# 매칭된 파일의 개수 출력
print(f"총 {len(matched_files)}개의 매칭된 파일이 있습니다.")

파일 불러오는 중: 126it [1:02:20, 29.69s/it]
파일 불러오는 중: 126it [1:47:43, 51.29s/it]
매칭 중:   0%|                                                            | 0/78283 [00:00<?, ?it/s]


KeyError: 'filename'

## 8. 데이터베이스 등록 및 데이터 조회

In [45]:
import os
import pandas as pd
from sqlalchemy import create_engine
from tqdm import tqdm

# MySQL 데이터베이스 연결
DATABASE_URL =
engine = create_engine(DATABASE_URL)

# audio_files와 json_labels 테이블에서 데이터 불러오기
audio_files_df = pd.read_sql_table('audio_files', con=engine)
json_labels_df = pd.read_sql_table('json_labels', con=engine)

# 파일 불러오기 함수
def get_all_files(folder_path, extension):
    files = []
    for root, _, filenames in tqdm(os.walk(folder_path), desc="파일 불러오는 중", ncols=100):
        files.extend([os.path.join(root, f) for f in filenames if f.endswith(extension)])
    return files

# 매칭된 파일을 데이터베이스에 저장하는 함수
def save_to_db(matched_files):
    """매칭된 파일을 데이터베이스에 저장"""
    matched_audio_files = []
    matched_json_labels = []

    for wav_path, json_path in matched_files:
        # audio_files 테이블에 파일 경로 삽입
        audio_file_data = {'file_path': wav_path}
        matched_audio_files.append(audio_file_data)

        # json_labels 테이블에 관련된 json 파일의 id 삽입
        json_data = {'audio_file_id': len(matched_audio_files), 'json_file': json_path}
        matched_json_labels.append(json_data)

    # 데이터베이스에 저장
    audio_files_df = pd.DataFrame(matched_audio_files)
    json_labels_df = pd.DataFrame(matched_json_labels)

    # audio_files 테이블에 데이터 추가
    audio_files_df.to_sql('audio_files', con=engine, if_exists='append', index=False)

    # json_labels 테이블에 데이터 추가
    json_labels_df.to_sql('json_labels', con=engine, if_exists='append', index=False)

    print(f"{len(matched_files)}개의 매칭된 파일이 데이터베이스에 저장되었습니다.")

# 매칭 함수
def match_files(wav_files, json_labels_df):
    """WAV 파일에 대해 JSON 파일을 매칭하는 함수"""
    matched_files = []
    for wav_path in wav_files:
        wav_file_name = os.path.basename(wav_path)
        matched_json = json_labels_df[json_labels_df['filename'] == wav_file_name]
        if not matched_json.empty:
            json_file_path = matched_json['json_file'].values[0]  # JSON 파일 경로
            matched_files.append((wav_path, json_file_path))
    return matched_files

# 예시 경로 설정
folder_path = '/path/to/your/folder'

# WAV 파일 경로 불러오기
wav_files = get_all_files(folder_path, '.wav')

# 매칭 작업
matched_files = match_files(wav_files, json_labels_df)

# 매칭된 파일을 데이터베이스에 저장
save_to_db(matched_files)


파일 불러오는 중: 0it [00:00, ?it/s]

0개의 매칭된 파일이 데이터베이스에 저장되었습니다.





## 9. 데이터 병합 및 전처리

In [None]:
# audio_file_id 기준으로 두 데이터프레임 병합
merged_df = pd.merge(json_labels_df, audio_files_df, left_on='audio_file_id', right_on='id', suffixes=('_json', '_audio'))

# 필요하지 않은 열 삭제
merged_df = merged_df.drop(columns=['id_json', 'id_audio', 'file_path'])

# 결측값 확인
print(merged_df.isnull().sum())

# 결측값 처리 (예시: 결측값을 0으로 대체)
merged_df = merged_df.fillna(0)
print(merged_df.head())

## 10. 기초 통계 분석

In [None]:
# 기초 통계량 출력
print(merged_df[['articulation_score', 'prosody_score', 'rating_sum']].describe())

# 히스토그램으로 각 점수의 분포 시각화
import matplotlib.pyplot as plt

merged_df['articulation_score'].hist(bins=10)
plt.title('Articulation Score Distribution')
plt.xlabel('Articulation Score')
plt.ylabel('Frequency')
plt.show()

merged_df['prosody_score'].hist(bins=10)
plt.title('Prosody Score Distribution')
plt.xlabel('Prosody Score')
plt.ylabel('Frequency')
plt.show()

merged_df['rating_sum'].hist(bins=10)
plt.title('Rating Sum Distribution')
plt.xlabel('Rating Sum')
plt.ylabel('Frequency')
plt.show()


## 11. 피쳐 엔지니어

In [None]:
# 추가 피처 생성 예시: MFCC 평균의 합, 발음 평가 점수의 합
merged_df['mfcc_sum'] = merged_df[['duration', 'peak_level']].sum(axis=1)
merged_df['score_sum'] = merged_df['articulation_score'] + merged_df['prosody_score']

## 12. 머신러닝 모델을 사용한 예측

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 타겟 변수와 피처 설정
X = merged_df[['duration', 'peak_level', 'mfcc_sum', 'score_sum']]
y = merged_df['rating_sum']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 및 평가
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

## 13. 결과 시각화

In [None]:
# 실제 값과 예측 값 비교 시각화
plt.scatter(y_test, y_pred)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2)
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.title('Actual vs Predicted Rating Sum')
plt.show()