In [1]:
import random
import os

# 경로 및 파일 설정
input_file = '/userHome/userhome2/dahyun/DeepLearningExamples/PyTorch/SpeechSynthesis/FastPitch/LJSpeech-1.1/ljs_audio_pitch_text_all.txt'
output_dir = '/userHome/userhome2/dahyun/DeepLearningExamples/PyTorch/SpeechSynthesis/FastPitch/LJSpeech-1.1/seed_all'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 데이터셋 로드 (공백 및 빈 줄 제거)
with open(input_file, 'r') as f:
    data = [line.strip() for line in f.readlines() if line.strip()]  # 공백 또는 빈 줄을 제거

# 시드별 데이터셋 분할 함수
def split_data(seed, data):
    random.seed(seed)
    random.shuffle(data)
    
    # 고정된 크기 설정
    test_size = 2620  # 고정된 test 크기
    train_size = 7860  # 고정된 train 크기
    val_size = 2620    # 고정된 validation 크기
    
    # test 데이터를 정확히 2620개로 떼어냄
    test_data = data[:test_size]
    
    # 남은 데이터를 train + validation으로 분할
    train_val_data = data[test_size:]
    
    # train 데이터를 7860개, validation 데이터를 2620개로 정확히 분할
    train_data = train_val_data[:train_size]
    val_data = train_val_data[train_size:train_size + val_size]
    
    return train_data, val_data, test_data

# 시드별로 데이터셋 분할 및 폴더에 저장
for seed in range(10):
    print(f"\n[INFO] Processing seed {seed}")
    train, val, test = split_data(seed, data)
    
    
    # 파일 경로 설정
    train_file = os.path.join(output_dir, f'train_seed_{seed}.txt')
    val_file = os.path.join(output_dir, f'val_seed_{seed}.txt')
    test_file = os.path.join(output_dir, f'test_seed_{seed}.txt')
    
    # 파일에 train, val, test 데이터 저장
    with open(train_file, 'w') as f:
        f.write("\n".join(train) + "\n")  # 마지막에 공백 줄이 없도록 처리
    with open(val_file, 'w') as f:
        f.write("\n".join(val) + "\n")
    with open(test_file, 'w') as f:
        f.write("\n".join(test) + "\n")
    
    # 각 데이터셋의 길이 출력
    print(f"[INFO] Seed {seed}:")
    print(f"Train set size: {len(train)}")
    print(f"Validation set size: {len(val)}")
    print(f"Test set size: {len(test)}\n")

print("Data split and saved for all seeds.")



[INFO] Processing seed 0
[INFO] Seed 0:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 1
[INFO] Seed 1:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 2
[INFO] Seed 2:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 3
[INFO] Seed 3:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 4
[INFO] Seed 4:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 5
[INFO] Seed 5:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 6
[INFO] Seed 6:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 7
[INFO] Seed 7:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing seed 8
[INFO] Seed 8:
Train set size: 7860
Validation set size: 2616
Test set size: 2620


[INFO] Processing 

In [12]:
import numpy
import scipy
import pyworld
import sklearn
import matplotlib
import python_speech_features
import torch
import apex

print("numpy 버전:", numpy.__version__)
print("scipy 버전:", scipy.__version__)
print("pyworld 버전:", pyworld.__version__)
print("scikit-learn 버전:", sklearn.__version__)
print("matplotlib 버전:", matplotlib.__version__)
print("python_speech_features 버전:", python_speech_features)
print("torch 버전:", torch.__version__)
print("apex 버전:", apex)
#python -c "import amp_C"



numpy 버전: 1.26.4
scipy 버전: 1.13.1
pyworld 버전: 0.3.4
scikit-learn 버전: 1.5.2
matplotlib 버전: 3.9.2
python_speech_features 버전: <module 'python_speech_features' from '/userHome/userhome2/dahyun/miniconda3/envs/Fastpitch/lib/python3.9/site-packages/python_speech_features/__init__.py'>
torch 버전: 1.12.0+cu116
apex 버전: <module 'apex' (namespace)>


In [13]:
import torch

def check_pytorch_cuda():
    if torch.cuda.is_available():
        print(f"PyTorch CUDA Version: {torch.version.cuda}")
        print(f"Number of CUDA Devices: {torch.cuda.device_count()}")
        for i in range(torch.cuda.device_count()):
            print(f"Device {i}: {torch.cuda.get_device_name(i)}")
    else:
        print("CUDA is not available in PyTorch.")

if __name__ == "__main__":
    check_pytorch_cuda()


PyTorch CUDA Version: 11.6
Number of CUDA Devices: 4
Device 0: NVIDIA GeForce RTX 3090
Device 1: NVIDIA GeForce RTX 3090
Device 2: NVIDIA GeForce RTX 3090
Device 3: NVIDIA GeForce RTX 3090


In [15]:
import amp_C

print('Apex 설치 성공')

ModuleNotFoundError: No module named 'amp_C'

In [14]:
import torch
print(torch.version.cuda)

11.6


In [17]:
import torch
import subprocess
import re

def get_pytorch_info():
    print("=== PyTorch 정보 ===")
    print(f"PyTorch 버전: {torch.__version__}")
    if torch.cuda.is_available():
        print(f"PyTorch CUDA 지원: 예")
        print(f"PyTorch CUDA 버전: {torch.version.cuda}")
        print(f"사용 가능한 CUDA 디바이스 수: {torch.cuda.device_count()}")
        for i in range(torch.cuda.device_count()):
            print(f"  디바이스 {i}: {torch.cuda.get_device_name(i)}")
    else:
        print("PyTorch CUDA 지원: 아니오")
    print()

def get_system_cuda_version():
    print("=== 시스템 CUDA 컴파일러 버전 (nvcc) ===")
    try:
        result = subprocess.run(['nvcc', '--version'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, check=True)
        nvcc_output = result.stdout
        match = re.search(r'release (\d+\.\d+)', nvcc_output)
        if match:
            nvcc_version = match.group(1)
            print(f"nvcc CUDA 버전: {nvcc_version}")
        else:
            print("nvcc 출력에서 CUDA 버전을 파싱할 수 없습니다.")
    except FileNotFoundError:
        print("nvcc가 설치되어 있지 않거나 PATH에 없습니다.")
    except subprocess.CalledProcessError as e:
        print(f"nvcc 실행 중 오류 발생: {e}")
    print()

def get_nvidia_driver_version():
    print("=== NVIDIA 드라이버 버전 (nvidia-smi) ===")
    try:
        result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, check=True)
        nvidia_smi_output = result.stdout
        match = re.search(r'Driver Version:\s+(\d+\.\d+)', nvidia_smi_output)
        if match:
            driver_version = match.group(1)
            print(f"NVIDIA 드라이버 버전: {driver_version}")
        else:
            print("nvidia-smi 출력에서 드라이버 버전을 파싱할 수 없습니다.")
    except FileNotFoundError:
        print("nvidia-smi가 설치되어 있지 않거나 PATH에 없습니다.")
    except subprocess.CalledProcessError as e:
        print(f"nvidia-smi 실행 중 오류 발생: {e}")
    print()

def check_compatibility():
    print("=== PyTorch와 시스템 CUDA 버전 호환성 ===")
    pytorch_cuda = torch.version.cuda
    try:
        result = subprocess.run(['nvcc', '--version'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, check=True)
        nvcc_output = result.stdout
        match = re.search(r'release (\d+\.\d+)', nvcc_output)
        if match:
            system_cuda = match.group(1)
            if pytorch_cuda and system_cuda.startswith(pytorch_cuda):
                print(f"호환성: 예 (PyTorch CUDA 버전 {pytorch_cuda}과 시스템 CUDA 버전 {system_cuda} 일치)")
            else:
                print(f"호환성: 아니오 (PyTorch CUDA 버전 {pytorch_cuda}과 시스템 CUDA 버전 {system_cuda} 불일치)")
        else:
            print("시스템 CUDA 버전을 파싱할 수 없습니다.")
    except FileNotFoundError:
        print("nvcc가 설치되어 있지 않거나 PATH에 없습니다.")
    except subprocess.CalledProcessError as e:
        print(f"nvcc 실행 중 오류 발생: {e}")
    print()

def main():
    get_pytorch_info()
    get_system_cuda_version()
    get_nvidia_driver_version()
    check_compatibility()

if __name__ == "__main__":
    main()


=== PyTorch 정보 ===
PyTorch 버전: 1.12.0+cu116
PyTorch CUDA 지원: 예
PyTorch CUDA 버전: 11.6
사용 가능한 CUDA 디바이스 수: 4
  디바이스 0: NVIDIA GeForce RTX 3090
  디바이스 1: NVIDIA GeForce RTX 3090
  디바이스 2: NVIDIA GeForce RTX 3090
  디바이스 3: NVIDIA GeForce RTX 3090

=== 시스템 CUDA 컴파일러 버전 (nvcc) ===
nvcc가 설치되어 있지 않거나 PATH에 없습니다.

=== NVIDIA 드라이버 버전 (nvidia-smi) ===
NVIDIA 드라이버 버전: 550.54

=== PyTorch와 시스템 CUDA 버전 호환성 ===
nvcc가 설치되어 있지 않거나 PATH에 없습니다.

