### **GPU 설정**

In [1]:
import tensorflow as tf

# GPU 디바이스 확인
tf.test.gpu_device_name()

print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))

# TensorFlow가 GPU를 사용할 수 있도록 설정합니다.
if len(tf.config.list_physical_devices('GPU')) > 0:
    print('GPU is enabled')
    tf.config.experimental.set_memory_growth(tf.config.list_physical_devices('GPU')[0], True)

Num GPUs Available:  0


### **구글 드라이브 마운트**

In [2]:
from google.colab import drive

# 드라이브 마운트
drive.mount('/content/drive')


Mounted at /content/drive


### **CSV 불러오기**

In [3]:
import pandas as pd

# CSV 파일 경로
csv_file = '/content/drive/MyDrive/ColabNotebooks/프로젝트/WordDifficulty/WordDifficulty.csv'

# CSV 파일 열기
df = pd.read_csv(csv_file)

# 데이터 확인
print(df.head())


     Word  Length  Freq_HAL  Log_Freq_HAL  I_Mean_RT  I_Zscore    I_SD   Obs  \
0       a       1  10610626         16.18     798.92     -0.01  333.85  24.0   
1     aah       3       222          5.40     816.43      0.21  186.03  21.0   
2   Aaron       5     10806          9.29     736.06     -0.11  289.01  32.0   
3   aback       5       387          5.96     796.27      0.11  171.61  15.0   
4  abacus       6       513          6.24     964.40      0.65  489.00  15.0   

   I_Mean_Accuracy  
0             0.73  
1             0.62  
2             0.97  
3             0.45  
4             0.47  


### **데이터 전처리**

In [4]:
# 특정 열 제외하고 나머지 열 삭제
columns_to_keep = ['Word', 'I_Zscore']  # 제외하고 싶지 않은 열 이름 리스트
df = df[columns_to_keep]

# 결과 확인
print(df.head())

     Word  I_Zscore
0       a     -0.01
1     aah      0.21
2   Aaron     -0.11
3   aback      0.11
4  abacus      0.65


In [5]:
# X와 y 데이터 생성
X = df['Word']
y = df['I_Zscore']

# 결과 확인
print("X:", X[:5])
print("y:", y[:5])

X: 0         a
1       aah
2     Aaron
3     aback
4    abacus
Name: Word, dtype: object
y: 0   -0.01
1    0.21
2   -0.11
3    0.11
4    0.65
Name: I_Zscore, dtype: float64


In [6]:
import re

# 주어진 X 값
X = df['Word']

# 정규식을 사용하여 데이터 정리
cleaned_X = X.str.replace(r"[^a-zA-Z]", " ")

# 결과 확인
print("Cleaned X:", cleaned_X[:5])


Cleaned X: 0         a
1       aah
2     Aaron
3     aback
4    abacus
Name: Word, dtype: object


  cleaned_X = X.str.replace(r"[^a-zA-Z]", " ")


In [7]:
from sklearn.model_selection import train_test_split

# 데이터 나누기
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


In [8]:
# # y_test, y_train, y_val 배열의 모든 값들을 합치기
# all_values = np.concatenate([y_test, y_train, y_val])

# # 모든 값들을 크기순으로 정렬
# sorted_values = np.sort(all_values)

# # 20%, 40%, 60%, 80% 위치의 값들 가져오기
# len_sorted_values = len(sorted_values)
# thres_index = (len_sorted_values)//5
# thresholds = [sorted_values[thres_index], sorted_values[thres_index*2], sorted_values[thres_index*3], sorted_values[thres_index*4]]

# # 정수화된 값으로 변환하는 함수 정의
# def integer_mapping(value):
#     for i in range(len(thresholds)):
#         if value <= thresholds[i]:
#             return i
#     return len(thresholds)

# # y_test, y_train, y_val 배열의 모든 값을 정수로 변환
# y_test_int = np.array([integer_mapping(value) for value in y_test])
# y_train_int = np.array([integer_mapping(value) for value in y_train])
# y_val_int = np.array([integer_mapping(value) for value in y_val])

# # 결과 확인
# print("y_test_int:", y_test_int)
# print("y_train_int:", y_train_int)
# print("y_val_int:", y_val_int)

In [9]:
# y_test = y_test_int
# y_train = y_train_int
# y_val = y_val_int

### **데이터 저장**

In [10]:
import numpy as np
import os


# 저장할 경로
save_path = '/content/drive/MyDrive/ColabNotebooks/프로젝트/WordDifficulty/data'

# 훈련, 검증, 테스트 데이터를 넘파이 배열로 변환
X_train_np = np.array(X_train)
y_train_np = np.array(y_train)
X_val_np = np.array(X_val)
y_val_np = np.array(y_val)
X_test_np = np.array(X_test)
y_test_np = np.array(y_test)

# 경로가 없다면 생성
if not os.path.exists(save_path):
    os.makedirs(save_path)

# 넘파이 배열 저장
np.save(os.path.join(save_path, 'X_train.npy'), X_train_np)
np.save(os.path.join(save_path, 'y_train.npy'), y_train_np)
np.save(os.path.join(save_path, 'X_val.npy'), X_val_np)
np.save(os.path.join(save_path, 'y_val.npy'), y_val_np)
np.save(os.path.join(save_path, 'X_test.npy'), X_test_np)
np.save(os.path.join(save_path, 'y_test.npy'), y_test_np)

In [11]:
# X_train 데이터 예시 출력
print("X_train example:\n", X_train_np[:5])

# X_train 데이터 유효성 확인
print("Data type:", type(X_train_np))


X_train example:
 ['Alice' 'finality' 'showery' 'fickle' 'forget']
Data type: <class 'numpy.ndarray'>


In [12]:
print(y_train_np[:5])

[-0.46 -0.18 -0.01 -0.21 -0.65]
