In [2]:
import os
import pandas as pd

# 경로 설정
txt_directory = 'D:/JOLJAK/TOMATO_Val'
output_directory = 'D:/JOLJAK/TOMATO_ValCSV'

# 출력 폴더가 없으면 생성
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

def convert_txt_to_csv(input_dir, output_dir):
    """
    txt 파일에서 데이터를 읽어와 CSV 파일로 저장하는 함수.
    """
    # txt 파일 리스트 가져오기
    txt_files = [file for file in os.listdir(input_dir) if file.endswith('.txt')]
    
    for txt_file in txt_files:
        input_path = os.path.join(input_dir, txt_file)
        data = []

        # txt 파일 읽기
        with open(input_path, 'r') as file:
            lines = file.readlines()
            for line in lines:
                # 공백을 기준으로 각 값을 분리 (클래스, x1, y1, x2, y2, confidence)
                values = line.strip().split()
                
                # 값이 올바르게 있는지 확인하고 추가
                if len(values) == 5:  # 클래스, x1, y1, x2, y2
                    data.append({
                        'class': values[0],
                        'x1': float(values[1]),
                        'y1': float(values[2]),
                        'x2': float(values[3]),
                        'y2': float(values[4])
                    })

        # 데이터프레임 생성
        df = pd.DataFrame(data)
        
        # CSV 파일로 저장
        output_csv_path = os.path.join(output_dir, os.path.splitext(txt_file)[0] + '.csv')
        df.to_csv(output_csv_path, index=False)
        print(f"CSV 파일 생성됨: {output_csv_path}")

    print("모든 txt 파일이 CSV로 변환되었습니다.")

# txt 파일을 CSV로 변환 실행
convert_txt_to_csv(txt_directory, output_directory)


CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_061_e_14_20220101_27_06094434_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_061_e_15_20220101_27_05094401_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_062_e_14_20220101_27_06094518_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_063_e_13_20220101_27_05095011_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_064_e_14_20220101_27_05095053_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_064_e_16_20220101_27_05095156_40158887.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_074_e_14_20220101_27_06102703_38102607.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_075_e_14_20220101_27_05102756_38102607.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_077_e_14_20220101_27_06103507_38102607.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_080_e_14_20220101_27_05104333_38102607.csv
CSV 파일 생성됨: D:/JOLJAK/TOMATO_ValCSV\V001_tom1_00_081_e_14_20220101_27_06104854_3

In [11]:
import os
import pandas as pd

# CSV 파일들이 있는 디렉토리 경로 설정
csv_dir = 'D:/JOLJAK/TOMATO_CSV'
# 이미지 파일들이 있는 디렉토리 경로 설정
image_dir = 'D:/JOLJAK/TOMATO_Train'
output_csv_path = 'D:/JOLJAK/combined_labels.csv'

# 통합 데이터 저장을 위한 리스트 초기화
combined_data = []

# CSV 파일 목록 가져오기
csv_files = [file for file in os.listdir(csv_dir) if file.endswith('.csv')]

# CSV 파일 읽어와서 통합
for csv_file in csv_files:
    file_path = os.path.join(csv_dir, csv_file)
    
    try:
        # CSV 파일 읽기
        df = pd.read_csv(file_path, encoding='utf-8-sig')
        
        # 빈 파일 혹은 열이 없는 경우 건너뜀
        if df.empty or df.shape[1] == 0:
            print(f"파일이 비어 있거나 유효하지 않음: {csv_file}")
            continue

        # 이미지 파일명 추가 (CSV 파일명에서 추출)
        image_filename = os.path.splitext(csv_file)[0] + '.PNG'
        
        # 이미지 파일 경로 추가
        df['img_file'] = os.path.join(image_dir, image_filename)

        # 통합 데이터에 추가
        combined_data.append(df)

    except pd.errors.EmptyDataError:
        print(f"비어 있는 파일 건너뜀: {csv_file}")
    except Exception as e:
        print(f"파일 처리 중 오류 발생: {csv_file}, {e}")

# 모든 데이터를 하나의 데이터프레임으로 합침
if combined_data:
    combined_df = pd.concat(combined_data, ignore_index=True)

    # 통합된 CSV 파일로 저장
    combined_df.to_csv(output_csv_path, index=False)
    print(f"통합된 CSV 파일이 생성되었습니다: {output_csv_path}")
else:
    print("유효한 데이터를 포함한 CSV 파일이 없습니다.")


비어 있는 파일 건너뜀: V001_tom1_36_080_e_06_20210908_01_02104159_38102607.csv
비어 있는 파일 건너뜀: V001_tom1_52_008_e_16_20211229_27_08095128_49122255.csv
비어 있는 파일 건너뜀: V001_tom1_52_012_e_15_20211229_27_05100258_49122255.csv
비어 있는 파일 건너뜀: V001_tom3_38_053_e_06_20210920_10_03162845_24085170.csv
통합된 CSV 파일이 생성되었습니다: D:/JOLJAK/combined_labels.csv


In [12]:
import pandas as pd

# 통합된 CSV 파일 경로
csv_path = 'D:/JOLJAK/combined_labels.csv'

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 'class' 열이 존재하는지 확인하고, 각 클래스의 빈도수 세기
if 'class' in df.columns:
    class_counts = df['class'].value_counts()
    class_counts_df = pd.DataFrame(class_counts).reset_index()
    class_counts_df.columns = ['class', 'count']
    print(class_counts_df)
else:
    print("'class' 열이 CSV 파일에 없습니다.")


   class  count
0      0  71127
1      1   1557
2      2    548


In [10]:
import pandas as pd
import numpy as np
import os
import tensorflow as tf
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D
from tensorflow.keras.models import Model
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical


In [20]:
import pandas as pd
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split

# CSV 파일 읽기
file_path = 'D:/JOLJAK/combined_labels.csv'
df = pd.read_csv(file_path)

# 필요한 열만 추출 (이미지 경로와 클래스)
df = df[['img_file', 'class']]

# 중복된 이미지 제거
df = df.drop_duplicates()

# 학습 및 검증 데이터 분할 (80% 학습, 20% 검증)
train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)

# 데이터 제너레이터 설정
train_datagen = ImageDataGenerator(rescale=1.0/255.0)
val_datagen = ImageDataGenerator(rescale=1.0/255.0)

# 학습 데이터 제너레이터
train_generator = train_datagen.flow_from_dataframe(
    dataframe=train_df,
    x_col='img_file',
    y_col='class',
    target_size=(224, 224),
    batch_size=32,
    class_mode='raw',  # 클래스 숫자를 그대로 사용
    shuffle=True
)

# 검증 데이터 제너레이터
val_generator = val_datagen.flow_from_dataframe(
    dataframe=val_df,
    x_col='img_file',
    y_col='class',
    target_size=(224, 224),
    batch_size=32,
    class_mode='raw',  # 클래스 숫자를 그대로 사용
    shuffle=False
)

# 확인용 출력
print(train_df.head())


Found 23019 validated image filenames.
Found 5755 validated image filenames.
                                                img_file  class
54604  D:/JOLJAK/TOMATO_Train\V001_tom5_39_031_e_01_2...      0
39979  D:/JOLJAK/TOMATO_Train\V001_tom4_39_071_e_03_2...      0
7497   D:/JOLJAK/TOMATO_Train\V001_tom1_48_052_e_13_2...      0
15306  D:/JOLJAK/TOMATO_Train\V001_tom2_41_029_e_05_2...      0
5514   D:/JOLJAK/TOMATO_Train\V001_tom1_44_038_e_09_2...      0


In [None]:

# ResNet50 모델 로드 (사전 학습된 가중치 사용)
base_model = ResNet50(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
x = GlobalAveragePooling2D()(base_model.output)
x = Dense(1024, activation='relu')(x)
predictions = Dense(num_classes, activation='softmax')(x)

model = Model(inputs=base_model.input, outputs=predictions)

# 사전 학습된 층은 동결 (학습되지 않도록 설정)
for layer in base_model.layers:
    layer.trainable = False

# 모델 컴파일
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
history = model.fit(
    train_generator,
    validation_data=val_generator,
    epochs=10,
    steps_per_epoch=len(train_generator),
    validation_steps=len(val_generator)
)

# 모델 저장
model.save('resnet50_tomato_model.h5')


Epoch 1/10
 10/720 [..............................] - ETA: 10:48 - loss: 0.4616 - accuracy: 0.8562