In [1]:
# 이미지다중분류

# 데이터로드
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# ImageDataGenerator 설정
datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,                                    
    zoom_range=0.2,
    horizontal_flip=True,
    validation_split=0.2  # 검증 데이터셋 비율
)

train_generator = datagen.flow_from_directory(
    'categorized_images',  # 'test' 폴더의 경로
    target_size=(150, 150),  # 이미지 크기
    batch_size=32,
    class_mode='categorical',  # 다중 분류
    subset='training'
)

validation_generator = datagen.flow_from_directory(
    'categorized_images',
    target_size=(150, 150),
    batch_size=32,
    class_mode='categorical',
    subset='validation'
)

# CNN 모델 구축
model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)),
    MaxPooling2D(2, 2),
    # 추가 Conv2D 및 MaxPooling2D 레이어
    Flatten(),
    Dense(128, activation='relu'),
    Dense(train_generator.num_classes, activation='softmax')  # 분류 레이어
])

# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
model.fit(
    train_generator,
    steps_per_epoch=train_generator.samples // train_generator.batch_size,
    validation_data=validation_generator,
    validation_steps=validation_generator.samples // validation_generator.batch_size,
    epochs=10
)


c:\Users\gjaischool\anaconda3\envs\MetaWave\lib\site-packages\numpy\.libs\libopenblas.EL2C6PLE4ZYW3ECEVIV3OXXGRN2NRFM2.gfortran-win_amd64.dll
c:\Users\gjaischool\anaconda3\envs\MetaWave\lib\site-packages\numpy\.libs\libopenblas64__v0.3.21-gcc_10_3_0.dll


Found 245 images belonging to 13 classes.
Found 55 images belonging to 13 classes.
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x1dfdfd36490>

In [2]:
# 모델 저장
model.save('cnn_model.h5')  # 모델을 저장할 파일 이름


  saving_api.save_model(


In [6]:
from tensorflow.keras.models import load_model

# 저장된 모델 불러오기
loaded_model = load_model('cnn_model.h5')

# 불러온 모델을 사용하여 예측
# 예를 들어, 새로운 이미지 데이터를 불러와서 예측을 수행합니다.
# new_image_data는 예측을 수행할 새로운 이미지 데이터입니다.
# 예측 결과는 클래스 인덱스의 배열로 반환됩니다.



In [7]:
from tensorflow.keras.preprocessing import image
import numpy as np

# 이미지 파일 로드 및 전처리
img_path = 'imgdata (3).jpg'  # 이미지 파일 경로
img = image.load_img(img_path, target_size=(150, 150))  # 모델에 맞는 이미지 크기로 조정
img_array = image.img_to_array(img)  # 이미지를 넘파이 배열로 변환
img_array = np.expand_dims(img_array, axis=0)  # 이미지에 배치 차원 추가
img_array /= 255.  # 이미지 정규화

# 예측 수행
predictions = loaded_model.predict(img_array)


print(predictions)

[[2.5517246e-02 3.5498715e-03 4.3080520e-02 7.3537794e-03 1.1553175e-02
  3.5436510e-03 2.4303704e-06 1.9833186e-01 3.5201455e-04 9.7163935e-04
  6.7479396e-03 4.7833304e-08 5.5481344e-02 2.3446284e-02 9.8803431e-02
  3.3589065e-01 1.3592230e-03 1.8380003e-01 3.0444973e-08 2.1486127e-04]]


In [13]:
print("가장 높은 예측값입니다.", predictions.max())
print("가장 높은 예측클래스입니다.", predictions.argmax())
# 인덱스가 의미하는 폴더이름라벨링

가장 높은 예측값입니다. 0.33589065
가장 높은 예측클래스입니다. 15


In [10]:
import numpy as np

# 예측 결과
predictions = np.array([[2.5517246e-02, 3.5498715e-03, 4.3080520e-02, 7.3537794e-03, 1.1553175e-02,
                         3.5436510e-03, 2.4303704e-06, 1.9833186e-01, 3.5201455e-04, 9.7163935e-04,
                         6.7479396e-03, 4.7833304e-08, 5.5481344e-02, 2.3446284e-02, 9.8803431e-02,
                         3.3589065e-01, 1.3592230e-03, 1.8380003e-01, 3.0444973e-08, 2.1486127e-04]])

# 가장 높은 예측 결과와 해당 인덱스 찾기
highest_prediction = np.max(predictions)
predicted_class = np.argmax(predictions)
predictions.highest_prediction, predicted_class



(0.33589065, 15)

In [30]:
import os
from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
from PIL import Image
import torch

# 모델, 토크나이저 및 피처 추출기 로드
model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

# 디바이스 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 캡션 생성을 위한 설정
max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}

# 캡션 생성 함수
def predict_step(image_paths):
    images = []
    for image_path in image_paths:
        i_image = Image.open(image_path)
        if i_image.mode != "RGB":
            i_image = i_image.convert(mode="RGB")
        images.append(i_image)

    pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
    pixel_values = pixel_values.to(device)

    output_ids = model.generate(pixel_values, **gen_kwargs)

    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
    preds = [pred.strip() for pred in preds]
    return preds

# 이미지 폴더의 경로
folder_path = r"C:\Users\gjaischool\Desktop\imgData_landscape"

# 폴더 내 모든 이미지 파일의 경로 가져오기
image_paths = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith(('.png', '.jpg', '.jpeg'))]

# 캡션 생성 및 결과 출력
for idx, img_path in enumerate(image_paths):
    print(f"Processing {idx + 1}/{len(image_paths)}: {img_path}")
    caption = predict_step([img_path])[0]
    print(f"Caption: {caption}\n")


KeyboardInterrupt: 

In [29]:

from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)



max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
def predict_step(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds


predict_step([r"C:\Users\gjaischool\Desktop\data\imgData96015\images\landscape\000d655562800587aceb35c35ed4c47cc.jpg"])


We strongly recommend passing in an `attention_mask` since your input_ids may be padded. See https://huggingface.co/docs/transformers/troubleshooting#incorrect-output-when-padding-tokens-arent-masked.


['a painting of a painting of a river with trees']

AttributeError: 'BaseModelOutputWithPooling' object has no attribute 'shape'

  saving_api.save_model(
