In [10]:
import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

# url로 열기
# img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg' 
# raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

# 파일 직접 열기
raw_image = Image.open("f330a80912b0a0f3.jpg").convert('RGB')

# conditional image captioning
text = "describe the mood and colors of this image"
inputs = processor(raw_image, text, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))

# unconditional image captioning
inputs = processor(raw_image, return_tensors="pt")

out = model.generate(**inputs)
print(processor.decode(out[0], skip_special_tokens=True))


describe the mood and colors of this image are a bit of warm
arafed woman wearing a sweater and scarf standing in front of a building


In [None]:
# 1번 프롬프트
import os
from PIL import Image
import openai
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage
from transformers import BlipProcessor, BlipForConditionalGeneration
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

# OpenAI API 키 설정
openai.api_key = os.getenv('OPENAI_API_KEY')

# BLIP 모델 설정
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

# 이미지 처리
raw_image = Image.open("unnamed.jpg").convert('RGB')
text = "the image colors of"
inputs = processor(raw_image, text, return_tensors="pt")
out = model.generate(**inputs)
blip_caption = processor.decode(out[0], skip_special_tokens=True)

print(blip_caption)

# Langchain ChatGPT 설정
chat = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.7,
    openai_api_key=os.getenv('OPENAI_API_KEY')
)

# 프롬프트 작성
prompt = f"""
다음 이미지 설명을 감성적이고 색감 위주의 설명으로 바꿔주세요:
인물이 있으면 인물을 중점적으로 설명하고 간결하게 포인트를 중점으로 설명해주세요
배경이면 그 배경의 색감과 공간에 위치에 대한 느낌을 중점으로 설명
{blip_caption}

예시)
"인물이라면 인물이 입고있는 옷에 대한 느낌과 그 색깔에 대한 느낌"
"공간이라면 전체적인 공간의 색감과 느낌, 공간에 대한 느낌"
"""

# Langchain을 사용하여 GPT 응답 생성
response = chat([HumanMessage(content=prompt)])
emotional_description = response.content
print(emotional_description)

In [39]:
# 2번 프롬프트
import os
from PIL import Image
import openai
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage
from transformers import BlipProcessor, BlipForConditionalGeneration
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

# OpenAI API 키 설정
openai.api_key = os.getenv('OPENAI_API_KEY')

# BLIP 모델 설정
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

# 이미지 처리
raw_image = Image.open("다운로드.jfif").convert('RGB')
text = "the image colors of"
inputs = processor(raw_image, text, return_tensors="pt")
out = model.generate(**inputs)
blip_caption = processor.decode(out[0], skip_special_tokens=True)

print(blip_caption)

# Langchain ChatGPT 설정
chat = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.7,
    openai_api_key=os.getenv('OPENAI_API_KEY')
)

# 프롬프트 작성
prompt = f"""
다음 이미지에 대한 설명을 색감과 분위기를 중심으로 재해석해주세요:
{blip_caption}

이미지에 인물이 있다면:
1. 주요 색상들의 조합과 그들이 만들어내는 전반적인 무드
2. 인물이 입은 의상의 색상이 주는 감정적 느낌
3. 피부톤과 주변 조명이 만드는 분위기
4. 배경색과 인물의 조화가 전달하는 감성
5. 가장 눈에 띄는 색상 포인트와 그 효과

이미지가 공간/풍경이라면:
1. 전체적인 색감의 톤과 무드
2. 가장 지배적인 색상과 그것이 주는 감정적 효과
3. 공간 내 색상의 그라데이션이나 변화
4. 조명이나 그림자가 만드는 색감의 변주
5. 보완색이나 대비되는 색상들의 조화
6. 인물이 있을때를 가정하지 않는다.

위 요소들을 포함해 자연스럽고 감성적인 문체를 짧게 작성해주세요. 
"""

# Langchain을 사용하여 GPT 응답 생성
response = chat([HumanMessage(content=prompt)])
emotional_description = response.content
print(emotional_description)



the image colors of a woman is taking a selfie in a mirror
이미지 속 여성은 거울 앞에서 셀카를 찍고 있으며, 그녀의 존재감은 색감과 분위기로 더욱 돋보입니다. 

1. 주요 색상들은 따뜻한 핑크와 부드러운 화이트가 어우러져, 사랑스럽고 친근한 무드를 만들어냅니다. 이 조합은 자아에 대한 애정과 경쾌함을 전달합니다. 
2. 인물이 입은 의상은 연한 파스텔 톤으로, 부드러운 감정을 자아내며, 경쾌하면서도 차분한 느낌을 줍니다. 이는 그녀의 개성과 자신감을 표현합니다.
3. 피부톤은 자연스러운 따뜻함을 띠고 있으며, 주변 조명은 부드럽고 은은해, 아늑한 분위기를 조성합니다. 이 조명은 그녀의 아름다움을 더욱 강조합니다.
4. 배경색은 미세하게 변하는 그라데이션으로, 인물과의 조화가 잘 이루어져 있습니다. 이러한 조화는 전체적인 감성을 한층 풍부하게 만듭니다.
5. 가장 눈에 띄는 색상 포인트는 인물의 의상 속 밝은 포인트 컬러로, 시선을 끌며 생동감을 더해줍니다. 이는 전체적인 이미지에 활력을 불어넣습니다.

이러한 요소들이 함께 어우러져, 이미지 속 인물의 순간이 더욱 특별하고 감성적으로 느껴지게 합니다.


In [61]:
# 3번 프롬프트
import os
from PIL import Image
import openai
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage
from transformers import BlipProcessor, BlipForConditionalGeneration
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

# OpenAI API 키 설정
openai.api_key = os.getenv('OPENAI_API_KEY')

# BLIP 모델 설정
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

# 이미지 처리
raw_image = Image.open("다운로드.jfif").convert('RGB')
text = "the image colors are"
inputs = processor(raw_image, text, return_tensors="pt")
out = model.generate(**inputs)
blip_caption = processor.decode(out[0], skip_special_tokens=True)

print(blip_caption)

# Langchain ChatGPT 설정
chat = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.7,
    openai_api_key=os.getenv('OPENAI_API_KEY')
)

# 프롬프트 작성
prompt = f"""
다음 이미지에 대한 설명을 색감과 분위기를 중심으로 재해석 해주세요
사진에 나온 사실만 설명해주세요:
{blip_caption}

이미지에 인물이 있다면:
1. 주요 색상들의 조합과 그들이 만들어내는 전반적인 무드
2. 인물이 입은 의상의 색상이 주는 감정적 느낌
3. 가장 눈에 띄는 색상 포인트와 그 효과
4. 옷에 패턴이 있다면 그 느낌도 표현
5. 인물의 표정과 포즈가 있다면 제외
6. 인물에 대한 설명 제외

이미지가 공간/풍경이라면:
1. 전체적인 색감의 톤과 무드
2. 가장 지배적인 색상과 그것이 주는 감정적 효과
3. 인물이 있을때를 가정하지 않는다.
4. 사진에 풍경에 대한 설명을 추가
5. 사진에 포함된 요소들이 주는 느낌 추가

위 요소들을 포함해 자연스럽고 감성적인 문체를 3줄이내로 작성해주세요. 
"""

# Langchain을 사용하여 GPT 응답 생성
response = chat([HumanMessage(content=prompt)])
emotional_description = response.content
print(emotional_description)



the image colors are red and black and the woman is taking a selfie
붉은 색과 검은 색이 어우러진 이 이미지는 강렬하면서도 신비로운 분위기를 자아냅니다. 특히 붉은 색이 주는 열정과 에너지가 눈에 띄며, 검은 색은 그 반대편에서 깊이와 세련됨을 더해줍니다. 이러한 색조의 조화는 관람자에게 강렬한 감정을 불러일으키며, 상반된 감정의 대립을 통해 더욱 깊은 여운을 남깁니다.
