# 랭체인(LangChain) Entity Extraction 예제 - 리뷰감정분석GPT 만들기(SentimentGPT)
## 작성자 : AISchool ( http://aischool.ai/%ec%98%a8%eb%9d%bc%ec%9d%b8-%ea%b0%95%ec%9d%98-%ec%b9%b4%ed%85%8c%ea%b3%a0%eb%a6%ac/ )
## 속성기반 감정분석 데이터 다운받기 : https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71603

# LangChain 라이브러리 설치

In [None]:
!pip install langchain openai chromadb tiktoken pypdf unstructured sentence-transformers jq

Collecting langchain
  Downloading langchain-0.0.348-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting openai
  Downloading openai-1.3.8-py3-none-any.whl (221 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m221.5/221.5 kB[0m [31m15.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting chromadb
  Downloading chromadb-0.4.18-py3-none-any.whl (502 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m502.4/502.4 kB[0m [31m39.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting tiktoken
  Downloading tiktoken-0.5.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m65.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pypdf
  Downloading pypdf-3.17.1-py3-none-any.whl (277 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m277.6/277.6 kB

# create_tagging_chain 살펴보기

## Reference : https://python.langchain.com/docs/use_cases/tagging

## OpenAI API Key 설정

In [None]:
OPENAI_KEY = "여러분의_OPENAI_API_KEY"

In [None]:
from langchain.chains import create_tagging_chain
from langchain.chat_models import ChatOpenAI

In [None]:
# Schema
schema = {
    "properties": {
        "sentiment": {"type": "string"},
        "aggressiveness": {"type": "integer"},
        "language": {"type": "string"},
    }
}

# LLM
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo", openai_api_key=OPENAI_KEY)
chain = create_tagging_chain(schema, llm)

In [None]:
inp = "너를 만나게 되어 정말 기쁘다. 우리가 정말 좋은 친구가 될 거라고 생각해!"
chain.run(inp)

{'sentiment': 'positive'}

In [None]:
inp = "너에게 정말 화가 났어! 너에게 마땅한 대가를 치르게 할 거야!"
chain.run(inp)

{'sentiment': 'negative', 'aggressiveness': 1}

## enum값 지정하기

In [None]:
schema = {
    "properties": {
        "aggressiveness": {
            "type": "integer",
            "enum": [1, 2, 3, 4, 5],
            "description": "describes how aggressive the statement is, the higher the number the more aggressive",
        },
        "language": {
            "type": "string",
            "enum": ["spanish", "english", "french", "german", "italian", "korean"],
        },
        "sentiment": {
            "type": "string",
            "enum": ["positive", "negative"],
        },
        },
    "required": ["language", "sentiment", "aggressiveness"],
}

In [None]:
chain = create_tagging_chain(schema, llm)

In [None]:
inp = "너를 만나서 정말 기쁘다! 우리가 정말 좋은 친구가 될 것 같아!"
chain.run(inp)

{'aggressiveness': '3', 'language': 'korean', 'sentiment': 'positive'}

In [None]:
inp = "너에게 정말 화가 나! 네가 받을 만한 것을 줄 거야!"
chain.run(inp)

{'aggressiveness': '5', 'language': 'korean', 'sentiment': 'negative'}

In [None]:
inp = "여기 날씨가 괜찮아, 외투만 입고 밖에 나갈 수 있어"
chain.run(inp)

{'aggressiveness': '3', 'language': 'korean', 'sentiment': 'positive'}

# 리뷰감정분석GPT(SentimentGPT) 만들기

# 상품 리뷰 데이터 다운로드 & 업로드하기

In [None]:
# /속성기반 감정분석 데이터/02.라벨링데이터/쇼핑몰/01. 패션/1-1. 여성의류/1-1.여성의류(1).json

# 여성의류 리뷰 데이터 읽어오기

In [None]:
from langchain.document_loaders import JSONLoader

loader = JSONLoader(
    file_path='/content/1-1.여성의류(1).json',
    jq_schema='.[]',
    text_content=False)
docs = loader.load()
docs

[Document(page_content='{"Index": "7", "RawText": "\\uac00\\uaca9\\uc774 \\ucc29\\ud558\\uace0 \\ub514\\uc790\\uc778\\uc774 \\uc608\\uc069\\ub2c8\\ub2e4", "Source": "\\uc1fc\\ud551\\ubab0", "Domain": "\\ud328\\uc158", "MainCategory": "\\uc5ec\\uc131\\uc758\\ub958", "ProductName": "OO \\ud50c** \\ubca0\\uc2a4\\ud2b8 \\ud480\\ucf54\\ub514 3\\uc885", "ReviewScore": "100", "Syllable": "17", "Word": "4", "RDate": "20210815", "GeneralPolarity": "1", "Aspects": [{"Aspect": "\\uac00\\uaca9", "SentimentText": "\\uac00\\uaca9\\uc774 \\ucc29\\ud558\\uace0", "SentimentWord": "2", "SentimentPolarity": "1"}, {"Aspect": "\\ub514\\uc790\\uc778", "SentimentText": "\\ub514\\uc790\\uc778\\uc774 \\uc608\\uc069\\ub2c8\\ub2e4", "SentimentWord": "2", "SentimentPolarity": "1"}]}', metadata={'source': '/content/1-1.여성의류(1).json', 'seq_num': 1}),
 Document(page_content='{"Index": "9", "RawText": "\\uc2f8\\uace0  \\ub514\\uc790\\uc778\\uc774 \\uc608\\ubed0\\uc694. . \\uc815\\ub9d0  \\uac00\\uc131\\ube44 \\u

# 한글 인코딩 처리

In [None]:
from langchain.docstore.document import Document

refined_docs = []

# 유니코드 이스케이프 시퀀스를 정상적인 문자열로 변환
for idx, doc in enumerate(docs):
    broken_korean = doc.page_content
    fixed_korean = broken_korean.encode('latin1').decode('unicode-escape')

    refined_doc = Document(page_content=fixed_korean)
    refined_docs.append(refined_doc)


    print(idx, fixed_korean)

0 {"Index": "7", "RawText": "가격이 착하고 디자인이 예쁩니다", "Source": "쇼핑몰", "Domain": "패션", "MainCategory": "여성의류", "ProductName": "OO 플** 베스트 풀코디 3종", "ReviewScore": "100", "Syllable": "17", "Word": "4", "RDate": "20210815", "GeneralPolarity": "1", "Aspects": [{"Aspect": "가격", "SentimentText": "가격이 착하고", "SentimentWord": "2", "SentimentPolarity": "1"}, {"Aspect": "디자인", "SentimentText": "디자인이 예쁩니다", "SentimentWord": "2", "SentimentPolarity": "1"}]}
1 {"Index": "9", "RawText": "싸고  디자인이 예뻐요. . 정말  가성비 가심비 입니다", "Source": "쇼핑몰", "Domain": "패션", "MainCategory": "여성의류", "ProductName": "OO 플** 베스트 풀코디 3종", "ReviewScore": "100", "Syllable": "31", "Word": "8", "RDate": "20210807", "GeneralPolarity": "1", "Aspects": [{"Aspect": "가격", "SentimentText": "싸고", "SentimentWord": "1", "SentimentPolarity": "1"}, {"Aspect": "디자인", "SentimentText": "디자인이 예뻐요", "SentimentWord": "2", "SentimentPolarity": "1"}, {"Aspect": "가격", "SentimentText": "가성비 가심비 입니다", "SentimentWord": "3", "SentimentPolarity": "1"}]}
2 {"In

In [None]:
len(refined_docs)

100

# 상품리뷰 데이터의 주요 Entity
*   **GeneralPolarity**	: 상품평 전체 감정 극성 (1: 긍정, -1: 부정)
*   **Aspects** : 상품평의 감정을 결정하는 단어와 분류카테고리(e.g. '착용감', '소재', '활용성'), 해당단어의 감정 극성(1: 긍정, -1: 부정), 감정을 결정하는 단어의 개수

In [None]:
import json
json.loads(refined_docs[0].page_content)

{'Index': '7',
 'RawText': '가격이 착하고 디자인이 예쁩니다',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '17',
 'Word': '4',
 'RDate': '20210815',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '가격이 착하고',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '디자인',
   'SentimentText': '디자인이 예쁩니다',
   'SentimentWord': '2',
   'SentimentPolarity': '1'}]}

In [None]:
json.loads(refined_docs[99].page_content)

{'Index': '283',
 'RawText': '작년에 그레이로 잘 입고 오트밀로 색상바꿔 주문해봤어요 옷이 넘 편해서 자주 손가입었어요 대신 니트재질이라보니 보풀감은 어쩔수업머요ㅠㅠ',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 니트 라** 세트',
 'ReviewScore': '100',
 'Syllable': '75',
 'Word': '16',
 'RDate': '20211001',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '착용감',
   'SentimentText': '넘 편해서 ',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '소재',
   'SentimentText': '니트재질이라보니 보풀감은 어쩔수업머요ㅠㅠ',
   'SentimentWord': '3',
   'SentimentPolarity': '1'},
  {'Aspect': '활용성',
   'SentimentText': '자주 손가입었어요',
   'SentimentWord': '2',
   'SentimentPolarity': '1'}]}

In [None]:
# 전체 aspect 파악하기
aspect_sets = set()

for idx, doc in enumerate(refined_docs):
    data_json = json.loads(doc.page_content)
    aspects = data_json.get("Aspects")
    for aspect in aspects:
        aspect_sets.add(aspect["Aspect"])
print('aspect 개수 :', len(aspect_sets))
print(aspect_sets)

aspect 개수 : 17
{'길이', '소재', '가격', '품질', '활용성', '신축성', '사이즈', '마감', '디자인', '촉감', '두께', '무게', '색상', '핏', '제품구성', '기능', '착용감'}


In [None]:
# 리뷰감정분석GPT(SentimentGPT)를 위한 schema 설정
schema = {
    "properties": {
        "sentiment word": {
            "type": "string",
            "description": "Please find the part of the word that expresses emotion in the whole sentence.",
        },
        "aspect": {
            "type": "string",
            "enum": ['가격',
                     '기능',
                     '길이',
                      '두께',
                      '디자인',
                      '마감',
                      '무게',
                      '사이즈',
                      '색상',
                      '소재',
                      '신축성',
                      '제품구성',
                      '착용감',
                      '촉감',
                      '품질',
                      '핏',
                      '활용성'
                      ],
        },
        "sentiment": {
            "type": "string",
            "enum": ["positive", "negative", "neutral"],
        },
    },
    "required": ["aspect", "sentiment", "sentiment word"],
}
chain = create_tagging_chain(schema, llm)

## 10개 sampe에 대한 테스트

In [None]:
chain.run(json.loads(refined_docs[0].page_content)['RawText'])

{'sentiment word': '착하고', 'aspect': '가격', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[0].page_content)

{'Index': '7',
 'RawText': '가격이 착하고 디자인이 예쁩니다',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '17',
 'Word': '4',
 'RDate': '20210815',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '가격이 착하고',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '디자인',
   'SentimentText': '디자인이 예쁩니다',
   'SentimentWord': '2',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[1].page_content)['RawText'])

{'sentiment word': '싸고', 'aspect': '가격', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[1].page_content)

{'Index': '9',
 'RawText': '싸고  디자인이 예뻐요. . 정말  가성비 가심비 입니다',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '31',
 'Word': '8',
 'RDate': '20210807',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '싸고',
   'SentimentWord': '1',
   'SentimentPolarity': '1'},
  {'Aspect': '디자인',
   'SentimentText': '디자인이 예뻐요',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '가격',
   'SentimentText': '가성비 가심비 입니다',
   'SentimentWord': '3',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[2].page_content)['RawText'])

{'sentiment word': '편하고', 'aspect': '착용감', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[2].page_content)

{'Index': '15',
 'RawText': '편하고  디자인이 예뻐요  가격도  좋아요   시원해요  빨리 마르고  이것만  입게되요',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '49',
 'Word': '10',
 'RDate': '20210804',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '착용감',
   'SentimentText': '편하고',
   'SentimentWord': '1',
   'SentimentPolarity': '1'},
  {'Aspect': '디자인',
   'SentimentText': '디자인이 예뻐요',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '가격',
   'SentimentText': '가격도  좋아요',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '기능',
   'SentimentText': '시원해요',
   'SentimentWord': '1',
   'SentimentPolarity': '1'},
  {'Aspect': '소재',
   'SentimentText': '빨리 마르고',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '활용성',
   'SentimentText': '이것만  입게되요',
   'SentimentWord': '2',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[3].page_content)['RawText'])

{'sentiment word': '착한가격', 'aspect': '가격', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[3].page_content)

{'Index': '17',
 'RawText': '너무 착한가격에 감사합니다 윈하는 색은 없지만',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '25',
 'Word': '6',
 'RDate': '20210803',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '너무 착한가격에 감사합니다',
   'SentimentWord': '3',
   'SentimentPolarity': '1'},
  {'Aspect': '색상',
   'SentimentText': '윈하는 색은 없지만',
   'SentimentWord': '3',
   'SentimentPolarity': '-1'}]}

In [None]:
chain.run(json.loads(refined_docs[4].page_content)['RawText'])

{'sentiment word': '가격', 'aspect': '가격', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[4].page_content)

{'Index': '18',
 'RawText': '가격이  너무 좋아서  블랙 구매했습니다  그런데 소재도  맘에  들어  흰색도  구매했습니다',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '52',
 'Word': '11',
 'RDate': '20210717',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '가격이  너무 좋아서',
   'SentimentWord': '3',
   'SentimentPolarity': '1'},
  {'Aspect': '소재',
   'SentimentText': '소재도  맘에  들어  흰색도  구매했습니다',
   'SentimentWord': '5',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[5].page_content)['RawText'])

{'sentiment word': '재질', 'aspect': '재질', 'sentiment': 'neutral'}

In [None]:
json.loads(refined_docs[5].page_content)

{'Index': '21',
 'RawText': '외출할때 입기에는 재질도 디자인도 좀~그러네요 그냥 집에서 편하게 입을수는 있을것 같아요',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '60',
 'Syllable': '49',
 'Word': '11',
 'RDate': '20210511',
 'GeneralPolarity': '-1',
 'Aspects': [{'Aspect': '소재',
   'SentimentText': '재질도 디자인도 좀~그러네요',
   'SentimentWord': '3',
   'SentimentPolarity': '-1'},
  {'Aspect': '디자인',
   'SentimentText': '디자인도 좀~그러네요',
   'SentimentWord': '2',
   'SentimentPolarity': '-1'},
  {'Aspect': '활용성',
   'SentimentText': '집에서 편하게 입을수는 있을것 같아요',
   'SentimentWord': '5',
   'SentimentPolarity': '0'}]}

In [None]:
chain.run(json.loads(refined_docs[6].page_content)['RawText'])

{'sentiment word': '넘작고 짧으네요', 'aspect': '길이', 'sentiment': 'negative'}

In [None]:
json.loads(refined_docs[6].page_content)

{'Index': '27',
 'RawText': '특히 자켓이 넘작고 짧으네요. 상의는 좀작구 바지는 잘맞아요.',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '80',
 'Syllable': '34',
 'Word': '8',
 'RDate': '20210415',
 'GeneralPolarity': '-1',
 'Aspects': [{'Aspect': '사이즈',
   'SentimentText': '자켓이 넘작고',
   'SentimentWord': '2',
   'SentimentPolarity': '-1'},
  {'Aspect': '길이',
   'SentimentText': '짧으네요.',
   'SentimentWord': '1',
   'SentimentPolarity': '-1'},
  {'Aspect': '사이즈',
   'SentimentText': '상의는 좀작구',
   'SentimentWord': '2',
   'SentimentPolarity': '-1'},
  {'Aspect': '사이즈',
   'SentimentText': '바지는 잘맞아요.',
   'SentimentWord': '2',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[7].page_content)['RawText'])

{'sentiment word': '싸고', 'aspect': '가격', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[7].page_content)

{'Index': '30',
 'RawText': '싸고품질이좋아요ᆢ사이즈는좀큰듯하구요ᆢ반사이즈는내려서주문하심좋을듯해요',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '100',
 'Syllable': '37',
 'Word': '1',
 'RDate': '20210618',
 'GeneralPolarity': '0',
 'Aspects': [{'Aspect': '가격',
   'SentimentText': '싸고',
   'SentimentWord': '1',
   'SentimentPolarity': '1'},
  {'Aspect': '품질',
   'SentimentText': '품질이좋아요ᆢ',
   'SentimentWord': '1',
   'SentimentPolarity': '1'},
  {'Aspect': '사이즈',
   'SentimentText': '사이즈는좀큰듯하구요ᆢ',
   'SentimentWord': '1',
   'SentimentPolarity': '0'},
  {'Aspect': '사이즈',
   'SentimentText': '반사이즈는내려서주문하심좋을듯해요',
   'SentimentWord': '1',
   'SentimentPolarity': '0'}]}

In [None]:
chain.run(json.loads(refined_docs[8].page_content)['RawText'])

{'sentiment word': '편하고', 'aspect': '착용감', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[8].page_content)

{'Index': '38',
 'RawText': '바지가 너무 편하고 좋아요 티셔츠는 여름에 잘 입을 듯 베스트는 디자인은 별로지만 가격이 착해서 만족',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 플** 베스트 풀코디 3종',
 'ReviewScore': '70',
 'Syllable': '56',
 'Word': '15',
 'RDate': '20210408',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '착용감',
   'SentimentText': '바지가 너무 편하고 좋아요',
   'SentimentWord': '4',
   'SentimentPolarity': '1'},
  {'Aspect': '기능',
   'SentimentText': '티셔츠는 여름에 잘 입을 듯',
   'SentimentWord': '5',
   'SentimentPolarity': '1'},
  {'Aspect': '디자인',
   'SentimentText': '베스트는 디자인은 별로지만',
   'SentimentWord': '3',
   'SentimentPolarity': '-1'},
  {'Aspect': '가격',
   'SentimentText': '가격이 착해서 만족',
   'SentimentWord': '3',
   'SentimentPolarity': '1'}]}

In [None]:
chain.run(json.loads(refined_docs[9].page_content)['RawText'])

{'sentiment word': '예뻐요', 'aspect': '디자인', 'sentiment': 'positive'}

In [None]:
json.loads(refined_docs[9].page_content)

{'Index': '54',
 'RawText': '디자인이 예뻐요. 사이즈 잘 맞습니다.',
 'Source': '쇼핑몰',
 'Domain': '패션',
 'MainCategory': '여성의류',
 'ProductName': 'OO 여성 소프트 진주 아** 니트 2종 택1',
 'ReviewScore': '100',
 'Syllable': '21',
 'Word': '5',
 'RDate': '20211027',
 'GeneralPolarity': '1',
 'Aspects': [{'Aspect': '디자인',
   'SentimentText': '디자인이 예뻐요.',
   'SentimentWord': '2',
   'SentimentPolarity': '1'},
  {'Aspect': '사이즈',
   'SentimentText': '사이즈 잘 맞습니다.',
   'SentimentWord': '3',
   'SentimentPolarity': '1'}]}