# 네이버 리뷰 감정분석

## 구글 드라이브 마운트

In [1]:
import json
import os
import pandas as pd

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 전체 데이터셋 로드

In [3]:
# 데이터 로드
# JSON 파일 읽어오기
with open('/content/drive/MyDrive/NaverCrawlingData/final_final_final_dataset.json', 'r') as f:
    data = json.load(f)

# 빈 리스트 생성 (추출된 데이터를 저장하기 위한)
df_data = []

# 각 store에 대해 반복
for store in data:
    store_id = store['store_id']
    store_name = store['store_info']['store_name']

    # 각 review에 대해 반복
    for review in store['reviews']:
        text = review['text']
        df_data.append([store_id, store_name, text])

# DataFrame 생성
df = pd.DataFrame(df_data, columns=['store_id', 'store_name', 'text'])

df

Unnamed: 0,store_id,store_name,text
0,1582818366,퀸즈가든 양재점,양재역 맛집 퀸즈가든에서 특별한 식사를 즐겼어요! 샤브샤브와 월남쌈이 무한리필로 제...
1,1582818366,퀸즈가든 양재점,고기와 야채 상태가 굉장히 좋고 무한리필이라는 점이 정말 좋습니다. 무한리필임에도 ...
2,1582818366,퀸즈가든 양재점,맥주 무제한 리필... 감동에 감동 하고 갑니다
3,1582818366,퀸즈가든 양재점,가성비 좋고 야채가 신선해요!!!
4,1582818366,퀸즈가든 양재점,디너세트 무한리필로 먹었는데 진짜 맛있게 배터지게 먹고 왔어요! 채소도 너무 신선하...
...,...,...,...
27795,13150444,난랑,음식 맛있어요
27796,13150444,난랑,좋아요
27797,13150444,난랑,맛있어요~
27798,13150444,난랑,좋아요


In [4]:
print(df[df['text'].str.isspace()])
print(df.isnull().sum())

Empty DataFrame
Columns: [store_id, store_name, text]
Index: []
store_id      0
store_name    0
text          0
dtype: int64


In [5]:
# 결측치 제거
df = df[df['text'] != '']
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,store_id,store_name,text
0,1582818366,퀸즈가든 양재점,양재역 맛집 퀸즈가든에서 특별한 식사를 즐겼어요! 샤브샤브와 월남쌈이 무한리필로 제...
1,1582818366,퀸즈가든 양재점,고기와 야채 상태가 굉장히 좋고 무한리필이라는 점이 정말 좋습니다. 무한리필임에도 ...
2,1582818366,퀸즈가든 양재점,맥주 무제한 리필... 감동에 감동 하고 갑니다
3,1582818366,퀸즈가든 양재점,가성비 좋고 야채가 신선해요!!!
4,1582818366,퀸즈가든 양재점,디너세트 무한리필로 먹었는데 진짜 맛있게 배터지게 먹고 왔어요! 채소도 너무 신선하...
...,...,...,...
26866,13150444,난랑,음식 맛있어요
26867,13150444,난랑,좋아요
26868,13150444,난랑,맛있어요~
26869,13150444,난랑,좋아요


In [6]:
# store_id의 고유한 개수 세기
unique_store_count = df['store_id'].nunique()

# 결과 출력
print(f"unique한 store_id의 개수: {unique_store_count}")

unique한 store_id의 개수: 134


# 감정분석
- 필요 패키지 다운로드

In [7]:
!pip install -Uqq torch transformers datasets pandas

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.4/44.4 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m906.4/906.4 MB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m82.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m70.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m43.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [8]:
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
from datasets import load_dataset
from torch.utils.data import DataLoader
from tqdm import tqdm

import pandas as pd

## 허깅페이스 korean-sentiment 모델 불러오기

In [9]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("WhitePeak/bert-base-cased-Korean-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("WhitePeak/bert-base-cased-Korean-sentiment")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/367 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/895 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/711M [00:00<?, ?B/s]

In [10]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-classification", model="WhitePeak/bert-base-cased-Korean-sentiment")

## Mecab 설치

In [11]:
# word2vec 모듈 불러오기 / mecab import
from gensim.models import Word2Vec
from tqdm import tqdm

In [12]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 138, done.[K
remote: Counting objects: 100% (47/47), done.[K
remote: Compressing objects: 100% (38/38), done.[K
remote: Total 138 (delta 26), reused 22 (delta 8), pack-reused 91 (from 1)[K
Receiving objects: 100% (138/138), 1.72 MiB | 16.11 MiB/s, done.
Resolving deltas: 100% (65/65), done.


In [13]:
cd Mecab-ko-for-Google-Colab

/content/Mecab-ko-for-Google-Colab


In [14]:
!bash install_mecab-ko_on_colab_light_220429.sh

Installing konlpy.....
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m50.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m28.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2024-10-23 07:37:09--  https://bitbucket.org/eunjeon/mecab-ko/downloads/me

In [15]:
from konlpy.tag import Mecab

mecab = Mecab()
text = "아버지가방에들어가신다"

# 1. 형태소 추출
morphs = mecab.morphs(text)
print(f"형태소: {morphs}")

# 2. 형태소 + 품사 태깅
pos = mecab.pos(text)
print(f"품사 태깅: {pos}")

# 3. 명사만 추출
nouns = mecab.nouns(text)
print(f"명사: {nouns}")

형태소: ['아버지', '가', '방', '에', '들어가', '신다']
품사 태깅: [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EC')]
명사: ['아버지', '방']


# ABSA 모델


In [19]:
# 사전 정의된 키워드로 문장에서 특정 측면 추출
aspects = {
    "가성비": ["무제한", "가성비", "가격", "저렴", "양", "착한가격", "가격대비", "거성비", "가격좋고", "사악",
    "가격대비퀄", "음식량", "음식양", "양", "비싼", "싼", "가격대비", "가격 대비", "값",
    "값어치", "혜자", "창렬", "부족", "넉넉", "적은", "많은", "푸짐", "평균 가격 보다",
    "돈 아까운", "저렴", "고렴", "꽉찬", "퀄리티", "적은", "무료", "추가금", "보기보다",
    "배 터지는", "배가 터지는", "무제한", "싸다", "무한리필"],

    "청결도": ["청결", "깨끗", "머리카락",
    "파리", "벌레", "먼지", "얼룩", "화장실", "덜 닦인", "끈적", "주방", "깔끔", "냄새",
    "위생", "비위생", "불쾌", "쾌적", "덜 닦인", "벌레", "오픈 키친", "오픈된 키친",
    "주방 오픈", "오픈된 주방", "눈썹", "털", "가게", "행주", "걸레", "위생 상태",
    "위생상태", "지저분", "모기"],

    "재방문": ["재방문", "재방문 의사", "단골", "또 올게용", "또올게용", "다음", "또간집",
    "또올게요", "또 회식", "두번째", "2번째 방문", "주기적으로", "단골집", "재방문의사",
    "다시 갈", "예정", "일 만에", "개월 만에", "달 만에", "년 만에", "다음에", "담에",
    "또 올", "다시 찾고", "자주", "다음 번에"],

    "속도": ["웨이팅", "빨리", "회전율", "회전률",
    "속도", "서빙", "사람", "정신없", "바로", "사람이 많", "박작박작", "북적북적", "평일인데도",
    "평일에도", "예약", "좌석", "대기", "만석"],

    "분위기":["분위기", "인테리어", "서비스", "기념일",
    "특별한 날", "고급", "조용", "차분", "데이트", "데이또코스", "깔끔한", "미슐랭", "플레이팅",
    "조용", "시끌", "와인", "비주얼", "모임", "연말", "크리스마스", "소음", "음식 셋팀",
    "단란한", "차분", "조용", "모시고 방문", "아늑", "중요한 손님", "세련된", "발렛",
    "생일", "생일파티", "프라이빗", "아기자기", "대화하기", "시끄러운", "시끌벅적", "특별한", "섬세"]
}

sentence = '무한리필에 굶주린 자들이여. 이리오시게. 냉큼오시게. 앉자마자 무자비하게 셋팅된 고기무덤과 야채무덤 그리고 라이스페이퍼와 소스4종을 구경하고 있으면 오리구이도 나오는 광경을 목격. 디너스페셜무제한퀸즈세트 시켯고 무한리필메뉴 시킨사람 한정 여기에 6천원 돈더내면 테라생맥주 무제한이라 오늘은 여기에 눕자 심정으로 술이 술술들어감ㅋㅋ 월남쌈으로 애피타이저 시작. 샤브샤브국물로 뜨끈하게 몸 데우고 고기넣어 흡입하다가 이젠 구워먹기로 전략변경. 소스찍어 먹으니 더 존맛.배에 기름칠하다 약간 느끼할때쯤 생맥 가져와서 칼국수와 함께 먹으면 또 다시 마라톤 시작ㅋㅋㅋ 집에 가기 아쉬울때쯤 밥이랑 야채 참기름 그리고 계란까지 가져와서 야채죽 해먹으면 그제서야 집에 가야하는건가싶은 여기는 퀸즈가든. 다들 배부르게한번 잡솨봐'
aspect_sentiments = {}

# 각 키워드의 주변 문맥만 추출하여 감정 분석 수행
for aspect, keywords in aspects.items():
    for keyword in keywords:
        if keyword in sentence:
            # 키워드가 포함된 문맥 추출 (키워드 주변의 단어들을 포함)
            context_start = max(0, sentence.index(keyword) - 5)  # 키워드 앞에 5글자
            context_end = min(len(sentence), sentence.index(keyword) + len(keyword) + 5)  # 키워드 뒤에 5글자
            context = sentence[context_start:context_end]

            # 1. Mecab을 사용해 형태소 분석 및 명사, 동사만 추출
            morphs = mecab.morphs(context)  # 형태소 추출
            filtered_context = " ".join(morphs)  # 필터링된 텍스트

            # 토큰화 및 감정 분석 수행
            inputs = tokenizer(filtered_context, return_tensors='pt', padding=True, truncation=True, max_length=512)
            with torch.no_grad():
                logits = model(**inputs).logits

            # 감정 분류 (0: 부정, 1: 긍정)
            predicted_class = torch.argmax(logits, dim=1).item()
            sentiment_label = "긍정" if predicted_class == 1 else "부정"
            aspect_sentiments[aspect] = sentiment_label

# 결과 출력
for aspect, sentiment in aspect_sentiments.items():
    print(f"측면: {aspect}, 감정: {sentiment}")

측면: 가성비, 감정: 부정
측면: 속도, 감정: 부정


In [20]:
# 사전 정의된 키워드와 그에 해당하는 측면
aspect_keywords = {
    "가성비": ["가성비", "가격", "저렴", "양", "착한가격", "가격대비", "거성비", "가격좋고", "사악",
    "가격대비퀄", "음식량", "음식양", "양", "비싼", "싼", "가격대비", "가격 대비", "값",
    "값어치", "혜자", "창렬", "부족", "넉넉", "적은", "많은", "푸짐", "평균 가격 보다",
    "돈 아까운", "저렴", "고렴", "꽉찬", "퀄리티", "적은", "무료", "추가금", "보기보다",
    "배 터지는", "배가 터지는", "무제한", "싸다", "무한리필"],

    "청결도": ["청결", "깨끗", "머리카락",
    "파리", "벌레", "먼지", "얼룩", "화장실", "덜 닦인", "끈적", "주방", "깔끔", "냄새",
    "위생", "비위생", "불쾌", "쾌적", "덜 닦인", "벌레", "오픈 키친", "오픈된 키친",
    "주방 오픈", "오픈된 주방", "눈썹", "털", "가게", "행주", "걸레", "위생 상태",
    "위생상태", "지저분", "모기"],

    "재방문": ["재방문", "재방문 의사", "단골", "또 올게용", "또올게용", "다음", "또간집",
    "또올게요", "또 회식", "두번째", "2번째 방문", "주기적으로", "단골집", "재방문의사",
    "다시 갈", "예정", "일 만에", "개월 만에", "달 만에", "년 만에", "다음에", "담에",
    "또 올", "다시 찾고", "자주", "다음 번에"],

    "속도": ["웨이팅", "빨리", "회전율", "회전률",
    "속도", "서빙", "사람", "정신없", "바로", "사람이 많", "박작박작", "북적북적", "평일인데도",
    "평일에도", "예약", "좌석", "대기", "만석"],

    "분위기":["분위기", "인테리어", "서비스", "기념일",
    "특별한 날", "고급", "조용", "차분", "데이트", "데이또코스", "깔끔한", "미슐랭", "플레이팅",
    "조용", "시끌", "와인", "비주얼", "모임", "연말", "크리스마스", "소음", "음식 셋팀",
    "단란한", "차분", "조용", "모시고 방문", "아늑", "중요한 손님", "세련된", "발렛",
    "생일", "생일파티", "프라이빗", "아기자기", "대화하기", "시끄러운", "시끌벅적", "특별한", "섬세"]
}

In [21]:
# 가게별 키워드들의 긍정/부정 카운트를 저장할 딕셔너리
store_aspect_sentiments = {}

# 리뷰 별로 반복
for index, row in df.iterrows():
    store_id = row['store_id']
    store_name = row['store_name']
    sentence = row['text']

    # 해당 store_id가 딕셔너리에 없으면 초기화
    if store_id not in store_aspect_sentiments:
        store_aspect_sentiments[store_id] = {
            'store_name': store_name,
            'aspect_sentiments': {aspect: {'positive': 0, 'negative': 0} for aspect in aspect_keywords}
        }

    aspect_sentiments = store_aspect_sentiments[store_id]['aspect_sentiments']

    # 키워드별 감정 분석 수행
    for aspect, keywords in aspect_keywords.items():
        for keyword in keywords:
            if keyword in sentence:
                # 문맥 추출 및 감정 분석 (기존 방식)
                context_start = max(0, sentence.index(keyword) - 5)
                context_end = min(len(sentence), sentence.index(keyword) + len(keyword) + 5)
                context = sentence[context_start:context_end]

                morphs = mecab.morphs(context)
                filtered_context = " ".join(morphs)

                inputs = tokenizer(filtered_context, return_tensors='pt', padding=True, truncation=True, max_length=512)
                with torch.no_grad():
                    logits = model(**inputs).logits

                predicted_class = torch.argmax(logits, dim=1).item()
                sentiment_label = "긍정" if predicted_class == 1 else "부정"

                # 긍정/부정 카운트 누적
                if sentiment_label == "긍정":
                    aspect_sentiments[aspect]['positive'] += 1
                else:
                    aspect_sentiments[aspect]['negative'] += 1

# 결과 출력
for store_id, sentiment_data in store_aspect_sentiments.items():
    print(f"가게 ID: {store_id}, 가게 이름: {sentiment_data['store_name']}")
    for aspect, counts in sentiment_data['aspect_sentiments'].items():
        print(f"  측면: {aspect}, 긍정 개수: {counts['positive']}, 부정 개수: {counts['negative']}")

가게 ID: 1582818366, 가게 이름: 퀸즈가든 양재점
  측면: 가성비, 긍정 개수: 172, 부정 개수: 116
  측면: 청결도, 긍정 개수: 31, 부정 개수: 8
  측면: 재방문, 긍정 개수: 35, 부정 개수: 8
  측면: 속도, 긍정 개수: 6, 부정 개수: 10
  측면: 분위기, 긍정 개수: 17, 부정 개수: 17
가게 ID: 37233088, 가게 이름: 갈비사랑 양재본점
  측면: 가성비, 긍정 개수: 22, 부정 개수: 47
  측면: 청결도, 긍정 개수: 12, 부정 개수: 1
  측면: 재방문, 긍정 개수: 18, 부정 개수: 10
  측면: 속도, 긍정 개수: 2, 부정 개수: 8
  측면: 분위기, 긍정 개수: 29, 부정 개수: 18
가게 ID: 38264349, 가게 이름: 한양돈까스
  측면: 가성비, 긍정 개수: 55, 부정 개수: 73
  측면: 청결도, 긍정 개수: 6, 부정 개수: 9
  측면: 재방문, 긍정 개수: 9, 부정 개수: 9
  측면: 속도, 긍정 개수: 11, 부정 개수: 19
  측면: 분위기, 긍정 개수: 4, 부정 개수: 4
가게 ID: 1113983640, 가게 이름: 탐라순대국감자탕 양재역직영점
  측면: 가성비, 긍정 개수: 85, 부정 개수: 59
  측면: 청결도, 긍정 개수: 67, 부정 개수: 15
  측면: 재방문, 긍정 개수: 65, 부정 개수: 10
  측면: 속도, 긍정 개수: 4, 부정 개수: 3
  측면: 분위기, 긍정 개수: 15, 부정 개수: 9
가게 ID: 32254662, 가게 이름: 한국순대 본점
  측면: 가성비, 긍정 개수: 42, 부정 개수: 72
  측면: 청결도, 긍정 개수: 8, 부정 개수: 7
  측면: 재방문, 긍정 개수: 10, 부정 개수: 2
  측면: 속도, 긍정 개수: 11, 부정 개수: 17
  측면: 분위기, 긍정 개수: 6, 부정 개수: 1
가게 ID: 1427943416, 가게 이름: 고려향
  측면: 가성비, 긍정 개수: 6,

In [22]:
store_aspect_sentiments

{'1582818366': {'store_name': '퀸즈가든 양재점',
  'aspect_sentiments': {'가성비': {'positive': 172, 'negative': 116},
   '청결도': {'positive': 31, 'negative': 8},
   '재방문': {'positive': 35, 'negative': 8},
   '속도': {'positive': 6, 'negative': 10},
   '분위기': {'positive': 17, 'negative': 17}}},
 '37233088': {'store_name': '갈비사랑 양재본점',
  'aspect_sentiments': {'가성비': {'positive': 22, 'negative': 47},
   '청결도': {'positive': 12, 'negative': 1},
   '재방문': {'positive': 18, 'negative': 10},
   '속도': {'positive': 2, 'negative': 8},
   '분위기': {'positive': 29, 'negative': 18}}},
 '38264349': {'store_name': '한양돈까스',
  'aspect_sentiments': {'가성비': {'positive': 55, 'negative': 73},
   '청결도': {'positive': 6, 'negative': 9},
   '재방문': {'positive': 9, 'negative': 9},
   '속도': {'positive': 11, 'negative': 19},
   '분위기': {'positive': 4, 'negative': 4}}},
 '1113983640': {'store_name': '탐라순대국감자탕 양재역직영점',
  'aspect_sentiments': {'가성비': {'positive': 85, 'negative': 59},
   '청결도': {'positive': 67, 'negative': 15},
   '재방

In [23]:
print(len(store_aspect_sentiments))

134


In [25]:
# 결과를 JSON 형식으로 저장
with open('/content/drive/MyDrive/NaverCrawlingData/store_aspect_sentiments2.json', 'w', encoding='utf-8') as f:
    json.dump(store_aspect_sentiments, f, ensure_ascii=False, indent=4)

# 키워드 별 점수 계산

In [1]:
import json
import os
import pandas as pd

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [6]:
# final_final_final_dataset.json 파일 로드
with open('/content/drive/MyDrive/NaverCrawlingData/final_final_final_dataset.json', 'r', encoding='utf-8') as f:
    final_dataset = json.load(f)

# store_aspect_sentiments2.json 파일 로드
with open('/content/drive/MyDrive/NaverCrawlingData/store_aspect_sentiments2.json', 'r', encoding='utf-8') as f:
    store_aspect_sentiments = json.load(f)

# 가게별 5가지 측면에 대한 점수를 저장할 리스트
store_scores = []

# 각 가게별 5개의 측면에 대해 점수 계산
for store in final_dataset:
    store_id = store['store_id']

    if store_id in store_aspect_sentiments:
        aspect_sentiments = store_aspect_sentiments[store_id]['aspect_sentiments']
        total_reviews = len(store['reviews'])  # 전체 리뷰 수

        # 각 측면에 대해 [(긍정 리뷰 수 - 부정 리뷰 수) / 전체 리뷰 수] * 100으로 점수 계산
        scores = {}
        for aspect, counts in aspect_sentiments.items():
            positive_count = counts['positive']
            negative_count = counts['negative']
            score = ((positive_count - negative_count) / total_reviews) * 100
            scores[aspect] = score

        # 가게별 점수를 저장
        store_scores.append({'store_id': store_id, 'store_name': store['store_info']['store_name'], 'scores': scores})

# 항목별 점수들을 추출해 정규화를 준비
aspects = ['가성비', '청결도', '재방문', '속도', '분위기']

# 항목별 점수들을 모아둔 딕셔너리
aspect_scores = {aspect: [] for aspect in aspects}

# 각 가게의 점수를 항목별로 추출
for store in store_scores:
    for aspect in aspects:
        aspect_scores[aspect].append(store['scores'][aspect])

# 항목별 정규화 (0 ~ 1 범위)
normalized_aspect_scores = {}
for aspect in aspects:
    min_score = min(aspect_scores[aspect])
    max_score = max(aspect_scores[aspect])
    # 정규화 및 소수점 셋째 자리까지 반올림
    normalized_aspect_scores[aspect] = [
        round((score - min_score) / (max_score - min_score), 3) if max_score != min_score else 0
        for score in aspect_scores[aspect]
    ]

# 각 가게별로 정규화된 점수를 저장
for i, store in enumerate(store_scores):
    for aspect in aspects:
        store['scores'][f'{aspect}_normalized'] = normalized_aspect_scores[aspect][i]

# 정규화된 점수를 원래 데이터셋에 추가
for store in final_dataset:
    store_id = store['store_id']

    # 해당 가게의 정규화된 점수를 찾아서 추가
    for normalized_store in store_scores:
        if store_id == normalized_store['store_id']:
            store['store_info']['scores'] = normalized_store['scores']

In [7]:
# 가게별로 점수 확인하는 코드
for store in final_dataset:
    store_id = store["store_id"]
    store_name = store["store_info"]["store_name"]
    scores = store["store_info"]["scores"]

    print(f"가게 ID: {store_id}, 가게 이름: {store_name}")
    print("점수 (정규화 전):")
    print(f"  가성비: {scores['가성비']}")
    print(f"  청결도: {scores['청결도']}")
    print(f"  재방문: {scores['재방문']}")
    print(f"  속도: {scores['속도']}")
    print(f"  분위기: {scores['분위기']}")

    print("정규화된 점수:")
    print(f"  가성비 (normalized): {scores['가성비_normalized']}")
    print(f"  청결도 (normalized): {scores['청결도_normalized']}")
    print(f"  재방문 (normalized): {scores['재방문_normalized']}")
    print(f"  속도 (normalized): {scores['속도_normalized']}")
    print(f"  분위기 (normalized): {scores['분위기_normalized']}")
    print("-" * 40)

가게 ID: 1582818366, 가게 이름: 퀸즈가든 양재점
점수 (정규화 전):
  가성비: 35.0
  청결도: 14.374999999999998
  재방문: 16.875
  속도: -2.5
  분위기: 0.0
정규화된 점수:
  가성비 (normalized): 0.787
  청결도 (normalized): 0.2
  재방문 (normalized): 0.181
  속도 (normalized): 0.5
  분위기 (normalized): 0.136
----------------------------------------
가게 ID: 37233088, 가게 이름: 갈비사랑 양재본점
점수 (정규화 전):
  가성비: -27.77777777777778
  청결도: 12.222222222222221
  재방문: 8.88888888888889
  속도: -6.666666666666667
  분위기: 12.222222222222221
정규화된 점수:
  가성비 (normalized): 0.0
  청결도 (normalized): 0.181
  재방문 (normalized): 0.111
  속도 (normalized): 0.222
  분위기 (normalized): 0.459
----------------------------------------
가게 ID: 38264349, 가게 이름: 한양돈까스
점수 (정규화 전):
  가성비: -7.5
  청결도: -1.25
  재방문: 0.0
  속도: -3.3333333333333335
  분위기: 0.0
정규화된 점수:
  가성비 (normalized): 0.254
  청결도 (normalized): 0.06
  재방문 (normalized): 0.033
  속도 (normalized): 0.444
  분위기 (normalized): 0.136
----------------------------------------
가게 ID: 1113983640, 가게 이름: 탐라순대국감자탕 양재역직영점
점수 (정규화 전):
  가성비: 

In [9]:
# 결과 저장 (새로운 파일에 저장)
with open('/content/drive/MyDrive/NaverCrawlingData/final_final_final_final_dataset.json', 'w', encoding='utf-8') as f:
    json.dump(final_dataset, f, ensure_ascii=False, indent=4)

print("항목별로 정규화된 점수를 포함한 새로운 데이터셋이 저장되었습니다.")

항목별로 정규화된 점수를 포함한 새로운 데이터셋이 저장되었습니다.


In [10]:
import pandas as pd

# final_final_final_final_dataset.json 파일 로드
with open('/content/drive/MyDrive/NaverCrawlingData/final_final_final_final_dataset.json', 'r') as f:
    data = json.load(f)

# 가게별 점수를 추출하여 DataFrame으로 변환
store_data = []
for store in data:
    store_id = store['store_id']
    store_name = store['store_info']['store_name']
    scores = store['store_info']['scores']
    store_data.append({
        'store_id': store_id,
        'store_name': store_name,
        '가성비': scores['가성비'],
        '청결도': scores['청결도'],
        '재방문': scores['재방문'],
        '속도': scores['속도'],
        '분위기': scores['분위기']
    })

df_scores = pd.DataFrame(store_data)
df_scores

Unnamed: 0,store_id,store_name,가성비,청결도,재방문,속도,분위기
0,1582818366,퀸즈가든 양재점,35.000000,14.375000,16.875000,-2.500000,0.000000
1,37233088,갈비사랑 양재본점,-27.777778,12.222222,8.888889,-6.666667,12.222222
2,38264349,한양돈까스,-7.500000,-1.250000,0.000000,-3.333333,0.000000
3,1113983640,탐라순대국감자탕 양재역직영점,52.000000,104.000000,110.000000,2.000000,12.000000
4,32254662,한국순대 본점,-11.111111,0.370370,2.962963,-2.222222,1.851852
...,...,...,...,...,...,...,...
130,1361137881,채석강,-0.414938,4.979253,2.489627,-1.244813,1.659751
131,1420055829,임병주산동칼국수,-17.586207,0.000000,0.000000,-0.344828,-0.689655
132,1931613846,우나유 나고야식 장어덮밥,-5.500000,4.500000,12.000000,-1.000000,6.500000
133,36200001,춘향골남원추어탕 서초점,0.724638,0.724638,1.449275,0.000000,0.000000


In [12]:
# 특정 측면(예: 가성비)에 대해 순위를 매기기
sorted_by_price = df_scores.sort_values(by='가성비', ascending=False)

# 결과 출력
sorted_by_price

Unnamed: 0,store_id,store_name,가성비,청결도,재방문,속도,분위기
3,1113983640,탐라순대국감자탕 양재역직영점,52.000000,104.000000,110.000000,2.000000,12.000000
124,1113983640,탐라순대국감자탕 양재역직영점,52.000000,104.000000,110.000000,2.000000,12.000000
122,1932467805,보글이 생태탕왕코다리 양재역점,35.714286,8.214286,10.000000,-0.357143,2.500000
75,1034622849,국고집,35.483871,6.774194,16.774194,0.967742,-5.161290
0,1582818366,퀸즈가든 양재점,35.000000,14.375000,16.875000,-2.500000,0.000000
...,...,...,...,...,...,...,...
131,1420055829,임병주산동칼국수,-17.586207,0.000000,0.000000,-0.344828,-0.689655
91,38643869,양지수제샌드위치,-18.181818,2.020202,0.000000,-1.010101,6.060606
70,1786476142,로마옥 도곡,-18.181818,3.636364,12.727273,-3.636364,32.727273
63,1944962798,이가네양꼬치 양재역직영점,-21.111111,2.222222,5.185185,-1.111111,1.851852


In [None]:
# 파일로 저장하려면:
sorted_by_price.to_csv('/content/drive/MyDrive/NaverCrawlingData/store_ranking_by_price.csv', index=False)