# 마켓컬리 리뷰데이터 분석

In [3]:
!pip install pandas
import pandas as pd

# 파일 경로를 지정합니다.
file_path_productInfo = '/content/product_info.csv'
file_path_reviews = '/content/KurlyReviews_top20_1000.csv'

# CSV 파일을 pandas DataFrame으로 읽어옵니다.
df_productInfo = pd.read_csv(file_path_productInfo)
df_reviews = pd.read_csv(file_path_reviews)

# DataFrame을 출력합니다.
print(df_productInfo.head(20))
print(df_reviews.head(20))


    product_code       distributor                product_name  price
0     1000572062               사리원                     소불고기 전골  11925
1     1000773213             어반다이닝                  바지락 술찜 파스타  11449
2     1000832433          최현석의 쵸이닷          파스타 인기 메뉴 11종 (택1)   6715
3     1000040783               바른식                강릉식 짬뽕순두부 찌개   8900
4        5062362              하루한킷                    송탄식 부대찌개  14500
5     1000330580          해운대암소갈비집                  한우 소불고기 전골  14310
6        5099160        LITTLENECK                 리틀넥 스테이크 키트  19900
7     1000016600               투다리             시그니처 김치우동 (2인분)  13400
8     1000944714         정지선의 티엔미미         티엔미미 인기 면요리 4종 (택1)   5925
9        5049405  My little recipe         안동에서 올라온 전통찜닭 (2인용)  16182
10    1000872222               투다리         인기 밀키트 4종 골라담기 (택1)  12990
11    1000835959          쵸이닷:직원食당                   이태원식 부대찌개  11250
12    1000811962              일상식탁                  부산식 얼큰 낙곱새  17520
13       5053932    

### 불필요한 문자열 삭제

In [4]:
# prompt: re를 이용해서 df_reviews 에서 불필요한 문자나 기호를 제거하여 분석할 수 있는 깨끗한 텍스트를 만드는 코드를 작성해줘
import re

def clean_text(text):
    # 한글, 숫자, 영어 소문자/대문자, 띄어쓰기를 제외한 모든 문자 제거
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\s]', '', text)
    # 여러 개의 공백을 하나의 공백으로 변환
    text = re.sub('\s+', ' ', text).strip()
    return text

# 리뷰 텍스트 정제
df_reviews['cleaned_review'] = df_reviews['review'].apply(clean_text)

# 정제된 리뷰 출력
print(df_reviews[['review', 'cleaned_review']].head(20))

                                               review  \
0   우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중, ...   
1   국물이 있는 소불고기가 먹고 싶어 구매했어요. 구성이 딱 원하던 거였거든요. (고기...   
2   사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요. 오늘은 사리원 소불고기를 만들...   
3                              굿굿굿 진짜 너무 맛있어요\n최고 입니다   
4                  사리원 소불고기 맛있는데 세일하니 냉동실 상비템으로 구매합니다   
5                                     배송 빠르고 품질이 좋아요.   
6                                    가성비좋은 소고기 감사합니다    
7                                    사리원 소불고기 전골 맛있어요   
8                            맞벌이 도시락까지싸야해서  편할것같아 사봐요   
9                                 세일해서구매했어요 맛있게한끼좋아요    
10                                   맛있을 것 같아 기대가 됩니다   
11    적당히 달큰하고 맛있어요! 야채 더 넣어서 먹으면 푸짐한 2인 식사로 충분합니다 :)   
12                                       후기 좋아서 한번 사봄   
13                                     맛있어요 재구매 예정입니다   
14            양도 적당하니 2인 먹기 좋아요\n밀키트라 먹기 편하고 양념이 맛있어요   
15                                      굿이에오진짜ㅍ존맛잇어요ㅔ   
16                             

### 단어단위 리뷰 분리

In [5]:
# prompt: KoNLPy를 이용해서 문장을 단어단위로 분리하는 코드 작성
!pip install konlpy
from konlpy.tag import Okt

# Okt 객체 생성
okt = Okt()

# 단어 단위로 분리하는 함수
def tokenize(text):
    return okt.morphs(text)

# 정제된 리뷰를 단어 단위로 분리
df_reviews['tokens'] = df_reviews['cleaned_review'].apply(tokenize)

# 결과 출력
print(df_reviews[['cleaned_review', 'tokens']].head(20))

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m62.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (493 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m493.9/493.9 kB[0m [31m34.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.1 konlpy-0.6.0
                                       cleaned_review  \
0   우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중 아...   
1   국물이 있는 소불고기가 먹고 싶어 구매했어요 구성이 딱 원하던 거였거든요 고기소스당...   
2   사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요 오늘은 사리원 소불고기를 만들어...   
3                               굿굿굿 진짜 너무 맛있어요 최고

### 분석에 영향을 주는 불용어 제거1

In [7]:
stopwords = ['은', '는', '이', '가', '을', '를', '의', '에', '에서', '로', '으로', '와', '과', '랑', '이랑', '한테', '에게', '나'
             , '내', '저', '너', '네', '당신', '그', '그녀', '그들', '이것', '그것', '저것', '여기', '저기', '거기', '그리고', '하지만'
             , '또는', '또한', '그래서', '왜냐하면', '있다', '있는', '없다', '없는', '하다', '하는', '되다', '되는', '이다', '입니다'
             , '같다', '같은', '매우', '너무', '아주', '정말', '거의', '바로', '즉', '곧', '좋아요', '최고', '완전', '진짜', '정말'
             , '너무', '대박', '엄청', '별로', '나쁘다', '싫다', '아니다', '안 좋다', '별로다', '괜찮다', '좋다', '나쁘다', '평범하다'
             , '훌륭하다', '불만족', '만족', '추천', '비추천', '필요', '없어', '있다', '없다', '이 제품', '이 상품', '구매', '사용', '후기'
             , '리뷰', '평가', '생각', '느낌', '가격', '배송', '품질', '서비스', '제품', '상품', '빠르다', '느리다','맛있어요','추천해요']

def remove_stopwords(tokens):
    return [token for token in tokens if token not in stopwords]

# 불용어 제거
df_reviews['tokens_without_stopwords'] = df_reviews['tokens'].apply(remove_stopwords)

# 결과 출력
print(df_reviews[['tokens', 'tokens_without_stopwords']].head(20))

                                               tokens  \
0   [우리, 가족, 4, 명, 이, 오랜, 만, 에, 모, 여서, 어떤, 음식, 으로,...   
1   [국물, 이, 있는, 소, 불고기, 가, 먹고, 싶어, 구매, 했어요, 구성, 이,...   
2   [사리원, 은, 소스, 가, 제, 입맛, 에, 맞아서, 자주, 구매, 하는데요, 오...   
3                        [굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]   
4   [사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...   
5                               [배송, 빠르고, 품질, 이, 좋아요]   
6                             [가성, 비, 좋은, 소고기, 감사합니다]   
7                             [사리원, 소, 불고기, 전골, 맛있어요]   
8                [맞벌이, 도시락, 까지, 싸, 야해서, 편할것, 같아, 사봐요]   
9                 [세, 일해, 서, 구매, 했어요, 맛있게, 한, 끼, 좋아요]   
10                           [맛있을, 것, 같아, 기대, 가, 됩니다]   
11  [적당히, 달, 큰하고, 맛있어요, 야채, 더, 넣어서, 먹으면, 푸, 짐, 한, ...   
12                                  [후기, 좋아서, 한번, 사봄]   
13                               [맛있어요, 재구매, 예정, 입니다]   
14  [양도, 적당하니, 2, 인, 먹기, 좋아요, 밀, 키트, 라, 먹기, 편하고, 양...   
15                    [굿, 이, 에, 오, 진짜, ㅍ, 존맛, 잇어요, ㅔ]   
16                             

### 형태소분리

In [None]:
# prompt: okt.morphs를 사용해서 표제어를 추출해줘. 위에서 쓴 코드랑 중복되는 코드 작성은 하지말고

# 표제어 추출 함수
def extract_nouns(tokens):
    return [okt.morphs(token)[0] for token in tokens]

# 표제어 추출
df_reviews['nouns'] = df_reviews['tokens_without_stopwords'].apply(extract_nouns)

# 결과 출력
print(df_reviews[['tokens_without_stopwords', 'nouns']].head(20))

                             tokens_without_stopwords  \
0   [우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 으로, 저녁, 준...   
1   [국물, 있는, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, ...   
2   [사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소...   
3                        [굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]   
4   [사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...   
5                                  [배송, 빠르고, 품질, 좋아요]   
6                             [가성, 비, 좋은, 소고기, 감사합니다]   
7                             [사리원, 소, 불고기, 전골, 맛있어요]   
8                [맞벌이, 도시락, 까지, 싸, 야해서, 편할것, 같아, 사봐요]   
9                 [세, 일해, 서, 구매, 했어요, 맛있게, 한, 끼, 좋아요]   
10                              [맛있을, 것, 같아, 기대, 됩니다]   
11  [적당히, 달, 큰하고, 맛있어요, 야채, 더, 넣어서, 먹으면, 푸, 짐, 한, ...   
12                                  [후기, 좋아서, 한번, 사봄]   
13                               [맛있어요, 재구매, 예정, 입니다]   
14  [양도, 적당하니, 2, 인, 먹기, 좋아요, 밀, 키트, 라, 먹기, 편하고, 양...   
15                          [굿, 오, 진짜, ㅍ, 존맛, 잇어요, ㅔ]   
16                             

In [None]:
df_reviews

Unnamed: 0,product_id,date,review,cleaned_review,tokens,tokens_without_stopwords,nouns
0,1000572062,2024.12.07,"우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중, ...",우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중 아...,"[우리, 가족, 4, 명, 이, 오랜, 만, 에, 모, 여서, 어떤, 음식, 으로,...","[우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 으로, 저녁, 준...","[우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 으로, 저녁, 준..."
1,1000572062,2024.12.06,국물이 있는 소불고기가 먹고 싶어 구매했어요. 구성이 딱 원하던 거였거든요. (고기...,국물이 있는 소불고기가 먹고 싶어 구매했어요 구성이 딱 원하던 거였거든요 고기소스당...,"[국물, 이, 있는, 소, 불고기, 가, 먹고, 싶어, 구매, 했어요, 구성, 이,...","[국물, 있는, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, ...","[국물, 있는, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, ..."
2,1000572062,2024.10.12,사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요. 오늘은 사리원 소불고기를 만들...,사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요 오늘은 사리원 소불고기를 만들어...,"[사리원, 은, 소스, 가, 제, 입맛, 에, 맞아서, 자주, 구매, 하는데요, 오...","[사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소...","[사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소..."
3,1000572062,2025.01.21,굿굿굿 진짜 너무 맛있어요\n최고 입니다,굿굿굿 진짜 너무 맛있어요 최고 입니다,"[굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]","[굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]","[굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]"
4,1000572062,2025.01.21,사리원 소불고기 맛있는데 세일하니 냉동실 상비템으로 구매합니다,사리원 소불고기 맛있는데 세일하니 냉동실 상비템으로 구매합니다,"[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...","[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...","[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로..."
...,...,...,...,...,...,...,...
19995,5095790,2024.09.16,차슈가 2인포장이라 나눠먹기 좀 힘든데 맛있습니다,차슈가 2인포장이라 나눠먹기 좀 힘든데 맛있습니다,"[차슈, 가, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]","[차슈, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]","[차슈, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]"
19996,5095790,2024.09.16,샛별배송 너무 좋습니다. 또 사먹어야겠어요,샛별배송 너무 좋습니다 또 사먹어야겠어요,"[샛별, 배송, 너무, 좋습니다, 또, 사먹어야겠어요]","[샛별, 배송, 너무, 좋습니다, 또, 사먹어야겠어요]","[샛별, 배송, 너무, 좋습니다, 또, 사먹어야겠어요]"
19997,5095790,2024.09.16,생면이라 그런지 면이 부드럽고 국물이 진하네요.,생면이라 그런지 면이 부드럽고 국물이 진하네요,"[생면, 이라, 그런지, 면, 이, 부드럽고, 국물, 이, 진하네요]","[생면, 이라, 그런지, 면, 부드럽고, 국물, 진하네요]","[생면, 이라, 그런지, 면, 부드럽고, 국물, 진하네요]"
19998,5095790,2024.09.16,일본에서 먹는 수준은 아니지만 엥간한 한국 라멘 전문점은 떡바릅니다ㅋㅋ,일본에서 먹는 수준은 아니지만 엥간한 한국 라멘 전문점은 떡바릅니다ㅋㅋ,"[일본, 에서, 먹는, 수준, 은, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점...","[일본, 에서, 먹는, 수준, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점, 떡...","[일본, 에서, 먹는, 수준, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점, 떡..."


### 분석에 영향을 주는 불용어 제거2

In [10]:
stopwords = ['은', '는', '이', '가', '을', '를', '의', '에', '에서', '로', '으로', '와', '과', '랑', '이랑', '한테', '에게', '나'
             , '내', '저', '너', '네', '당신', '그', '그녀', '그들', '이것', '그것', '저것', '여기', '저기', '거기', '그리고', '하지만'
             , '또는', '또한', '그래서', '왜냐하면', '있다', '있는', '없다', '없는', '하다', '하는', '되다', '되는', '이다', '입니다'
             , '같다', '같은', '매우', '너무', '아주', '정말', '거의', '바로', '즉', '곧']

def remove_stopwords(tokens):
    return [token for token in tokens if token not in stopwords]

# 불용어 제거
df_reviews['tokens_without_stopwords2'] = df_reviews['tokens'].apply(remove_stopwords)

# 결과 출력
print(df_reviews[['tokens', 'tokens_without_stopwords2']].head(20))

                                               tokens  \
0   [우리, 가족, 4, 명, 이, 오랜, 만, 에, 모, 여서, 어떤, 음식, 으로,...   
1   [국물, 이, 있는, 소, 불고기, 가, 먹고, 싶어, 구매, 했어요, 구성, 이,...   
2   [사리원, 은, 소스, 가, 제, 입맛, 에, 맞아서, 자주, 구매, 하는데요, 오...   
3                        [굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]   
4   [사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...   
5                               [배송, 빠르고, 품질, 이, 좋아요]   
6                             [가성, 비, 좋은, 소고기, 감사합니다]   
7                             [사리원, 소, 불고기, 전골, 맛있어요]   
8                [맞벌이, 도시락, 까지, 싸, 야해서, 편할것, 같아, 사봐요]   
9                 [세, 일해, 서, 구매, 했어요, 맛있게, 한, 끼, 좋아요]   
10                           [맛있을, 것, 같아, 기대, 가, 됩니다]   
11  [적당히, 달, 큰하고, 맛있어요, 야채, 더, 넣어서, 먹으면, 푸, 짐, 한, ...   
12                                  [후기, 좋아서, 한번, 사봄]   
13                               [맛있어요, 재구매, 예정, 입니다]   
14  [양도, 적당하니, 2, 인, 먹기, 좋아요, 밀, 키트, 라, 먹기, 편하고, 양...   
15                    [굿, 이, 에, 오, 진짜, ㅍ, 존맛, 잇어요, ㅔ]   
16                             

### 형태소분리2

In [13]:
# prompt: okt.morphs를 사용해서 표제어를 추출해줘. 위에서 쓴 코드랑 중복되는 코드 작성은 하지말고

# 표제어 추출 함수
def extract_nouns(tokens):
    return [okt.morphs(token)[0] for token in tokens]

# 표제어 추출
df_reviews['nouns2'] = df_reviews['tokens_without_stopwords2'].apply(extract_nouns)

# 결과 출력
print(df_reviews[['tokens_without_stopwords2', 'nouns2']].head(20))

                            tokens_without_stopwords2  \
0   [우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 저녁, 준비, 해...   
1   [국물, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, 거, 였...   
2   [사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소...   
3                                 [굿굿굿, 진짜, 맛있어요, 최고]   
4   [사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 구매...   
5                                  [배송, 빠르고, 품질, 좋아요]   
6                             [가성, 비, 좋은, 소고기, 감사합니다]   
7                             [사리원, 소, 불고기, 전골, 맛있어요]   
8                [맞벌이, 도시락, 까지, 싸, 야해서, 편할것, 같아, 사봐요]   
9                 [세, 일해, 서, 구매, 했어요, 맛있게, 한, 끼, 좋아요]   
10                              [맛있을, 것, 같아, 기대, 됩니다]   
11  [적당히, 달, 큰하고, 맛있어요, 야채, 더, 넣어서, 먹으면, 푸, 짐, 한, ...   
12                                  [후기, 좋아서, 한번, 사봄]   
13                                    [맛있어요, 재구매, 예정]   
14  [양도, 적당하니, 2, 인, 먹기, 좋아요, 밀, 키트, 라, 먹기, 편하고, 양...   
15                          [굿, 오, 진짜, ㅍ, 존맛, 잇어요, ㅔ]   
16                             

In [24]:
df_reviews

Unnamed: 0,product_id,date,review,cleaned_review,tokens,tokens_without_stopwords,tokens_without_stopwords2,nouns2
0,1000572062,2024.12.07,"우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중, ...",우리 가족 4명이 오랜만에 모여서 어떤 음식으로 저녁을 준비해야 할까 고민하던중 아...,"[우리, 가족, 4, 명, 이, 오랜, 만, 에, 모, 여서, 어떤, 음식, 으로,...","[우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 저녁, 준비, 해...","[우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 저녁, 준비, 해...","[우리, 가족, 4, 명, 오랜, 만, 모, 여서, 어떤, 음식, 저녁, 준비, 해..."
1,1000572062,2024.12.06,국물이 있는 소불고기가 먹고 싶어 구매했어요. 구성이 딱 원하던 거였거든요. (고기...,국물이 있는 소불고기가 먹고 싶어 구매했어요 구성이 딱 원하던 거였거든요 고기소스당...,"[국물, 이, 있는, 소, 불고기, 가, 먹고, 싶어, 구매, 했어요, 구성, 이,...","[국물, 소, 불고기, 먹고, 싶어, 했어요, 구성, 딱, 원하던, 거, 였거든요,...","[국물, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, 거, 였...","[국물, 소, 불고기, 먹고, 싶어, 구매, 했어요, 구성, 딱, 원하던, 거, 였..."
2,1000572062,2024.10.12,사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요. 오늘은 사리원 소불고기를 만들...,사리원은 소스가 제 입맛에 맞아서 자주 구매하는데요 오늘은 사리원 소불고기를 만들어...,"[사리원, 은, 소스, 가, 제, 입맛, 에, 맞아서, 자주, 구매, 하는데요, 오...","[사리원, 소스, 제, 입맛, 맞아서, 자주, 하는데요, 오늘, 사리원, 소, 불고...","[사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소...","[사리원, 소스, 제, 입맛, 맞아서, 자주, 구매, 하는데요, 오늘, 사리원, 소..."
3,1000572062,2025.01.21,굿굿굿 진짜 너무 맛있어요\n최고 입니다,굿굿굿 진짜 너무 맛있어요 최고 입니다,"[굿굿굿, 진짜, 너무, 맛있어요, 최고, 입니다]",[굿굿굿],"[굿굿굿, 진짜, 맛있어요, 최고]","[굿굿굿, 진짜, 맛있어요, 최고]"
4,1000572062,2025.01.21,사리원 소불고기 맛있는데 세일하니 냉동실 상비템으로 구매합니다,사리원 소불고기 맛있는데 세일하니 냉동실 상비템으로 구매합니다,"[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 으로...","[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 합니다]","[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 구매...","[사리원, 소, 불고기, 맛있는데, 세, 일, 하니, 냉동, 실, 상비, 템, 구매..."
...,...,...,...,...,...,...,...,...
19995,5095790,2024.09.16,차슈가 2인포장이라 나눠먹기 좀 힘든데 맛있습니다,차슈가 2인포장이라 나눠먹기 좀 힘든데 맛있습니다,"[차슈, 가, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]","[차슈, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]","[차슈, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]","[차슈, 2, 인포, 장이, 라, 나눠, 먹기, 좀, 힘든데, 맛있습니다]"
19996,5095790,2024.09.16,샛별배송 너무 좋습니다. 또 사먹어야겠어요,샛별배송 너무 좋습니다 또 사먹어야겠어요,"[샛별, 배송, 너무, 좋습니다, 또, 사먹어야겠어요]","[샛별, 좋습니다, 또, 사먹어야겠어요]","[샛별, 배송, 좋습니다, 또, 사먹어야겠어요]","[샛별, 배송, 좋습니다, 또, 사먹어야겠어요]"
19997,5095790,2024.09.16,생면이라 그런지 면이 부드럽고 국물이 진하네요.,생면이라 그런지 면이 부드럽고 국물이 진하네요,"[생면, 이라, 그런지, 면, 이, 부드럽고, 국물, 이, 진하네요]","[생면, 이라, 그런지, 면, 부드럽고, 국물, 진하네요]","[생면, 이라, 그런지, 면, 부드럽고, 국물, 진하네요]","[생면, 이라, 그런지, 면, 부드럽고, 국물, 진하네요]"
19998,5095790,2024.09.16,일본에서 먹는 수준은 아니지만 엥간한 한국 라멘 전문점은 떡바릅니다ㅋㅋ,일본에서 먹는 수준은 아니지만 엥간한 한국 라멘 전문점은 떡바릅니다ㅋㅋ,"[일본, 에서, 먹는, 수준, 은, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점...","[일본, 먹는, 수준, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점, 떡, 바릅...","[일본, 먹는, 수준, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점, 떡, 바릅...","[일본, 먹는, 수준, 아니지만, 엥, 간, 한, 한국, 라멘, 전문점, 떡, 바릅..."


### 각 제품별 TP-IDF로 토픽모델링[불용어제거1]

In [42]:
import pandas as pd
import re
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF
import numpy as np

# 상위 10개 product_code 추출
top_10_product_codes = df_productInfo['product_code'].head(10)

# 각 product_code에 대한 토픽 모델링
for product_code in top_10_product_codes:
    # product_code와 product_id가 일치하는 리뷰 필터링
    product_reviews = df_reviews[df_reviews['product_id'] == product_code]

    if product_reviews.empty:
        print(f"No reviews found for product_code: {product_code}")
        continue

    # nouns2를 공백으로 연결하여 문자열로 변환
    documents2 = [' '.join(tokens) for tokens in product_reviews['tokens_without_stopwords']]

    # TF-IDF 벡터화
    vectorizer2 = TfidfVectorizer(max_df=0.95, min_df=2)
    tfidf_matrix2 = vectorizer2.fit_transform(documents2)

    # NMF 토픽 모델링 (5개 주제)
    nmf_model2 = NMF(n_components=5, random_state=42)
    nmf_model2.fit(tfidf_matrix2)

    # 각 토픽별 상위 20개 키워드 및 가중치 출력
    feature_names2 = vectorizer2.get_feature_names_out()

    print(f"\nTopic Modeling for product_code: {product_code}")
    for topic_idx, topic in enumerate(nmf_model2.components_):
        print(f"Topic #{topic_idx + 1}:")
        top_features_ind2 = topic.argsort()[:-21:-1]  # 상위 20개
        top_features2 = [feature_names2[i] for i in top_features_ind2]
        top_weights2 = topic[top_features_ind2]

        for feature2, weight in zip(top_features2, top_weights2):
            print(f"  - {feature2}: {weight:.4f}")
        print("\n")


Topic Modeling for product_code: 1000572062
Topic #1:
  - 불고기: 1.9532
  - 전골: 1.6738
  - 사리원: 0.8753
  - 맛있습니다: 0.1897
  - 괜찮아요: 0.0796
  - 사리: 0.0692
  - 처음: 0.0662
  - 주문: 0.0659
  - 역시: 0.0634
  - 오랜: 0.0621
  - 같아요: 0.0579
  - 이에요: 0.0576
  - 양념: 0.0557
  - 했는데: 0.0488
  - 가로: 0.0450
  - 키트: 0.0447
  - 대로: 0.0436
  - 먹었습니다: 0.0430
  - 먹을: 0.0428
  - 컬리: 0.0381


Topic #2:
  - 추가: 1.0230
  - 해서: 0.9204
  - 고기: 0.8559
  - 야채: 0.8288
  - 당면: 0.4844
  - 버섯: 0.4839
  - 먹었는데: 0.3329
  - 조금: 0.2420
  - 먹으니: 0.2396
  - 냉동: 0.2395
  - 하고: 0.2210
  - 먹으면: 0.1655
  - 양념: 0.1556
  - 넣어: 0.1547
  - 냄새: 0.1487
  - 국물: 0.1476
  - 부드럽고: 0.1403
  - 않고: 0.1379
  - 해동: 0.1333
  - 먹었어요: 0.1328


Topic #3:
  - 재구매: 1.1949
  - 맛있어서: 0.9733
  - 했어요: 0.9161
  - 주문: 0.5301
  - 합니다: 0.5018
  - 보고: 0.1992
  - 먹어: 0.1613
  - 일해: 0.1495
  - 좋아서: 0.1368
  - 의사: 0.1283
  - 있어요: 0.1174
  - 하고: 0.1122
  - 계속: 0.1030
  - 한번: 0.0885
  - 두번째: 0.0882
  - 자주: 0.0881
  - 해요: 0.0849
  - 저번: 0.0819
  - 간편하고: 0.0642
  - 먹

### 각 제품별 TP-IDF로 토픽모델링[불용어제거2]

In [41]:
# prompt: df_productInfo['product_code']를 상위 10개를 뽑습니다. 추출한 product code는 df_reviews['product_id']와 같으며 반복문을 돌며 각 product_id에 해당하는  `nouns2` 내 데이터를 사용하여  각 product_id 별로 TF-IDF로 5개의 주제로 NMF로 토픽모델링을 하고 각 토픽별 주요 키워드와 가중치 20개씩 추출해주세요.

import pandas as pd
import re
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF
import numpy as np

# 상위 10개 product_code 추출
top_10_product_codes = df_productInfo['product_code'].head(10)

# 각 product_code에 대한 토픽 모델링
for product_code in top_10_product_codes:
    # product_code와 product_id가 일치하는 리뷰 필터링
    product_reviews = df_reviews[df_reviews['product_id'] == product_code]

    if product_reviews.empty:
        print(f"No reviews found for product_code: {product_code}")
        continue

    # nouns2를 공백으로 연결하여 문자열로 변환
    documents = [' '.join(tokens) for tokens in product_reviews['nouns2']]

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer(max_df=0.95, min_df=2)
    tfidf_matrix = vectorizer.fit_transform(documents)

    # NMF 토픽 모델링 (5개 주제)
    nmf_model = NMF(n_components=5, random_state=42)
    nmf_model.fit(tfidf_matrix)

    # 각 토픽별 상위 20개 키워드 및 가중치 출력
    feature_names = vectorizer.get_feature_names_out()

    print(f"\nTopic Modeling for product_code: {product_code}")
    for topic_idx, topic in enumerate(nmf_model.components_):
        print(f"Topic #{topic_idx + 1}:")
        top_features_ind = topic.argsort()[:-21:-1]  # 상위 20개
        top_features = [feature_names[i] for i in top_features_ind]
        top_weights = topic[top_features_ind]

        for feature, weight in zip(top_features, top_weights):
            print(f"  - {feature}: {weight:.4f}")
        print("\n")


Topic Modeling for product_code: 1000572062
Topic #1:
  - 맛있어요: 1.8319
  - 불고기: 1.7492
  - 전골: 1.5475
  - 사리원: 0.7930
  - 맛있습니다: 0.1812
  - 고기: 0.1485
  - 진짜: 0.1386
  - 간편하고: 0.1328
  - 달달: 0.1266
  - 사리: 0.0842
  - 먹었는데: 0.0810
  - 괜찮아요: 0.0768
  - 추가: 0.0728
  - 부드럽고: 0.0679
  - 키트: 0.0673
  - 버섯: 0.0651
  - 같아요: 0.0648
  - 합니다: 0.0638
  - 않고: 0.0637
  - 당면: 0.0632


Topic #2:
  - 좋아요: 1.7716
  - 먹기: 1.0429
  - 간편하게: 0.3103
  - 간단하게: 0.2025
  - 맛있어요: 0.1896
  - 간편해서: 0.1604
  - 반찬: 0.1481
  - 냉동: 0.1364
  - 간편히: 0.1234
  - 식사: 0.1202
  - 간편하고: 0.1118
  - 있어서: 0.1020
  - 조리: 0.0904
  - 간단히: 0.0889
  - 좋습니다: 0.0780
  - 야채: 0.0759
  - 없을: 0.0659
  - 가족: 0.0639
  - 좋네요: 0.0638
  - 않아서: 0.0621


Topic #3:
  - 맛있게: 1.1819
  - 먹었어요: 1.0670
  - 추가: 0.5269
  - 먹었습니다: 0.5268
  - 해서: 0.4505
  - 야채: 0.3321
  - 고기: 0.2893
  - 당면: 0.2484
  - 버섯: 0.2386
  - 아이: 0.1637
  - 조금: 0.1470
  - 먹었는데: 0.1314
  - 먹었네요: 0.1215
  - 넣고: 0.0976
  - 양도: 0.0944
  - 가족: 0.0900
  - 감사합니다: 0.0859
  - 하고: 0.0811
  -




Topic Modeling for product_code: 1000330580
Topic #1:
  - 맛있어요: 2.3573
  - 감자면: 0.7437
  - 고기: 0.6340
  - 양념: 0.3917
  - 사리: 0.3775
  - 감자: 0.3628
  - 먹었어요: 0.3196
  - 진짜: 0.3111
  - 부드럽고: 0.2060
  - 간도: 0.1571
  - 해서: 0.1546
  - 제품: 0.1512
  - 간편하고: 0.1504
  - 좋고: 0.1398
  - 달달: 0.1355
  - 조금: 0.1328
  - 추가: 0.1317
  - 넣고: 0.1315
  - 하고: 0.1280
  - 양은: 0.1242


Topic #2:
  - 구매: 1.3774
  - 후기: 1.0079
  - 좋아서: 0.7499
  - 했어요: 0.4915
  - 주문: 0.2711
  - 해서: 0.2665
  - 보고: 0.2374
  - 해봤어요: 0.2331
  - 좋아: 0.2285
  - 구입: 0.2006
  - 기대: 0.1945
  - 자주: 0.1579
  - 합니다: 0.1469
  - 먹어: 0.1297
  - 두번째: 0.1195
  - 할인: 0.1177
  - 했는데: 0.1130
  - 한번: 0.1093
  - 해봅니다: 0.1082
  - 처음: 0.1061


Topic #3:
  - 좋아요: 1.4372
  - 먹기: 0.8315
  - 간편하게: 0.4608
  - 맛있게: 0.2066
  - 먹었어요: 0.1848
  - 식사: 0.1737
  - 버섯: 0.1697
  - 추가: 0.1660
  - 고기: 0.1610
  - 간단하게: 0.1580
  - 맛있고: 0.1477
  - 반찬: 0.1401
  - 배송: 0.1225
  - 주문: 0.1175
  - 맛있네요: 0.0959
  - 같이: 0.0951
  - 아이: 0.0935
  - 하면: 0.0926
  - 야채: 0.0908
  - 아기: