# 제품별 키워드 딕셔너리 생성

In [3]:
keyword_categories = {
    'flavor_positive': ['savory', 'sweet', 'umami', 'nice taste', 'delicious', 'decent', 'taste good', 'tastes good', 'edible', 'heaven', 'tasty', 'good taste'],
    'flavor_negative': ['not to my taste', 'gamey', 'fishy smell', 'tasteless', 'disgusting', 'bland', 'wasn’t quite to my taste', 'bitter', 'watery', 'too salty', 'so salty'],
    'texture_positive': ['tender', 'juicy', 'moist', 'soft', 'chewy', 'not dry', 'isn’t dry', 'not gritty'],
    'texture_negative': ['rubbery', 'so dry', 'tough', 'little dry', 'is too dry', 'bit dry'],
    'ingredient': ['protein', 'nutritious', 'low in salt', 'not salty'],
    'diet': ['diet', 'calorie', 'help'],
    'exercise': ['muscle', 'work out', 'working out', 'workout', 'athletes', 'gain weight', 'gain some weight'],
    'reorder': ['eat often', 'th purchase', 'th order', 'th reorder', 'again', 'reorder', 're-order', 'second', 'third', 'keep order', 'next time', 'repurchase', 'settl', 'always', 'regular', 'consistent', 'every time', 'stock up'],
    'convenience': ['easy', 'convenient', 'simpl', 'snack', 'carry', 'substitute' , 'replacement', 'alternate', 'children', 'kids', 'ready to cook', 'quick meal', 'portable', 'individual', 'easy to cook', 'divided', 'air fryer'],
    'delivery_positive': ['fast', 'meticulous', 'quick', 'well packaged', 'individually', 'well wrapped'],
    'delivery_negative': ['slow', 'late', 'melt', 'break', 'soggy', 'delayed', 'burst', 'broke']
}

In [13]:
file_names = [
     '[랭커] 닭가슴살 소시지',
        '[랭커] 생 닭가슴살',
        '[랭커] 소고기 스테이크',
        '[랭커] 스팀 닭가슴살',
        '랭커 그릴드 소스 닭가슴살 100g',
        '랭커 닭가슴살 볶음밥 혼합 200g',
        '랭커 닭가슴살 오븐구이 머스타드 150g',
        '랭커 닭가슴살 큐브 100g',
        '랭커 소고기볼 오리지널 100g',
        '랭커 소프트 닭가슴살 마늘맛 100g',
        '랭커 순살 닭다리 오븐구이 소이갈릭 100g',
        '랭커 훈제 닭가슴살 100g',
        '랭커 IQF 한입 닭가슴살 100g~1kg'
    
]

In [25]:
import pandas as pd
from tqdm import tqdm

# 키워드 카운팅 함수 (0인 값을 제외)
def count_keywords(text, keywords):
    counts = {keyword: text.lower().count(keyword) for keyword in keywords}
    return {k: v for k, v in counts.items() if v > 0}
    
# 모든 결과를 저장할 빈 리스트를 초기화
all_results = []

# 파일 리스트에 tqdm 적용
for file in tqdm(file_names, desc="Processing Files"):
    df = pd.read_csv(f"./translated_review/Ranker/{file}.csv", encoding='utf-8')
    results = {'title': file}  # 'title' 열을 가장 먼저 추가
    for category, keywords in keyword_categories.items():
        df[category] = df['translated_review'].apply(lambda x: count_keywords(x, keywords))
        results[category] = df[category].apply(pd.Series).sum().to_dict()
    # 각 결과를 리스트에 추가
    all_results.append(results)
    
# 모든 결과를 데이터프레임으로 변환
final_df = pd.DataFrame(all_results)

# 결과를 하나의 CSV 파일로 저장
final_df.to_csv('./Keywords/[랭커]키워드요약.csv', encoding="utf-8", index=False)

Processing Files: 100%|██████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.17s/it]
