In [4]:
import pandas as pd

# 파일 불러오기
menu_df = pd.read_csv("menu_updated.csv")
naver_df = pd.read_csv("preprocessed_naver.csv")

# 'name' 열 공통 및 차이 분석
menu_names = set(menu_df['name']) if 'name' in menu_df.columns else set()
naver_names = set(naver_df['name']) if 'name' in naver_df.columns else set()

common_names = menu_names.intersection(naver_names)
only_in_menu = menu_names - naver_names
only_in_naver = naver_names - menu_names

print(f"공통된 name 개수: {len(common_names)}")
print(f"menu_updated.csv에만 있는 name 개수: {len(only_in_menu)}")
print(f"preprocessed_naver.csv에만 있는 name 개수: {len(only_in_naver)}")

# 'menu' 열 추가 (name이 일치하는 경우에만 추가)
if 'menu' in menu_df.columns:
    menu_mapping = menu_df.set_index('name')['menu'].to_dict()
    naver_df['menu'] = naver_df['name'].map(menu_mapping)
else:
    raise ValueError("menu_updated.csv에 'menu' 열이 존재하지 않습니다.")

# 변경된 데이터 저장
naver_df.to_csv("preprocessed_naver_updated.csv", index=False)

print("'menu' 열이 추가된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.")


공통된 name 개수: 600
menu_updated.csv에만 있는 name 개수: 0
preprocessed_naver.csv에만 있는 name 개수: 1
'menu' 열이 추가된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.


In [6]:
new_df = pd.read_csv("preprocessed_naver_updated.csv")
print(len(new_df))

606


In [7]:
if 'category' in naver_df.columns:
    category_set = set(naver_df['category'].dropna())
    print("Category Set:", category_set)
else:
    raise ValueError("preprocessed_naver.csv에 'category' 열이 존재하지 않습니다.")


Category Set: {'분식', '일식', '호프/통닭', '패밀리레스트랑', '통닭(치킨)', '식육(숯불구이)', '경양식', '라이브카페', '정종/대포집/소주방', '감성주점', '횟집', '중국식', '냉면집', '패스트푸드', '외국음식전문점(인도,태국등)', '한식'}


In [14]:
naver_df = pd.read_csv("preprocessed_naver.csv")

# 'category' 열의 고유 값 집합 출력 및 매핑
category_mapping = {
    '한식': '한식', '냉면집': '한식', '식육(숯불구이)': '한식',
    '중국식': '중식',
    '경양식': '양식', '패밀리레스트랑': '양식', '패스트푸드': '양식',
    '일식': '일식', '횟집': '일식',
    '외국음식전문점(인도,태국등)': '기타', '분식': '한식',
    '호프/통닭': '양식', '통닭(치킨)': '양식', '정종/대포집/소주방': '주점', '감성주점': '주점'
}

if 'category' in naver_df.columns:
    naver_df = naver_df[naver_df['category'] != '라이브카페']  # '라이브카페' 삭제
    naver_df['category'] = naver_df['category'].map(category_mapping)
else:
    raise ValueError("preprocessed_naver.csv에 'category' 열이 존재하지 않습니다.")

# 변경된 데이터 저장
naver_df.to_csv("preprocessed_naver_updated.csv", index=False)

print("'menu' 열이 추가되고 'category'가 매핑된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.")


'menu' 열이 추가되고 'category'가 매핑된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.


In [15]:
new_df = pd.read_csv("preprocessed_naver_updated.csv")
# 'category' 열의 각 카테고리별 행 개수 계산
if 'category' in new_df.columns:
    category_counts = new_df['category'].value_counts()
    print("카테고리별 행 개수:")
    print(category_counts)
else:
    raise ValueError("preprocessed_naver_updated.csv에 'category' 열이 존재하지 않습니다.")

카테고리별 행 개수:
category
한식    291
양식    138
일식    113
중식     35
주점     13
기타     12
Name: count, dtype: int64


In [16]:
import pandas as pd
import ast

# 파일 불러오기
naver_df = pd.read_csv("preprocessed_naver.csv")

# 'keyword' 열 생성
def extract_keywords(row):
    keywords = []
    
    # facilities 열에서 키워드 추출
    if pd.notna(row['facilities']):
        facilities_list = ast.literal_eval(row['facilities'])
        keywords.extend(facilities_list)
    
    # very_good 열에서 키워드 추출 (숫자 제외)
    if pd.notna(row['very_good']):
        very_good_list = ast.literal_eval(row['very_good'])
        keywords.extend([item[0].replace('"', '') for item in very_good_list])
    
    # seat_info 열에서 키워드 추출
    if pd.notna(row['seat_info']):
        seat_info_list = ast.literal_eval(row['seat_info'])
        keywords.extend(seat_info_list)
    
    return keywords  # 리스트를 유지하고 비어있을 경우 빈 리스트 반환

# 'keyword' 열 추가
if any(col in naver_df.columns for col in ['facilities', 'very_good', 'seat_info']):
    naver_df['keyword'] = naver_df.apply(extract_keywords, axis=1)
else:
    raise ValueError("preprocessed_naver_updated.csv에 'facilities', 'very_good', 'seat_info' 열이 존재하지 않습니다.")

# 변경된 데이터 저장
naver_df.to_csv("preprocessed_naver_updated.csv", index=False)

print("'keyword' 열이 추가된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.")


'keyword' 열이 추가된 새로운 파일이 'preprocessed_naver_updated.csv'로 저장되었습니다.


In [None]:
# keyword 열의 모든 값을 set으로 변환
naver_df = pd.read_csv("preprocessed_naver_updated.csv")
all_keywords = set()
for keywords in naver_df['keyword']:
    if isinstance(keywords, list):
        all_keywords.update(keywords)

print("모든 키워드의 집합:", all_keywords)

모든 키워드의 집합: set()
