In [10]:
import requests
import csv
import time
import re
from googletrans import Translator

# Place Search API URL
search_url = "https://maps.googleapis.com/maps/api/place/textsearch/json"
details_url = "https://maps.googleapis.com/maps/api/place/details/json"

# 제공받을 파라미터 설정
params = {
    "query": "방콕 숙소",  # 검색 키워드
    "language": "ko",              # 응답 언어 설정
    "key": "AIzaSyBW3TJ70cZAU7A48hlbXBIk_YkJHu8nKsg",  # 자신의 Google API 키로 대체
    "type": "lodging"   # 명소 타입으로 필터링
}

# 장소 데이터를 저장할 리스트
places = []

# 이모지 및 특수기호 제거 함수
def remove_special_characters_and_emojis(text):
    emoji_pattern = re.compile("[" 
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"  # additional symbols
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    text = emoji_pattern.sub(r'', text)
    text = re.sub(r'[^A-Za-z0-9가-힣\s.,!?\'\"]+', '', text)
    return text

# 조사 및 접속사 제거 함수
def remove_josa_conjunctions(text):
    josa_conjunctions = ['은', '는', '이', '가', '을', '를', '에', '의', '와', '과', '하고', '또한', '그리고', '하지만', '그러나']
    for word in josa_conjunctions:
        text = re.sub(rf'\b{word}\b', '', text)
    return text

# 띄어쓰기 오류를 확인하는 함수
def check_spacing_errors(text):
    errors = []
    if re.search(r'\s{2,}', text):
        errors.append("연속된 공백이 있습니다.")
    if re.search(r'\s+[,.!?\'\"]', text):
        errors.append("단어와 문장 부호 사이에 공백이 있습니다.")
    if re.search(r'[,.!?\'\"]\S', text):
        errors.append("문장 부호 뒤에 공백이 없습니다.")
    if errors:
        return f"띄어쓰기 오류 발견: {', '.join(errors)}"
    else:
        return "띄어쓰기 오류 없음"

# 띄어쓰기 오류 수정 함수
def fix_spacing_errors(text):
    text = re.sub(r'\s{2,}', ' ', text)
    text = re.sub(r'\s+([,.!?\'\"])', r'\1', text)
    text = re.sub(r'([,.!?\'\"])(\S)', r'\1 \2', text)
    return text

# 긴 텍스트를 나누어 번역하는 함수
def split_text(text, max_length=5000):
    return [text[i:i+max_length] for i in range(0, len(text), max_length)]

def translate_large_text(text, target_language='ko'):
    translated = []
    for part in split_text(text):
        translated.append(translate_text(part, target_language))
    return ''.join(translated)

# 장소 세부 정보 가져오기
def fetch_place_details(place_id, api_key):
    details_params = {
        "place_id": place_id,
        "fields": "name,rating,formatted_address,reviews,geometry,opening_hours,photos,types",
        "key": api_key
    }
    response = requests.get(details_url, params=details_params)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error fetching details for place ID {place_id}: {response.status_code}")
        return None

# 장소 리스트 가져오기
def fetch_places(params):
    response = requests.get(search_url, params=params)
    if response.status_code == 200:
        data = response.json()
        return data.get('results', []), data.get('next_page_token')
    else:
        print(f"Error: {response.status_code} - {response.text}")
        return [], None

# 번역기 초기화
translator = Translator()

# 텍스트 번역 함수 (None 값 처리 포함)
def translate_text(text, target_language='ko'):
    if text is None or text.strip() == "":  # None이나 빈 문자열이면 번역하지 않음
        return text  # 원본 반환
    try:
        translated = translator.translate(text, dest=target_language)
        return translated.text
    except Exception as e:
        print(f"Error during translation: {e}")
        return text  # 오류 발생 시 원본 텍스트 반환

# "Hot Place"를 결정하는 함수 (카테고리 기반으로 분류)
def determine_hot_place(types):
    hot_place_categories = ['tourist_attraction', 'restaurant', 'lodging', 'point_of_interest']
    for category in types:
        if category in hot_place_categories:
            return "Yes"
    return "No"

# 첫 번째 요청
results, next_page_token = fetch_places(params)

# 장소 상세 정보를 반복적으로 가져와서 places 리스트에 저장
while results:
    for place in results:
        place_id = place.get("place_id")
        if place_id:
            details = fetch_place_details(place_id, params["key"])
            if details:
                result = details.get("result", {})
                reviews = result.get("reviews", [])
                types = result.get("types", [])

                # 카테고리 번역
                translated_types = [translate_text(type_name, 'ko') for type_name in types]

                # 리뷰 필터링 (특수기호 및 이모지 제거, 조사 및 접속사 제거)
                filtered_reviews = '\n'.join([remove_josa_conjunctions(remove_special_characters_and_emojis(review.get("text", "No Review"))) for review in reviews])

                # 띄어쓰기 오류 확인 및 수정
                spacing_check_result = check_spacing_errors(filtered_reviews)
                print(f"{result.get('name', 'Unknown')} 리뷰 - {spacing_check_result}")
                filtered_reviews = fix_spacing_errors(filtered_reviews)

                # 핫 플레이스 여부 결정
                hot_place = determine_hot_place(types)

                # 장소 정보 추출 (필드명을 한글로 설정)
                places.append({
                    "이름": result.get("name", "Unknown"),
                    "주소": result.get("formatted_address", "Unknown"),
                    "평점": result.get("rating", "No rating"),
                    "위도": result.get("geometry", {}).get("location", {}).get("lat", "No Latitude"),
                    "경도": result.get("geometry", {}).get("location", {}).get("lng", "No Longitude"),
                    "리뷰": filtered_reviews,
                    "영업시간": '\n'.join(result.get("opening_hours", {}).get("weekday_text", ["No Operating Hours"])),
                    "카테고리": ', '.join(translated_types),  # 카테고리 번역 추가
                    "핫플레이스여부": hot_place
                })
    
    # 다음 페이지로 이동
    if next_page_token:
        time.sleep(2)  # 다음 페이지 요청 전 약간의 지연 시간 추가
        params['pagetoken'] = next_page_token
        results, next_page_token = fetch_places(params)
    else:
        break

# 장소 데이터 번역하기 (리뷰와 영업시간)
for place in places:
    place['리뷰'] = translate_large_text(place.get('리뷰', 'No Review'))
    place['영업시간'] = translate_large_text(place.get('영업시간', 'No Operating Hours'))
    place['카테고리'] = translate_large_text(place.get('카테고리', 'No Categories'))

# 결과를 CSV 파일로 저장 (번역된 데이터)
with open('방콕관광_쇼핑.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
    fieldnames = ['이름', '주소', '평점', '위도', '경도', '리뷰', '영업시간', '카테고리', '핫플레이스여부']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    
    writer.writeheader()  # 헤더 작성
    for place in places:
        writer.writerow({
            '이름': place['이름'],
            '주소': place['주소'],
            '평점': place['평점'],
            '위도': place['위도'],
            '경도': place['경도'],
            '리뷰': place['리뷰'],
            '영업시간': place['영업시간'],
            '카테고리': place['카테고리'],
            '핫플레이스여부': place['핫플레이스여부']
        })

print("번역된 결과가 '방콕관광_쇼핑.csv' 파일에 저장되었습니다.")

Akara Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다.
Centara Watergate Pavilion Hotel Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
JC Kevin Sathon Bangkok Hotel 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 단어와 문장 부호 사이에 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Hotel Once Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Hotel Ordinary Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Tastoria Collection Sukhumvit Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Gardina Asoke 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 단어와 문장 부호 사이에 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
dusitD2 Samyan, Bangkok 리뷰 - 띄어쓰기 오류 발견: 문장 부호 뒤에 공백이 없습니다.
Hyde Park Hotel Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 단어와 문장 부호 사이에 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Centara Life Government Complex Hotel & Convention Centre Chaeng Watthana 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Thaya Hotel Bangkok 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
LiT BANGKOK Hotel 리뷰 - 띄어쓰기 오류 발견: 연속된 공백이 있습니다., 문장 부호 뒤에 공백이 없습니다.
Lilit Ban