# 2024-2 URP assignment

In [1]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, parse_qs
import re
import pandas as pd
from datetime import datetime
from tqdm import tqdm
import time

In [2]:
# 데이터프레임 선언
Q_df = pd.DataFrame(columns = ['문서 번호', '제목',  '질문',  "위치 고유번호" ,'위치', '조회수', '질문 날짜'])
A_df = pd.DataFrame(columns = ['문서 번호', '답변 ID',  '답변', '답변 날짜'])
loc_dict = pd.read_csv("naver_kin_regions_df_l2.csv", index_col = "지역 코드")

# URL에서 dirID 값을 가져오는 함수

In [3]:
def get_dirid(url):
    match = re.search(r'dirId=12(\d+)', url)
    dirid_value = match.group(1)
    return dirid_value

# URL에서 docID 값을 가져오는 함수

In [4]:
def get_docid(url):
    match = re.search(r'docId=(\d+)', url)
    dirid_value = match.group(1)
    return dirid_value

# 반복되는 패턴을 통해서 docID를 통해 위치 반환하는 함수(추후 매핑 테이블을 이용할 예정)

In [5]:
# dirID -> loc
def get_loc(id=""):
    url = 'https://kin.naver.com/qna/list.naver?dirId=12'+id

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)

    soup = BeautifulSoup(response.text, 'html.parser')

    location = soup.find(attrs={'class': 'location'}).get_text(strip=True)
    return location

In [6]:
def find_pattern(text):
    # 문자열 길이의 절반까지 탐색(더 긴 패턴은 두 번 반복될 수 없으므로)
    for length in range(1, len(text)):
        # 길이 `length`만큼 패턴을 잘라서 비교
        pattern = text[:length]
        # 패턴이 두 번 연속 반복되는지 확인
        if text.startswith(pattern * 2):
            return pattern

In [7]:
# 지역 & 플레이스 기본 정보 문자열 제거를 위한 변수 지정
url2 = 'https://kin.naver.com/qna/list.naver?dirId=12'
headers2 = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response2 = requests.get(url2, headers=headers2)
soup2 = BeautifulSoup(response2.text, 'html.parser')
useless_information = soup2.find(attrs={'class': 'location'}).get_text(strip=True)

def return_location(search):
    a = get_loc(search[:-2]+"01").replace(get_loc(search[:-2]),"")
    a_elim = get_loc(search[:-len(search)]+search[-len(search):-2]).replace(get_loc(search[:-len(search)]),"")
    first_loc = find_pattern(a)
    a = a[len(first_loc):]
    b = get_loc(search).replace(a,"")
    c = b.replace(useless_information, "")
    return c.replace(a_elim,"")

def return_full_location(search):
    full_location = ""
    n = 2
    while n <= len(search):
        full_location += return_location(search[:n])+ " "
        n += 2
    return full_location

# 최종적으로 질문과 답변 정보 받아오는 함수

In [8]:
def collect_information(url, Q_df, A_df):
    # 페이지 요청
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)

    # BeautifulSoup으로 페이지 파싱
    soup = BeautifulSoup(response.text, 'html.parser')

    # 질문 제목 추출
    title = soup.find(attrs={'class': 'endTitleSection'}).get_text(strip=True)
    title = title.replace(",","")
    Q_detail= soup.find(attrs={'class': 'questionDetail'}).get_text(strip=True,separator=' ')
    Q_detail = Q_detail.replace(",","")
    Q_info = soup.find_all(class_='infoItem')
    Q_view = Q_info[0].get_text()[3:]
    Q_date = Q_info[1].get_text()[3:]
    if Q_date.endswith(" 전"):
        Q_date = datetime.today().strftime('%Y.%m.%d')
    if Q_date.startswith("작성일"):
        Q_date = Q_date.replace("작성일", "")
    ans = []
    A_dates = []
    try:
        answers = soup.find_all(class_='se-main-container')
        ans_date = soup.find_all(class_='answerDate')
        for answer in answers:
            ans.append(answer.get_text(strip=True).replace('\u200b', ''))
        for ans_dates in ans_date:
            A_dates.append(ans_dates.get_text(strip=True))
    except:
        answer_error = "아직 답변이 없습니다"
    
    ID = get_dirid(url)
    doc_ID = get_docid(url)
    Q_inf_list =[get_docid(url), title, Q_detail, ID, return_full_location(ID), Q_view, Q_date]
    A_inf_list =[]
    n = 1
    for i,j in zip(ans,A_dates):
        changed = i.replace(",","")
        if j.endswith(" 전"):
            today = datetime.today().strftime('%Y.%m.%d.')
            A_inf_list.append([doc_ID, doc_ID+str(n), changed[2:],today])
        else:
            A_inf_list.append([doc_ID, doc_ID+str(n), changed[2:],j])
        n += 1
    Q_df.loc[Q_df.shape[0]] = Q_inf_list
    
    for i in A_inf_list:
        A_df.loc[A_df.shape[0]] = i
    return Q_df, A_df

# 질문 리스트에서 각 질문의 URL 값 가져오기

In [9]:
# 질문 목록에서 URL만 가져기기
urls = []
def get_url_from_list(search_url):
    global urls
    response = requests.get(search_url) 
    
    soup = BeautifulSoup(response.text, 'html.parser')

    elements = soup.find_all(class_=re.compile(r'^_nclicks:kls_new\.list'))
    
    for element in elements[1:]:
        href = "https://kin.naver.com"+element.get('href')
        urls.append(href)
    return urls

### list 페이지 설정

In [10]:
for i in range(1,11):
    page = f"https://kin.naver.com/qna/list.naver?dirId=1201&queryTime={datetime.today().strftime('%Y-%m-%d')}%2000%3A25%3A07&page={i}"
    urls = get_url_from_list(page)

In [11]:
urls

['https://kin.naver.com/qna/detail.naver?d1id=12&dirId=12012103&docId=476725350',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=120101&docId=476725014',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=12011903&docId=476724692',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476724480',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476724043',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476722460',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=120110&docId=476721969',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476721281',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476721242',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=12013521&docId=476721152',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=120101&docId=476721148',
 'https://kin.naver.com/qna/detail.naver?d1id=12&dirId=1201&docId=476719635',
 'https://kin.naver.com/qna/detail.naver?d1id=

# 실제 데이터 불러오기(현재 약 12분 소요(CPU), 매핑테이블 이용하면 매우 빠르게 끝날 것으로 예상)

In [12]:
for url in tqdm(urls, desc="Processing URLs", ncols=100, leave=True):
    collect_information(url,Q_df, A_df)

Processing URLs: 100%|████████████████████████████████████████████| 200/200 [08:09<00:00,  2.45s/it]


In [13]:
Q_df

Unnamed: 0,문서 번호,제목,질문,위치 고유번호,위치,조회수,질문 날짜
0,476725350,질문고척돔 주변 숙소추천해주세요,이번에 찰리푸스 내한을 가게됐는데 지방에 살아서 막차가 9시입니다ㅜ 그래서 숙박을 ...,012103,서울특별시 구로구 고척동,6,2024.10.17
1,476725014,질문만약에 강남역에서 거지복장입고 구걸하면어떻게되나요?,혹시 경찰서로 끌려가나요? 궁금해서 물어봐요 법에 걸리나요?,0101,서울특별시 강남역,8,2024.10.17
2,476724692,질문서울 신림동 편의점 홍어,신림동에 있는 편의점 중에서 홍어를 파는 편의점이 있을까요? 예전에 편의점 홍어를 ...,011903,서울특별시 관악구 신림동,8,2024.10.17
3,476724480,질문여의도 한강공원 주변,밤 산책으로 여의도 한강공원 가려고 하는데 그전에 주변?에서 놀고 싶은데 추천할 만...,01,서울특별시,10,2024.10.17
4,476724043,질문경복궁 야간개장 입장 꼭 예약하고 가야하나요??,경복궁 야간개장 꼭 예약하고 가야하나요?? 만약 그러면 야간말고 해 떠있을때라도 가...,01,서울특별시,16,2024.10.17
...,...,...,...,...,...,...,...
195,476601071,질문tngodbudrkdlqslek,1. 도시의 문제점 파악 교통 체증: 서울은 출퇴근 시간대에 극심한 교통 체증을 겪...,01,서울특별시,30,2024.10.14
196,476600864,질문복수 빼는병원,서울 도봉구 창동 근처 복수뺄수있은병원 토요일도 근무하는병원 아시는분 없으신가요?,0124,서울특별시 도봉구,13,2024.10.14
197,476600517,질문플리마켓 참여해보신분들 알려주세요,플리마켓 참여해보신분들 가격은 어떻게 정하세요? 저는 비즈공예 직접 만들어서 판매합...,01,서울특별시,13,2024.10.14
198,476598828,질문여기 남산쪽 음식점 어딘가욥.,여기 어디인가요??,013803,서울특별시 중구 남산동,19,2024.10.14


In [14]:
A_df

Unnamed: 0,문서 번호,답변 ID,답변,답변 날짜
0,476724043,4767240431,은 예약을 꼭 해야 되고 평상시는 현장 결제해도 됩니다.,2024.10.17.
1,476724043,4767240432,개장은 꼭 예약해야되고 못했다면 한복입고가야 무료입장 가능합니다.주간관람은 현장 매...,2024.10.17.
2,476721281,4767212811,곳,2024.10.17.
3,476721281,4767212812,선 10군데4호선 5군데경의중앙선 1군데공항철도 1군데기차 3군데,2024.10.17.
4,476721152,4767211521,의 발원지는 검룡소입니다.,2024.10.17.
...,...,...,...,...
210,476603635,4766036351,바랍니다...,2024.10.14.
211,476540997,4765409971,이 교통이 좋아서 괜찮은데 살아봤다고 하니안산 원시동 방세 싸고 서해선 전철이 있어...,2024.10.14.
212,476598828,4765988281,단길에 있는 서울루덴스입니다.네이버 지도서울루덴스naver.me,2024.10.14.
213,476598790,4765987901,교통시설이 좋 2호선 7호선. N51번 심야버스 다닙니다2.위치가 좋습니다 디...,2024.10.14.


In [15]:
Q_df.to_csv('Questions.csv', index = False)
A_df.to_csv('Answers.csv', index = False)