# 웹에서 크롤링한 데이터를 모아서 본인이 직접 FAQ를 생성해보기

### 1단계: Selenium으로 웹페이지 로드

Selenium을 사용하여 Yanolja 리뷰 페이지를 로드하고, 스크롤을 내려서 더 많은 데이터를 가져옵니다.

In [1]:
!pip install selenium
!pip install bs4
!pip install pandas
!pip install openpyxl

Collecting selenium
  Obtaining dependency information for selenium from https://files.pythonhosted.org/packages/17/ef/d0e033e1b3f19a0325ce03863b68d709780908381135fc0f9436dea76a7b/selenium-4.35.0-py3-none-any.whl.metadata
  Downloading selenium-4.35.0-py3-none-any.whl.metadata (7.4 kB)
Collecting urllib3[socks]<3.0,>=2.5.0 (from selenium)
  Obtaining dependency information for urllib3[socks]<3.0,>=2.5.0 from https://files.pythonhosted.org/packages/a7/c2/fe1e52489ae3122415c51f387e221dd0773709bad6c6cdaa599e8a2c5185/urllib3-2.5.0-py3-none-any.whl.metadata
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting trio~=0.30.0 (from selenium)
  Obtaining dependency information for trio~=0.30.0 from https://files.pythonhosted.org/packages/69/8e/3f6dfda475ecd940e786defe6df6c500734e686c9cd0a0f8ef6821e9b2f2/trio-0.30.0-py3-none-any.whl.metadata
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Obtaining dependency in

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
transformers 2.1.1 requires sentencepiece, which is not installed.
botocore 1.27.59 requires urllib3<1.27,>=1.25.4, but you have urllib3 2.5.0 which is incompatible.


Collecting bs4
  Obtaining dependency information for bs4 from https://files.pythonhosted.org/packages/51/bb/bf7aab772a159614954d84aa832c129624ba6c32faa559dfb200a534e50b/bs4-0.0.2-py2.py3-none-any.whl.metadata
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Using cached bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [2]:
%pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [4]:
from selenium import webdriver
import time

# Selenium 드라이버 설정 (Chrome 사용)
driver = webdriver.Chrome()

# 네이버 엔터 영화 페이지로 이동
url = 'https://m.entertain.naver.com/now?sid=222'
driver.get(url)

# 페이지 로딩을 위해 대기
time.sleep(3)

# 스크롤 설정: 페이지 하단까지 스크롤을 내리기
scroll_count = 10  # 스크롤 횟수 설정
for _ in range(scroll_count):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)  # 스크롤 이후 대기

### 2단계: 페이지 소스 가져오기
웹페이지의 HTML 소스를 가져와서 BeautifulSoup을 사용해 데이터를 파싱합니다.

In [5]:
from bs4 import BeautifulSoup

# 웹페이지 소스 가져오기
page_source = driver.page_source

# BeautifulSoup를 사용하여 HTML 파싱
soup = BeautifulSoup(page_source, 'html.parser')

### 3단계: 기사 제목 추출

In [8]:
# Title 추출
################################
titles_class = soup.select('.NewsItem_title__BXkJ6')
titles = []

# 각 Title 텍스트 정리 후 추가
for title in titles_class:
    cleaned_text = title.get_text(strip=True).replace('\r', '').replace('\n', '')
    titles.append(cleaned_text)

titles

["'어쩔수가없다' 박찬욱 감독, 거장의 아름다운 꽃미소[TEN포토+]",
 "박찬욱 감독-이병헌-이성민-염혜란, 추석 앞두고 '어쩔수가없다' 무대인사[TEN포토+]",
 "'어쩔수가없다' 염혜란, 오늘 빨간날인줄...많이 와주셔서 감사[TEN포토+]",
 '‘연의 편지’, 에그지수 100%..개봉 동시 실관람객 호평 터졌다',
 "'어쩔수가없다' 이성민, 관객들과의 만남은 즐거워[TEN포토+]",
 '네이버 웹툰 ‘히어로 킬러’, 프랑스 제작사 손잡고 애니메이션화 [공식]',
 "'사마귀' 넷플릭스 글로벌 비영어 3위…깜짝 등장 전도연의 카리스마",
 '‘귀멸의 칼날’, ‘F1 더 무비’ 매출액 넘었다…누적 545억원 돌파',
 '허광한, 부산서 남친짤 대방출.."고마워 부산 새 친구들"',
 '\'충충충\' BIFF 심사위원 특별상…백지혜 "배우로서 흔들릴 때 만난 작품"',
 '망가진 부녀 관계, 미국 좌파 운동의 실패가 불러온 비극',
 '‘군복무’ 차은우, 빈자리 달랠 ‘퍼스트 라이드’ 영상+자필 편지 공개',
 '‘충충충’, 제30회 BIFF 심사위원 특별상..백지혜 “표류하는 청춘에 영광 돌리고파”',
 '[리뷰] 급할수록 향을 잃는 다도(茶道)의 영화, &lt;동그라미&gt;',
 '[리뷰] 요란한 포장지에 싸인 익숙한 맛이 끝내 피로감을 유발한다, &lt;워킹맨&gt;',
 '[리뷰] 인간 없는 인간세계가 오히려 인간다운, &lt;어쩌면 해피엔딩&gt;',
 '[리뷰] 귀여움에 취하고 디테일에 놀라다, &lt;퐁당퐁당 러브: 더 무비&gt;',
 '[리뷰] 도파민 터지는 초특급 구조작전, 그리고 쿠키!, &lt;개비의 매직하우스 극장판&gt;',
 '[리뷰] 언젠가 다 똑같은 고기가 될 모든 사람들을 위한 영화, &lt;사람과 고기&gt;',
 '[리뷰] 가장 큰 복수는 가해자와 똑같은 인간이 되지 않는 것이다, &lt;그저 사고였을 뿐&gt;',
 '[리뷰] 요즘 힘들다는 당신에게, 초록빛 무성한 편지를 보냅니다, &lt;연의 편지&gt;',

### 4단계: 기사 요약 추출

In [15]:
# 요약 추출
################################
descriptions_class = soup.select('[class*="NewsItem_description__"]')
descriptions = []

# 각 요약 텍스트 정리 후 추가
for description in descriptions_class:
    cleaned_text = description.get_text(strip=True).replace('\r', '').replace('\n', '')
    descriptions.append(cleaned_text)

descriptions

["박찬욱 감독이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' 무대인사에 참석하고 있다. 는 '다 이루었다'고 느낄 만큼 삶이 만족스러웠던 회사원 '만수'(이병헌)가 덜컥 해고된 후, 아내와 두 자식을 지키기 위해, 어렵게 장만한 집을 지켜내기 위해, 재취업을 향한 자신만의 전쟁을 준비하며 벌어지는 이야기. 이병헌, 손예진, 박희순, 이성민, 염혜란, 차승원 등이 출연하며 지난 9월 24일 개봉했다.",
 "박찬욱 감독, 이병헌, 이성민, 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' 무대인사에 참석하고 있다. 는 '다 이루었다'고 느낄 만큼 삶이 만족스러웠던 회사원 '만수'(이병헌)가 덜컥 해고된 후, 아내와 두 자식을 지키기 위해, 어렵게 장만한 집을 지켜내기 위해, 재취업을 향한 자신만의 전쟁을 준비하며 벌어지는 이야기. 이병헌, 손예진, 박희순, 이성민, 염혜란, 차승원 등이 출연하며 지난 9월 24일 개봉했다.",
 "배우 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' 무대인사에 참석하고 있다. 는 '다 이루었다'고 느낄 만큼 삶이 만족스러웠던 회사원 '만수'(이병헌)가 덜컥 해고된 후, 아내와 두 자식을 지키기 위해, 어렵게 장만한 집을 지켜내기 위해, 재취업을 향한 자신만의 전쟁을 준비하며 벌어지는 이야기. 이병헌, 손예진, 박희순, 이성민, 염혜란, 차승원 등이 출연하며 지난 9월 24일 개봉했다.",
 "사진=롯데엔터테인먼트 제공 ‘연의 편지’가 실관람객들의 뜨거운 호평을 얻고 있다. 영화 '연의 편지'가 개봉과 동시에 CGV에그지수 100%, 네이버 실관람객 9.75점, 롯데시네마 9.7점, 메가박스 9.5점을 기록했다. 이는 '어쩔수가없다', '얼굴' 등 현재 박스오피스를 점령 중인 인기 영화들은 물론, '극장판 귀멸의 칼날: 무한성편', '극장판 체인소 맨: 레제편' 등 탄탄한 팬층을 보유한 일본 인기 애니메이션들의 기록까지 넘어선 압도적인 수치다. 실관람

### 5단계: 데이터 정리 및 DataFrame으로 변환
수집된 데이터를 Pandas DataFrame으로 변환하여 후속 분석을 용이하게 만듭니다.

In [16]:
import pandas as pd

# 결합하여 리스트 생성
data = list(zip(titles, descriptions))

# DataFrame으로 변환
df_reviews = pd.DataFrame(data, columns=['Title', 'Description'])
df_reviews

Unnamed: 0,Title,Description
0,"'어쩔수가없다' 박찬욱 감독, 거장의 아름다운 꽃미소[TEN포토+]",박찬욱 감독이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...
1,"박찬욱 감독-이병헌-이성민-염혜란, 추석 앞두고 '어쩔수가없다' 무대인사[TEN포토+]","박찬욱 감독, 이병헌, 이성민, 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 ..."
2,"'어쩔수가없다' 염혜란, 오늘 빨간날인줄...많이 와주셔서 감사[TEN포토+]",배우 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...
3,"‘연의 편지’, 에그지수 100%..개봉 동시 실관람객 호평 터졌다",사진=롯데엔터테인먼트 제공 ‘연의 편지’가 실관람객들의 뜨거운 호평을 얻고 있다. ...
4,"'어쩔수가없다' 이성민, 관객들과의 만남은 즐거워[TEN포토+]",배우 이성민이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...
...,...,...
95,"'퍼스트 라이드' 차은우, 국군의 날 기념 특별한 인사 공개","""극장에서 학창 시절의 추억과 향수를 다시 느끼길"" 가수 겸 배우 차은우가 영상과 ..."
96,"""올 추석 '맛있는 팝콘 무비'""…'보스', 명절 맞춤 코믹 액션 작품 탄생",오는 10월 3일(금) 개봉 예정인 영화 '보스 '가 언론의 극찬 세례가 담긴 리뷰...
97,"설경구, 전도연도 출격…‘길복순’ 잇는 ‘사마귀’ 글로벌 TOP 10 영화 부문 3...",넷플릭스 영화 <사마귀> 글로벌 TOP 10 영화(비영어) 부문 3위 44개국 TO...
98,"제14회 스웨덴영화제, 8편의 영화로 평등·인권·예술의 자유 조명",스웨덴의 문화적 다양성과 예술적 실험 정신을 영화라는 매체를 통해 조망하는 ‘제14...


### 6단계: 자주 등장하는 단어 추출
리뷰 텍스트에서 자주 등장하는 단어를 추출하고, 불용어를 제거하여 분석합니다.

In [17]:
from collections import Counter
import re

# 불용어 리스트 (한국어)
korean_stopwords = set(['이', '그', '저', '것', '들', '다', '을', '를', '에', '의', '가', '이', '는', '해', '한', '하', '하고', '에서', '에게', '과', '와', '너무', '잘', '또','좀', '호텔', '아주', '진짜', '정말'])

# 모든 리뷰를 하나의 문자열로 결합
all_reviews_text = " ".join(reviews)

# 단어 추출 (특수문자 제거)
words = re.findall(r"[가-힣]+", all_reviews_text)

# 불용어 제거
filtered_words = [w for w in words if w not in korean_stopwords and len(w)>1]

# 단어 빈도 계산
word_counts = Counter(filtered_words)

# 자주 등장하는 상위 15개 단어 추출
common_words = word_counts.most_common(15)

common_words

[('리뷰', 13),
 ('영화', 13),
 ('공개', 8),
 ('보스', 8),
 ('편지', 7),
 ('공식', 7),
 ('어쩔수가없다', 6),
 ('귀멸의', 6),
 ('칼날', 6),
 ('감독', 5),
 ('사마귀', 5),
 ('차은우', 5),
 ('하니', 5),
 ('출격', 5),
 ('국군의', 5)]

### 7단계: 분석 결과 요약

In [18]:
# 분석 결과 요약
summary_df = pd.DataFrame({
    'Common Words': [', '.join([f"{word}({count})" for word, count in common_words])]
})

# 최종 DataFrame 결합
final_df = pd.concat([df_reviews, summary_df], ignore_index=True)
final_df

Unnamed: 0,Title,Description,Common Words
0,"'어쩔수가없다' 박찬욱 감독, 거장의 아름다운 꽃미소[TEN포토+]",박찬욱 감독이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...,
1,"박찬욱 감독-이병헌-이성민-염혜란, 추석 앞두고 '어쩔수가없다' 무대인사[TEN포토+]","박찬욱 감독, 이병헌, 이성민, 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 ...",
2,"'어쩔수가없다' 염혜란, 오늘 빨간날인줄...많이 와주셔서 감사[TEN포토+]",배우 염혜란이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...,
3,"‘연의 편지’, 에그지수 100%..개봉 동시 실관람객 호평 터졌다",사진=롯데엔터테인먼트 제공 ‘연의 편지’가 실관람객들의 뜨거운 호평을 얻고 있다. ...,
4,"'어쩔수가없다' 이성민, 관객들과의 만남은 즐거워[TEN포토+]",배우 이성민이 1일 서울 영등포구 롯데시네마 영등포에서 열린 영화 '어쩔수가없다' ...,
...,...,...,...
96,"""올 추석 '맛있는 팝콘 무비'""…'보스', 명절 맞춤 코믹 액션 작품 탄생",오는 10월 3일(금) 개봉 예정인 영화 '보스 '가 언론의 극찬 세례가 담긴 리뷰...,
97,"설경구, 전도연도 출격…‘길복순’ 잇는 ‘사마귀’ 글로벌 TOP 10 영화 부문 3...",넷플릭스 영화 <사마귀> 글로벌 TOP 10 영화(비영어) 부문 3위 44개국 TO...,
98,"제14회 스웨덴영화제, 8편의 영화로 평등·인권·예술의 자유 조명",스웨덴의 문화적 다양성과 예술적 실험 정신을 영화라는 매체를 통해 조망하는 ‘제14...,
99,"‘퍼스트 라이드’ 차은우, 국군의 날 기념 손편지 공개 “근사 응원 보낸다”",사진=쇼박스 제공 ‘퍼스트 라이드’ 차은우가 국군의 날을 맞이해 친필 메시지와 영상...,


### 8단계: Excel 파일로 저장
최종 결과를 Excel 파일로 저장합니다.

In [19]:
# Excel 파일로 저장
final_df.to_excel('naverent_movie_data.xlsx', index=False)

### 9단계: 드라이버 종료
크롤링이 끝난 후, Selenium 드라이버를 종료합니다.

In [20]:
# 드라이버 종료
driver.quit()