In [37]:
!pip install beautifulsoup4
!pip install requests


Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


In [35]:
# requests

# 특징:Python에서 웹 페이지의 내용을 요청하고 받아오기 위한 HTTP 라이브러리입니다.
# 간단한 API 호출부터 복잡한 웹 스크래핑까지 다양한 활용이 가능합니다.

# 장점: 사용하기 쉽습니다.
# 단순한 GET, POST 요청부터, 세션 관리, 쿠키 핸들링까지 다양한 기능을 제공합니다.
# 빠른 성능과 경량입니다.

# 단점:
# JavaScript로 동작하는 웹 페이지의 내용을 직접적으로 가져오지 못합니다.
# 단순히 웹 페이지의 소스 코드만을 가져옵니다.


# BeautifulSoup

# 특징: HTML 및 XML 문서를 파싱하기 위한 Python 라이브러리입니다.
# 문서의 구조를 쉽게 탐색하고 필요한 데이터를 추출할 수 있게 도와줍니다.

# 장점:
# 문서의 구조를 쉽게 이해하고 탐색할 수 있습니다.
# 다양한 파서(parser)를 지원하여 유연한 파싱이 가능합니다.
# CSS 선택자와 유사한 방식으로 요소를 선택할 수 있어서 사용하기 편리합니다.

# 단점:
# 자체적으로 웹 페이지를 요청하는 기능이 없으므로, requests와 같은 라이브러리와 결합하여 사용해야 합니다.
# JavaScript로 생성된 동적 내용을 파싱할 수 없습니다.


# Selenium

# 특징: 웹 애플리케이션을 위한 테스팅 프레임워크입니다.
# 브라우저 자동화를 가능하게 해 웹 페이지의 동적인 내용까지 접근할 수 있습니다.
# 장점: 실제 브라우저를 사용하기 때문에 JavaScript로 동작하는 웹 페이지의 내용도 가져올 수 있습니다.
# 사용자 인터랙션(클릭, 스크롤, 입력 등)을 자동화하여 테스팅 및 스크래핑이 가능합니다.
# 단점: requests나 BeautifulSoup에 비해 상대적으로 느립니다.
# 환경 설정이 복잡할 수 있으며, 필요에 따라 웹 드라이버를 설치해야 합니다.
# 리소스 사용이 많아질 수 있습니다. (실제 브라우저를 동작시키기 때문) 

In [38]:
import requests
from bs4 import BeautifulSoup

URL = 'https://www.musinsa.com/mz/community-gallery_codi/view/879595'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(URL, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 코디 이미지
image = soup.select_one('img[src^="https://image.msscdn.net/mfile_s01/"]')['src']

# 댓글 내용 추출
comment_div = soup.find('div', class_='cont comment-cont')

# 댓글이 있을 경우 내용과 uid 출력
if comment_div:
    comment_text = comment_div.text
    comment_uid = comment_div.attrs['uid']
    print(f"UID: {comment_uid}")
    print(f"Comment: {comment_text}")
else:
    print("No comment found with the specified class.")

# 여기서부터 다른 정보들 (날짜, 조회수, 카테고리 등)를 뽑아내는 코드를 추가하면 됩니다.

print(image)
print(comments)


No comment found with the specified class.
https://image.msscdn.net/mfile_s01/2023/05/15/9b9c38e490254e298e7f00b330ba7c81145042.jpg
[]


In [65]:
image

'https://image.msscdn.net/mfile_s01/2023/05/15/9b9c38e490254e298e7f00b330ba7c81145042.jpg'

In [46]:
soup

<!DOCTYPE html>

<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<!--[if lt IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie10"> <![endif]-->
<!--[if IE 9]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js ie9"> <![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible">
<meta content="MUSINSA" name="generator">
<meta content="패션웹진 무신사" name="author"/>
<meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="subject"/>
<meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="title"/>
<meta content="셔츠" name="keywords"/>
<meta content="패린이 

In [44]:
requests.get(URL, headers=headers)

<Response [200]>

In [45]:
URL

'https://www.musinsa.com/mz/community-gallery_codi/view/879595'

In [39]:
print(soup.prettify())  # 전체 HTML 출력


<!DOCTYPE html>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
 <!--[if lt IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
 <!--[if IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8"> <![endif]-->
 <!--[if IE 8]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie10"> <![endif]-->
 <!--[if IE 9]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js ie9"> <![endif]-->
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible">
   <meta content="MUSINSA" name="generator">
    <meta content="패션웹진 무신사" name="author"/>
    <meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="subject"/>
    <meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="title"/>
    <meta content="셔츠" name="ke

In [43]:
soup.find("span", class_="date").text

'|\xa02023.05.15 14:52\xa0|\xa0709\xa0|\xa04\xa0|\xa0목록으로'

In [62]:
soup.find("span", class_="date").text.split('|')

['', '\xa02023.05.15 14:52\xa0', '\xa0709\xa0', '\xa04\xa0', '\xa0목록으로']

In [9]:
# 날짜 및 시간 추출
date_time = soup.find("span", class_="date").text.split('|')[1].strip()
print("날짜 및 시간:", date_time)

# 조회수 추출
view_count = soup.find("span", class_="date").text.split('|')[2].strip()
print("조회수:", view_count)

# 댓글 수 추출
comment_count = soup.find("a", class_="creplyCnt").text.strip()
print("댓글 수:", comment_count)

날짜 및 시간: 2023.05.15 14:52
조회수: 703
댓글 수: 4


In [11]:

# 댓글 날짜 추출
date = soup.select_one(".date").text.split("|")[1].strip()
print("Date:", date)

# 댓글 조회수 추출
views = soup.select_one(".date").text.split("|")[2].strip()
print("Views:", views)

# 댓글의 답글 수 추출
reply_count = soup.select_one(".creplyCnt").text.strip()
print("Reply Count:", reply_count)

# 댓글 내용 추출
comment_content = soup.select_one(".comment-cont").text.strip()
print("Comment:", comment_content)

Date: 2023.05.15 14:52
Views: 704
Reply Count: 4


AttributeError: 'NoneType' object has no attribute 'text'

In [63]:
soup.select_one(".comment-cont")

In [64]:
soup.select_one(".musinsa-comment")

<ul class="musinsa-comment" cmopen="1" count_numbering="comment_count_numbering_879595" cync="[forum][879595][uid,comment,oneline,d_comment][rb_forum_data][4200251][m:forum,bid:gallery_codi,uid:879595]" showcool="1" wropen="0"></ul>

In [23]:
soup1 = BeautifulSoup(response.text, 'lxml')

<!DOCTYPE html>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<!--[if lt IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>
<html  lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js oldie lt-ie9 lt-ie10"> <![endif]-->
<!--[if IE 9]>
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" class="no-js ie9"> <![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="MUSINSA" name="generator"/>
<meta content="패션웹진 무신사" name="author"/>
<meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="subject"/>
<meta content="패션 평가좀요 | 코디 갤러리 - 무신사" name="title"/>
<meta content="셔츠" name="keywords"/>
<meta content="패린이

In [None]:
<ul class="musinsa-comment" showcool="1" cmopen="1" wropen="0" count_numbering="comment_count_numbering_879595" cync="[forum][879595][uid,comment,oneline,d_comment][rb_forum_data][4200251][m:forum,bid:gallery_codi,uid:879595]" coolcfg="3" uid="879595"><div class="gWarea">
<div class="cFormBox notLogin">
	<a href="javascript:void(0)" class="goLogin">
	<div class="icon-comment"></div>
	<div class="waitLogin">로그인 하고 댓글 작성하기</div>
	</a>
</div>
<p class="commentMsg forum-notice">
	<span>개인정보 / 혐오•차별•비난 / 광고•홍보•상업적 / 사기•기만•현혹 / 부적절한 콘텐츠 / 불법적인 콘텐츠 / 기타 알맞지 않은 콘텐츠 게시 금지</span>
	<a href="//www.musinsa.com/mz/community-event_notice/view/753295" target="_top">커뮤니티 가이드라인</a> 
</p>


</div>
<iframe name="_friends_" width="0" height="0" frameborder="0" scrolling="no"></iframe>
<!-- 추천 순일 경우에만 onCool -->
<div class="clear"></div>
<div class="sortComment">
	<label>
	<input type="checkbox">
	<a class="btnSort"></a>
	<span class="layerSort">
		<a class="date">등록 순</a>
		<a class="cool ui-require-cool">추천 순</a>
	</span>
	</label>
</div><!--comment_post-->
<li class="comment_post">
	<div class="pic"><img src="https://image.msscdn.net/mfile_s01/_simbols/_basic/g.png"></div>
	<!--info-->
	<div class="info">
		<div class="date">
			<span class="lev">LV.5 메롱속았지</span>
		</div>
		<label class="btnArea">
			<input type="checkBox">
			<span></span>
			<div class="area-equip-button"><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-singo" onclick="return confirm('신고는 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">신고</a><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-block" onclick="return confirm('차단은 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">차단</a></div>
		</label>
		<span class="dreg">06.10 22:03</span> 
		<div class="cont comment-cont" uid="995648140">다 넣거나 다 빼거나 하기면 더 좋을듯!</div>
		<div class="cont-image"></div>
		<div class="cont-emoticons cEmoticons"></div>
		<div class="score ui-require-all"><a href="javascript:void(0)" class="ui-require-cool" uid="995648140"><span class="good">0</span></a><a href="javascript:void(0)" class="ui-require-hmm" uid="995648140"><span class="bad">0</span></a></div>
		
		<!--oneline-->
		<div class="oneline">
			<a href="javascript:void(0)" class="chand command-open-oneline">답글 <span class="count-oneline"></span> <b class="stUp" style="display: inline;">▼</b><b class="stDown" style="display: none;">▲</b> <em class="ele-is-new" style="display: none;">NEW</em></a>
			<div class="onlineForm"></div><div class="onelineForm notLogin" style="display:none">
	<a href="javascript:void(0)" class="goLogin">
	<div class="icon-comment"></div>
	<span class="waitLogin">로그인 하고 댓글 작성하기</span>
	</a>
</div>
			<!--onelineList-->
			<div class="onelineList" style="display:none"></div>
			<!--//onelineList-->
		</div>
		<!--//oneline-->
		<div class="clear"></div>
	</div>
	<!--//info-->
</li>
<!--//comment_post--><!--comment_post-->
<li class="comment_post">
	<div class="pic"><img src="https://image.msscdn.net/mfile_s01/_simbols/_basic/r.png"></div>
	<!--info-->
	<div class="info">
		<div class="date">
			<span class="lev">LV.5 Deeping</span>
		</div>
		<label class="btnArea">
			<input type="checkBox">
			<span></span>
			<div class="area-equip-button"><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-singo" onclick="return confirm('신고는 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">신고</a><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-block" onclick="return confirm('차단은 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">차단</a></div>
		</label>
		<span class="dreg">06.06 21:53</span> 
		<div class="cont comment-cont" uid="995651526">우왕 멋이네용</div>
		<div class="cont-image"></div>
		<div class="cont-emoticons cEmoticons"></div>
		<div class="score ui-require-all"><a href="javascript:void(0)" class="ui-require-cool" uid="995651526"><span class="good">0</span></a><a href="javascript:void(0)" class="ui-require-hmm" uid="995651526"><span class="bad">0</span></a></div>
		
		<!--oneline-->
		<div class="oneline">
			<a href="javascript:void(0)" class="chand command-open-oneline">답글 <span class="count-oneline"></span> <b class="stUp" style="display: inline;">▼</b><b class="stDown" style="display: none;">▲</b> <em class="ele-is-new" style="display: none;">NEW</em></a>
			<div class="onlineForm"></div><div class="onelineForm notLogin" style="display:none">
	<a href="javascript:void(0)" class="goLogin">
	<div class="icon-comment"></div>
	<span class="waitLogin">로그인 하고 댓글 작성하기</span>
	</a>
</div>
			<!--onelineList-->
			<div class="onelineList" style="display:none"></div>
			<!--//onelineList-->
		</div>
		<!--//oneline-->
		<div class="clear"></div>
	</div>
	<!--//info-->
</li>
<!--//comment_post--><!--comment_post-->
<li class="comment_post">
	<div class="pic"><img src="https://image.msscdn.net/mfile_s01/_simbols/_basic/o.png"></div>
	<!--info-->
	<div class="info">
		<div class="date">
			<span class="lev">LV.6 myaaang</span>
		</div>
		<label class="btnArea">
			<input type="checkBox">
			<span></span>
			<div class="area-equip-button"><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-singo" onclick="return confirm('신고는 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">신고</a><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-block" onclick="return confirm('차단은 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">차단</a></div>
		</label>
		<span class="dreg">05.23 17:33</span> 
		<div class="cont comment-cont" uid="995663542">셔츠 빼 입는 게 더 나을 거 같아요!!</div>
		<div class="cont-image"></div>
		<div class="cont-emoticons cEmoticons"></div>
		<div class="score ui-require-all"><a href="javascript:void(0)" class="ui-require-cool" uid="995663542"><span class="good">0</span></a><a href="javascript:void(0)" class="ui-require-hmm" uid="995663542"><span class="bad">0</span></a></div>
		
		<!--oneline-->
		<div class="oneline">
			<a href="javascript:void(0)" class="chand command-open-oneline">답글 <span class="count-oneline"></span> <b class="stUp" style="display: inline;">▼</b><b class="stDown" style="display: none;">▲</b> <em class="ele-is-new" style="display: none;">NEW</em></a>
			<div class="onlineForm"></div><div class="onelineForm notLogin" style="display:none">
	<a href="javascript:void(0)" class="goLogin">
	<div class="icon-comment"></div>
	<span class="waitLogin">로그인 하고 댓글 작성하기</span>
	</a>
</div>
			<!--onelineList-->
			<div class="onelineList" style="display:none"></div>
			<!--//onelineList-->
		</div>
		<!--//oneline-->
		<div class="clear"></div>
	</div>
	<!--//info-->
</li>
<!--//comment_post--><!--comment_post-->
<li class="comment_post">
	<div class="pic"><img src="https://image.msscdn.net/mfile_s01/_simbols/_basic/w.png"></div>
	<!--info-->
	<div class="info">
		<div class="date">
			<span class="lev">LV.6 좀더좀더</span>
		</div>
		<label class="btnArea">
			<input type="checkBox">
			<span></span>
			<div class="area-equip-button"><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-singo" onclick="return confirm('신고는 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">신고</a><a href="//www.musinsa.com/auth/login?referer=https%3A%2F%2Fwww.musinsa.com%2Fmz%2Fcommunity-gallery_codi%2Fview%2F879595" class="btn-comment-block" onclick="return confirm('차단은 로그인 후 이용하실 수 있습니다. 로그인하시겠습니까?');">차단</a></div>
		</label>
		<span class="dreg">05.18 23:54</span> 
		<div class="cont comment-cont" uid="995670374">셔츠 그냥 빼입하는게 나아보여요</div>
		<div class="cont-image"></div>
		<div class="cont-emoticons cEmoticons"></div>
		<div class="score ui-require-all"><a href="javascript:void(0)" class="ui-require-cool" uid="995670374"><span class="good">0</span></a><a href="javascript:void(0)" class="ui-require-hmm" uid="995670374"><span class="bad">0</span></a></div>
		
		<!--oneline-->
		<div class="oneline">
			<a href="javascript:void(0)" class="chand command-open-oneline">답글 <span class="count-oneline"></span> <b class="stUp" style="display: inline;">▼</b><b class="stDown" style="display: none;">▲</b> <em class="ele-is-new" style="display: none;">NEW</em></a>
			<div class="onlineForm"></div><div class="onelineForm notLogin" style="display:none">
	<a href="javascript:void(0)" class="goLogin">
	<div class="icon-comment"></div>
	<span class="waitLogin">로그인 하고 댓글 작성하기</span>
	</a>
</div>
			<!--onelineList-->
			<div class="onelineList" style="display:none"></div>
			<!--//onelineList-->
		</div>
		<!--//oneline-->
		<div class="clear"></div>
	</div>
	<!--//info-->
</li>
<!--//comment_post--><div class="commentMoreView"></div></ul>

In [24]:
!pip install selenium


Defaulting to user installation because normal site-packages is not writeable
Collecting selenium
  Downloading selenium-4.11.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.10.3-py3-none-any.whl (17 kB)
Collecting certifi>=2021.10.8
  Using cached certifi-2023.7.22-py3-none-any.whl (158 kB)
Collecting trio~=0.17
  Downloading trio-0.22.2-py3-none-any.whl (400 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m400.2/400.2 KB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting sortedcontainers
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting PySocks!=1.5.7,<2.0,>=1.5.6
  Downloading PySocks

In [28]:
!pip install --upgrade selenium

Defaulting to user installation because normal site-packages is not writeable


In [34]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC




# 브라우저 옵션 설정
options = Options()
options.headless = True  # 브라우저 창이 눈에 보이지 않게 실행


URL = 'https://www.musinsa.com/mz/community-gallery_codi/view/879595'

# 웹 드라이버 초기화 (여기서는 Chrome을 사용)
driver = webdriver.Chrome(options=options)
driver.get(URL)

# 웹 페이지 !10초 대기

wait = WebDriverWait(driver, 30)
comments_elements = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".comment_post .cont.comment-cont")))

for comment_element in comments_elements:
    print(comment_element.text)  # 댓글 내용 출력

# 브라우저 종료
driver.quit()

  options.headless = True  # 브라우저 창이 눈에 보이지 않게 실행


다 넣거나 다 빼거나 하기면 더 좋을듯!
우왕 멋이네용
셔츠 빼 입는 게 더 나을 거 같아요!!
셔츠 그냥 빼입하는게 나아보여요
