## 웹크롤링(06.10.수)

In [10]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

import matplotlib.font_manager as fm            # 폰트 지정방법
font_name=fm.FontProperties(fname='C:\\Windows\\Fonts\\malgun.ttf').get_name()     
plt.rc('font',family=font_name)


mpl.rcParams['axes.unicode_minus']=False

## XML 

In [2]:
"""
*.XML(Extensible Markup Language)

	1)메타언어
		GML -> SGML -> XML
	2)데이터를 위한 언어
	3)DB
	4)데이터의 표준화 : 이기종 시스템간의 정보교환, 웹서비스, 
		유비쿼터스, 사물인터넷 기타 등등...
	
*. XML 문법

	XML(.xml), DTD(.dtd), XML스키마(.xsd), XSL(XML Style Sheet Language, XSLT)
         #  DTD(.dtd), XML스키마(.xsd)   -> 설계도 같은 개념이다.
            DTD는 문법이 단순. 기술이 단순
            XML은 문법이 복잡. 정교한 설계 위함. 
            XSL은 XML에 옷을 입히는 것과 같다. 꾸며줌. 

	(1) XML 문서 종류
        1) Well-Formed XML Document(잘 짜여진 문서)
		2) Valid XML Document(유효한 문서)
			
	(2) XML 기본 구조
		Prolog	- 1개
		Element	- 1개
		Misc	- 0개 이상

	(3) Element 문법
		- 작성 규칙
			a) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.
			b) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고 또 그 자식도 자신의 자식을 가질 수 있다.
			c) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.
			d) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나가급적 사용 금지
			e) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.
					
		- 종류
			a) 내용을 가지는 엘리먼트
			b) 내용이 없는 엘리먼트

		- 내용에 대한 종류
			a) 문자 데이터
			b) 자식 엘리먼트
			c) 엔티티 또는 문자 참조(&엔티티명;)
			d) CDATA Section
			e) 프로세싱 지시자
			f) 주석
			g) 공백 문자열

	(4) DTD 
		- 종류
			내부 DTD
			외부 DTD

		- 구성 요소
			엘리먼트 선언
			속성(attribute) 선언
			Entity 선언
			Notation 선언
			프로세싱 지시자
			파라미터 엔티티 참조
			주석
			공백
			conditional section
				
		- 문서 유형 선언
			<!DOCTYPE 루트엘리먼트명 SYSTEM 또는 PUBLIC "식별자">
			DOCTYPE은 반드시 대문자
			SYSTEM은 특정 단체나 업체내부에서 사용되는 경우
			PUBLIC은 공개
			식별자는 다운로드 받을 수 있는 경로
			PUBLIC일 경우 추가된 식별자
			+-//DTD를 개발 및 유지보수 업체명//DTD명 및 버전번호//사용된 언어

		- 엘리먼트 선언
			<!ELEMENT 엘리먼트명 컨텐트 유형>
			컨텐트 유형
				#PCDATA	: 내용으로 문자데이터만 갖는 엘리먼트
				자식 엘리먼트
					, : 작성 순서
						| : 선택
						? : 생략하거나 한번만 작성
						+ : 한번 이상
						* : 생략하거나 여러번 작성
						기호 없음 : 단 한번만 작성
					EMPTY
					MIXED : 문자데이터 또는 자식엘리먼트를 혼합형태
					ANY

			- ATTRIBUTE 선언
				<!ATTLIST 엘리먼트명 속성명 속성유형 디폴트선언>
				속성 유형
					CDATA	: 문자 데이터
					ENUMERATION	: dtd에 나열된 값 중 하나가 와야 함
					ID : 유일한 값을 지정
					IDREF/IDREFS : ID값을 참조
					NMTOKEN/NMTOKENS : 이름 작성 규칙을 준수하는 
						데이터만 사용
					NOTATION : dtd에 명시적으로 선언된 notation만 사용가능
					ENTITY : dtd에 명시적으로 선언된 entity만 사용 가능
		
		(5) 네임 스페이스
			CML
			-----
			<?xml version=1.0>
			<정보>
				<고유번호>111111-1111111</고유번호>
				<이름>홍길동</이름>
				...
			</정보>
			
			PML
			-----
			<?xml version=1.0>
			<정보>
				<고유번호>LC100</고유번호>
				<이름>캠코더</이름>
				...
			</정보>
			
			OML
			-----
			<?xml version=1.0>
			<주문정보 xmlns:고객="http://www.a.com/2017/Custom"
				xmlns:상품="http://www.a.com/2017/Product"
				xmlns="http://www.a.com/2017/Order">
				<주문번호>1</주문번호>
				<주문수량>10</주문수량>
				<결제>
					<방법>현금</방법>
					<금액>10000000</금액>
				</결제>
				
				<고객:고유번호>111111-1111111</고객:고유번호>
				<고객:이름>홍길동</고객:이름>
				
				<상품:고유번호>LC100</상품:고유번호>
				<상품:이름>캠코더</상품:이름>
				...
			</주문정보>
"""

'\n*.XML(Extensible Markup Language)\n\n\t1)메타언어\n\t\tGML -> SGML -> XML\n\t2)데이터를 위한 언어\n\t3)DB\n\t4)데이터의 표준화 : 이기종 시스템간의 정보교환, 웹서비스, \n\t\t유비쿼터스, 사물인터넷 기타 등등...\n\t\n*. XML 문법\n\n\tXML(.xml), DTD(.dtd), XML스키마(.xsd), XSL(XML Style Sheet Language, XSLT)\n\n\t(1) XML 문서 종류\n        1) Well-Formed XML Document(잘 짜여진 문서)\n\t\t2) Valid XML Document(유효한 문서)\n\t\t\t\n\t(2) XML 기본 구조\n\t\tProlog\t- 1개\n\t\tElement\t- 1개\n\t\tMisc\t- 0개 이상\n\n\t(3) Element 문법\n\t\t- 작성 규칙\n\t\t\ta) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.\n\t\t\tb) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고 또 그 자식도 자신의 자식을 가질 수 있다.\n\t\t\tc) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.\n\t\t\td) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나가급적 사용 금지\n\t\t\te) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.\n\t\t\t\t\t\n\t\t- 종류\n\t\t\ta) 내용을 가지는 엘리먼트\n\t\t\tb) 내용이 없는 엘리먼트\n\n\t\t- 내용에 대한 종류\n\t\t\ta) 문자 데이터\n\t\t\tb) 자식 엘리먼트\n\t\t\tc) 엔티티 또는 문자 참조(&엔티티명;)\n\t\t\td) CDATA Section\n\t\t\te) 프로세싱 지시자\n\t\t\tf) 주석\n\t\t\tg) 공백 문자열\n\n\t(4) DTD \n\t\t- 종류\n\t\t\t내부 DTD\n\t\t

In [11]:
import xml.etree.ElementTree as elemTree

In [12]:
'''
xml을 parsing 하는 방법


1. xml이 파일로 존재하는 경우 : parse()

2. xml이 문자열 형태로 존재하는 경우 : fromstring()

'''
'''

<?xml version="1.0" encoding="utf-8" ?>
<users>
	<user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
        <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
'''
#텍스트노드(단말노드)  : 더이상 뿌리(자식)ㅇ을 내릴 수 없다.


'\n\n<?xml version="1.0" encoding="utf-8" ?>\n<users>\n\t<user grade="gold">\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<name>Kim\xa0Cheol\xa0Soo</name>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<age>25</age>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<birthday>19940215</birthday>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0</user>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<user grade="diamond">\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<name>Kim\xa0Yoo\xa0Mee</name>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<age>21</age>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0<birthday>19980417</birthday>\n\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0</user>\n</users>\n'

In [13]:
tree=elemTree.parse('data/users.xml')
tree

<xml.etree.ElementTree.ElementTree at 0x179ce6ced08>

In [14]:
xml_str='''<?xml version="1.0" encoding="utf-8" ?>     
<users> 
	<user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
        <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>


'''

tree=elemTree.fromstring(xml_str)
tree

<Element 'users' at 0x00000179C927F138>

In [15]:
## 태그검색 및 데이터 다루기

#user=tree.find('user')
user=tree.find('user[1]')    # user중 첫번쟤 user에게 접근하겠다
dir(user)
print(user.tag)        #tag는 tag이름을 가져온다. 
print(user.attrib)     # attribute(해당태그의 내용)를 dict형식으로 가져온다.
print(user.get('grade'))

print("--------------------")
name=user.find('name')
print(name.text)

age=user.find('age')
print(age.text)

user
{'grade': 'gold'}
gold
--------------------
Kim Cheol Soo
25


In [16]:
## 여러개의 태그를 한거번에 가져오기

users=tree.findall('user')
users

for user in users:
    print(user.attrib)
    print(user.find('name').text)    
    print(user.find('age').text)

{'grade': 'gold'}
Kim Cheol Soo
25
{'grade': 'diamond'}
Kim Yoo Mee
21


In [17]:
tree=elemTree.parse('data/users.xml')
users=tree.getroot()
print(users.tag)
print(users.attrib)    #user에는 attrib가 있지만 users태그에는 arrtrib가 없어서 빈 dict가 나온다.


user=users.find('user')
print(user)
print(user.get('grade'))
print(user.keys())
print(user.items())

users
{}
<Element 'user' at 0x00000179CE6D7278>
gold
['grade']
[('grade', 'gold')]


## JSON(JavaScript Object Notation)
      dumps : 데이터를 저장할 때
      loads : 데이터를 불러올 때
      

In [18]:
import json

In [19]:
j1={'name':'홍길동','birth':'0524','age':20}
print(j1)
j2=json.dumps(j1)
print(j2)

{'name': '홍길동', 'birth': '0524', 'age': 20}
{"name": "\ud64d\uae38\ub3d9", "birth": "0524", "age": 20}


In [20]:
json.dumps([1,2,3,])               #json.dumps()

'[1, 2, 3]'

In [21]:
j3=json.loads(j2)
print(j3)

{'name': '홍길동', 'birth': '0524', 'age': 20}


In [22]:
obj = """
{
"id": "0001",
"type": "donut",
"name": "Cake",
"ppu": 0.55,
"batters":
{
"batter":
[
{ "id": "1001", "type": "Regular" },
{ "id": "1002", "type": "Chocolate" },
{ "id": "1003", "type": "Blueberry" },
{ "id": "1004", "type": "Devil's Food" }
]
},
"topping":
[
{ "id": "5001", "type": "None" },
{ "id": "5002", "type": "Glazed" },
{ "id": "5005", "type": "Sugar" },
{ "id": "5007", "type": "Powdered Sugar" },
{ "id": "5006", "type": "Chocolate with Sprinkles" },
{ "id": "5003", "type": "Chocolate" },
{ "id": "5004", "type": "Maple" }
]
}
"""

type(obj)

str

In [23]:
result=json.loads(obj)
type(result)
result['id']
result['batters']
result['batters']['batter'][0]['id']

'1001'

## 웹소스 읽기

In [24]:
from urllib.request import urlopen

In [64]:
html=urlopen("http://google.com")
#print(html.read())

In [70]:
from urllib.error import HTTPError, URLError


try:
    html=urlopen("http://aaaaaaafffsdfsdaaaaaa.com")        # 존재하지 않는 임의의 URL 을 넣어본다.
    
except HTTPError as err:
    print("Http 에러입니다"+str(err))
    
except URLError as err: 
    print("URL 에러입니다"+str(err))                   # 여기서 걸러준다. 주소가 틀려서 발생한것
    
else:    
    print(html.read())

URL 에러입니다<urlopen error [Errno 11001] getaddrinfo failed>


In [72]:
from urllib.error import HTTPError, URLError


try:
    html=urlopen("http://www.naver.com/index.jsp")        
    
except HTTPError as err:
    print("Http 에러입니다"+str(err))
    
except URLError as err: 
    print("URL 에러입니다"+str(err))                   
else:    
    print(html.read())

 #존재하지 않는 페이지이기 때문에 http에러가 발생한다.   

Http 에러입니다HTTP Error 404: Not Found


In [76]:
## 이미지다운로드
from urllib.request import urlretrieve

urlretrieve('http://ohmy-girl.com/omg_official/img/common/main_visual.jpg',    #(먼저 가져올이미지 주소, 저장할 공간과 이름)
           'data/daum.jpg')

('data/daum.jpg', <http.client.HTTPMessage at 0x1d2d96a93c8>)

In [78]:
aa=urlopen('http://ohmy-girl.com/omg_official/img/gallery/slide/img_seunghee_01.png')
aa=aa.read()
f=open('data/승희.jpg','wb')
f.write(aa)
f.close()
print("저장성공")

저장성공


In [85]:
import urllib.parse
#'https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnld'

api='https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp'    # 기본주소가져오기
value={'stnld':109}

params=urllib.parse.urlencode(value)
params

url=api+'?'+params
data=urlopen(url).read()
print(data)
data=data.decode('utf-8')
print(data)

b'<?xml version="1.0" encoding="utf-8" ?>\r\n<rss version="2.0">\r\n<channel>\r\n<title>\xea\xb8\xb0\xec\x83\x81\xec\xb2\xad \xec\x9c\xa1\xec\x83\x81 \xec\xa4\x91\xea\xb8\xb0\xec\x98\x88\xeb\xb3\xb4</title>\r\n<link>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</link>\r\n<description>\xea\xb8\xb0\xec\x83\x81\xec\xb2\xad \xeb\x82\xa0\xec\x94\xa8 \xec\x9b\xb9\xec\x84\x9c\xeb\xb9\x84\xec\x8a\xa4</description>\r\n<language>ko</language>\r\n<generator>\xea\xb8\xb0\xec\x83\x81\xec\xb2\xad</generator>\r\n<pubDate>2020\xeb\x85\x84 06\xec\x9b\x94 10\xec\x9d\xbc (\xec\x88\x98)\xec\x9a\x94\xec\x9d\xbc 06:00</pubDate>\r\n <item>\r\n<author>\xea\xb8\xb0\xec\x83\x81\xec\xb2\xad</author>\r\n<category>\xec\x9c\xa1\xec\x83\x81\xec\xa4\x91\xea\xb8\xb0\xec\x98\x88\xeb\xb3\xb4</category>\r\n<title>\xec\xa0\x84\xea\xb5\xad \xec\x9c\xa1\xec\x83\x81 \xec\xa4\x91\xea\xb8\xb0\xec\x98\x88\xeb\xb3\xb4 - 2020\xeb\x85\x84 06\xec\x9b\x94 10\xec\x9d\xbc (\xec\x88\x98)\xec\x9a\x94\xec\x9d\xbc 06:00 \xeb\xb0\x

## BeautifulSoup

In [7]:
from bs4 import BeautifulSoup

In [91]:
page=open('data/test_first.html').read()
print(type(page))

soup=BeautifulSoup(page,'html.parser')
print(soup.prettify())       # prettify () : 보기좋게 들여쓰기 해주는 함수


<class 'str'>
<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


In [96]:
list(soup.children)    # soup가 포함하고있는 자식 객체들
#list(soup.children)[0]
list(soup.children)[1]
list(soup.children)[2]
html=list(soup.childrean)[2]

<html><head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [101]:
#태그명으로 접근
soup.find('p')     # p 태그찾기
soup.find_all('p')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [104]:
# 태그명과 클래스명으로 접근
soup.find_all('p',class_='outer-text')

soup.find_all('p',class_='inner-text')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>]

In [106]:
# id로 접근
soup.find_all('p',id='first')
soup.find_all(id='second')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>]

In [108]:
# 형제로 접근(순차적으로 접근)
soup.head.next_sibling.next_sibling
body.p.next_sibling.next_sibling

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [114]:
# 데이터가져오기
soup.html.get_text()
soup.head.get_text()
soup.title.get_text()
soup.div.get_text()

soup.p.get_text()
for p in soup.find_all('p'):
    print(p.get_text())


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [117]:
# 속성값에 접근하기

links=soup.find('a')
links
links['href']

links=soup.find_all('a')

for link in links:
    href=link['href']
    text=link.string
    print(text, '=>', href)

PinkWink => http://www.pinkwink.kr
Python => https://www.python.org


## 실습

In [25]:
#네이버 환율정보가져오기
from urllib.request import urlopen
url='http://finance.naver.com/marketindex/'
page=urlopen(url)
soup=BeautifulSoup(page,'html.parser')
soup.find('span',class_='value')

span=soup.find_all('span',class_='value')
print("미환율: ",span[0].get_text())

div=soup.find_all('div',class_='head_info')
span1=div[0].find_all('span')
span1
print(span1[0].get_text())


미환율:  1,189.50
1,189.50


In [26]:
span2=soup.select_one('div.head_info > span.value').string
span2

'1,189.50'

In [35]:
#  윤동주예제
url='https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'

page=urlopen(url)
soup=BeautifulSoup(page,'html.parser')
div=soup.find_all('div',class_='mw-parser-output')
ul=div[0].find_all('ul')
ul1=ul[0].find_all('ul')


for i in ul1[0]:
    if i != '\n':
        print(i.string)

서시
자화상
소년
눈 오는 지도
돌아와 보는 밤
병원
새로운 길
간판 없는 거리
태초의 아침
또 태초의 아침
새벽이 올 때까지
무서운 시간
십자가
바람이 불어
슬픈 족속
눈감고 간다
또 다른 고향
길
별 헤는 밤


In [49]:
#소설
url='http://www.pythonscraping.com/pages/warandpeace.html'
page=urlopen(url)
soup=BeautifulSoup(page,'html.parser')

#녹색단어만 골라오기
#green=soup.find_all('span',class_='green')
#for g in green:
#    print(g.string)


#green=soup.select('div#text > span.green')
#for g in green:
#    print(g.string)
    

#green=soup.find_all('span',{'calss':'green'})
#for g in green:
#    print(g.string)

    

# h태그를 이용한 제목 추출
titles=soup.find_all(['h1','h2'])
#print(titles)
print([title.get_text() for title in titles])


#녹색과 적색 단어 추출
green_red=soup.find_all('span',{'class':{'green','red'}})
print([text.string for text in green_red])

['War and Peace', 'Chapter 1']
["Well, Prince, so Genoa and Lucca are now just family estates of the\nBuonapartes. But I warn you, if you don't tell me that this means war,\nif you still try to defend the infamies and horrors perpetrated by\nthat Antichrist- I really believe he is Antichrist- I will have\nnothing more to do with you and you are no longer my friend, no longer\nmy 'faithful slave,' as you call yourself! But how do you do? I see\nI have frightened you- sit down and tell me all the news.", 'Anna\nPavlovna Scherer', 'Empress Marya\nFedorovna', 'Prince Vasili Kuragin', 'Anna Pavlovna', 'St. Petersburg', 'If you have nothing better to do, Count [or Prince], and if the\nprospect of spending an evening with a poor invalid is not too\nterrible, I shall be very charmed to see you tonight between 7 and 10-\nAnnette Scherer.', 'Heavens! what a virulent attack!', 'the prince', 'Anna Pavlovna', "First of all, dear friend, tell me how you are. Set your friend's\nmind at rest,", 'Can o

In [55]:
# 또다른 크롤링

url='http://www.pythonscraping.com/pages/page3.html'
page=urlopen(url)
soup=BeautifulSoup(page,'html.parser')

# 제목행을 건너 뛰고 나머지 모든 행 추출
for tr in soup.find('table', {'id':'giftList'}).tr.next_siblings:
    print(tr)
    
#  가격중에 $15수집
td=soup.find('tr',id='gift1').td.next_sibling.next_sibling
td.get_text()


td1=soup.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_sibling
td1.get_text()
    



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

'\n$15.00\n'

In [58]:
# 영화리뷰
review_list=[]

for i in range(1,6):
    target = urlopen('https://movie.daum.net/moviedb/grade?movieId=94484&type=netizen&page={}'.format(i))
    soup=BeautifulSoup(target,'html.parser')
    
    reviews=soup.select('p.desc_review')
    for review in reviews:
        str=review.get_text().strip()
        print(str)
        
f=open('data/아쿠아맨.txt','w')
for review in review_list:
    f.write(review+'\n')

ㅋㅋㅋ
중간에 외계인 파워레인져 악당만 아니였으면!!!!!!
CG는 좋지만 내용이 너무 부실하다..
설정이 디즈니 아동만화같은 느낌

재밌시유 ㅋㅋ

수영장에서 나올떄 왠지 동일시하게 될것같은 ㅋㅋㅋ

진짜 지루함
개꿀잼이에염
영어로 보면 꿀잼인데 더빙으로보면 개노잼
제임스 완 다른 히어로무비 연출로도 만날 수 있으면 좋겠다..뽑을줄 아네.
만화영화로만 보던 아쿠아맨을 실사로 볼 수 있다는 것으로도 만족
 제임스 카메론은 아무나 되는 게 아니다.
 하드 오랜만이야..................ㅋ시 스케일이 달라~

두번 세번 봐도 전율돋는 잘 만든 영화
평타치


내 최고의 DC영화!
와~액션 대박
폭풍처럼 휘몰아치네 ~^^
배경은 멋있는데 바다 속 세상에 재한 환상이  조금 아쉽다
모모아보다 옴 비주얼이 원작 아쿠아맨에 가깝다.
DC의 역대작 바다의 수호신
초딩 영웅 영화.
진짜 화려하고 환상적이었다
참신함과 유치함 사이

재미있게 보았다. 너무너무  슈퍼 울드라 짱짱 재미 있었다.
화려함 그런데  뭔가. . .
스토리나 캐릭터의 빈약함이란..
지루하고 재미없는 영화
현란함에  눈이 놀라네
표절에 되도않는 클리셰를 쑤셔넣은 씨지뽕빨망작
다크나이트 다음으로 잘만든 디씨영화
스피드하고 시원시원 하다
그래픽도 좋고, 재미있네
솔직히 이 단순한 스토리에 이 이상 어떻게 더 만들어

미국인들이 이정도로 대놓고 만능 슈퍼히어로에 열광하는 것인가 싶다.
다른 히어로물과 달리 심해의 아름다운 장면들과 다양한 크리쳐와 유닛들이 볼만했다
세상에서 가장 멋진 수족관
내용이야 뻔하지만.. 볼만했다.
극장에서 안 보길 잘했다결말
아직은 엉성하고 갈 길이 먼 DC 히어로.

이정도면 상당히 괜찮았음에서 괴물들의  뗴지어 다니는 장면에서 소름돋고 멋있었음
