## 워드 클라우드 

https://lovit.github.io/nlp/2018/04/17/word_cloud/

## 예제 15-2-1  HTML 문서  분해하기 

In [1]:
from bs4 import BeautifulSoup                       ##  HTML 문서를 파싱하는 모듈을 사용한다. 

In [2]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story1">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story2">
<a href="http://example.com/tillie" class="sister" id="link4">Tillie</a>;
빈값</p>
"""

In [3]:
html_doc[:80]                                        ## 문자열로 만들어진 HTML 문서를 확인한다. 

'\n<html><head><title>The Dormouse\'s story</title></head>\n<body>\n<p class="title">'

In [4]:
html_doc = html_doc.replace('\n', '')                 ## 문장 끝을  표시하는 개행문자를 빈 문자열로 변환한다 

In [5]:
html_doc[:80]

'<html><head><title>The Dormouse\'s story</title></head><body><p class="title"><b>'

## 파싱한 객체 알아보기

In [6]:
soup_ = BeautifulSoup(html_doc, 'html.parser')           ## HTML 문서를 파싱하는 객체를 만든다 

In [7]:
type(soup_)

bs4.BeautifulSoup

In [8]:
soup_.text[:80]                        ##  HTML 문서 내의 Text만 출력해본다 

"The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little"

In [9]:
type(soup_.contents[0])                 ## 객체 내의 내용을 확인하면 Tag 객체이다 

bs4.element.Tag

In [10]:
for i in soup_.contents[0].strings :           ## 텍스트 내의 문자열을 출력한다. 
    print(i)

The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
 and
Tillie
;and they lived at the bottom of a well.
Tillie
;빈값


In [11]:
for i in soup_.contents[0].next_elements:              ##  내부의 원소들을 순환한다. 
    print(type(i))
    if type(i) != type(soup_.contents[0]) :            ## 태그가 아닌 객체를 만날 때 중단한다. 
        new_obj = i
        print(i)
        break

<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
The Dormouse's story


In [12]:
type(new_obj)                                 ## 텍스트를 관리하는  클래스를 확인한다. 

bs4.element.NavigableString

In [13]:
new_obj

"The Dormouse's story"

## 태그객체 및  정보 확인하기

In [14]:
tag = soup_.title                         ## 내부의 타이틀 태그를 변수에 할당한다 

In [15]:
type(tag)                                  ## 객체의 클래스 정보를 확인한다 

bs4.element.Tag

In [16]:
tag                                        ## 태그의 정보를 확인한다 

<title>The Dormouse's story</title>

In [17]:
tag.name                                       ## 태그의 이름을 확인한다. 

'title'

In [18]:
tag.contents                                 ## 태그 내의 내용을 확인하면 텍스트이다 

["The Dormouse's story"]

In [19]:
tag.string

"The Dormouse's story"

In [20]:
tag.parent                                        ## 현재 태그의 부모 태그를 확인한다 

<head><title>The Dormouse's story</title></head>

In [21]:
type(tag.parent)

bs4.element.Tag

In [22]:
tag.children                                    ## 자식 요소는 리스트를 구성하는 반복자 객체를 반환한다. 

<list_iterator at 0x7f98b1657e50>

In [23]:
[*tag.children]                                 ## 자식 요소를 확인하면 문자열만 출력한다. 

["The Dormouse's story"]

In [24]:
tag_p = soup_.p                                  ## p 태그를 변수에 할당한다 

In [25]:
tag_p                                             ## 첫번째 p 태그이다 

<p class="title"><b>The Dormouse's story</b></p>

In [26]:
type(tag_p)

bs4.element.Tag

In [27]:
[*tag_p.children]                          ## 내부의 자식 요소를 확인하면 b 태그이다 

[<b>The Dormouse's story</b>]

In [28]:
print(tag_p.next_sibling.name)                  ##  p 태그의 동등한 형재를 확인하면 그 밑에 p 태그이다 

p


In [29]:
for i in tag_p.next_siblings :                   ## 순환문으로 형제 태그를 조회할 수 있다 
    print(type(i), i.name)

<class 'bs4.element.Tag'> p
<class 'bs4.element.Tag'> p


In [30]:
fa = soup_.find("p")                              ## 메소드를 사용해서 p 태그를 조회한다. 

In [31]:
type(fa)

bs4.element.Tag

In [32]:
fa.name

'p'

In [33]:
fa.contents

[<b>The Dormouse's story</b>]

In [34]:
fas = soup_.findAll("p", {'class' : "story1"})         ## 특정 태그와 내부의 속성을 같이 지정해서 조회한다 

In [35]:
type(fas)                                  ## 조회된 결과는 태그 객체가 아닌 ResultSet 객체이다 

bs4.element.ResultSet

In [36]:
type(fas[0])                               ## 이 객체 내부에 태그 객체가 들어간다 

bs4.element.Tag

In [37]:
fas[0].name

'p'

In [38]:
fas[0].a                               ## 내부의 a 태그를 조회한다 

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [39]:
sel_pa = soup_.select('p > a')               ## select 메소드는 태그의 구조를 문자열로 지정해서 조회가 가능하다 
                                             ## p 태그 내부의 a 태그만 조회한다 

In [40]:
type(sel_pa)

bs4.element.ResultSet

In [41]:
type(sel_pa[0])

bs4.element.Tag

In [42]:
sel_pa

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>,
 <a class="sister" href="http://example.com/tillie" id="link4">Tillie</a>]

In [43]:
soup_.select('p.story1 > a')                   ## 태그의 클래스의 이름을 붙인 후에 내부 태그만 추출할 수 있다 

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [44]:
fas_ = soup_.findAll('p', {'class' : "story2"})            ## p태그 내의 class 속성을 wlwjdgotj whghlgksek 

In [45]:
fas_

[<p class="story2"><a class="sister" href="http://example.com/tillie" id="link4">Tillie</a>;빈값</p>]

In [46]:
type(fas_)

bs4.element.ResultSet

In [47]:
ss = soup_.select('p.story2 ')            ## 특정 태그와 속성을 문자열로 지정해서 조회가 가능하다 

In [48]:
ss

[<p class="story2"><a class="sister" href="http://example.com/tillie" id="link4">Tillie</a>;빈값</p>]

In [49]:
type(ss)

bs4.element.ResultSet