# Quick Start

# Beautiful Soup 기본

In [1]:
from bs4 import BeautifulSoup

In [2]:
# BeautifulSoup 객체 생성 및 파싱
soup = BeautifulSoup('<p id = "my_tag" class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.p
print(tag)
print(type(tag))

<p class="boldest" id="my_tag">Extremely bold</p>
<class 'bs4.element.Tag'>


###  Attributes

In [3]:
# 태그의 속성 확인
tag.attrs

{'class': ['boldest'], 'id': 'my_tag'}

In [4]:
# 태그의 id 값 확인
tag['id']
# tag.get('id')

'my_tag'

In [5]:
# 태그의 class 값 확인
tag['class']
# tag.get('class')

['boldest']

### Navigate the data structure

In [10]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [11]:
# BeautifulSoup 객체 생성 및 파싱
soup = BeautifulSoup(html_doc, 'html.parser')
soup


<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [12]:
# prettify() : turn a Beautiful Soup parse tree into a nicely formatted string
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [13]:
# <title> 태그
tag = soup.title

In [28]:
# <title> 태그의 태그명
tag.name

'title'

### Going down (하위 태그 찾기)

In [15]:
# <html> 태그
tag = soup.html
tag

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [22]:
# .contents : children as a list
# <html> 태그의 
for children in tag.contents:
    print(children)

<head><title>The Dormouse's story</title></head>


<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>


### Going up (상위 태그 찾기)

In [30]:
# .parent (.find_parent())
# <title>태그의 상위 태그
tag.parent 
# tag.find_parent()

<head><title>The Dormouse's story</title></head>

In [31]:
# .parent.name
# <title>태그의 상위 태그의 태그명
tag.parent.name

'head'

In [35]:
# .parents (.find_parents())
# <title> 태그의 상위태그들 
parents = tag.parents
for parent in parents:
    print(parent.name)

head
html
[document]


In [26]:
tag.string

### Going sideways (같은 레벨의 태그 찾기)

In [38]:
# .next_sibling (.find_next_sibling())
tag = soup.p # 가장 처음의 태그 반환됨

In [42]:
tag.next_sibling # new line separate string

'\n'

In [43]:
tag.find_next_sibling()

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [44]:
tag.find_next_siblings()

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>, <p class="story">...</p>]

In [45]:
tag.find_next_siblings()[0]

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [46]:
tag.find_next_siblings()[1]

<p class="story">...</p>

### Searching the tree

####  find_all()

In [48]:
# .fild_all() : 모든 특정 태그 찾기
# 1. name 값으로 찾기
soup.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [49]:
# 2. keyword로 찾기
# id가 "link3"인 태그 찾기
soup.find(id="link3")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [50]:
# href가 "http://example.com/tillie"인 태그 찾기
soup.find(href="http://example.com/tillie")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [51]:
# 3. string 파라미터로 찾기
soup.find_all(string="The Dormouse's story")

["The Dormouse's story", "The Dormouse's story"]

#### find()

In [52]:
# find() : 
soup.find('title')

<title>The Dormouse's story</title>

### Modifying the tree

In [94]:
# 1. change tag names and attributes 

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
tag

<b class="boldest">Extremely bold</b>

In [96]:
tag['class'] = "verybold"
tag

<b class="verybold">Extremely bold</b>

In [100]:
# 2. modifying string 

soup = BeautifulSoup('<a href="http://example.com/">I linked to <i>example.com</i></a>', 'html.parser')
tag = soup.a 
tag

<a href="http://example.com/">I linked to <i>example.com</i></a>

In [101]:
tag.string = "new string"
tag

<a href="http://example.com/">new string</a>

In [102]:
# 3. clear() : remove the contents of a tag 
tag.clear()
tag

<a href="http://example.com/"></a>

In [111]:
# 4. extract() : remove a tag or string. it returns the tag or string that was extracted
soup = BeautifulSoup('<a href="http://example.com/">I linked to <i>example.com</i></a>', 'html.parser')
a_tag = soup.a
print(a_tag)
i_tag = soup.i.extract()
print(a_tag)
print(i_tag)

<a href="http://example.com/">I linked to <i>example.com</i></a>
<a href="http://example.com/">I linked to </a>
<i>example.com</i>


In [112]:
# 5. decompose() : removes a tag from the tree
soup = BeautifulSoup('<a href="http://example.com/">I linked to <i>example.com</i></a>', 'html.parser')
tag = soup.a
soup.i.decompose()
tag

<a href="http://example.com/">I linked to </a>

### get_text()

In [122]:
# only get the text part 
soup = BeautifulSoup('<a href="http://example.com/">I linked to <i>example.com</i></a>', 'html.parser')
print(soup.get_text())
print(soup.i.get_text())


I linked to example.com
example.com


# 뉴스 데이터 가져오기

### 뉴스 링크 목록 가져오기

http://ir.sejong.ac.kr/news/news.html?now_page=1

In [3]:
import requests as rs 

# 1. 요청
url = "http://ir.sejong.ac.kr/news/news.html?now_page=1"
response = rs.get(url)

# 2. 응답으로부터 HTML 추출
html_content = response.text.encode(response.encoding)

In [4]:
# 3. HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

In [5]:
# 4. 뉴스 테이블 리스트 가져오기
table_list = soup.find_all('table')

In [6]:
len(table_list)

1

In [7]:
news_table = table_list[0]
news_table

<table class="bordered">
<thead>
<tr class="ac">
<th>제목</th>
<th>작성일</th>
</tr>
</thead>
<tbody>
<tr onclick="goPage('www.dt.co.kr/contents.html?article_no=2015081002109960718006')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 산학협력키로 - 디지털타임즈</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.datanet.co.kr/news/articleView.html?idxno=88581')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 산학 협력 - 데이터넷</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.zdnet.co.kr/news/news_view.asp?artice_id=20150810170428&amp;type=det&amp;re=')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 협력 - 지디넷</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&amp;newsid=03407926609466008&amp;DCD=A00504&amp;OutLnkChk=Y')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터센터와 산학협력 - 이데일리</td>
<td st

In [8]:
tbody = news_table.find('tbody')
tbody

<tbody>
<tr onclick="goPage('www.dt.co.kr/contents.html?article_no=2015081002109960718006')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 산학협력키로 - 디지털타임즈</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.datanet.co.kr/news/articleView.html?idxno=88581')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 산학 협력 - 데이터넷</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.zdnet.co.kr/news/news_view.asp?artice_id=20150810170428&amp;type=det&amp;re=')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 협력 - 지디넷</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&amp;newsid=03407926609466008&amp;DCD=A00504&amp;OutLnkChk=Y')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터센터와 산학협력 - 이데일리</td>
<td style="text-align:center">2015-08-12</td>
</tr><tr onclick="goPage('etnews.com/201504220001

In [10]:
tr_list = tbody.find_all('tr')
print("개수 : " + str(len(tr_list)) + "\n")
print(tr_list[0])

개수 : 10

<tr onclick="goPage('www.dt.co.kr/contents.html?article_no=2015081002109960718006')" style="cursor:pointer">
<td style="widtd:80%;">굿모닝아이텍, 세종대 빅데이터산업진흥센터와 산학협력키로 - 디지털타임즈</td>
<td style="text-align:center">2015-08-12</td>
</tr>


In [11]:
onclick = tr_list[0].get('onclick')
onclick

"goPage('www.dt.co.kr/contents.html?article_no=2015081002109960718006')"

In [12]:
type(onclick)

str

In [13]:
link = onclick[8:len(onclick)-2]
link

'www.dt.co.kr/contents.html?article_no=2015081002109960718006'

In [14]:
# 뉴스 링크 리스트 생성하기
link_list = []

for tr in tr_list:
    onclick = tr.get('onclick')
    link = onclick[8:len(onclick)-2]
    link_list.append(link)

In [15]:
for link in link_list:
    print(link)

www.dt.co.kr/contents.html?article_no=2015081002109960718006
www.datanet.co.kr/news/articleView.html?idxno=88581
www.zdnet.co.kr/news/news_view.asp?artice_id=20150810170428&type=det&re=
www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&newsid=03407926609466008&DCD=A00504&OutLnkChk=Y
etnews.com/20150422000137
etnews.com/20150420000204
edaily.co.kr/news/NewsRead.edy?SCD=JI71&newsid=02305846609338088&DCD=A407&OutLnkChk=Y
news.chosun.com/site/data/html_dir/2014/11/20/2014112002183.html
article.joins.com/news/article/article.asp?total_id=15705186
www.newscj.com/news/articleView.html?idxno=269776


In [16]:
# 전체 페이지의 뉴스 링크 리스트 생성하기

all_link_list = []

for i in range(1,4):
    # HTTP 요청하기
    url = "http://ir.sejong.ac.kr/news/news.html?now_page=" + str(i)
    response = rs.get(url)
    # HTML 추출
    html_content = response.text.encode(response.encoding)
    # HTML 파싱
    soup = BeautifulSoup(html_content, 'html.parser')
    # <table> 태그 찾기
    table_list = soup.find_all('table')
    news_table = table_list[0]
    # <tbody> 태그 찾기
    tbody = news_table.find('tbody')
    # <tr> 태그 찾기
    tr_list = tbody.find_all('tr')
    # <onclick> 값 찾기
    for tr in tr_list:
        onclick = tr.get('onclick')
        link = onclick[8:len(onclick)-2]
        all_link_list.append(link)

In [17]:
len(all_link_list)

24

In [18]:
for link in all_link_list:
    print(link)

www.dt.co.kr/contents.html?article_no=2015081002109960718006
www.datanet.co.kr/news/articleView.html?idxno=88581
www.zdnet.co.kr/news/news_view.asp?artice_id=20150810170428&type=det&re=
www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&newsid=03407926609466008&DCD=A00504&OutLnkChk=Y
etnews.com/20150422000137
etnews.com/20150420000204
edaily.co.kr/news/NewsRead.edy?SCD=JI71&newsid=02305846609338088&DCD=A407&OutLnkChk=Y
news.chosun.com/site/data/html_dir/2014/11/20/2014112002183.html
article.joins.com/news/article/article.asp?total_id=15705186
www.newscj.com/news/articleView.html?idxno=269776
news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=001&aid=0007305610
www.newstown.co.kr/news/articleView.html?idxno=189870
www.edaily.co.kr/news/newspath.asp?newsid=01731846606319504
www.hankyung.com/news/app/newsview.php?aid=201412179401g
www.newsis.com/pict_detail/view.html?pict_id=NISI20141216_0010451052
view.asiae.co.kr/news/view.htm?idxno=2014121515274514184
moin.mt.co.kr/eduView.html?no=201

In [19]:
# 이데일리 뉴스 링크만 추출하기
edaily_link_list = []

for link in all_link_list:
    if link[4:10] == "edaily":
        edaily_link_list.append(link)

In [20]:
edaily_link_list

['www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&newsid=03407926609466008&DCD=A00504&OutLnkChk=Y',
 'www.edaily.co.kr/news/newspath.asp?newsid=01731846606319504',
 'www.edaily.co.kr/news/NewsRead.edy?SCD=JE31&newsid=01177526606318520&DCD=A00503&OutLnkChk=Y',
 'www.edaily.co.kr/news/NewsRead.edy?SCD=JI71&newsid=02788006606317864&DCD=A407&OutLnkChk=Y']

### 이데일리 뉴스 기사 가져오기

In [21]:
url_list = edaily_link_list

In [22]:
url_list[0]

'www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&newsid=03407926609466008&DCD=A00504&OutLnkChk=Y'

In [27]:
# 1. 요청
response = rs.get('http://www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&newsid=03407926609466008&DCD=A00504&OutLnkChk=Y')

# 2. 응답으로부터 HTML 추출
html_content = response.text.encode(response.encoding)

# 3. HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

In [28]:
soup


<!-- title 변경 -->
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type"/>
<meta content="yEI2Awd_CpVdANFKX-p7XobZUuMFheKSF3scR_k17uI" name="google-site-verification"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="user-scalable=yes" name="viewport"/>
<meta content="INDEX, FOLLOW" name="robots"/>
<meta content="all" name="robots"/>
<!-- facebook용 Open Graph Tag 설정 -->
<meta content="굿모닝아이텍, 세종대 빅데이터센터와 산학협력" itemprop="name" property="og:title"/>
<meta content="edaily" property="og:site_name"/>
<meta content="http://www.edaily.co.kr/news/NewsRead.edy?SCD=JE41&amp;newsid=03407926609466008&amp;DCD=A00504&amp;OutLnkChk=Y" property="og:url"/>
<meta content=" 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’

In [29]:
news = soup.find(id="viewcontent_inner")
news

<span id="viewcontent_inner" itemprop="articleBody">

				[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. <br><br>이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. <br><br>향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.<br/><br/>세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. <br/><br/>이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.<br/><br/><div class="m00" id="imgSubReTouchLoc_2"><table align="CENTER" bgcolor="ffffff" border="0" cellpadding="0" cellspacing="5" width="670"><tr><td bgcolor="f1ece3" style="PADDING-RIGHT: 2px; PADDING-LEFT: 2px; PADDING-BOTTOM: 2px; PADDING-TOP: 2px;"><table border="0" cellpadding="0" cellspacing="5"><tr><td><img alt="굿모닝아이텍, 세종대 빅데이터센터와 산학협력" border="0" src="http://image.edaily.co.kr/images/

In [50]:
# for Anaconda 4.4.0 Python 3.6 (BeautifulSoup 4.6.0)

In [40]:
# <div> 태그 제거하기
for br in news.find_all('div'):
    br.decompose()
news

<span id="viewcontent_inner" itemprop="articleBody">

				[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. <br><br>이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. <br><br>향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.<br/><br/>세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. <br/><br/>이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.<br/><br/></br></br></br></br></span>

In [41]:
news.get_text()

'\r\n\r\n\t\t\t\t[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [42]:
# 텍스트만 가져오기
text = news.get_text()
print(type(text))
text

<class 'str'>


'\r\n\r\n\t\t\t\t[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [43]:
text

'\r\n\r\n\t\t\t\t[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [44]:
while text.find("\r") != -1:
    text = text.replace("\r", "")
while text.find("\n") != -1:
    text = text.replace("\n", "")
while text.find("\t") != -1:
    text = text.replace("\t", "")

In [45]:
text

'[이데일리 김관용 기자] 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [46]:
# 정규 표현식으로 처리하기

import re
re.findall(r'\[.*?\]', text)  # string에서 pattern을 모두 찾아 리스트로 반환

['[이데일리 김관용 기자]']

In [47]:
re.sub(r'\[.*?\]', '', text) # string 에서 pattern을 만족하는 문자열을 리스트로 반환

' 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [48]:
text = re.sub(r'\[.*?\]', '', text)

In [49]:
text

' 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.'

In [221]:
# 전체 URL에서 뉴스 기사 텍스트 가져와서 리스트로 저장하기

text_list = []

for url in url_list:
    # 1. 요청
    response = rs.get(url)
    # 2. 응답으로부터 HTML 추출
    html_content = response.text.encode(response.encoding)
    # 3. HTML 파싱
    soup = BeautifulSoup(html_content, 'html.parser')
    news = soup.find(id="viewcontent_inner")
    # <br> 태그 제거하기
    for br in news.find_all('br'):
        br.decompose()
    # <div> 태그 제거하기
    for div in news.find_all('div'):
        div.decompose()
        
    # 텍스트 가져오기
    text = news.get_text()
    
    # 특수문자 제거하기
    while text.find("\r") != -1:
        text = text.replace("\r", "")
    while text.find("\n") != -1:
        text = text.replace("\n", "")
    while text.find("\t") != -1:
        text = text.replace("\t", "")
    
    # [] 와 안의 텍스트 제거하기
    text = re.sub(r'\[.*?\]', '', text)
        
    text_list.append(text)

In [233]:
for i in range(0, len(text_list)):
    print("(" + str(i) + ")")
    print(text_list[i] + "\n")

(0)
 굿모닝아이텍이 세종대학교 빅데이터산업진흥센터와 산학협력을 체결했다. 이에 따라 세종대학교 빅데이터산업진흥센터는 다양한 분야에서 빅데이터 저장 및 분석에 굿모닝아이텍이 공급하는 ‘파스트림’과 ‘클라우데라’를 활용할 수 있게 됐다. 향후 세종대와 굿모닝아이텍은 상호 빅데이터 관련 경험을 공유해 빅데이터 연구와 프로젝트를 발굴하고 함께 진행한다는 계획이다.세종대학교 빅데이터산업진흥센터장 유성준 교수는 “제조, 공공, 금융, 보안 등 다양한 산업분야의 빅데이터 레퍼런스를 보유한 굿모닝아이텍과 산학협력을 맺게 됐다”며 “산업체와 대학의 연구 성과를 접목할 수 있는 가능성을 모색하고 실용적 연구 결과를 도출할 수 있도록 노력할 예정”이라고 말했다. 이주찬 굿모닝아이텍 대표는 “산학 협력을 통해 세종대 학생뿐만 아니라 빅데이터산업진흥센터를 이용하는 관내 외 공공 및 민간의 빅데이터 활용에 기여할 수 있게 됐다”며 “앞으로도 빅데이터 기반 활성화를 위해 적극 지원할 것”이라고 전했다.

(1)
 16일 빅데이터산업진흥센터 개소식이 열린 세종대학교에서 (사진 왼쪽부터) 정보통신산업진흥원 김종석 단장, 세종대학교 유성준 빅데이터산업진흥센터장, 최원식 국회의원, 세종대학교 신구 총장, 미래창조과학부 윤종록 제2차관, 세종대학교 황성빈 학술전산처장이 현판 제막식에 참여하고 있다.세종대학교 학술전산처 7층에 위치하고 있는 빅데이터산업진흥센터는 대용량 데이터 초고속 처리 장비와 서비스 개발 인프라 구축을 통해 관련 중소기업을 육성하는 기관으로 세종대학교 산학협력단이 사업 공모에서 최종 선정되어 향후 5년간 주관하여 과제를 수행할 예정이다. 한편, 오늘 개소식은 세종대학교광개토관 지하2층 컨벤션홀에서개최됐다. XML:Y

(2)
세종대학교(총장 신구)가 오는 16일 오후 1시 광개토관 지하 2층 컨벤션 C홀에서 빅데이터산업진흥센터 개소식을 개최한다.빅데이터산업진흥센터는 대용량 데이터 초고속 처리 장비와 서비스 개발 인프라 구축을 통해 관련 중소기업을 육성하는 기관으로 세종대학교