# 수업시간 내용 정리

## 텍스트 마이닝 과정

1. Tokenize
Document를 Sentence의 집합으로 분리, Sentence를 Word의 집합으로 분리
2. Text Normalization
동일한 의미의 단어가 다른 형태를 갖는 것을 보완
- 방법 2가지
1. Stemming (어간 추출): 의미가 아닌 규칙에 의한 변환 ex. -s는 단수, ing는 동명사
2. Lemmatization (표제어 추출): 사전을 이용하여 단어의 원형을 추출, 여기에 더해서 품사를 고려, Stemming의 한계를 보완
3. POS-tagging (품사 태깅)
토큰화와 정규화 작업을 통해 나뉜 형태소에 품사를 결정하여 할당
4. Chunking (구 만들기)
두 단어 이상의 집합인 구로 만들기, 텍스트로부터 Information Extraction(정보추출)을 하기 위 한 전단계로 봄

추가. Information Extraction을 하기 위해서는 개체명 인식(Named Entity Recognition, NER) 사용 가능, 
NER은 텍스트로부터 뭔가 의미 있는 정보를 추출하기 위한 방법으로 사용

5. BOW (Bag of Words는 Words의 순서가 없다고 가정한다는 의미)
• Vector Space Model: 모든 문서에 한번 이상 나타난 단어들에 대해 유 (1)/무(0) 로 문서를 표현
• count vector: 단어의 유/무 대신 단어 가 문서에 나타난 횟수로 표현
TFIDF(Term Frequency - Inverse Document Frequency): count vector의 문제점 보완, 
단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림
BOW를 통해 비정형 데이터인 텍스트를 숫자로 표현되는 fixed vector로 만들어 주었으면 
Naïve Bayes, Logistic regression 등과 같은 모델 분석 방법을 통해 분석할 수 있음


# urllib

## 1.1. urllib.request를 이용한 다운로드

In [35]:
from urllib import request # 라이브러리 읽어들이기, urllib는 웹과 관련된 데이터를 손쉽게 이용하도록 도와주는 라이브러리
url="http://uta.pw/shodou/img/28/214.png" 
savename="test.png"

request.urlretrieve(url, savename) #urlretrieve함수를 통해 test.png라는 이름으로 png 파일 저장 가능
print("저장되었습니다")

저장되었습니다


## 1.2. urlopen으로 파일에 저장하는 방법

In [4]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"


mem = request.urlopen(url).read()
#urlopen함수는 읽어들인 데이터를 임의의 변수에 저장하여 처리 가능
with open(savename, mode="wb") as f: #바이너리(b)형태로 쓰기(w)
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


## 1.3. API 사용하기

In [5]:
url="http://api.aoikujira.com/ip/ini" #IP 주소에 접근
res=request.urlopen(url) #urlopen함수로 데이터 읽어들이기
data=res.read()

text=data.decode("utf-8") #'utf-8'형식의 바이트 코드를 문자열로 변환하기
print(text) 

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=210.100.248.151
REMOTE_HOST=210.100.248.151
REMOTE_PORT=59608
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




# BeautifulSoup

In [6]:
pip install beautifulsoup4 # html을 의미있는 객체로 만들어서 사용자가 분석하기 쉽게 만들어주는 라이브러리

Note: you may need to restart the kernel to use updated packages.


In [7]:
from bs4 import BeautifulSoup

In [8]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

## 1. 기본 사용

In [9]:
soup = BeautifulSoup(html, 'html.parser') #BeautifulSoup를 통해 soup라는 객체로 저장하기

In [10]:
h1 = soup.html.body.h1 #html -> body -> h1 태그의 문자열만 출력
p1 = soup.html.body.p #html -> body -> p 태그의 문자열만 출력
p2 = p1.next_sibling.next_sibling #<p> 태그의 형제 저장

In [11]:
print(f"h1 = {h1.string}") #{h1.string}에 해당하는 문자 출력하기
print(f"p  = {p1.string}") #{p1.string}에 해당하는 문자 출력하기
print(f"p  = {p2.string}") #{p2.string}에 해당하는 문자 출력하기

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


## 2. 요소를 찾는 method

In [12]:
soup = BeautifulSoup(html, 'html.parser')

In [13]:
title = soup.find("h1") #find 메서드로 원하는 태그 출력하기
body  = soup.find("p")
print(title)

<h1>스크레이핑이란?</h1>


In [14]:
print(f"#title = {title.string}" ) #해당하는 텍스트 추출
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


In [15]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [16]:
links = soup.find_all("a") #원하는 부분을 모두 가져올 수 있게 하는 find_all
print(links, len(links))

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


In [17]:
#link 목록 추출
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출, attrs : 속성값 모두 출력
    text = a.string 
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


# CSS Selector

## 3.1 BeautifulSoup에서 Css Selector 사용하기

In [18]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석
soup = BeautifulSoup(html, 'html.parser')

In [19]:
# 타이틀 부분 추출
h1 = soup.select_one("div#meigen > h1").string #select_one()은 조건에 맞는 태그를 한개 가져옴
print(f"h1 = {h1}") #해당 부분 텍스트 출력

# 목록 부분 추출
li_list = soup.select("div#meigen > ul.items > li") #select()는 조건에 맞는 태그를 여러개 가져옴
for li in li_list: #반복문을 사용하여 목록 모두 출력
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


# 활용 예제

In [20]:
from bs4 import BeautifulSoup
from urllib import request, parse

## 4.1. 네이버 금융 - 환율 정보

In [21]:
url = "https://finance.naver.com/marketindex/" #네이버 금융의 시장 지표 페이지
res = request.urlopen(url) #url 열기

In [22]:
soup = BeautifulSoup(res, "html.parser") #html 분석

In [23]:
price = soup.select_one("div.head_info > span.value").string #.string으로 문자열 객체화
print("usd/krw =", price)

usd/krw = 1,174.00


## 4.2. 기상청 RSS

In [24]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩
values = {
    'stnId':'109'
}

params=parse.urlencode(values) #urlencode함수는 인코딩된 쿼리스트링을 문자열로 반환
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


In [25]:
soup = BeautifulSoup(res, "html.parser") #html 분석

In [26]:
#첫번째 방법
header = soup.find("header")

title = header.find("title").text #.text로 하위 자식태그의 텍스트까지 문자열로 반환
wf = header.find("wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 14~20도, 낮최고기온은 24~27도로 오늘(23일, 아침최저기온 14~19도, 낮최고기온 25~26도)과 비슷하겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


In [27]:
#두번째 방법 - css selector 기반
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 14~20도, 낮최고기온은 24~27도로 오늘(23일, 아침최저기온 14~19도, 낮최고기온 25~26도)과 비슷하겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


## 4.3. 윤동주 작가의 작품 목록

In [28]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser") 

a_list = soup.select("#mw-content-text   ul > li  a") #mw-content-text->ul->li->a
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


# 일반문제

In [29]:
from bs4 import BeautifulSoup
from urllib import request

## 1. 네이버 뉴스 헤드라인

In [30]:
url = "https://news.naver.com/"

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a" #오늘메인뉴스 속 헤드라인 뉴스의 타이틀 추출

for a in soup.select(selector):
    title = a.text
    print(title)


                                        '오징어게임' 이정재가 받은 명함 속 번호 "내가 10년째 사용, 번호 노출에 황당"
                                    

                                        미 국방부 "종전선언 논의 열려있다…북한 대화에도 전념"
                                    

                                        ‘업계 1위’ 서울유유 가격 올린다... 유제품 ‘도미노 인상’ 우려
                                    

                                        "명백한 표절·후보 안 나오는 라방"…윤석열 맹공 퍼붓는 유승민 캠프
                                    

                                        추석 끝나자마자 '폭증세'…오후 6시까지 전국 1,802명
                                    


## 2. 시민의 소리 게시판

In [31]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"

res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text) 
    links.append(url_head + a.attrs["href"]) ## href의 속성에 있는 속성값을 추출에서 붙이기, attrs : 속성값 모두 출력
    
print(titles, links) #타이틀과 링크를 붙여서 함께 출력

['어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?)', '강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!', 'ZOOCENT 스케줄표?', '호주동물 호주설명 ', '호주및 호주동물 설명에 대해 '] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=1tnFRG24B4epM7v2otC5X0oe4KaKysCmZMISKEbMPVQ1xDLKpRTqzI1wxasXq1Hd.etisw1_servlet_user?qnaid=QNAS20210923000005&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=1tnFRG24B4epM7v2otC5X0oe4KaKysCmZMISKEbMPVQ1xDLKpRTqzI1wxasXq1Hd.etisw1_servlet_user?qnaid=QNAS20210920000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=1tnFRG24B4epM7v2otC5X0oe4KaKysCmZMISKEbMPVQ1xDLKpRTqzI1wxasXq1Hd.etisw1_servlet_user?qnaid=QNAS20210919000004&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=1tnFRG24B4epM7v2otC5X0oe4KaKysCmZMISKEbMPVQ1xDLKpRTqzI1wxasXq1Hd.etisw1_servlet_user?qnaid=QNAS20210919000003&pgno

## 추가 내용

In [32]:
# 수집된 자료를 데이터프레임으로 만들어 csv로 저장하는 것이 일반적
import pandas as pd

board_df = pd.DataFrame({"title": titles, "link": links}) #타이틀과 링크를 붙여서 데이터프레임으로 만들기
board_df.head() #5개만 출력

Unnamed: 0,title,link
0,어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?),https://www.sisul.or.kr/open_content/childrenp...
1,강창수 해설사님,https://www.sisul.or.kr/open_content/childrenp...
2,동물해설사님 칭찬,https://www.sisul.or.kr/open_content/childrenp...
3,강창수 동물 해설사님,https://www.sisul.or.kr/open_content/childrenp...
4,놀이동산 푸드코트 김치가 중국산인 이유는?,https://www.sisul.or.kr/open_content/childrenp...
