# 3주차 과제
## 201721489 정다솜

## 첫번째 과제 - 강의내용 정리하기

## 1. 텍스트 마이닝의 이해를 위한 기본 요구 지식
* 자연어 처리
* 통계학 & 선형대수
* 머신러닝
* 딥러닝

## 2. 텍스트 마이닝 적용분야
* Document classification
* Document generation
* Keyword extraction
* Topic modeling

## 3. 텍스트 마이닝 도구
* NLTK - 가장 많이 알려진 NLP 라이브러리
* Scikit Learn - 머신러닝 라이브러리
* Gensim - Word2Vec으로 유명
* keras - RNN, seq2seq 등 딥러닝 위주의 라이브러리 제공
* Tokenize - 대상이 되는 문서/문장을 최소 단위로 쪼갬
* Text normalization - 최소 단위를 표준화
* POS-tagging - 최소 의미단위로 나누어진 대상에 대해 품사를 부착
* Chunking - POS-tagging의 결과를 명사구, 형용사구, 분사구 등과 같은 말모듬으로 다시 합치는 과정
* BOW, TFIDF - tokenized 결과를 이용하여 문서를 vector로 표현

## 4. 텍스트 마이닝 방법
* Naïve Bayes - 단어를 분석하여 더 많은 확률을 가진 쪽으로 분류
* Logistic Regression - 분류를 위한 회귀분석 / 텍스트 마이닝에서의 문제
* Ridge and Lasso Regression - 과적합을 방지 / 영향을 거의 미치지 않는 단어들을 제외
* Sentiment Analysis - 감성분석으로 단어들을 분류

## 5. 텍스트 마이닝에서 발생하는 문제와 해결방법
* 각 데이터 간의 거리가 너무 멀게 위치 - 더 많은 데이터 수집
* 단어 빈도의 불균형 - 빈도 높은 단어를 삭제, 다양한 함수를 이용해 해결
* 단어가 쓰인 순서정보의 손실 - n그램과 딥러닝으로 해결

## 두번째 과제 - 주석달기

## 1. urllib
* 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
* url을 다루는 모듈을 모아놓은 패키지

In [10]:
# 라이브러리 읽어들이기
import urllib.request

# png파일을 test.png라는 이름의 파일로 저장
url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

# urlretrieve함수를 이용하여 url 처리하기
urllib.request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


In [12]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"

# request.urlopen함수를 사용하여 다운로드
mem = urllib.request.urlopen(url).read()

#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


In [13]:
#데이터 읽어들이기
url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

#바이너리를 문자열로 변환하기
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=183.99.230.186
REMOTE_HOST=183.99.230.186
REMOTE_PORT=41678
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup

### 2.1 기본사용

In [15]:
# 패키지 설치
from bs4 import BeautifulSoup

# 예제 html 만들기
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [16]:
# html 분석하기
soup = BeautifulSoup(html, 'html.parser')

In [18]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

In [28]:
# 요소의 글자 출력하기
print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### 2.2 요소를 찾는 method

In [21]:
soup = BeautifulSoup(html, 'html.parser')

In [29]:
# find 매서드로 원하는 부분 추출하기
title = soup.find("h1")
body  = soup.find("p")
print(title)

<h1>스크레이핑이란?</h1>


In [30]:
# 텍스트 부분 출력하기
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### 2.3 복수 elements 추출

In [31]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [32]:
# find_all 매서드로 추출하기
links = soup.find_all("a")
print(links, len(links))

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


In [33]:
# 링크 목록 출력하기
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css selector

In [34]:
# 웹 사이트에서 데이터 가져오기
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

In [35]:
# 필요한 부분을 Css쿼리로 추출하기

# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제

In [36]:
#필요한 패키지 불러오기
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1 네이버 금융 - 환율 정보

In [37]:
# HTML가져오기
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

In [38]:
# HTML 분석하기
soup = BeautifulSoup(res, "html.parser")

In [39]:
# 원하는 데이터 추출하기
price = soup.select_one("div.head_info > span.value").string
print("usd/krw =", price)

usd/krw = 1,178.00


### 4.2 기상청 RSS

In [40]:
# HTML 가져오기
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


In [41]:
# HTML 분석하기
soup = BeautifulSoup(res, "html.parser")

In [42]:
# 원하는 데이터 추출하기
header = soup.find("header")

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 13~19도로 오늘(25일, 아침최저기온 15~20도)과 비슷하거나 조금 낮겠고, <br />          낮최고기온은 23~28도로 오늘(25일, 낮최고기온 23~24도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


### 4.3 윤동주 작가의 작품 목록

In [43]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


### 4.4 네이버 뉴스 헤드라인

In [44]:
# html 가져오기
url = "https://news.naver.com/"
res = request.urlopen(url)

# html 분석하기
soup = BeautifulSoup(res, "html.parser")

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"

for a in soup.select(selector):
    title = a.text
    print(title)


                                        정은경 "향후 1~2주 확진자 급증할 듯..사적 모임 자제 요청"
                                    

                                        '최대 승부처' 민주당 광주·전남 경선 결과 곧 발표
                                    

                                        "노엘 불구속은 아빠찬스"…대학생단체, '장제원 사퇴' 요구하며 시위
                                    

                                        성남시민 9명, ‘대장동 의혹’ 성남의뜰 상대 소송
                                    

                                        윤석열 "공약 표절" 논란에 인터뷰 명단 공개..."동문서답" 비판
                                    


### 4.5 시민의 소리 게시판

In [47]:
# html가져오기
url_head = "https://www.sisul.or.kr"
url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"
res = request.urlopen(url_board)

# html 분석하기
soup = BeautifulSoup(res, "html.parser")

# 원하는 데이터 추출하기
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

['어린이대공원 매점 냉장고 점검 부탁드립니다.', '어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?)', '강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!', 'ZOOCENT 스케줄표?', '호주동물 호주설명 '] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=nV7ZBaKGcSDuedYq32bQ98VFQYHSMeKxepwJhgye52w6bdM7pe6pdI3Rc1hQ10WD.etisw1_servlet_user?qnaid=QNAS20210925000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=nV7ZBaKGcSDuedYq32bQ98VFQYHSMeKxepwJhgye52w6bdM7pe6pdI3Rc1hQ10WD.etisw1_servlet_user?qnaid=QNAS20210923000005&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=nV7ZBaKGcSDuedYq32bQ98VFQYHSMeKxepwJhgye52w6bdM7pe6pdI3Rc1hQ10WD.etisw1_servlet_user?qnaid=QNAS20210920000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=nV7ZBaKGcSDuedYq32bQ98VFQYHSMeKxepwJhgye52w6bdM7pe6pdI3Rc1hQ10WD.etisw1_servlet_user?qnaid=QNAS20210919000