우리는 때때로 온갖 종류의 텍스트 문서에서 원천 데이터를 확보한다. 

텍스트 문서는 정형 문서(HTML, XML, CSV, JSON 파일)와 비정형 문서(플레인 텍스트, 사람이 읽을 수 있는 텍스트)로 나눈다. 

비정형 데이터는 프로세싱 소프트웨어가 데이터 의미를 추론해야 하므로 가장 다루기 힘든 데이터 소스로 꼽힌다.
 
앞에서 언급한 데이터는 모두 사람이 읽을 수 있는 형태다. 

필요하다면 텍스트 편집기(윈도에서는 Notepad, 리눅스에서는 gedit, 맥 OS X에서는 TextEdit)를 사용해서

텍스트 파일을 열어 눈으로 읽고 손으로 편집할 수 있다. 

다른 도구를 사용할 수 없는 상황일 때는 표현 구조에 관계없이 텍스트 문서를 텍스트로 취급하고, 

파이썬의 문자열 함수를 사용해서 내용을 살펴보면 된다.
 
운이 좋게도 아나콘다는 이를 해결할 수 있는 몇 가지 훌륭한 모듈을 제공한다. 

BeautifulSoup, csv, json, nltk는 두렵게만 보이는 텍스트 분석을 아주 흥미롭게 만들어 준다. 

“실체가 필요 이상으로 늘어나서는 안 된다.”는 오컴의 면도날(Occam’s razor) 원칙에 따라, 

우리는 이미 있는 도구를 다시 새로 만들지 말아야 한다. 

이는 텍스트 처리 도구뿐만 아니라 아나콘다 패키지에도 해당한다.
 
가장 간단한 정형 데이터의 사례로 ‘텍스트 데이터 다루기’를 시작해 보자. 

그리고 자연어 처리 기법을 사용해서 비정형 데이터를 구조화하는 방법도 알아보자.

# HTML 파일 처리하기

## 자주 쓰이는 HTML 태그와 속성

|  태그 |  속성 |  목적 |
| :--- | :---: | ---: |
|  HTML | .  |  HTML 문서 전체 |
|  HEAD | .  |  문서 헤더 |
|  TITLE |  . |  문서 제목 |
|  BODY |  background, bgcolor |  문서 바디 |
|  H1, H2, H3 등 | .  |  섹션 헤더 |
|  I, EM | .  |  강조-이탤릭 |
|  B, STRONG | .  |  강조-볼드 |
|  PRE |  . |  미리 설정된 포맷 |
|  P, SPAN, DIV |  . |  문단, span, division |
|  BR |  . |  줄 바꿈 |
|  A |  href |  하이퍼링크 |
|  IMG |  src, width, height |  이미지 |
|  TABLE |  width, border |  테이블 |
|  TR |  . |  테이블 행 |
|  TH, TD | .  |  테이블 헤더, 데이터 셀 |
|  OL, UL |  . |  순번, 비순번 리스트 |
|  LI |  . |  리스트 아이템 |
|  DL | .  |  서술 리스트 |
|  DT, DD | .  |  서술 주제, 정의 |
|  INPUT |  name |  사용자 입력 필드 |
|  SELECT |  name |  풀다운 메뉴 |

## XML? HTML?

XML과 HTML은 외형적으로 비슷하지만, HTML 문서는 유효한 XML 문서가 아니다. 

XML 문서도 역시 HTML 문서가 아니다.

XML 태그는 사용처에 따라 다르다. 

산형괄호로 둘러싸는 등 몇 가지 규칙만 지킨다면 알파벳이나 숫자로 된 문자열도 태그가 될 수 있다. 

XML 태그는 텍스트가 표현되는 방식은 다룰 수 없고, 그 해석(interpretation)만 다룰 수 있다. 

XML은 사람이 직접 읽지 않는 문서에 주로 사용한다. 

또 다른 언어인 XSLT(eXtensible Stylesheet Language Transformation)는 XML을 HTML로 바꾸고, 

CSS(Cascading Style Sheets)는 HTML 문서에 스타일을 더한다.

## BeautifulSoup 모듈 다루기 (1)

BeautifulSoup 모듈은 HTML과 XML 문서를 파싱하고 읽고 변형하는 데 사용한다. 

마크업 문자열, 마크업 파일, 웹에 있는 마크업 문서에 

연결된 URL에서 BeautifulSoup 객체를 생성할 수 있다. 

BeautifulSoup4를 설치하지 않았다면 

`conda install BeautifulSoup4` 명령어로 설치한다.

soup을 준비했다면, `soup.prettify()` 함수로 마크업 문서를 읽기 쉬운 형태로 출력할 수 있다.

`soup.get_text()` 함수는 마크업 문서에서 모든 태그를 제거하고 텍스트 부분만 반환한다. 

텍스트만 출력하고 싶다면 이 함수를 사용해서 마크업 문서를 플레인 텍스트로 변환할 수 있다.

In [35]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# 문자열에서 soup을 생성한다.
soup1 = BeautifulSoup(''' <HTML>
  <HEAD><TITLE>My document</TITLE></HEAD>
  <BODY>Main text.</BODY></HTML>
''')

# 웹 문서에서 soup을 생성한다.
# urlopen()이 "http://"를 자동으로 추가하지 않는다는 것을 기억하자!
soup2 = BeautifulSoup(urlopen("http://www.networksciencelab.com/"))

print(soup1.get_text())
print(soup2.get_text())


My document
Main text.



My Little Network Science Lab




My Little Network Science Lab
By Dmitry Zinoviev

Books





I am excited to announce my books, "Data Science Essentials in Python. Collect →  Organize →  Explore →  Predict →  Value" (a.k.a. DZPYDS) and "Complex Network Analysis in Python. Recognize → Construct → Visualize → Analyze → Interpret" (a.k.a. DZCNAPY), published by the Pragmatic Bookshelf.

The first book is intended for seasoned data scientists and statisticians migrating from R to Python, as well as for beginners willing to learn elements of data science in Python.

The book leads you from messy, unstructured artifacts stored in SQL and NoSQL databases to a neat, well-organized dataset. It covers text mining, machine learning, and network analysis; processing numeric data with the NumPy and Pandas modules; and describing and analyzing data using statistical and network-theoretical methods. It has actual examples of data analysis at work, as well as mini-projects

마크업 태그는 파일에서 특정 부분을 찾는 데 사용하기도 한다. 

예를 들어 여러분이 첫 번째 테이블 첫 번째 행에 관심이 있다고 하자. 

플레인 텍스트만으로는 원하는 목적을 달성하기 어려운데, 

class나 id 속성이 부여되었다면 태그로는 가능하다.

BeautifulSoup은 태그 간 모든 상하적이고 수평적인 관계에서 일관된 접근 방식을 사용한다. 

태그 간 관계는 태그 객체의 속성으로 표현하며, 파일 시스템의 상하 구조와 유사하다. 

soup 제목인 `soup.title`은 soup 객체의 속성이다. 

제목에 있는 부모 엘리먼트(element)의 name 값은 `soup.title.parent.name.string`으로, 

첫 번째 테이블 첫 번째 행 첫 번째 셀은 `soup.body.table.tr.td`로 표현할 수 있다.

태그 t의 이름은 `t.name`으로 문자열로 된 값(`t.string`으로 원래 내용에 접근할 수 있고

`t.stripped_string`을 쓰면 공백을 제거한 문자열 리스트를 반환한다)이 있다. 

부모 태그는 `t.parent`, 다음 태그는 `t.next`, 바로 전 태그는 `t.prev`이며, 

자식 태그(태그 안의 태그)는 `t.children`이다.

BeautifulSoup 모듈에서는 파이썬 딕셔너리 인터페이스로 HTML 태그 속성에 접근할 수 있다. 

객체 t가 `<a href="foobar.html">` 같은 하이퍼링크라면, 
    
링크의 문자열 값은 `t["href"].string`이 된다. HTML 태그는 대·소문자를 구분하지 않는다.



## BeautifulSoup 모듈 다루기 (2)

아마도 soup 함수 중 가장 유용한 함수는 `soup.find()`와 `soup.find_all()`일 것이다. 

특정한 태그의 첫 번째 인스턴스나 전체 인스턴스를 찾는 데 사용한다. 

몇 가지 사용 예를 살펴보자.

◼︎ `<H2>` 태그로 된 모든 인스턴스

`level2headers = soup.find_all("H2")`

◼︎ 볼드나 이탤릭 포맷으로 된 모든 인스턴스

`formats = soup.find_all(["i", "b", "em", "strong"])`

◼︎ 특정한 속성(id="link3" 같은)을 가진 모든 태그

`soup.find(id="link3")`

◼︎ 모든 하이퍼링크나 첫 번째 링크(딕셔너리 구문이나 tag.get() 함수 사용)

`links = soup.find_all("a")`

`firstLink = links[0]["href"]`

◼︎ 혹은

`firstLink = links[0].get("href")`

마지막 예에서 사용한 두 표현 모두 속성이 존재하지 않는다면 오류가 발생한다. 

태그를 추출하기 전에 `tag.has_attr()` 함수를 사용해서 속성이 존재하는지 꼭 확인하자. 

다음 구문은 BeautifulSoup과 리스트 내포를 결합해 웹 페이지에 포함된 모든 링크와 

그에 연결된 URL, 레이블을 추출한다(재귀적인 웹 크롤링(recursive web crawling)에 유용하다).

In [36]:
with urlopen("http://www.networksciencelab.com/") as doc:
    soup = BeautifulSoup(doc)

links = [(link.string, link["href"])
for link in soup.find_all("a")
if link.has_attr("href")]
links # 튜플의 리스트

[(None, 'https://pragprog.com/book/dzpyds/data-science-essentials-in-python'),
 (None,
  'https://pragprog.com/book/dzcnapy/complex-network-analysis-in-python'),
 ('DZPYDS', 'https://www.amazon.com/gp/product/1680501844'),
 ('DZCNAPY', 'https://www.amazon.com/gp/product/1680502697'),
 ('Networks of Music Groups as Success Predictors',
  'http://www.slideshare.net/DmitryZinoviev/networks-of-music-groups-as-success-predictors'),
 ('Network Science Workshop',
  'http://www.slideshare.net/DmitryZinoviev/workshop-20212296'),
 ('Resilience in Transaction-Oriented Networks',
  'http://www.slideshare.net/DmitryZinoviev/resilience-in-transactional-networks'),
 ('Peer Ratings in Massive Online Social Networks',
  'http://www.slideshare.net/DmitryZinoviev/peer-ratings-in-massive-online-social-networks'),
 ('Semantic Networks of Interests in Online NSSI Communities',
  'http://www.slideshare.net/DmitryZinoviev/presentation-31680572'),
 ('Towards an Ideal Store',
  'http://www.slideshare.net/Dmitry

HTML/XML의 장점은 폭넓은 사용성이지만, 이는 단점이기도 하다. 

특히 테이블형 데이터를 다룰 때 그러하다. 

다행하게도 여러분은 테이블형 데이터를 안정적이고 쉽게 가공할 수 있는 CSV 파일에 저장할 수 있다. 

# JSON 파일 읽기

JSON은 간단한 데이터 교환 포맷이다. 

‘UNIT 12. pickle로 데이터 압축하기’에서 다루었던 pickle과는 달리 

JSON은 사용하는 언어에 의존적이지는 않지만 

데이터를 표현하는 데는 제약 사항이 더 많다.

Twitter, Facebook이나 Yahoo! 날씨 같은 유명한 웹 사이트는

데이터 교환 포맷으로 JSON을 사용한 API를 제공한다.

## JSON의 자료 구조

JSON은 다음 데이터 타입을 지원한다.
 
◼︎ 기본 데이터 타입 : 문자열, 숫자, 참(true), 거짓(false), null

◼︎ 배열(arrays) : 파이썬의 리스트와 같다. 배열은 대괄호(`[]`)로 씌워서 표현한다. 

배열 안의 아이템이 같은 데이터 타입일 필요는 없다.

`[1, 3.14, "a string", true, null]`

◼︎ 객체(objects) : 파이썬의 딕셔너리에 대응된다. 객체는 중괄호(`{}`)로 씌워서 표현한다. 

객체 안의 모든 아이템은 키(key)와 값(value)으로 구성되며, 쉼표로 구분한다.

`{"age" : 37, "gender" : "male", "married" : true}`
 
◼︎ 배열이나 객체, 기본 데이터 타입으로 구성된 어떤 재귀적인 조합

(객체로 구성된 배열, 배열을 아이템 값으로 가지는 객체 등)
 
◼︎ 안타깝게도 집합(sets)이나 복소수(complex number) 등

몇몇 파이썬 데이터 타입과 구조는 JSON 파일에 저장할 수 없다.

그러므로 이러한 타입을 다룰 때는 JSON으로 내보내기 전에 

먼저 표현 가능한 데이터 타입으로 변형하는 작업을 해야 한다. 

복소수는 2개의 실수가 담긴 배열로 변환하고, 집합은 아이템의 배열로 저장할 수 있다.

복잡한 데이터를 JSON 파일에 저장하는 것을 직렬화(serialization)라고 한다. 

그 반대는 역직렬화(deserialization)다. 

파이썬은 JSON 직렬화와 역직렬화를 json 모듈의 함수로 수행한다.

## JSON 모듈 다루기

`dump()` 함수는 열려 있는 텍스트 파일에 파이썬 객체를 내보낸다(export). 

`dumps()` 함수는 파이썬 객체를 텍스트 문자열로 내보내는데, 

데이터를 읽기 쉽게 출력하거나 프로세스 간 커뮤니케이션을 하려는 목적에서 사용한다. 

`dump()`와 `dumps()` 함수 모두 JSON 직렬화를 수행한다.

`loads()` 함수는 JSON 문자열을 파이썬 객체로 변환한다(객체를 파이썬으로 ‘불러온다’). 

이 변환은 언제나 가능하다. 

마찬가지로 load() 함수는 열려 있는 텍스트 파일에 담긴 내용을 파이썬 객체로 변환한다. 

하나의 JSON 파일에 2개 이상의 객체를 저장하면 오류가 발생한다. 

그러나 이미 있는 파일에 2개 이상의 객체가 있다면 

이를 텍스트로 읽어서 텍스트를 객체의 배열로 변환한 다음

(텍스트 주변에는 대괄호를, 객체 사이에는 쉼표 구분자를 달면 된다) 

`loads()` 함수를 사용해서 텍스트를 객체의 리스트로 역직렬화하면 오류가 발생하지 않는다.

## JSON 모듈을 이용한 직렬화 및 역직렬화의 예시

다음 코드는 (직렬화할 수 있는) 객체를 직렬화하고 역직렬화한다.

네 번이나 고통스럽게 변환하는 과정을 거쳤지만 object, object1, object2는 여전히 모두 값이 같다.

일반적으로 JSON 표현은 최종 결과물을 저장할 때 사용하는데, 여러분이 다른 프로그램으로 결과 값을 더 처리하거나 임포트해야 할 때 쓰면 좋다.

In [37]:
import json

# 어떤 직렬화 가능 객체를 만든다.
object = [11,22,33,44,55]

# 객체를 파일에 저장한다.
with open("data.json", "w") as out_json:
    json.dump(object, out_json, indent=None, sort_keys=False)

# 파일에서 객체를 읽어 온다.
with open("data.json") as in_json: object1 = json.load(in_json)

# 객체를 문자열로 직렬화한다.
json_string = json.dumps(object1)

# 문자열을 JSON으로 파싱한다.
object2 = json.loads(json_string)

# 자연어 처리하기

경험에 비추어 보았을 때, 사용 가능한 모든 데이터의 80% 가량은 비정형적이다. 

비정형 데이터에는 소리, 영상, 이미지(이 책에서는 다루지 않는다)와 자연어로 된 텍스트가 있다. 

자연어로 된 텍스트에는 태그, 구분자, 데이터 타입도 없지만, 풍부한 정보를 담고 있을 수 있다. 

자연어 텍스트를 분석해서 특정 단어를 사용했는지, 얼마나 자주 사용했는지, 

어떤 종류의 텍스트인지(텍스트 분류), 긍정적이거나 부정적인 메시지를 담고 있는지(감성 분석), 

누가 혹은 무엇을 언급했는지(내용 추출) 등 다양한 분야의 정보를 얻을 수 있다. 

1~2개의 텍스트는 직접 읽을 수 있지만, 

대규모의 텍스트 분석은 자동화된 자연어 처리(NLP, Natural Language Processing)가 필요하다.

상당수 NLP 기능은 파이썬의 nltk(natural language toolkit) 모듈에 구현되어 있다. 

이 모듈은 코퍼스, 함수와 알고리즘으로 구성된다.

nltk 모듈을 설치하면 코퍼스가 아니라 클래스만 설치한다. 

배포에 포함하기에는 코퍼스 크기가 너무 크기 때문이다.

따라서 최초로 모듈을 임포트할 때는 download() 함수를 실행해야 한다는 것을 기억하자(인터넷 연결이 필요하다). 

그리고 상황에 따라서 필요한 부분을 추가로 설치한다.

## 코퍼스

코퍼스(corpus)(말뭉치)는 정형이나 비정형인 단어나 표현의 묶음이다. 

모든 NLTK 코퍼스는 nltk.corpus 모듈에 저장되어 있다. 예를 들면 다음과 같다.

◼︎ gutenberg : <모비딕(Moby Dick)>이나 <성경> 등 

구텐베르크 프로젝트(Gutenberg Project)에서 제공하는 영문 텍스트 18개

◼︎ names : 8000개의 남성과 여성의 이름 리스트

◼︎ words : 가장 빈번하게 사용하는 영어 단어 23만 5000개

◼︎ stopwords : 14개의 언어로 된 가장 많이 사용하는 불용어(stop word) 리스트. 

영어로 된 리스트는 stop words.words("english")에 저장되어 있다. 

불용어는 대부분의 분석에서 보통 삭제하는데, 텍스트 이해에 별로 기여하는 바가 없기 때문이다.

◼︎ cmudict : 카네기멜론대학교에서 만든 발음 사전으로 13만 4000개 입력 데이터가 있다. 

`cmudict.entries()`의 각 입력 데이터는 단어와 그 음절(syllables) 리스트의 튜플이다. 

단어가 같더라도 다르게 발음할 수 있다. 

이 코퍼스를 사용하면 발음이 같은 동음이의어(homophones)를 찾아볼 수 있다.

`nltk.corpus.wordnet` 객체는 온라인에 구축된 의미론적(semantic) 단어 네트워크인

Wordnet에 접근하는 인터페이스다(사용하려면 인터넷에 연결해야 한다). 

이 네트워크는 synsets(유의어 묶음)로 구성되어 있고,

각 synset은 단어와 품사, 순번으로 구성되어 있다.

In [38]:
import nltk
# nltk.download() # 첫 실행시 다운로드
wn = nltk.corpus.wordnet # 코퍼스 리더(reader)
wn.synsets("cat")

[Synset('cat.n.01'),
 Synset('guy.n.01'),
 Synset('cat.n.03'),
 Synset('kat.n.01'),
 Synset('cat-o'-nine-tails.n.01'),
 Synset('caterpillar.n.02'),
 Synset('big_cat.n.01'),
 Synset('computerized_tomography.n.01'),
 Synset('cat.v.01'),
 Synset('vomit.v.01')]

synset은 상위어(hypernyms)와 하위어(hyponyms)를 가질 수 있는데, 

이러한 특징은 synset을 하위 클래스(subclass)와 상위 클래스(superclass)를 가진 

OOP(객체 지향 프로그래밍) 클래스처럼 보이게 한다.

In [39]:
wn.synset("cat.n.01").hypernyms()
wn.synset("cat.n.01").hyponyms()

[Synset('domestic_cat.n.01'), Synset('wildcat.n.03')]

마지막으로 여러분은 WordNet을 사용해서 두 synset 간 의미론적 유사도를 계산할 수 있다. 

유사도는 0에서 1 사이 실수다. 

유사도가 0이면 두 단어는 서로 관계가 없지만, 유사도가 1이라면 완전한 유의어다.

In [40]:
x = wn.synset("cat.n.01")
y = wn.synset("lynx.n.01")
x.path_similarity(y)

0.04

그러면 임의의 두 단어는 서로 얼마나 가까울까? 

‘dog’와 ‘cat’의 모든 synset을 살펴보고, 가장 의미론적으로 가까운 정의를 찾아보자.

In [41]:
[simxy.definition() for simxy in max(
  (x.path_similarity(y), x, y)
  for x in wn.synsets('cat')
  for y in wn.synsets('dog')
  if x.path_similarity(y) # synset들이 서로 관련 있는지 확인한다.
)[1:]]

['an informal term for a youth or man', 'informal term for a man']

## 나만의 코퍼스 만들기

기본적인 코퍼스 외에도 PlaintextCorpusReader로 여러분만의 코퍼스를 만들 수 있다. 

리더는 root 디렉터리 경로에서 glob 패턴과 일치하는 파일을 찾는다.

`myCorpus = nltk.corpus.PlaintextCorpusReader(root, glob)`

`fileids()` 함수는 새롭게 만든 코퍼스에 포함된 파일 리스트를 반환한다.

`raw()` 함수는 코퍼스에 있는 ‘원천(raw)’ 텍스트를 반환한다. 

`sents()` 함수는 모든 문장을 리스트로 반환한다. 

`words()` 함수는 모든 단어를 리스트 안에 넣어 반환한다.

Counter 객체와 함께 사용하면 단어 빈도를 계산하고 등장 빈도가 가장 높은 단어를 뽑을 수 있다.

이어지는 내용에서 원천 텍스트를 문장과 단어로 변환하는 마법이 어떻게 일어나는지 알아보자.

## 정규화

정규화(normalization)는 추가적으로 데이터를 처리하려고 자연어로 된 텍스트를 준비하는 과정이다. 

이는 전형적으로 다음 단계로 진행한다(보통 이러한 순서를 따른다).

### 토큰화(tokenization)

이 단계에서는 텍스트를 단어로 쪼갠다.

NLTK는 간단한 버전의 토크나이저 2개, 고급 버전 2개를 제공한다. 

문장 토크나이저는 문자열로 된 문장 리스트를 반환한다. 나머지 토크나이저는 단어 리스트를 반환한다.

□ word_tokenize(text) : 단어 토크나이저

□ sent_tokenize(text) : 문장 토크나이저

□ regexp_tokenize(text, re) : 정규 표현식 기반의 토크나이저. re 파라미터는 단어를 표현하는 정규 표현식
 
토크나이저의 퀄리티와 문장 구조에 따라서 어떤 단어는 알파벳이 아닌 문자를 포함할 수도 있다. 

이모티콘을 이용한 감성 분석 등 문장 구조를 깊이 분석하는 작업을 할 때는 

WordPunctTokenizer 같은 고도화된 도구가 필요하다. 

같은 텍스트를 WordPunctTokenizer.tokenize()와 word_tokenize()가 어떻게 파싱하는지 비교해 보자.

In [42]:
from nltk.tokenize import WordPunctTokenizer
word_punct = WordPunctTokenizer()
text = "}Help! :))) :[ ..... :D{"
word_punct.tokenize(text)

['}', 'Help', '!', ':)))', ':[', '.....', ':', 'D', '{']

In [43]:
text = "}Help! :))) :[ ..... :D{"
nltk.word_tokenize(text)

['}', 'Help', '!', ':', ')', ')', ')', ':', '[', '...', '..', ':', 'D', '{']

### 단어의 대·소문자를 통일한다.

### 불용어를 제거한다.

stopwords 코퍼스와 부가적으로 작업에 필요한 불용어 리스트를 참조한다. 

stopwords에 있는 단어는 모두 소문자로 되어 있다는 것을 기억하자. 

“THE”(불용어가 확실하다)는 코퍼스에서 찾을 수 없을 것이다.

### 형태소 분석(stemming)

단어를 형태소로 변환한다.

NLTK는 2개의 기본 형태소 분석기를 제공한다. 

포터(Porter) 형태소 분석기는 보수적이고, 

랭커스터(Lancaster) 형태소 분석기는 더 적극적(aggressive)이다. 

형태소 분석 규칙의 적극성 때문에 

랭커스터 형태소 분석기는 더 많은 동음이의어 형태소(homonymous stem)를 생산한다. 

두 분석기 모두 단어의 형태소를 반환하는 stem(word) 함수가 있다.

전체 문장이 아니라 단어 하나에서 형태소 분석기를 사용해야 한다. 그래야 제대로 작동한다!

In [44]:
pstemmer = nltk.PorterStemmer()
pstemmer.stem("wonderful")

'wonder'

In [45]:
lstemmer = nltk.LancasterStemmer()
lstemmer.stem("wonderful")

'wond'

### 원형 추출(lemmatization)

더 느리고 더 보수적인 형태소 추출 메커니즘이다. 

WordNetLemmatizer는 WordNet이 계산한 형태소를 참조해 

문장에서 단어나 표현을 인식한다(원형 추출기를 사용하려면 인터넷에 연결해야 한다). 

`lemmatize(word)` 함수는 단어의 원형을 반환한다.


정규화 과정의 일부는 아니지만, 품사 태깅(POS tagging)은 텍스트 처리에서 매우 중요한 단계다. 

`nltk.pos_tag(text)`는 텍스트(단어의 리스트)에 있는 모든 단어에 품사를 할당한다. 

반환되는 값은 튜플의 리스트인데, 튜플의 첫 번째 요소는 원래 단어고 두 번째 요소는 품사다.

In [46]:
lemmatizer = nltk.WordNetLemmatizer()
lemmatizer.lemmatize("wonderful")

'wonderful'

In [47]:
nltk.pos_tag(["beautiful", "world"])

[('beautiful', 'JJ'), ('world', 'NN')]

지금까지 다룬 모든 것을 이어 붙여 

index.html 파일에서 (불용어를 제외하고) 가장 많이 등장한 단어 원형을 찾아보자

(‘UNIT 13. HTML 파일 처리하기’에서 다룬 BeautifulSoup을 사용하면 된다).

이러한 코드는 주제 추출(topic extraction)의 첫 번째 단계라고도 볼 수 있다.

In [48]:
from bs4 import BeautifulSoup
from collections import Counter
from nltk.corpus import stopwords
from nltk import LancasterStemmer
from urllib.request import urlopen

# 형태소 분류기를 생성한다.
ls = nltk.LancasterStemmer()

# 파일을 읽고 soup을 만든다.
soup = BeautifulSoup(urlopen("http://www.networksciencelab.com/"))

# 텍스트를 추출하고 토큰화한다.
words = nltk.word_tokenize(soup.text)

# 단어를 소문자로 변환한다.
words = [w.lower() for w in words]

# 불용어를 제거하고 단어의 형태소를 추출한다.
words = [ls.stem(w) for w in text if w not in stopwords.words("english")
         and w.isalnum()]

# 가장 빈번하게 등장한 10개의 단어를 추출한다.
freqs = Counter(words)
print(freqs.most_common(10))

[('h', 1), ('e', 1), ('l', 1), ('p', 1), ('d', 1)]


## 다른 텍스트 처리 방식

고급 NLP 방법을 논의하는 것은 이 책의 범위를 벗어나지만, 

여러분의 흥미를 돋우려고 몇 가지 옵션을 간단히 알아보겠다.

 
◼︎ 세그먼테이션(segmentation)

중국어처럼 단어 사이에 구문적 경계가 없는 텍스트에서 단어 경계를 인식하는 기법이다. 

세그먼테이션은 연속적인 문자나 숫자에도 적용할 수 있다(예를 들어 연속적인 구매 기록이나 DNA 파편 등).

◼︎ 텍스트 분류(text classification)

카테고리와 분류 기준을 설정하고 텍스트를 분류한다.

텍스트 분류의 대표적인 예는 감성 분석으로 일반적으로 감정이 담긴 단어의 빈도를 기반으로 분류한다.

◼︎ 대상 추출(entity extraction)

설정 값에 부합하는 단어나 구문을 탐지하는데, 보통 인명, 지명, 법인 이름, 제품 이름이나 브랜드 등을 대상으로 한다.

◼︎ 잠재적 의미 색인(latent semantic indexing)

특이 값 분해(SVD, Singular Value Decomposition)를 사용해 

비정형 텍스트 뭉치에서 등장하는 표현과 콘셉트 간의 관계를 규명한다.

SVD는 통계학에서는 주성분 분석(PCA, Principal Component Analysis)으로 알려져 있다.
 
◼︎ 자연어: 사람들이 일상적으로 쓰는 언어로, 인공적으로 만든 언어와 구분해 부르는 개념

◼︎ 자연어 처리: 사람들이 쓰는 보통 언어를 컴퓨터에 인식시켜서 처리하는 일

◼︎ 불용어: 제외어라고도 하며, 색인 작성이나 인터넷 검색 등에 사용하지 않는 언어

◼︎ 특이 값 분해: 선형대수에서 실수나 복소수 행렬의 인수분해를 말하는 것으로, 행렬의 역행렬을 잘 구할 수 없을 때 유용

◼︎ 주성분 분석: 통계 데이터를 분석하는 하나의 기법으로 고차원의 데이터를 저차원의 데이터로 환원시킴. 

예를 들어 어떤 개체를 설명하는데 x종의 데이터가 있다고 한다면 x종을 가장 적은 특성으로 정리하는 기법

# 연습 문제

이쯤 되면 여러분은 HTML, XML, CSV나 JSON 파일, 플레인 텍스트에서

귀중한 데이터를 추출하는 방법을 터득했을 것이다. 

HTML, XML 태그와 그 구조를 이해하고, 데이터에서 태그를 분리하며, 

(어느 정도) 단어를 정규화하는 방법을 배웠다. 

지금까지 배운 것을 활용할 수 있고, 약간의 인내심이 필요한 연습문제들이 기다리고 있다. 도전해 보자.

## 끊어진 링크 탐지기(Broken Link Detector) ★☆☆

웹 페이지의 URL을 입력받아 해당 웹 페이지에서 연결이 끊긴 링크 이름과 연결 대상을 출력하는 프로그램을 작성해 보자. 

연습문제 목적에 따라 urllib.request.urlopen()으로 URL을 열 때 오류가 발생한다면 링크가 끊긴 것으로 인식한다.

## 위키피디아 마이너(Wikipedia Miner) ★★☆

미디어위키(MediaWiki)는 위키피디아 데이터와 메타데이터에 접근할 수 있는 JSON 기반 API를 제공한다. 

제목이 ‘Data science’인 위키피디아 페이지에서 가장 많이 사용한 형태소를 출력하는 프로그램을 작성해 보자.

구현 힌트

◼︎ HTTPS가 아니라 HTTP를 사용한다.

◼︎ 미디어위키에서 ‘simple example’을 읽어 보고, 작성할 프로그램의 기반으로 사용한다.

◼︎ 먼저 제목으로 페이지 ID를 얻은 후 그 ID로 페이지에 접근한다.

◼︎ JSON 데이터를 시각적으로 살펴본다. 

특히 데이터의 상하 구조에서 사용된 키(key)를 눈여겨보자. 

이 글을 쓰는 시점에서 답은 여섯 번째 하위 항목에 있다.
 
## 음악 장르 분류기(Music Genre Classifier) ★★★

위키피디아를 사용해서 록(rock)과 팝(pop) 음악 장르 간 의미론적 유사도를 계산하는 프로그램을 작성해 보자. 

장르별 주요 음악 그룹 리스트로 시작해 보자(리스트에는 위계가 있으며 하위 카테고리가 존재한다). 

관련된 모든 그룹을 찾을 때까지 리스트와 하위 항목을 재귀적으로 처리하자

(시간과 트래픽을 아끼려고 영국 록 그룹처럼 탐색 범위를 좁혀도 된다). 

결과로 얻은 각 그룹에서 (가능하다면) 장르를 추출해 보자. 

자카드(Jaccard) 유사도 인덱스를 사용해서 의미론적 유사도를 계산하자. 

장르 A와 B의 쌍에서 J(A,B)=|A∩B|/|A∪B|=|C|/(|A|+|B|-|C|)인데 |A|와 |B|는 각 장르에 속하는 그룹 개수이며, 

|C|는 A와 B에 모두 속하는 그룹 개수다. 

결과를 pickle로 저장해 차후에 또 쓸 수 있게 하자. 이 프로그램을 두 번 다시 돌려 보고 싶지 않을 것이다.

전체적으로 몇 개의 장르가 있으며, 어떤 장르가 서로 가장 강하게 연결되어 있는가?