# Web Scraping and Crawling 웹 스크래핑과 크롤링

인터넷에서 데이터를 수집하는 가장 인기 있는 두 가지 방법은 웹 스크래핑과 웹 크롤링입니다.

이 섹션에서는 Python으로 웹사이트를 방문하는 방법과 웹 텍스트 데이터를 수집하는 방법을 배웁니다.

## Querying Websites 웹사이트 쿼리

Python은 `requests`라는 라이브러리를 사용하여 웹을 탐색할 수 있으며, 이를 통해 웹 요청을 할 수 있습니다.

이 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [None]:
!pip install requests

그런 다음 다른 패키지를 가져오는 것처럼 `requests` 라이브러리를 Python 환경으로 가져올 수 있습니다.

In [10]:
import requests

ModuleNotFoundError: No module named 'requests'

첫 번째 웹 요청을 해봅시다!

예를 들어, `http://www.magicalunicornsociety.co.uk/`를 쿼리해 보겠습니다.

In [2]:
requests.get("http://www.magicalunicornsociety.co.uk/")

<Response [200]>

이 쿼리는 `Response` 객체를 반환합니다!

실제로 `requests` 라이브러리가 웹사이트의 응답을 나타내는 데 사용하는 Python 클래스가 있습니다.

예를 들어, 존재하지 않는 웹페이지를 쿼리하면 다음과 같은 일이 발생합니다.

In [None]:
requests.get("http://www.magicalunicornsociety.co.uk/unicorns-with-wings")

좋아요! 웹을 탐색하고 존재하지 않는 URL을 입력한 것처럼 404 응답을 받습니다.

이 응답 객체를 조금 더 조사해 보겠습니다.

변수로 저장하면 속성 중 일부를 살펴볼 수 있습니다.

In [3]:
r = requests.get("http://www.magicalunicornsociety.co.uk/")

그런 다음 일부 속성을 조사할 수 있습니다.

다음과 같이 응답의 상태 코드(200, 404 등)에 액세스할 수 있습니다.

In [4]:
r.status_code

200

그러나 일반적으로 요청의 성공 여부만큼 상태 코드에는 관심이 없습니다.

요청의 성공 여부를 `r.ok`로 액세스할 수 있습니다.

In [5]:
r.ok

True

요청이 작동했기 때문에 응답에 의미 있는 정보가 포함되어 있을 수 있다는 것을 알고 있습니다.

이는 `r.content`로 확인할 수 있습니다.

In [6]:
print(r.content)

b'<!DOCTYPE html>\n<html lang="en-US" prefix="og: http://ogp.me/ns#">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t\t<link rel="profile" href="http://gmpg.org/xfn/11">\n\t\t<link rel="pingback" href="http://www.magicalunicornsociety.co.uk/xmlrpc.php">\n\t\t<title>The Magical Unicorn Society - The Facts, Myths and Legends of Unicorns</title>\n\n<!-- This site is optimized with the Yoast SEO plugin v7.8 - https://yoast.com/wordpress/plugins/seo/ -->\n<meta name="description" content="The Magical Unicorn Society unites people across the globe who love unicorns. We document everything there is to know about these unique, magical creatures."/>\n<link rel="canonical" href="http://www.magicalunicornsociety.co.uk/" />\n<meta property="og:locale" content="en_US" />\n<meta property="og:type" content="website" />\n<meta property="og:title" content="The Magical Unicorn Society - The Facts, Myths and Legends of Unicorns" />\n<met

얼마나 흥미로운 횡설수설인가요!

끝 부분에 알아볼 수 있는 정보가 있습니다.

이 웹 사이트의 제목이 "The Magical Unicorn Society - The Facts, Myths and Legends of Unicorns"인 것처럼 보이지만 이 정보의 상당 부분이 명확하지 않습니다...

이것은 실제로 HTML이라고 하는 다른 프로그래밍 언어입니다.

이를 확인하기 위해 응답의 헤더를 볼 수 있습니다.

In [9]:
print(r.headers['Content-Type'])
print(r.headers['Content-Length'])

text/html; charset=UTF-8
11404


대부분의 인터넷은 HTML로 작성됩니다!

인기가 높기 때문에 Python에서 HTML 코드로 작업할 수 있는 Python 패키지를 다운로드할 수 있지만 지금은 그렇게 하지 않을 것입니다.

대신 다른 유형의 콘텐츠인 JSON으로 응답하는 웹사이트에 집중할 것입니다. 

JSON은 JavaScript Object Notation의 약자입니다.

이것은 파이썬에 더 잘 맞는 정보를 인코딩하는 방법입니다.

예를 들어, `https://api.jokes.one/jod`로 이동하면 임의의 농담을 알 수 있습니다.

In [33]:
r = requests.get("https://api.jokes.one/jod")
print(r.json())

{'success': {'total': 1}, 'contents': {'jokes': [{'description': 'Joke of the day ', 'language': 'en', 'background': '', 'category': 'jod', 'date': '2022-09-14', 'joke': {'title': 'Lightning Love', 'lang': 'en', 'length': '84', 'clean': '0', 'racial': '0', 'date': '2022-09-14', 'id': 'aFito_RNokuddkEV1OP_mgeF', 'text': "Q: What did the lightning bolt say to the other lightning bolt?\r\nA: You're shocking!"}}], 'copyright': '2019-20 https://jokes.one'}}


In [11]:
r = requests.get('https://api.jokes.one/jod')

r.ok
r.status_code

200

In [12]:
r.headers['Content-Type']

'application/json; charset=utf-8'

보시다시피 이 웹사이트는 JSON 코드로 응답하며, 콘텐츠를 보면 좀 더 읽기 쉽습니다.

In [14]:
print(r.content)
print(type(r.content))

b'{"success":{"total":1},"contents":{"jokes":[{"description":"Joke of the day ","language":"en","background":"","category":"jod","date":"2022-09-14","joke":{"title":"Lightning Love","lang":"en","length":"84","clean":"0","racial":"0","date":"2022-09-14","id":"aFito_RNokuddkEV1OP_mgeF","text":"Q: What did the lightning bolt say to the other lightning bolt?\\r\\nA: You\'re shocking!"}}],"copyright":"2019-20 https:\\/\\/jokes.one"}}'
<class 'bytes'>


따라하고 있다면 농담이 다를 수 있지만, `"contents"`에서 `"joke"`의 `"text"`으로 같은 방식으로 형식이 지정됩니다.

이 코드가 Python처럼 보입니다!

실제로, 응답 객체의 `.json` 메서드를 사용하여 JSON 코드를 Python 코드로 변환할 수 있습니다.

In [20]:
py_joke = r.json()

print(py_joke)
print()
print(py_joke['contents'])
print()
print(type(py_joke))

{'success': {'total': 1}, 'contents': {'jokes': [{'description': 'Joke of the day ', 'language': 'en', 'background': '', 'category': 'jod', 'date': '2022-09-14', 'joke': {'title': 'Lightning Love', 'lang': 'en', 'length': '84', 'clean': '0', 'racial': '0', 'date': '2022-09-14', 'id': 'aFito_RNokuddkEV1OP_mgeF', 'text': "Q: What did the lightning bolt say to the other lightning bolt?\r\nA: You're shocking!"}}], 'copyright': '2019-20 https://jokes.one'}}

{'jokes': [{'description': 'Joke of the day ', 'language': 'en', 'background': '', 'category': 'jod', 'date': '2022-09-14', 'joke': {'title': 'Lightning Love', 'lang': 'en', 'length': '84', 'clean': '0', 'racial': '0', 'date': '2022-09-14', 'id': 'aFito_RNokuddkEV1OP_mgeF', 'text': "Q: What did the lightning bolt say to the other lightning bolt?\r\nA: You're shocking!"}}], 'copyright': '2019-20 https://jokes.one'}

<class 'dict'>


매력적이에요!

Python 객체로 변환될 때, JSON 객체는 딕셔너리입니다.

그런 다음 다른 Python 객체와 마찬가지로 이 딕셔너리로 작업할 수 있습니다. 

예를 들어,

In [27]:
py_joke_text = py_joke['contents']['jokes'][0]['joke']['text']
print(py_joke_text)
print('65:',py_joke_text[65])
print(py_joke_text.find('\r\n'))

Q: What did the lightning bolt say to the other lightning bolt?
A: You're shocking!
65: A
63


In [30]:
py_joke_text = py_joke['contents']['jokes'][0]['joke']['text']
print(py_joke_text[:py_joke_text.find('\r\n')])
# ans = input()
ans = '\r\n'

if ans in py_joke_text[py_joke_text.find('\r\n'):]:
    print("Yup! Funny joke, huh?")
else:
    print("Nope! {}".format(py_joke_text[py_joke_text.find('\r\n'):]))

Q: What did the lightning bolt say to the other lightning bolt?
Nope! 
A: You're shocking!


다음은 실행될 때의 모습입니다. (사용자 입력은 굵게 및 기울임꼴로 표시)

<pre>
Q: Why did Santa put a clock in his sleigh? <b><i>Because he wanted to see time fly!</i></b>
Yup! Funny joke, huh?
</pre>

Tip: URL 끝에 `.json`을 추가하면 많은 웹사이트를 JSON 형식으로 변환할 수 있습니다.

예를 들어,

<p align="center">
  <img height="350" alt="The sub-reddit /r/unicorns in a web browser." src="https://github.com/stanfordpython/course-reader/blob/master/img/6/reddit-r-unicorns.png?raw=true" /><br />
  <i>웹 브라우저에서 <a href="https://www.reddit.com/r/unicorns/">https://www.reddit.com/r/unicorns/</a>을 방문합니다.</i>
</p>

<p align="center">
  <img height="350" alt="The sub-reddit /r/unicorns in a web browser, displayed as JSON code because we've added '.json' to the end of the URL." src="https://github.com/stanfordpython/course-reader/blob/master/img/6/reddit-r-unicorns-json.png?raw=true" /><br />
  <i>웹 브라우저에서 <a href="https://www.reddit.com/r/unicorns/.json">https://www.reddit.com/r/unicorns/.json</a>을 방문합니다.</i>
</p>


아래쪽 웹 페이지는 시각적으로 덜 매력적으로 보일 수 있지만, 동일한 정보가 모두 포함되어 있으므로 Python이 더 쉽게 처리할 수 있습니다.

Python으로 웹을 탐색하려는 대부분의 경우 JSON 코드로 할 수 있습니다!

> JSON 엔드포인트가 없는 웹사이트로 작업하는 경우 [requests-html](https://requests.readthedocs.io/projects/requests-html/en/latest/) 또는 [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)과 같은 라이브러리 사용을 고려하세요.

## Crawling Websites 웹사이트 크롤링

Python은 `requests`와 함께 아래와 같은 BeautifulSoup과 awesome-slugify라는 라이브러리를 사용하여 웹을 수집할 수 있습니다.

*   웹 페이지에서 콘텐츠를 읽는 `requests`.
*   링크를 추출하는 BeautifulSoup.
*   페이지를 저장할 때 파일 이름을 포맷하는 awesome-slugify.

BeautifulSoup 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [None]:
!pip install bs4

awesome-slugify 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [None]:
!pip install slugify

`bs4`와 `requests`, 그리고 `slugify` 라이브러리를 가져옵니다.

In [5]:
# https://pypi.org/project/python-slugify/
import bs4
import requests
from slugify import slugify

현재 디렉토리의 경로를 지정합니다.

In [None]:
%cd /content
# 세션 저장소에서 현재 디렉토리의 경로입니다.
# 구글 드라이브를 마운팅하여 구글 드라이브를 저장공간으로 사용할 수 있습니다. 자세한 내용은 메뉴 'Help' > 'Search code snippets' > 'mount' 검색

현재 디렉토리에 `html`라는 폴더를 만듭니다.

In [2]:
import os
os.mkdir('html')

디렉토리에 저장된 `html` 폴더를 확인합니다.

In [None]:
!ls

수집할 웹 페이지 여러 곳의 링크를 담은 `sources` 리스트를 만듭니다.

In [3]:
sources = ['https://www.washingtonpost.com', 
           'http://www.nytimes.com/', 
           'http://www.chicagotribune.com/', 
           'http://www.bostonherald.com/', 
           'http://www.sfchronicle.com/']
           

`crawl` 함수를 만들어 웹 페이지를 수집해 저장공간에 작성해 봅시다!

`requests` 라이브러리의 `get` 메서드를 사용하여 일련의 웹 페이지를 호출하고 서버 응답의 내용을 읽습니다.

그런 다음 이 응답의 결과에 대해 `content` 메서드를 호출하여 원시 콘텐츠를 바이트로 가져옵니다.

이러한 콘텐츠로 BeautifulSoup 객체를 만듭니다.

`bs4`의 `find_all` 메서드를 사용하여 `href`가 있는 각 태그를 찾아서 텍스트 내부의 링크를 식별합니다.

`get` 및 `content`를 사용하여 해당 링크 세트를 반복하여 각 웹 페이지의 콘텐츠를 검색하고 저장공간의 고유한 HTML 파일에 저장합니다.

In [6]:
import requests
html = requests.get(sources[0]).content
print(type(html))
soup = bs4.BeautifulSoup(html, "lxml")
print(soup)

<class 'bytes'>
<!DOCTYPE html>
<html lang="en"><head><meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1.0, user-scalable=yes, minimum-scale=0.5, maximum-scale=2.0" id="viewport" name="viewport"/><meta content="Breaking news, live coverage, investigations, analysis, video, photos and opinions from The Washington Post. Subscribe for the latest on U.S. and international news, politics, business, technology, climate change, health and wellness, sports, science, weather, lifestyle and more." name="description"/><meta content="unsafe-url" name="referrer"/><meta content="washington d.c. news,dc news,virginia news,maryland news,breaking news video,photos,world news,local news,national news,us news,foreign news,dc traffic;dc weather,Obama,government,federal government,White House,dc sports,politics,politics news,political news,political opinion,environment,economy,technology,education,travel,dc,virginia,Maryl

In [14]:
sources = [
            # 'https://www.washingtonpost.com', 
            'http://www.nytimes.com/',
            'http://www.chicagotribune.com/', 
            # 'http://www.bostonherald.com/', 
            'http://www.sfchronicle.com/']
           
html_path_list = []

def crawl(url):
    domain = url.split("//www.")[-1].split("/")[0]
    html = requests.get(url).content
    soup = bs4.BeautifulSoup(html, "lxml")
    links = set(soup.find_all('a', href=True))

    foldername = domain[:-4]
    os.mkdir('/home/ljj0512/private/data-mining/html/' + foldername)

    for link in links:
        sub_url = link['href']
        page_name = link.string
        print(page_name)
        print(page_name)

    if domain in sub_url:
        try:
            page = requests.get(sub_url).content
            print(page)
            filename = slugify(page_name).lower() + '.html'
            path = '/home/ljj0512/private/data-mining/html/' + foldername + '/' + filename
            html_path_list.append(path)
            with open(path, 'wb') as f:
                f.write(page)

        except:
            print("Error occur!!")

`for` 반복문으로 `crawl` 함수에 `sources` 리스트에 담긴 링크를 하나씩 받습니다.

In [16]:
for url in sources:
    crawl(url)

Error occur!!


이 시점에서 저장공간에 여러 HTML 웹 페이지가 작성되었습니다!

이제 텍스트만 추출하기 위해 각 파일의 HTML을 구문 분석하려고 합니다.

Python으로 이를 수행하는 가장 쉬운 방법은 BeautifulSoup 라이브러리를 사용하는 것입니다.

`html_to_text`라는 함수를 정의하여 저장한 웹 페이지의 텍스트를 추출하여 프린팅해 봅시다.

먼저, 텍스트 데이터가 포함된 태그를 식별합니다.

In [17]:
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'h7', 'p', 'li']

그런 다음 파일 경로를 취하고, 파일에서 HTML을 읽습니다.


`get_text` 메소드를 사용하여 태그 리스트와 일치하는 태그를 찾은 모든 위치에서 텍스트를 생성합니다.

In [None]:
def html_to_text(path):
    with open(path, 'r') as f:
        html = f.read()
    soup = bs4.BeautifulSoup(html, "lxml")
    for tag in soup.find_all(TAGS):
        yield tag.get_text()

앞서 만든 `html_path_list` 파일 경로 리스트에 담긴 파일 경로를 `for` 반복문으로 하나씩 받습니다.

`html_to_text` 함수에 파일 경로를 받아 수집한 웹의 텍스트 데이터를 얻을 수 있습니다!

In [None]:
for path in html_path_list:
    print(list(html_to_text(path)))

### Ingestion using RSS Feeds RSS 피드를 사용한 수집

Python은 BeautifulSoup, awesome-slugify과 함께 feedparser라는 라이브러리를 사용하여 RSS를 수집할 수 있습니다.

RSS(Really Simple Syndication)는 텍스트 데이터에 대한 표준화된 XML 형식입니다.

동일한 레이아웃을 사용하여 여러 문서(게시물, 기사 등)를 게시할 수 있습니다.

RSS로 구조화된 텍스트 데이터는 일반 웹 페이지 또는 발행된 순서대로 정렬된 문서들의 텍스트 데이터보다 더 일관되게 형식이 지정됩니다.

feedparser 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [None]:
!pip install feedparser

`bs4`와 `slugify`, 그리고 `feedparser` 라이브러리를 가져옵니다.

In [2]:
import bs4
from slugify import slugify
import feedparser

현재 디렉토리의 경로를 지정합니다.

In [None]:
%cd /content
# 세션 저장소에서 현재 디렉토리의 경로입니다.
# 구글 드라이브를 마운팅하여 구글 드라이브를 저장공간으로 사용할 수 있습니다. 자세한 내용은 메뉴 'Help' > 'Search code snippets' > 'mount' 검색

현재 디렉토리에 `rss`라는 폴더를 만듭니다.

In [20]:
import os
os.mkdir('rss')

디렉토리에 저장된 `rss` 폴더를 확인합니다.

In [None]:
!ls

수집할 RSS 피드 여러 곳의 링크를 담은 `feeds` 리스트를 만듭니다.

In [21]:
feeds = ['http://blog.districtdatalabs.com/feed', 
         'http://feeds.feedburner.com/oreilly/radar/atom', 
         'http://blog.kaggle.com/feed/', 
         'http://blog.revolutionanalytics.com/atom.xml']

텍스트 데이터가 포함된 태그를 식별합니다.

In [22]:
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'h7', 'p', 'li']

`rss_parse` 함수를 만들어 RSS 피드를 수집해 저장공간에 작성해 봅시다!

`feedpaser` 라이브러리의 `parse` 메서드를 사용하여 각 피드에 대한 XML을 구문 분석합니다.

거기에서 `entries` 메서드는 피드의 게시물이나 기사를 검색합니다.

다음으로, 각 게시물을 반복하고, 각각의 제목을 추출합니다.

`get_text` 메서드를 사용하여 태그 내부에서 텍스트를 추출하고, 해당 게시물의 텍스트를 파일에 씁니다.

In [20]:

parsed = feedparser.parse('http://www.koreaherald.com/common/rss_xml.php?ct=305')
print(parsed)

{'bozo': False, 'entries': [{'title': "Won falls to new yearly low amid woes over Fed's tightening, economic uncertainty", 'title_detail': {'type': 'text/plain', 'language': None, 'base': 'http://www.koreaherald.com/common/rss_xml.php?ct=305', 'value': "Won falls to new yearly low amid woes over Fed's tightening, economic uncertainty"}, 'links': [{'rel': 'alternate', 'type': 'text/html', 'href': 'https://www.koreaherald.com/view.php?ud=20220916000225'}], 'link': 'https://www.koreaherald.com/view.php?ud=20220916000225', 'summary': 'South Korea&#039;s currency fell to a new yearly low in intraday trading Friday amid worries the US Federal Reserve will continue monetary tightening to tame inflation and its negative impact on the global economy. The local currency was trading at 1', 'summary_detail': {'type': 'text/html', 'language': None, 'base': 'http://www.koreaherald.com/common/rss_xml.php?ct=305', 'value': 'South Korea&#039;s currency fell to a new yearly low in intraday trading Frida

In [25]:
rss_path_list = []

root = '/home/ljj0512/private/data-mining'
def rss_parse(feed):
    parsed = feedparser.parse(feed)
    posts = parsed.entries
    
    foldername = feed.split("//")[-1].split("/")[0].split(".")[1]
    os.mkdir(f'{root}/rss/' + foldername)

    for post in posts:
        html = post.content[0].get('value')
        soup = bs4.BeautifulSoup(html, 'lxml')
        post_title = post.title
        filename = slugify(post_title).lower() + '.xml'
        
        for tag in soup.find_all(TAGS):
            paragraphs = tag.get_text()
            print(paragraphs)
            
            path = f'{root}/rss/' + foldername + '/' + filename
            with open(path, 'a') as f:
                f.write(paragraphs + '\n \n')
        
        rss_path_list.append(path)

`for` 반복문으로 `rss_parse` 함수에 `feeds` 리스트에 담긴 링크를 하나씩 받습니다.

In [26]:
for feed in feeds:
    rss_parse(feed)

Projects like OpenAI’s DALL-E and DeepMind’s Gato and LaMDA have stirred up many discussions of artificial general intelligence (AGI). These discussions tend not to go anywhere, largely because we don’t really know what intelligence is. We have some ideas–I’ve suggested that intelligence and consciousness are deeply connected to the ability to disobey, and others have suggested that intelligence can’t exist outside of embodiment (some sort of connection between the intelligence and the physical world). But we really don’t have a definition. We have a lot of partial definitions, all of which are bound to specific contexts.
For example, we often say that dogs are intelligent. But what do we mean by that? Some dogs, like sheep dogs, are very good at performing certain tasks. Most dogs can be trained to sit, fetch, and do other things. And they can disobey. The same is true of children, though we’d never compare a child’s intelligence to a dog’s. And cats won’t do any of those things, thou

앞서 만든 `rss_path_list` 파일 경로 리스트에 담긴 파일 경로를 `for` 반복문으로 하나씩 받습니다.

파일을 열어서 읽으면 수집한 RSS의 텍스트 데이터를 얻을 수 있습니다!

In [28]:
for path in rss_path_list:
    print('<< ', path, ' >>')
    with open(path, 'r') as f:
        html = f.read()
    print(list(html))

<<  /home/ljj0512/private/data-mining/rss/feedburner/the-problem-with-intelligence.xml  >>
['P', 'r', 'o', 'j', 'e', 'c', 't', 's', ' ', 'l', 'i', 'k', 'e', ' ', 'O', 'p', 'e', 'n', 'A', 'I', '’', 's', ' ', 'D', 'A', 'L', 'L', '-', 'E', ' ', 'a', 'n', 'd', ' ', 'D', 'e', 'e', 'p', 'M', 'i', 'n', 'd', '’', 's', ' ', 'G', 'a', 't', 'o', ' ', 'a', 'n', 'd', ' ', 'L', 'a', 'M', 'D', 'A', ' ', 'h', 'a', 'v', 'e', ' ', 's', 't', 'i', 'r', 'r', 'e', 'd', ' ', 'u', 'p', ' ', 'm', 'a', 'n', 'y', ' ', 'd', 'i', 's', 'c', 'u', 's', 's', 'i', 'o', 'n', 's', ' ', 'o', 'f', ' ', 'a', 'r', 't', 'i', 'f', 'i', 'c', 'i', 'a', 'l', ' ', 'g', 'e', 'n', 'e', 'r', 'a', 'l', ' ', 'i', 'n', 't', 'e', 'l', 'l', 'i', 'g', 'e', 'n', 'c', 'e', ' ', '(', 'A', 'G', 'I', ')', '.', ' ', 'T', 'h', 'e', 's', 'e', ' ', 'd', 'i', 's', 'c', 'u', 's', 's', 'i', 'o', 'n', 's', ' ', 't', 'e', 'n', 'd', ' ', 'n', 'o', 't', ' ', 't', 'o', ' ', 'g', 'o', ' ', 'a', 'n', 'y', 'w', 'h', 'e', 'r', 'e', ',', ' ', 'l', 'a', 'r', 'g'

# Text Processing 텍스트 처리

Python은 우리가 지금까지 배운 것의 응용 프로그램을 실제로 조명하는 방식으로 말뭉치를 다루는 여러 작업을 수행할 수 있습니다.

이 섹션에서는 `nltk`를 사용하여 여러 데이터 형식의 말뭉치를 불러오는 방법과 Python으로 텍스트를 처리하는 방법을 배웁니다.

## Corpus management 말뭉치 관리

### Corpus Readers 말뭉치 리더

Python은 `nltk`라는 라이브러리를 사용하여 말뭉치를 읽고, 스트리밍하고 필터링할 수 있습니다.

#### Streaming Data Access 스트리밍 데이터 엑세스

먼저, 텍스트 파일에 저장된 일반 텍스트를 말뭉치 리더로 읽어 보겠습니다.

말뭉치를 읽는 데 사용할 텍스트 파일들을 불러와 봅시다.

현재 디렉토리의 경로를 지정합니다.

In [None]:
%cd /content
# 세션 저장소에서 현재 디렉토리의 경로입니다.
# 구글 드라이브를 마운팅하여 구글 드라이브를 저장공간으로 사용할 수 있습니다. 자세한 내용은 메뉴 'Help' > 'Search code snippets' > 'mount' 검색

> **Sidetrack: Cloning a repository from GitHub.com 깃허브에서 저장소 복제하기**
>
> GitHub.com에서 저장소를 복제하여 복사본을 만들고 두 위치 간에 동기화할 수 있습니다.

In [1]:
!git clone https://github.com/wilkens-teaching/textmining.git

Cloning into 'textmining'...
remote: Enumerating objects: 24566, done.[K
remote: Total 24566 (delta 0), reused 0 (delta 0), pack-reused 24566[K
Receiving objects: 100% (24566/24566), 149.56 MiB | 9.40 MiB/s, done.
Resolving deltas: 100% (267/267), done.
Checking out files: 100% (25650/25650), done.


현재 디렉토리를 데이터가 저장된 경로로 변경합니다.


In [None]:
%cd /content/textmining/data/texts
# 세션 저장소에서 데이터가 저장된 경로입니다.

디렉토리에 저장된 데이터를 확인합니다.


In [None]:
!ls

`PlaintextCorpusReader` 객체를 사용하여 일반 텍스트 말뭉치를 읽는  방법을 살펴 봅시다.

In [2]:
from nltk.corpus.reader import PlaintextCorpusReader

말뭉치 리더가 말뭉치에 포함되어야 하는 파일 이름을 식별할 수 있도록 정규 표현식을 지정해 보세요.

In [16]:
DOC_PATTERN = '.+\.txt'
corpus = PlaintextCorpusReader('./', DOC_PATTERN)

`nltk`의 말뭉치 리더 객체에는 다음과 같이 몇 가지 유용하고 편리한 메서드들이 있는데, `.fileids()`와...

In [22]:
corpus.fileids()

['textmining/data/texts/A-Alcott-Little_Women-1868-F.txt',
 'textmining/data/texts/A-Cather-Antonia-1918-F.txt',
 'textmining/data/texts/A-Chesnutt-Marrow-1901-M.txt',
 'textmining/data/texts/A-Chopin-Awakening-1899-F.txt',
 'textmining/data/texts/A-Crane-Maggie-1893-M.txt',
 'textmining/data/texts/A-Dreiser-Sister_Carrie-1900-M.txt',
 'textmining/data/texts/A-Freeman-Pembroke-1894-F.txt',
 'textmining/data/texts/A-Gilman-Herland-1915-F.txt',
 'textmining/data/texts/A-Harper-Iola_Leroy-1892-F.txt',
 'textmining/data/texts/A-Hawthorne-Scarlet_Letter-1850-M.txt',
 'textmining/data/texts/A-Howells-Silas_Lapham-1885-M.txt',
 'textmining/data/texts/A-James-Golden_Bowl-1904-M.txt',
 'textmining/data/texts/A-Jewett-Pointed_Firs-1896-F.txt',
 'textmining/data/texts/A-London-Call_Wild-1903-M.txt',
 'textmining/data/texts/A-Melville-Moby_Dick-1851-M.txt',
 'textmining/data/texts/A-Norris-Pit-1903-M.txt',
 'textmining/data/texts/A-Stowe-Uncle_Tom-1852-F.txt',
 'textmining/data/texts/A-Twain-Huck_

... 그리고 `.paras()`가 있습니다.

먼저, 토크나이저 모델을 `nltk` 라이브러리에서 내려 받습니다.

In [19]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ljj0512/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True



여기에서, 미국의 고전 소설 *Moby Dick*의 첫 문장 *'Call me Ishmael.'*을 프린팅해 봅시다!

In [21]:
print(corpus.paras(fileids=['./textmining/data/texts/A-Melville-Moby_Dick-1851-M.txt'])[0])

[['ETYMOLOGY', '.']]


오, 문서의 첫 번째 문단이 소설의 첫 문단이 아니었군요!

그렇다면 소설의 첫 문단이 문서의 몇 번째 문단인지 찾아봅시다!

In [23]:
print(corpus.raw(fileids=['./textmining/data/texts/A-Melville-Moby_Dick-1851-M.txt']))

ETYMOLOGY.

(Supplied by a Late Consumptive Usher to a Grammar School)

The pale Usher--threadbare in coat, heart, body, and brain; I see him now. He was ever dusting his old lexicons and grammars, with a queer handkerchief, mockingly embellished with all the gay flags of all the known nations of the world. He loved to dust his old grammars; it somehow mildly reminded him of his mortality.

"While you take in hand to school others, and to teach them by what name a whale-fish is to be called in our tongue leaving out, through ignorance, the letter H, which almost alone maketh the signification of the word, you deliver that which is not true." --HACKLUYT

"WHALE.... Sw. and Dan. HVAL. This animal is named from roundness or rolling; for in Dan. HVALT is arched or vaulted." --WEBSTER'S DICTIONARY

"WHALE.... It is more immediately from the Dut. and Ger. WALLEN; A.S. WALW-IAN, to roll, to wallow." --RICHARDSON'S DICTIONARY

     KETOS,               GREEK.      CETUS,               LATIN.  

이 문서의 94 번째 문단이 소설의 첫 문단이었습니다.

소설의 첫 문단에 있는 첫 문장을 프린팅해 봅시다!

In [24]:
print(corpus.paras(fileids=['./textmining/data/texts/A-Melville-Moby_Dick-1851-M.txt'])[94][0])

['Call', 'me', 'Ishmael', '.']


리스트 안에 또 다른 리스트로 반환되는 문서는 문단, 문장 및 단어로 완전히 구문 분석되었습니다!

문자열로 설명을 추가해 한 눈에 볼 수 있도록 프린팅해 봅시다!

In [25]:
moby_dick = corpus.paras(fileids=['./textmining/data/texts/A-Melville-Moby_Dick-1851-M.txt'])

print("The first paragraph of the document:\n", moby_dick[0])
print("\nThe first sentence of Moby Dick:\n", moby_dick[94][0])

The first paragraph of the document:
 [['ETYMOLOGY', '.']]

The first sentence of Moby Dick:
 ['Call', 'me', 'Ishmael', '.']


#### Reading HTML Corpus HTML 말뭉치 읽기

이번에는 HTML로 형식으로 지정된 텍스트를 말뭉치 리더로 읽어 보겠습니다.

앞서 인터넷에서 수집한 데이터를 카테고리로 나눠 저장한 HTML 파일들을 불러와 봅시다.

현재 디렉토리를 데이터가 저장된 경로로 변경합니다.


In [None]:
%cd /content/html
# 세션 저장소에서 데이터가 저장된 경로입니다.

디렉토리에 저장된 데이터를 확인합니다.


In [None]:
!ls

불러온 HTML 파일들에 대해 스트리밍 말뭉치 리더를 생성하기 위한 또 다른 한 가지 옵션이 있습니다.

HTML에서 모든 태그를 제거하고, 일반 텍스트로 작성하고, `CategorizedPlaintextCorpusReader`를 사용하는 것입니다.

그러나 그렇게 하면 전처리할 때 활용할 수 있는 HTML의 이점을 잃게 됩니다.

따라서 이 섹션에서는 전처리 섹션에서 확장할 사용자 지정 `HTMLCorpusReader`를 설계합니다.

먼저, 사용자 지정 `HTMLCorpusReader`를 설계하는데 사용할 라이브러리와 `CategorizedCorpusReader` 객체와 `CorpusReader` 객체를 불러옵니다.

In [3]:
import os
from nltk.corpus.reader.api import CorpusReader
from nltk.corpus.reader.api import CategorizedCorpusReader

말뭉치 리더가 말뭉치에 포함되어야 하는 파일 이름을 식별할 수 있도록 정규 표현식을 지정해 보세요.

In [11]:
CAT_PATTERN = r'([a-z_\s]+)/.*'
DOC_PATTERN = r'(?!\.)[a-z_\s]+/[a-f0-9]+\.html'
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

`HTMLCorpusReader` 클래스는 `CategorizedCorpusReader`와 `CorpusReader`를 모두 확장합니다.

In [36]:
class HTMLCorpusReader(CategorizedCorpusReader, CorpusReader):
    """
    A corpus reader for raw HTML documents to enable preprocessing.
    """

    def __init__(self, root, fileids=DOC_PATTERN, encoding='utf8',
                 tags=TAGS, **kwargs):
        print('root:',root)
        print('fileids:',fileids)
        print('tags:',tags)
        print(kwargs)

        """
        Initialize the corpus reader.  Categorization arguments
        (``cat_pattern``, ``cat_map``, and ``cat_file``) are passed to
        the ``CategorizedCorpusReader`` constructor.  The remaining
        arguments are passed to the ``CorpusReader`` constructor.
        """
        # Add the default category pattern if not passed into the class.
        if not any(key.startswith('cat_') for key in kwargs.keys()):
            kwargs['cat_pattern'] = CAT_PATTERN
        
        print('kwargs:',kwargs)
        
        # Initialize the NLTK corpus reader objects
        CategorizedCorpusReader.__init__(self, kwargs)
        CorpusReader.__init__(self, root, fileids, encoding)

        # Save the tags that we specifically want to extract.
        self.tags = tags

    def resolve(self, fileids, categories):
        """
        Returns a list of fileids or categories depending on what is passed
        to each internal corpus reader function. Implemented similarly to
        the NLTK ``CategorizedPlaintextCorpusReader``.
        """
        if fileids is not None and categories is not None:
            raise ValueError("Specify fileids or categories, not both")

        if categories is not None:
            return self.fileids(categories)
        return fileids

    def docs(self, fileids=None, categories=None):
        """
        Returns the complete text of an HTML document, closing the document
        after we are done reading it and yielding it in a memory safe fashion.
        """
        # Resolve the fileids and the categories
        fileids = self.resolve(fileids, categories)

        # Create a generator, loading one document into memory at a time.
        for path in self.abspaths(fileids):
            with open(path, 'r') as f:
                yield f.read()

    def sizes(self, fileids=None, categories=None):
        """
        Returns a list of tuples, the fileid and size on disk of the file.
        This function is used to detect oddly large files in the corpus.
        """
        # Resolve the fileids and the categories
        fileids = self.resolve(fileids, categories)

        # Create a generator, getting every path and computing filesize
        for path in self.abspaths(fileids):
            yield os.path.getsize(path)

`HTMLCorpusReader` 클래스를 사용하여 HTML 텍스트 말뭉치를 읽는 방법을 살펴 봅시다.

In [41]:
corpus = HTMLCorpusReader('./html', fileids=DOC_PATTERN, tags=TAGS, cat_pattern=CAT_PATTERN)
# corpus = HTMLCorpusReader(root='./html', CAT_PATTERN)

root: ./html
fileids: (?!\.)[a-z_\s]+/[a-f0-9]+\.html
tags: ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']
{'cat_pattern': '([a-z_\\s]+)/.*'}


`nltk`에서 가져 온 `.categories()`, `.fileids()` 메서드를 사용하여 말뭉치의 카테고리와 파일 이름을 확인합니다.

파일 이름을 처음 다섯 개까지 확인해 보세요.

In [28]:
print("Categories in the corpus:\n", corpus.categories())
print("\nThe first five file name:\n", corpus.fileids()[:5])
print("\nThe first five file name:\n", len(corpus.fileids()))

Categories in the corpus:
 ['bostonherald', 'washingtonpost']

The first five file name:
 ['bostonherald/tv-and-streaming.html', 'washingtonpost/ps09_entities.gephi', 'washingtonpost/test.html']

The first five file name:
 3


이번에는 첫 번째 카테고리에 포함된 각 파일의 문서에서 300번째 글자까지 프린팅해 보겠습니다.

`HTMLCorpusReader` 클래스에서 정의한 `docs()` 함수를 사용해 봅시다!

In [17]:
print("\nThe first 300 characters of the first category:")
for doc in corpus.docs(categories=corpus.categories()[0]):
    print(doc[:300])
    break


The first 300 characters of the first category:
			<!DOCTYPE html>
			<html lang="en-US">
			<head>
				<meta charset="UTF-8"><meta name="application-name" id="app-name" content="bostonherald"><meta name="viewport" content="width=device-width, initial-scale=1">			<meta name="msvalidate.01" content="4B535F7EB2971D1FCBA5D1D3E3E292C3" />
			<title>T


#### Reading Corpus from Database 데이터베이스에서 말뭉치 읽기

이번에는 Sqlite 데이터에 저장된 텍스트를 말뭉치 리더로 읽어 보겠습니다.

예시로 제공되는 Pitchfork 음악 리뷰를 저장한 Sqlite 파일을 가져와 봅시다.

현재 디렉토리의 경로를 지정합니다.

In [None]:
%cd /content
# 세션 저장소에서 현재 디렉토리의 경로입니다.
# 구글 드라이브를 마운팅하여 구글 드라이브를 저장공간으로 사용할 수 있습니다. 자세한 내용은 메뉴 'Help' > 'Search code snippets' > 'mount' 검색

아래의 웹페이지에서 Pitchfork 음악 리뷰가 저장된 Sqlite 데이터를 내려 받을 수 있습니다.

https://www.kaggle.com/datasets/nolanbconaway/pitchfork-data

> **Sidetrack: Open files from your local file system 로컬 파일 시스템에서 파일 열기**
>
> 다음 명령으로 세션 저장소 또는 마운팅한 구글 드라이브에 로컬 파일을 올릴 수 있습니다.

In [1]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

ModuleNotFoundError: No module named 'google'

디렉토리에 저장된 `database.sqlite` 파일을 확인합니다.

In [None]:
!ls

이 섹션에서는 Sqlite 데이터에서 텍스트를 읽는 사용자 지정 `SqliteCorpusReader`를 설계합니다.


먼저, 사용자 지정 `SqliteCorpusReader`를 설계하는데 사용할 `sqlite3` 라이브러리를 불러옵니다.

In [1]:
import sqlite3

`SqliteCorpusReader`는 Pitchfork 음악 리뷰에 특화된 말뭉치 리더입니다.

음악 리뷰의 점수, 텍스트, 그리고 아이디를 반환하는 함수들을 정의합니다.

In [2]:
class SqliteCorpusReader(object):

    def __init__(self, path):
        self._cur = sqlite3.connect(path).cursor()
    
    def scores(self):
        """
        Returns the review score
        """
        self._cur.execute("SELECT score FROM reviews")
        for score in iter(self._cur.fetchone, None):
            yield score

    def texts(self):
        """
        Returns the full review texts
        """
        self._cur.execute("SELECT content FROM content")
        for text in iter(self._cur.fetchone, None):
            yield text

    def ids(self):
        """
        Returns the review ids
        """
        self._cur.execute("SELECT reviewid FROM content")
        for idx in iter(self._cur.fetchone, None):
            yield idx

`SqliteCorpusReader` 클래스를 사용하여 Sqlite 데이터의 텍스트 말뭉치를 읽는 방법을 살펴 봅시다.

In [3]:
corpus = SqliteCorpusReader('database.sqlite')

`SqliteCorpusReader` 클래스에서 정의한 함수들을 사용해 봅시다!

In [4]:
for id, text, score in zip(corpus.ids(), corpus.texts(), corpus.scores()):
    print("\nThe id of the review: ", id)
    print("\nThe text of the review: ", text)
    print("\nThe score of the review: ", score)
    break

OperationalError: no such table: content

## Preprocessing 전처리

앞서 보았듯이, 수집된 원시 텍스트는 계산 및 모델링을 위해 사전 처리가 필요합니다.

이번에는 NLTK를 사용하여 텍스트 데이터를 준비된 말뭉치로 변환시켜 봅시다.

문서에서 문단으로 해체시키고, 문단에서 문장으로 부수고, 문장에서 개별 토큰으로 식별해 보겠습니다.

현재 디렉토리를 데이터가 저장된 경로로 변경합니다.


In [None]:
%cd /content/html
# 세션 저장소에서 데이터가 저장된 경로입니다.

디렉토리에 저장된 데이터를 확인합니다.


In [None]:
!ls


다시 한 번 앞서 수집한 HTML 텍스트 말뭉치를 사용자 지정 `HTMLCorpusReader` 클래스로 읽어 봅시다.

In [18]:
import os
from nltk.corpus.reader.api import CorpusReader
from nltk.corpus.reader.api import CategorizedCorpusReader

In [19]:
CAT_PATTERN = r'([a-z_\s]+)/.*'
DOC_PATTERN = r'(?!\.)[a-z_\s]+/[a-f0-9]+\.html'
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

In [46]:
corpus = HTMLCorpusReader('', CAT_PATTERN, DOC_PATTERN, TAGS)
fileids = corpus.fileids()
documents = corpus.docs(categories=corpus.categories()[0])
print(documents)

<generator object HTMLCorpusReader.docs at 0x7fbdd8f53140>


HTML 콘텐츠는 다양하고 때로는 불규칙한 방식으로 생성 및 렌더링될 수 있습니다.

높은 수준의 가변성에 대처하는 데 도움이 되도록 Readability-lxml 라이브러리를 사용할 수 있습니다.

Readability-lxml 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [24]:
!pip install readability-lxml

Collecting readability-lxml
  Downloading readability_lxml-0.8.1-py3-none-any.whl (20 kB)
Collecting cssselect
  Downloading cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting chardet
  Downloading chardet-5.0.0-py3-none-any.whl (193 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m193.6/193.6 kB[0m [31m22.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: cssselect, chardet, readability-lxml
Successfully installed chardet-5.0.0 cssselect-1.1.0 readability-lxml-0.8.1


`Unparseable`와 `Document` 객체를 불러옵니다.

In [35]:
from readability.readability import Unparseable
from readability.readability import Document

`html` 함수를 만들어 HTML 텍스트를 단락, 문장 및 토큰으로 점진적으로 분해할 수 있도록 깨끗하게 잘 구조화해 봅시다!

Readability의 `Document` 객체에서 `summary` 메서드를 사용하여 텍스트가 아닌 콘텐츠와 스크립트 및 스타일 태그를 제거합니다.

또한 `<div>`와 `<br>` 같이 가장 일반적으로 오용되는 태그를 수정합니다.

원본 HTML을 구문 분석할 수 없는 경우에만 예외를 동작합니다.

In [47]:
def html(documents):
    for doc in documents:
        try:
            yield Document(doc).summary()
        except Unparseable as e:
            print("Could not parse HTML: {}".format(e))
            continue

`html` 함수에 문서를 받아 `htmls`라는 HTML 텍스트 리스트를 만들고 프린팅해 봅시다!

In [48]:
htmls = list(html(documents))
# print(htmls)
print(*htmls, sep='\n')

<html><body></body></html>
<html><body><div><div class="grid-body"><div class="teaser-content grid-center"><div class="article-body" data-qa="article-body"><p data-qa="drop-cap-letter" data-el="text" class="font-copy font--article-body gray-darkest ma-0 pb-md">When King Charles III assumed the throne last week after the death of his mother, Britain’s longest-reigning monarch, some commentators<b> </b>were quick to point out that the septuagenarian could be the nation’s first “<a href="https://www.nationalobserver.com/2022/09/09/news/can-charles-be-climate-king">climate king</a>.” After all, the heir to Britain’s throne has spent the last 50-odd years speaking out about climate change, pollution and deforestation. Much has been made of the new king’s penchant for <a href="https://www.washingtonpost.com/world/europe/prince-charles-farming/2021/07/14/cc0e514c-e49c-11eb-88c5-4fd6382c47cb_story.html?itid=lk_inline_manual_2">organic farming</a> and his <a href="https://www.bbc.com/news/scien

기계 학습을 용이하게 하기 위해 말뭉치를 구조화해야 합니다.

말뭉치에 포함된 언어를 분석할 때 원래 구조의 많은 부분도 보존해야 합니다.

문단은 문서 구조의 단위로 기능하며, 완전한 아이디어를 보존합니다.

첫 번째 단계는 텍스트 내에 나타나는 문단을 분리하는 것입니다.

HTML 문서에서 문단을 분리하는 `paras` 함수를 정의해 보겠습니다.

먼저, 문단을 분리하는데 사용할 `bs4` 라이브러리를 가져옵니다.

In [49]:
import bs4

텍스트 데이터가 포함된 태그를 식별합니다.

HTML 문단을 공식적으로 정의하는 요소인 `<p>` 태그를 검색하여 문단 내에 나타나는 콘텐츠를 분리할 수 있습니다.

In [50]:
tags = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

앞서 만든 `htmls` 리스트의 각 HTML 문서를 BeautifulSoup 생성자로 전달합니다.

lxml HTML 구문 분석기를 사용하여 HTML 문서를 구문 분석하도록 지정합니다.

결과 `soup`는 원래 HTML 태그와 요소를 사용하여 탐색할 수 있는 중첩된 트리 구조입니다.

각 문서 soup에 대해 해당 태그 내에서 텍스트를 생성합니다.

그런 다음 메모리를 확보하기 위해 각 파일에 대한 작업을 완료한 후 BeautifulSoup의 `decompose` 메서드를 호출하여 트리를 파괴할 수 있습니다.

In [51]:
def paras(htmls):
    for html in htmls:
        soup = bs4.BeautifulSoup(html, 'lxml')
        for element in soup.find_all(tags):
            yield element.text
        soup.decompose()

`paras` 함수에 문서를 받아 `paragraphs`라는 문단 리스트를 만들고 프린팅해 봅시다!

In [52]:
paragraphs = list(paras(htmls))
print(*paragraphs, sep='\n')

When King Charles III assumed the throne last week after the death of his mother, Britain’s longest-reigning monarch, some commentators were quick to point out that the septuagenarian could be the nation’s first “climate king.” After all, the heir to Britain’s throne has spent the last 50-odd years speaking out about climate change, pollution and deforestation. Much has been made of the new king’s penchant for organic farming and his outspoken support for climate action. Last year, at the United Nations climate conference in Glasgow, Scotland, he urged the assembled world leaders to adopt a “warlike footing” to address the rapidly warming planet.

But Charles’s environmental views are complex: He is both a classic environmentalist who loves nature, trees and wild animals, and a traditionalist who has battled against wind energy on his estate, flown around the world in a private jet and once critiqued the growth of population in the developing world. He represents some of the paradoxes 

그 문서의 101번째 문단과, 그 문단의 두 번째 문장을 프린팅해 보세요!

In [54]:
print("\nThe 3st paragraph of the document:\n", paragraphs[2])
print("\nThe second sentence of that paragraph:\n", paragraphs[2][1])


The 3st paragraph of the document:
 But Charles’s environmental views are complex: He is both a classic environmentalist who loves nature, trees and wild animals, and a traditionalist who has battled against wind energy on his estate, flown around the world in a private jet and once critiqued the growth of population in the developing world. He represents some of the paradoxes of a world coming to grips with climate change: a man with extreme wealth and a significant carbon footprint speaking out against global warming; a political figurehead with very little real political clout.

The second sentence of that paragraph:
 u


### Segmentation 분할

말뭉치를 문장 단위로 분할하는 `sents()` 함수를 정의하여 구문 분석해 봅시다.

토크나이저 모델을 `nltk` 라이브러리에서 내려 받습니다.

In [55]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ljj0512/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

`nltk` 라이브러리의 `sent_tokenize`를 불러옵니다.

In [56]:
from nltk import sent_tokenize

먼저, `sent_tokenize` 객체의 매개변수에 받은 문단을 문장 단위로 분할합니다.

그런 다음 분할된 문장들을 리스트에 반환할 수 있는 제너레이터를 반환합니다.

`for` 반복문를 사용하여 함수를 정의해 보세요.

In [57]:
def sents(paragraph):
    for sentence in sent_tokenize(paragraph):
        yield sentence

이제 리스트를 반환해서 분할된 문장들을 프린팅해 봅시다!

In [60]:
for para in paragraphs:
    print(list(sents(para)))
    print(len(list(sents(para))))

['When King Charles III assumed the throne last week after the death of his mother, Britain’s longest-reigning monarch, some commentators were quick to point out that the septuagenarian could be the nation’s first “climate king.” After all, the heir to Britain’s throne has spent the last 50-odd years speaking out about climate change, pollution and deforestation.', 'Much has been made of the new king’s penchant for organic farming and his outspoken support for climate action.', 'Last year, at the United Nations climate conference in Glasgow, Scotland, he urged the assembled world leaders to adopt a “warlike footing” to address the rapidly warming planet.']
3
[]
0
['But Charles’s environmental views are complex: He is both a classic environmentalist who loves nature, trees and wild animals, and a traditionalist who has battled against wind energy on his estate, flown around the world in a private jet and once critiqued the growth of population in the developing world.', 'He represents s

### Tokenization 토큰화

이번에는 정의한 `sent()` 함수를 사용하여 `words()` 함수를 정의하고 말뭉치를 단어 토큰으로 토큰화해 봅시다.

토크나이저 모델을 `nltk` 라이브러리에서 내려 받습니다.

In [61]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ljj0512/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

`nltk` 라이브러리의 `wordpunct_tokenize`를 불러옵니다.

In [62]:
from nltk import wordpunct_tokenize

먼저, 한 문단을 받아 앞서 정의한 `sent()` 함수로 분할된 문장을 반환합니다.

그런 다음 분할된 문장을 `wordpunct_tokenize` 객체의 매개변수에 받아 단어 단위로 토큰화합니다.

마지막으로, 단어 토큰들을 리스트에 반환할 수 있는 제너레이터를 반환합니다.

`for` 반복문를 사용하여 함수를 정의해 보세요.

In [63]:
def words(paragraph):
    for sentence in sents(paragraph):
        for word in wordpunct_tokenize(sentence):
            yield word

이제 리스트를 반환해서 단어 토큰들을 프린팅해 봅시다!

In [64]:
for para in paragraphs:
    print(list(words(para)))
    print(len(list(words(para))))

['When', 'King', 'Charles', 'III', 'assumed', 'the', 'throne', 'last', 'week', 'after', 'the', 'death', 'of', 'his', 'mother', ',', 'Britain', '’', 's', 'longest', '-', 'reigning', 'monarch', ',', 'some', 'commentators', 'were', 'quick', 'to', 'point', 'out', 'that', 'the', 'septuagenarian', 'could', 'be', 'the', 'nation', '’', 's', 'first', '“', 'climate', 'king', '.”', 'After', 'all', ',', 'the', 'heir', 'to', 'Britain', '’', 's', 'throne', 'has', 'spent', 'the', 'last', '50', '-', 'odd', 'years', 'speaking', 'out', 'about', 'climate', 'change', ',', 'pollution', 'and', 'deforestation', '.', 'Much', 'has', 'been', 'made', 'of', 'the', 'new', 'king', '’', 's', 'penchant', 'for', 'organic', 'farming', 'and', 'his', 'outspoken', 'support', 'for', 'climate', 'action', '.', 'Last', 'year', ',', 'at', 'the', 'United', 'Nations', 'climate', 'conference', 'in', 'Glasgow', ',', 'Scotland', ',', 'he', 'urged', 'the', 'assembled', 'world', 'leaders', 'to', 'adopt', 'a', '“', 'warlike', 'footing

### Part-of-Speech Tagging 품사 부착

지금까지 문단에서 문장으로, 문장에서 단어로 구문 분석해 보았습니다.

이제 토큰화된 단어가 어떤 품사인지 확인해 봅시다!

앞서 정의한 `sent()` 함수와 `wordpunct_tokenize()` 객체를 사용하여 `pos()` 함수를 정의하고 말뭉치의 단어 토큰에 품사를 부착해 봅시다.

품사를 부착할 태거 모델을 NLTK 라이브러리에서 내려 받습니다.

In [65]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/ljj0512/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

`nltk` 라이브러리의 `pos_tag`와 `wordpunct_tokenize`를 불러옵니다.

In [66]:
from nltk import pos_tag, wordpunct_tokenize

먼저, 정의한 `sent` 함수의 매개변수에 받은 문단을 문장 단위로 분할합니다.

그런 다음 분할된 문장을 받은 `wordpunct_tokenize` 객체를 `pos_tag` 객체의 매개변수에 받아 단어 토큰에 품사를 부착합니다.

마지막으로, 단어 토큰과 그 품사를 리스트에 반환할 수 있는 제너레이터를 반환합니다.

`for` 반복문를 사용하여 함수를 정의해 보세요.

In [67]:
def pos(paragraph):
    for sentence in sents(paragraph):
        for pos in pos_tag(wordpunct_tokenize(sentence)):
            yield pos

이제 리스트를 반환해서 단어 토큰과 품사 태그의 튜플들을 프린팅해 봅시다!

In [68]:
for para in paragraphs:
    print(list(pos(para)))

[('When', 'WRB'), ('King', 'VBG'), ('Charles', 'NNP'), ('III', 'NNP'), ('assumed', 'VBD'), ('the', 'DT'), ('throne', 'NN'), ('last', 'JJ'), ('week', 'NN'), ('after', 'IN'), ('the', 'DT'), ('death', 'NN'), ('of', 'IN'), ('his', 'PRP$'), ('mother', 'NN'), (',', ','), ('Britain', 'NNP'), ('’', 'NNP'), ('s', 'NN'), ('longest', 'JJS'), ('-', ':'), ('reigning', 'VBG'), ('monarch', 'NN'), (',', ','), ('some', 'DT'), ('commentators', 'NNS'), ('were', 'VBD'), ('quick', 'JJ'), ('to', 'TO'), ('point', 'VB'), ('out', 'RP'), ('that', 'IN'), ('the', 'DT'), ('septuagenarian', 'NN'), ('could', 'MD'), ('be', 'VB'), ('the', 'DT'), ('nation', 'NN'), ('’', 'NNP'), ('s', 'NN'), ('first', 'RB'), ('“', 'JJ'), ('climate', 'NN'), ('king', 'NN'), ('.”', 'NN'), ('After', 'IN'), ('all', 'DT'), (',', ','), ('the', 'DT'), ('heir', 'NN'), ('to', 'TO'), ('Britain', 'NNP'), ('’', 'NNP'), ('s', 'NN'), ('throne', 'NN'), ('has', 'VBZ'), ('spent', 'VBN'), ('the', 'DT'), ('last', 'JJ'), ('50', 'CD'), ('-', ':'), ('odd', 'J

오, 아직은 알 수 없는 알파벳들이 보입니다!

반환된 품사 태그가 무엇을 말하는지 확인하기 위해 Penn Treebank 태그세트를 확인해 봅시다.

Alphabetical list of part-of-speech tags used in the Penn Treebank Project

Penn Treebank 프로젝트에 사용된 품사 태그의 알파벳순 목록

| Number | Tag  | Description  |
|---|---|---|
| 1  | CC   | Coordinating conjunction |
| 2  | CD   | Cardinal number |
| 3  | DT   | Determiner |
| 4  | EX   | Existential there  |
| 5  | FW   | Foreign word  |
| 6  | IN	  | Preposition or subordinating conjunction  |
| 7  | JJ   | Adjective  |
| 8  | JJR  | Adjective, comparative  |
| 9  | JJS  | Adjective, superlative  |
| 10 | LS	  | List item marker    |
| 11 | MD	  | Modal  |
| 12 | NN	  | Noun, singular or mass  |
| 13 | NNS  | Noun, plural  |
| 14 | NNP  | Proper noun, singular  |
| 15 | NNPS	| Proper noun, plural   |
| 16 | PDT	| Predeterminer  |
| 17 | POS	| Possessive ending  |
| 18 | PRP  | Personal pronoun  |
| 19 | PRP\$ | Possessive pronoun  |
| 20 | RB	  | Adverb  |
| 21 | RBR	| Adverb, comparative  |
| 22 | RBS	| Adverb, superlative  |
| 23 | RP 	| Particle  |
| 24 | SYM	| Symbol    |
| 25 | TO	  | to    |
| 26 | UH   | Interjection  |
| 27 | VB   | Verb, base form |
| 28 | VBD	| Verb, past tense  |
| 29 | VBG	| Verb, gerund or present participle  |
| 30 | VBN	| Verb, past participle  |
| 31 | VBP	| Verb, non-3rd person singular present  |
| 32 | VBZ  | Verb, 3rd person singular present  |
| 33 | WDT	| Wh-determiner  |
| 34 | WP   | Wh-pronoun  |
| 35 | WP$	| Possessive wh-pronoun  |
| 36 | WRB	| Wh-adverb  |

### Corpus Analysis 말뭉치 분석

앞서 수행한 전처리 기법을 사용하여 말뭉치에 대한 기술 통계를 가져와 보겠습니다.


다시 한 번 앞서 수집한 HTML 텍스트 말뭉치를 사용자 지정 `HTMLCorpusReader` 클래스로 읽고, 구조화 한 다음, 문단 리스트를 만들어 봅시다.

In [99]:
import os
from nltk.corpus.reader.api import CorpusReader
from nltk.corpus.reader.api import CategorizedCorpusReader

In [100]:
CAT_PATTERN = r'([a-z_\s]+)/.*'
DOC_PATTERN = r'(?!\.)[a-z_\s]+/[a-f0-9]+\.html'
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

In [109]:
print(corpus.categories())
print(corpus.categories()[0])

['html', 'rss', 'textmining']
html


In [101]:
corpus = HTMLCorpusReader('', CAT_PATTERN, DOC_PATTERN, TAGS)
fileids = corpus.fileids()
documents = corpus.docs(categories=corpus.categories()[0])

In [102]:
from readability.readability import Unparseable
from readability.readability import Document

In [103]:
def html(documents):
    for doc in documents:
        try:
            yield Document(doc).summary()
        except Unparseable as e:
            print("Could not parse HTML: {}".format(e))
            continue

In [104]:
htmls = list(html(documents))

In [107]:
htmls

['<html><body></body></html>',
 '<html><body><div><div class="grid-body"><div class="teaser-content grid-center"><div class="article-body" data-qa="article-body"><p data-qa="drop-cap-letter" data-el="text" class="font-copy font--article-body gray-darkest ma-0 pb-md">When King Charles III assumed the throne last week after the death of his mother, Britain’s longest-reigning monarch, some commentators<b> </b>were quick to point out that the septuagenarian could be the nation’s first “<a href="https://www.nationalobserver.com/2022/09/09/news/can-charles-be-climate-king">climate king</a>.” After all, the heir to Britain’s throne has spent the last 50-odd years speaking out about climate change, pollution and deforestation. Much has been made of the new king’s penchant for <a href="https://www.washingtonpost.com/world/europe/prince-charles-farming/2021/07/14/cc0e514c-e49c-11eb-88c5-4fd6382c47cb_story.html?itid=lk_inline_manual_2">organic farming</a> and his <a href="https://www.bbc.com/news

In [96]:
import bs4

In [97]:
tags = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

In [98]:
def paras(htmls):
    for html in htmls:
        soup = bs4.BeautifulSoup(html, 'lxml')
        for element in soup.find_all(tags):
            yield element.text
        soup.decompose()

In [79]:
paragraphs = list(paras(htmls))

먼저, 시간을 계산하기 위한 `time`과, `nltk` 라이브러리를 불러옵니다.

In [80]:
import time
import nltk

데이터에 저장된 문서의 파일 및 그를 카테고리로 나눈 주제의 개수를 확인합니다.

`nltk`의 `FreqDist()` 객체를 사용하여 문서에서 문단, 문장 및 단어의 개수를 셉니다.

단어 토큰의 개수로 문서에서 사용된 vocabulary 어휘의 크기를 잽니다.

사용된 vocabulary 어휘에 비해 lexical diversity 어휘 다양성을 알아 봅니다.

한 문서 당 평균 문단의 개수와, 한 문단 당 평균 문장의 개수를 확인합니다.

마지막으로 이 모든 작업을 수행하는 데 걸리는 시간을 계산해 봅니다.

In [93]:
categories = corpus.categories()
print(categories)

['data', 'exercises', 'libraries', 'notebooks']


In [94]:
def describe(paragraphs):
    started = time.time()

    counts  = nltk.FreqDist()
    tokens  = nltk.FreqDist()

    for para in paragraphs:
        counts['paras'] += 1

        for sent in nltk.sent_tokenize(para):
            counts['sents'] += 1

            for word in nltk.wordpunct_tokenize(sent):
                counts['words'] += 1
                tokens[word] += 1

    n_fileids = len(fileids)
    n_topics  = len(categories)

    return {
        'files':  n_fileids,
        'topics': n_topics,
        'paragraphs':  counts['paras'],
        'sentences':  counts['sents'],
        'words':  counts['words'],
        'vocabulary size':  len(tokens),
        'lexical diversity': float(counts['words']) / float(len(tokens)),
        'paragraphs per document':  float(counts['paras']) / float(n_fileids),
        'sentences per paragraph':  float(counts['sents']) / float(counts['paras']),
        'secs':   time.time() - started,
    }

정의한 `describe` 함수에 문단을 받아, 그 문단이 속한 데이터에 저장된 문서의 파일과 각 문단에 대한 기술 통계를 확인해 봅시다!

In [95]:
describe(paragraphs)

{'files': 25701,
 'topics': 4,
 'paragraphs': 19,
 'sentences': 48,
 'words': 1471,
 'vocabulary size': 600,
 'lexical diversity': 2.4516666666666667,
 'paragraphs per document': 0.0007392708454923933,
 'sentences per paragraph': 2.526315789473684,
 'secs': 0.010227680206298828}

## Vectorization 벡터화

텍스트에서 기계 학습을 수행하려면 문서를 기계 학습을 적용할 수 있도록 벡터 표현으로 변환해야 합니다.

이 섹션에서는 이러한 방법 중 몇 가지를 살펴보고 Scikit-Learn, Gensim 및 NLTK에서의 구현에 대해 논의합니다.

먼저, 벡터 표현으로 변환할 문서를 불러 와 봅시다!

In [47]:
corpus = [
    "Call me Ishmael.", 
    "Some years ago--never mind how long precisely--having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.", 
    "It is a way I have of driving off the spleen and regulating the circulation.",
    ]

빠른 설정으로 이러한 문서 목록을 만들고 진행 중인 벡터화 예제를 위해 토큰화해 보겠습니다.

토크나이저 모델을 `nltk` 라이브러리에서 내려 받습니다.

In [48]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ljj0512/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

`nltk`와 `string` 라이브러리를 불러옵니다.

In [49]:
import nltk
import string

여기에서 토큰화 방법은 `string.punctuation`을 사용하여 구두점을 제거하고 텍스트를 소문자로 설정하여 간단한 정규화를 수행합니다.

또한 이 함수는 `stem.SnowballStemmer`를 사용하여 일부 특성 축소를 수행하여 복수("cats"와 "cat"는 동일한 토큰임)와 같은 접미사를 제거합니다.

마지막으로, 토큰을 리스트에 반환할 수 있는 제너레이터를 반환합니다.

`for` 반복문과 `if` 조건문을 사용하여 함수를 정의해 보세요.

In [50]:
def tokenize(text):
    stem = nltk.stem.SnowballStemmer('english')
    text = text.lower()

    for token in nltk.word_tokenize(text):
        if token in string.punctuation: continue
        yield stem.stem(token)

이제 `for` 반복문을 사용하여 말뭉치 토큰을 반환해서 프린팅해 봅시다!

In [51]:
for sent in corpus:
    for tok in tokenize(sent):
        print(tok)

call
me
ishmael
some
year
ago
--
never
mind
how
long
precis
--
have
littl
or
no
money
in
my
purs
and
noth
particular
to
interest
me
on
shore
i
thought
i
would
sail
about
a
littl
and
see
the
wateri
part
of
the
world
it
is
a
way
i
have
of
drive
off
the
spleen
and
regul
the
circul


### Frequency Vectors 빈도 벡터

가장 간단한 벡터 인코딩 모델은 문서에 나타나는 각 단어의 빈도로 벡터를 채우는, 단어 수의 벡터입니다.

NLTK를 사용하여 키가 특성의 이름이고 값이 참 또는 거짓이거나 숫자인 dict 객체로 특성을 기대합니다.

`defaultdict` 객체를 사용하면 아직 할당되지 않은 키에 대해 딕셔너리가 반환할 내용을 지정할 수 있습니다.

먼저, `collection` 라이브러리의 `defaultdict` 객체를 불러옵니다.

In [52]:
from collections import defaultdict

`defaultdict` 객체를 사용하여 `nltk_frequency_vectorize` 함수를 정의합니다.

In [53]:
def nltk_frequency_vectorize(corpus):

    def vectorize(doc):
        features = defaultdict(int)

        for token in tokenize(doc):
            features[token] += 1

        return features

    return map(vectorize, corpus)

이제 결과를 프린팅해 봅시다!

In [54]:
print(*list(nltk_frequency_vectorize(corpus)), sep='\n')

defaultdict(<class 'int'>, {'call': 1, 'me': 1, 'ishmael': 1})
defaultdict(<class 'int'>, {'some': 1, 'year': 1, 'ago': 1, '--': 2, 'never': 1, 'mind': 1, 'how': 1, 'long': 1, 'precis': 1, 'have': 1, 'littl': 2, 'or': 1, 'no': 1, 'money': 1, 'in': 1, 'my': 1, 'purs': 1, 'and': 2, 'noth': 1, 'particular': 1, 'to': 1, 'interest': 1, 'me': 1, 'on': 1, 'shore': 1, 'i': 2, 'thought': 1, 'would': 1, 'sail': 1, 'about': 1, 'a': 1, 'see': 1, 'the': 2, 'wateri': 1, 'part': 1, 'of': 1, 'world': 1})
defaultdict(<class 'int'>, {'it': 1, 'is': 1, 'a': 1, 'way': 1, 'i': 1, 'have': 1, 'of': 1, 'drive': 1, 'off': 1, 'the': 2, 'spleen': 1, 'and': 1, 'regul': 1, 'circul': 1})


Scikit-Learn 방법에는 텍스트를 벡터화하는 변환기의 사용이 포함됩니다.

`feature_extraction` 모듈의 `CountVectorizer`에는 자체 내부 토큰화 및 정규화 방법이 있습니다.

`CountVectorizer`는 다음과 같이 동시에 호출할 수 있는 `fit` 및 `transform`의 두 가지 메서드를 구현합니다.

먼저, `sklearn` 라이브러리의 `CountVectorizer`를 불러옵니다.

In [55]:
from sklearn.feature_extraction.text import CountVectorizer

`CountVectorizer`를 사용하여 `sklearn_frequency_vectorize` 함수를 정의합니다.

In [56]:
def sklearn_frequency_vectorize(corpus):
    vectorizer = CountVectorizer()
    return vectorizer.fit_transform(corpus)

이제 결과를 프린팅해 봅시다!

In [61]:
# print(sklearn_frequency_vectorize(corpus))
print(sklearn_frequency_vectorize(corpus).toarray()[0])


[0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0]


Gensim에는 `doc2bow`라는 빈도 인코더가 있지만, 토큰화 또는 형태소 분석을 위해 작동하지 않습니다.

말뭉치를 읽을 때 토큰이 관찰되는 순서에 따라 특정 인덱스에 매핑하는 `Dictionary`를 만듭니다.

Gensim 벡터화 모델은 다음과 같습니다.

먼저, `gensim` 라이브러리를 불러옵니다.

In [157]:
corpus = [
    "Call me Ishmael.", 
    # "Some years ago--never mind how long precisely--having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.", 
    "It is a way I have of driving off the spleen and regulating the circulation me.",
    ]
tokenized_corpus = [list(tokenize(doc)) for doc in corpus]
print(tokenized_corpus)
id2word = gensim.corpora.Dictionary(tokenized_corpus)
print(id2word[1])
print(id2word[2])
print(id2word[3])
vectors = [id2word.doc2bow(doc) for doc in tokenized_corpus]
print(len(vectors))
print(vectors[0])
print(len(vectors[0]))
print(vectors[1])
print(len(vectors[1]))

[['call', 'me', 'ishmael'], ['it', 'is', 'a', 'way', 'i', 'have', 'of', 'drive', 'off', 'the', 'spleen', 'and', 'regul', 'the', 'circul', 'me']]
ishmael
me
a
2
[(0, 1), (1, 1), (2, 1)]
3
[(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 2), (16, 1)]
15


In [62]:
import gensim

`gensim.corpora.Dictionary`를 사용하여 `gensim_frequency_vectorize` 함수를 정의합니다.

In [63]:
def gensim_frequency_vectorize(corpus):    
    tokenized_corpus = [list(tokenize(doc)) for doc in corpus]
    id2word = gensim.corpora.Dictionary(tokenized_corpus)
    vectors = [id2word.doc2bow(doc) for doc in tokenized_corpus]
    return vectors

이제 결과를 프린팅해 봅시다!

In [64]:
tokenized_corpus = [list(tokenize(doc)) for doc in corpus]
for i in tokenized_corpus:
    print(i)

['call', 'me', 'ishmael']
['some', 'year', 'ago', '--', 'never', 'mind', 'how', 'long', 'precis', '--', 'have', 'littl', 'or', 'no', 'money', 'in', 'my', 'purs', 'and', 'noth', 'particular', 'to', 'interest', 'me', 'on', 'shore', 'i', 'thought', 'i', 'would', 'sail', 'about', 'a', 'littl', 'and', 'see', 'the', 'wateri', 'part', 'of', 'the', 'world']
['it', 'is', 'a', 'way', 'i', 'have', 'of', 'drive', 'off', 'the', 'spleen', 'and', 'regul', 'the', 'circul']


In [82]:
corpus = [
    "Call me Ishmael.", 
    "Some years ago--never mind how long precisely--having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.", 
    "It is a way I have of driving off the spleen and regulating the circulation.",
    ]
id2word = gensim.corpora.Dictionary(tokenized_corpus)
vectors = [id2word.doc2bow(doc) for doc in tokenized_corpus]
print(id2word.token2id)
print(id2word.doc2bow(tokenized_corpus[0]))
print()
print(vectors)
print()
print(*gensim_frequency_vectorize(corpus), sep='\n')
# print(*gensim_frequency_vectorize(corpus), sep='\n')

####################################################################################################
## doc2bow(document, allow_update=False, return_missing=False)
## Convert document into the bag-of-words (BoW) format = list of (token_id, token_count) tuples.

{'call': 0, 'ishmael': 1, 'me': 2, '--': 3, 'a': 4, 'about': 5, 'ago': 6, 'and': 7, 'have': 8, 'how': 9, 'i': 10, 'in': 11, 'interest': 12, 'littl': 13, 'long': 14, 'mind': 15, 'money': 16, 'my': 17, 'never': 18, 'no': 19, 'noth': 20, 'of': 21, 'on': 22, 'or': 23, 'part': 24, 'particular': 25, 'precis': 26, 'purs': 27, 'sail': 28, 'see': 29, 'shore': 30, 'some': 31, 'the': 32, 'thought': 33, 'to': 34, 'wateri': 35, 'world': 36, 'would': 37, 'year': 38, 'circul': 39, 'drive': 40, 'is': 41, 'it': 42, 'off': 43, 'regul': 44, 'spleen': 45, 'way': 46}
[(0, 1), (1, 1), (2, 1)]

[[(0, 1), (1, 1), (2, 1)], [(2, 1), (3, 2), (4, 1), (5, 1), (6, 1), (7, 2), (8, 1), (9, 1), (10, 2), (11, 1), (12, 1), (13, 2), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1), (32, 2), (33, 1), (34, 1), (35, 1), (36, 1), (37, 1), (38, 1)], [(4, 1), (7, 1), (8, 1), (10, 1), (21, 1), (32, 2), (39, 1), (40, 1

### One-Hot Encoding 원-핫 인코딩

원-핫 인코딩은 문서에 특정 벡터 인덱스의 토큰이 있으면 해당 요소가 true로 표시되고 그렇지 않으면 false로 표시되는 부울 벡터 인코딩입니다.

원-핫 인코딩된 벡터의 각 요소는 단순히 설명된 텍스트에서 토큰의 존재 여부를 반영하여 빈도 기반 인코딩 방법의 문제를 해결합니다.

원-핫 인코딩의 NLTK 구현은 단순히 키가 토큰이고 값이 True인 딕셔너리입니다.

In [83]:
def nltk_one_hot_vectorize(corpus):

    def vectorize(doc):
        return {
            token: True
            for token in tokenize(doc)
        }

    return map(vectorize, corpus)

이제 결과를 프린팅해 봅시다!

In [84]:
print(*list(nltk_one_hot_vectorize(corpus)), sep='\n')

{'call': True, 'me': True, 'ishmael': True}
{'some': True, 'year': True, 'ago': True, '--': True, 'never': True, 'mind': True, 'how': True, 'long': True, 'precis': True, 'have': True, 'littl': True, 'or': True, 'no': True, 'money': True, 'in': True, 'my': True, 'purs': True, 'and': True, 'noth': True, 'particular': True, 'to': True, 'interest': True, 'me': True, 'on': True, 'shore': True, 'i': True, 'thought': True, 'would': True, 'sail': True, 'about': True, 'a': True, 'see': True, 'the': True, 'wateri': True, 'part': True, 'of': True, 'world': True}
{'it': True, 'is': True, 'a': True, 'way': True, 'i': True, 'have': True, 'of': True, 'drive': True, 'off': True, 'the': True, 'spleen': True, 'and': True, 'regul': True, 'circul': True}


Scikit-Learn에서 원-핫 인코딩은 전처리 모듈의 `Binarizer`로 구현됩니다.

`Binarizer`는 숫자 데이터만 사용하므로 원-핫 인코딩 전에 `CountVectorizer`를 사용하여 텍스트 데이터를 숫자 공간으로 변환해야 합니다.

먼저, `sklearn` 라이브러리의 `CountVectorizer`와 `Binarizer`를 불러옵니다.

In [85]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import Binarizer

`CountVectorizer`와 `Binarizer`를 사용하여 `sklearn_one_hot_vectorize` 함수를 정의합니다.

In [94]:
def sklearn_one_hot_vectorize(corpus):
    freq    = CountVectorizer()
    vectors = freq.fit_transform(corpus)
    print(len(vectors.toarray()[1]))
    print(type(vectors.toarray()[1]))
    print((vectors.toarray()[1]))

    onehot  = Binarizer()
    vectors = onehot.fit_transform(vectors.toarray())
    print(len(vectors[1]))
    print(type(vectors[1]))
    print((vectors[1]))
    # return vectors

이제 결과를 프린팅해 봅시다!

In [95]:
sklearn_one_hot_vectorize(corpus)

45
<class 'numpy.ndarray'>
[1 1 2 0 0 0 0 1 1 1 1 0 0 0 2 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0
 2 1 1 1 0 1 1 1]
45
<class 'numpy.ndarray'>
[1 1 1 0 0 0 0 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0
 1 1 1 1 0 1 1 1]


Gensim에는 라이브러리 원-핫 인코더가 없지만 `doc2bow` 메서드는 즉석에서 관리할 수 있는 튜플 목록을 반환합니다.

빈도 벡터화 예제에서 코드를 확장하면 다음과 같이 Gensim 딕셔너리를 원-핫 인코딩에 사용할 수 있습니다.

먼저, `gensim`와 `numpy` 라이브러리를 불러옵니다.

In [165]:
import gensim
import numpy as np

`gensim.corpora.Dictionary`를 사용하여 `gensim_one_hot_vectorize` 함수를 정의합니다.

In [166]:
def gensim_one_hot_vectorize(corpus):

    tokenized_corpus  = [list(tokenize(doc)) for doc in corpus]
    id2word = gensim.corpora.Dictionary(tokenized_corpus)
    vectors  = np.array([
        [(token[0], 1) for token in id2word.doc2bow(doc)]

        for doc in tokenized_corpus
    ])
    
    return vectors

이제 결과를 프린팅해 봅시다!

In [167]:
print(gensim_one_hot_vectorize(corpus))

[list([(0, 1), (1, 1), (2, 1)])
 list([(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1), (35, 1), (36, 1), (37, 1), (38, 1)])
 list([(4, 1), (7, 1), (8, 1), (10, 1), (21, 1), (32, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 1)])]


  vectors  = np.array([


### Term Frequency – Inverse Document Frequency (TF-IDF) 단어 빈도 - 역 문서 빈도

TF-IDF(단어 빈도 - 역 문서 빈도) 인코딩은 말뭉치의 나머지와 관련하여 문서의 토큰 빈도를 정규화합니다.

NLTK로 텍스트를 벡터화하려면 텍스트 목록 또는 하나 이상의 텍스트로 구성된 말뭉치를 감싸는 `TextCollection` 클래스를 사용해야 합니다.


이 클래스는 계산, 일치, 배열 검색 및 그 보다 더 중요한 `tf_idf` 계산을 지원합니다.

먼저, `nltk` 라이브러리의 `TextCollection`을 불러옵니다.

In [3]:
from nltk.text import TextCollection

`TextCollection`을 사용하여 `nltk_tfidf_vectorize` 함수를 정의합니다.

In [4]:
def nltk_tfidf_vectorize(corpus):

    tokenized_corpus = [list(tokenize(doc)) for doc in corpus]
    texts = TextCollection(tokenized_corpus)

    for doc in tokenized_corpus:
        yield {
            term: texts.tf_idf(term, doc)
            for term in doc
        }

이제 결과를 프린팅해 봅시다!

In [9]:
import nltk
import string
def tokenize(text):
    stem = nltk.stem.SnowballStemmer('english')
    text = text.lower()

    for token in nltk.word_tokenize(text):
        if token in string.punctuation: continue
        yield stem.stem(token)

corpus = [
    "Call me Ishmael.", 
    # "Some years ago--never mind how long precisely--having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.", 
    "It is a way I have of driving off the spleen and regulating the circulation.",
]
for toks in nltk_tfidf_vectorize(corpus):
  print(toks)

{'call': 0.23104906018664842, 'me': 0.23104906018664842, 'ishmael': 0.23104906018664842}
{'it': 0.046209812037329684, 'is': 0.046209812037329684, 'a': 0.046209812037329684, 'way': 0.046209812037329684, 'i': 0.046209812037329684, 'have': 0.046209812037329684, 'of': 0.046209812037329684, 'drive': 0.046209812037329684, 'off': 0.046209812037329684, 'the': 0.09241962407465937, 'spleen': 0.046209812037329684, 'and': 0.046209812037329684, 'regul': 0.046209812037329684, 'circul': 0.046209812037329684}


Scikit-Learn은 TF-IDF 점수로 문서를 벡터화하기 위해 `feature_extraction.text` 모듈에 `TfidfVectorizer`를 제공합니다.

먼저, `sklearn` 라이브러리의 `TfidfVectorizer`를 불러옵니다.

In [118]:
from sklearn.feature_extraction.text import TfidfVectorizer

`TfidfVectorizer`를 사용하여 `sklearn_tfidf_vectorize` 함수를 정의합니다.

In [119]:
def sklearn_tfidf_vectorize(corpus):
    tfidf = TfidfVectorizer()
    return tfidf.fit_transform(corpus)

이제 결과를 프린팅해 봅시다!

In [124]:
print(*sklearn_tfidf_vectorize(corpus).toarray(), sep='\n\n')

[0.         0.         0.         0.62276601 0.         0.
 0.         0.         0.         0.         0.         0.
 0.62276601 0.         0.         0.         0.4736296  0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.        ]

[0.16057345 0.16057345 0.24424049 0.         0.         0.
 0.         0.16057345 0.16057345 0.16057345 0.16057345 0.
 0.         0.         0.32114689 0.16057345 0.12212025 0.16057345
 0.16057345 0.16057345 0.16057345 0.16057345 0.16057345 0.12212025
 0.         0.16057345 0.16057345 0.16057345 0.16057345 0.16057345
 0.16057345 0.         0.16057345 0.16057345 0.16057345 0.16057345
 0.         0.24424049 0.16057345 0.16057345 0.16057345 0.
 0.16057345 0.16057345 0.16057345]

[0.         0.         0.21536434 0.         0.28317823 0.28317823
 0.

Gensim에서 `TfidfModel` 데이터 구조는 단어와 해당 벡터 위치를 매핑한 것을 관찰된 순서대로 저장한다는 점에서 `Dictionary` 객체와 유사합니다.

게다가 요청 시 문서를 벡터화할 수 있도록 해당 단어의 말뭉치 빈도를 추가로 저장합니다.

먼저, `gensim` 라이브러리를 불러옵니다.

In [177]:
import gensim

`gensim.corpora.Dictionary`와 `gensim.models.TfidfModel`를 사용하여 `sklearn_tfidf_vectorize` 함수를 정의합니다.

In [178]:
def gensim_tfidf_vectorize(corpus):
    tokenized_corpus = [list(tokenize(doc)) for doc in corpus]
    lexicon = gensim.corpora.Dictionary(tokenized_corpus)

    tfidf = gensim.models.TfidfModel(dictionary=lexicon, normalize=True)
    vectors = [tfidf[lexicon.doc2bow(doc)] for doc in tokenized_corpus]

    return vectors

이제 결과를 프린팅해 봅시다!

In [179]:
print(*gensim_tfidf_vectorize(corpus), sep='\n')

[(0, 0.6841916012796777), (1, 0.6841916012796777), (2, 0.25251476288862984)]
[(2, 0.059730266675101486), (3, 0.32367966398324194), (4, 0.059730266675101486), (5, 0.16183983199162097), (6, 0.16183983199162097), (7, 0.11946053335020297), (8, 0.059730266675101486), (9, 0.16183983199162097), (10, 0.11946053335020297), (11, 0.16183983199162097), (12, 0.16183983199162097), (13, 0.32367966398324194), (14, 0.16183983199162097), (15, 0.16183983199162097), (16, 0.16183983199162097), (17, 0.16183983199162097), (18, 0.16183983199162097), (19, 0.16183983199162097), (20, 0.16183983199162097), (21, 0.059730266675101486), (22, 0.16183983199162097), (23, 0.16183983199162097), (24, 0.16183983199162097), (25, 0.16183983199162097), (26, 0.16183983199162097), (27, 0.16183983199162097), (28, 0.16183983199162097), (29, 0.16183983199162097), (30, 0.16183983199162097), (31, 0.16183983199162097), (32, 0.11946053335020297), (33, 0.16183983199162097), (34, 0.16183983199162097), (35, 0.16183983199162097), (36, 0.1

# 예제: 특정 도메인 웹사이트에서 웹 크롤링과 전처리, 그리고 벡터화 하기

도메인에 특화된 코퍼스를 확보하는 것은 언어 인식 데이터를 만드는 데 필수적입니다.

우리의 언어 모델에 충분한 훈련 예시를 제공하려면 매우 큰 코퍼스가 필요합니다.

도메인의 특이성을 높이면 말뭉치의 양을 줄이는 것은 시간 문제입니다.

지금까지 배운 것을 응용하여 관심있는 도메인에 특화된 웹사이트에서 텍스트 데이터를 수집하여 전처리하고 벡터화 해봅시다!

현재 디렉토리의 경로를 지정합니다.

In [None]:
%cd /content
# 세션 저장소에서 현재 디렉토리의 경로입니다.
# 구글 드라이브를 마운팅하여 구글 드라이브를 저장공간으로 사용할 수 있습니다. 자세한 내용은 메뉴 'Help' > 'Search code snippets' > 'mount' 검색

먼저, 앞서 배운 것을 응용하여 HTML로 텍스트 데이터를 수집하는 함수를 정의해 봅시다!

사용할 라이브러리를 설치하려면 다음 명령을 실행하세요.

In [None]:
# 앞서 배운 내용을 참고하여 사용할 라이브러리를 설치해 보세요.

사용할 라이브러리들을 불러옵니다.

In [10]:
# 라이브러리들을 불러와 보세요.
import os
import bs4
import requests
import feedparser
import re
import string
import time
import nltk
nltk.download('punkt')
from slugify import slugify
from nltk import sent_tokenize
from nltk.corpus.reader.api import CorpusReader
from nltk.corpus.reader.api import CategorizedCorpusReader
from readability.readability import Unparseable
from readability.readability import Document

[nltk_data] Downloading package punkt to /home/ljj0512/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


관심있는 도메인을 정하여 문자열인 도메인 이름을 할당하여 변수 `domain_name`를 선언합니다.

변수 `domain_name`를 사용하여 지정된 경로의 저장공간에 HTML을 저장할 폴더를 만듭니다.

해당 도메인에 특화된 웹사이트를 선택하여 수집할 웹사이트 URL 리스트를 할당하여 변수 `sources`를 선언합니다.

웹사이트에서 얻은 HTML을 텍스트로 바꿔 저장하는 함수를 정의합니다.

In [11]:
############## meta data #############
domain_name = "Finance" # 관심있는 도메인의 이름
sources = [
    "https://www.koreatimes.co.kr/www/section_602.html",
    "http://www.koreaherald.com/list.php?ct=021900000000",
    "http://www.theinvestor.co.kr/",
] # 관심있는 도메인에 특화된 여러 웹사이트 URL
######################################

domain_folder_path = os.getcwd() + '/' + domain_name

if not os.path.exists(domain_name):
    os.mkdir(domain_name)

TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'h7', 'p', 'li']

site_name_list = [] # 웹사이트 이름들을 리스트로 할당하기 위해 빈 리스트를 만듭니다.
path_list = [] # 파일 경로들을 리스트로 할당하기 위해 빈 리스트를 만듭니다.

def crawl_html_to_text(url):
    # 웹사이트에서 HTML을 가져오고 그것을 텍스트로 바꿔 저장하는 함수를 정의해 보세요.
    global domain_folder_path, domain_name, site_name_list, path_list
    
    # site의 domain, resource name 추출
    tmp = url.split("//")
    protocol = tmp[0]   # protocol 저장
    site_name = tmp[-1].split("/")[0].split(".")[1]   # domain name of the site 저장
    site_resource = tmp[-1].split("/")[0]   # resource name of the site 저장
    site_name_list.append(site_name)

    # site 이름으로 folder를 만듬, html로 txt폴더 나눔
    if not os.path.exists(f"./{domain_name}/{site_name}"):
        os.mkdir(f"./{domain_name}/{site_name}")
    if not os.path.exists(f"./{domain_name}/{site_name}/html"):
        os.mkdir(f"./{domain_name}/{site_name}/html")
    if not os.path.exists(f"./{domain_name}/{site_name}/txt"):
        os.mkdir(f"./{domain_name}/{site_name}/txt")

    # site에서 html 가져온 후 parsing
    html = requests.get(url).content
    soup = bs4.BeautifulSoup(html, "lxml")
    links = set(soup.find_all('a',href=True))

    # sub_url 값 추출
    max_sub_urls = 5    # 기본 url에서 sub url을 이 값에 따라 추출
    sub_urls = [url]
    filename_list = ['main']
    for i, link in enumerate(links):
        if i == max_sub_urls:
            break
        # 앞 http또는 https가 들어가있는 hyper link는 사이트의 내용과는 관계없는 경우가 많아 이를 제외
        if not re.search('(https?:)', link['href']):
            sub_urls.append(f"{protocol}//{site_resource}{link['href']}")
            if link.string == None:
                filename_list.append(
                    slugify(str(link.string)+str(i)).lower()
                )
            else:
                filename_list.append(
                    slugify(str(link.string)).lower()
                )
    
    for sub_url, filename in zip(sub_urls, filename_list):
        try:
            # print(sub_url)
            page = requests.get(sub_url).content
            path = domain_folder_path + "/" + site_name
            path_list.append(path)
            # store origin html file in html folder
            path = domain_folder_path + "/" + site_name + "/" + "html" + "/" + filename + ".html"
            with open(path, "wb") as f:
                f.write(page)
            # store txt file in txt folder
            path = domain_folder_path + "/" + site_name + "/" + "txt" + "/" + filename + ".txt"
            with open(path, "wb") as f:
                f.write(page)
        except:
            print(f"********* Error occur at ({sub_url}) *********")


저장한 파일의 문서에서 문단을 분리하고 전처리하여 각 문단에 대한 기술 통계를 확인하는 함수를 정의합니다.

In [12]:
CAT_PATTERN = r'([a-z_\s]+)/.*' #r'([a-z_\s]+)/.*'
DOC_PATTERN = r'.+\.html'
TAGS = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']

class HTMLCorpusReader(CategorizedCorpusReader, CorpusReader):
    """
    A corpus reader for raw HTML documents to enable preprocessing.
    """

    def __init__(self, root, fileids=DOC_PATTERN, encoding='utf8',
                 tags=TAGS, **kwargs):
        # print('root:',root)
        # print('fileids:',fileids)
        # print('tags:',tags)

        """
        Initialize the corpus reader.  Categorization arguments
        (``cat_pattern``, ``cat_map``, and ``cat_file``) are passed to
        the ``CategorizedCorpusReader`` constructor.  The remaining
        arguments are passed to the ``CorpusReader`` constructor.
        """
        # Add the default category pattern if not passed into the class.
        if not any(key.startswith('cat_') for key in kwargs.keys()):
            kwargs['cat_pattern'] = CAT_PATTERN
        
        # print('kwargs:',kwargs)
        
        # Initialize the NLTK corpus reader objects
        CategorizedCorpusReader.__init__(self, kwargs)
        CorpusReader.__init__(self, root, fileids, encoding)

        # Save the tags that we specifically want to extract.
        self.tags = tags

    def resolve(self, fileids, categories):
        """
        Returns a list of fileids or categories depending on what is passed
        to each internal corpus reader function. Implemented similarly to
        the NLTK ``CategorizedPlaintextCorpusReader``.
        """
        if fileids is not None and categories is not None:
            raise ValueError("Specify fileids or categories, not both")

        if categories is not None:
            return self.fileids(categories)
        return fileids

    def docs(self, fileids=None, categories=None):
        """
        Returns the complete text of an HTML document, closing the document
        after we are done reading it and yielding it in a memory safe fashion.
        """
        # Resolve the fileids and the categories
        fileids = self.resolve(fileids, categories)

        # Create a generator, loading one document into memory at a time.
        for path in self.abspaths(fileids):
            with open(path, 'r') as f:
                yield f.read()

    def sizes(self, fileids=None, categories=None):
        """
        Returns a list of tuples, the fileid and size on disk of the file.
        This function is used to detect oddly large files in the corpus.
        """
        # Resolve the fileids and the categories
        fileids = self.resolve(fileids, categories)

        # Create a generator, getting every path and computing filesize
        for path in self.abspaths(fileids):
            yield os.path.getsize(path)


In [14]:
def paras(docs):
    # 문서에서 문단을 분리하는 함수를 정의해 보세요.
    
    # 필요없는 테그들의 내용들을 없앤다.
    def gener(docs):
        for doc in docs:
            try:
                yield Document(doc).summary()
            except Unparseable as e:
                print("Could not parse HTML: {}".format(e))
                continue
    docs = list(gener(docs))
    print(len(docs))
    
    # tags에 해당하는 tag 안에 내용을 추출
    tags = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'li']
    for doc in docs:
        soup = bs4.BeautifulSoup(doc, 'lxml')
        for element in soup.find_all(tags):
            yield element.text
        soup.decompose()    



def describe(paragraphs, corpus):
    started = time.time() # 현 시점의 시간을 할당합니다.
    # 앞서 배운 내용을 참고하여 각 문단에 대한 기술 통계를 확인하는 함수를 정의해 보세요.

    counts = nltk.FreqDist()
    tokens = nltk.FreqDist()

    for para in paragraphs:
        counts['paras'] += 1

        for sent in nltk.sent_tokenize(para):
            counts['sents'] += 1

            for word in nltk.wordpunct_tokenize(sent):
                counts['words'] += 1
                tokens[word] += 1
    
    n_fileids = len(corpus.fileids())
    n_topics = len(corpus.categories())

    return {
        '# of files': n_fileids,
        '# of topics': n_topics,
        '# of paragraphs': counts['paras'],
        '# of sentences': counts['sents'],
        '# of words': counts['words'],
        'vocabulary size': len(tokens), # 중복 단어 제거 시 실 언휘 수
        'lexical diversity': float(counts['words']) / float(len(tokens)),
        'paragraphs per document':  float(counts['paras']) / float(n_fileids),
        'sentences per paragraph':  float(counts['sents']) / float(counts['paras']),
        'secs':   time.time() - started,
    }

그런 다음, 텍스트 데이터를 TF-IDF 인코딩으로 벡터화하는 함수를 정의해 봅시다!

다양한 기계 학습 알고리즘을 구현하는 `sklearn` 라이브러리를 사용하여 기계 학습을 수행하는 데 한 발짝 더 다가가 봅시다.

In [15]:
# TF-IDF 인코딩을 제공하는 sklean 라이브러리의 메서드를 불러와 보세요.
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

`sklearn` 라이브러리를 사용하여 문서를 벡터화하는 함수를 정의합니다.

In [16]:
def tfidf_vectorize(paragraphs):
    # sklean 라이브러리의 메서드를 사용하여 문서를 벡터화하는 함수를 정의해 보세요.
    tfidf = TfidfVectorizer()
    return tfidf.fit_transform(paragraphs)#tfidf.get_feature_names_out()

이제 앞에서 정의한 함수들을 실행하여 문서를 구문 분석하고 벡터화한 결과를 확인해 봅시다!

In [None]:
# for 반복문을 사용하여 웹사이트 URL을 하나씩 받아 HTML을 가져오고 텍스트로 바꿔 저장해 봅시다.
# print()를 사용하여 관심있는 도메인의 이름, 파일 아이디 개수, 크롤링한 웹사이트 개수 등을 프린팅해 봅시다.
# for 반복문을 사용하여 저장한 문서를 하나씩 받아 구조화 한 다음, 웹사이트 이름과 분리된 각 문단에 대한 기술 통계 및 벡터 값을 프린팅해 봅시다.
for url in sources:
    crawl_html_to_text(url)

In [17]:
corpus = HTMLCorpusReader(domain_name, fileids=DOC_PATTERN, tags=TAGS, cat_pattern=CAT_PATTERN)
# print(len(corpus.categories()))
# print((corpus.categories()))
# print(len(corpus.fileids()))
# print((corpus.fileids()))
# print()

In [18]:
docs = corpus.docs(categories=corpus.categories()[0])
paragraphs = list(paras(docs))
# for para in paragraphs:
#     print(para)
#     print("*"*100)



9


In [129]:
# for para in paragraphs:
#     for sent in nltk.sent_tokenize(para):
#         print(sent)
#         print("*"*50)

In [130]:
# for para in paragraphs:
#     for sent in nltk.sent_tokenize(para):
#         for word in nltk.word_tokenize(sent):
#             print(word)
#             print("*"*50)

In [19]:
describe(paragraphs, corpus)

{'# of files': 27,
 '# of topics': 3,
 '# of paragraphs': 57,
 '# of sentences': 79,
 '# of words': 1844,
 'vocabulary size': 725,
 'lexical diversity': 2.543448275862069,
 'paragraphs per document': 2.111111111111111,
 'sentences per paragraph': 1.3859649122807018,
 'secs': 0.015830278396606445}

In [147]:
tfidf = tfidf_vectorize(paragraphs)
print(tfidf)

  (0, 516)	0.39236089322035966
  (0, 301)	0.25723353435913965
  (0, 217)	0.2936608015240254
  (0, 331)	0.39236089322035966
  (0, 497)	0.3100406969242471
  (0, 145)	0.39236089322035966
  (0, 176)	0.39236089322035966
  (0, 523)	0.1691151524611286
  (0, 543)	0.23138797699257704
  (0, 300)	0.23138797699257704
  (1, 24)	0.5039101264197877
  (1, 11)	0.6107677891357703
  (1, 456)	0.6107677891357703
  (2, 22)	0.2774605352292785
  (2, 467)	0.2774605352292785
  (2, 521)	0.2334239058829621
  (2, 214)	0.2334239058829621
  (2, 549)	0.2774605352292785
  (2, 475)	0.16915545663673676
  (2, 565)	0.18938727653664564
  (2, 182)	0.2774605352292785
  (2, 338)	0.2774605352292785
  (2, 480)	0.2774605352292785
  (2, 563)	0.1752106483459251
  (2, 499)	0.2774605352292785
  :	:
  (56, 525)	0.11498026892105463
  (56, 373)	0.11498026892105463
  (56, 553)	0.11498026892105463
  (56, 571)	0.11498026892105463
  (56, 441)	0.10430535955304747
  (56, 559)	0.10430535955304747
  (56, 87)	0.20861071910609494
  (56, 402)	0.0

수집한 텍스트 데이터는 도메인에 대해 어떤 이야기를 들려 주고 있나요?

지금까지 배운 것들을 인터넷에 있는 수많은 텍스트 데이터를 언어 모델로 분석하는 데 사용할 수 있습니다!

> Reference: <br>
https://docs.github.com/en/repositories/creating-and-managing-repositories/cloning-a-repository <br>
https://github.com/wilkens-teaching/textmining <br>
https://github.com/foxbook/atap </br>

In [141]:
from nltk.text import TextCollection

def tokenize(text):
    stem = nltk.stem.SnowballStemmer('english')
    text = text.lower()

    for token in nltk.word_tokenize(text):
        if token in string.punctuation: continue
        yield stem.stem(token)

def nltk_tfidf_vectorize(paragraphs):

    tokenized_corpus = [list(tokenize(doc)) for doc in paragraphs]
    texts = TextCollection(tokenized_corpus)

    for doc in tokenized_corpus:
        yield {
            term: texts.tf_idf(term, doc)
            for term in doc
        }

for toks in nltk_tfidf_vectorize(paragraphs):
    print(toks)
    print()

{'s.': 0.2233269391516403, 'korea': 0.10967706633574531, 'us': 0.10967706633574531, 'to': 0.06050380346036002, 'discuss': 0.26953675118897, '‘': 0.3925918638888587, 'concret': 0.26953675118897, '’': 0.3001722398141994, 'stronger': 0.2233269391516403, 'measur': 0.2233269391516403, 'for': 0.16224089036002998, 'n.korean': 0.26953675118897, 'threat': 0.2233269391516403}

{'sept': 1.1166346957582016, '14': 1.34768375594485, '2022': 0.8112044518001499}

{'us': 0.10282224968976122, 'nuclear-pow': 0.2526907042396594, 'supercarri': 0.2526907042396594, 'will': 0.11536416815614567, 'stage': 0.2526907042396594, 'militari': 0.2526907042396594, 'drill': 0.2526907042396594, 'with': 0.1310713199237023, 'south': 0.10877913592753154, 'korean': 0.14070573741290596, 'warship': 0.2526907042396594, 'for': 0.1521008347125281, 'first': 0.18402743619790252, 'time': 0.18402743619790252, 'sinc': 0.2526907042396594, '2017': 0.2526907042396594}

{'단독': 0.23782654516673823, '‘': 0.34640458578428707, '이춘재': 0.197053

In [151]:
tfidf = TfidfVectorizer()
print(len(tfidf.fit_transform(paragraphs).toarray()[0]))
print(len(tfidf.get_feature_names_out()))

657
657
