In [1]:
import nltk
import threading#단일 프로그램에서 경량 테스크를 생성하는데 사용
import queue
import feedparser
import uuid



In [2]:
threads = []#프로그램의 모든 스레드를 추적하는 새로운 빈 리스트 생성
queues = [queue.Queue(), queue.Queue()]#두 개의 대기열 목록 생성
#대기열이 2개인 이유
#첫 번째 대기열 : 토큰화된 문장을 저장
#두 번쨰 대기열 : 분석된 모든 품사 단어를 저장

In [3]:
#인터넷에서 샘플 RSS 피드를 읽고 단어와 이 텍스트의 고유 식별자도 함께 저장 
def extractWords():
    url = 'https://timesofindia.indiatimes.com/rssfeeds/1081479906.cms'
    feed = feedparser.parse(url)#URL의 내용 다운로드 후 이를 뉴스 항목 리스트로 변환
    for entry in feed['entries'][:5]:#처음 5개 항목을 entry리스트에 넣는다.
        text = entry['title']#RSS 피드 항목의 제목이 text라는 변수에 저장됨
        if 'ex' in text:#민감한 단어가 포함된 제목은 건너뛰기
            continue
        words = nltk.word_tokenize(text)
        data = {'uuid': uuid.uuid4(), 'input': words}#UUID, word를 키에 저장
        queues[0].put(data, True)#data 딕셔너리를 첫 번째 대기열에 저장, True ->대기열이 가득 찰 경우 스레드 일시중지
        print(">> {} : {}".format(data['uuid'], text))



In [8]:
#첫 번째 대기열에서 데이터를 읽어온 후, 두 번째 대기열에서 단어의 품사 저장
def extractPOS():
    while True:
        if queues[0].empty():
            break
        else:
            data = queues[0].get()
            words = data['input']
            postags = nltk.pos_tag(words)
            queues[0].task_done()#첫 번째 대기열 업뎃 이 스레드가 방금 추출한 항목을 처리완료 함을 알린다. 
            queues[1].put({'uuid': data['uuid'], 'input': postags}, True)#품사태깅된 단어 목록을 두 번째 대기열에 저장
            


In [9]:
#두 번쨰 대기열에서 읽고 품사 태그가 지정된 단어를 처리해 개체명을 출력
def extractNE():
    while True:
        if queues[1].empty():
            break
        else:
            data = queues[1].get()
            postags = data['input']
            queues[1].task_done()#2
            chunks = nltk.ne_chunk(postags, binary=False)#postag변수에서 개체명을 추출해 chunk라는 변수에 저장
            print("  << {} : ".format(data['uuid']), end = '')
            for path in chunks:
                try:
                    label = path.label()
                    print(path, end=', ')
                except:
                    pass
            print()



In [10]:
def runProgram():#각각의 함수를 갖는 thread생성
    e = threading.Thread(target=extractWords())#thread 생성
    e.start()
    threads.append(e)

    p = threading.Thread(target=extractPOS())
    p.start()
    threads.append(p)

    n = threading.Thread(target=extractNE())
    n.start()
    threads.append(n)

    queues[0].join()#대기열에 할당된 자원 해제
    queues[1].join()

    for t in threads:
        t.join()

if __name__ == '__main__':
    runProgram()
#5개의 고유 id, text 데이터, chunking된 결과 출력 

>> d1ee4169-35a6-4cf5-a5d5-fa3931f10d09 : SRK & Arbaaz's dad share the same birthday
>> d7a784c9-5c3f-456e-8114-3014fe65ad92 : Salman wishes his "Bhai" SRK on his bday
>> e67554aa-5a0f-40f5-86ff-5f99b4e6af2f : Blast from the past: SRK's unseen photos
>> 75fe8830-52c0-4b67-8f4a-cefb23423181 : Newlyweds who will celebrate their 1st Diwali
>> 147fbb71-d98a-45e2-9b90-c6e1a4740b7e : Twitter shares memes on Anushka-Virat
  << d1ee4169-35a6-4cf5-a5d5-fa3931f10d09 : (ORGANIZATION SRK/NNP), (PERSON Arbaaz/NNP), 
  << d7a784c9-5c3f-456e-8114-3014fe65ad92 : (GPE Salman/NNP), (PERSON Bhai/NNP), 
  << e67554aa-5a0f-40f5-86ff-5f99b4e6af2f : (GPE Blast/NN), (ORGANIZATION SRK/NNP), 
  << 75fe8830-52c0-4b67-8f4a-cefb23423181 : 
  << 147fbb71-d98a-45e2-9b90-c6e1a4740b7e : 
