<h1>Package Install</h1>

In [None]:
!pip install nltk==3.5



In [None]:
!pip install numpy matplotlib

<h1> Tokenizing </h1>

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
import nltk
nltk.download('punkt')

In [None]:
example_string = """
... Muad'Dib learned rapidly because his first training was in how to learn.
... And the first lesson of all was the basic trust that he could learn.
... It's shocking to find how many people do not believe they can learn,
... and how many more believe learning to be difficult."""

In [None]:
print(example_string)

In [None]:
sent_tokenize(example_string)

In [None]:
word_tokenize(example_string)

<h1>Filtering Stop Words</h1>

In [None]:
# 불용어(의미가 적은 단어들)를 제거하기 위해 사용한다
nltk.download("stopwords") # 불용어 목록 포함되어있다.
from nltk.corpus import stopwords # 불용어 접근 가능

from nltk.tokenize import word_tokenize

In [None]:
worf_quote = "Sir, I protest. I am not a merry man!"

In [None]:
words_in_quote = word_tokenize(worf_quote)
words_in_quote

In [None]:
stop_words = set(stopwords.words("english"))
stop_words

In [None]:
filtered_list = []

In [None]:
# 단어 불용어 제거
for word in words_in_quote:
    # 현재 단어를 소문자로 변환하여 불용어 목록(stop words)에 있는지 확인(불용어에 없는 것만 확인하는 과정)
    if word.casefold() not in stop_words: # word.casefold() : 소문자로 변환
        filtered_list.append(word)

In [None]:
filtered_list

<h1>Stemming</h1>

In [None]:
from nltk.stem import PorterStemmer # stem(어간)을 추출하는 알고리즘 ex) running -> run, jumps -> jump
from nltk.tokenize import word_tokenize

In [None]:
stemmer = PorterStemmer()

In [None]:
string_for_stemming = """
... The crew of the USS Discovery discovered many discoveries.
... Discovering is what explorers do."""

In [None]:
words = word_tokenize(string_for_stemming)
words

In [None]:
stemmed_words = [stemmer.stem(word) for word in words]
stemmed_words


<h1>Tagging Parts of Speech</h1>

In [None]:
from nltk.tokenize import word_tokenize
sagan_quote = """
... If you wish to make an apple pie from scratch,
... you must first invent the universe."""
words_in_sagan_quote = word_tokenize(sagan_quote)

words_in_sagan_quote

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger') # 단어의 품사를 tag를 부여하는 도구
nltk.pos_tag(words_in_sagan_quote)

'''
IN : 전치사, 접속사
PRP : 인칭대명사
VBP : 현재형 동사
등등...



'''

In [None]:
nltk.download('tagsets')
nltk.help.upenn_tagset()

<h1>Lemmatizing</h1>

In [None]:
from nltk.stem import WordNetLemmatizer # 단어의 형태를 원래의 사전 형태로 변환하는 과정
nltk.download('wordnet') # 단어의 의미, 관계, 품사 정보 등을 포함하는 데이터이다.
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize("scarves") # 변환 예시

In [None]:
string_for_lemmatizing = "The friends of DeSoto love scarves."
words = word_tokenize(string_for_lemmatizing)
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
lemmatized_words

In [None]:
lemmatizer.lemmatize("worst")

In [None]:
lemmatizer.lemmatize("worst", pos="a") # pos = 'a' --> 단어의 품사가 형용사임을 지정한다

<h1>Chunking</h1>
<h3>Note: A phrase is a word or group of words that works as a single unit to perform a grammatical function. Noun phrases are built around a noun.</h3>
<h5>Here are some examples:</h5>

<h5>“A planet”</h5>
<h5>“A tilting planet”</h5>
<h5>“A swiftly tilting planet” </h5>



---

Chunking은 텍스트에서 문법적으로 관련된 단어 또는 구를 식별하고 그룹화하는 자연어 처리 기법입니다. 이 기법을 사용하여 문장 내에서 명사구나 동사구와 같은 구문을 찾아내어 분석하거나 처리할 수 있습니다.

구는 문법적 기능을 수행하기 위해 단어 또는 단어 그룹으로 구성된 단어 묶음입니다. 명사구는 명사를 중심으로 구성된 구문을 말하며, 문장에서 주어, 목적어 등 다양한 역할을 할 수 있습니다.

In [None]:
from nltk.tokenize import word_tokenize
nltk.download("averaged_perceptron_tagger")
lotr_quote = "It's a dangerous business, Frodo, going out your door."
words_in_lotr_quote = word_tokenize(lotr_quote)
lotr_pos_tags = nltk.pos_tag(words_in_lotr_quote)
lotr_pos_tags

In [None]:
'''
명사구를 정의한다.
NP : 명사구를 나타낸다.

<DT>? : DT는 관사를 나타내는 tag로, ?는 태그가 선택적이라는 뜻이다.(관사가 있을 수도 없을 수도 있다.)
<JJ>* : JJ는 형용사를 나타내는 tag로, *는 태그가 0개 이상이라는 뜻이다.(형용사가 없을 수도, 여러 개 있을 수도 있다.)
<NN> : NN은 명사를 나타내는 tag이다. (명사구의 중심이 되는 명사를 나타낸다.)
'''

grammar = "NP: {<DT>?<JJ>*<NN>}"

In [None]:
chunk_parser = nltk.RegexpParser(grammar) # 구문분석

In [None]:
tree = chunk_parser.parse(lotr_pos_tags)
tree.draw()
tree

![image.png](attachment:image.png)

<h1>Chinking</h1>

In [None]:
grammar = """
... Chunk: {<.*>+} #
...        }<JJ>{"""

In [None]:
chunk_parser = nltk.RegexpParser(grammar)
tree = chunk_parser.parse(lotr_pos_tags)

In [None]:
tree
#tree.draw()

![image.png](attachment:image.png)

<h1>Named Entity Recognition(NER)</h1>

![image.png](attachment:image.png)

In [None]:
nltk.download("maxent_ne_chunker") # 개체명 인식을 수행하는데 필요한 데이터 포함
nltk.download("words")
tree = nltk.ne_chunk(lotr_pos_tags)

In [None]:
#tree.draw()

![image.png](attachment:image.png)

In [None]:
quote = """
... Men like Schiaparelli watched the red planet—it is odd, by-the-bye, that
... for countless centuries Mars has been the star of war—but failed to
... interpret the fluctuating appearances of the markings they mapped so well.
... All that time the Martians must have been getting ready.
...
... During the opposition of 1894 a great light was seen on the illuminated
... part of the disk, first at the Lick Observatory, then by Perrotin of Nice,
... and then by other observers. English readers heard of it first in the
... issue of Nature dated August 2."""

In [None]:
def extract_ne(quote):
...     words = word_tokenize(quote, language="english")
...     tags = nltk.pos_tag(words)
...     tree = nltk.ne_chunk(tags, binary=True)
...     return set(
...         " ".join(i[0] for i in t)
...         for t in tree
...         if hasattr(t, "label") and t.label() == "NE"
...     )

In [None]:
extract_ne(quote)