<a href="https://colab.research.google.com/github/AtharvaSukale/NLP/blob/main/NLP1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import nltk
from nltk.tokenize import WhitespaceTokenizer, WordPunctTokenizer, TreebankWordTokenizer, TweetTokenizer, MWETokenizer
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer
import string

In [None]:
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
text = '''NLTK is a powerful Python library for natural language processing tasks
      It provides easy-to-use interfaces to over 50 corpora and lexical resources, such as WordNet, along with a suite of text processing libraries
for classification, tokenization, stemming, tagging, parsing,
and semantic reasoning, wrappers for industrial-strength NLP libraries,
and an active discussion forum.'''

In [None]:
tokenizers = {
    "Whitespace Tokenizer": WhitespaceTokenizer(),
    "Punctuation-based Tokenizer": WordPunctTokenizer(),
    "Treebank Tokenizer": TreebankWordTokenizer(),
    "Tweet Tokenizer": TweetTokenizer(),
    "MWE Tokenizer": MWETokenizer(),
}

In [None]:
porter_stemmer = PorterStemmer()
snowball_stemmer = SnowballStemmer("english")

In [None]:
lemmatizer = WordNetLemmatizer()

In [None]:
for name, tokenizer in tokenizers.items():
    tokens = tokenizer.tokenize(text)
    print(f"\n{name}:")
    print(tokens)


Whitespace Tokenizer:
['NLTK', 'is', 'a', 'powerful', 'Python', 'library', 'for', 'natural', 'language', 'processing', 'tasks', 'It', 'provides', 'easy-to-use', 'interfaces', 'to', 'over', '50', 'corpora', 'and', 'lexical', 'resources,', 'such', 'as', 'WordNet,', 'along', 'with', 'a', 'suite', 'of', 'text', 'processing', 'libraries', 'for', 'classification,', 'tokenization,', 'stemming,', 'tagging,', 'parsing,', 'and', 'semantic', 'reasoning,', 'wrappers', 'for', 'industrial-strength', 'NLP', 'libraries,', 'and', 'an', 'active', 'discussion', 'forum.']

Punctuation-based Tokenizer:
['NLTK', 'is', 'a', 'powerful', 'Python', 'library', 'for', 'natural', 'language', 'processing', 'tasks', 'It', 'provides', 'easy', '-', 'to', '-', 'use', 'interfaces', 'to', 'over', '50', 'corpora', 'and', 'lexical', 'resources', ',', 'such', 'as', 'WordNet', ',', 'along', 'with', 'a', 'suite', 'of', 'text', 'processing', 'libraries', 'for', 'classification', ',', 'tokenization', ',', 'stemming', ',', 'tag

In [None]:
print("\nPorter Stemmer:")
porter_stems = [porter_stemmer.stem(token) for token in tokens]
print(porter_stems)



Porter Stemmer:
['n', 'l', 't', 'k', ' ', 'i', 's', ' ', 'a', ' ', 'p', 'o', 'w', 'e', 'r', 'f', 'u', 'l', ' ', 'p', 'y', 't', 'h', 'o', 'n', ' ', 'l', 'i', 'b', 'r', 'a', 'r', 'y', ' ', 'f', 'o', 'r', ' ', 'n', 'a', 't', 'u', 'r', 'a', 'l', ' ', 'l', 'a', 'n', 'g', 'u', 'a', 'g', 'e', ' ', 'p', 'r', 'o', 'c', 'e', 's', 's', 'i', 'n', 'g', ' ', 't', 'a', 's', 'k', 's', '\n', ' ', ' ', ' ', ' ', ' ', ' ', 'i', 't', ' ', 'p', 'r', 'o', 'v', 'i', 'd', 'e', 's', ' ', 'e', 'a', 's', 'y', '-', 't', 'o', '-', 'u', 's', 'e', ' ', 'i', 'n', 't', 'e', 'r', 'f', 'a', 'c', 'e', 's', ' ', 't', 'o', ' ', 'o', 'v', 'e', 'r', ' ', '5', '0', ' ', 'c', 'o', 'r', 'p', 'o', 'r', 'a', ' ', 'a', 'n', 'd', ' ', 'l', 'e', 'x', 'i', 'c', 'a', 'l', ' ', 'r', 'e', 's', 'o', 'u', 'r', 'c', 'e', 's', ',', ' ', 's', 'u', 'c', 'h', ' ', 'a', 's', ' ', 'w', 'o', 'r', 'd', 'n', 'e', 't', ',', ' ', 'a', 'l', 'o', 'n', 'g', ' ', 'w', 'i', 't', 'h', ' ', 'a', ' ', 's', 'u', 'i', 't', 'e', ' ', 'o', 'f', ' ', 't', 'e', '

In [None]:
print("\nSnowball Stemmer:")
snowball_stems = [snowball_stemmer.stem(token) for token in tokens]
print(snowball_stems)


Snowball Stemmer:
['n', 'l', 't', 'k', ' ', 'i', 's', ' ', 'a', ' ', 'p', 'o', 'w', 'e', 'r', 'f', 'u', 'l', ' ', 'p', 'y', 't', 'h', 'o', 'n', ' ', 'l', 'i', 'b', 'r', 'a', 'r', 'y', ' ', 'f', 'o', 'r', ' ', 'n', 'a', 't', 'u', 'r', 'a', 'l', ' ', 'l', 'a', 'n', 'g', 'u', 'a', 'g', 'e', ' ', 'p', 'r', 'o', 'c', 'e', 's', 's', 'i', 'n', 'g', ' ', 't', 'a', 's', 'k', 's', '\n', ' ', ' ', ' ', ' ', ' ', ' ', 'i', 't', ' ', 'p', 'r', 'o', 'v', 'i', 'd', 'e', 's', ' ', 'e', 'a', 's', 'y', '-', 't', 'o', '-', 'u', 's', 'e', ' ', 'i', 'n', 't', 'e', 'r', 'f', 'a', 'c', 'e', 's', ' ', 't', 'o', ' ', 'o', 'v', 'e', 'r', ' ', '5', '0', ' ', 'c', 'o', 'r', 'p', 'o', 'r', 'a', ' ', 'a', 'n', 'd', ' ', 'l', 'e', 'x', 'i', 'c', 'a', 'l', ' ', 'r', 'e', 's', 'o', 'u', 'r', 'c', 'e', 's', ',', ' ', 's', 'u', 'c', 'h', ' ', 'a', 's', ' ', 'w', 'o', 'r', 'd', 'n', 'e', 't', ',', ' ', 'a', 'l', 'o', 'n', 'g', ' ', 'w', 'i', 't', 'h', ' ', 'a', ' ', 's', 'u', 'i', 't', 'e', ' ', 'o', 'f', ' ', 't', 'e',

In [None]:
print("\nLemmatization:")
lemmas = [lemmatizer.lemmatize(token) for token in tokens]
print(lemmas)


Lemmatization:
['N', 'L', 'T', 'K', ' ', 'i', 's', ' ', 'a', ' ', 'p', 'o', 'w', 'e', 'r', 'f', 'u', 'l', ' ', 'P', 'y', 't', 'h', 'o', 'n', ' ', 'l', 'i', 'b', 'r', 'a', 'r', 'y', ' ', 'f', 'o', 'r', ' ', 'n', 'a', 't', 'u', 'r', 'a', 'l', ' ', 'l', 'a', 'n', 'g', 'u', 'a', 'g', 'e', ' ', 'p', 'r', 'o', 'c', 'e', 's', 's', 'i', 'n', 'g', ' ', 't', 'a', 's', 'k', 's', '\n', ' ', ' ', ' ', ' ', ' ', ' ', 'I', 't', ' ', 'p', 'r', 'o', 'v', 'i', 'd', 'e', 's', ' ', 'e', 'a', 's', 'y', '-', 't', 'o', '-', 'u', 's', 'e', ' ', 'i', 'n', 't', 'e', 'r', 'f', 'a', 'c', 'e', 's', ' ', 't', 'o', ' ', 'o', 'v', 'e', 'r', ' ', '5', '0', ' ', 'c', 'o', 'r', 'p', 'o', 'r', 'a', ' ', 'a', 'n', 'd', ' ', 'l', 'e', 'x', 'i', 'c', 'a', 'l', ' ', 'r', 'e', 's', 'o', 'u', 'r', 'c', 'e', 's', ',', ' ', 's', 'u', 'c', 'h', ' ', 'a', 's', ' ', 'W', 'o', 'r', 'd', 'N', 'e', 't', ',', ' ', 'a', 'l', 'o', 'n', 'g', ' ', 'w', 'i', 't', 'h', ' ', 'a', ' ', 's', 'u', 'i', 't', 'e', ' ', 'o', 'f', ' ', 't', 'e', 'x