#CREATE USER DEFINED CORPUS.

To create a user-defined corpus from PDF, DOCX, plain-text, and website, you can use a Python library such as PyPDF2 for PDFs, python-docx for DOCX files, and requests and BeautifulSoup for web scraping.

First, you'll need to install the necessary libraries.

In [None]:
!pip install PyPDF2==2.12.1
!pip install python-docx
!pip install requests
!pip install bs4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting PyPDF2==2.12.1
  Downloading pypdf2-2.12.1-py3-none-any.whl (222 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m222.8/222.8 KB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: PyPDF2
Successfully installed PyPDF2-2.12.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting python-docx
  Downloading python-docx-0.8.11.tar.gz (5.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m36.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: python-docx
  Building wheel for python-docx (setup.py) ... [?25l[?25hdone
  Created wheel for python-docx: filename=python_docx-0.8.11-py3-none-any.whl size=184505 sha256=39d857d83cabef534317735e61f79c20e9bdc1e9097ed52464cc74cf1542f9

### Importing Library

In [5]:
import PyPDF2
import docx
import requests
from bs4 import BeautifulSoup

In [9]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### PDF

In [11]:
# PDF
pdf_file = open('/content/drive/MyDrive/NLP/NLP_for_Corpus_Linguistics.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_text = ''
for page in range(pdf_reader.numPages):
    pdf_text += pdf_reader.getPage(page).extractText()

### DOCX

In [13]:
docx_file = docx.Document('/content/drive/MyDrive/NLP/A1_1_NLP_Assignment_1.docx')
docx_text = ''
for para in docx_file.paragraphs:
    docx_text += para.text

### PLAIN TEXT FILE

In [14]:
with open('/content/drive/MyDrive/NLP/NLP.txt', 'r') as f:
    plain_text = f.read()

### WEBSITE

In [15]:
url = 'https://en.wikipedia.org/wiki/Natural_language_processing'
req = requests.get(url)
soup = BeautifulSoup(req.content, 'html.parser')
website_text = soup.get_text()

Once you've extracted the text from each file type, you can combine them into a single corpus by concatenating the strings together.

In [16]:
corpus = pdf_text + docx_text + plain_text + website_text

In [17]:
corpus

'Natural Language Processing for Corpus Linguistics  \n \nElements in Corpus  Linguistics  \n \nCambridge University Press  \n \nJonathan Dunn  \nUniversity of Canterbury  \n \nAbstract . Corpus analysis can be expanded and scaled up by incorporating computational \nmethods from natural language processing. This Element shows how text classification and text \nsimilarity models can extend our ability to undertake corpus linguistics across very large \ncorpora. These computational methods are be coming increasingly important as corpora grow \ntoo large for more traditional types of linguistic analysis. We draw on five case studies to show  \nhow and why to use computational methods, ranging from usage -based grammar to authorship \nanalysis to using soci al media for corpus -based sociolinguistics. Each section is accompanied by \nan interactive code notebook that shows how to implement the analysis in Python. A stand -\nalone Python package is also available to help readers use these m

### Line, space, word, tweet tokenization on created corpus.



*  The line_tokens variable will contain a 
list of sentences in the corpus. 
*  The space_tokens variable will contain a list of words separated by spaces.
*   The word_tokens variable will contain a list of words. 
*   The tweet_tokens variable will contain a list of words and symbols that are commonly used in tweets.








In [20]:
!pip install nltk


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### IMPORTING LIBRARY

In [21]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## Tokenizer

### Line tokenization

In [None]:
line_tokens = nltk.tokenize.sent_tokenize(corpus)
print(line_tokens)

['Natural Language Processing for Corpus Linguistics  \n \nElements in Corpus  Linguistics  \n \nCambridge University Press  \n \nJonathan Dunn  \nUniversity of Canterbury  \n \nAbstract .', 'Corpus analysis can be expanded and scaled up by incorporating computational \nmethods from natural language processing.', 'This Element shows how text classification and text \nsimilarity models can extend our ability to undertake corpus linguistics across very large \ncorpora.', 'These computational methods are be coming increasingly important as corpora grow \ntoo large for more traditional types of linguistic analysis.', 'We draw on five case studies to show  \nhow and why to use computational methods, ranging from usage -based grammar to authorship \nanalysis to using soci al media for corpus -based sociolinguistics.', 'Each section is accompanied by \nan interactive code notebook that shows how to implement the analysis in Python.', 'A stand -\nalone Python package is also available to help 

### Space tokenization

In [None]:
space_tokens = corpus.split()
print(space_tokens)

['Natural', 'Language', 'Processing', 'for', 'Corpus', 'Linguistics', 'Elements', 'in', 'Corpus', 'Linguistics', 'Cambridge', 'University', 'Press', 'Jonathan', 'Dunn', 'University', 'of', 'Canterbury', 'Abstract', '.', 'Corpus', 'analysis', 'can', 'be', 'expanded', 'and', 'scaled', 'up', 'by', 'incorporating', 'computational', 'methods', 'from', 'natural', 'language', 'processing.', 'This', 'Element', 'shows', 'how', 'text', 'classification', 'and', 'text', 'similarity', 'models', 'can', 'extend', 'our', 'ability', 'to', 'undertake', 'corpus', 'linguistics', 'across', 'very', 'large', 'corpora.', 'These', 'computational', 'methods', 'are', 'be', 'coming', 'increasingly', 'important', 'as', 'corpora', 'grow', 'too', 'large', 'for', 'more', 'traditional', 'types', 'of', 'linguistic', 'analysis.', 'We', 'draw', 'on', 'five', 'case', 'studies', 'to', 'show', 'how', 'and', 'why', 'to', 'use', 'computational', 'methods,', 'ranging', 'from', 'usage', '-based', 'grammar', 'to', 'authorship', 

### Word tokenization

In [None]:
word_tokens = nltk.tokenize.word_tokenize(corpus)

### Tweet tokenization

In [None]:
tweet_tokens = nltk.tokenize.casual.TweetTokenizer().tokenize(corpus)
print(tweet_tokens)

['Natural', 'Language', 'Processing', 'for', 'Corpus', 'Linguistics', 'Elements', 'in', 'Corpus', 'Linguistics', 'Cambridge', 'University', 'Press', 'Jonathan', 'Dunn', 'University', 'of', 'Canterbury', 'Abstract', '.', 'Corpus', 'analysis', 'can', 'be', 'expanded', 'and', 'scaled', 'up', 'by', 'incorporating', 'computational', 'methods', 'from', 'natural', 'language', 'processing', '.', 'This', 'Element', 'shows', 'how', 'text', 'classification', 'and', 'text', 'similarity', 'models', 'can', 'extend', 'our', 'ability', 'to', 'undertake', 'corpus', 'linguistics', 'across', 'very', 'large', 'corpora', '.', 'These', 'computational', 'methods', 'are', 'be', 'coming', 'increasingly', 'important', 'as', 'corpora', 'grow', 'too', 'large', 'for', 'more', 'traditional', 'types', 'of', 'linguistic', 'analysis', '.', 'We', 'draw', 'on', 'five', 'case', 'studies', 'to', 'show', 'how', 'and', 'why', 'to', 'use', 'computational', 'methods', ',', 'ranging', 'from', 'usage', '-', 'based', 'grammar', 

#Perform stemming using porter stemmer on created corpus.

In [None]:
import nltk
from nltk.stem import PorterStemmer

In [None]:
# Create an instance of the Porter stemmer
stemmer = PorterStemmer()

In [None]:
stemmed_corpus = []
for sentence in line_tokens:
    stemmed_sentence = [stemmer.stem(word) for word in sentence.split()]
    stemmed_corpus.append(" ".join(stemmed_sentence))

In [None]:
print(stemmed_corpus)

['natur languag process for corpu linguist element in corpu linguist cambridg univers press jonathan dunn univers of canterburi abstract .', 'corpu analysi can be expand and scale up by incorpor comput method from natur languag processing.', 'thi element show how text classif and text similar model can extend our abil to undertak corpu linguist across veri larg corpora.', 'these comput method are be come increasingli import as corpora grow too larg for more tradit type of linguist analysis.', 'we draw on five case studi to show how and whi to use comput methods, rang from usag -base grammar to authorship analysi to use soci al media for corpu -base sociolinguistics.', 'each section is accompani by an interact code notebook that show how to implement the analysi in python.', 'a stand - alon python packag is also avail to help reader use these method with their own data .', 'becaus larg -scale analysi introduc new ethic problems, thi element pair each new methodolog with a discuss of pot

Note that stemming is a lossy process, so stemmed words may not always be valid words in the language.





# Perform lemmatization using wordnet

In [None]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [None]:
# Create an instance of the WordNet lemmatizer
lemmatizer = WordNetLemmatizer()

In [None]:
# Perform lemmatization on each word in the corpus
lemmatized_corpus = []
for sentence in line_tokens:
    lemmatized_sentence = [lemmatizer.lemmatize(word) for word in word_tokenize(sentence)]
    lemmatized_corpus.append(" ".join(lemmatized_sentence))

In [None]:
lemmatized_corpus = []
for sentence in line_tokens:
    tokenized_sentence = word_tokenize(sentence)
    lemmatized_sentence = [lemmatizer.lemmatize(word) for word in tokenized_sentence]
    lemmatized_corpus.append(" ".join(lemmatized_sentence))

In [None]:
print(lemmatized_corpus)

['Natural Language Processing for Corpus Linguistics Elements in Corpus Linguistics Cambridge University Press Jonathan Dunn University of Canterbury Abstract .', 'Corpus analysis can be expanded and scaled up by incorporating computational method from natural language processing .', 'This Element show how text classification and text similarity model can extend our ability to undertake corpus linguistics across very large corpus .', 'These computational method are be coming increasingly important a corpus grow too large for more traditional type of linguistic analysis .', 'We draw on five case study to show how and why to use computational method , ranging from usage -based grammar to authorship analysis to using soci al medium for corpus -based sociolinguistics .', 'Each section is accompanied by an interactive code notebook that show how to implement the analysis in Python .', 'A stand - alone Python package is also available to help reader use these method with their own data .', '

In [None]:
lemmatized_sentence = [lemmatizer.lemmatize(word, pos='v') for word in tokenized_sentence]
print(lemmatized_sentence)

["'", ')', ';', 'av_is_signed_in', '=', 'true', ';', '//', 'Call', 'user_logged_in_functions', 'user_logged_in', '(', 'user', ')', ';', '}', ')', '.catch', '(', 'function', '(', 'err', ')', '{', '//', 'If', 'user', 'be', 'NOT', 'log', 'in', '//console.log', '(', "'Logged", 'out', "'", ')', ';', '//', 'Logout', 'User', 'in', 'case', 'of', 'auth', 'faluire', 'if', '(', 'av_is_signed_in==false', ')', '{', 'user_logged_out', '(', ')', ';', '//', 'Enable', 'Login', 'Popup', '/', '*', 'if', '(', 'get_cookie', '(', "'avsignup", "'", ')', '===false', ')', '{', 'setTimeout', '(', 'function', '(', ')', '{', '$', '(', "'", '#', 'loginModal', "'", ')', '.modal', '(', ')', ';', '}', ',', '5000', ')', ';', '}', '*', '/', '}', '//user_logged_out', '(', ')', ';', 'google.accounts.id.prompt', '(', ')', ';', 'mgr.signinSilent', '(', ')', '.then', '(', 'function', '(', 'user', ')', '{', 'av_is_signed_in', '=', 'true', ';', '//console.log', '(', '``', 'silent', 'sign', 'in', "''", ',', 'user', ')', ';', '

# Remove stop-words using stop-word corpus.

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [None]:
# Download the stop-words corpus 
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
stop_words = set(stopwords.words('english'))

In [None]:
filtered_corpus = []
for sentence in line_tokens:
    tokenized_sentence = word_tokenize(sentence)
    filtered_sentence = [word for word in tokenized_sentence if word.lower() not in stop_words]
    filtered_corpus.append(" ".join(filtered_sentence))

print(filtered_corpus)

['Natural Language Processing Corpus Linguistics Elements Corpus Linguistics Cambridge University Press Jonathan Dunn University Canterbury Abstract .', 'Corpus analysis expanded scaled incorporating computational methods natural language processing .', 'Element shows text classification text similarity models extend ability undertake corpus linguistics across large corpora .', 'computational methods coming increasingly important corpora grow large traditional types linguistic analysis .', 'draw five case studies show use computational methods , ranging usage -based grammar authorship analysis using soci al media corpus -based sociolinguistics .', 'section accompanied interactive code notebook shows implement analysis Python .', 'stand - alone Python package also available help readers use methods data .', 'large -scale analysis introduces new ethical problems , Element pairs new methodology discussion potential ethical implications .', 'Book : https : //doi.org/10.1017/9781009070447 I

# Using Spacy

In [None]:
!pip install spacy
!python -m spacy download en_core_web_sm
!python -m spacy download en_core_web_md
!python -m spacy download en_core_web_lg


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2023-02-28 01:26:14.625282: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-02-28 01:26:15.745697: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-02-28 01:26:15.745845: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory; LD

In [None]:
#Load Spacy and necessary resources
import spacy
nlp = spacy.load("en_core_web_sm")



##  TOKENIZER

In [None]:
# line tokenization
lines = corpus.split("\n")

# space tokenization
spaces = [token.text for token in nlp(corpus)]

# word tokenization
words = [token.text for token in nlp(corpus) if not token.is_space]

# tweet tokenization
from spacy.lang.en import English
tweet_nlp = English()

def tweet_tokenizer(text):
    tokens = tweet_nlp(text)
    return [token.text for token in tokens if not token.is_space]

tweets = [tweet_tokenizer(line) for line in lines if line.strip()]


## Lemmatization 

In [None]:
doc = nlp(corpus)
lemmatized_text = " ".join([token.lemma_ for token in doc])
print(lemmatized_text)


Natural Language processing for Corpus Linguistics  
 
 Elements in Corpus   Linguistics  
 
 Cambridge University Press  
 
 Jonathan Dunn  
 University of Canterbury  
 
 Abstract . corpus analysis can be expand and scale up by incorporate computational 
 method from natural language processing . this Element show how text classification and text 
 similarity model can extend our ability to undertake corpus linguistic across very large 
 corpus . these computational method be be come increasingly important as corpora grow 
 too large for more traditional type of linguistic analysis . we draw on five case study to show  
 how and why to use computational method , range from usage -base grammar to authorship 
 analysis to use soci al media for corpus -base sociolinguistic . each section be accompany by 
 an interactive code notebook that show how to implement the analysis in Python . a stand - 
 alone Python package be also available to help reader use these method with their own datum

## Stemming using porter stemmer

In [None]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()

stemmed_text = " ".join([stemmer.stem(token.text) for token in doc])
print(stemmed_text)

natur languag process for corpu linguist  
 
 element in corpu   linguist  
 
 cambridg univers press  
 
 jonathan dunn  
 univers of canterburi  
 
 abstract . corpu analysi can be expand and scale up by incorpor comput 
 method from natur languag process . thi element show how text classif and text 
 similar model can extend our abil to undertak corpu linguist across veri larg 
 corpora . these comput method are be come increasingli import as corpora grow 
 too larg for more tradit type of linguist analysi . we draw on five case studi to show  
 how and whi to use comput method , rang from usag -base grammar to authorship 
 analysi to use soci al media for corpu -base sociolinguist . each section is accompani by 
 an interact code notebook that show how to implement the analysi in python . a stand - 
 alon python packag is also avail to help reader use these method with their own data . 
 becaus larg -scale analysi introduc new ethic problem , thi element pair each new 
 methodolog 

## Stop-Word Removal

In [None]:
from spacy.lang.en.stop_words import STOP_WORDS
filtered_words = [word for word in words if word.lower() not in STOP_WORDS]
print(filtered_words)

['Natural', 'Language', 'Processing', 'Corpus', 'Linguistics', 'Elements', 'Corpus', 'Linguistics', 'Cambridge', 'University', 'Press', 'Jonathan', 'Dunn', 'University', 'Canterbury', 'Abstract', '.', 'Corpus', 'analysis', 'expanded', 'scaled', 'incorporating', 'computational', 'methods', 'natural', 'language', 'processing', '.', 'Element', 'shows', 'text', 'classification', 'text', 'similarity', 'models', 'extend', 'ability', 'undertake', 'corpus', 'linguistics', 'large', 'corpora', '.', 'computational', 'methods', 'coming', 'increasingly', 'important', 'corpora', 'grow', 'large', 'traditional', 'types', 'linguistic', 'analysis', '.', 'draw', 'case', 'studies', 'use', 'computational', 'methods', ',', 'ranging', 'usage', '-based', 'grammar', 'authorship', 'analysis', 'soci', 'al', 'media', 'corpus', '-based', 'sociolinguistics', '.', 'section', 'accompanied', 'interactive', 'code', 'notebook', 'shows', 'implement', 'analysis', 'Python', '.', 'stand', '-', 'Python', 'package', 'availabl

# Hindi Language

##  Scrape the Website

In [None]:
!pip install newspaper3k

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.1/211.1 KB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting feedparser>=5.2.1
  Downloading feedparser-6.0.10-py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.1/81.1 KB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting jieba3k>=0.35.1
  Downloading jieba3k-0.35.1.zip (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m46.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting feedfinder2>=0.0.4
  Downloading feedfinder2-0.0.4.tar.gz (3.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting cssselect>=0.9.2
  Downloading cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Collecting tinys

In [None]:
import newspaper
from newspaper import Article

# Set the URL of the article
url = 'https://www.bhaskar.com/'

# Create an Article object
article = Article(url, language='hi')

# Download and parse the article
article.download()
article.parse()

# Get the text of the article
text = article.text

print(text)

शाओमी इलेक्ट्रिक स्कूटर 4 अल्ट्रा लॉन्च: चार ड्राइविंग मोड्स के साथ मिलेगी 70 किमी की रेंज; MIUI 14 हुआ लाइव! एडवांस होंगे शाओमी स्मार्टफोन्स


In [None]:
corpus = '''लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए दिल्ली पहुंचे, मुख्य तौर पर हैं चार मांगें
लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं.




अगस्त 2019 में जब मोदी सरकार ने जम्मू-कश्मीर से अनुच्छेद-370 हटाया तो लद्दाख को यूनियन टेरिटरी का दर्ज़ा मिला.  लद्दाख में लेह की पहाड़ियों पर रहने वाले लोगों ने नाच-गाकर इसका जश्न मनाया, लेकिन अब लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं. 
यह भी पढ़ें
जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया
जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया
लद्दाख गतिरोध के बाद भारत और चीन के बीच  बीजिंग में पहली व्‍यक्तिगत बातचीत
लद्दाख गतिरोध के बाद भारत और चीन के बीच बीजिंग में पहली व्‍यक्तिगत बातचीत
जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं
जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं
लद्दाख के लोगों की चार मांगें हैं. पहला राज्य का दर्जा, दूसरा छठी अनुसूची के तहत संवैधानिक सुरक्षा, तीसरा लेह और कारगिल जिलों के लिए अलग लोकसभा सीटें और चौथा स्थानीय लोगों के लिए नौकरी में आरक्षण.  मैगसेसे अवार्ड से सम्मानित सोनम वांगचुक भी इस प्रदर्शन में शामिल होंगे.

इन लोगों की मांग है कि लद्दाख को केंद्र शासित प्रदेश बनाया जाए, लेकिन विधानसभा के साथ. फिलहाल, लद्दाख के लोग अपने कल्चर, अपनी ज़मीन की पहचान और पर्यावरण के लिए आवाज़ उठा रहे हैं. लद्दाख से उठ रही तमाम मागों में सबसे अहम है लद्दाख को शेड्यूल-6 में शामिल करने की, जो लद्दाख में मौजूद जिला काउंसिलों को खास अधिकार देगा.

इससे इन काउंसिल के पास इलाके में ज़मीन, जंगल समेत अन्य चीजों में कानून बनाने का अधिकार होगा. शेड्यूल-6 के बिना लद्दाख की नाज़ुक पारिस्थिति उद्योगों के प्रवाह से गंभीर रूप से प्रभावित हो सकती है. भाजपा ने वादा किया था कि लद्दाख ऑटोनोमस हिल डेवलपमेंट कौंसिल के चुनाव जीतने के बाद शेड्यूल-6 पर करवाई होगी.

लोगों का आरोप है कि लद्दाख के लिए आवंटित किया गया बजट भी ठीक से इस्तेमाल नहीं किया जा रहा. बढ़ते पर्यटन को लेकर भी चिंता है. लद्दाख की जनसंख्या 3.5 लाख है, लेकिन 2020-21 में  4 लाख पर्यटक यहां पहुंचे थे, जिसे लेकर चिंता जताई गई. इस बात को लेकर गुस्सा है कि लद्दाख के लोगों की अभी भी प्रतिनिधित्व की कमी है और नीति-निर्माण में उनकी भूमिका बहुत कम है.
 '''
print(corpus)

लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए दिल्ली पहुंचे, मुख्य तौर पर हैं चार मांगें
लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं. (सांकेतिक फोटो)




अगस्त 2019 में जब मोदी सरकार ने जम्मू-कश्मीर से अनुच्छेद-370 हटाया तो लद्दाख को यूनियन टेरिटरी का दर्ज़ा मिला.  लद्दाख में लेह की पहाड़ियों पर रहने वाले लोगों ने नाच-गाकर इसका जश्न मनाया, लेकिन अब लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं. 
यह भी पढ़ें
जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया
जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया
लद्दाख गतिरोध के बाद भारत और चीन के बीच  बीजिंग में पहली व्‍यक्तिगत बातचीत
लद्दाख गतिरोध के बाद भारत और चीन के बीच बीजिंग में पहली व्‍यक्तिगत बातचीत
जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं
जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं
लद्दाख के लोगों की चार मांगें हैं. पहला राज्य का दर्जा, दूसरा छठी अनुसूची के तहत संव

In [None]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

## Tokenization

In [None]:
import nltk
from nltk.tokenize import LineTokenizer, word_tokenize

# Line tokenization
line_tokenizer = LineTokenizer(blanklines='discard')
lines = line_tokenizer.tokenize(corpus)
print(lines)
# Word tokenization
words = [word_tokenize(line) for line in lines]
print(words)

['लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए दिल्ली पहुंचे, मुख्य तौर पर हैं चार मांगें', 'लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं. (सांकेतिक फोटो)', 'अगस्त 2019 में जब मोदी सरकार ने जम्मू-कश्मीर से अनुच्छेद-370 हटाया तो लद्दाख को यूनियन टेरिटरी का दर्ज़ा मिला.  लद्दाख में लेह की पहाड़ियों पर रहने वाले लोगों ने नाच-गाकर इसका जश्न मनाया, लेकिन अब लद्दाख के लोग अपने अस्तित्व की लड़ाई के लिए प्रदर्शन कर रहे हैं और दिल्ली पहुंचे हैं. ', 'यह भी पढ़ें', 'जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया', 'जम्मू-कश्मीर और लद्दाख में फंसे हुए 275 यात्रियों को निकाला गया', 'लद्दाख गतिरोध के बाद भारत और चीन के बीच  बीजिंग में पहली व्\u200dयक्तिगत बातचीत', 'लद्दाख गतिरोध के बाद भारत और चीन के बीच बीजिंग में पहली व्\u200dयक्तिगत बातचीत', 'जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं', 'जम्मू-कश्मीर के रामबन में भूस्खलन से पांच मकान क्षतिग्रस्त, कोई हताहत नहीं', 'लद्दाख के लोगों की चार मांगें हैं. पहला राज्य 

## Perform Stemming using Porter Stemmer

In [None]:
from nltk.stem import PorterStemmer

# Create a stemmer object
stemmer = PorterStemmer()

# Stem the words
stemmed_words = []
for line in words:
    for word in line:
        stemmed_words.append(stemmer.stem(word))

print(stemmed_words)

['लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'दिल्ली', 'पहुंचे', ',', 'मुख्य', 'तौर', 'पर', 'हैं', 'चार', 'मांगें', 'लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'प्रदर्शन', 'कर', 'रहे', 'हैं', 'और', 'दिल्ली', 'पहुंचे', 'हैं', '.', '(', 'सांकेतिक', 'फोटो', ')', 'अगस्त', '2019', 'में', 'जब', 'मोदी', 'सरकार', 'ने', 'जम्मू-कश्मीर', 'से', 'अनुच्छेद-370', 'हटाया', 'तो', 'लद्दाख', 'को', 'यूनियन', 'टेरिटरी', 'का', 'दर्ज़ा', 'मिला', '.', 'लद्दाख', 'में', 'लेह', 'की', 'पहाड़ियों', 'पर', 'रहने', 'वाले', 'लोगों', 'ने', 'नाच-गाकर', 'इसका', 'जश्न', 'मनाया', ',', 'लेकिन', 'अब', 'लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'प्रदर्शन', 'कर', 'रहे', 'हैं', 'और', 'दिल्ली', 'पहुंचे', 'हैं', '.', 'यह', 'भी', 'पढ़ें', 'जम्मू-कश्मीर', 'और', 'लद्दाख', 'में', 'फंसे', 'हुए', '275', 'यात्रियों', 'को', 'निकाला', 'गया', 'जम्मू-कश्मीर', 'और', 'लद्दाख', 'में', 'फंसे', 'हुए', '275', 'यात्रियों', 'को', 'निकाला', 'गया', 'लद्दाख', 'गतिरोध', '

## Lemmatization using WordNet

In [None]:
from nltk.stem import WordNetLemmatizer

# Create a lemmatizer object
lemmatizer = WordNetLemmatizer()

# Lemmatize the words
lemmatized_words = []
for line in words:
    for word in line:
        lemmatized_words.append(lemmatizer.lemmatize(word))
print(lemmatized_words)

['लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'दिल्ली', 'पहुंचे', ',', 'मुख्य', 'तौर', 'पर', 'हैं', 'चार', 'मांगें', 'लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'प्रदर्शन', 'कर', 'रहे', 'हैं', 'और', 'दिल्ली', 'पहुंचे', 'हैं', '.', '(', 'सांकेतिक', 'फोटो', ')', 'अगस्त', '2019', 'में', 'जब', 'मोदी', 'सरकार', 'ने', 'जम्मू-कश्मीर', 'से', 'अनुच्छेद-370', 'हटाया', 'तो', 'लद्दाख', 'को', 'यूनियन', 'टेरिटरी', 'का', 'दर्ज़ा', 'मिला', '.', 'लद्दाख', 'में', 'लेह', 'की', 'पहाड़ियों', 'पर', 'रहने', 'वाले', 'लोगों', 'ने', 'नाच-गाकर', 'इसका', 'जश्न', 'मनाया', ',', 'लेकिन', 'अब', 'लद्दाख', 'के', 'लोग', 'अपने', 'अस्तित्व', 'की', 'लड़ाई', 'के', 'लिए', 'प्रदर्शन', 'कर', 'रहे', 'हैं', 'और', 'दिल्ली', 'पहुंचे', 'हैं', '.', 'यह', 'भी', 'पढ़ें', 'जम्मू-कश्मीर', 'और', 'लद्दाख', 'में', 'फंसे', 'हुए', '275', 'यात्रियों', 'को', 'निकाला', 'गया', 'जम्मू-कश्मीर', 'और', 'लद्दाख', 'में', 'फंसे', 'हुए', '275', 'यात्रियों', 'को', 'निकाला', 'गया', 'लद्दाख', 'गतिरोध', '

In [None]:
words = word_tokenize(sentence)

##  Remove Stop-Words using Stop-Word Corpus

In [None]:
from nltk.corpus import stopwords

# Load the stop-words corpus
stop_words = set(stopwords.words('hindi'))

# Remove the stop-words
clean_words = []
for line in words:
    for word in line:
        if word not in stop_words:
            clean_words.append(word)


OSError: ignored