**TOKENIZING AN INDIAN LANGUAGE(HINDI)**


The goal of the Indic NLP Library is to build Python based libraries for common text processing and Natural Language Processing in Indian languages. Indian languages share a lot of similarity in terms of script, phonology, language syntax, etc. and this library is an attempt to provide a general solution to very commonly required toolsets for Indian language text.

The library provides the following functionalities:

*   Text Normalization
*   Word Tokenization and Detokenization
*   Sentence Splitting
*   Script Information
*   Word Segmentation
*   Script Conversion






In [3]:
!pip install indic-nlp-library



In [4]:
from indicnlp.tokenize import indic_tokenize

indic_string='''प्रसिद्ध हिंदी लेखक जयशंकर प्रसाद का जन्म उत्तर प्रदेश में वाराणसी के एक कुलीन परिवार में 30 जनवरी 1889 को हुआ था। यह आधुनिक हिंदी साहित्य के प्रसिद्ध लेखक,
उपन्यासकार, नाटककार, कवि और कहानी-लेखक माने जाते थे। जयशंकर प्रसाद हिंदी काव्य में छायावादी युग से संबंधित थे। उन्होंने बहुत ही कम उम्र में अपने पिता बाबू देवकी प्रसाद, जो एक तंबाकू
व्यापारी थे, को खो दिया था। वह अपने बचपन के शुरुआती दिनों से ही भाषा, साहित्य तथा इतिहास में काफी रुचि रखते थे और उनका वेदों की तरफ एक विशेष रुख था, जो कि उनकी रचनाओं में
स्पष्ट दिखाई देता है।जयशंकर प्रसाद ने प्रारंभिक पद्यकाव्य (कविताओं) जैसे चित्राधर संग्रह को ब्रज भाषा हिंदी में लिखा था, लेकिन उसके बाद उन्होंने अपनी रचनाएं खड़ी बोली में लिखीं|'''

print('Input String: {}'.format(indic_string))
print('Tokens: ')
for t in indic_tokenize.trivial_tokenize(indic_string):
    print(t)

Input String: प्रसिद्ध हिंदी लेखक जयशंकर प्रसाद का जन्म उत्तर प्रदेश में वाराणसी के एक कुलीन परिवार में 30 जनवरी 1889 को हुआ था। यह आधुनिक हिंदी साहित्य के प्रसिद्ध लेखक, 
उपन्यासकार, नाटककार, कवि और कहानी-लेखक माने जाते थे। जयशंकर प्रसाद हिंदी काव्य में छायावादी युग से संबंधित थे। उन्होंने बहुत ही कम उम्र में अपने पिता बाबू देवकी प्रसाद, जो एक तंबाकू 
व्यापारी थे, को खो दिया था। वह अपने बचपन के शुरुआती दिनों से ही भाषा, साहित्य तथा इतिहास में काफी रुचि रखते थे और उनका वेदों की तरफ एक विशेष रुख था, जो कि उनकी रचनाओं में 
स्पष्ट दिखाई देता है।जयशंकर प्रसाद ने प्रारंभिक पद्यकाव्य (कविताओं) जैसे चित्राधर संग्रह को ब्रज भाषा हिंदी में लिखा था, लेकिन उसके बाद उन्होंने अपनी रचनाएं खड़ी बोली में लिखीं|
Tokens: 
प्रसिद्ध
हिंदी
लेखक
जयशंकर
प्रसाद
का
जन्म
उत्तर
प्रदेश
में
वाराणसी
के
एक
कुलीन
परिवार
में
30
जनवरी
1889
को
हुआ
था
।
यह
आधुनिक
हिंदी
साहित्य
के
प्रसिद्ध
लेखक
,

उपन्यासकार
,
नाटककार
,
कवि
और
कहानी
-
लेखक
माने
जाते
थे
।
जयशंकर
प्रसाद
हिंदी
काव्य
में
छायावादी
युग
से
संबंधित
थे
।
उन्होंने


**TOKENIZING A FOREIGN LANGUAGE(FRENCH)**

spaCy currently provides support for many languages including Spanish. It can be helped by improving the existing language data and extending the tokenization patterns.

In [7]:
import nltk.data
nltk.download('punkt')
spanish_tokenizer = nltk.data.load('tokenizers/punkt/PY3/spanish.pickle')

text = 'Hola amigo. Estoy bien.'
spanish_tokenizer.tokenize(text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['Hola amigo.', 'Estoy bien.']

In [6]:
!pip install "spacy~=2.0"



In [23]:
!python -m spacy download es

[33mDEPRECATION: https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.3.1/es_core_news_sm-2.3.1.tar.gz#egg=es_core_news_sm==2.3.1 contains an egg fragment with a non-PEP 508 name pip 25.0 will enforce this behaviour change. A possible replacement is to use the req @ url syntax, and remove the egg fragment. Discussion can be found at https://github.com/pypa/pip/issues/11617[0m[33m
[0mCollecting es_core_news_sm==2.3.1
  Using cached es_core_news_sm-2.3.1-py3-none-any.whl
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.10/dist-packages/es_core_news_sm -->
/usr/local/lib/python3.10/dist-packages/spacy/data/es
You can now load the model via spacy.load('es')


In [25]:
import spacy
nlp = spacy.load('es')
sentences = "¿Quién eres tú? ¡Hola! ¿Dónde estoy?"
doc = nlp(sentences)
tokens = [token for token in doc]
print(tokens)

[¿, Quién, eres, tú, ?, ¡, Hola, !, ¿, Dónde, estoy, ?]
