In [13]:
# libraries
import nltk
from nltk.tokenize import word_tokenize
from textblob import TextBlob
import spacy
from spacy.lang.hi import Hindi
import gensim
from gensim.utils import simple_preprocess



In [14]:
# paragraphs in Hindi and Spanish
hindi_para = "फॉर्मूला वन, जिसे आमतौर पर फॉर्मूला 1 या एफ1 के नाम से जाना जाता है, फेडरेशन इंटरनेशनेल डी ल'ऑटोमोबाइल (एफआईए) द्वारा स्वीकृत ओपन-व्हील सिंगल-सीटर फॉर्मूला रेसिंग कारों के लिए अंतरराष्ट्रीय रेसिंग का उच्चतम वर्ग है। एफआईए फॉर्मूला वन वर्ल्ड चैंपियनशिप 1950 में अपने उद्घाटन के बाद से दुनिया भर में रेसिंग के प्रमुख रूपों में से एक रही है। नाम में फॉर्मूला शब्द नियमों के सेट को संदर्भित करता है जिसके लिए सभी प्रतिभागियों की कारों का पालन करना होगा। फ़ॉर्मूला वन सीज़न में दौड़ की एक श्रृंखला शामिल होती है, जिसे ग्रां प्री के नाम से जाना जाता है। ग्रांड प्रिक्स दुनिया भर के कई देशों और महाद्वीपों में या तो उद्देश्य-निर्मित सर्किट या बंद सार्वजनिक सड़कों पर होता है।"
spanish_para = "La Fórmula Uno, comúnmente conocida como Fórmula 1 o F1, es la clase más alta de carreras internacionales para autos de carreras de fórmula monoplaza de ruedas abiertas sancionada por la Fédération Internationale de l'Automobile (FIA). El Campeonato Mundial de Fórmula Uno de la FIA ha sido una de las principales formas de carreras en todo el mundo desde su inauguración en 1950. La palabra fórmula en el nombre se refiere al conjunto de reglas que deben cumplir todos los autos de los participantes. Una temporada de Fórmula Uno consta de una serie de carreras, conocidas como Grandes Premios. Los Grandes Premios se llevan a cabo en varios países y continentes de todo el mundo, ya sea en circuitos especialmente diseñados o en vías públicas cerradas."



In [15]:
nltk.download('punkt')
nltk.download('indian')
nltk.download('spanish_grammars')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package indian to /root/nltk_data...
[nltk_data]   Package indian is already up-to-date!
[nltk_data] Downloading package spanish_grammars to /root/nltk_data...
[nltk_data]   Package spanish_grammars is already up-to-date!


True

In [16]:
# Tokenize using NLTK
nltk_hindi_tokens = word_tokenize(hindi_para)
nltk_spanish_tokens = word_tokenize(spanish_para)
print("NLTK Hindi Tokens:", nltk_hindi_tokens)
print("NLTK Spanish Tokens:", nltk_spanish_tokens)




NLTK Hindi Tokens: ['फॉर्मूला', 'वन', ',', 'जिसे', 'आमतौर', 'पर', 'फॉर्मूला', '1', 'या', 'एफ1', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है', ',', 'फेडरेशन', 'इंटरनेशनेल', 'डी', "ल'ऑटोमोबाइल", '(', 'एफआईए', ')', 'द्वारा', 'स्वीकृत', 'ओपन-व्हील', 'सिंगल-सीटर', 'फॉर्मूला', 'रेसिंग', 'कारों', 'के', 'लिए', 'अंतरराष्ट्रीय', 'रेसिंग', 'का', 'उच्चतम', 'वर्ग', 'है।', 'एफआईए', 'फॉर्मूला', 'वन', 'वर्ल्ड', 'चैंपियनशिप', '1950', 'में', 'अपने', 'उद्घाटन', 'के', 'बाद', 'से', 'दुनिया', 'भर', 'में', 'रेसिंग', 'के', 'प्रमुख', 'रूपों', 'में', 'से', 'एक', 'रही', 'है।', 'नाम', 'में', 'फॉर्मूला', 'शब्द', 'नियमों', 'के', 'सेट', 'को', 'संदर्भित', 'करता', 'है', 'जिसके', 'लिए', 'सभी', 'प्रतिभागियों', 'की', 'कारों', 'का', 'पालन', 'करना', 'होगा।', 'फ़ॉर्मूला', 'वन', 'सीज़न', 'में', 'दौड़', 'की', 'एक', 'श्रृंखला', 'शामिल', 'होती', 'है', ',', 'जिसे', 'ग्रां', 'प्री', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है।', 'ग्रांड', 'प्रिक्स', 'दुनिया', 'भर', 'के', 'कई', 'देशों', 'और', 'महाद्वीपों', 'में', 'या', 'तो', 'उद्देश्य-निर्म

In [17]:
# Tokenize using TextBlob
blob_hindi = TextBlob(hindi_para)
blob_hindi_tokens = blob_hindi.words
blob_spanish = TextBlob(spanish_para)
blob_spanish_tokens = blob_spanish.words
print("TextBlob Hindi Tokens:", blob_hindi_tokens)
print("TextBlob Spanish Tokens:", blob_spanish_tokens)



TextBlob Hindi Tokens: ['फॉर्मूला', 'वन', 'जिसे', 'आमतौर', 'पर', 'फॉर्मूला', '1', 'या', 'एफ1', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है', 'फेडरेशन', 'इंटरनेशनेल', 'डी', "ल'ऑटोमोबाइल", 'एफआईए', 'द्वारा', 'स्वीकृत', 'ओपन-व्हील', 'सिंगल-सीटर', 'फॉर्मूला', 'रेसिंग', 'कारों', 'के', 'लिए', 'अंतरराष्ट्रीय', 'रेसिंग', 'का', 'उच्चतम', 'वर्ग', 'है।', 'एफआईए', 'फॉर्मूला', 'वन', 'वर्ल्ड', 'चैंपियनशिप', '1950', 'में', 'अपने', 'उद्घाटन', 'के', 'बाद', 'से', 'दुनिया', 'भर', 'में', 'रेसिंग', 'के', 'प्रमुख', 'रूपों', 'में', 'से', 'एक', 'रही', 'है।', 'नाम', 'में', 'फॉर्मूला', 'शब्द', 'नियमों', 'के', 'सेट', 'को', 'संदर्भित', 'करता', 'है', 'जिसके', 'लिए', 'सभी', 'प्रतिभागियों', 'की', 'कारों', 'का', 'पालन', 'करना', 'होगा।', 'फ़ॉर्मूला', 'वन', 'सीज़न', 'में', 'दौड़', 'की', 'एक', 'श्रृंखला', 'शामिल', 'होती', 'है', 'जिसे', 'ग्रां', 'प्री', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है।', 'ग्रांड', 'प्रिक्स', 'दुनिया', 'भर', 'के', 'कई', 'देशों', 'और', 'महाद्वीपों', 'में', 'या', 'तो', 'उद्देश्य-निर्मित', 'सर्किट', 'या', 

In [18]:
# Tokenize using spaCy for Hindi
nlp_hindi = Hindi()
spacy_hindi_doc = nlp_hindi(hindi_para)
spacy_hindi_tokens = [token.text for token in spacy_hindi_doc]
print("spaCy Hindi Tokens:", spacy_hindi_tokens)



spaCy Hindi Tokens: ['फॉर्मूला', 'वन', ',', 'जिसे', 'आमतौर', 'पर', 'फॉर्मूला', '1', 'या', 'एफ1', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है', ',', 'फेडरेशन', 'इंटरनेशनेल', 'डी', "ल'ऑटोमोबाइल", '(', 'एफआईए', ')', 'द्वारा', 'स्वीकृत', 'ओपन', '-', 'व्हील', 'सिंगल', '-', 'सीटर', 'फॉर्मूला', 'रेसिंग', 'कारों', 'के', 'लिए', 'अंतरराष्ट्रीय', 'रेसिंग', 'का', 'उच्चतम', 'वर्ग', 'है', '।', 'एफआईए', 'फॉर्मूला', 'वन', 'वर्ल्ड', 'चैंपियनशिप', '1950', 'में', 'अपने', 'उद्घाटन', 'के', 'बाद', 'से', 'दुनिया', 'भर', 'में', 'रेसिंग', 'के', 'प्रमुख', 'रूपों', 'में', 'से', 'एक', 'रही', 'है', '।', 'नाम', 'में', 'फॉर्मूला', 'शब्द', 'नियमों', 'के', 'सेट', 'को', 'संदर्भित', 'करता', 'है', 'जिसके', 'लिए', 'सभी', 'प्रतिभागियों', 'की', 'कारों', 'का', 'पालन', 'करना', 'होगा', '।', 'फ़ॉर्मूला', 'वन', 'सीज़न', 'में', 'दौड़', 'की', 'एक', 'श्रृंखला', 'शामिल', 'होती', 'है', ',', 'जिसे', 'ग्रां', 'प्री', 'के', 'नाम', 'से', 'जाना', 'जाता', 'है', '।', 'ग्रांड', 'प्रिक्स', 'दुनिया', 'भर', 'के', 'कई', 'देशों', 'और', 'महाद्वीपों', '

In [19]:
!pip install es-core-news-sm




In [20]:
# Tokenize using spaCy for Spanish
nlp_spanish = spacy.load("es_core_news_sm")
spacy_spanish_doc = nlp_spanish(spanish_para)
spacy_spanish_tokens = [token.text for token in spacy_spanish_doc]
print("spaCy Spanish Tokens:", spacy_spanish_tokens)



spaCy Spanish Tokens: ['La', 'Fórmula', 'Uno', ',', 'comúnmente', 'conocida', 'como', 'Fórmula', '1', 'o', 'F1', ',', 'es', 'la', 'clase', 'más', 'alta', 'de', 'carreras', 'internacionales', 'para', 'autos', 'de', 'carreras', 'de', 'fórmula', 'monoplaza', 'de', 'ruedas', 'abiertas', 'sancionada', 'por', 'la', 'Fédération', 'Internationale', 'de', "l'Automobile", '(', 'FIA', ')', '.', 'El', 'Campeonato', 'Mundial', 'de', 'Fórmula', 'Uno', 'de', 'la', 'FIA', 'ha', 'sido', 'una', 'de', 'las', 'principales', 'formas', 'de', 'carreras', 'en', 'todo', 'el', 'mundo', 'desde', 'su', 'inauguración', 'en', '1950', '.', 'La', 'palabra', 'fórmula', 'en', 'el', 'nombre', 'se', 'refiere', 'al', 'conjunto', 'de', 'reglas', 'que', 'deben', 'cumplir', 'todos', 'los', 'autos', 'de', 'los', 'participantes', '.', 'Una', 'temporada', 'de', 'Fórmula', 'Uno', 'consta', 'de', 'una', 'serie', 'de', 'carreras', ',', 'conocidas', 'como', 'Grandes', 'Premios', '.', 'Los', 'Grandes', 'Premios', 'se', 'llevan', 'a'

In [21]:
# Tokenize using gensim
gensim_hindi_tokens = simple_preprocess(hindi_para, deacc=True)
gensim_spanish_tokens = simple_preprocess(spanish_para, deacc=True)
print("Gensim Hindi Tokens:", gensim_hindi_tokens)
print("Gensim Spanish Tokens:", gensim_spanish_tokens)

Gensim Hindi Tokens: ['रमल', 'वन', 'आमत', 'पर', 'रमल', 'एफ', 'फडरशन', 'इटरनशनल', 'ऑट', 'इल', 'एफआईए', 'दव', 'सव', 'कत', 'ओपन', 'वह', 'गल', 'टर', 'रमल', 'रस', 'अतरर', 'षटर', 'रस', 'उचचतम', 'वरग', 'एफआईए', 'रमल', 'वन', 'वरलड', 'चप', 'यनश', 'अपन', 'उदघ', 'टन', 'दन', 'भर', 'रस', 'परमख', 'रप', 'एक', 'रह', 'रमल', 'शबद', 'यम', 'सट', 'सदरभ', 'करत', 'सक', 'सभ', 'परत', 'लन', 'करन', 'रमल', 'वन', 'जन', 'एक', 'शरखल', 'गर', 'पर', 'गर', 'पर', 'कस', 'दन', 'भर', 'कई', 'दश', 'और', 'मह', 'दव', 'उददशय', 'रम', 'सरक', 'बद', 'रवजन', 'सडक', 'पर']
Gensim Spanish Tokens: ['la', 'formula', 'uno', 'comunmente', 'conocida', 'como', 'formula', 'es', 'la', 'clase', 'mas', 'alta', 'de', 'carreras', 'internacionales', 'para', 'autos', 'de', 'carreras', 'de', 'formula', 'monoplaza', 'de', 'ruedas', 'abiertas', 'sancionada', 'por', 'la', 'federation', 'internationale', 'de', 'automobile', 'fia', 'el', 'campeonato', 'mundial', 'de', 'formula', 'uno', 'de', 'la', 'fia', 'ha', 'sido', 'una', 'de', 'las', 'principales', 'fo