In [1]:
from pythainlp.tokenize import word_tokenize

# 示例泰语文本
"""
泰语的书写方式中单词之间没有空格
"""
text = "ฉันรักการเขียนโปรแกรมภาษาไพธอน"

# 使用默认的分词器进行分词
tokens = word_tokenize(text)

print(tokens)

['ฉัน', 'รัก', 'การเขียน', 'โปรแกรม', 'ภาษา', 'ไพธอน']


In [3]:
import nltk

# 英文文本
text = "I love natural language processing. It's fascinating!"
tokens = nltk.word_tokenize(text)
print(tokens)

['I', 'love', 'natural', 'language', 'processing', '.', 'It', "'s", 'fascinating', '!']


In [5]:
import jieba

# 简体中文
text = "我爱自然语言处理，这是一个非常有趣的领域。"
words = jieba.cut(text)
print(list(words))

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/4d/14nkpqsn4zs8c1dmkl0p4mxr0000gp/T/jieba.cache
Loading model cost 0.363 seconds.
Prefix dict has been built successfully.


['我', '爱', '自然语言', '处理', '，', '这是', '一个', '非常', '有趣', '的', '领域', '。']


In [6]:
import jieba

# 繁体中文
text = "我愛自然語言處理，這是一個非常有趣的領域。"
words = jieba.cut(text)
print(list(words))

['我', '愛', '自然', '語言', '處理', '，', '這是', '一個', '非常', '有趣', '的', '領域', '。']


In [2]:
import nltk

# 印度尼西亚语 (由 26 个拉丁字母组成)
text = "Saya senang bertemu dengan kalian semua."
tokens = nltk.word_tokenize(text)
print(tokens)

['Saya', 'senang', 'bertemu', 'dengan', 'kalian', 'semua', '.']


In [4]:
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')

# 马来西亚语 (由 26 个拉丁字母组成)
text = 'Saya suka belajar pemprosesan bahasa semula jadi.'

tokens = word_tokenize(text)

print(tokens)

['Saya', 'suka', 'belajar', 'pemprosesan', 'bahasa', 'semula', 'jadi', '.']


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/wuhonglei1/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [9]:
from pyvi import ViTokenizer

# 示例越南语文本, 一个复合词, 可能由多个音节组成
text = "Tôi đang học xử lý ngôn ngữ tự nhiên bằng Python."

# 使用 ViTokenizer 进行分词
tokens = ViTokenizer.tokenize(text)

# 分词结果中，ViTokenizer 使用下划线 _ 将属于同一个词的音节连接起来。例如，xử_lý 表示“处理”，ngôn_ngữ 表示“语言”
print(tokens.split())

['Tôi', 'đang', 'học', 'xử_lý', 'ngôn_ngữ', 'tự_nhiên', 'bằng', 'Python', '.']


In [5]:
from nltk.tokenize import word_tokenize

# 菲律宾语 (使用28个字母，包括特有的 Ñ 和 Ng)
text = "Mahal kita nang buong pusÑo ko."
tokens = word_tokenize(text)
print(tokens)

['Mahal', 'kita', 'nang', 'buong', 'pusÑo', 'ko', '.']


In [10]:
from nltk.tokenize import word_tokenize

# 单词通常以空格分隔
# 巴西葡萄牙语使用与英语相同的26个拉丁字母. 为了表示不同的发音和重音位置，使用了重音符号：
text = "Eu gosto de programar em Python. Você também gosta?"

# 指定语言为葡萄牙语
tokens = word_tokenize(text, language='portuguese')
print(tokens)

['Eu', 'gosto', 'de', 'programar', 'em', 'Python', '.', 'Você', 'também', 'gosta', '?']


In [14]:
from nltk.tokenize import word_tokenize

# 墨西哥地区的西班牙语
text = "¿Cómo estás? Estoy aprendiendo a programar en Python."

# 指定语言为西班牙语
tokens = word_tokenize(text, language='spanish')
print(tokens)

['¿Cómo', 'estás', '?', 'Estoy', 'aprendiendo', 'a', 'programar', 'en', 'Python', '.']


In [15]:
from nltk.tokenize import word_tokenize

# 示例哥伦比亚西班牙语文本
text = "¿Cómo estás? Estoy aprendiendo a programar en Python."

# 指定语言为西班牙语
tokens = word_tokenize(text, language='spanish')
print(tokens)

['¿Cómo', 'estás', '?', 'Estoy', 'aprendiendo', 'a', 'programar', 'en', 'Python', '.']


In [19]:
import spacy

# 加载西班牙语模型
nlp = spacy.load('es_core_news_sm')

# 示例哥伦比亚西班牙语文本
text = "¡Hola! ¿Cómo estás? Estoy bien, gracias."

doc = nlp(text)

# 输出分词结果
tokens = [token.text for token in doc]
print(tokens)

['¡', 'Hola', '!', '¿', 'Cómo', 'estás', '?', 'Estoy', 'bien', ',', 'gracias', '.']


In [20]:
import spacy

# 加载西班牙语模型
nlp = spacy.load('es_core_news_sm')

# 示例智利西班牙语文本
text = "¿Cómo estás? Cachai lo que te dije, po."

doc = nlp(text)

# 将分词后的结果输出
tokens = [token.text for token in doc]
print(tokens)

['¿', 'Cómo', 'estás', '?', 'Cachai', 'lo', 'que', 'te', 'dije', ',', 'po', '.']


In [29]:
import spacy

nlp = spacy.load('zh_core_web_sm')
text = "我爱自然语言处理。hello world"
doc = nlp(text)
for token in doc:
    print(token.text)

我
爱
自然
语言
处理
。
hello
world


In [31]:
import jieba

# 示例繁体中文文本
text = "我正在學習自然語言處理。"

# 使用 Jieba 进行分词
tokens = jieba.lcut(text)
print(tokens)

['我', '正在', '學習', '自然', '語言', '處理', '。', 'hello', ' ', 'world']
