In [1]:
import re

def tokenize_news_title(text):
  """
  Жаңалықтар тақырыбын токенизациялайды.

  Параметрлер:
    text: Токенизацияланатын жаңалықтар тақырыбы (жол).

  Нәтиже:
    Токенизацияланған сөздердің тізімі.
  """

  # Тыныс белгілерін жою.
  text = re.sub(r'[^\w\s]', '', text)

  # Төменгі регистрге келтіру.
  text = text.lower()

  # Сөздерге бөлу.
  words = text.split()

  # Стоп-сөздерді анықтау.
  stop_words = set(["the", "is", "and", "a", "of", "in", "to", "for", "it", "on"])

  # Стоп-сөздерді жою.
  filtered_words = [word for word in words if word not in stop_words]

  return filtered_words

# Мысал.
text = "Apple releases new iPhone: What to expect?"
tokens = tokenize_news_title(text)
print(tokens)

['apple', 'releases', 'new', 'iphone', 'what', 'expect']


In [12]:
import nltk
nltk.download('all')
from nltk.tokenize import word_tokenize
import spacy

nltk.download('punkt')
text = "NASA's Mars rover discovers signs of ancient water!"

# NLTK арқылы токенизация
nltk_tokens = word_tokenize(text)

# spaCy арқылы токенизация
nlp = spacy.load("en_core_web_sm")
spacy_tokens = [token.text for token in nlp(text)]

print("NLTK:", nltk_tokens)
print("spaCy:", spacy_tokens)

# Екі әдісте де сақталған токендерді анықтау
common_tokens = set(nltk_tokens) & set(spacy_tokens)

# NLTK арқылы жоғалған токендерді анықтау
nltk_missing = set(spacy_tokens) - set(nltk_tokens)

# spaCy арқылы жоғалған токендерді анықтау
spacy_missing = set(nltk_tokens) - set(spacy_tokens)

print("\nЕкі әдісте де сақталған токендер:", common_tokens)
print("NLTK арқылы жоғалған токендер:", nltk_missing)
print("spaCy арқылы жоғалған токендер:", spacy_missing)

# Тыныс белгілері мен арнайы символдарды өңдеуді талдау
# Екі токен тізіміне де қатысты элементтерді қарастырайық
def analyze_token(token, nltk_tokens, spacy_tokens):
    nltk_representation = None
    spacy_representation = None
    
    if token in nltk_tokens:
        nltk_representation = token
    if token in spacy_tokens:
        spacy_representation = token

    if nltk_representation != spacy_representation:
        print(f"\nТокен '{token}':")
        print(f"  NLTK көрінісі: {nltk_representation}")
        print(f"  spaCy көрінісі: {spacy_representation}")

# Тыныс белгілерін және арнайы символдарды талдау
special_chars = ["'", "!", "?"]
print("\nТыныс белгілерін және арнайы символдарды өңдеуді талдау:")
for char in special_chars:
    analyze_token(char, nltk_tokens, spacy_tokens)

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\goris\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\goris\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\goris\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     C:\Users\goris\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_eng is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\goris\AppData\Roaming\nltk_data...
[

NLTK: ['NASA', "'s", 'Mars', 'rover', 'discovers', 'signs', 'of', 'ancient', 'water', '!']
spaCy: ['NASA', "'s", 'Mars', 'rover', 'discovers', 'signs', 'of', 'ancient', 'water', '!']

Екі әдісте де сақталған токендер: {'NASA', 'discovers', 'ancient', 'signs', 'rover', 'Mars', 'of', "'s", '!', 'water'}
NLTK арқылы жоғалған токендер: set()
spaCy арқылы жоғалған токендер: set()

Тыныс белгілерін және арнайы символдарды өңдеуді талдау:


In [10]:
from collections import Counter
import nltk
from nltk.tokenize import word_tokenize
from datasets import load_dataset

nltk.download('punkt')

# AG News деректер жинағын жүктеу
dataset = load_dataset("ag_news", split="train")

# 100 тақырыпты жүктейміз
news_texts = [dataset[i]['text'] for i in range(100)]

# Токенизациялап, барлық сөздерді жинаймыз
all_tokens = []
for text in news_texts:
    tokens = word_tokenize(text.lower())  # Кіші әріптерге түрлендіру
    all_tokens.extend(tokens)

# Сөздердің жиілігін есептейміз
word_freq = Counter(all_tokens)

# Ең жиі кездесетін 10 сөзді шығару
print(word_freq.most_common(10))

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\goris\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


[('the', 195), (',', 164), ('.', 129), ('a', 102), ('to', 100), ('in', 77), ('and', 71), ('of', 67), ("'s", 54), ('(', 46)]
