<a href="https://colab.research.google.com/github/EldorAxmedov/EldorAxmedov-PDO/blob/master/TF_IDF_exaple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Извлечение ключевых слов и терминов**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Пример текстовых данных
documents = [
    "Машинное обучение - это интересная область.",
    "Обучение с учителем - ключевой аспект машинного обучения.",
    "Область NLP также связана с машинным обучением."
]

# Создание объекта TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Применение TF-IDF к текстовым данным
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Получение списка ключевых слов и их значения TF-IDF для первого документа
feature_names = tfidf_vectorizer.get_feature_names_out()
tfidf_scores = tfidf_matrix.toarray()[0]

print("Ключевые слова:", feature_names)
print("Значения TF-IDF:", tfidf_scores)

# Stop program
input("Press Enter to exit...")





# Сортировка слов по значениям TF-IDF
sorted_keywords = [word for _, word in sorted(zip(tfidf_scores, feature_names), reverse=True)]

print("Ключевые слова:", sorted_keywords)

Ключевые слова: ['nlp' 'аспект' 'интересная' 'ключевой' 'машинного' 'машинное' 'машинным'
 'область' 'обучение' 'обучением' 'обучения' 'связана' 'также' 'учителем'
 'это']
Значения TF-IDF: [0.         0.         0.49047908 0.         0.         0.49047908
 0.         0.37302199 0.37302199 0.         0.         0.
 0.         0.         0.49047908]
Press Enter to exit...
Ключевые слова: ['это', 'машинное', 'интересная', 'обучение', 'область', 'учителем', 'также', 'связана', 'обучения', 'обучением', 'машинным', 'машинного', 'ключевой', 'аспект', 'nlp']


**Обучение модели классификации на основе TF-IDF**

In [18]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# Пример данных для классификации
categories = ["технологии", "спорт", "политика"]
labels = [0, 1, 2]
data = ["Машинное обучение - это интересная область.",
        "Обучение с учителем - ключевой аспект машинного обучения.",
        "Область NLP также связана с машинным обучением.",
        ]
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

# Преобразование текстовых данных в матрицу TF-IDF
tfidf_vectorizer = TfidfVectorizer()
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Обучение модели классификации
classifier = MultinomialNB()
classifier.fit(X_train_tfidf, y_train)

# Предсказание категорий для тестовых данных
y_pred = classifier.predict(X_test_tfidf)

# Оценка точности модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy}")

Точность модели: 0.0


**Применение N-грамм вместе с TF-IDF**

In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Пример текстовых данных
documents = [
    "Искусственный интеллект становится все более распространенным.",
    "Интеллектуальные системы обладают большим потенциалом."
]

# Создание объекта TfidfVectorizer с использованием биграмм
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 2))

# Применение TF-IDF к текстовым данным
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Получение списка фичей и их значения TF-IDF для первого документа
feature_names = tfidf_vectorizer.get_feature_names_out()
tfidf_scores = tfidf_matrix.toarray()[0]

# Сортировка фичей по значениям TF-IDF
sorted_features = [feature for _, feature in sorted(zip(tfidf_scores, feature_names), reverse=True)]

print("Важные фичи:", sorted_features)

Важные фичи: ['становится все', 'становится', 'распространенным', 'искусственный интеллект', 'искусственный', 'интеллект становится', 'интеллект', 'все более', 'все', 'более распространенным', 'более', 'системы обладают', 'системы', 'потенциалом', 'обладают большим', 'обладают', 'интеллектуальные системы', 'интеллектуальные', 'большим потенциалом', 'большим']


**Удаление стоп-слов и специальных символов**

In [20]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

# Загрузка стоп-слов и пунктуации
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))
punctuation = set(string.punctuation)

def preprocess_text(text):
    words = word_tokenize(text.lower())  # Привести к нижнему регистру и токенизировать
    filtered_words = [word for word in words if word not in stop_words and word not in punctuation]
    return " ".join(filtered_words)

# Пример предобработки текстовых данных
text = "Машинное обучение - это интересная область, изучаемая многими."
preprocessed_text = preprocess_text(text)
print("Предобработанный текст:", preprocessed_text)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Предобработанный текст: машинное обучение это интересная область изучаемая многими


**Приведение к нижнему регистру и лемматизация**

In [26]:
import spacy

# Загрузка языковой модели spaCy
nlp = spacy.load('uz_core_news_lg')

def preprocess_and_lemmatize(text):
    doc = nlp(text.lower())  # Привести к нижнему регистру и лемматизировать
    lemmatized_words = [token.lemma_ for token in doc if token.text not in punctuation and token.text not in stop_words]
    return " ".join(lemmatized_words)

# Пример предобработки и лемматизации текста
text = "Машинное обучение - это интересная область, изучаемая многими."
preprocessed_lemmatized_text = preprocess_and_lemmatize(text)
print("Предобработанный и лемматизированный текст:", preprocessed_lemmatized_text)

OSError: [E050] Can't find model 'uz_core_news_lg'. It doesn't seem to be a Python package or a valid path to a data directory.