# Обучение моделей NLP

## Категоризация текстовых документов

### Импорт библиотек

In [None]:
import nltk
from nltk.stem.snowball import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

### Обучающие данные

In [None]:
# Пример данных для обучения (новостные статьи и соответствующие им категории)
news_articles = [
    ("Путин выступил на международной конференции", "Политика"),
    ("Космический аппарат успешно достиг Марса", "Наука"),
    ("Команда победила в чемпионате по футболу", "Спорт"),
    ("Обнаружено новое заболевание, вызванное вирусом", "Здоровье")
]

### Обработка данных

In [None]:
# Предварительная обработка текста
def preprocess_text(text):
    # Токенизация текста
    tokens = nltk.word_tokenize(text)
    # Приведение к нижнему регистру
    tokens = [token.lower() for token in tokens]
    # Стемминг текста
    stemmer = SnowballStemmer("russian")
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    # Возвращение текста в виде строки
    return ' '.join(stemmed_tokens)


# Подготовка данных для обучения
X = [preprocess_text(article[0]) for article in news_articles]
y = [article[1] for article in news_articles]

### Обучение данных

In [None]:
# Создание TF-IDF векторов
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(X)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели классификации наивного Байеса
model = MultinomialNB()
model.fit(X_train, y_train)

### Оценка точности

In [None]:
# Оценка точности модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Точность модели:", accuracy)

# Отчет о классификации
print(classification_report(y_test, y_pred))

### Использование модели

In [None]:
new_article = "Достигли новой планеты"

In [None]:
new_article = preprocess_text(new_article)
new_article_vectorized = vectorizer.transform([new_article])
prediction = model.predict(new_article_vectorized)
print("Прогноз категории для новой статьи:", prediction[0])

## Cистема "Чат-бот"

### Импорт библиотек

In [None]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

### Обучающие данные

In [None]:
questions = [
    "Как тебя зовут?",
    "Как дела?",
    "Что ты умеешь?",
    "Чем занимаешься?"
]

answers = [
    "Меня зовут ChatGPT. Я искусственный интеллект, созданный OpenAI.",
    "У меня все отлично, спасибо за спрос.",
    "Я могу отвечать на вопросы, помогать в решении задач и многое другое.",
    "Я разговариваю с вами! :)"
]

### Обучение модели

In [None]:
# Векторизация текста и обучение модели
vectorizer = TfidfVectorizer()
classifier = MultinomialNB()

# Создание пайплайна
model = make_pipeline(vectorizer, classifier)

# Обучение модели
model.fit(questions, answers)

### Использование модели

In [None]:
# Функция для предсказания ответа на вопрос
def get_response(question):
    return model.predict([question])[0]

# Тестирование модели
while True:
    user_input = input("Вы: ")
    if user_input.lower() == 'выход':
        break
    response = get_response(user_input)
    print("Бот:", response)

## Ответы на вопросы по тексту

In [None]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

### Обучающие данные

In [None]:
training_text = """
Python - это высокоуровневый язык программирования общего назначения, 
который широко используется для разработки веб-приложений, научных 
вычислений, искусственного интеллекта и других сфер. Он имеет простой 
и понятный синтаксис, что делает его очень популярным среди начинающих 
и опытных программистов.

NLP (Natural Language Processing) - это область искусственного интеллекта, 
которая занимается взаимодействием между компьютерами и естественными 
языками человека. Она включает в себя обработку текста, анализ смысла, 
разговорное распознавание речи и многое другое.
"""

### Обработка текста

In [None]:
# Функция для предварительной обработки текста
def preprocess_text(text):
    # Разделение текста на предложения
    sentences = nltk.sent_tokenize(text)
    # Преобразование предложений в нижний регистр
    sentences = [sentence.lower() for sentence in sentences]
    return sentences

# Получение предобработанных предложений
sentences = preprocess_text(training_text)

### Обучение модели

In [None]:
# Векторизация текста и обучение модели
vectorizer = TfidfVectorizer()
classifier = MultinomialNB()

# Создание пайплайна
model = make_pipeline(vectorizer, classifier)

# Обучение модели
model.fit(sentences, list(range(len(sentences))))

### Использование модели

In [None]:
# Функция для предсказания ответа на вопрос
def get_response(question):
    # Предобработка вопроса
    question = preprocess_text(question)
    # Предсказание ответа на основе вопроса
    predicted_sentence_index = model.predict(question)[0]
    return sentences[predicted_sentence_index]

# Тестирование модели
while True:
    user_input = input("Вы: ")
    if user_input.lower() == 'выход':
        break
    response = get_response(user_input)
    print("Бот:", response)