In [10]:
import nltk
nltk.download('punkt')
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загрузка данных
data = pd.read_csv('train.csv')

# Предварительная обработка текста
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())
    filtered_words = [word for word in words if word.isalnum() and word not in stop_words]
    lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_words]
    return ' '.join(lemmatized_words)

data['processed_text'] = data['text'].apply(preprocess_text)

# Создание TF-IDF модели
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['processed_text'])
y = data['y']

# Обучение классификатора
classifier = make_pipeline(StandardScaler(with_mean=False), SVC())
classifier.fit(X, y)

# Функция для предсказания необходимости выхода в интернет для нового вопроса
def predict_internet_access(question):
    processed_question = preprocess_text(question)
    X_new = vectorizer.transform([processed_question])
    prediction = classifier.predict(X_new)
    if prediction[0] == 1:
        return "Для ответа на этот вопрос требуется выход в интернет."
    else:
        return "Для ответа на этот вопрос выход в интернет не требуется."

# Ввод нового вопроса с клавиатуры
new_question = input("Введите ваш вопрос: ")
print(predict_internet_access(new_question))


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Введите ваш вопрос:  What is your favorite music group or artist?
Для ответа на этот вопрос выход в интернет не требуется.


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загрузка данных
data = pd.read_csv('train.csv')

# Предварительная обработка текста
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())
    filtered_words = [word for word in words if word.isalnum() and word not in stop_words]
    lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_words]
    return ' '.join(lemmatized_words)

data['processed_text'] = data['text'].apply(preprocess_text)

# Создание TF-IDF модели
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['processed_text'])
y = data['y']

# Обучение классификатора
classifier = make_pipeline(StandardScaler(with_mean=False), SVC())
classifier.fit(X, y)

# Функция для предсказания необходимости выхода в интернет для нового вопроса
def predict_internet_access(question):
    processed_question = preprocess_text(question)
    X_new = vectorizer.transform([processed_question])
    prediction = classifier.predict(X_new)
    if prediction[0] == 1:
        return "Для ответа на этот вопрос требуется выход в интернет."
    else:
        return "Для ответа на этот вопрос выход в интернет не требуется."

# Функция для вставки базы вопросов и получения ответов для них
def get_answers_for_questions(question_base):
    answers = {}
    for question in question_base:
        answer = predict_internet_access(question)
        answers[question] = answer
    return answers

# Пример использования функции для базы вопросов
question_base = [
    "Какова текущая оценка экономического роста в стране?",
    "Каковы последние новости о политической ситуации в мире?",
    "Какие технологические инновации были представлены на выставке CES в этом году?",
    "Какова средняя продолжительность жизни в различных странах мира?",
    "Какие фильмы получили номинации на Оскар в текущем году?",
    "Какие события происходят на фондовом рынке сегодня?",
    "Какие достопримечательности стоит посетить в городе Париже?",
    "Как ие научные открытия были сделаны в области медицины за последний год?",
    "Какие страны являются членами Европейского союза?",
    "Какие крупные спортивные события запланированы на ближайшие месяцы?"
]

answers = get_answers_for_questions(question_base)
for question, answer in answers.items():
    print("Question:", question)
    print("Answer:", answer)
    print()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Question: Какова текущая оценка экономического роста в стране?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Каковы последние новости о политической ситуации в мире?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие технологические инновации были представлены на выставке CES в этом году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какова средняя продолжительность жизни в различных странах мира?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие фильмы получили номинации на Оскар в текущем году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие события происходят на фондовом рынке сегодня?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие достопримечательности стоит посетить в городе Париже?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Как ие научные открытия были сделан

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загрузка данных
data = pd.read_csv('train.csv')

# Предварительная обработка текста
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())
    filtered_words = [word for word in words if word.isalnum() and word not in stop_words]
    lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_words]
    return ' '.join(lemmatized_words)

data['processed_text'] = data['text'].apply(preprocess_text)

# Создание TF-IDF модели
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['processed_text'])
y = data['y']

# Обучение классификатора
classifier = RandomForestClassifier()
classifier.fit(X, y)

# Функция для предсказания необходимости выхода в интернет для нового вопроса
def predict_internet_access(question):
    processed_question = preprocess_text(question)
    X_new = vectorizer.transform([processed_question])
    prediction = classifier.predict(X_new)
    if prediction[0] == 1:
        return "Для ответа на этот вопрос требуется выход в интернет."
    else:
        return "Для ответа на этот вопрос выход в интернет не требуется."

# Функция для предсказания ответов на базе вопросов
def get_answers_for_questions(question_base):
    answers = {}
    for question in question_base:
        answer = predict_internet_access(question)
        answers[question] = answer
    return answers

# База вопросов
question_base = [
    "Какова текущая оценка экономического роста в стране?",
    "Каковы последние новости о политической ситуации в мире?",
    "Какие технологические инновации были представлены на выставке CES в этом году?",
    "Какова средняя продолжительность жизни в различных странах мира?",
    "Какие фильмы получили номинации на Оскар в текущем году?",
    "Какие события происходят на фондовом рынке сегодня?",
    "Какие достопримечательности стоит посетить в городе Париже?",
    "Какие научные открытия были сделаны в области медицины за последний год?",
    "Какие страны являются членами Европейского союза?",
    "Какие крупные спортивные события запланированы на ближайшие месяцы?"
]

# Получение ответов на вопросы из базы
answers = get_answers_for_questions(question_base)

# Вывод ответов
for question, answer in answers.items():
    print("Question:", question)
    print("Answer:", answer)
    print()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Question: Какова текущая оценка экономического роста в стране?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Каковы последние новости о политической ситуации в мире?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие технологические инновации были представлены на выставке CES в этом году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какова средняя продолжительность жизни в различных странах мира?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие фильмы получили номинации на Оскар в текущем году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие события происходят на фондовом рынке сегодня?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие достопримечательности стоит посетить в городе Париже?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие научные открытия были сделаны

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import GradientBoostingClassifier
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загрузка данных
data = pd.read_csv('train.csv')

# Предварительная обработка текста
nltk.download('stopwords')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())
    filtered_words = [word for word in words if word.isalnum() and word not in stop_words]
    lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_words]
    return ' '.join(lemmatized_words)

data['processed_text'] = data['text'].apply(preprocess_text)

# Создание TF-IDF модели
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['processed_text'])
y = data['y']

# Обучение классификатора
classifier = GradientBoostingClassifier()
classifier.fit(X, y)

# Функция для предсказания необходимости выхода в интернет для нового вопроса
def predict_internet_access(question):
    processed_question = preprocess_text(question)
    X_new = vectorizer.transform([processed_question])
    prediction = classifier.predict(X_new)
    if prediction[0] == 1:
        return "Для ответа на этот вопрос требуется выход в интернет."
    else:
        return "Для ответа на этот вопрос выход в интернет не требуется."

# Функция для предсказания ответов на базе вопросов
def get_answers_for_questions(question_base):
    answers = {}
    for question in question_base:
        answer = predict_internet_access(question)
        answers[question] = answer
    return answers

# База вопросов
question_base = [
    "Какова текущая оценка экономического роста в стране?",
    "Каковы последние новости о политической ситуации в мире?",
    "Какие технологические инновации были представлены на выставке CES в этом году?",
    "Какова средняя продолжительность жизни в различных странах мира?",
    "Какие фильмы получили номинации на Оскар в текущем году?",
    "Какие события происходят на фондовом рынке сегодня?",
    "Какие достопримечательности стоит посетить в городе Париже?",
    "Какие научные открытия были сделаны в области медицины за последний год?",
    "Какие страны являются членами Европейского союза?",
    "Какие крупные спортивные события запланированы на ближайшие месяцы?"
]

# Получение ответов на вопросы из базы
answers = get_answers_for_questions(question_base)

# Вывод ответов
for question, answer in answers.items():
    print("Question:", question)
    print("Answer:", answer)
    print()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Question: Какова текущая оценка экономического роста в стране?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Каковы последние новости о политической ситуации в мире?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие технологические инновации были представлены на выставке CES в этом году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какова средняя продолжительность жизни в различных странах мира?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие фильмы получили номинации на Оскар в текущем году?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие события происходят на фондовом рынке сегодня?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие достопримечательности стоит посетить в городе Париже?
Answer: Для ответа на этот вопрос выход в интернет не требуется.

Question: Какие научные открытия были сделаны

In [None]:
predict_internet_access('Какие крупные спортивные события запланированы на ближайшие месяцы?')

'Для ответа на этот вопрос выход в интернет не требуется.'