In [100]:
import spacy
import numpy as np
import en_core_web_sm
nlp = en_core_web_sm.load()
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

In [101]:
questions = [
    "Какие важнейшие открытия были сделаны в космических исследованиях в последние десятилетия?",
    "Какие возможности для будущих космических путешествий и исследований представляются самыми перспективными?",
    "Каким образом космические технологии влияют на нашу повседневную жизнь?",
    "Какие вызовы и препятствия стоят перед колонизацией других планет?",
    "Как космические агентства планируют решать проблемы связанные с мусором в космосе?",
    "Какие перспективы для развития космического туризма в ближайшие десятилетия?",
    "Каким образом космические исследования могут помочь в изучении изменений на Земле и борьбе с климатическими проблемами?",
    "Какие новые методы исследования космоса разрабатываются в настоящее время?",
    "Какие планеты или космические объекты являются наиболее интересными для будущих миссий и исследований?",
    "Какие новые проекты или миссии планируются в ближайшие годы с целью изучения космоса?"
]

answers = [
    "Открытие экзопланет, исследование черных дыр, поиск жизни в космосе, изучение космических объектов и галактик.",
    "Колонизация Марса, изучение космических объектов в поиске жизни, разработка новых двигателей для космических кораблей.",
    "Спутники связи, спутники для навигации, космические изображения для картографии, спутниковое телевидение и т.д.",
    "Недоступная атмосфера, радиационное излучение, длительные полеты, психологические аспекты жизни в космосе.",
    "Разработка систем для сбора мусора, создание более экологичных спутников, контроль над выведенными на орбиту объектами.",
    "Открытие космических отелей, экскурсии на Луну и Марс, возможность проведения космических путешествий для обычных людей.",
    "Мониторинг климатических изменений, изучение последствий глобального потепления, прогнозирование погоды и катастроф.",
    "Использование микроспутников, улучшение способов запуска в космос, разработка роботизированных миссий.",
    "Марс, Юпитер и его спутники, экзопланеты в зоне обитаемости, спутники Сатурна.",
    "Миссии на Луну и Марс, исследование космического вакуума, изучение черных дыр и галактик."
]


In [102]:
# вопрос, который задаём
question = "Как космос влияет на меня"
questions.append(question)

In [103]:
n = len(questions)
parsed = [None] * n
tx2 = [None] * n

for i in range(n):
    parsed[i] = nlp(questions[i])
    tx2[i] = " ".join([token.lemma_ for token in parsed[i] if token.pos_ != 'PUNCT'])
tx2

['Какие важнейшие открытия были сделаны в космических исследованиях в последние десятилетия',
 'Какие возможности для будущих космических путешествий и исследований представляются самыми перспективными',
 'Каким образом космические технологии влияют на нашу повседневную жизнь',
 'Какие вызовы и препятствия стоят перед колонизацией других планет',
 'Как космические агентства планируют решать проблемы связанные с мусором в космосе',
 'Какие перспективы для развития космического туризма в ближайшие десятилетия',
 'Каким образом космические исследования могут помочь в изучении изменений на Земле и борьбе с климатическими проблемами',
 'Какие новые методы исследования космоса разрабатываются в настоящее время',
 'Какие планеты или космические объекты являются наиболее интересными для будущих миссий и исследований',
 'Какие новые проекты или миссии планируются в ближайшие годы с целью изучения космоса',
 'как космос влияет на меня']

In [104]:
vectorizer = CountVectorizer()
tk = vectorizer.fit_transform(tx2)

tk_tfidf = TfidfTransformer().fit_transform(tk)

### Косинусное растояние

Косинусное расстояние - это мера сходства между двумя векторами в пространстве. В контексте текста он используется для оценки степени сходства между векторами, представляющими тексты, основываясь на угле между этими векторами.

In [105]:
from sklearn.metrics.pairwise import cosine_similarity

# Считаем косинусные расстояния между текстами
tstat = cosine_similarity(tk, tk)
tstat_tfidf = cosine_similarity(tk_tfidf, tk_tfidf)

print(question)
max_index = np.argmax(tstat[n-1, 0:(n-2)])
print(answers[max_index])

print(question)
max_index = np.argmax(tstat_tfidf[n-1, 0:(n-2)])
print(answers[max_index])

Как космос влияет на меня
Спутники связи, спутники для навигации, космические изображения для картографии, спутниковое телевидение и т.д.
Как космос влияет на меня
Разработка систем для сбора мусора, создание более экологичных спутников, контроль над выведенными на орбиту объектами.


### Кореляция

In [106]:
tkk = tk.toarray()
tstat_corr = np.corrcoef(tkk)

tkk_tfidf = tk_tfidf.toarray()
tstat_tfidf_corr = np.corrcoef(tkk_tfidf)

print(question)
max_index = np.argmax(tstat_corr[n-1, 0:(n-2)])
print(answers[max_index])

print(question)
max_index = np.argmax(tstat_tfidf_corr[n-1, 0:(n-2)])
print(answers[max_index])

Как космос влияет на меня
Разработка систем для сбора мусора, создание более экологичных спутников, контроль над выведенными на орбиту объектами.
Как космос влияет на меня
Разработка систем для сбора мусора, создание более экологичных спутников, контроль над выведенными на орбиту объектами.


### Жаккара

Коэффициент Жаккара - это статистическая мера сходства между множествами, используемая для измерения схожести элементов двух наборов данных.
​


In [107]:
jaccard_matrix = np.zeros((n, n))

for i in range(n):
    for j in range(n):
        q_tokens_1 = set(tx2[i].split())
        q_tokens_2 = set(tx2[j].split())
        jaccard_similarity=  len(q_tokens_1.intersection(q_tokens_2))/len(q_tokens_1.union(q_tokens_2))
        jaccard_matrix[i, j] = jaccard_similarity


print(question)
max_index = np.argmax(jaccard_matrix[n-1, 0:(n-2)])
print(answers[max_index])

Как космос влияет на меня
Спутники связи, спутники для навигации, космические изображения для картографии, спутниковое телевидение и т.д.


### Рэнда
Коэффициент Рэнда (Rand Index) - это мера сходства между двумя группами или разбиениями, которые могут быть использованы для оценки эффективности алгоритмов кластеризации или классификации. Этот коэффициент измеряет согласованность между двумя различными разбиениями одного и того же набора объектов.

In [108]:
from sklearn.metrics import rand_score

rand_matrix = np.zeros((n, n))
rand_tfidf_matrix = np.zeros((n, n))

for i in range(n):
    for j in range(n):
        rand = rand_score(tkk[i], tkk[j])
        rand_matrix[i, j] = rand

print(question)
max_index = np.argsort(rand_matrix[n-1, 0:(n-2)])[-1]
print(1, answers[max_index])

max_2_index = np.argsort(rand_matrix[n-1, 0:(n-2)])[-2]
print(2, answers[max_2_index])

max_3_index = np.argsort(rand_matrix[n-1, 0:(n-2)])[-3]
print(3, answers[max_3_index])

Как космос влияет на меня
1 Разработка систем для сбора мусора, создание более экологичных спутников, контроль над выведенными на орбиту объектами.
2 Спутники связи, спутники для навигации, космические изображения для картографии, спутниковое телевидение и т.д.
3 Использование микроспутников, улучшение способов запуска в космос, разработка роботизированных миссий.
