In [1]:
import json
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

nltk.download('punkt')

def summarize_text(text, max_len=300):
    sentences = nltk.sent_tokenize(text)
    if len(sentences) <= 2:
        return text[:max_len]
    
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(sentences)
    
    n_clusters = max(1, len(sentences) // 3)
    kmeans = KMeans(n_clusters=n_clusters)
    kmeans.fit(X)
    
    cluster_centers = kmeans.cluster_centers_
    cluster_labels = kmeans.labels_
    
    summary_sentences = []
    for i in range(n_clusters):
        cluster_indices = [j for j, label in enumerate(cluster_labels) if label == i]
        representative_index = cluster_indices[0]
        summary_sentences.append(sentences[representative_index])
    
    summary = ' '.join(summary_sentences)
    if len(summary) > max_len:
        summary = summary[:max_len]
    
    return summary

def main():
    try:
        with open('dataset_43428_6.txt', 'r', encoding='utf-8') as reader:
            texts = reader.read()
        
        texts = json.loads(texts)
        
        summaries = [summarize_text(text) for text in texts]
        with open('result3.json', 'w', encoding='utf-8') as writer:
            json.dump(summaries, writer, ensure_ascii=False, indent=4)
        
    except Exception as e:
        print(f"An error occurred: {e}")

if __name__ == "__main__":
    main()


[nltk_data] Downloading package punkt to /home/karpov/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


# The score is 0.137
Этот код использует nltk для токенизации предложений и scikit-learn для векторизации текста и кластеризации предложений.

Функция summarize_text:

Токенизирует текст на предложения.
Если предложений меньше или равно двум, возвращает первые 300 символов текста.
Векторизует предложения, используя TF-IDF.
Кластеризует предложения, используя K-Means.
Выбирает по одному предложению из каждого кластера как наиболее представительное.
Объединяет выбранные предложения в реферат.
Если длина реферата превышает 300 символов, обрезает его.
Функция main:

Читает тексты из файла dataset_43428_6.txt.
Применяет функцию summarize_text к каждому тексту.
Записывает результаты в файл result3.json.