# Description

In [1]:
#you can remove stop words for speed
from nltk.corpus import stopwords 
# Helps to find the similarity between two vectors.
from nltk.cluster.util import cosine_distance 
import numpy as np
# used for the creation, manipulation, and study of complex networks or graphs.
import networkx as nx

In [5]:
!pip install spacy



In [2]:
import spacy

!python -m spacy download fr_core_news_sm
!python -m spacy download de_core_news_sm
!python -m spacy download es_core_news_sm


nlp_french = spacy.load("fr_core_news_sm")
nlp_german = spacy.load("de_core_news_sm")
nlp_spanish = spacy.load("es_core_news_sm")


# Define the list of file paths
textfiles = [
    r'C:\Users\pavan\Documents\French.txt',
    r"C:\Users\pavan\Documents\german.txt",
    r"C:\Users\pavan\Documents\spanish.txt",
]

# Create lists to hold sentences for each file
sentences_lists = [[] for _ in range(len(textfiles))]

# Function to tokenize sentences and identify language using spaCy
def tokenize_sentences_and_identify_language(text, nlp):
    doc = nlp(text)
    sentences = [sent.text for sent in doc.sents]
    language = doc.lang_
    return sentences, language

# Loop through each file and tokenize sentences
for index, filepath in enumerate(textfiles):
    with open(filepath, "r", encoding="utf-8") as file:
        filedata = file.readline().strip()  # Read only the first line (paragraph)
        sentences, language = tokenize_sentences_and_identify_language(filedata, 
                                                                       nlp_french 
                                                                       if "French" in filepath 
                                                                       else (nlp_german 
                                                                       if "german" in filepath 
                                                                       else nlp_spanish))
        sentences_lists[index].extend(sentences)
        print(f"Language identified for {filepath}: {language}")

# Print the sentences for each file
for index, sentences in enumerate(sentences_lists):
    print(f"\nSentences for file {textfiles[index]}:")
    for sentence in sentences:
        print(sentence)


Collecting fr-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.7.0/fr_core_news_sm-3.7.0-py3-none-any.whl (16.3 MB)
     ---------------------------------------- 0.0/16.3 MB ? eta -:--:--
     ---------------------------------------- 0.0/16.3 MB ? eta -:--:--
     --------------------------------------- 0.0/16.3 MB 487.6 kB/s eta 0:00:34
     --------------------------------------- 0.1/16.3 MB 544.7 kB/s eta 0:00:30
     --------------------------------------- 0.1/16.3 MB 435.7 kB/s eta 0:00:38
     --------------------------------------- 0.1/16.3 MB 435.7 kB/s eta 0:00:38
     --------------------------------------- 0.1/16.3 MB 479.3 kB/s eta 0:00:34
     --------------------------------------- 0.2/16.3 MB 731.4 kB/s eta 0:00:22
      --------------------------------------- 0.4/16.3 MB 1.1 MB/s eta 0:00:15
     - -------------------------------------- 0.6/16.3 MB 1.6 MB/s eta 0:00:10
     -- -------------------------------

In [3]:
sentences_lists

[["Le soleil se lève à l'horizon, éclairant doucement la terre qui s'éveille."],
 ['Die Sonne bricht langsam über den Horizont, erleuchtet die Welt in goldenem Licht.'],
 ['El sol se eleva en el horizonte, disipando las sombras de la noche.',
  'Las aves comienzan a cantar, llenando el aire con sus melodías alegres.',
  'Una brisa suave acaricia la piel, trayendo consigo un soplo de frescura.',
  'Las flores despiertan de su sueño, abriendo sus pétalos al nuevo día.',
  'En las calles, la vida comienza a palpitar, con gente que se prepara para el día que empieza.',
  'El aroma del café flota en el aire, invitando a despertar los sentidos.',
  'Los niños salen a jugar, corriendo y riendo bajo el cielo despejado.',
  'En los campos, los agricultores trabajan la tierra, sembrando semillas de esperanza.',
  'El murmullo de los arroyos acompaña el amanecer, cantando una canción eterna.',
  'En la ciudad, las luces se encienden poco a poco, iluminando el camino de aquellos que madrugan.',
  

In [4]:
for i in range(len(sentences_lists)):
    print(f'-------------Text{i}--------------')
    print(' '*10)
    print(sentences_lists[i])
    print(' '*10)

-------------Text0--------------
          
["Le soleil se lève à l'horizon, éclairant doucement la terre qui s'éveille."]
          
-------------Text1--------------
          
['Die Sonne bricht langsam über den Horizont, erleuchtet die Welt in goldenem Licht.']
          
-------------Text2--------------
          
['El sol se eleva en el horizonte, disipando las sombras de la noche.', 'Las aves comienzan a cantar, llenando el aire con sus melodías alegres.', 'Una brisa suave acaricia la piel, trayendo consigo un soplo de frescura.', 'Las flores despiertan de su sueño, abriendo sus pétalos al nuevo día.', 'En las calles, la vida comienza a palpitar, con gente que se prepara para el día que empieza.', 'El aroma del café flota en el aire, invitando a despertar los sentidos.', 'Los niños salen a jugar, corriendo y riendo bajo el cielo despejado.', 'En los campos, los agricultores trabajan la tierra, sembrando semillas de esperanza.', 'El murmullo de los arroyos acompaña el amanecer, ca

In [5]:
# step-2 to find similarity between two sentences 
def sentence_similarity(sent1, sent2 ):
    sent1 = [w.lower() for w in sent1]
    sent2 = [w.lower() for w in sent2]
    all_words = list(set(sent1 + sent2))
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
    # build the vector for the first sentence
    for w in sent1:
        vector1[all_words.index(w)] += 1
        # build the vector for the second sentence
    for w in sent2:
        vector2[all_words.index(w)] += 1
    return 1 - cosine_distance(vector1, vector2)

In [6]:
similarity=[]
for i in sentences_lists:
    similarity_matrix = np.zeros((len(i), len(i)))
    for idx1 in range(len(i)):
        for idx2 in range(len(i)):
            if idx1 == idx2: #ignore if both are same sentences
                continue
            similarity_matrix[idx1][idx2] = sentence_similarity(i[idx1], i[idx2])
    similarity.append(similarity_matrix)

In [7]:
similarity

[array([[0.]]),
 array([[0.]]),
 array([[0.        , 0.9401792 , 0.88509804, 0.939831  , 0.88817461,
         0.95015131, 0.94350922, 0.9167223 , 0.86454051, 0.91828903,
         0.93784044, 0.89136936, 0.96442481, 0.93256369, 0.86688726,
         0.88497471, 0.90738841, 0.89204179, 0.91843629, 0.92983169,
         0.9139579 , 0.92103765, 0.97102352, 0.90281761],
        [0.9401792 , 0.        , 0.92941311, 0.91595798, 0.9313709 ,
         0.94540508, 0.90007496, 0.9597311 , 0.94815316, 0.93116129,
         0.86353468, 0.94506686, 0.93463288, 0.96916021, 0.8246274 ,
         0.93518624, 0.96483367, 0.89131233, 0.96718973, 0.9413977 ,
         0.95161384, 0.9228616 , 0.91548223, 0.93846842],
        [0.88509804, 0.92941311, 0.        , 0.91960636, 0.90869777,
         0.92457071, 0.91796491, 0.93552164, 0.92365381, 0.9231637 ,
         0.84664095, 0.9306534 , 0.88772237, 0.91435425, 0.88872656,
         0.90603334, 0.92778015, 0.89197106, 0.96492244, 0.92544391,
         0.92418273, 0.8

In [8]:
# Step 3 - Rank sentences in similarity martix
score=[]
for i in similarity:
    sentence_similarity_graph = nx.from_numpy_array(i)
    scores = nx.pagerank(sentence_similarity_graph)
    score.append(scores)

In [9]:
score

[{0: 1.0},
 {0: 1.0},
 {0: 0.04216683476889179,
  1: 0.042654771628178406,
  2: 0.04200259336498004,
  3: 0.041777984278188435,
  4: 0.04130469649293941,
  5: 0.042593631407275415,
  6: 0.04156037675281019,
  7: 0.042112534522930116,
  8: 0.04134434416335089,
  9: 0.041842316505830035,
  10: 0.04052024570672929,
  11: 0.04183030888161961,
  12: 0.042206077275796755,
  13: 0.04223906968119704,
  14: 0.039009196362349834,
  15: 0.04089843851720168,
  16: 0.04208518737194219,
  17: 0.04068747275102881,
  18: 0.04237444024230949,
  19: 0.04192175232668565,
  20: 0.042029715509244656,
  21: 0.04130540541025096,
  22: 0.04147088418785383,
  23: 0.04206172189041523}]

In [10]:
ranked_sentences = []
for sentence_list in sentences_lists:
    ranked_sentence = sorted(((score, sentence) for score, sentence in zip(scores, sentence_list)), reverse=True)
    ranked_sentences.append(ranked_sentence)

In [11]:
ranked_sentences

[[(0,
   "Le soleil se lève à l'horizon, éclairant doucement la terre qui s'éveille.")],
 [(0,
   'Die Sonne bricht langsam über den Horizont, erleuchtet die Welt in goldenem Licht.')],
 [(23,
   'Y así, el ciclo de la vida continúa, con cada día que trae consigo nuevas experiencias y aprendizajes.'),
  (22,
   'Los sueños nos llevan a lugares lejanos, donde todo es posible y nada es imposible.'),
  (21,
   'La noche cae suavemente, cubriendo el mundo con un manto de estrellas.'),
  (20,
   'El amor y la amistad llenan el aire, haciendo que cada día sea único y especial.'),
  (19,
   'En los hogares, las familias se reúnen para compartir comidas y momentos especiales.'),
  (18,
   'Las risas y conversaciones llenan los cafés, creando un ambiente acogedor y familiar.'),
  (17, 'La ciudad bulle de actividad, con gente que va y viene sin descanso.'),
  (16,
   'Las montañas se recortan contra el cielo azul, majestuosas y eternas en su grandeza.'),
  (15,
   'En las playas, el mar brilla b

In [13]:
# Finish off by printing summary.

for i in ranked_sentences:
    n = int(input("How many sentences do you want in the summary? "))
  
    for i in range(n):
        print("".join(ranked_sentence[i][1]))

How many sentences do you want in the summary? 3
Y así, el ciclo de la vida continúa, con cada día que trae consigo nuevas experiencias y aprendizajes.
Los sueños nos llevan a lugares lejanos, donde todo es posible y nada es imposible.
La noche cae suavemente, cubriendo el mundo con un manto de estrellas.
How many sentences do you want in the summary? 4
Y así, el ciclo de la vida continúa, con cada día que trae consigo nuevas experiencias y aprendizajes.
Los sueños nos llevan a lugares lejanos, donde todo es posible y nada es imposible.
La noche cae suavemente, cubriendo el mundo con un manto de estrellas.
El amor y la amistad llenan el aire, haciendo que cada día sea único y especial.
How many sentences do you want in the summary? 6
Y así, el ciclo de la vida continúa, con cada día que trae consigo nuevas experiencias y aprendizajes.
Los sueños nos llevan a lugares lejanos, donde todo es posible y nada es imposible.
La noche cae suavemente, cubriendo el mundo con un manto de estrellas