In [10]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
import os
import markovify
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re

# Descargar recursos adicionales de NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Ruta del archivo de texto
ruta_archivo = ".\\interes.txt"

# Rutas de los códigos
ruta_archivo_1 = ".\\calc.c"
ruta_archivo_2 = ".\\calc1.c"

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\crisb\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\crisb\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [13]:
# Función para cargar el contenido de un archivo


def cargar_contenido(ruta_archivo):
    with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
        contenido = archivo.read()
    return contenido

In [94]:
def crear_modelo(texto):
    return markovify.Text(texto)

# 3. Generar el texto sintético


def generar_texto_sintetico(modelo, num_oraciones=25):
    texto_sintetico = ''
    for _ in range(num_oraciones):
        oracion = modelo.make_sentence()
        if oracion:
            texto_sintetico += oracion + '\n'
    return texto_sintetico


# Cargar el contenido del archivo de texto
texto_original = cargar_contenido(ruta_archivo)

# Crear el modelo de texto con Markovify
modelo = crear_modelo(texto_original)

# Generar el texto sintético
texto_sintetico = generar_texto_sintetico(modelo)

# Imprimir texto original

print("\nTexto Original:\n", texto_original)

# Imprimir el texto sintético generado
print("\n\n*************************************************************")
print("\nTexto Sintético Generado:\n", texto_sintetico)

synthetic_text = ' '.join([word for word in texto_sintetico.split()])

# Crear un corpus combinado de texto original y sintético
corpus = [texto_original, synthetic_text]

# Generar vectores TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(corpus)

# Calcular la similitud de coseno
similarity = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

print("\nSimilitud de Coseno entre el Texto Original y el Texto Sintético:",
      round(similarity[0][0], 4))


Texto Original:
 La carrera espacial, un capítulo fascinante en la historia de la humanidad, ha sido una narrativa llena de ambición, innovación y rivalidad geopolítica que ha impulsado los límites de la exploración humana más allá de la atmósfera terrestre. Este emocionante período, que se desarrolló principalmente durante la Guerra Fría entre Estados Unidos y la Unión Soviética, marcó el comienzo de una era de descubrimiento cósmico sin precedentes.

El punto de partida oficial de la carrera espacial se remonta al 4 de octubre de 1957, cuando la Unión Soviética lanzó el Sputnik 1, el primer satélite artificial de la Tierra, al espacio. Este evento histórico no solo marcó el inicio de la exploración espacial, sino que también desencadenó una intensa competencia entre Estados Unidos y la URSS por la supremacía tecnológica y militar en el cosmos.

La respuesta estadounidense no se hizo esperar, y en 1958, la NASA fue establecida como una respuesta directa al desafío soviético. En los a

In [15]:
# Función para preprocesar el texto


def preprocesar_texto(texto):
    tokens = word_tokenize(texto)  # Tokenización
    # Se convierte todo a minúsculas
    tokens = [token.lower() for token in tokens if token.isalnum()]
    # Al programarse en inglés, se toman en cuenta las palabras vacías de ese idioma
    stop_words = set(stopwords.words('english'))
    # Eliminar palabras vacías
    tokens = [token for token in tokens if token not in stop_words]
    stemmer = PorterStemmer()  # Inicializar el stemmer
    tokens = [stemmer.stem(token) for token in tokens]  # Aplicar stemming
    return ' '.join(tokens)  # Devolver texto preprocesado como una cadena

# Cargar el contenido de los archivos
contenido_1 = cargar_contenido(ruta_archivo_1)
contenido_2 = cargar_contenido(ruta_archivo_2)

# Preprocesar el texto de ambos archivos
texto_preprocesado_1 = preprocesar_texto(contenido_1)
texto_preprocesado_2 = preprocesar_texto(contenido_2)

# Crear un corpus combinado de texto original y preprocesado
corpus = [texto_preprocesado_1, texto_preprocesado_2]

# Generar vectores TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(corpus)

# Calcular la similitud de coseno entre los vectores TF-IDF de los archivos
similitud_coseno = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

print("Similitud de Coseno entre los Archivos:", round(similitud_coseno[0][0], 4))

Similitud de Coseno entre los Archivos: 0.7299
