In [16]:
import os
import re
import nltk
from nltk.corpus import stopwords
from nltk import word_tokenize
import spacy
from spacy.tokens import Span
import random
from spacy.util import minibatch, compounding
from spacy.training.example import Example
from PyPDF2 import PdfReader
from pptx import Presentation
from docx import Document
from collections import Counter
person_tagger = spacy.load("es_core_news_sm")
stop_words = set(stopwords.words('spanish'))

#Para detector de plagio
from sentence_transformers import SentenceTransformer, util
from difflib import SequenceMatcher

#Para web:
from googlesearch import search
import requests
from bs4 import BeautifulSoup
import fnmatch
import time

In [2]:
#.docx .pptx .pdf
def obtener_nombre_archivos(extension):
    archivos = []
    for archivo in os.listdir("./dataset"):
        if archivo.endswith(extension):
            archivos.append(archivo)
    return archivos

def leer_pdf(ruta_archivo):
    archivoLectura = open(ruta_archivo,'rb')
    documento = PdfReader(archivoLectura)
    texto_documento = ""

    for pagina in documento.pages:
        texto_documento += pagina.extract_text()

    texto_limpio = re.sub(r'[^a-zA-Z0-9.,áéíóúÁÉÍÓÚñÑ]+', ' ', texto_documento)
    return texto_limpio

def leer_pptx(filepath):
    presentation = Presentation(filepath)
    texto_documento = ""

    # Recorrer todas las diapositivas
    for slide in presentation.slides:
        # Recorrer todos los elementos de texto en la diapositiva
        for shape in slide.shapes:
            if shape.has_text_frame:
                for paragraph in shape.text_frame.paragraphs:
                    for run in paragraph.runs:
                        texto_documento += run.text
                        texto_documento += " "
                        
    texto_limpio = re.sub(r'[^a-zA-Z0-9.,áéíóúÁÉÍÓÚñÑ]+', ' ', texto_documento)
    return texto_limpio

def leer_docx(ruta_archivo):
    doc = Document(ruta_archivo)
    texto_documento = ""

    # Recorrer todos los párrafos del documento
    for paragraph in doc.paragraphs:
        texto_documento += paragraph.text
        texto_documento += " "

    texto_limpio = re.sub(r'[^a-zA-Z0-9.,áéíóúÁÉÍÓÚñÑ]+', ' ', texto_documento)
    return texto_limpio

def leer_web(link):
    try:
        pagina = requests.get(link).text
        soup = BeautifulSoup(pagina, 'html.parser')
        buscarContenido = soup.find('body')
        
        if buscarContenido:
            parrafos = buscarContenido.find_all('p')
            listaStr = []
            
            for elemento in parrafos:
                parrafo = elemento.get_text(strip=True)
                texto_limpio = re.sub(r'[^a-zA-Z0-9.,áéíóúÁÉÍÓÚñÑ\s]+', ' ', parrafo)
                listaStr.append(texto_limpio)
            
            texto_concatenado = ' '.join(listaStr)
            return texto_concatenado
        else:
            print("No se encontró contenido en la página.")
            return ""
    except requests.exceptions.RequestException as e:
        print("Error al acceder a la página:", e)
        return ""

def leer_documentos(nombre_archivos):
    archivos = []
    for archivo in nombre_archivos:
        if(archivo.endswith(".pdf")):
            archivos.append(leer_pdf("./dataset/" + archivo))
        if(archivo.endswith(".pptx")):
            archivos.append(leer_pptx("./dataset/" + archivo))
        if(archivo.endswith(".docx")):
            archivos.append(leer_docx("./dataset/" + archivo))
    return archivos

def leer_archivo_analizar(nombre_archivo):
    if(nombre_archivo.endswith(".pdf")):
            return leer_pdf(nombre_archivo)
    if(nombre_archivo.endswith(".pptx")):
            return leer_pptx(nombre_archivo)
    if(nombre_archivo.endswith(".docx")):
            return leer_docx(nombre_archivo)
    if(nombre_archivo.startswith("https://")):
            return leer_web(nombre_archivo)

def obtener_nombre_archivo(ruta):
    if(ruta.startswith("https://")):
        return ruta
    nombre_archivo = os.path.basename(ruta)
    return nombre_archivo

In [3]:
# Ejecución
nombres_archivos_pdf = obtener_nombre_archivos(".pdf")
nombres_archivos_docx = obtener_nombre_archivos(".docx")
nombres_archivos_doc = obtener_nombre_archivos(".doc")
nombres_archivos_pptx = obtener_nombre_archivos(".pptx")
nombre_archivos = []
nombre_archivos.extend(nombres_archivos_pdf)
nombre_archivos.extend(nombres_archivos_docx)
nombre_archivos.extend(nombres_archivos_doc)
nombre_archivos.extend(nombres_archivos_pptx)
corpus = leer_documentos(nombre_archivos)

In [4]:
#nombre_archivo_a_analizar = "https://carlos-vasquez11.github.io/pagina-nlp/"
nombre_archivo_a_analizar = "./Economía de experiencia.pdf"
documento_a_analizar = leer_archivo_analizar(nombre_archivo_a_analizar)
documento_a_analizar_clean = re.sub(r'\W+', ' ', documento_a_analizar)
print("Nombre del Archivo Procesado: " + obtener_nombre_archivo(nombre_archivo_a_analizar))

Nombre del Archivo Procesado: Economía de experiencia.pdf


In [5]:
#Entrenamiento
entrenamiento = [
    ("Alumno Pedro picazo",{"entities": [(0,6,"IDENTIFICADOR")]})
]

ner = person_tagger.get_pipe("ner")

for _, anotaciones in entrenamiento:
    for ent in anotaciones.get("entities"):
        ner.add_label(ent[2])

#disable_pipes = [pipe for pipe in person_tagger.pipe_names if pipe != 'ner']
#with person_tagger.disable_pipes(*disable_pipes):
optimizer = person_tagger.resume_training()
    
for iteration in range(5):
       random.shuffle(entrenamiento)
       losses = {}
        
       batches = minibatch(entrenamiento,size=compounding(3.8,4.0,1.001))
       for batch in batches:
            examples = []
            for text, annotation in batch:
                examples.append(Example.from_dict(person_tagger.make_doc(text), annotation))
            person_tagger.update(examples, drop=0.5, losses=losses, sgd=optimizer)

#Ing Hernán Borré Estudiante Juanquin Perez | MISC o PER
            
for texto, _ in entrenamiento:
    documento = person_tagger(texto)
    print('Entities', [(ent.text, ent.label_) for ent in documento.ents])

Entities [('Alumno Pedro', 'MISC')]


In [6]:
print("Posibles nombres del Autor:")
tokens = word_tokenize(documento_a_analizar_clean)
tokens_documento = [token.lower() for token in tokens if token.lower() not in stop_words]
per_tagger = person_tagger(documento_a_analizar_clean)

def contains_word(text, word):
    return word in text

for autor in per_tagger.ents[0:12]:
    token_aux = word_tokenize(autor.text)
    if(autor.label_ == "PER" and len(token_aux) > 2):
        if(contains_word(autor.text,"Alumno")):
            index = autor.text.find("Alumno")
            nuevo_texto = autor.text[index:]
            nuevo_texto = nuevo_texto.replace("Alumno","")
            print(nuevo_texto)
        else:
            print(autor.text)

Posibles nombres del Autor:
 Gallazzi Pablo Gabriel


In [7]:
def eliminar_ultima_palabra(cadena):
    palabras = cadena.split()
    palabras_sin_ultima = palabras[:-1]
    nueva_cadena = " ".join(palabras_sin_ultima)
    return nueva_cadena

def obtener_tema_documento(text, allowed_postags=["NOUN", "ADJ", "VERB", "ADV"]):
    nlp = spacy.load("es_core_news_sm", disable=["parser", "ner"])
    doc = nlp(text)
    new_text = []
    propn = 0
    final = ""
    final_verdadero = ""
    while len(word_tokenize(final_verdadero)) < 2:
        for token in doc:
            if token.pos_ == "PROPN":
                propn += 1
            else:
                propn = 0
            if(propn == 2):
                break;
            new_text.append(token.lower_)
        final = " ".join(new_text)
        final_verdadero = eliminar_ultima_palabra(final)
    
    return final_verdadero

temaPrincipal = ""

temaPrincipal = obtener_tema_documento(documento_a_analizar)

print(temaPrincipal)

márketing en internet y nueva economía economía de experiencia


In [8]:
#Investigar sobre LDA
def lematizacion(text, allowed_postags=["NOUN", "ADJ", "VERB", "ADV"]):
    nlp = spacy.load("es_core_news_sm", disable=["parser", "ner"])
    doc = nlp(text)
    new_text = []
    for token in doc:
        if token.pos_ in allowed_postags:
            new_text.append(token.lemma_)
    final = " ".join(new_text)
    return final

def identificar_tema(texto):
    # Procesar el texto con spaCy
    doc = person_tagger(texto)

    # Filtrar palabras irrelevantes, puntuaciones y números
    palabras = [token.text.lower() for token in doc if not token.is_stop and not token.is_punct]
    palabras = [re.sub(r'[0-9]', '', palabra) for palabra in palabras]

    # Contar la frecuencia de las palabras
    frecuencias = Counter(palabras)

    # Obtengo las 11 palabras más frecuentes
    temas_principales = [tema for tema, frecuencia in frecuencias.most_common(11)]

    #La primera posición siempre es el espacio, es mejor no retornarlo
    return temas_principales[1:]

texo_lematizado = lematizacion(documento_a_analizar)
temas = identificar_tema(texo_lematizado)
print("Temas principales:")
for tema in temas:
    print(tema)

Temas principales:
experiencia
personalización
producto
economía
dimensión
ejemplo
masivo
empresa
hablar
referir


In [9]:
#Agrego fuentes de internet al corpus
"""
query = temaPrincipal
#Por defecto nos retorna los primeros 10 resultados
for link in search(query,num_results=10):
    time.sleep(1)
    print(link)
    pagina = leer_web(link)
    corpus.append(pagina)
    nombre_archivos.append(link)
"""

'\nquery = temaPrincipal\n#Por defecto nos retorna los primeros 10 resultados\nfor link in search(query,num_results=10):\n    print(link)\n    pagina = leer_web(link)\n    corpus.append(pagina)\n    nombre_archivos.append(link)\n'

In [15]:
def parrafos_potencialmente_plagiados(documents, new_document):
    model = SentenceTransformer('paraphrase-distilroberta-base-v1')
    sentences = nltk.sent_tokenize(new_document)
    sentencesD = nltk.sent_tokenize(documents[0])

    # Embeddings de los documentos existentes
    document_embeddings = model.encode(sentencesD, convert_to_tensor=True)

    # Embeddings de las frases del nuevo documento
    new_embeddings = model.encode(sentences, convert_to_tensor=True)

    # Calcular la similitud de coseno entre los embeddings
    cos_sim_scores = util.pytorch_cos_sim(new_embeddings, document_embeddings)

    potential_plagiarized_sentences = []
    plagiarized_lines = []  # Lista para almacenar las líneas plagiadas del documento

    for i, sentence in enumerate(sentences):
        max_sim_score = max(cos_sim_scores[i])
        if max_sim_score > 0.7:  # Ajusta el umbral según sea necesario
            doc_index = cos_sim_scores[i].argmax().item()
            plagiarism_percentage = max_sim_score * 100
            potential_plagiarized_sentences.append((sentence, doc_index, i, plagiarism_percentage))

            if doc_index < len(sentencesD):
                plagiarized_lines.append(sentencesD[doc_index])  # Agregar la línea plagiada del documento
            else:
                plagiarized_lines.append("")  # Agregar una cadena vacía si el índice está fuera de rango

    return potential_plagiarized_sentences, plagiarized_lines

frases_plagiadas = set()

for index in range(len(corpus)):
    similitud = SequenceMatcher(None, documento_a_analizar, corpus[index]).ratio() * 100
    if similitud > 20:
        print("Documento analizado: " + nombre_archivos[index])
        print(f"Porcentaje de potencial plagio: {similitud:.2f}%")
        potential_plagiarized_sentences, plagiarized_lines = parrafos_potencialmente_plagiados([corpus[index]], documento_a_analizar)
        for sentence, doc_index, sent_index, plagiarism_percentage in potential_plagiarized_sentences:
            print(f"Frase: '{sentence}', Ubicación: {sent_index}")
            if doc_index < len(plagiarized_lines):
                print(f"PFPDC:  {plagiarized_lines[doc_index]}")
                frases_plagiadas.add(sent_index)
            else:
                print("No se encontró la línea correspondiente.")
        print(" ")
        
##

def contar_caracteres(lista_cadenas):
    total_caracteres = 0
    for cadena in lista_cadenas:
        total_caracteres += len(cadena)
    return total_caracteres

def contar_caracteres_por_posicion(lista_cadenas, lista_indices):
    total_caracteres = 0
    for indice in lista_indices:
        if indice < len(lista_cadenas):
            total_caracteres += len(lista_cadenas[indice])
    return total_caracteres
        
total_frases = nltk.sent_tokenize(documento_a_analizar)
caracteres_totales = contar_caracteres(total_frases)
caracteres_plagiados = contar_caracteres_por_posicion(total_frases,frases_plagiadas)
porcentaje_plagio = caracteres_plagiados / caracteres_totales * 100
print(f"Porcentaje de plagio total aproximado: {porcentaje_plagio:.2f}%")

Documento analizado: Tp3-MKT-Romano Karra.docx
Porcentaje de potencial plagio: 21.97%
Frase: ' Márketing en internet y nueva economía Economía de experiencia Profesores Dr. Alejandro Prince Ing.', Ubicación: 0
PFPDC:   Márketing en internet y nueva economía TP N. 3 Profesores Dr. Alejandro Prince Ing.
Frase: 'Qué 3 elementos hacen resurgir con fuerza la idea de una economía de experiencia 2.', Ubicación: 3
PFPDC:  Explique y grafique las dimensiones y campos de la experiencia Describa impresiones y sus distintas dimensiones.
Frase: 'Diferencias con Producto y Servicio.', Ubicación: 5
PFPDC:  Explique y grafique las dimensiones y campos de la experiencia Describa impresiones y sus distintas dimensiones.
Frase: 'Explique y grafique las dimensiones y campos de la experiencia.', Ubicación: 7
PFPDC:  De 3 ejemplos distintos reales si conoce, o invente de experiencias con estimulación de los sentidos.
Frase: 'Describa impresiones y sus distintas dimensiones.', Ubicación: 9
PFPDC:  De 3 ejemp

In [11]:
"""
    Disclaimer: Este trabajo fue desarrollado en base a lo aprendido en la cursada de la materia de Procesamiento de Lenguaje Natural de la UTN frba,
    la misma fue dicatada por el profesor Mg. Ing. Hernán Borré (https://github.com/hernanborre)
    
    Fuentes:
    (2023). Programación en Python. ChatGPT
    https://chat.openai.com/
    
    AiEgineering. (2021). Custom Named Entity Recognition using Python
    https://www.youtube.com/watch?v=1ePkOSGoIFI&t=855s&ab_channel=AIEngineering
    
    codebasics. (2021). Named Entity Recognition (NER): NLP Tutorial For Beginners - 12. Youtube.
    https://www.youtube.com/watch?v=2XUhKpH0p4M&list=PL6qsQ_bxK9ZznUs0WiDGhtOr6A_EAHWKS&index=2&t=1087s&ab_channel=codebasics
    
    fpread. (2020). scrapear para detectar plagios python. Youtube.
    https://www.youtube.com/watch?v=OzgQ0QYxO20&list=PL6qsQ_bxK9ZznUs0WiDGhtOr6A_EAHWKS&index=4&ab_channel=fpred
    
    I know python (2021). Plagiarism detector using python. Youtube.
    https://www.youtube.com/watch?v=lRzC3w2NDg0&list=PL6qsQ_bxK9ZznUs0WiDGhtOr6A_EAHWKS&index=1&ab_channel=Iknowpython
    
    (2023). collections — Container datatypes. Python Org.
    https://docs.python.org/3/library/collections.html#collections.Counter
    
    (2021). Python + Google: BÚSQUEDAS AUTOMATIZADAS: Cómo realizar búsquedas en Google usando Python. Youtube
    https://www.youtube.com/watch?v=FE-WeaNRAeI&ab_channel=TruzzBlogg
    
    (2023). googlesearch. pypi.org
    https://pypi.org/project/googlesearch-python/
    
    (2023). spaCy.
    https://spacy.io/
    
    (2023). PyPDF2. pypi.org
    https://pypi.org/project/PyPDF2/
    
    (2023). docx.
    https://python-docx.readthedocs.io/en/latest/
    
    (2023). pptx.
    https://python-pptx.readthedocs.io/en/latest/
    
    
"""

'\n    Disclaimer: Este trabajo fue desarrollado en base a lo aprendido en la cursada de la materia de Procesamiento de Lenguaje Natural de la UTN frba,\n    la misma fue dicatada por el profesor Mg. Ing. Hernán Borré (https://github.com/hernanborre)\n    \n    Fuentes:\n    (2023). Programación en Python. ChatGPT\n    https://chat.openai.com/\n    \n    AiEgineering. (2021). Custom Named Entity Recognition using Python\n    https://www.youtube.com/watch?v=1ePkOSGoIFI&t=855s&ab_channel=AIEngineering\n    \n    codebasics. (2021). Named Entity Recognition (NER): NLP Tutorial For Beginners - 12. Youtube.\n    https://www.youtube.com/watch?v=2XUhKpH0p4M&list=PL6qsQ_bxK9ZznUs0WiDGhtOr6A_EAHWKS&index=2&t=1087s&ab_channel=codebasics\n    \n    fpread. (2020). scrapear para detectar plagios python. Youtube.\n    https://www.youtube.com/watch?v=OzgQ0QYxO20&list=PL6qsQ_bxK9ZznUs0WiDGhtOr6A_EAHWKS&index=4&ab_channel=fpred\n    \n    I know python (2021). Plagiarism detector using python. Youtube