In [1]:
#pip install PyPDF2
#pip install python-pptx
#pip install python-docx

In [2]:
import os
import re
import nltk
from nltk.corpus import stopwords
from nltk import word_tokenize
import spacy
from spacy.tokens import Span
import random
from spacy.util import minibatch, compounding
from spacy.training.example import Example
from PyPDF2 import PdfReader
from pptx import Presentation
from docx import Document
person_tagger = spacy.load("es_core_news_sm")

In [3]:
#.docx .pptx .pdf
def obtener_nombre_archivos(extension):
    archivos = []
    for archivo in os.listdir("./dataset"):
        if archivo.endswith(extension):
            archivos.append(archivo)
    return archivos

def leer_pdf(ruta_archivo):
    archivoLectura = open(ruta_archivo,'rb')
    documento = PdfReader(archivoLectura)
    texto_documento = ""

    for pagina in documento.pages:
        texto_documento += pagina.extract_text()

    texto_limpio = re.sub(r'\W+', ' ', texto_documento)
    #texto_limpio = re.sub(r'\s+', ' ', texto_limpio)
    return texto_limpio

def leer_pptx(filepath):
    presentation = Presentation(filepath)
    texto_documento = ""

    # Recorrer todas las diapositivas
    for slide in presentation.slides:
        # Recorrer todos los elementos de texto en la diapositiva
        for shape in slide.shapes:
            if shape.has_text_frame:
                for paragraph in shape.text_frame.paragraphs:
                    for run in paragraph.runs:
                        texto_documento += run.text
                        texto_documento += " "
                        
    texto_limpio = re.sub(r'\W+', ' ', texto_documento)
    texto_limpio = re.sub(r'\s+', ' ', texto_limpio)
    return texto_limpio

def leer_docx(ruta_archivo):
    doc = Document(ruta_archivo)
    texto_documento = ""

    # Recorrer todos los párrafos del documento
    for paragraph in doc.paragraphs:
        texto_documento += paragraph.text
        texto_documento += " "

    texto_limpio = re.sub(r'\W+', ' ', texto_documento)
    texto_limpio = re.sub(r'\s+', ' ', texto_limpio)
    return texto_limpio

def leer_documentos(nombre_archivos):
    archivos = []
    for archivo in nombre_archivos:
        if(archivo.endswith(".pdf")):
            archivos.append(leer_pdf("./dataset/" + archivo))
        if(archivo.endswith(".pptx")):
            archivos.append(leer_pptx("./dataset/" + archivo))
        if(archivo.endswith(".docx")):
            archivos.append(leer_docx("./dataset/" + archivo))
    return archivos

def leer_archivo_analizar(nombre_archivo):
    if(nombre_archivo.endswith(".pdf")):
            return leer_pdf(nombre_archivo)
    if(nombre_archivo.endswith(".pptx")):
            return leer_pptx(nombre_archivo)
    if(nombre_archivo.endswith(".docx")):
            return leer_docx(nombre_archivo)
    if(nombre_archivo.startswith("https://")):
            return "es web"

def obtener_nombre_archivo(ruta):
    nombre_archivo = os.path.basename(ruta)
    return nombre_archivo

In [4]:
# Ejecución
nombres_archivos_pdf = obtener_nombre_archivos(".pdf")
nombres_archivos_docx = obtener_nombre_archivos(".docx")
nombres_archivos_doc = obtener_nombre_archivos(".doc")
nombres_archivos_pptx = obtener_nombre_archivos(".pptx")
nombre_archivos = []
nombre_archivos.extend(nombres_archivos_pdf)
nombre_archivos.extend(nombres_archivos_docx)
nombre_archivos.extend(nombres_archivos_doc)
nombre_archivos.extend(nombres_archivos_pptx)
corpus = leer_documentos(nombre_archivos)
nombre_archivo_a_analizar = "./documentoSospechoso.pdf"
documento_a_analizar = leer_archivo_analizar(nombre_archivo_a_analizar)

In [5]:
#corpus[0]

In [6]:
print("Nombre del Archivo Procesado: " + nombre_archivo_a_analizar[2:])

Nombre del Archivo Procesado: documentoSospechoso.pdf


In [7]:
#Entrenamiento
#AIEngineering - Custom Named Entity Recognition using Python
entrenamiento = [
    ("Alumno Pedro picazo",{"entities": [(0,6,"IDENTIFICADOR")]})
]

ner = person_tagger.get_pipe("ner")

for _, anotaciones in entrenamiento:
    for ent in anotaciones.get("entities"):
        ner.add_label(ent[2])

#disable_pipes = [pipe for pipe in person_tagger.pipe_names if pipe != 'ner']
#with person_tagger.disable_pipes(*disable_pipes):
optimizer = person_tagger.resume_training()
    
for iteration in range(5):
       random.shuffle(entrenamiento)
       losses = {}
        
       batches = minibatch(entrenamiento,size=compounding(3.8,4.0,1.001))
       for batch in batches:
            examples = []
            for text, annotation in batch:
                examples.append(Example.from_dict(person_tagger.make_doc(text), annotation))
            person_tagger.update(examples, drop=0.5, losses=losses, sgd=optimizer)


for texto, _ in entrenamiento:
    documento = person_tagger(texto)
    print('Entities', [(ent.text, ent.label_) for ent in documento.ents])

Entities [('Alumno Pedro', 'MISC')]


In [16]:
print("Posibles nombres del Autor:")
tokens = word_tokenize(documento_a_analizar)
stop_words = set(stopwords.words('spanish'))
tokens_documento = [token.lower() for token in tokens if token.lower() not in stop_words]
per_tagger = person_tagger(documento_a_analizar)

def contains_word(text, word):
    return word in text

for autor in per_tagger.ents[0:12]:
    token_aux = word_tokenize(autor.text)
    if(autor.label_ == "PER" and len(token_aux) > 2):
        if(contains_word(autor.text,"Alumno")):
            index = autor.text.find("Alumno")
            nuevo_texto = autor.text[index:]
            nuevo_texto = nuevo_texto.replace("Alumno","")
            print(nuevo_texto)
        else:
            print(autor.text)

Posibles nombres del Autor:
Dr Alejandro Prince Ing Hern
 Gallazzi Pablo Gabriel


In [9]:
import requests
from bs4 import BeautifulSoup
import fnmatch

paginaWeb = requests.get('https://es.wikipedia.org/wiki/Revoluci%C3%B3n_Industrial').text
soup = BeautifulSoup(paginaWeb,'html.parser')
buscarContenido = soup.find('body')
parrafos = buscarContenido.find_all('p')

listaStr = list()
for elemento in parrafos:
    parrafosUrl = elemento.getText()
    listaStr.append(parrafosUrl)
    
#print(listaStr)
    
filtro = fnmatch.filter(listaStr,'texto')

if filtro != []:
    strFiltro = str(filtro).strip("['']")
    print(strFiltro)

In [19]:
from sentence_transformers import SentenceTransformer, util
from difflib import SequenceMatcher
import nltk

def find_potential_plagiarized_sentences(documents, new_document):
    model = SentenceTransformer('paraphrase-distilroberta-base-v1')
    sentences = nltk.sent_tokenize(new_document)
    
    # Embeddings de los documentos existentes
    document_embeddings = model.encode(documents, convert_to_tensor=True)
    
    # Embeddings de las frases del nuevo documento
    new_embeddings = model.encode(sentences, convert_to_tensor=True)
    
    # Calcular la similitud de coseno entre los embeddings
    cos_sim_scores = util.pytorch_cos_sim(new_embeddings, document_embeddings)
    
    potential_plagiarized_sentences = []
    for i, sentence in enumerate(sentences):
        max_sim_score = max(cos_sim_scores[i])
        if max_sim_score > 0.6:  # Ajusta el umbral según sea necesario
            doc_index = cos_sim_scores[i].argmax().item()
            plagiarism_percentage = max_sim_score * 100
            potential_plagiarized_sentences.append((sentence, doc_index, i, plagiarism_percentage))
    
    return potential_plagiarized_sentences


for index in range(len(corpus)):
    similitud = SequenceMatcher(None, documento_a_analizar,corpus[index]).ratio() * 100
    if(similitud > 20):
        print("Documento analizado: " + nombre_archivos[index])
        print(f"Porcentaje de potencial plagio: {similitud:.2f}%")
        potential_plagiarized_sentences = find_potential_plagiarized_sentences(corpus[index], documento_a_analizar)
        for sentence, doc_index, sent_index, plagiarism_percentage in potential_plagiarized_sentences:
            print(f"Frase: '{sentence}', Ubicación: {sent_index})")
        print(" ")

Documento analizado: Economía de experiencia (1).pdf
Porcentaje de potencial plagio: 100.00%
Frase: ' M rketing en internet y nueva econom a Econom a de experiencia Profesores Dr. Alejandro Prince Ing.', Ubicación: 0)
Frase: 'Qu 3 elementos hacen resurgir con fuerza la idea de una econom a de experiencia 2.', Ubicación: 3)
Frase: 'Explique y grafique las dimensiones y campos de la experiencia.', Ubicación: 7)
Frase: 'De 3 ejemplos distintos reales si conoce, o invente de experiencias con estimulaci n de los sentidos.', Ubicación: 11)
Frase: 'Se trata de lograr lo mejor de ambas partes, masividad y personalizaci n. En un principio surgi la econom a de las commodities animales, minerales, vegetales etc... Cuando a esas commodities se las empez a usar como materia prima de productos, pasamos de una econom a agraria a una industrial.', Ubicación: 41)
Frase: 'El ant doto para eso es la personalizaci n, y pasamos a una econom a de servicios y con el tiempo se volvi a producir el proceso de c

In [11]:

text= "Hello Nigga"
similitud = SequenceMatcher(None, documento_a_analizar,text)
print(similitud.ratio() * 100)

0.35405192761605037


In [12]:
#Esto no está bien
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
from nltk.stem import WordNetLemmatizer
from nltk.util import ngrams

def extraer_temas_principales(texto, n=2, num_temas=3):
    # Tokenización de palabras y etiquetado gramatical
    tokens = word_tokenize(texto)
    tagged_tokens = nltk.pos_tag(tokens)

    # Eliminar palabras vacías (stopwords) y palabras con etiquetas no relevantes
    stop_words = set(stopwords.words('spanish'))
    #relevant_tags = ['NN', 'NNS', 'NNP', 'NNPS']  # Sustantivos en singular y plural
    tokens = [token.lower() for (token, tag) in tagged_tokens if token.lower() not in stop_words]
    """and tag in relevant_tags"""

    # Lematización de palabras
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token) for token in tokens]

    # Generar n-gramas de tamaño variable
    ngramas = list(ngrams(tokens, n))

    # Calcular frecuencia de n-gramas
    fdist = FreqDist(ngramas)

    # Obtener los temas principales más frecuentes sin palabras repetidas
    temas_principales = []
    for tema, _ in fdist.most_common():
        if all(word not in ' '.join(temas_principales) for word in tema):
            temas_principales.append(' '.join(tema))
            if len(temas_principales) == num_temas:
                break

    return temas_principales

# Ejemplo de uso
temas = extraer_temas_principales(documento_a_analizar, n=4, num_temas=3)
print("Temas principales:", temas)

Temas principales: ['progresi n valor .', 'm rketing internet nueva', 'econom econom experiencia profesores']


In [13]:
def calculate_plagiarism_percentage(documents, new_document):
    model = SentenceTransformer('paraphrase-distilroberta-base-v1')
    sentences = nltk.sent_tokenize(new_document)

    # Embeddings de los documentos existentes
    document_embeddings = model.encode(documents, convert_to_tensor=True)

    # Embeddings de las frases del nuevo documento
    new_embeddings = model.encode(sentences, convert_to_tensor=True)

    # Calcular la similitud de coseno entre los embeddings
    cos_sim_scores = util.pytorch_cos_sim(new_embeddings, document_embeddings)

    # Calcular el máximo puntaje de similitud para cada frase
    max_sim_scores = cos_sim_scores.max(dim=1)[0]

    # Calcular el promedio de los máximos puntajes de similitud
    plagiarism_percentage = max_sim_scores.mean().item() * 100

    return plagiarism_percentage

documents = [
    "Estoy aqui para estorbar hehe. Este es el primer documento.",
    "Estoy aqui para estorbar hehe. Este es el segundo documento.",
    "Hello"
]
new_document = "Estoy aqui para estorbar hehe. Este es un nuevo documento que podría contener plagio del primer documento. Esto es relleno awebo. VAMOOO"

plagiarism_percentage = calculate_plagiarism_percentage(documents[2], new_document)
print(f"Porcentaje de plagio: {plagiarism_percentage:.2f}%")

Porcentaje de plagio: 25.50%


In [14]:
miPDF = leer_pdf("./documentoSospechoso.pdf")
miPDF

' M rketing en internet y nueva econom a Econom a de experiencia Profesores Dr. Alejandro Prince Ing. Hern n Borr Ing. Maximiliano Bracho Alumno Gallazzi, Pablo Gabriel 143.370 2 Fecha de Presentaci n 10 04 2017 Cuestionario 1. Qu 3 elementos hacen resurgir con fuerza la idea de una econom a de experiencia 2. Defina y caracterice una experiencia. Diferencias con Producto y Servicio. 3. Explique y grafique las dimensiones y campos de la experiencia. 4. Describa impresiones y sus distintas dimensiones. 5. De 3 ejemplos distintos reales si conoce, o invente de experiencias con estimulaci n de los sentidos. 6. Qu es la personalizaci n masiva Explique la progresi n del valor. 7. Cu les son las ventajas para la empresa de la personalizaci n masiva 8. Describa los 4 tipos de personalizaci n masiva. 9. Qu aporta el ciberespacio al tema sacrificio del cliente Respuestas 1. Los tres elementos son El poder de la tecnolog a que act a como facilitador. La creciente intensidad de la competencia que 