# **Detección de plagio en documentos**

**Bibliotecas necesarias**

In [None]:
!pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


**Librerias necesarias**

In [None]:
import nltk
import string
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import re
from nltk.tokenize import TweetTokenizer

#leer PDF
import PyPDF2

#coseno de similitud
import numpy as np

**Descargando el conjunto de stopwords**

In [None]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

**Preprocesamiento de texto**

In [None]:
def process_text(text):

  #Eliminar hipervínculos, marcas y estilos de Twitter: Considerar todas las palabras

  #Tokenizar la cadena

  tokenizer = TweetTokenizer(preserve_case=False, strip_handles=True, reduce_len=True)
  text_tokens = tokenizer.tokenize(text)

  #Eliminar stop words y signos de puntuación

  stopwords_english = stopwords.words('english')
  text_clean = []

  for word in text_tokens:
      if (word not in stopwords_english and  # remove stopwords
          word not in string.punctuation):  # remove signos de puntuación
          text_clean.append(word)


  return ' '.join(text_clean) #array to string

In [None]:
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

def preprocess_text(text):
    # Tokenización y eliminación de puntuación
    translator = str.maketrans('', '', string.punctuation)
    tokens = nltk.word_tokenize(text.lower().translate(translator))

    # Eliminación de stopwords
    stop_words = set(stopwords.words('english'))
    words = [word for word in tokens if word not in stop_words]

    # Lematización
    lemmatizer = WordNetLemmatizer()
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

    return ' '.join(lemmatized_words)

[nltk_data] Downloading package wordnet to /root/nltk_data...


**Extracción de información**

In [None]:
def extract_text_from_pdf(pdf_path):
    text = ""
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

**Cargar y extraer información del PDF**

In [None]:
pdf_1 = "/content/Documento 2.pdf"
pdf_3 = "/content/Documento 18.pdf"

In [None]:
text1 = extract_text_from_pdf(pdf_1)
text2 = extract_text_from_pdf(pdf_3)

**Procesar texto del PDF**

In [None]:
text1_preprocessed = process_text(text1)
text2_preprocessed = process_text(text2)
text2_preprocessed_1 = preprocess_text(text1)

**Texto sin procesar**

In [None]:
text1

'Qué es la Ciencia  \nSe denomina ciencia a todo el conocimiento o saber constituido mediante la observación y el \nestudio sistemático y razonado de la naturaleza, la sociedad y el pensamiento.  \nEl objetivo de la ciencia es descubrir las leyes que rigen los fenómenos de la realid ad, \ncomprenderlos y explicarlos. De allí se deriva que la función de la ciencia es describir, explicar y \npredecir tales fenómenos a fin de mejorar la vida humana.  \nLa ciencia produce conocimiento científico. Este se define como todo saber que ha sido obteni do \nmediante el método científico, es decir, a través de la observación y el análisis sistemáticos. En \nconsecuencia, el conocimiento científico ofrece conclusiones razonadas y válidas que pueden ser \nprobadas.  \nEn este sentido, la ciencia comprende todos los campos de conocimiento y estudio (incluyendo \nciencias formales, naturales, sociales y humanas) que conllevan al desarrol lo de teorías y \nmétodos particulares para cada área.  \nLa cie

**Texto procesado sin lematización**

In [None]:
text1_preprocessed

'qué es la ciencia se denomina ciencia todo el conocimiento saber constituido mediante la observación el estudio sistemático razonado de la naturaleza la sociedad el pensamiento el objetivo de la ciencia es descubrir las leyes que rigen los fenómenos de la realid ad comprenderlos explicarlos de allí se deriva que la función de la ciencia es describir explicar predecir tales fenómenos fin de mejorar la vida humana la ciencia produce conocimiento científico este se define como todo saber que ha sido obteni mediante el método científico es decir través de la observación el análisis sistemáticos en consecuencia el conocimiento científico ofrece conclusiones razonadas válidas que pueden ser probadas en este sentido la ciencia comprende todos los campos de conocimiento estudio incluyendo ciencias formales naturales sociales humanas que conllevan al desarrol lo de teorías métodos particulares para cada área la ciencia también está íntimamente relacionada con la tecnología sobre todo desde la 

**Texto procesado con lematización**

In [None]:
text2_preprocessed_1

'qué e la ciencia se denomina ciencia todo el conocimiento saber constituido mediante la observación el estudio sistemático razonado de la naturaleza la sociedad el pensamiento el objetivo de la ciencia e descubrir la leyes que rigen los fenómenos de la realid ad comprenderlos explicarlos de allí se deriva que la función de la ciencia e describir explicar predecir tale fenómenos fin de mejorar la vida humana la ciencia produce conocimiento científico este se define como todo saber que ha sido obteni mediante el método científico e decir través de la observación el análisis sistemáticos en consecuencia el conocimiento científico ofrece conclusiones razonadas válidas que pueden ser probadas en este sentido la ciencia comprende todos los campos de conocimiento estudio incluyendo ciencias formales naturales sociales humanas que conllevan al desarrol lo de teorías métodos particulares para cada área la ciencia también está íntimamente relacionada con la tecnología sobre todo desde la segund

**Matriz de los textos**

In [None]:
# Crear el vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Crear la matriz TF-IDF de los textos
tfidf_matrix = tfidf_vectorizer.fit_transform([text1_preprocessed, text2_preprocessed])

In [None]:
print(tfidf_matrix)

In [None]:
vector1 = tfidf_matrix[0].toarray()[0]
vector2 = tfidf_matrix[1].toarray()[0]

**Coseno de Similitud**

In [None]:
def coseno_similitud(vector1, vector2):
    dot_product = np.dot(vector1, vector2)
    norm_vector1 = np.linalg.norm(vector1)
    norm_vector2 = np.linalg.norm(vector2)

    if norm_vector1 != 0 and norm_vector2 != 0:
        similarity = dot_product / (norm_vector1 * norm_vector2)
    else:
        similarity = 0.0  # Si alguno de los vectores tiene longitud cero, la similitud es cero.

    return similarity

**Distancia Euclidiana**

In [None]:
def euclidean_distance(vectors1, vectors2):
    return np.linalg.norm(vectors1 - vectors2)

**Cálculo de similitud**

In [None]:
# Cálculo de la similitud del coseno entre los textos
similarity_score = coseno_similitud(vector1, vector2)

# Definir un umbral para determinar si los documentos son considerados plagio
threshold = 0.6

similarity_percentage = similarity_score * 100

# Verificar si los documentos son similares o no
if similarity_score > threshold:
    print(f"Los documentos son similares. Con un porcentaje de {similarity_percentage:.2f}% plagio/similitud")
else:
    print("Los documentos no son similares. No hay plagio.")

Los documentos no son similares. No hay plagio.


# **Umbral dinamico**

In [None]:
pdf_files = ["/content/Documento 2.pdf", "/content/Documento 4.pdf"]

**Función para el cálculo del Umbral dinámico**

In [None]:
def dynamic_threshold(length):
    # Ajusta el umbral según la longitud (en este ejemplo, usamos 1 / sqrt(longitud))
    return 1 / (length ** 0.5)

In [None]:
preprocessed_texts = []
for pdf_file in pdf_files:
    text = extract_text_from_pdf(pdf_file)
    preprocessed_text = preprocess_text(text)
    preprocessed_texts.append(preprocessed_text)

**Obteniendo el tamaño o longitud del texto**

In [None]:
text_lengths = [len(text.split()) for text in preprocessed_texts]

In [None]:
text_lengths

[169, 102]

In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(preprocessed_texts)

In [None]:
# Cálculo de la similitud del coseno entre los textos
similarity_score = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])[0][0]

# Calcular el umbral dinámico para cada texto
threshold_i = dynamic_threshold(text_lengths[0])
threshold_j = dynamic_threshold(text_lengths[1])

# Usar el umbral dinámico si es mayor que el umbral estático original
static_threshold = 0.6
threshold_i = max(static_threshold, threshold_i)
threshold_j = max(static_threshold, threshold_j)

similarity_percentage = similarity_score * 100

# Verificar si los documentos son similares o no
if similarity_score > threshold_i or similarity_score > threshold_j:
    print(f"Los documentos son similares. Con un porcentaje de {similarity_percentage:.2f}% plagio/similitud")
else:
    print("Los documentos no son similares. No hay plagio.")

Los documentos son similares. Con un porcentaje de 100.00% plagio/similitud


**Cantidad de Documentos**

In [None]:
# Rutas a los documentos PDF que deseas comparar
pdf_files = ["/content/Documento 4.pdf", "/content/Documento 18.pdf", "/content/Documento 2.pdf"]

In [None]:
preprocessed_texts = []
for pdf_file in pdf_files:
    text = extract_text_from_pdf(pdf_file)
    preprocessed_text = preprocess_text(text)
    preprocessed_texts.append(preprocessed_text)

In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(preprocessed_texts)

In [None]:
import os

In [None]:
# Verificar similitud entre todos los pares de documentos
for i in range(len(pdf_files)):
    for j in range(i + 1, len(pdf_files)):
        similarity_score = cosine_similarity(tfidf_matrix[i], tfidf_matrix[j])[0][0]

        # Definir un umbral para determinar si los documentos son considerados plagio
        threshold = 0.6

        # Obtener solo el nombre del archivo sin la ruta completa
        file_name_i = os.path.basename(pdf_files[i])
        file_name_j = os.path.basename(pdf_files[j])


        # Mostrar el resultado de la comparación
        if similarity_score > threshold:
            print(f"El documento {file_name_i} y el documento {file_name_j} posiblemente tienen similitud. Posible plagio.")
        else:
            print(f"El documento {file_name_i} y el documento {file_name_j} no tienen similitud. No hay plagio.")

El documento Documento 4.pdf y el documento Documento 18.pdf no tienen similitud. No hay plagio.
El documento Documento 4.pdf y el documento Documento 2.pdf posiblemente tienen similitud. Posible plagio.
El documento Documento 18.pdf y el documento Documento 2.pdf no tienen similitud. No hay plagio.


**Variabilidad de formatos (Word)**

In [None]:
!pip install python-docx requests beautifulsoup4

Collecting python-docx
  Downloading python-docx-0.8.11.tar.gz (5.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m32.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: python-docx
  Building wheel for python-docx (setup.py) ... [?25l[?25hdone
  Created wheel for python-docx: filename=python_docx-0.8.11-py3-none-any.whl size=184491 sha256=7b4df95d2e123c1986b685149c45a220ff8155d41d310ee8563f28e8f8a65122
  Stored in directory: /root/.cache/pip/wheels/80/27/06/837436d4c3bd989b957a91679966f207bfd71d358d63a8194d
Successfully built python-docx
Installing collected packages: python-docx
Successfully installed python-docx-0.8.11


In [None]:
import docx

In [None]:
def extract_text_from_docx(docx_path):
    doc = docx.Document(docx_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return '\n'.join(full_text)

In [None]:
documents = [
    "/content/Documento 1.docx",
    "/content/Documento 2.pdf",
    "/content/Documento 3.docx"
]

In [None]:
# Extraer texto de los documentos y realizar el preprocesamiento
preprocessed_texts = []
for doc in documents:
    if doc.endswith('.pdf'):
        text = extract_text_from_pdf(doc)
    elif doc.endswith('.docx'):
        text = extract_text_from_docx(doc)

    preprocessed_text = preprocess_text(text)
    preprocessed_texts.append(preprocessed_text)

In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(preprocessed_texts)

In [None]:
for i in range(len(documents)):
    for j in range(i + 1, len(documents)):
        similarity_score = cosine_similarity(tfidf_matrix[i], tfidf_matrix[j])[0][0]

        # Definir un umbral para determinar si los documentos son considerados plagio
        threshold = 0.8

        # Obtener solo el nombre del archivo o URL sin la ruta completa
        file_name_i = os.path.basename(documents[i])
        file_name_j = os.path.basename(documents[j])

        similarity_percentage = similarity_score * 100

        # Mostrar el resultado de la comparación
        if similarity_score > threshold:
            print(f"El documento {file_name_i} y el documento {file_name_j} posiblemente tienen plagio, Con un porcentaje de {similarity_percentage:.2f}%")
        else:
            print(f"El documento {file_name_i} y el documento {file_name_j} no tienen similitud. No hay plagio.")

El documento Documento 1.docx y el documento Documento 2.pdf posiblemente tienen plagio, Con un porcentaje de 98.70%
El documento Documento 1.docx y el documento Documento 3.docx posiblemente tienen plagio, Con un porcentaje de 100.00%
El documento Documento 2.pdf y el documento Documento 3.docx posiblemente tienen plagio, Con un porcentaje de 98.70%


**Implementación WEB**

In [None]:
# Función para calcular la similitud de coseno entre dos listas de oraciones
def cosine_similarity_score(sentences1, sentences2):
    vectorizer = TfidfVectorizer()
    tfidf_matrix1 = vectorizer.fit_transform(sentences1)
    tfidf_matrix2 = vectorizer.transform(sentences2)
    similarity_scores = cosine_similarity(tfidf_matrix1, tfidf_matrix2)
    return similarity_scores

In [None]:
import requests
from bs4 import BeautifulSoup
from difflib import SequenceMatcher
from googleapiclient.discovery import build

# Configura tu clave de API de Google Custom Search
API_KEY = "AIzaSyA4gkoXlKN4wfEAWyTdFx7shN5pdCT9HqE"
SEARCH_ENGINE_ID = "b3efb1284abf04927"

# Función para obtener resultados de búsqueda de Google
def search_google(query):
    service = build("customsearch", "v1", developerKey=API_KEY)
    res = service.cse().list(q=query, cx=SEARCH_ENGINE_ID).execute()
    return res.get("items", [])

# Función para obtener el contenido de una URL
def get_page_content(url):
    response = requests.get(url)
    return response.text

# Función para comparar el contenido del documento con el contenido de los resultados de búsqueda
def detect_plagiarism(document_content, num_results=100):
    query = " ".join(document_content.split()[:10])  # Utiliza las primeras 10 palabras del documento como consulta

    search_results = search_google(query)[:num_results]

    for result in search_results:
        url = result["link"]
        page_content = get_page_content(url)
        soup = BeautifulSoup(page_content, "html.parser")
        page_text = soup.get_text()
        page_text = process_text(page_text)

        similarity_score = cosine_similarity_score([document_content], [page_text])

        value = similarity_score[0][0]

        text_lengths_1 = len(page_text)
        text_lengths_2 = len(document_content)

        # Calcular el umbral dinámico para cada texto
        threshold_i = dynamic_threshold(text_lengths_1)
        threshold_j = dynamic_threshold(text_lengths_2)

        static_threshold = 0.6
        threshold_i = max(static_threshold, threshold_i)
        threshold_j = max(static_threshold, threshold_j)


        if value > threshold_i or value > threshold_j:
            print(f"Plagio detectado en {url} (Similitud: {value:.2f})")

# Documento de ejemplo (reemplázalo con tu propio contenido)
document_content = "Se denomina ciencia a todo el conocimiento o saber constituido mediante la observación y el estudio sistemático y razonado de la naturaleza, la sociedad y el pensamiento."

detect_plagiarism(document_content)

Plagio detectado en https://www.significados.com/ciencia/ (Similitud: 0.01)
Plagio detectado en https://www.goconqr.com/en/flowchart/19128982/se-denomina-ciencia-a-todo-el-conocimiento-a-saber-constituido-por-una-serie-de-principios-y-leyes-que-derivan-de-la-observacion-y-el-razonamiento-de-un-cumulo-de-informacion-y-datos-los-cuales-usan-metodos-y-tecnicas-para-llegar-a-una-conclusion (Similitud: 0.00)
Plagio detectado en https://www.maimonides.edu/pandemia-de-la-ciencia-y-el-sentido-comun-al-cientificismo/ (Similitud: 0.00)
Plagio detectado en https://www.espaciologopedico.com/revista/articulo/3688/ciencia-hacer-ciencia.html (Similitud: 0.00)
Plagio detectado en https://www.argentina.gob.ar/noticias/el-metodo-cientifico (Similitud: 0.00)
Plagio detectado en https://brainly.lat/tarea/67312843 (Similitud: 0.27)
Plagio detectado en http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1025-55832009000300011 (Similitud: 0.00)
Plagio detectado en https://www.um.es/docencia/barzana/D

**Fase II: Implementación WEB**

In [None]:
def process_text(text):

  #Tokenizar la cadena

  tokenizer = TweetTokenizer(preserve_case=False, strip_handles=True, reduce_len=True)
  text_tokens = tokenizer.tokenize(text)

  #Eliminar stop words y signos de puntuación

  stopwords_english = stopwords.words('english')
  text_clean = []

  for word in text_tokens:
      if (word not in stopwords_english):  # remove signos de puntuación
          text_clean.append(word)

  return ' '.join(text_clean) #array to string

In [None]:
import requests
from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from googleapiclient.discovery import build

# Configura tu clave de API de Google Custom Search
API_KEY = "AIzaSyA4gkoXlKN4wfEAWyTdFx7shN5pdCT9HqE"
SEARCH_ENGINE_ID = "b3efb1284abf04927"

# Función para obtener resultados de búsqueda de Google
def search_google(query):
    service = build("customsearch", "v1", developerKey=API_KEY)
    res = service.cse().list(q=query, cx=SEARCH_ENGINE_ID).execute()
    return res.get("items", [])

# Función para obtener el contenido de una URL
def get_page_content(url):
    response = requests.get(url)
    return response.text

# Función para calcular la similitud de coseno entre dos listas de oraciones
def cosine_similarity_score(sentences1, sentences2):
    vectorizer = TfidfVectorizer()
    tfidf_matrix1 = vectorizer.fit_transform(sentences1)
    tfidf_matrix2 = vectorizer.transform(sentences2)
    similarity_scores = cosine_similarity(tfidf_matrix1, tfidf_matrix2)
    return similarity_scores

# Función para detectar plagio
def detect_plagiarism(document_content, num_results=100):
    query = " ".join(document_content.split()[:10])  # Utiliza las primeras 10 palabras del documento como consulta

    search_results = search_google(query)[:num_results]

    for result in search_results:
        url = result["link"]
        page_content = get_page_content(url)
        soup = BeautifulSoup(page_content, "html.parser")
        page_text = soup.get_text()
        page_text = process_text(page_text)

        # Preprocesamiento del contenido de la página web para obtener oraciones individuales
        page_sentences = [sentence.strip() for sentence in page_text.split('.')]

        # Calcular la similitud de coseno entre las oraciones
        similarity_scores = cosine_similarity_score([document_content], page_sentences)

        # obtener el maximo
        max_similarity_score = max(max(similarity_scores.tolist()))

        if max_similarity_score > 0.2:  # Ajusta este valor según tus necesidades
            print(f"Plagio detectado en {url} (Similitud de coseno media: {max_similarity_score:.2f})")


# Documento de ejemplo (reemplázalo con tu propio contenido)
document_content = "Se denomina ciencia a todo el conocimiento o saber constituido mediante la observación y el estudio sistemático y razonado de la naturaleza, la sociedad y el pensamiento."

detect_plagiarism(document_content)

Plagio detectado en https://www.significados.com/ciencia/ (Similitud de coseno media: 0.29)
Plagio detectado en https://www.goconqr.com/en/flowchart/19128982/se-denomina-ciencia-a-todo-el-conocimiento-a-saber-constituido-por-una-serie-de-principios-y-leyes-que-derivan-de-la-observacion-y-el-razonamiento-de-un-cumulo-de-informacion-y-datos-los-cuales-usan-metodos-y-tecnicas-para-llegar-a-una-conclusion (Similitud de coseno media: 0.27)
Plagio detectado en https://www.maimonides.edu/pandemia-de-la-ciencia-y-el-sentido-comun-al-cientificismo/ (Similitud de coseno media: 0.34)
Plagio detectado en https://www.espaciologopedico.com/revista/articulo/3688/ciencia-hacer-ciencia.html (Similitud de coseno media: 0.25)
Plagio detectado en https://www.argentina.gob.ar/noticias/el-metodo-cientifico (Similitud de coseno media: 0.27)
Plagio detectado en http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1025-55832009000300011 (Similitud de coseno media: 0.25)
Plagio detectado en https://www.u