# Detección de Plagios en Código

## Carga de librerías

In [77]:
import os
import re

## Carga de Archivos y Lexer

In [78]:
class Token:
    def __init__(self, type, value):
        self.type = type
        self.value = value


class Lexer:
    def __init__(self, code):
        self.code = code
        self.pos = 0
        self.tokens = []

    def tokenize(self):
        while self.pos < len(self.code):
            current_char = self.code[self.pos]

            if current_char.isspace():
                self.pos += 1
                continue

            if current_char == '#':
                self.skip_preprocessor_directive()
                continue

            if current_char.isalpha() or current_char == '_':
                identifier = self.extract_identifier()
                self.tokens.append(Token('IDENTIFIER', identifier))

            elif current_char.isdigit():
                number = self.extract_number()
                self.tokens.append(Token('NUMBER', number))

            elif current_char == '\"' or current_char == "\'":
                string = self.extract_string('"') if current_char == '"' else self.extract_string("'")
                self.tokens.append(Token('STRING', string))
            
            elif current_char == '+':
                self.tokens.append(Token('PLUS', current_char))
                self.pos += 1

            elif current_char == '-':
                self.tokens.append(Token('MINUS', current_char))
                self.pos += 1

            elif current_char == '*':
                self.tokens.append(Token('MULTIPLY', current_char))
                self.pos += 1

            elif current_char == '/':
                self.tokens.append(Token('DIVIDE', current_char))
                self.pos += 1
                
            elif current_char == '\\':
                self.tokens.append(Token('BACKSLASH', current_char))
                self.pos += 1

            elif current_char == '=':
                self.tokens.append(Token('ASSIGN', current_char))
                self.pos += 1

            elif current_char == ';':
                self.tokens.append(Token('SEMICOLON', current_char))
                self.pos += 1

            elif current_char == '(':
                self.tokens.append(Token('LPAREN', current_char))
                self.pos += 1

            elif current_char == ')':
                self.tokens.append(Token('RPAREN', current_char))
                self.pos += 1

            elif current_char == '{':
                self.tokens.append(Token('LBRACE', current_char))
                self.pos += 1

            elif current_char == '}':
                self.tokens.append(Token('RBRACE', current_char))
                self.pos += 1
                
            elif current_char == '[':
                self.tokens.append(Token('LBRACKET', current_char))
                self.pos += 1

            elif current_char == ']':
                self.tokens.append(Token('RBRACKET', current_char))
                self.pos += 1
                
            elif current_char == ',':
                self.tokens.append(Token('COMMA', current_char))
                self.pos += 1

            elif current_char == '!':
                self.tokens.append(Token('EXCLAMATION', current_char))
                self.pos += 1

            elif current_char == '<':
                self.tokens.append(Token('LESS_THAN', current_char))
                self.pos += 1

            elif current_char == '>':
                self.tokens.append(Token('GREATER_THAN', current_char))
                self.pos += 1

            elif current_char == '&':
                self.tokens.append(Token('AMPERSAND', current_char))
                self.pos += 1

            elif current_char == '.':
                self.tokens.append(Token('PUNCTUATION', current_char))
                self.pos += 1

            elif current_char == '|':
                self.tokens.append(Token('BAR', current_char))
                self.pos += 1

            elif current_char == ':':
                self.tokens.append(Token('COLON', current_char))
                self.pos += 1

            elif current_char == '?':
                self.tokens.append(Token('QUESTIONMARK', current_char))
                self.pos += 1
                
            elif current_char == '%':
                self.tokens.append(Token('PERCENT', current_char))
                self.pos += 1

            else:
                raise Exception(f"Invalid character: {current_char}")

        return self.tokens

    def extract_identifier(self):
        identifier = ""
        while self.pos < len(self.code) and (self.code[self.pos].isalnum() or self.code[self.pos] == '_'):
            identifier += self.code[self.pos]
            self.pos += 1
        return identifier

    def extract_number(self):
        number = ""
        while self.pos < len(self.code) and self.code[self.pos].isdigit():
            number += self.code[self.pos]
            self.pos += 1
        return int(number)
    
    def extract_string(self, quote_char):
        string = ""
        self.pos += 1  # Skip the opening quote
        while self.pos < len(self.code) and self.code[self.pos] != quote_char:
            string += self.code[self.pos]
            self.pos += 1
        self.pos += 1  # Skip the closing quote
        return string

    def skip_preprocessor_directive(self):
        while self.pos < len(self.code) and self.code[self.pos] != '\n':
            self.pos += 1


""" ----------------------------- Carga de Archivos ----------------------------- """


def cargar_archivos_c(directorio):
    archivos_c = []
    for nombre_archivo in os.listdir(directorio):
        if nombre_archivo.endswith(".c"):
            ruta_archivo = os.path.join(directorio, nombre_archivo)
            with open(ruta_archivo, 'r') as archivo:
                contenido = archivo.read()
                lexer = Lexer(contenido)
                tokens = lexer.tokenize()
                archivos_c.append((nombre_archivo, tokens))
    return archivos_c


# Directorio que contiene los archivos .c
directorio = ".\\CFiles\\c\\train"

# Cargar archivos .c
archivos_c = cargar_archivos_c(directorio)
print("Archivos cargados\n")

# Mostrar los nombres de los archivos y su contenido
# for nombre, contenido in archivos_c:
#     print("Nombre del archivo:", nombre)
#     print("Contenido del archivo:")
#     print(contenido)
#     print("-------------------------------------")

""" ----------------------------- Invocar Lexer ----------------------------- """

for nombre_archivo, tokens in archivos_c:
    print(f"Tokens para el archivo {nombre_archivo}:")
    for token in tokens:
        print(token.type, token.value)

Archivos cargados

Tokens para el archivo 000.c:
IDENTIFIER public
IDENTIFIER static
IDENTIFIER void
IDENTIFIER main
LPAREN (
RPAREN )
LBRACE {
IDENTIFIER int
IDENTIFIER i
SEMICOLON ;
IDENTIFIER char
IDENTIFIER ar
LBRACKET [
NUMBER 100
RBRACKET ]
SEMICOLON ;
IDENTIFIER FILE
MULTIPLY *
IDENTIFIER f
SEMICOLON ;
IDENTIFIER FILE
MULTIPLY *
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING wget -O first www.rmit.edu./students
RPAREN )
SEMICOLON ;
IDENTIFIER while
LPAREN (
NUMBER 1
RPAREN )
LBRACE {
IDENTIFIER sleep
LPAREN (
NUMBER 86400
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING rm -f thed
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING rm -f new
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING wget -O new www.cs.rmit.edu./students
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING diff new first >thed
RPAREN )
SEMICOLON ;
IDENTIFIER f
ASSIGN =
IDENTIFIER fopen
LPAREN (
STRING thed
COMMA ,
STRING r
RPAREN )
SEMICOLON ;
IDENTIFIER if
LPAREN (
IDENTIFIER fgets
LPAREN 

In [93]:
import os
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')

# Función para leer los pares de archivos plagiados del archivo de texto
def leer_pares_archivos_plagiados(archivo_plagio):
    pares_plagiados = []
    with open(archivo_plagio, 'r') as file:
        for line in file:
            archivo1, archivo2 = line.strip().split()
            pares_plagiados.append((archivo1, archivo2))
    return pares_plagiados

# Función para buscar los códigos correspondientes a los pares de archivos plagiados en la carpeta
def buscar_codigos_plagiados(carpeta, pares_archivos_plagiados):
    codigos_plagiados = set()  # Usamos un conjunto para evitar duplicados
    for nombre_archivo1, nombre_archivo2 in pares_archivos_plagiados:
        for nombre_archivo in [nombre_archivo1, nombre_archivo2]:
            filepath = os.path.join(carpeta, nombre_archivo)
            with open(filepath, 'r') as file:
                codigo = file.read()
                codigos_plagiados.add(codigo)  # Agregamos el código al conjunto
    return codigos_plagiados

# Carpeta donde se encuentran los códigos
carpeta_codigos = ".\\CFiles\\c\\train"
archivo_plagio = "pairs.txt"

# Leer los pares de archivos plagiados del archivo de texto
pares_archivos_plagiados = leer_pares_archivos_plagiados(archivo_plagio)

# Buscar los códigos correspondientes a los pares de archivos plagiados en la carpeta
codigos_plagiados = buscar_codigos_plagiados(carpeta_codigos, pares_archivos_plagiados)

# Leer todos los códigos en la carpeta
codigos_no_plagiados = set()  # Usamos un conjunto para evitar duplicados
for filename in os.listdir(carpeta_codigos):
    filepath = os.path.join(carpeta_codigos, filename)
    if os.path.isfile(filepath) and filename.endswith(".c"):
        with open(filepath, 'r') as file:
            codigo = file.read()
            codigos_no_plagiados.add(codigo)  # Agregamos el código al conjunto

# Combinar todos los códigos (plagiados y no plagiados)
codigos_totales = codigos_plagiados.union(codigos_no_plagiados)

print("non:", len(codigos_no_plagiados))
print("plagiariazed:", len(codigos_plagiados))
print("Total:", len(codigos_totales))

# Tokenización de todos los códigos
codigos_tokenizados = []
for codigo in codigos_totales:
    tokens = word_tokenize(codigo)
    codigos_tokenizados.append(tokens)

for i, tokens in enumerate(codigos_tokenizados[:5], start=1):
    print(f"Tokens del código {i}:\n{tokens}\n")


non: 79
plagiariazed: 37
Total: 79
Tokens del código 1:
['#', 'include', '<', 'stdio.h', '>', '#', 'include', '<', 'stdlib.h', '>', '#', 'include', '<', 'string.h', '>', '#', 'include', '<', 'ctype.h', '>', '#', 'include', '<', 'sys/time.h', '>', '#', 'define', 'SUCCESS', '0', ';', '#', 'define', 'FAILURE', '1', ';', '#', 'define', 'SECONDS', '1e9', 'int', 'findPassword', '(', 'char', '*', ')', ';', 'int', 'smallPass', '(', ')', ';', 'int', 'capsPass', '(', ')', ';', 'int', 'main', '(', ')', '{', 'int', 'foundP', ';', 'foundP=smallPass', '(', ')', ';', 'foundP=capsPass', '(', ')', ';', 'if', '(', 'foundP', '==', '2', ')', '{', 'return', 'SUCCESS', ';', '}', 'printf', '(', '``', '\\n', 'PASSWORD', 'NOT', 'FOUND', "''", ')', ';', 'return', 'SUCCESS', ';', '}', 'int', 'smallPass', '(', ')', '{', 'char', '[', '26', ']', '=', '{', "'", 'a', "'", ',', "'", 'b', "'", ',', "'", 'c', "'", ',', "'d", "'", ',', "'", 'e', "'", ',', "'", 'f', "'", ',', "'", 'g', "'", ',', "'", 'h', "'", ',', "'", '

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\crisb\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [94]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import markovify

# Función para calcular la similitud de Jaccard entre dos conjuntos de tokens
def similitud_jaccard(tokens1, tokens2):
    set1 = set(tokens1)
    set2 = set(tokens2)
    return len(set1.intersection(set2)) / len(set1.union(set2))

# Función para calcular la similitud de coseno entre dos vectores de frecuencia de términos (TF-IDF)
def similitud_coseno(vector1, vector2):
    return cosine_similarity(vector1.reshape(1, -1), vector2.reshape(1, -1))[0][0]

# Función para construir un modelo Markovify a partir de una lista de textos
def construir_modelo_markovify(textos):
    texto_completo = ' '.join(textos)
    return markovify.Text(texto_completo)

# Función para calcular la similitud de Markovify entre un código tokenizado y un modelo Markovify
def similitud_markovify(codigo_tokenizado, modelo_markovify):
    codigo = ' '.join(codigo_tokenizado)
    return modelo_markovify.make_sentence(test_output=False, max_overlap_ratio=0.8, tries=100, max_words=50)

# Convertir todos los códigos tokenizados a texto plano para TF-IDF y Markovify
codigos_planos = [' '.join(codigo) for codigo in codigos_tokenizados]

# Construir un vectorizador TF-IDF
vectorizador_tfidf = TfidfVectorizer()
tfidf_matrix = vectorizador_tfidf.fit_transform(codigos_planos)

# Construir un modelo Markovify
modelo_markovify = construir_modelo_markovify(codigos_planos)

# Calcular métricas de similitud para cada código tokenizado con el conjunto de todos los códigos
for i, codigo_tokenizado in enumerate(codigos_tokenizados):
    for j, otro_codigo in enumerate(codigos_tokenizados):
        if i != j:  # Asegurar que no se compare consigo mismo
            codigo_plano = codigos_planos[i]
            tfidf_codigo = vectorizador_tfidf.transform([codigo_plano])
            
            # Similitud de Jaccard
            sim_jaccard = similitud_jaccard(codigo_tokenizado, otro_codigo)
            
            # Similitud de coseno
            sim_coseno = similitud_coseno(tfidf_matrix[i], tfidf_codigo)
            
            # Similitud de Markovify
            sim_markovify = similitud_markovify(codigo_tokenizado, modelo_markovify)

            print(f"Comparando código {i+1} con código {j+1}:")
            print(f"Similitud de Jaccard: {sim_jaccard}")
            print(f"Similitud de coseno: {sim_coseno}")
            print(f"Similitud de Markovify: {sim_markovify}\n")

Comparando código 1 con código 2:
Similitud de Jaccard: 0.26570048309178745
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 3:
Similitud de Jaccard: 0.1407035175879397
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 4:
Similitud de Jaccard: 0.25728155339805825
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 5:
Similitud de Jaccard: 0.5353535353535354
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 6:
Similitud de Jaccard: 0.572972972972973
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 7:
Similitud de Jaccard: 0.15228426395939088
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 8:
Similitud de Jaccard: 0.2376237623762376
Similitud de coseno: 1.0
Similitud de Markovify: / ..

Comparando código 1 con código 9:
Similitud de Jaccard: 0.2107843137254902
Similitud de 