# Detección de Plagios en Código

## Carga de librerías

In [77]:
import os
import re

## Carga de Archivos y Lexer

In [78]:
class Token:
    def __init__(self, type, value):
        self.type = type
        self.value = value


class Lexer:
    def __init__(self, code):
        self.code = code
        self.pos = 0
        self.tokens = []

    def tokenize(self):
        while self.pos < len(self.code):
            current_char = self.code[self.pos]

            if current_char.isspace():
                self.pos += 1
                continue

            if current_char == '#':
                self.skip_preprocessor_directive()
                continue

            if current_char.isalpha() or current_char == '_':
                identifier = self.extract_identifier()
                self.tokens.append(Token('IDENTIFIER', identifier))

            elif current_char.isdigit():
                number = self.extract_number()
                self.tokens.append(Token('NUMBER', number))

            elif current_char == '\"' or current_char == "\'":
                string = self.extract_string('"') if current_char == '"' else self.extract_string("'")
                self.tokens.append(Token('STRING', string))
            
            elif current_char == '+':
                self.tokens.append(Token('PLUS', current_char))
                self.pos += 1

            elif current_char == '-':
                self.tokens.append(Token('MINUS', current_char))
                self.pos += 1

            elif current_char == '*':
                self.tokens.append(Token('MULTIPLY', current_char))
                self.pos += 1

            elif current_char == '/':
                self.tokens.append(Token('DIVIDE', current_char))
                self.pos += 1
                
            elif current_char == '\\':
                self.tokens.append(Token('BACKSLASH', current_char))
                self.pos += 1

            elif current_char == '=':
                self.tokens.append(Token('ASSIGN', current_char))
                self.pos += 1

            elif current_char == ';':
                self.tokens.append(Token('SEMICOLON', current_char))
                self.pos += 1

            elif current_char == '(':
                self.tokens.append(Token('LPAREN', current_char))
                self.pos += 1

            elif current_char == ')':
                self.tokens.append(Token('RPAREN', current_char))
                self.pos += 1

            elif current_char == '{':
                self.tokens.append(Token('LBRACE', current_char))
                self.pos += 1

            elif current_char == '}':
                self.tokens.append(Token('RBRACE', current_char))
                self.pos += 1
                
            elif current_char == '[':
                self.tokens.append(Token('LBRACKET', current_char))
                self.pos += 1

            elif current_char == ']':
                self.tokens.append(Token('RBRACKET', current_char))
                self.pos += 1
                
            elif current_char == ',':
                self.tokens.append(Token('COMMA', current_char))
                self.pos += 1

            elif current_char == '!':
                self.tokens.append(Token('EXCLAMATION', current_char))
                self.pos += 1

            elif current_char == '<':
                self.tokens.append(Token('LESS_THAN', current_char))
                self.pos += 1

            elif current_char == '>':
                self.tokens.append(Token('GREATER_THAN', current_char))
                self.pos += 1

            elif current_char == '&':
                self.tokens.append(Token('AMPERSAND', current_char))
                self.pos += 1

            elif current_char == '.':
                self.tokens.append(Token('PUNCTUATION', current_char))
                self.pos += 1

            elif current_char == '|':
                self.tokens.append(Token('BAR', current_char))
                self.pos += 1

            elif current_char == ':':
                self.tokens.append(Token('COLON', current_char))
                self.pos += 1

            elif current_char == '?':
                self.tokens.append(Token('QUESTIONMARK', current_char))
                self.pos += 1
                
            elif current_char == '%':
                self.tokens.append(Token('PERCENT', current_char))
                self.pos += 1

            else:
                raise Exception(f"Invalid character: {current_char}")

        return self.tokens

    def extract_identifier(self):
        identifier = ""
        while self.pos < len(self.code) and (self.code[self.pos].isalnum() or self.code[self.pos] == '_'):
            identifier += self.code[self.pos]
            self.pos += 1
        return identifier

    def extract_number(self):
        number = ""
        while self.pos < len(self.code) and self.code[self.pos].isdigit():
            number += self.code[self.pos]
            self.pos += 1
        return int(number)
    
    def extract_string(self, quote_char):
        string = ""
        self.pos += 1  # Skip the opening quote
        while self.pos < len(self.code) and self.code[self.pos] != quote_char:
            string += self.code[self.pos]
            self.pos += 1
        self.pos += 1  # Skip the closing quote
        return string

    def skip_preprocessor_directive(self):
        while self.pos < len(self.code) and self.code[self.pos] != '\n':
            self.pos += 1


""" ----------------------------- Carga de Archivos ----------------------------- """


def cargar_archivos_c(directorio):
    archivos_c = []
    for nombre_archivo in os.listdir(directorio):
        if nombre_archivo.endswith(".c"):
            ruta_archivo = os.path.join(directorio, nombre_archivo)
            with open(ruta_archivo, 'r') as archivo:
                contenido = archivo.read()
                lexer = Lexer(contenido)
                tokens = lexer.tokenize()
                archivos_c.append((nombre_archivo, tokens))
    return archivos_c


# Directorio que contiene los archivos .c
directorio = ".\\CFiles\\c\\train"

# Cargar archivos .c
archivos_c = cargar_archivos_c(directorio)
print("Archivos cargados\n")

# Mostrar los nombres de los archivos y su contenido
# for nombre, contenido in archivos_c:
#     print("Nombre del archivo:", nombre)
#     print("Contenido del archivo:")
#     print(contenido)
#     print("-------------------------------------")

""" ----------------------------- Invocar Lexer ----------------------------- """

for nombre_archivo, tokens in archivos_c:
    print(f"Tokens para el archivo {nombre_archivo}:")
    for token in tokens:
        print(token.type, token.value)

Archivos cargados

Tokens para el archivo 000.c:
IDENTIFIER public
IDENTIFIER static
IDENTIFIER void
IDENTIFIER main
LPAREN (
RPAREN )
LBRACE {
IDENTIFIER int
IDENTIFIER i
SEMICOLON ;
IDENTIFIER char
IDENTIFIER ar
LBRACKET [
NUMBER 100
RBRACKET ]
SEMICOLON ;
IDENTIFIER FILE
MULTIPLY *
IDENTIFIER f
SEMICOLON ;
IDENTIFIER FILE
MULTIPLY *
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING wget -O first www.rmit.edu./students
RPAREN )
SEMICOLON ;
IDENTIFIER while
LPAREN (
NUMBER 1
RPAREN )
LBRACE {
IDENTIFIER sleep
LPAREN (
NUMBER 86400
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING rm -f thed
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING rm -f new
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING wget -O new www.cs.rmit.edu./students
RPAREN )
SEMICOLON ;
IDENTIFIER system
LPAREN (
STRING diff new first >thed
RPAREN )
SEMICOLON ;
IDENTIFIER f
ASSIGN =
IDENTIFIER fopen
LPAREN (
STRING thed
COMMA ,
STRING r
RPAREN )
SEMICOLON ;
IDENTIFIER if
LPAREN (
IDENTIFIER fgets
LPAREN 

In [96]:
import os
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')

# Función para leer los pares de archivos plagiados del archivo de texto
def leer_pares_archivos_plagiados(archivo_plagio):
    pares_plagiados = []
    with open(archivo_plagio, 'r') as file:
        for line in file:
            archivo1, archivo2 = line.strip().split()
            pares_plagiados.append((archivo1, archivo2))
    return pares_plagiados

# Función para buscar los códigos correspondientes a los pares de archivos plagiados en la carpeta
def buscar_codigos_plagiados(carpeta, pares_archivos_plagiados):
    codigos_plagiados = {}  # Usamos un diccionario para almacenar los tokens por nombre de archivo
    for nombre_archivo1, nombre_archivo2 in pares_archivos_plagiados:
        for nombre_archivo in [nombre_archivo1, nombre_archivo2]:
            filepath = os.path.join(carpeta, nombre_archivo)
            with open(filepath, 'r') as file:
                codigo = file.read()
                tokens = word_tokenize(codigo)
                codigos_plagiados[nombre_archivo] = tokens
    return codigos_plagiados

# Carpeta donde se encuentran los códigos
carpeta_codigos = ".\\CFiles\\c\\train"
archivo_plagio = "pairs.txt"

# Leer los pares de archivos plagiados del archivo de texto
pares_archivos_plagiados = leer_pares_archivos_plagiados(archivo_plagio)

# Buscar los códigos correspondientes a los pares de archivos plagiados en la carpeta
codigos_plagiados = buscar_codigos_plagiados(carpeta_codigos, pares_archivos_plagiados)

# Leer todos los códigos en la carpeta
codigos_no_plagiados = {}  # Usamos un diccionario para almacenar los tokens por nombre de archivo
for filename in os.listdir(carpeta_codigos):
    filepath = os.path.join(carpeta_codigos, filename)
    if os.path.isfile(filepath) and filename.endswith(".c"):
        with open(filepath, 'r') as file:
            codigo = file.read()
            tokens = word_tokenize(codigo)
            codigos_no_plagiados[filename] = tokens

# Combinar todos los códigos (plagiados y no plagiados)
codigos_totales = {**codigos_plagiados, **codigos_no_plagiados}

# Mostrar los tokens por nombre de archivo
for nombre_archivo, tokens in codigos_totales.items():
    print(f"Tokens del archivo '{nombre_archivo}':\n{tokens}\n")


Tokens del archivo '005.c':
['#', 'include', '<', 'stdio.h', '>', '#', 'include', '<', 'stdlib.h', '>', '#', 'include', '<', 'strings.h', '>', '#', 'include', '<', 'sys/types.h', '>', '#', 'include', '<', 'sys/times.h', '>', '#', 'include', '<', 'sys/time.h', '>', '#', 'include', '<', 'unistd.h', '>', 'int', '(', ')', '{', 'char', 'url', '[', '80', ']', ';', 'char', 'syscom', '[', ']', '=', '``', 'wget', '-nv', '--', 'http-user=', '--', 'http-passwd=', "''", ';', 'char', 'http', '[', ']', '=', '``', 'http', ':', '//sec-crack.cs.rmit.edu./SEC/2/', "''", ';', 'char', '[', ']', '=', "''", 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz', "''", ';', 'char', 'username', '[', '8', ']', ';', 'char', 'pass', '[', '4', ']', ';', 'int', 'i', ',', 'j', ',', 'k', ',', 'hack=1', ';', 'int', 'attempt', '=', '1', ';', 'int', ',', 'end', ',', 'time_var', ';', '=', 'time', '(', ')', ';', 'for', '(', 'i', '=', '0', ';', 'i', '<', 'strlen', '(', ')', ';', 'i++', ')', '{', 'pass', '[', '0', ']', '='

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\crisb\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [99]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import markovify

# Función para calcular la similitud de Jaccard entre dos conjuntos de tokens
def similitud_jaccard(tokens1, tokens2):
    set1 = set(tokens1)
    set2 = set(tokens2)
    return len(set1.intersection(set2)) / len(set1.union(set2))

# Función para calcular la similitud de coseno entre dos vectores de frecuencia de términos (TF-IDF)
def similitud_coseno(vector1, vector2):
    return cosine_similarity(vector1.reshape(1, -1), vector2.reshape(1, -1))[0][0]


# Convertir todos los códigos tokenizados a texto plano para TF-IDF y Markovify
codigos_planos = [' '.join(codigo) for codigo in codigos_tokenizados]

# Construir un vectorizador TF-IDF
vectorizador_tfidf = TfidfVectorizer()
tfidf_matrix = vectorizador_tfidf.fit_transform(codigos_planos)

# Calcular métricas de similitud para cada código tokenizado con el conjunto de todos los códigos
for nombre_archivo1, codigo_tokenizado1 in codigos_totales.items():
    for nombre_archivo2, codigo_tokenizado2 in codigos_totales.items():
        if nombre_archivo1 != nombre_archivo2:  # Asegurar que no se compare un archivo consigo mismo
            codigo_plano1 = ' '.join(codigo_tokenizado1)
            tfidf_codigo1 = vectorizador_tfidf.transform([codigo_plano1])
            
            # Similitud de Jaccard
            sim_jaccard = similitud_jaccard(codigo_tokenizado1, codigo_tokenizado2)
            
            # Similitud de coseno
            tfidf_codigo2 = vectorizador_tfidf.transform([' '.join(codigo_tokenizado2)])
            sim_coseno = similitud_coseno(tfidf_codigo1, tfidf_codigo2)

            print(f"Comparando código '{nombre_archivo1}' con código '{nombre_archivo2}':")
            print(f"Similitud de Jaccard: {round(sim_jaccard, 4)}")
            print(f"Similitud de coseno: {round(sim_coseno, 4)}\n")


Comparando código '005.c' con código '006.c':
Similitud de Jaccard: 0.6636
Similitud de coseno: 0.8452

Comparando código '005.c' con código '007.c':
Similitud de Jaccard: 0.2105
Similitud de coseno: 0.0651

Comparando código '005.c' con código '032.c':
Similitud de Jaccard: 0.2162
Similitud de coseno: 0.0578

Comparando código '005.c' con código '043.c':
Similitud de Jaccard: 0.2389
Similitud de coseno: 0.0725

Comparando código '005.c' con código '050.c':
Similitud de Jaccard: 0.2787
Similitud de coseno: 0.0793

Comparando código '005.c' con código '008.c':
Similitud de Jaccard: 0.3394
Similitud de coseno: 0.3377

Comparando código '005.c' con código '041.c':
Similitud de Jaccard: 0.3146
Similitud de coseno: 0.1773

Comparando código '005.c' con código '009.c':
Similitud de Jaccard: 0.354
Similitud de coseno: 0.1025

Comparando código '005.c' con código '045.c':
Similitud de Jaccard: 0.3721
Similitud de coseno: 0.1842

Comparando código '005.c' con código '013.c':
Similitud de Jaccar