## Similitud Cosenos (Matriz de Similitud)

In [7]:
import os
import javalang
import re
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def limpiar_archivo_java(archivo):
    with open(archivo, 'r') as file:
        contenido = file.read()

    # Eliminar sangría y saltos de línea
    contenido = re.sub(r'\n\s*', '\n', contenido)

    # Eliminar comentarios de una línea
    contenido = re.sub(r'//.*', '', contenido)

    # Eliminar comentarios de múltiples líneas
    contenido = re.sub(r'/\*(.|\n)*?\*/', '', contenido)

    # Eliminar líneas de importación de bibliotecas
    contenido = re.sub(r'import\s+.*?;', '', contenido)

    # Eliminar líneas en blanco adicionales
    contenido = re.sub(r'\n\s*\n', '\n', contenido)

    return contenido

def generate_file_contents(folder_path):
    file_contents = {}
    files = [file for file in os.listdir(folder_path) if file.endswith('.java')]

    for file_name in files:
        file_path = os.path.join(folder_path, file_name)
        cleaned_content = limpiar_archivo_java(file_path)
        file_contents[file_name] = cleaned_content

    return file_contents

def calculate_cosine_similarity(file_contents):
    # Convertir los contenidos de los archivos a una lista
    corpus = list(file_contents.values())

    # Utilizar TfidfVectorizer para obtener las características de los archivos
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(corpus)

    # Calcular la matriz de similitud de cosenos entre los archivos
    similarity_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)

    return similarity_matrix

# Directorio que contiene los archivos Java
folder_path = ".\\CFiles\\java\\train"

# Obtener los contenidos de los archivos
file_contents = generate_file_contents(folder_path)

# Calcular la similitud de cosenos entre los archivos
similarity_matrix = calculate_cosine_similarity(file_contents)

# Obtener los nombres de los archivos
file_names = list(file_contents.keys())

# Iterar sobre la matriz de similitud de cosenos y encontrar pares de archivos similares
for i in range(len(file_names)):
    for j in range(i + 1, len(file_names)):
        if similarity_matrix[i, j] > 0.85:
            print(f"Archivos similares: {file_names[i]} y {file_names[j]}, Similaridad: {similarity_matrix[i, j]}")

# plt.figure(figsize=(12, 10))
# heatmap = sns.heatmap(similarity_matrix, cmap="YlGnBu", annot=True, fmt=".2f", linewidths=.5)
# plt.title("Matriz de similitud de cosenos entre archivos")
# plt.xlabel("Archivos")
# plt.ylabel("Archivos")
# plt.show()

Archivos similares: 005.java y 006.java, Similaridad: 0.999752241273496
Archivos similares: 014.java y 021.java, Similaridad: 0.9991661158784219
Archivos similares: 015.java y 023.java, Similaridad: 1.0000000000000002
Archivos similares: 016.java y 024.java, Similaridad: 0.9960228996159711
Archivos similares: 017.java y 022.java, Similaridad: 0.9783653993364245
Archivos similares: 030.java y 032.java, Similaridad: 0.8866578225067605
Archivos similares: 043.java y 251.java, Similaridad: 0.9891486882761814
Archivos similares: 048.java y 051.java, Similaridad: 0.9699607980870207
Archivos similares: 048.java y 059.java, Similaridad: 0.8663840165899407
Archivos similares: 051.java y 059.java, Similaridad: 0.8825356416023545
Archivos similares: 059.java y 183.java, Similaridad: 0.8773749974089675
Archivos similares: 059.java y 258.java, Similaridad: 0.9124964895215663
Archivos similares: 062.java y 064.java, Similaridad: 0.8986972219253097
Archivos similares: 101.java y 212.java, Similaridad

## Similitud Cosenos (ASTs)

In [8]:
import os
import re
import javalang

def limpiar_archivo_java(archivo):
    with open(archivo, 'r') as file:
        contenido = file.read()

    # Eliminar comentarios de una línea
    contenido = re.sub(r'//.*', '', contenido)

    # Eliminar comentarios de múltiples líneas
    contenido = re.sub(r'/\*(.|\n)*?\*/', '', contenido)

    # Eliminar líneas de importación de bibliotecas
    contenido = re.sub(r'import\s+.*?;', '', contenido)

    # Eliminar espacios dentro de cadenas de texto
    contenido = re.sub(r'"([^"\\]*(?:\\.[^"\\]*)*)"', lambda m: m.group(0).replace(' ', '\\'), contenido)

    # Escapar espacios en blanco dentro de cadenas de caracteres
    contenido = re.sub(r'(\".*?)(\s+)(.*?\")', lambda match: match.group(1) + match.group(2).replace(' ', '\\ ') + match.group(3), contenido)

    # Eliminar líneas en blanco adicionales
    contenido = re.sub(r'\n\s*\n', '\n', contenido)

    return contenido

def cargar_archivos_java(folder_path):
    file_contents = {}
    archivos_java = [archivo for archivo in os.listdir(folder_path) if archivo.endswith('.java')]

    for archivo in archivos_java:
        ruta_archivo = os.path.join(folder_path, archivo)
        contenido_limpio = limpiar_archivo_java(ruta_archivo)
        file_contents[archivo] = contenido_limpio

    return file_contents

# Directorio que contiene los archivos Java
folder_path = ".\\conplag\\minor"
file_contents = cargar_archivos_java(folder_path)

# Mostrar el contenido de los archivos cargados y construir el AST
for nombre_archivo, contenido_archivo in file_contents.items():
    print(f"Archivo: {nombre_archivo}")
    print(contenido_archivo)
    print("------------------------------------")
    
    # Construir el AST utilizando javalang
    try:
        ast = javalang.parse.parse(contenido_archivo)
        # print("AST:")
        # print(ast)
    except javalang.parser.JavaSyntaxError as e:
        print("Error de sintaxis en el archivo:", e)
    print("------------------------------------")
    


Archivo: 115c99cb.java

public class D_Java {
	public static final int MOD = 998244353;
	public static int mul(int a, int b) {
		return (int)((long)a * (long)b % MOD);
	}
	int[] f;
	int[] rf;
	public int C(int n, int k) {
		return (k < 0 || k > n) ? 0 : mul(f[n], mul(rf[n-k], rf[k]));
	}
	public static int pow(int a, int n) {
		int res = 1;
		while (n != 0) {
			if ((n & 1) == 1) {
				res = mul(res, a);
			}
			a = mul(a, a);
			n >>= 1;
		}
		return res;
	}
	public static int inv(int a) {
		return pow(a, MOD-2);
	}
	public void doIt() throws IOException {
		BufferedReader in = new BufferedReader(new InputStreamReader(System.in));
		StringTokenizer tok = new StringTokenizer(in.readLine());
		int n = Integer.parseInt(tok.nextToken());
		int k = Integer.parseInt(tok.nextToken());
		f = new int[n+42];
		rf = new int[n+42];
		f[0] = rf[0] = 1;
		for (int i = 1; i < f.length; ++i) {
			f[i] = mul(f[i-1], i);
			rf[i] = mul(rf[i-1], inv(i));
		}
		int[] events = new int[2*n];
		for (int i =

In [9]:
from scipy.spatial.distance import cosine
import numpy as np
import os
import re
import javalang


def limpiar_archivo_java(archivo):
    with open(archivo, 'r') as file:
        contenido = file.read()

    # Eliminar sangría y saltos de línea
    contenido = re.sub(r'\n\s*', '\n', contenido)

    # Eliminar comentarios de una línea
    contenido = re.sub(r'//.*', '', contenido)

    # Eliminar comentarios de múltiples líneas
    contenido = re.sub(r'/\*(.|\n)*?\*/', '', contenido)

    # Eliminar líneas de importación de bibliotecas
    contenido = re.sub(r'import\s+.*?;', '', contenido)

    # Eliminar líneas en blanco adicionales
    contenido = re.sub(r'\n\s*\n', '\n', contenido)

    return contenido


carpeta = ".\\conplag\\minor"
archivos_java = [archivo for archivo in os.listdir(
    carpeta) if archivo.endswith('.java')]

ast_trees = {}

for archivo in archivos_java:
    ruta_archivo = os.path.join(carpeta, archivo)
    contenido_limpio = limpiar_archivo_java(ruta_archivo)
    tokens = javalang.tokenizer.tokenize(contenido_limpio)

    try:
        parser = javalang.parser.Parser(tokens)
        ast_tree = parser.parse_member_declaration()
        # Guardar el AST en un diccionario con el nombre del archivo como clave
        ast_trees[archivo] = ast_tree
    except javalang.parser.JavaSyntaxError as e:
        print("Error de sintaxis en", archivo, ":", e)

## Conteo de tipos de datos totales

In [10]:
def contar_tipos_de_datos(ast_trees):
    tipos_de_datos = {}

    for archivo, ast_tree in ast_trees.items():
        # Recorrer el árbol sintáctico abstracto
        for _, node in ast_tree:
            # Obtener el tipo de nodo
            tipo = type(node).__name__
            # Incrementar el contador para este tipo de dato
            tipos_de_datos[tipo] = tipos_de_datos.get(tipo, 0) + 1

    return tipos_de_datos

# Obtener el conteo de tipos de datos
conteo_tipos_de_datos = contar_tipos_de_datos(ast_trees)

# Mostrar los resultados
# for tipo, conteo in conteo_tipos_de_datos.items():
#     print(f"{tipo}: {conteo}")

ClassDeclaration: 9
FieldDeclaration: 15
BasicType: 193
VariableDeclarator: 140
Literal: 204
MethodDeclaration: 30
FormalParameter: 41
ReturnStatement: 17
Cast: 13
BinaryOperation: 212
MemberReference: 571
TernaryExpression: 6
MethodInvocation: 153
ArraySelector: 94
LocalVariableDeclaration: 93
WhileStatement: 10
BlockStatement: 65
IfStatement: 36
StatementExpression: 133
Assignment: 95
ReferenceType: 64
ClassCreator: 30
ArrayCreator: 16
ForStatement: 27
ForControl: 27
VariableDeclaration: 27
TypeArgument: 4
BreakStatement: 4
ConstructorDeclaration: 1
This: 2


In [11]:
def contar_tipos_de_datos_por_archivo(ast_trees):
    conteo_por_archivo = {}

    for archivo, ast_tree in ast_trees.items():
        conteo_tipos_de_datos = {}
        # Recorrer el árbol sintáctico abstracto
        for _, node in ast_tree:
            # Obtener el tipo de nodo
            tipo = type(node).__name__
            # Incrementar el contador para este tipo de dato
            conteo_tipos_de_datos[tipo] = conteo_tipos_de_datos.get(tipo, 0) + 1

        # Guardar el conteo para este archivo
        conteo_por_archivo[archivo] = conteo_tipos_de_datos

    return conteo_por_archivo

# Obtener el conteo de tipos de datos por archivo
conteo_tipos_de_datos_por_archivo = contar_tipos_de_datos_por_archivo(ast_trees)

# Mostrar los resultados
# for archivo, conteo_tipos in conteo_tipos_de_datos_por_archivo.items():
#     print(f"Archivo: {archivo}")
#     for tipo, conteo in conteo_tipos.items():
#         print(f"\t{tipo}: {conteo}")


Archivo: 115c99cb.java
	ClassDeclaration: 1
	FieldDeclaration: 3
	BasicType: 33
	VariableDeclarator: 18
	Literal: 29
	MethodDeclaration: 6
	FormalParameter: 8
	ReturnStatement: 4
	Cast: 3
	BinaryOperation: 34
	MemberReference: 93
	TernaryExpression: 1
	MethodInvocation: 24
	ArraySelector: 14
	LocalVariableDeclaration: 12
	WhileStatement: 2
	BlockStatement: 8
	IfStatement: 4
	StatementExpression: 22
	Assignment: 18
	ReferenceType: 8
	ClassCreator: 5
	ArrayCreator: 3
	ForStatement: 3
	ForControl: 3
	VariableDeclaration: 3
Archivo: 2bbf754b.java
	ClassDeclaration: 2
	MethodDeclaration: 1
	FormalParameter: 3
	ReferenceType: 10
	LocalVariableDeclaration: 11
	VariableDeclarator: 16
	ClassCreator: 3
	MemberReference: 35
	BasicType: 16
	MethodInvocation: 11
	WhileStatement: 1
	BinaryOperation: 7
	Literal: 11
	BlockStatement: 8
	ArrayCreator: 1
	ForStatement: 3
	ForControl: 3
	VariableDeclaration: 3
	StatementExpression: 9
	Assignment: 5
	ArraySelector: 2
	TypeArgument: 2
	IfStatement: 3
	Break

In [12]:
import numpy as np

# Obtener las claves únicas de los tipos de datos
tipos_de_datos_unicos = set()
for conteo_tipos in conteo_tipos_de_datos_por_archivo.values():
    tipos_de_datos_unicos.update(conteo_tipos.keys())

# Ordenar los tipos de datos únicos alfabéticamente
tipos_de_datos_unicos = sorted(tipos_de_datos_unicos)

# Crear una matriz para almacenar los conteos
matriz_conteos = np.zeros((len(conteo_tipos_de_datos_por_archivo), len(tipos_de_datos_unicos)), dtype=int)

# Llenar la matriz con los conteos
for i, (archivo, conteo_tipos) in enumerate(conteo_tipos_de_datos_por_archivo.items()):
    for j, tipo_dato in enumerate(tipos_de_datos_unicos):
        matriz_conteos[i, j] = conteo_tipos.get(tipo_dato, 0)

# Mostrar la matriz
print("Matriz de conteos:")
print(matriz_conteos)


Matriz de conteos:
[[  3  14  18  33  34   8   0   3   5   1   0   3   3   3   8   4  29  12
   93   6  24   8   4  22   1   0   0   3  18   2]
 [  1   2   5  16   7   8   2   0   3   2   1   2   3   3   3   3  11  11
   35   1  11  10   0   9   1   2   2   3  16   1]
 [  3  18  20  37  37   9   0   3   6   1   0   3   4   4   9   4  32  15
  107   7  26  10   4  25   1   0   0   4  22   2]
 [  3  14  18  33  34   8   0   3   5   1   0   3   3   3   8   4  29  12
   93   6  24   8   4  22   1   0   0   3  18   2]
 [  2  15   3  20  20   7   0   1   4   1   0   1   6   6   3   1  19  11
   57   2  14  11   1   8   1   0   2   6  19   0]
 [  0   0   3  14  24  10   2   0   1   1   0   0   4   4   1   9  17  13
   49   1  16   5   0   8   0   0   0   4  17   0]
 [  1  17  10   7  22   7   0   0   1   1   0   0   1   1   1   7  38   7
   44   1  14   4   0  17   0   0   0   1  12   1]
 [  3  14  18  33  34   8   0   3   5   1   0   3   3   3   8   4  29  12
   93   6  24   8   4  22   1   

In [13]:
from sklearn.metrics.pairwise import cosine_similarity

# Calcular la similitud de cosenos entre las filas de la matriz de conteos
similitud_cos = cosine_similarity(matriz_conteos)

# Mostrar la matriz de similitud de cosenos
print("Matriz de similitud de cosenos:")
print(similitud_cos)


Matriz de similitud de cosenos:
[[1.         0.93887081 0.99948424 1.         0.97089572 0.95400396
  0.91286091 1.        ]
 [0.93887081 1.         0.94282844 0.93887081 0.9571961  0.9459623
  0.84546238 0.93887081]
 [0.99948424 0.94282844 1.         0.99948424 0.97533633 0.95315932
  0.91133566 0.99948424]
 [1.         0.93887081 0.99948424 1.         0.97089572 0.95400396
  0.91286091 1.        ]
 [0.97089572 0.9571961  0.97533633 0.97089572 1.         0.95686107
  0.90094491 0.97089572]
 [0.95400396 0.9459623  0.95315932 0.95400396 0.95686107 1.
  0.89247789 0.95400396]
 [0.91286091 0.84546238 0.91133566 0.91286091 0.90094491 0.89247789
  1.         0.91286091]
 [1.         0.93887081 0.99948424 1.         0.97089572 0.95400396
  0.91286091 1.        ]]


In [14]:
import pandas as pd

# Obtener los nombres de los archivos
nombres_archivos = list(conteo_tipos_de_datos_por_archivo.keys())

# Crear un DataFrame con la matriz de similitud de cosenos
df_similitud_cos = pd.DataFrame(similitud_cos, index=nombres_archivos, columns=nombres_archivos)

# Mostrar el DataFrame
print("Matriz de similitud de cosenos:")
print(df_similitud_cos)


Matriz de similitud de cosenos:
               115c99cb.java  2bbf754b.java  3e6def38.java  548ffb07.java  \
115c99cb.java       1.000000       0.938871       0.999484       1.000000   
2bbf754b.java       0.938871       1.000000       0.942828       0.938871   
3e6def38.java       0.999484       0.942828       1.000000       0.999484   
548ffb07.java       1.000000       0.938871       0.999484       1.000000   
6490bbe8.java       0.970896       0.957196       0.975336       0.970896   
66e74577.java       0.954004       0.945962       0.953159       0.954004   
6e207cbf.java       0.912861       0.845462       0.911336       0.912861   
921b6e4a.java       1.000000       0.938871       0.999484       1.000000   

               6490bbe8.java  66e74577.java  6e207cbf.java  921b6e4a.java  
115c99cb.java       0.970896       0.954004       0.912861       1.000000  
2bbf754b.java       0.957196       0.945962       0.845462       0.938871  
3e6def38.java       0.975336       0.953159   

In [15]:
# Definir el umbral de similitud
umbral_similitud = 0.98

# Filtrar los pares de archivos con similitud mayor o igual al umbral
pares_similitud_alta = df_similitud_cos[df_similitud_cos >= umbral_similitud].stack().reset_index()
pares_similitud_alta.columns = ['Archivo 1', 'Archivo 2', 'Similitud']

# Filtrar los pares de archivos que no son el mismo archivo
pares_similitud_alta = pares_similitud_alta[pares_similitud_alta['Archivo 1'] != pares_similitud_alta['Archivo 2']]

# Mostrar los pares de archivos con similitud alta
print("Archivos similares:")
for _, row in pares_similitud_alta.iterrows():
    archivo1 = row['Archivo 1']
    archivo2 = row['Archivo 2']
    similitud = row['Similitud']
    print(f"{archivo1} - {archivo2}: Similitud = {round(similitud, 4)}")


Archivos similares:
115c99cb.java - 3e6def38.java: Similitud = 0.9995
115c99cb.java - 548ffb07.java: Similitud = 1.0
115c99cb.java - 921b6e4a.java: Similitud = 1.0
3e6def38.java - 115c99cb.java: Similitud = 0.9995
3e6def38.java - 548ffb07.java: Similitud = 0.9995
3e6def38.java - 921b6e4a.java: Similitud = 0.9995
548ffb07.java - 115c99cb.java: Similitud = 1.0
548ffb07.java - 3e6def38.java: Similitud = 0.9995
548ffb07.java - 921b6e4a.java: Similitud = 1.0
921b6e4a.java - 115c99cb.java: Similitud = 1.0
921b6e4a.java - 3e6def38.java: Similitud = 0.9995
921b6e4a.java - 548ffb07.java: Similitud = 1.0
