In [39]:
import pandas as pd

In [79]:
def comparar_linhas(df1, df2):
    # Cria uma lista para armazenar os pares de índices
    relacionamentos = []

    # Itera sobre as linhas do primeiro DataFrame (df1)
    for idx1, row1 in df1.iterrows():
        # Verifica qual linha do df2 é igual à linha atual de df1
        for idx2, row2 in df2.iterrows():
            if row1.equals(row2):  # Verifica se as linhas são idênticas
                relacionamentos.append((idx1, idx2))  # Adiciona o par de índices

    return relacionamentos

def substituir_por_relacionamento(df, relacionamentos, coluna):
    # Itera sobre as linhas do DataFrame
    for idx, row in df.iterrows():
        valor_coluna = row[coluna]  # Valor atual da coluna na linha
        
        # Verifica se o valor da coluna está no relacionamento (primeiro valor da tupla)
        for idx1, idx2 in relacionamentos:
            if valor_coluna == idx1:  # Se o valor na coluna é igual ao primeiro índice
                df.at[idx, coluna] = idx2  # Substitui pelo segundo valor da tupla
                
    return df

def verificar_igualdade_generic(seq_cent, conc_cent, seq_data, conc_data):
    seq_data = seq_data.copy()
    conc_data = conc_data.copy()

    # Verificar a relação entre os centroides
    rel = comparar_linhas(seq_cent, conc_cent)

    # Deixa a referências aos centroides igual a dos dados do concorrente
    # Os mesmos centróides estão em linhas diferentes nos arquivos de cada execução
    # Então é preciso fazer essa correlação para termos as uma única referência a um mesmo centróide
    seq_data = substituir_por_relacionamento(seq_data, rel, "centroide")

    # Ordena pelo índice do dataset original e reseta os índices para comparar depois
    conc_data.sort_values("index", inplace=True)
    conc_data.reset_index(drop=True,inplace=True)

    seq_data.sort_values("index", inplace=True)
    seq_data.reset_index(drop=True,inplace=True)

    # Guarda series que possui True para igualdades e False para diferentes
    # Foi necessário resetar o índice anteriormente pois essa comparação necessita
    # que os índices sejam os mesmos na mesma sequência
    igualdades = (seq_data["centroide"] == conc_data["centroide"])

    # Obtém a quantidade de diferenças
    disc = (~igualdades).sum()

    
    if (disc) == 0:
        print(disc)
        print("Os dois programas atribuiram os mesmos pontos aos mesmos centroides.")
    else:
        print(disc)
        print("Há pontos iguais pertencentes a centroides diferentes. Houve discordância entre os programas")

# Primeiro teste

- K = 3
- Número de Processos = 8
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm"]

## Sequencial

In [80]:
df_seq_cent = pd.read_csv("./Sequencial/k_3_centers")

In [81]:
df_seq_data = pd.read_csv("./Sequencial/k_3_data")

## Concorrente

In [82]:
df_conc_cent = pd.read_csv("./Concorrente/k_3_p_8_centers")

In [83]:
df_conc_data = pd.read_csv("./Concorrente/k_3_p_8_data")

-----------------------

In [84]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Segundo teste

- K = 4
- Número de Processos = 8
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm"]

## Sequencial

In [85]:
df_seq_cent = pd.read_csv("./Sequencial/k_4_centers")

In [86]:
df_seq_data = pd.read_csv("./Sequencial/k_4_data")

## Concorrente

In [87]:
df_conc_cent = pd.read_csv("./Concorrente/k_4_p_8_centers")

In [88]:
df_conc_data = pd.read_csv("./Concorrente/k_4_p_8_data")

-----------------------

In [89]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Terceiro teste

- K = 3
- Número de Processos = 4
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm"]

## Sequencial

In [100]:
df_seq_cent = pd.read_csv("./Sequencial/k_3_centers")

In [101]:
df_seq_data = pd.read_csv("./Sequencial/k_3_data")

## Concorrente

In [102]:
df_conc_cent = pd.read_csv("./Concorrente/k_3_p_4_centers")

In [103]:
df_conc_data = pd.read_csv("./Concorrente/k_3_p_4_data")

-----------------------

In [104]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Quarto teste

- K = 4
- Número de Processos = 4
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm"]

## Sequencial

In [95]:
df_seq_cent = pd.read_csv("./Sequencial/k_4_centers")

In [96]:
df_seq_data = pd.read_csv("./Sequencial/k_4_data")

## Concorrente

In [97]:
df_conc_cent = pd.read_csv("./Concorrente/k_4_p_4_centers")

In [98]:
df_conc_data = pd.read_csv("./Concorrente/k_4_p_4_data")

-----------------------

In [99]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.
