In [195]:
import pandas as pd

In [196]:
def comparar_linhas(df1, df2):
    # Cria uma lista para armazenar os pares de índices
    relacionamentos = []

    # Itera sobre as linhas do primeiro DataFrame (df1)
    for idx1, row1 in df1.iterrows():
        # Verifica qual linha do df2 é igual à linha atual de df1
        for idx2, row2 in df2.iterrows():
            if row1.equals(row2):  # Verifica se as linhas são idênticas
                relacionamentos.append((idx1, idx2))  # Adiciona o par de índices

    return relacionamentos

def substituir_por_relacionamento(df, relacionamentos, coluna):
    # Itera sobre as linhas do DataFrame
    for idx, row in df.iterrows():
        valor_coluna = row[coluna]  # Valor atual da coluna na linha
        
        # Verifica se o valor da coluna está no relacionamento (primeiro valor da tupla)
        for idx1, idx2 in relacionamentos:
            if valor_coluna == idx1:  # Se o valor na coluna é igual ao primeiro índice
                df.at[idx, coluna] = idx2  # Substitui pelo segundo valor da tupla
                
    return df

def verificar_igualdade_generic(seq_cent, conc_cent, seq_data, conc_data):
    seq_data = seq_data.copy()
    conc_data = conc_data.copy()

    # Verificar a relação entre os centroides
    rel = comparar_linhas(seq_cent, conc_cent)

    # Deixa a referências aos centroides igual a dos dados do concorrente
    # Os mesmos centróides estão em linhas diferentes nos arquivos de cada execução
    # Então é preciso fazer essa correlação para termos as uma única referência a um mesmo centróide
    seq_data = substituir_por_relacionamento(seq_data, rel, "centroide")

    # Ordena pelo índice do dataset original e reseta os índices para comparar depois
    conc_data.sort_values("index", inplace=True)
    conc_data.reset_index(drop=True,inplace=True)

    seq_data.sort_values("index", inplace=True)
    seq_data.reset_index(drop=True,inplace=True)

    # Guarda series que possui True para igualdades e False para diferentes
    # Foi necessário resetar o índice anteriormente pois essa comparação necessita
    # que os índices sejam os mesmos na mesma sequência
    igualdades = (seq_data["centroide"] == conc_data["centroide"])

    # Obtém a quantidade de diferenças
    disc = (~igualdades).sum()

    
    if (disc) == 0:
        print(disc)
        print("Os dois programas atribuiram os mesmos pontos aos mesmos centroides.")
    else:
        print(disc)
        print("Há pontos iguais pertencentes a centroides diferentes. Houve discordância entre os programas")

# Primeiro teste

- K = 3
- Número de Processos = 8
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]

## Sequencial

In [197]:
df_seq_cent = pd.read_csv("./Sequencial/k_3_centers")

In [198]:
df_seq_data = pd.read_csv("./Sequencial/k_3_data")

## Concorrente

In [199]:
df_conc_cent = pd.read_csv("./Concorrente/k_3_p_8_centers")

In [200]:
df_conc_data = pd.read_csv("./Concorrente/k_3_p_8_data")

-----------------------

In [201]:
df_seq_cent

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,5.006,3.418,1.464,0.244
1,6.85385,3.07692,5.71538,2.05385
2,5.88361,2.74098,4.38852,1.43443


In [202]:
df_conc_cent

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,6.85385,3.07692,5.71538,2.05385
1,5.88361,2.74098,4.38852,1.43443
2,5.006,3.418,1.464,0.244


In [203]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Segundo teste

- K = 4
- Número de Processos = 8
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]

## Sequencial

In [204]:
df_seq_cent = pd.read_csv("./Sequencial/k_4_centers")

In [205]:
df_seq_data = pd.read_csv("./Sequencial/k_4_data")

## Concorrente

In [210]:
df_conc_cent = pd.read_csv("./Concorrente/k_4_p_8_centers")

In [211]:
df_conc_data = pd.read_csv("./Concorrente/k_4_p_8_data")

-----------------------

In [208]:
df_seq_cent

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,5.006,3.418,1.464,0.244
1,6.9125,3.1,5.84687,2.13125
2,5.52963,2.62222,3.94074,1.21852
3,6.23659,2.85854,4.80732,1.62195


In [213]:
df_conc_cent

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,6.9125,3.1,5.84688,2.13125
1,6.2525,2.855,4.815,1.625
2,5.006,3.418,1.464,0.244
3,5.53214,2.63571,3.96071,1.22857


In [214]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

99
Há pontos iguais pertencentes a centroides diferentes. Houve discordância entre os programas


# Terceiro teste

- K = 3
- Número de Processos = 4
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]

## Sequencial

In [185]:
df_seq_cent = pd.read_csv("./Sequencial/k_3_centers")

In [186]:
df_seq_data = pd.read_csv("./Sequencial/k_3_data")

## Concorrente

In [187]:
df_conc_cent = pd.read_csv("./Concorrente/k_3_p_4_centers")

In [188]:
df_conc_data = pd.read_csv("./Concorrente/k_3_p_4_data")

-----------------------

In [189]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Quarto teste

- K = 4
- Número de Processos = 4
- Colunas utilizadas = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]

## Sequencial

In [190]:
df_seq_cent = pd.read_csv("./Sequencial/k_4_centers")

In [191]:
df_seq_data = pd.read_csv("./Sequencial/k_4_data")

## Concorrente

In [192]:
df_conc_cent = pd.read_csv("./Concorrente/k_4_p_4_centers")

In [193]:
df_conc_data = pd.read_csv("./Concorrente/k_4_p_4_data")

-----------------------

In [194]:
verificar_igualdade_generic(df_seq_cent, df_conc_cent, df_seq_data, df_conc_data)

0
Os dois programas atribuiram os mesmos pontos aos mesmos centroides.


# Conclusão

É importante notar que depedendo da execução, em alguns casos a posição dos centróides podem variar ligeiramente no programa concorrente podendo possuir algumas discordâncias com o sequencial. Isso se deve ao fato dos computadores não possuirem precisão infinita, ocasionando em resultados diferentes depedendo da ordem das operações matemáticas sobre números de ponto flutuante. Entretanto, para alguns casos é possível verificar que aparentemente o resultado do concorrente está completamente de acordo com o do sequencial, sendo assim, isso nos leva a concluir que o programa concorrente está correto apesar desses casos eventuais.