제작한 데이터는 LM fine-tuning을 통해 성능을 알아보기 이전에, annotator들의 일치도(iaa)로 우선적으로 평가받게 됩니다. 여기서 활용하는 평가 지표는 Fleiss' Kappa로, 여러 class 및 여러 rater 정보가 있을 때, 이를 반영하여 일치도를 평가하는 방식입니다.  
**본 노트북에서는 iaa를 계산하는 방법을 알아봅니다.**

### 1. 태깅 결과를 `iaa_sample.xlsx` 파일로 저장한 다음 로드합니다. 

In [4]:
import os 
os.getcwd()

'/content'

In [5]:
import pandas as pd
df = pd.read_excel('pilot_1.xlsx',engine='openpyxl')

In [6]:
dic = {'idv:type':'개체 : 종류', 'org:feature':'단체 : 특징', 'idv:alternate_name':'개체 : 대체어',
       'idv:component':'개체 : 부품', 'org:founded':'단체 : 창립일','org:top_members/employees':'단체 : 구성원',
       'no_relation':'관계_없음','org:city_of_headquarters':'단체 : 본사_도시', 'org:product':'단체 : 상품', 'idv:feature':'개체 : 특징'}


In [7]:
for k, v in zip(list(dic.keys()), list(dic.values())):
    print(k)
    print(v)
    df.replace(k, v, inplace = True)

idv:type
개체 : 종류
org:feature
단체 : 특징
idv:alternate_name
개체 : 대체어
idv:component
개체 : 부품
org:founded
단체 : 창립일
org:top_members/employees
단체 : 구성원
no_relation
관계_없음
org:city_of_headquarters
단체 : 본사_도시
org:product
단체 : 상품
idv:feature
개체 : 특징


In [8]:
df.drop(['용찬'], axis=1, inplace=True)

In [13]:
result=df[['건우','단익','재덕','석희']]

In [14]:
result

Unnamed: 0,건우,단익,재덕,석희
0,개체 : 종류,개체 : 종류,개체 : 종류,개체 : 종류
1,단체 : 특징,개체 : 특징,개체 : 특징,개체 : 특징
2,개체 : 대체어,개체 : 대체어,개체 : 대체어,개체 : 대체어
3,개체 : 부품,개체 : 부품,개체 : 특징,개체 : 부품
4,개체 : 대체어,개체 : 대체어,개체 : 대체어,개체 : 대체어
5,개체 : 종류,단체 : 구성원,단체 : 구성원,단체 : 구성원
6,단체 : 창립일,관계_없음,단체 : 창립일,단체 : 창립일
7,단체 : 본사_도시,단체 : 본사_도시,단체 : 본사_도시,단체 : 본사_도시
8,개체 : 대체어,개체 : 대체어,개체 : 대체어,개체 : 대체어
9,개체 : 대체어,개체 : 대체어,개체 : 대체어,개체 : 대체어


In [15]:
dic_2 = {'개체 : 종류':1, '단체 : 특징':2, '개체 : 대체어':3,
       '개체 : 부품':4,'단체 : 창립일':5,'단체 : 구성원':6,
       '관계_없음':7,'단체 : 본사_도시':8,'단체 : 상품':9, '개체 : 특징':10}

In [17]:
for k, v in dic_2.items():
    result.replace(k, v, inplace=True)

result

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().replace(


Unnamed: 0,건우,단익,재덕,석희
0,1,1,1,1
1,2,10,10,10
2,3,3,3,3
3,4,4,10,4
4,3,3,3,3
5,1,6,6,6
6,5,7,5,5
7,8,8,8,8
8,3,3,3,3
9,3,3,3,3


In [18]:
import numpy as np
result = result.to_numpy()
num_classes = int(np.max(result))

### 2. Fleiss' Kappa 함수를 선언합니다.

In [19]:
'''
Created on Aug 1, 2016
@author: skarumbaiah

Computes Fleiss' Kappa
Joseph L. Fleiss, Measuring Nominal Scale Agreement Among Many Raters, 1971.
'''

def checkInput(rate, n):
    """
    Check correctness of the input matrix
    @param rate - ratings matrix
    @return n - number of raters
    @throws AssertionError
    """
    N = len(rate)
    k = len(rate[0])
    assert all(len(rate[i]) == k for i in range(k)), "Row length != #categories)"
    assert all(isinstance(rate[i][j], int) for i in range(N) for j in range(k)), "Element not integer"
    assert all(sum(row) == n for row in rate), "Sum of ratings != #raters)"

def fleissKappa(rate,n):
    """
    Computes the Kappa value
    @param rate - ratings matrix containing number of ratings for each subject per category
    [size - N X k where N = #subjects and k = #categories]
    @param n - number of raters
    @return fleiss' kappa
    """

    N = len(rate)
    k = len(rate[0])
    print("#raters = ", n, ", #subjects = ", N, ", #categories = ", k)
    checkInput(rate, n)

    #mean of the extent to which raters agree for the ith subject
    PA = sum([(sum([i**2 for i in row])- n) / (n * (n - 1)) for row in rate])/N
    print("PA = ", PA)

    # mean of squares of proportion of all assignments which were to jth category
    PE = sum([j**2 for j in [sum([rows[i] for rows in rate])/(N*n) for i in range(k)]])
    print("PE =", PE)

    kappa = -float("inf")
    try:
        kappa = (PA - PE) / (1 - PE)
        kappa = float("{:.3f}".format(kappa))
    except ZeroDivisionError:
        print("Expected agreement = 1")

    print("Fleiss' Kappa =", kappa)

    return kappa

### 3. 데이터를 Fleiss Kappa를 계산할 수 있는 형태로 변환(transform)합니다. 

In [20]:
transformed_result = []
for i in range(len(result)):
    temp = np.zeros(num_classes)
    for j in range(len(result[i])):
        temp[int(result[i][j]-1)] += 1
    transformed_result.append(temp.astype(int).tolist())

### 4. IAA를 구합니다.

In [21]:
kappa = fleissKappa(transformed_result,len(result[0]))

#raters =  4 , #subjects =  25 , #categories =  10
PA =  0.7133333333333334
PE = 0.14000000000000004
Fleiss' Kappa = 0.667
