# 데이터셋
교차 언어 전이 평가용 데이터(WikiANN or PAN-X) 사용  
독일어(62.9%), 프랑스어(22.9%), 이탈리아어(8.4%), 영어(5.9%) 4개의 언어로 이루어짐.  
각 문서는 IOB2 포맷으로 LOC(위치),PER(사람),ORG(조직)으로 태그되어있음 B-는 개체명의 시작 I-는 동일한 개체명을 의미    

In [1]:
import pandas as pd
toks = "Jeff Dean is a computer scientist at Google in California".split()
lbls = ["B-PER", "I-PER", "O", "O", "O", "O", "O", "B-ORG", "O", "B-LOC"]
df = pd.DataFrame(data=[toks, lbls], index=['Tokens', 'Tags'])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
Tokens,Jeff,Dean,is,a,computer,scientist,at,Google,in,California
Tags,B-PER,I-PER,O,O,O,O,O,B-ORG,O,B-LOC


In [2]:
from datasets import get_dataset_config_names

xtreme_subsets = get_dataset_config_names("xtreme")
print(f"XTREME 서브셋 개수: {len(xtreme_subsets)}")
'''
XTREME으로 시작하는 데이터가 183개나 있음 이중에 필요한거 선택함
'''



Downloading readme:   0%|          | 0.00/131k [00:00<?, ?B/s]

XTREME 서브셋 개수: 183


In [4]:
panx_subsets = [s for s in xtreme_subsets if s.startswith("PAN")] #startswith는 인자로 시작하는 단어를 찾아줌
print(panx_subsets[:3],len(panx_subsets))
'''
ISO 639-1 코드 명명을 따름 
간단하게 PAN-X 뒤에 확장자가 나라별 언어를 의미함
af:Afrikaans
ar:Arabic
bg:Bulgarian
'''

['PAN-X.af', 'PAN-X.ar', 'PAN-X.bg'] 40


In [5]:
from datasets import load_dataset

load_dataset("xtreme", name="PAN-X.de") #de는 독일어
'''
train ,validation,test 3개의 데이터 셋 존재
token은 언어 토큰
ner_tags 위에 per org같은 태그
langs는 언어 여기서는 de
'''

Downloading data:   0%|          | 0.00/1.18M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/590k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/588k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 20000
    })
    validation: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
    test: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
})

In [6]:
from collections import defaultdict
from datasets import DatasetDict

langs = ["de", "fr", "it", "en"]
fracs = [0.629, 0.229, 0.084, 0.059]# defaultdict의 특징은 키가 없는 경우 설정한 기본값을 반환합니다.
panx_ch = defaultdict(DatasetDict) #dict 객체 안에 또 객체 들어감 따라서 key를 2개 입력해야함

for lang, frac in zip(langs, fracs):
    ds = load_dataset("xtreme", name=f"PAN-X.{lang}")# de fr it en 순서대로 데이터 가져와서 ds에 저장
    # 각 분할을 언어 비율에 따라 다운샘플링하고 섞습니다.
    for split in ds:
        panx_ch[lang][split] = (
            ds[split]
            .shuffle(seed=0)
            .select(range(int(frac * ds[split].num_rows))))#fracs에 설정해준 비율에 맞게 해당 단어를 가져옴 de의 경우 20000개의 0.629만큼 가져옴

Downloading data:   0%|          | 0.00/837k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/419k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/423k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Downloading data:   0%|          | 0.00/932k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/459k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/464k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Downloading data:   0%|          | 0.00/942k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/472k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/472k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

In [7]:
import pandas as pd

pd.DataFrame({lang: [panx_ch[lang]["train"].num_rows] for lang in langs},
             index=["Number of training examples"])

Unnamed: 0,de,fr,it,en
Number of training examples,12580,4580,1680,1180


In [8]:
element = panx_ch["de"]["train"][0]
for key, value in element.items():
    print(f"{key}: {value}")
'''
ner_tags 가 per 같은 내용으로 안되있음 고유 idx를 가지고 있음 이걸 수정해줄 예
'''

tokens: ['2.000', 'Einwohnern', 'an', 'der', 'Danziger', 'Bucht', 'in', 'der', 'polnischen', 'Woiwodschaft', 'Pommern', '.']
ner_tags: [0, 0, 0, 0, 5, 6, 0, 0, 5, 5, 6, 0]
langs: ['de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de']


In [9]:
for key, value in panx_ch["de"]["train"].features.items():
    print(f"{key}: {value}")
'''
ner_tags에 있는거 인덱스 따라간듯 5면 B-LOC를 뜻함
''

tokens: Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)
ner_tags: Sequence(feature=ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'], id=None), length=-1, id=None)
langs: Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)


In [10]:
tags = panx_ch["de"]["train"].features["ner_tags"].feature #위에서 ner_tags 내용만 가져옴
def create_tag_names(batch):
    return {"ner_tags_str": [tags.int2str(idx) for idx in batch["ner_tags"]]} #int2str이 idx 이용해서 이름으로 바꿔주는 dataset 라이브러리 내장 함수

panx_de = panx_ch["de"].map(create_tag_names)

# 3번하는 이유? train validation test 3개니까

Map:   0%|          | 0/12580 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

In [11]:
de_example = panx_de["train"][0]
pd.DataFrame([de_example["tokens"], de_example["ner_tags_str"]],['Tokens', 'Tags'])
'''
de_example의 tokens와 ner_tags_str의 key만 가져올건데 이거 이름을 'Tokens', 'Tags'로 설정해서 보여주는 함수
'''

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
Tokens,2.000,Einwohnern,an,der,Danziger,Bucht,in,der,polnischen,Woiwodschaft,Pommern,.
Tags,O,O,O,O,B-LOC,I-LOC,O,O,B-LOC,B-LOC,I-LOC,O


In [13]:
from collections import Counter

split2freqs = defaultdict(Counter) #Counter는 리스트 안에 같은 단어가 몇개 있나 세어주는 라이브러리 코테에서 자주 사용했음
for split, dataset in panx_de.items(): #split는 [train,validation,test]
    for row in dataset["ner_tags_str"]:
        for tag in row:
            if tag.startswith("B"): #B로 시작하면 
                tag_type = tag.split("-")[1] #-를 기준으로 나눈다 B-LOC면 [B,LOC]로 나눠짐 근데 [1]이므로 LOC가 선택
                split2freqs[split][tag_type] += 1 
pd.DataFrame.from_dict(split2freqs, orient="index")

'''
전체적으로 어디 한군데에 편향되어 있지 않고 균등함
하나가 눈에 띄게 많다면 그건 학습때 문제를 유발함
균등하니까 자주쓰이는 데이터 셋이겠지??'''

Unnamed: 0,LOC,ORG,PER
train,6186,5366,5810
validation,3172,2683,2893
test,3180,2573,3071
