### jsonl -> csv

In [3]:
import json
import csv

# Specify the input and output file paths
input_file = 'NIKL_AU_2023_COMPETITION_v1.0/nikluge-au-2022-test.jsonl'
output_file = 'NIKL_AU_2023_COMPETITION_v1.0/test.csv'

data = []

# Read the JSONL file
with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        # Remove any leading/trailing whitespace
        line = line.strip()
        if not line:
            continue  # Skip empty lines
        # Parse the JSON object
        record = json.loads(line)
        data.append(record)

# Write data to a CSV file
with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
    # Define the CSV column headers
    fieldnames = ['id', 'input', 'output']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # Write the header row
    writer.writeheader()

    # Write each JSON object as a row in the CSV file
    for record in data:
        writer.writerow(record)


### csv 를 padnas 로 읽어오기

In [2]:
# 데이터 읽어와보기
import pandas as pd
train_df = pd.read_csv("NIKL_AU_2023_COMPETITION_v1.0/train.csv")

In [3]:
train_df.head(3)

Unnamed: 0,id,input,output
0,nikluge-au-2022-train-000001,보여주면서 왜 엿보냐고 비난 하는것도 웃기지만. 훔쳐 보면서 왜 보여주냐고 하는 사...,1
1,nikluge-au-2022-train-000002,왜 개인 사생활을 방송으로 보여주고 싶은지 이해도 안가지만 &location&식 프...,1
2,nikluge-au-2022-train-000003,이런 쓰레기같은 새끼가 아무렇지 않게 멀쩡히 돌아다닐 생각을 하니까 진짜 너무 소름...,1


### 라벨별 분포

In [16]:
len(train_df[train_df.output==0])

9794

In [4]:
len(train_df[train_df.output==1])

6786

### 학습 데이터 살펴보기

In [15]:
train_df[train_df.output==1].loc[34]

id                 nikluge-au-2022-train-000035
input     왕권시대에도 볼수 없던 독재를 &name&정권은 거침 없이 자행 !
output                                        1
Name: 34, dtype: object

### 정규표현식으로 비식별화 토큰 (&name&) 같은 거 검색해보기 그리고 special token 처리하기

- &name& -> "&name&"  -> [32001]
- &name& -> & , name , & -> [35, 767, 35]
- special token 에 "&name&" 

In [26]:
for i, j in train_df.items():
    print(i)
    print("0"*100)
    print(j)

id
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
0        nikluge-au-2022-train-000001
1        nikluge-au-2022-train-000002
2        nikluge-au-2022-train-000003
3        nikluge-au-2022-train-000004
4        nikluge-au-2022-train-000005
                     ...             
16575    nikluge-au-2022-train-016576
16576    nikluge-au-2022-train-016577
16577    nikluge-au-2022-train-016578
16578    nikluge-au-2022-train-016579
16579    nikluge-au-2022-train-016580
Name: id, Length: 16580, dtype: object
input
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
0        보여주면서 왜 엿보냐고 비난 하는것도 웃기지만. 훔쳐 보면서 왜 보여주냐고 하는 사...
1        왜 개인 사생활을 방송으로 보여주고 싶은지 이해도 안가지만 &location&식 프...
2        이런 쓰레기같은 새끼가 아무렇지 않게 멀쩡히 돌아다닐 생각을 하니까 진짜 너무 소름...
3                                             인간의 탈을 쓰고...
4                              인기글에 짱깨뭐라하니까 댓글로 ㅂㄷㅂㄷ하네요...
                               ...   

### 토크나이저로 한번에 여러개의 문장 배치단위로 토크나이징
- 이때 input 은 list 형태로 넣어주셔야 에러가 안납니다.

In [31]:
from transformers import AutoTokenizer 
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# tokenizer test
tokenizer(train_df['input'].tolist())