## 토큰화 숙제 1
### 활용 데이터: hw_sample.json

### 실습 개요
이 실습에서는 주어진 json 파일에 포함된 텍스트 데이터에 대해 Mecab 형태소 분석기를 사용하여 형태소 분석을 수행하고, 그 결과를 기존 데이터 프레임에 새로운 열로 추가하는 과제입니다. KoNLPy 라이브러리 Mecab 형태소 분석기를 활용하여 한국어 텍스트 데이터를 형태소 단위로 분리하고, 분리된 형태소를 각 행에 대응하는 새로운 열에 저장합니다.


### 실습 절차
1. 라이브러리 설치 및 임포트: 필요한 라이브러리 (pandas, konlpy)를 설치하고 임포트합니다.
2. json 파일 로드: pandas를 사용하여 주어진 json 파일을 읽고 분석하려는 DataFrame으로 변환합니다. (이때, paragraph키 값 내의 첫번째 sentences안의 텍스트들을 분석합니다.)
3. Mecab 인스턴스 생성: KoNLPy의 Mecab 클래스를 인스턴스화합니다.
4. 형태소 분석 수행: "src_sentence"열에 대해 apply함수를 사용하여 형태소 분석기로 형태소 분석을 수행합니다. (morphs 함수 활용)
5. 각 행의 텍스트 데이터에 대한 형태소 분석 결과를 새로운 (Mecab)에 저장합니다.
6. 결과 확인 및 저장: 형태소 분석 결과가 추가된 DataFrame을 확인한 다음 morphs_results.csv파일로 저장합니다.



In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

# mecab-python의 버전 오류로 인해 아래 패키지를 설치하면 코랩에서 Mecab을 사용가능
!pip install mecab-python3

In [15]:
import json
import pandas as pd
from konlpy.tag import Mecab

In [4]:
with open('/content/drive/MyDrive/NLP 실습/1 8/hw_sample.json') as f:
  data = json.load(f)

In [7]:
data.keys()

dict_keys(['chunk-number', 'paragraph'])

In [10]:
df = pd.DataFrame(data['paragraph'][0]['sentences'])

In [12]:
df.head(1)

Unnamed: 0,src_sentence,tgt_sentence,src_lang,tgt_lang,src_paragraphs_id,src_word_count,spc_technical_label,spc_idiomatic_label,spc_proper_label,spc_double_label
0,영국의 콘센트에 표시된 50Hz가 바로 이런 의미다.,This is what the 50 Hz symbol on UK outlets ac...,ko,en,SI-2211071256P08177630R0104585,7,"콘센트,표시",,영국,


In [16]:
# Mecab 인스턴스 생성
mecab = Mecab()

In [17]:
df['mecab'] = df['src_sentence'].apply(lambda x: mecab.morphs(x))

In [18]:
df.head(1)

Unnamed: 0,src_sentence,tgt_sentence,src_lang,tgt_lang,src_paragraphs_id,src_word_count,spc_technical_label,spc_idiomatic_label,spc_proper_label,spc_double_label,mecab
0,영국의 콘센트에 표시된 50Hz가 바로 이런 의미다.,This is what the 50 Hz symbol on UK outlets ac...,ko,en,SI-2211071256P08177630R0104585,7,"콘센트,표시",,영국,,"[영국, 의, 콘센트, 에, 표시, 된, 50, Hz, 가, 바로, 이런, 의미, ..."


In [19]:
df.to_csv('morphs_results.csv', index=False)

## 토큰화 숙제 2
### 활용 데이터: hw_sample.json

### 실습 개요
이 실습에서는 hw_sample.json 데이터 셋을 활용하여 [klue/roberta-small](https://huggingface.co/klue/roberta-small)를 활용하여 토크나이징을 수행하고 그 결과를 기존 데이터 프레임에 새로운 열로 추가하는 과제입니다.

### 실습 절차
1. 라이브러리 설치 및 임포트: 필요한 라이브러리 (transformers)를 설치하고 임포트 합니다.
2. json 파일 로드: pandas를 사용하여 주어진 json 파일을 읽고 분석하려는 DataFrame으로 변환합니다. (이때, paragraph키 값 내의 두번째 sentences안의 텍스트들을 분석합니다.)
3. 모델 로드: transformers를 활용해 모델을 읽습니다.
4. 토크나이징: src_sentence에 대해 토크나이징을 수행합니다.
5. 토크나이징한 결과를 새로운 칼럼(tokenize_rst)에 저장합니다.
6. 결과 확인 및 저장: DataFrame을 확인한 다음 tokenize_results.csv파일로 저장합니다.



In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
## 실습1을 진행한 다음, 런타임을 해제하고 다시 연결한 후 실습을 수행합니다.
!pip install transformers

In [5]:
import json
import pandas as pd

In [3]:
from transformers import AutoTokenizer # AutoTokenizer

# BERT 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained('klue/roberta-small')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/752k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

In [6]:
with open('/content/drive/MyDrive/NLP 실습/1 8/hw_sample.json') as f:
  data = json.load(f)

In [7]:
df = pd.DataFrame(data['paragraph'][1]['sentences'])

In [8]:
df['tokenize_rst'] = df['src_sentence'].apply(lambda x: tokenizer.tokenize(x))

In [11]:
df.head(1)

Unnamed: 0,src_sentence,tgt_sentence,src_lang,tgt_lang,src_paragraphs_id,src_word_count,spc_technical_label,spc_idiomatic_label,spc_proper_label,spc_double_label,tokenize_rst
0,물체가 발광하는 측면을 논의할 수 있을 것이다.,We can discuss regarding the aspect of an obje...,ko,en,SI-2210121322P86180884R0100023,7,"물체,발광",,,,"[물체, ##가, 발광, ##하, ##는, 측면, ##을, 논의, ##할, 수, 있..."


In [10]:
df.to_csv('tokenize_results.csv', index=False)