To Be Updated ..
이름 | Github |
---|---|
이창현 | @2changhyeon |
이은찬 | @purang2 |
Model
- BERT
- KoBERT
- KoElectra
- RoBERTa-Large
전처리
- Mecab
- BERT-Tokenizer
- KoBERT-Tokenizer
- RoBERTa-Tokenizer
전략
- Imbalanced Data → Oversampling
- Imbalanced Data → Focal Loss
- 한국어 데이터 Preprocessing → Mecab + re.sub()
- 2단 분류 (0과 0이 아닌것 분류 +0이 아닌것들 재분류)
- 다양한 NLP 고성능 모델 적용
- Multi-GPU 사용 (tensorflow.distribute.MirroredStrategy)
- To Be Updated..
# it's Our version!
cudatoolkit==11.3.1
cudnn==8.2.1
python==3.8.0
pytorch==1.9.0
tensorflow-gpu==2.5.0
koNLPy==0.5.2
tqdm
transformers==4.8.2
spyder==5.0.5