Skip to content

yiunsr/hybridGPT

 
 

Repository files navigation

hybridGPT

  • nanoGPT를 여러가지 방법으로 구조를 변경하면서 테스트 하는 프로젝트 입니다.

말뭉치

학습데이터 정리와 인코딩 방법

prepare01

  • 문장 필터링
    • prepare01\tokenizer.py 에 코드 존재함
    • 한글, 숫자, 영대문자, 몇가지 문장기호를 포함하는 경우에만 수집한다.
    • 소괄호("(", ")")가 들어가는 경우 해당 부분을 제거한다.
    • 자주사용하는 종결형 어미로 문장이 종료되는 경우만 수집한다.
    • 한 line 당 2개 이상의 문장이 있고 300글자 이상일 때만 수지한다.
  • 인코딩
    • 수집된 문장들에 대해 kiwipiepy 형태소 분석기를 이용해 형태소로 분리한다.
    • BertWordPieceTokenizer
    좋은 글은 어떻게 써야 하는가를 알기 위해서는 우선 문장이란 무엇인가 하는 것부터 생각해 보아야 할 것이다. 
    =>
    좋/VA + 은/ETM + 글/NNG + 은/JX + 어떻/VA + 게/EC + 쓰/VV + 어야/EC + 하/VX + 는가/EC + 를/JKO + 알/VV + 기/ETN + 위하/VV + 어서/EC + 는/JX + 우선/MAG + 문장/NNG + 이란/JX + 무엇/NP + 이/VCP + ᆫ가/EC + 하/VV + 는/ETM + 것/NNB + 부터/JX + 생각/NNG + 하/XSV + 어/EC + 보/VX + 어야/EC + 하/VX + ᆯ/ETM + 것/NNB + 이/VCP + 다/EF + ./SF 
    =>
    좋 은 글 은 어떻 게 쓰 어야 하 는가 를 알 기 위하 어서 는 우선 문장 이란 무엇 이 ᆫ가 하 는 것 부터 생각 하 어 보 어야 하 ᆯ 것 이 다 .
    

About

다양한 GPT를 구현한다.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%