Skip to content

nodemedia-publisher/py-irs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

파이썬으로 시작하는 한국어 정보 검색과 자연어 처리

파이썬 한국어 자연어 처리 핵심 알고리즘

인공지능을 공부하기 전에 먼저 알아야 할 한글 자연어 처리

  • 유니코드(unicode)는 버전 13.0을 기준으로 설명한다.
  • 파이썬 프로그래밍 소스 코드는 t2bot.com에서 제공 받아 정리하였다. 예제 코드는 파이썬 3.8 버전과 PC 윈도우 환경에서 실행한다.
  • 예제 소스 코드 및 t2bot 커널(kernel) 해설(t2bot.com)
  • “파이썬으로 시작하는 한국어 정보 검색과 자연어 처리”와 관련한 300여 개의 소스

검색 엔진을 움직이는 7가지 핵심 알고리즘

  • 역파일 색인과 검색 알고리즘
  • 한글 음절과 자모 변환 알고리즘
  • 한글 두벌식 오토마타와 한영 변환 알고리즘
  • 단어 유사도와 철자 교정 알고리즘
  • N그램과 철자 교정 알고리즘
  • 트라이 탐색과 검색어 추천 알고리즘
  • 협업 필터링과 영화 추천 알고리즘
  • 알고리즘 구현 소스 코드를 포함하여 300여 개의 소스 코드 제공
  • 검색 엔진 핵심 알고리즘 완전 정복

예제 소스 코드 폴더: py-irs

예제 소스 코드는 이 책에 수록된 소스 코드를 모아 놓은 것이다. ‘장번호-예제번호’ 형식으로 되어 있다. 예제 소스 코드는 내부에서 한글 처리 커널을 호출하기 때문에 예제를 실행하려면 다른 폴더의 소스 코드도 함께 있어야 한다.

한글 처리 커널: hgmorp

한글 처리 커널은 한글 처리와 관련된 기능을 모아 놓은 것으로 토큰과 키워드, 음절과 자모 변환, 키워드 목록과 사전, 한글 텍스트 파일 등을 처리한다.

한글 데이터 과학 커널 폴더: hgdatsci

한글 데이터 과학 커널은 한글 처리를 중심으로 데이터 과학과 관련된 기능을 모아 놓은 것으로 단어 빈도 사전, 단어 및 문장 유사도 알고리즘, 트라이 알고리즘, 검색어 추천 알고리즘, n-gram과 철자 교정 알고리즘, 두벌식 오토마타와 한/영 변환 알고리즘, 통계와 협업 필터링, 영화 데이터와 영화 추천 알고리즘 등을 처리한다.

그래프 처리 폴더: hggraph

그래프 처리는 통계와 관련된 부분을 설명하기 위해 모아 놓은 것으로 선, 막대, 산포도 등을 출력하고 파일로 저장할 수 있다.

도서 구입처

교보문고

노드미디어

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages