Skip to content

ShinyaAkagiI/divide_character_type

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 

Repository files navigation

概要

文字列をひらがな、片仮名、漢字、数字、アルファベットごとに分割するツールです。 英日両文に適用可能ですが、ピリオドを含む一部の用語は適切に分割できない場合があります。 詳しくは、実行サンプルをご確認ください。

セットアップ

pip install divide-char-type

アンインストール

pip uninstall divide-char-type

使い方

from divide_char_type import divide_char_type

data = divide_char_type("今日の天気は晴れです。")

print(data[0])

戻り値

  • 配列型
    • 第0要素:字種分割した全体のリスト
    • 第1要素:字種分割した全体の字種タイプリスト
    • 第2要素:字種分割したひらがなのリスト
    • 第3要素:字種分割したカタカナのリスト
    • 第4要素:字種分割した漢字のリスト
    • 第5要素:字種分割したアルファベットのリスト
    • 第6要素:字種分割した数字のリスト
    • 第7要素:字種分割したその他記号などのリスト

字種タイプリスト

  • 0:平仮名
  • 1:カタカナ
  • 2:漢字
  • 3:アルファベット
  • 4:数字
  • 5:その他記号など

実行サンプル

['1.0', ' ', 'is', ' ', 'number', '.']
['1', ',', '000', ' ', 'is', ' ', 'number', '.']
['u.s.a.', ' ', 'is', ' ', 'state', '.']
['u.k', '.', ' ', 'is', ' ', 'state', '.']
['e.g.', ',', ' ', 'th', ',', ' ', 'ch', ',', ' ', 'sh', ',', ' ', 'ph', ',', ' ', 'gh', ',', ' ', 'ng', ',', ' ', 'qu']
['state', ' ', 'include', ' ', 'u.s.', ' ', 'u.s.', ' ', 'is', ' ', 'state', '.']
['state', ' ', 'include', ' ', 'u.k', '.', ' ', 'u.k', '.', ' ', 'is', ' ', 'state', '.']
['u.s.', 'は', '国', 'です', '。']
['u.s', '.', 'は', '国', 'です', '。']
['あいうえおーかきくけこ']
['アイウエオーカキクケコ']
['今日', 'の', '天気', 'は', '晴', 'れです', '。\n', '明日', 'の', '天気', 'は', '曇', 'りです', '。\n']
['&&&', '1.0', '&&&']

実行速度

論文

赤木信也:字種分割ツールの開発と公開,
情報処理学会第85回全国大会講演論文集 2023 (1), 29-30, 2023-02-16
https://cir.nii.ac.jp/crid/1050579753470466176

ライセンス

  • divide_char_type
    • Python Software Foundation License
    • Copyright (C) 2023-2024 Shinya Akagi

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages