-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
add furigana enrichment function #3
Comments
想定される企業のパターン最低でも下記のパターンについては変換することを考慮したロジックを作成する。
|
Bilingual Emacspeak Project(BEP)辞書は、正確な発音表現となっており、 下記に別言語ながら正規表現で変換しているパターンがあった。 |
Bilingual Emacspeak Project(BEP)辞書のライセンスは
|
Benchmark Task
|
fireducksはapplyをサポートしていない(2024年5月16日現在)。このため、マルチプロセスを活用する。 |
フリガナの項目に欠損値が多いため、
name
を機械変換して補完するenrich_furigana
関数を追加する。TODO
pd.from_pandas(pandas.Dataframe)
を使ってfireducks.dataframeに変換(参考)furigana
列をstd_furigana
列にコピーstd_furigana
がNaNの場合は、name
を入れるstd_furigana
から法人格を削除to_pandas
を使ってpandas.dataframeに変換The text was updated successfully, but these errors were encountered: