Skip to content
/ indo-nlp Public

Library python sederhana tanpa dependency tambahan yang bertujuan untuk memudahkan proyek NLP anda.

License

Notifications You must be signed in to change notification settings

Hyuto/indo-nlp

Repository files navigation

indoNLP

PyPI version Python Version Test Lint codecov Code style: black


Bahasa | English

indoNLP adalah library python sederhana tanpa dependency tambahan yang bertujuan untuk memudahkan proyek NLP anda.

Installasi

indoNLP dapat diinstall dengan mudah dengan menggunakan pip:

$ pip install indoNLP

Quick Start

Mengakses Indonesian NLP Open Dataset

Mengakses Indonesian NLP Open Dataset dengan cepat dan mudah.

from indoNLP.dataset import Dataset

handler = Dataset("twitter-puisi")
data = handler.read()
# out: Data(name='main', part_of='twitter-puisi')

Mengecek kesimetrisan data, jika data bersifat simetrik maka data dapat ditabelisasi menggunakan pandas.DataFrame.

import pandas as pd

assert data.is_table(), "Data tidak simetris, tidak dapat ditabulasi!"
df = pd.DataFrame(data.data)
df.head()
# out:
#                                                 text
# 0  Hanya karena sapa itu.\nKau tikam rasamu.\nSis...
# 1  Sedang di antrian panjang\nPada sebuah penanti...
# 2  Jika kau bukan tempat awal untuk berlabuh, mak...
# 3  Setiap waktu,\nAku masih mendengar getar dawai...
# 4  Sebait rindu yang kau bacakan\nMasih terdengar...

Preprocessing Data Teks

Menerjemahkan emoji dan mengganti kata gaul (slang words).

from indoNLP.preprocessing import emoji_to_words, replace_slang, pipeline

pipe = pipeline([emoji_to_words, replace_slang])
pipe("library yg membara 🔥")
# out: "library yang membara !api!"

Development

Setup local dev environment. indoNLP menggunakan python-poetry untuk packaging dan management dependencies.

$ make setup-dev

About

Library python sederhana tanpa dependency tambahan yang bertujuan untuk memudahkan proyek NLP anda.

Topics

Resources

License

Stars

Watchers

Forks

Languages