# ***Morphin': Morphology-fixin'***

***

Morphin' adalah bagian dari progress proyek akhir mata kuliah Natural Language Processing dalam bagian memperbaiki kesalahan morfologi dengan cakupan:

* Kesalahan penggunaan imbuhan (awalan, akhiran, sisipan, konfiks)
* Kesalahan penulisan kata depan (di-, ke-, dari)
* Kesalahan bentukan kata dengan konfiks
* Kesalahan reduplikasi kata

Contoh: "mengdapatkan" → "mendapatkan", "didalam" → "di dalam", "mempertanggung jawabkan" → "mempertanggungjawabkan"

## 1. Kesalahan penggunaan imbuhan (awalan, akhiran, sisipan, konfiks)

_intuitive-suggested algorithm_:
1. identifikasi kata dasar pakai stemming dari Sastrawi
> kata "mengdapatkan" nggak bisa di-stemming manual karena bukan kata yang benar. Alternatifnya menghilangkan awalan yang salah dulu (men-, meng-, dkk.) lalu di-stemming
2. perbaiki sesuai aturan me- bertemu huruf tertentu. Misal me- + buka = membuka.
3. append kata yang benar

aturan morfologi

1. Bentuk me-

> Bentuk awalan meN- berubah menjadi me-  apabila kata dasar yang mengikutinya diawali dengan konsonan r, l, w, y, m, n, ng, dan ny. Contoh:
> * me + rawat = merawat
> * me + lihat = melihat
> * me + wasit = mewasit

2. Bentuk mem–

> Bentuk awalan meN-  akan menjadi mem- apabila kata dasar yang mengikutinya diawali dengan konsonan b, f, dan v. Contoh:
> * me + benci  = membenci
> * me + baca = membaca
> * me + fitnah = memfitnah

3. Bentuk men–

> Bentuk awalan meN-  akan menjadi men- apabila kata dasar yang mengikutinya diawali dengan konsonan c, d, dan j. Contoh:
> * me + cuci  = mencuci
> * me + cabik = mencabik
> * me + duga = menduga

4. Bentuk meng–

> Bentuk awalan meN-  akan menjadi meng- apabila kata dasar yang mengikutinya diawali dengan konsonan a, i, u, e, o, g, h, dan kh. Contoh:
> * me + ambil  = mengambil
> * me + inap = menginap
> * me + ukur = mengukur

sumber: https://smktibaliglobalsingaraja.sch.id/blog/morfologi-mengenal-imbuhan-me-dan-bentuk-perubahannya/

In [None]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


percobaan dengan `kata='mengdapatkan'`

Fase perbaikan kata

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

In [None]:
# stemmer dengan Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [None]:
kata = 'mengdapatkan'
stem = kata

In [None]:
# fase configuring imbuhan
if kata[-3:] == 'kan':
  hasKan = True
elif kata[-3:] == 'lah':
  hasLah = True

In [None]:
# fase mencari kata dasar
print(f'kata: {kata}, stem: {stem}')
while stem == kata:
  kata = kata[1:(len(kata))]
  stem = stemmer.stem(kata)
  print(f'kata: {kata}, stem: {stem}')

print(f'kata telah mengalami stemming! \'{stem}\'')

kata: mengdapatkan, stem: mengdapatkan
kata: engdapatkan, stem: engdapatkan
kata: ngdapatkan, stem: ngdapatkan
kata: gdapatkan, stem: gdapatkan
kata: dapatkan, stem: dapat
kata telah mengalami stemming! 'dapat'


In [None]:
# fase memperbaiki imbuhan
if stem[0] in 'r|l|w|y|m|n|ng||ny.': # kondisi pertama
    fixed = 'me' + stem
elif stem[0] in 'b|f|v':
  fixed = 'men' + stem
elif stem[0] in 'c|d|j':
  fixed = 'men' + stem
elif stem[0] in 'a|i|u|e|o|g|h|kh':
  fixed = 'meng' + stem

if hasKan:
  fixed += 'kan'
elif hasLah:
  fixed += 'lah'

print(f'kata yang telah diperbaiki: {fixed}')

kata yang telah diperbaiki: mendapatkan


In [None]:
kata = 'mengsyaratkan'
acuan = 'syarat'

while stemmer.stem(kata) == kata and stemmer.stem(kata) != acuan:
    kata = kata[1:(len(kata))]
    stem = stemmer.stem(kata)
    print(f'kata: {kata}, stem: {stem}')

print(f'kata telah mengalami stemming! \'{stem}\'')

kata: engsyaratkan, stem: engsyaratkan
kata: ngsyaratkan, stem: ngsyaratkan
kata: gsyaratkan, stem: gsyaratkan
kata: syaratkan, stem: syarat
kata telah mengalami stemming! 'syarat'


In [None]:
stemmer.stem('gerigi')

'gerigi'

In [None]:
kata = 'gerigi'


definisi fungsi

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

def perbaiki_awalan(kata, hasKan=False):
  fixed = ''
  stem = kata
  temp = kata
  if kata[-3:] == 'kan':
    hasKan = True
  elif kata[-3:] == 'lah':
    hasLah = True
  else:
    kata

  while True:
    print(f'kata: {kata}, stem: {stem}')
    kata = kata[1:(len(kata))] # kurangi awalan satu-satu
    stem = stemmer.stem(kata) # lakukan stemming kata jika memungkinkan


  if stem[0] in 'r|l|w|y|m|n|ng|ny.':
    fixed = 'me' + stem
  elif stem[0] in 'b|f|v':
    fixed = 'men' + stem
  elif stem[0] in 'c|d|j':
    fixed = 'men' + stem
  elif stem[0] in 'a|i|u|e|o|g|h|kh':
    fixed = 'meng' + stem

  # if hasKan:
  #   fixed += 'kan'
  # elif hasLah:
  #   fixed += 'lah'
  # else:
  #   fixed

  return fixed

In [None]:
perbaiki_awalan('mengdapat')

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengdapat, stem: mengdapat
kata: mengd

KeyboardInterrupt: 

fase debugging

In [None]:
kata = 'mengdapat'

next = kata[1:(len(kata))]
stem = stemmer.stem(next)
print(f'kata: {kata}, stem: {stem}')
if next

next = kata[1:(len(kata))]
stem = stemmer.stem(next)
print(f'kata: {kata}, stem: {stem}')

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata: engdapat, stem: engdapat
kata: ngdapat, stem: ngdapat
kata: gdapat, stem: gdapat
kata: dapat, stem: dapat


### 1.1. **TODO**:
1. algoritma ini looping selama `stem=kata`. itu artinya proses pengurangan awalan dari kata `mengdapat` akan selalu sama ketika semuanya hilang jadi `dapat` dan sudah di-stemming. TAMBAH syarat berhenti: kalo kata ada di kamus

# 2. Kesalahan penulisan kata depan

Implementasi stemming dengan Sastrawi. Apabila suatu kata berhasil di-stemming, maka kata tersebut sudah pasti kata kerja.


In [None]:
def perbaiki_kata_depan(kata):
  fixed = ''
  if stemmer.stem(kata) == kata:
    if len(kata[:2]) == 2: # di-, ke-
      fixed = kata[:2] + ' ' + kata[2:]
    if len(kata[:4]) == 4: # dari
      fixed = kata[:4] + ' ' + kata[4:]
  else:
    if kata[:2] == 'di':
      fixed = 'di ' + stemmer.stem(kata)
    elif kata[:2] == 'ke':
      fixed = 'ke ' + stemmer.stem(kata)

  return fixed

In [None]:
perbaiki_kata_depan('darijakarta')

'dari jakarta'

# 3. Kesalahan Reduplikasi Kata

In [None]:
''' ALGORITMA
  looping suatu suku kata; misal: 'buku buku'
  jika kata bertemu spasi (' '), potong katanya dari indeks awal sampe kata[spasi]
  cek kalo kata[spasi+1:] sama dengan kata[spasi]
  kalo sama:
    repeat katanya dan sambungin pakai '-'
  kalo enggak:
    reset
'''

kata = 'dia dia'
kata_sama = ''
indeks_spasi = 0

# mencari spasi
for i in range(len(kata)):
  if kata[i] == ' ':
    indeks_spasi += i
    kata_sama = kata[:indeks_spasi]
    break

# cari kata duplikat setelah spasi
if kata[indeks_spasi+1:] == kata[:indeks_spasi]:
  fixed = kata_sama + '-' + kata_sama # 'buku-buku'

print(fixed)

dia-dia


In [None]:
kata = 'buku buku'
kata_sama = ''
indeks_spasi = 0



In [None]:
def reduplikasi(kata): # window-based
  fixed = ''
  kata_sama = ''

  for indeks_spasi in range(len(kata)):
    if kata[indeks_spasi] == ' ':
      if kata[:indeks_spasi] == kata[indeks_spasi+1:]: # cek kesamaan kata setelah spasi
        kata_sama = kata[:indeks_spasi]
        fixed = kata_sama + '-' + kata_sama

  return kata

  return fixed

In [None]:
tes = [
    "buku buku",
    "bunga bunga",
    "fikri bisma",
    "mobil mobil",
    "orang orang",
    "dia bilang orang orang dari sana pergi membawa bunga bunga"
]

for teks in tes:
  print(reduplikasi(teks))

buku buku
bunga bunga
fikri bisma
mobil mobil
orang orang
dia bilang orang orang dari sana pergi membawa bunga bunga


In [None]:
''' ALGORITMA 2
  cocokkan imbuhan sesuai rule:
    if (imbuhan = kata[:i]) == 'men': # mengdapatkan
      (N = kata[i+1]) not in "c|d|j": # mengdapatkan -> TRUE

    potong kata[:d]
    stem kata
'''

kata = 'mengdapatkan'
temp = kata
next = ''

imbuhan = ''

for i in range(len(kata)):
  imbuhan += temp[i]
  if imbuhan.count == 2:
    next = temp[i]