# Normalizer

<div class="alert alert-info">

This tutorial is available as an IPython notebook at [Malaya/example/normalizer](https://github.com/huseinzol05/Malaya/tree/master/example/normalizer).
    
</div>

In [1]:
%%time
import malaya

CPU times: user 5.38 s, sys: 763 ms, total: 6.14 s
Wall time: 5.72 s


In [2]:
string1 = 'xjdi ke, y u xsuke makan HUSEIN kt situ tmpt, i hate it. pelikle, pada'
string2 = 'i mmg2 xske mknn HUSEIN kampng tmpat, i love them. pelikle saye'
string3 = 'perdana menteri ke11 sgt suka makn ayam, harganya cuma rm15.50'
string4 = 'pada 10/4, kementerian mengumumkan, 1/100'
string5 = 'Husein Zolkepli dapat tempat ke-12 lumba lari hari ni'
string6 = 'Husein Zolkepli (2011 - 2019) adalah ketua kampng di kedah sekolah King Edward ke-IV'
string7 = '2jam 30 minit aku tunggu kau, 60.1 kg kau ni, suhu harini 31.2c, aku dahaga minum 600ml'
string8 = 'awak sangat hot ye 🔥🔥. 🔥🙂'
string9 = 'hanyalah rm2 ribu'
string10 = 'mulakn slh org boleh ,bila geng tuh kena slhkn jgk xboleh trima .. pelik , dia slhkn org bole hri2 crta sakau then bila kna bls balik xdpt jwb ,kata mcm biasa slh (parti sampah) 🤣🤣🤣 jgn mulakn dlu slhkn org kalau xboleh trima bila kna bls balik 🤣🤣🤣'
string11 = 'Pemimpin yg hebat, panahan2 fitnah tu akan dituju kepadanya.. harap DS terus bersabar. Jasa baik DS menjadi asbab di sana kelak mahupun rakyat yg terhutang budi juga..'
string12 = 'berehatlh najib.. sudah2 lh tu.. jgn buat rakyat hilang kepercyaan tu pda system kehakiman negara.. klu btl x slh kenapa x dibuktikan semasa sblm rayuan.. sudah lah tu kami dh letih dengan drama korang. ok'

### Load normalizer

This normalizer can load any spelling correction model, eg, `malaya.spelling_correction.probability.load`, or `malaya.spelling_correction.transformer.load`.

```python
def normalizer(speller: Callable = None, **kwargs):
    """
    Load a Normalizer using any spelling correction model.

    Parameters
    ----------
    speller : spelling correction object, optional (default = None)

    Returns
    -------
    result: malaya.normalize.Normalizer class
    """
```

In [3]:
lm = malaya.kenlm.load()

In [4]:
corrector = malaya.spelling_correction.probability.load(language_model = lm)

In [5]:
normalizer = malaya.normalize.normalizer(corrector)

#### normalize

```python
def normalize(
    self,
    string: str,
    normalize_text: bool = True,
    normalize_entity: bool = True,
    normalize_url: bool = False,
    normalize_email: bool = False,
    normalize_year: bool = True,
    normalize_telephone: bool = True,
    normalize_date: bool = True,
    normalize_time: bool = True,
    normalize_emoji: bool = True,
    normalize_elongated: bool = True,
    expand_contractions: bool = True,
    check_english_func=is_english,
    check_malay_func=is_malay,
    translator: Callable = None,
    language_detection_word: Callable = None,
    acceptable_language_detection: List[str] = ['EN', 'CAPITAL', 'NOT_LANG'],
    segmenter: Callable = None,
    **kwargs,
):
    """
    Normalize a string.

    Parameters
    ----------
    string : str
    normalize_text: bool, optional (default=True)
        if True, will try to replace shortforms with internal corpus.
    normalize_entity: bool, optional (default=True)
        normalize entities, only effect `date`, `datetime`, `time` and `money` patterns string only.
    normalize_url: bool, optional (default=False)
        if True, replace `://` with empty and `.` with `dot`.
        `https://huseinhouse.com` -> `https huseinhouse dot com`.
    normalize_email: bool, optional (default=False)
        if True, replace `@` with `di`, `.` with `dot`.
        `husein.zol05@gmail.com` -> `husein dot zol kosong lima di gmail dot com`.
    normalize_year: bool, optional (default=True)
        if True, `tahun 1987` -> `tahun sembilan belas lapan puluh tujuh`.
        if True, `1970-an` -> `sembilan belas tujuh puluh an`.
        if False, `tahun 1987` -> `tahun seribu sembilan ratus lapan puluh tujuh`.
    normalize_telephone: bool, optional (default=True)
        if True, `no 012-1234567` -> `no kosong satu dua, satu dua tiga empat lima enam tujuh`
    normalize_date: bool, optional (default=True)
        if True, `01/12/2001` -> `satu disember dua ribu satu`.
        if True, `Jun 2017` -> `satu Jun dua ribu tujuh belas`.
        if True, `2017 Jun` -> `satu Jun dua ribu tujuh belas`.
        if False, `2017 Jun` -> `01/06/2017`.
        if False, `Jun 2017` -> `01/06/2017`.
    normalize_time: bool, optional (default=True)
        if True, `pukul 2.30` -> `pukul dua tiga puluh minit`.
        if False, `pukul 2.30` -> `'02:00:00'`
    normalize_emoji: bool, (default=True)
        if True, `🔥` -> `emoji api`
        Load from `malaya.preprocessing.demoji`.
    normalize_elongated: bool, optional (default=True)
        if True, `betuii` -> `betui`.
    expand_contractions: bool, optional (default=True)
        expand english contractions.
    check_english_func: Callable, optional (default=malaya.text.function.is_english)
        function to check a word in english dictionary, default is malaya.text.function.is_english.
        this parameter also will be use for malay text normalization.
    check_malay_func: Callable, optional (default=malaya.text.function.is_malay)
        function to check a word in malay dictionary, default is malaya.text.function.is_malay.
    translator: Callable, optional (default=None)
        function to translate EN word to MS word.
    language_detection_word: Callable, optional (default=None)
        function to detect language for each words to get better translation results.
    acceptable_language_detection: List[str], optional (default=['EN', 'CAPITAL', 'NOT_LANG'])
        only translate substrings if the results from `language_detection_word` is in `acceptable_language_detection`.
    segmenter: Callable, optional (default=None)
        function to segmentize word.
        If provide, it will expand a word, apaitu -> apa itu

    Returns
    -------
    result: {'normalize', 'date', 'money'}
    """
```

To get better english checker, we prefer to use https://pyenchant.github.io/pyenchant/

In [6]:
import enchant
d = enchant.Dict('en_US')

is_english = lambda x: d.check(x)
is_english('lifestyle')

True

In [7]:
string = 'boleh dtg 8pagi esok tak atau minggu depan? 2 oktober 2019 2pm, tlong bayar rm 3.2k sekali tau'

In [8]:
normalizer.normalize(string)

{'normalize': 'boleh datang pukul lapan esok tidak atau minggu depan ? dua Oktober dua ribu sembilan belas pukul empat belas , tolong bayar tiga ribu dua ratus ringgit sekali tahu',
 'date': {'minggu depan': datetime.datetime(2022, 8, 29, 13, 20, 31, 884481),
  '8AM esok': datetime.datetime(2022, 8, 23, 8, 0),
  '2 oktober 2019 2pm': datetime.datetime(2019, 10, 2, 14, 0)},
 'money': {'rm 3.2k': 'RM3200.0'}}

In [9]:
normalizer.normalize(string, normalize_entity = False)

{'normalize': 'boleh datang pukul lapan esok tidak atau minggu depan ? dua Oktober dua ribu sembilan belas pukul empat belas , tolong bayar tiga ribu dua ratus ringgit sekali tahu',
 'date': {},
 'money': {}}

Here you can see, Malaya normalizer will normalize `minggu depan` to datetime object, also `3.2k ringgit` to `RM3200`

In [10]:
print(normalizer.normalize(string1))
print(normalizer.normalize(string2))
print(normalizer.normalize(string3))
print(normalizer.normalize(string4))
print(normalizer.normalize(string5))
print(normalizer.normalize(string6))
print(normalizer.normalize(string7))
print(normalizer.normalize(string8))
print(normalizer.normalize(string9))
print(normalizer.normalize(string10))
print(normalizer.normalize(string11))
print(normalizer.normalize(string12))

{'normalize': 'tak jadi ke , kenapa awak tak suka makan HUSEIN di situ tempat , saya hate it . pelik lah , pada', 'date': {}, 'money': {}}
{'normalize': 'saya memang-memang tak suka makan HUSEIN kampung tempat , saya love them . pelik lah saya', 'date': {}, 'money': {}}
{'normalize': 'perdana menteri kesebelas sangat suka makan ayam , harganya cuma lima belas ringgit lima puluh sen', 'date': {}, 'money': {'rm15.50': 'RM15.50'}}
{'normalize': 'pada sepuluh hari bulan empat , kementerian mengumumkan , satu per seratus', 'date': {}, 'money': {}}
{'normalize': 'Husein Zolkepli dapat tempat kedua belas lumba lari hari ini', 'date': {}, 'money': {}}
{'normalize': 'Husein Zolkepli ( dua ribu sebelas hingga dua ribu sembilan belas ) adalah ketua kampung di kedah sekolah King Edward keempat', 'date': {}, 'money': {}}
{'normalize': 'dua jam tiga puluh minit aku tunggu kamu , enam puluh perpuluhan satu kilogram kamu ini , suhu hari ini tiga puluh satu perpuluhan dua celsius , aku dahaga minum ena

### Use translator

To use translator, pass a callable variable into `translator` parameter,

```python
print(normalizer.normalize(string1, translator = translator))
```

In [11]:
en_ms_vocab = malaya.translation.en_ms.dictionary()
translator = lambda x: en_ms_vocab.get(x, x)
translator('pain'), translator('aduh')

('kesakitan', 'aduh')

In [12]:
print(normalizer.normalize(string1, translator = translator))

{'normalize': 'tak jadi ke , kenapa awak tak suka makan HUSEIN di situ tempat , saya benci ia . pelik lah , pada', 'date': {}, 'money': {}}


In [13]:
print(normalizer.normalize(string2, translator = translator))

{'normalize': 'saya memang-memang tak suka makan HUSEIN kampung tempat , saya love them . pelik lah saya', 'date': {}, 'money': {}}


#### Use Neural Translation Machine

Problem with dictionary based, if the words is not exist, the translation will not work,

In [14]:
translator('love'), translator('them'), translator('pain')

('love', 'them', 'kesakitan')

In [15]:
nmt = malaya.translation.en_ms.transformer(model = 'small')

In [16]:
nmt_func = lambda x: nmt.greedy_decoder([x])[0]

In [17]:
print(normalizer.normalize(string1, translator = nmt_func))

{'normalize': 'tak jadi ke , kenapa awak tak suka makan HUSEIN di situ tempat , saya benci ia . pelik lah , pada', 'date': {}, 'money': {}}


In [18]:
print(normalizer.normalize(string2, translator = nmt_func))

{'normalize': 'saya memang-memang tak suka makan HUSEIN kampung tempat , saya cinta mereka . pelik lah saya', 'date': {}, 'money': {}}


#### Problem with single word translation

When we do direct translate word-by-word, it does not really understand the context, for an example,

`talk properly lah`,

`talk` -> `bercakap`, `properly` -> `betul`,

so when we combined, we got `bercakap betul lah`, not really good translation. So to solve this problem, we need predict language on word level, group substrings based on similar language and translate.

In [19]:
nmt = malaya.translation.en_ms.transformer(model = 'noisy-base')
nmt_func = lambda x: nmt.greedy_decoder([x])[0]

In [20]:
fasttext = malaya.language_detection.fasttext()
lang_word_model = malaya.language_detection.substring_rules(model = fasttext)



In [21]:
language_detection_word_func = lambda x: lang_word_model.predict(x)

In [22]:
s = 'u ni, talk properly lah'

In [23]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'awak ini , bercakap betul lah', 'date': {}, 'money': {}}

In [24]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'awak ini , bercakap dengan betul lah', 'date': {}, 'money': {}}

In [25]:
s = 'This looks like awak, but in a less formal kind of way, still comel'

In [26]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'This rupa seperti awak , tetapi dalam a kurang formal jenis dari cara , masih comel',
 'date': {},
 'money': {}}

In [27]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'Ini kelihatan seperti awak , tetapi dalam cara yang kurang formal, masih comel',
 'date': {},
 'money': {}}

In [28]:
s = "just attended my cousin's wedding. pelik jugak dia buat majlis biasa2 je sebab her lifestyle looks lavish. then i found out they're going on a 3 weeks honeymoon. smart decision 👍"

In [29]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'hanya menghadiri saya sepupu perkahwinan . pelik juga dia buat majlis biasa-biasa sahaja sebab dia gaya hidup rupa mewah . kemudian saya ditemui keluar mereka adalah pergi pada a tiga minggu bulan madu . pintar keputusan , emoji jempol',
 'date': {},
 'money': {}}

In [30]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'baru sahaja menghadiri majlis perkahwinan sepupu saya. pelik juga dia buat majlis biasa-biasa sahaja sebab gaya hidupnya kelihatan mewah. maka saya mengetahui bahawa mereka sedang melakukan tiga minggu madu. keputusan pintar, emoji jempol',
 'date': {},
 'money': {}}

In [31]:
s = 'Hello gais, boleh tolong recommend bengkel ketuk yang okay near Wangsa Maju / nearby? Kereta bf i pulak kepek langgar dinding hahahha'

In [32]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'Hello semua orang , boleh tolong cadang bengkel ketuk yang okay berhampiran Wangsa Maju / berhampiran ? Kereta bf saya pula kepek langgar dinding haha',
 'date': {},
 'money': {}}

In [33]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'Helo semua orang , boleh tolong cadang bengkel ketuk berhampiran yang baik-baik saja Wangsa Maju / berhampiran? Kereta bf saya pula kepek langgar dinding haha',
 'date': {},
 'money': {}}

In [34]:
s = 'Me after seeing this video: mm dapnya burger benjo extra mayo'

In [35]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'Me selepas melihat ini video : mm sedapnya burger benjo tambahan mayo',
 'date': {},
 'money': {}}

In [36]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'Saya selepas melihat video ini: mm sedapnya burger benjo mayo tambahan',
 'date': {},
 'money': {}}

In [37]:
s = 'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:'

In [38]:
normalizer.normalize(s, translator = nmt_func,
                    check_english_func = is_english)

{'normalize': 'Hi lelaki ! SAYA disedari semalam & hari ini dah ramai yang dapat kuki ini kan . Jadi hari ini saya nak kongsi beberapa pos mortem dari kami pertama kelompok :',
 'date': {'semalam': datetime.datetime(2022, 8, 21, 13, 21, 35, 72441)},
 'money': {}}

In [39]:
normalizer.normalize(s, translator = nmt_func, language_detection_word = language_detection_word_func,
                    check_english_func = is_english)

{'normalize': 'Hai kawan! SAYA perasan semalam & hari ini dah ramai yang dapat kuki ini kan . Jadi hari ini saya nak kongsi beberapa pos mortem kumpulan pertama kami :',
 'date': {'semalam': datetime.datetime(2022, 8, 21, 13, 21, 36, 626947)},
 'money': {}}

### Use segmenter

In [40]:
print(normalizer.normalize('saya taksuka ayam, tapi saya sukaikan'))

{'normalize': 'saya taksuka ayam , tetapi saya sukaikan', 'date': {}, 'money': {}}


In [41]:
segmenter = malaya.segmentation.transformer(model = 'small')

In [42]:
segmenter_func = lambda x: segmenter.greedy_decoder([x])[0]

In [43]:
print(normalizer.normalize('saya taksuka ayam, tapi saya sukaikan', segmenter = segmenter_func))

{'normalize': 'saya tidak suka ayam , tetapi saya suka ikan', 'date': {}, 'money': {}}


### Skip spelling correction

Simply pass `None` to `speller` to `normalizer = malaya.normalize.normalizer`. By default it is `None`.

In [44]:
normalizer = malaya.normalize.normalizer(corrector)
without_corrector_normalizer = malaya.normalize.normalizer(None)

In [45]:
normalizer.normalize(string2)

{'normalize': 'saya memang-memang tak suka makan HUSEIN kampung tempat , saya love them . pelik lah saya',
 'date': {},
 'money': {}}

In [46]:
without_corrector_normalizer.normalize(string2)

{'normalize': 'saya memang-memang tak suka mknn HUSEIN kampng tmpat , saya love them . pelik lah saya',
 'date': {},
 'money': {}}

### Pass kwargs preprocessing

Let say you want to skip to normalize date pattern, you can pass kwargs to normalizer, check word tokenizer kwargs at https://malaya.readthedocs.io/en/latest/load-tokenizer-word.html

In [47]:
normalizer = malaya.normalize.normalizer(corrector)
skip_date_normalizer = malaya.normalize.normalizer(corrector, date = False)

In [48]:
normalizer.normalize('tarikh program tersebut 14 mei')

{'normalize': 'tarikh program tersebut empat belas Mei dua ribu dua puluh dua',
 'date': {'14 mei': datetime.datetime(2022, 5, 14, 0, 0)},
 'money': {}}

In [49]:
skip_date_normalizer.normalize('tarikh program tersebut 14 mei')

{'normalize': 'tarikh program tersebut empat belas mei',
 'date': {'14 mei': datetime.datetime(2022, 5, 14, 0, 0)},
 'money': {}}

### Normalize url

Let say you have an `url` word, example, `https://huseinhouse.com`, this parameter going to,

1. replace `://` with empty string.
2. replace `.` with ` dot `.
3. replace digits with string representation.
4. Capitalize `https`, `http`, and `www`.

Simply `normalizer.normalize(string, normalize_url = True)`, default is `False`.

In [50]:
normalizer = malaya.normalize.normalizer()
normalizer.normalize('web saya ialah https://huseinhouse.com')

{'normalize': 'web saya ialah https://huseinhouse.com',
 'date': {},
 'money': {}}

In [51]:
normalizer.normalize('web saya ialah https://huseinhouse.com', normalize_url = True)

{'normalize': 'web saya ialah HTTPS huseinhouse dot com',
 'date': {},
 'money': {}}

In [52]:
normalizer.normalize('web saya ialah https://huseinhouse02934.com', normalize_url = True)

{'normalize': 'web saya ialah HTTPS huseinhouse kosong dua sembilan tiga empat dot com',
 'date': {},
 'money': {}}

### Normalize email

Let say you have an `email` word, example, `husein.zol05@gmail.com`, this parameter going to,

1. replace `://` with empty string.
2. replace `.` with ` dot `.
3. replace `@` with ` di `.
4. replace digits with string representation.

Simply `normalizer.normalize(string, normalize_email = True)`, default is `False`.

In [53]:
normalizer = malaya.normalize.normalizer()
normalizer.normalize('email saya ialah husein.zol05@gmail.com')

{'normalize': 'email saya ialah husein.zol05@gmail.com',
 'date': {},
 'money': {}}

In [54]:
normalizer = malaya.normalize.normalizer()
normalizer.normalize('email saya ialah husein.zol05@gmail.com', normalize_email = True)

{'normalize': 'email saya ialah husein dot zol kosong lima di gmail dot com',
 'date': {},
 'money': {}}

### Normalize year

1. if True, `tahun 1987` -> `tahun sembilan belas lapan puluh tujuh`.
2. if True, `1970-an` -> `sembilan belas tujuh puluh an`.
3. if False, `tahun 1987` -> `tahun seribu sembilan ratus lapan puluh tujuh`.

Simply `normalizer.normalize(string, normalize_year = True)`, default is `True`.

In [55]:
normalizer = malaya.normalize.normalizer()

In [56]:
normalizer.normalize('$400 pada tahun 1998 berbanding lebih $1000')

{'normalize': 'empat ratus dollar pada tahun seribu sembilan ratus sembilan puluh lapan berbanding lebih seribu dollar',
 'date': {},
 'money': {'$400 ': '$400', '$1000': '$1000'}}

In [57]:
normalizer.normalize('$400 pada 1970-an berbanding lebih $1000')

{'normalize': 'empat ratus dollar pada sembilan belas tujuh puluhan berbanding lebih seribu dollar',
 'date': {},
 'money': {'$400 ': '$400', '$1000': '$1000'}}

In [58]:
normalizer.normalize('$400 pada tahun 1970-an berbanding lebih $1000')

{'normalize': 'empat ratus dollar pada tahun sembilan belas tujuh puluhan berbanding lebih seribu dollar',
 'date': {},
 'money': {'$400 ': '$400', '$1000': '$1000'}}

In [59]:
normalizer.normalize('$400 pada tahun 1998 berbanding lebih $1000', normalize_year = False)

{'normalize': 'empat ratus dollar pada tahun seribu sembilan ratus sembilan puluh lapan berbanding lebih seribu dollar',
 'date': {},
 'money': {'$400 ': '$400', '$1000': '$1000'}}

### Normalize telephone

1. if True, `no 012-1234567` -> `no kosong satu dua, satu dua tiga empat lima enam tujuh`.

Simply `normalizer.normalize(string, normalize_telephone = True)`, default is `True`.

In [60]:
normalizer = malaya.normalize.normalizer()

In [61]:
normalizer.normalize('no saya 012-1234567')

{'normalize': 'no saya kosong satu dua, satu dua tiga empat lima enam tujuh',
 'date': {},
 'money': {}}

In [62]:
normalizer.normalize('no saya 012-1234567', normalize_telephone = False)

{'normalize': 'no saya 012-1234567', 'date': {}, 'money': {}}

### Normalize date

1. if True, `01/12/2001` -> `satu disember dua ribu satu`.

Simply `normalizer.normalize(string, normalize_date = True)`, default is `True`.

In [63]:
normalizer = malaya.normalize.normalizer()
normalizer.normalize('saya akan gerak pada 1/11/2021')

{'normalize': 'saya akan gerak pada satu November dua ribu dua puluh satu',
 'date': {'1/11/2021': datetime.datetime(2021, 11, 1, 0, 0)},
 'money': {}}

In [64]:
normalizer = malaya.normalize.normalizer()
normalizer.normalize('saya akan gerak pada 1/11/2021', normalize_date = False)

{'normalize': 'saya akan gerak pada 01/11/2021',
 'date': {'1/11/2021': datetime.datetime(2021, 11, 1, 0, 0)},
 'money': {}}

### Normalize time

1. if True, `pukul 2.30` -> `pukul dua tiga puluh minit`.

Simply `normalizer.normalize(string, normalize_time = True)`, default is `True`.

In [65]:
s = 'Operasi tamat sepenuhnya pada pukul 1.30 tengah hari'
normalizer = malaya.normalize.normalizer()
normalizer.normalize(s, normalize_time = True)

{'normalize': 'Operasi tamat sepenuhnya pada pukul satu tiga puluh minit tengah hari',
 'date': {},
 'money': {}}

In [66]:
s = 'Operasi tamat sepenuhnya pada pukul 1:30:50 tengah hari'
normalizer = malaya.normalize.normalizer()
normalizer.normalize(s, normalize_time = True)

{'normalize': 'Operasi tamat sepenuhnya pada pukul satu tiga puluh minit lima puluh saat tengah hari',
 'date': {'1:30:50': datetime.datetime(2022, 8, 22, 1, 30, 50)},
 'money': {}}

In [67]:
s = 'Operasi tamat sepenuhnya pada pukul 1.30 tengah hari'
normalizer = malaya.normalize.normalizer()
normalizer.normalize(s, normalize_time = False)

{'normalize': 'Operasi tamat sepenuhnya pada 01:30:00 tengah hari',
 'date': {},
 'money': {}}

### Normalize emoji

1. if True, `🔥` -> `emoji api`

Simply `normalizer.normalize(string, normalize_emoji = True)`, default is `True`.

In [68]:
s = 'u are really damn hot 🔥'
normalizer = malaya.normalize.normalizer()
normalizer.normalize(s, translator = nmt_func, 
                     language_detection_word = language_detection_word_func)

{'normalize': 'awak sangat panas, emoji api', 'date': {}, 'money': {}}

### Normalizing rules

**All these rules will ignore if first letter is capital except for normalizing titles.**

#### 1. Normalize title,

```python

{
    'dr': 'Doktor',
    'yb': 'Yang Berhormat',
    'hj': 'Haji',
    'ybm': 'Yang Berhormat Mulia',
    'tyt': 'Tuan Yang Terutama',
    'yab': 'Yang Berhormat',
    'ybm': 'Yang Berhormat Mulia',
    'yabhg': 'Yang Amat Berbahagia',
    'ybhg': 'Yang Berbahagia',
    'miss': 'Cik',
}

```

In [69]:
normalizer = malaya.normalize.normalizer()

In [70]:
normalizer.normalize('Dr yahaya')

{'normalize': 'Doktor yahaya', 'date': {}, 'money': {}}

#### 2. expand `x`

In [71]:
normalizer.normalize('xtahu')

{'normalize': 'tak tahu', 'date': {}, 'money': {}}

#### 3. normalize `ke -`

In [72]:
normalizer.normalize('ke-12')

{'normalize': 'kedua belas', 'date': {}, 'money': {}}

In [73]:
normalizer.normalize('ke - 12')

{'normalize': 'kedua belas', 'date': {}, 'money': {}}

#### 4. normalize `ke - roman`

In [74]:
normalizer.normalize('ke-XXI')

{'normalize': 'kedua puluh satu', 'date': {}, 'money': {}}

In [75]:
normalizer.normalize('ke - XXI')

{'normalize': 'kedua puluh satu', 'date': {}, 'money': {}}

#### 5. normalize `NUM - NUM`

In [76]:
normalizer.normalize('2011 - 2019')

{'normalize': 'dua ribu sebelas hingga dua ribu sembilan belas',
 'date': {},
 'money': {}}

In [77]:
normalizer.normalize('2011.01-2019')

{'normalize': 'dua ribu sebelas perpuluhan kosong satu hingga dua ribu sembilan belas',
 'date': {},
 'money': {}}

#### 6. normalize `pada NUM (/ | -) NUM`

In [78]:
normalizer.normalize('pada 10/4')

{'normalize': 'pada sepuluh hari bulan empat', 'date': {}, 'money': {}}

In [79]:
normalizer.normalize('PADA 10 -4')

{'normalize': 'pada sepuluh hari bulan empat', 'date': {}, 'money': {}}

#### 7. normalize `NUM / NUM`

In [80]:
normalizer.normalize('10 /4')

{'normalize': 'sepuluh per empat', 'date': {}, 'money': {}}

#### 8. normalize `rm NUM`

In [81]:
normalizer.normalize('RM10.5')

{'normalize': 'sepuluh ringgit lima puluh sen',
 'date': {},
 'money': {'rm10.5': 'RM10.5'}}

#### 9. normalize `rm NUM sen`

In [82]:
normalizer.normalize('rm 10.5 sen')

{'normalize': 'sepuluh ringgit lima puluh sen',
 'date': {},
 'money': {'rm 10.5': 'RM10.5'}}

#### 10. normalize `NUM sen`

In [83]:
normalizer.normalize('1015 sen')

{'normalize': 'sepuluh ringgit lima belas sen',
 'date': {},
 'money': {'1015 sen': 'RM10.15'}}

#### 11. normalize money

In [84]:
normalizer.normalize('rm10.4m')

{'normalize': 'sepuluh juta empat ratus ribu ringgit',
 'date': {},
 'money': {'rm10.4m': 'RM10400000.0'}}

In [85]:
normalizer.normalize('$10.4K')

{'normalize': 'sepuluh ribu empat ratus dollar',
 'date': {},
 'money': {'$10.4k': '$10400.0'}}

#### 12. normalize cardinal

In [86]:
normalizer.normalize('123')

{'normalize': 'seratus dua puluh tiga', 'date': {}, 'money': {}}

#### 13. normalize ordinal

In [87]:
normalizer.normalize('ke123')

{'normalize': 'keseratus dua puluh tiga', 'date': {}, 'money': {}}

#### 14. normalize date / time / datetime string to datetime.datetime

In [88]:
normalizer.normalize('2 hari lepas')

{'normalize': 'dua hari lepas',
 'date': {'2 hari lalu': datetime.datetime(2022, 8, 20, 13, 22, 59, 365731)},
 'money': {}}

In [89]:
normalizer.normalize('esok')

{'normalize': 'esok',
 'date': {'esok': datetime.datetime(2022, 8, 23, 13, 23, 0, 519963)},
 'money': {}}

In [90]:
normalizer.normalize('okt 2019')

{'normalize': 'dua puluh dua Oktober dua ribu sembilan belas',
 'date': {'okt 2019': datetime.datetime(2019, 10, 22, 0, 0)},
 'money': {}}

In [91]:
normalizer.normalize('2pgi')

{'normalize': 'pukul dua',
 'date': {'2AM': datetime.datetime(2022, 8, 22, 2, 0)},
 'money': {}}

In [92]:
normalizer.normalize('pukul 8 malam')

{'normalize': 'pukul kosong malam',
 'date': {'8 PM': datetime.datetime(2022, 8, 22, 20, 0)},
 'money': {}}

In [93]:
normalizer.normalize('jan 2 2019 12:01pm')

{'normalize': 'dua Januari dua ribu sembilan belas pukul dua belas satu minit',
 'date': {'jan 2 2019 12:01pm': datetime.datetime(2019, 1, 2, 12, 1)},
 'money': {}}

In [94]:
normalizer.normalize('2 ptg jan 2 2019')

{'normalize': 'pukul empat belas dua Januari dua ribu sembilan belas',
 'date': {'2 PM jan 2 2019': datetime.datetime(2019, 1, 2, 14, 0)},
 'money': {}}

#### 15. normalize money string to string number representation

In [95]:
normalizer.normalize('50 sen')

{'normalize': 'lima puluh sen', 'date': {}, 'money': {'50 sen': 'RM0.5'}}

In [96]:
normalizer.normalize('20.5 ringgit')

{'normalize': 'dua puluh ringgit lima puluh sen',
 'date': {},
 'money': {'20.5 ringgit': 'RM20.5'}}

In [97]:
normalizer.normalize('20m ringgit')

{'normalize': 'dua puluh juta ringgit',
 'date': {},
 'money': {'20m ringgit': 'RM20000000.0'}}

In [98]:
normalizer.normalize('22.5123334k ringgit')

{'normalize': 'dua puluh dua ribu lima ratus dua belas ringgit tiga ratus tiga puluh empat sen',
 'date': {},
 'money': {'22.512334k ringgit': 'RM22512.334'}}

#### 16. normalize date string to %d/%m/%y

In [99]:
normalizer.normalize('1 nov 2019')

{'normalize': 'satu November dua ribu sembilan belas',
 'date': {'1 nov 2019': datetime.datetime(2019, 11, 1, 0, 0)},
 'money': {}}

In [100]:
normalizer.normalize('januari 1 1996')

{'normalize': 'satu Januari seribu sembilan ratus sembilan puluh enam',
 'date': {'januari 1 1996': datetime.datetime(1996, 1, 1, 0, 0)},
 'money': {}}

In [101]:
normalizer.normalize('januari 2019')

{'normalize': 'dua puluh dua Januari dua ribu sembilan belas',
 'date': {'januari 2019': datetime.datetime(2019, 1, 22, 0, 0)},
 'money': {}}

#### 17. normalize time string to %H:%M:%S

In [102]:
normalizer.normalize('2pm')

{'normalize': 'pukul empat belas',
 'date': {'2pm': datetime.datetime(2022, 8, 22, 14, 0)},
 'money': {}}

In [103]:
normalizer.normalize('2:01pm')

{'normalize': 'pukul empat belas satu minit',
 'date': {'2:01pm': datetime.datetime(2022, 8, 22, 14, 1)},
 'money': {}}

In [104]:
normalizer.normalize('2AM')

{'normalize': 'pukul dua',
 'date': {'2am': datetime.datetime(2022, 8, 22, 2, 0)},
 'money': {}}

#### 18. expand repetition shortform

In [105]:
normalizer.normalize('skit2')

{'normalize': 'sakit-sakit', 'date': {}, 'money': {}}

In [106]:
normalizer.normalize('xskit2')

{'normalize': 'tak sakit-sakit', 'date': {}, 'money': {}}

In [107]:
normalizer.normalize('xjdi2')

{'normalize': 'tak jadi-jadi', 'date': {}, 'money': {}}

In [108]:
normalizer.normalize('xjdi4')

{'normalize': 'tak jadi-jadi-jadi-jadi', 'date': {}, 'money': {}}

In [109]:
normalizer.normalize('xjdi0')

{'normalize': 'tak jadi', 'date': {}, 'money': {}}

In [110]:
normalizer.normalize('xjdi')

{'normalize': 'tak jadi', 'date': {}, 'money': {}}

#### 19. normalize `NUM SI-UNIT`

In [111]:
normalizer.normalize('61.2 kg')

{'normalize': 'enam puluh satu perpuluhan dua kilogram',
 'date': {},
 'money': {}}

In [112]:
normalizer.normalize('61.2kg')

{'normalize': 'enam puluh satu perpuluhan dua kilogram',
 'date': {},
 'money': {}}

In [113]:
normalizer.normalize('61kg')

{'normalize': 'enam puluh satu kilogram', 'date': {}, 'money': {}}

In [114]:
normalizer.normalize('61ml')

{'normalize': 'enam puluh satu milliliter', 'date': {}, 'money': {}}

In [115]:
normalizer.normalize('61m')

{'normalize': 'enam puluh satu meter', 'date': {}, 'money': {}}

In [116]:
normalizer.normalize('61.3434km')

{'normalize': 'enam puluh satu perpuluhan tiga empat tiga empat kilometer',
 'date': {},
 'money': {}}

In [117]:
normalizer.normalize('61.3434c')

{'normalize': 'enam puluh satu perpuluhan tiga empat tiga empat celsius',
 'date': {},
 'money': {}}

In [118]:
normalizer.normalize('61.3434 c')

{'normalize': 'enam puluh satu perpuluhan tiga empat tiga empat celsius',
 'date': {},
 'money': {}}

#### 20. normalize `laughing` pattern

In [119]:
normalizer.normalize('dia sakai wkwkwkawkw')

{'normalize': 'dia sakai haha', 'date': {}, 'money': {}}

In [120]:
normalizer.normalize('dia sakai hhihihu')

{'normalize': 'dia sakai haha', 'date': {}, 'money': {}}

#### 21. normalize `mengeluh` pattern

In [121]:
normalizer.normalize('Haih apa lah si yusuff ni . Mama cari rupanya celah ni')

{'normalize': 'Aduh apa lah si yusuff ini . Mama cari rupanya celah ini',
 'date': {},
 'money': {}}

In [122]:
normalizer.normalize('hais sorrylah syazzz')

{'normalize': 'aduh maaf lah syazz', 'date': {}, 'money': {}}

#### 22. normalize `percent` pattern

In [123]:
normalizer.normalize('0.8%')

{'normalize': 'kosong perpuluhan lapan peratus', 'date': {}, 'money': {}}

In [124]:
normalizer.normalize('1213.1012312%')

{'normalize': 'seribu dua ratus tiga belas perpuluhan satu kosong satu dua tiga satu dua peratus',
 'date': {},
 'money': {}}