# Function

In [None]:
"""Text cleansing function which are used very frequently.

Usage:

```
from yellowduck.preprocessing.text import TextCleansing

Using all function
text = yellowduck.preprocessing.text.TextCleansing.pipeline(my_text)

-Individual-
text = TextCleansing.http_https(text)
text = TextCleansing.new_line(text)
text = TextCleansing.tab_space(text)
text = TextCleansing.hashtag(text)
text = TextCleansing.punctuation(text)
text = TextCleansing.emoji(text)
text = TextCleansing.redundant_space(text)
```
Arguments:
    text: python string.
Returns:
    A python string.
"""

In [152]:
import re

class TextCleansing():
    def http_https(text: str) -> str:
        text = re.sub(r'https\S+', '', str(text))
        text = re.sub(r'http\S+', '', str(text))
        return text

    # Remove new line (\n) and tab space (\t)
    def new_line(text: str) -> str:
        text = str(text).replace('\n',' ')
        return text

    def tab_space(text: str) -> str:
        text = str(text).replace('\t',' ')
        return text

    # Remove hashtag and line@ id
    def hashtag(text: str) -> str:
        text = re.sub(r'#[A-Za-z0-9ก-๙]+', ' ', str(text))
        text = re.sub(r'@[A-Za-z0-9ก-๙]+', ' ', str(text))
        return text

    # Clean Symbol
    def punctuation(text:str, except_punct:list=[]) -> str:
        puncts = [',', '"', ':', ')', '(', '-', '!', '?', '|', ';', "'", '$', '&', '[', ']', '>', '%', '=', '#', '*', '+', '\\', '•',  '~', '@', '£',
            '·', '_', '{', '}', '©', '^', '®', '`',  '<', '→', '°', '€', '™', '›',  '♥', '←', '×', '§', '″', '′', 'Â', '█', '½', 'à', '…', '\xa0', '\t',
            '“', '★', '”', '–', '●', 'â', '►', '−', '¢', '²', '¬', '░', '¶', '↑', '±', '¿', '▾', '═', '¦', '║', '―', '¥', '▓', '—', '‹', '─', '\u3000', '\u202f',
            '▒', '：', '¼', '⊕', '▼', '▪', '†', '■', '’', '▀', '¨', '▄', '♫', '☆', 'é', '¯', '♦', '¤', '▲', 'è', '¸', '¾', 'Ã', '⋅', '‘', '∞', '«',
            '∙', '）', '↓', '、', '│', '（', '»', '，', '♪', '╩', '╚', '³', '・', '╦', '╣', '╔', '╗', '▬', '❤', 'ï', 'Ø', '¹', '≤', '‡', '√', '•', '!']

        final_puncts = [ele for ele in puncts if ele not in except_punct]

        for punct in final_puncts:
            text = text.replace(punct,' ')
        return text

    # Remove emoji
    def emoji(text) -> str:
        emoj = re.compile("["
            u"\U0001F600-\U0001F64F"  # emoticons
            u"\U0001F300-\U0001F5FF"  # symbols & pictographs
            u"\U0001F680-\U0001F6FF"  # transport & map symbols
            u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
            u"\U00002500-\U00002BEF"  # chinese char
            u"\U00002702-\U000027B0"
            u"\U00002702-\U000027B0"
            u"\U000024C2-\U0001F251"
            u"\U0001f926-\U0001f937"
            u"\U00010000-\U0010ffff"
            u"\u2640-\u2642" 
            u"\u2600-\u2B55"
            u"\u200d"
            u"\u23cf"
            u"\u23e9"
            u"\u231a"
            u"\ufe0f"  # dingbats
            u"\u3030"
                        "]+", re.UNICODE)
        return re.sub(emoj, ' ', text)

    def redundant_space(text) -> str:
        return ' '.join(text.split())

# Test Function

In [153]:
my_text = 'ร้าน\n\n\n\n\n\n   #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n\t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

print(my_text)

ร้าน





   #ของมันต้องมี   	2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)
      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   
---------------------------------------------------------   
สำหรับ Delivery 
	👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   
---------------------------------------------------------   
🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 


In [154]:
my_text

'ร้าน\n\n\n\n\n\n   #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n\t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

In [155]:
TextCleansing.http_https(my_text)

'ร้าน\n\n\n\n\n\n   #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n\t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌                 '

In [156]:
TextCleansing.new_line(my_text)

'ร้าน         #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)       3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**    ---------------------------------------------------------    สำหรับ Delivery  \t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **    ---------------------------------------------------------    🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

In [157]:
TextCleansing.new_line(my_text)

'ร้าน         #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)       3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**    ---------------------------------------------------------    สำหรับ Delivery  \t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **    ---------------------------------------------------------    🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

In [158]:
TextCleansing.tab_space(my_text)

'ร้าน\n\n\n\n\n\n   #ของมันต้องมี    2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n 👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

In [159]:
TextCleansing.hashtag(my_text)

'ร้าน\n\n\n\n\n\n       \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n\t👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n🦐 Follow us 🦐   Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https://goo.gl/maps/DXTAh5Z4jds                 '

In [160]:
TextCleansing.punctuation(my_text, except_punct=['('])

'ร้าน\n\n\n\n\n\n    ของมันต้องมี    2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป \n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง         ร้านเปิด 11.00 23.00 (ครัวปิด 22.00      \n                                                            \nสำหรับ Delivery \n 👇วิธีการสั่ง👇   📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า  คนมันกุ้ง  ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ    รับออเดอร์ 11.00   22.00 เท่านั้นนะครับ      \n                                                            \n🦐 Follow us 🦐   Line       Facebook   konmunkung   โทร   064 414 7844      แผนที่ร้าน   ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์   📌📌https //goo.gl/maps/DXTAh5Z4jds                 '

In [161]:
TextCleansing.emoji(my_text)

'ร้าน\n\n\n\n\n\n   #ของมันต้องมี   \t2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป)\n      3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง)      **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)**   \n---------------------------------------------------------   \nสำหรับ Delivery \n\t วิธีการสั่ง     สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า    หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ **   \n---------------------------------------------------------   \n  Follow us     Line :     Facebook : konmunkung   โทร : 064 414 7844      แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์    https://goo.gl/maps/DXTAh5Z4jds                 '

In [162]:
TextCleansing.redundant_space(my_text)

'ร้าน #ของมันต้องมี 2.เราจะประกาศผลผู้โชคดีภายใน 30 กันยายน นี้ (โดยการ inbox กลับไป) 3.ใช้ได้ทั้งมากินที่ร้านหรือให้ไปส่งที่บ้านก็ได้ (ไม่รวมค่าส่ง) **ร้านเปิด 11.00-23.00 (ครัวปิด 22.00)** --------------------------------------------------------- สำหรับ Delivery 👇วิธีการสั่ง👇 📱สั่งผ่าน Lineman ได้เลยนะครับ หาคำว่า "คนมันกุ้ง" ง่ายๆอิ่มอร่อยสบายอยุ่บ้านได้เลยจ้า หรือจะโทร ไลน์ ผ่านให้ทางร้านจัดการให้ก็ได้ครับ ** รับออเดอร์ 11.00 - 22.00 เท่านั้นนะครับ ** --------------------------------------------------------- 🦐 Follow us 🦐 Line : Facebook : konmunkung โทร : 064 414 7844 แผนที่ร้าน : ร้านอยู่ในโครงการ Tree square ทาวน์ อิน ทาวน์ 📌📌https://goo.gl/maps/DXTAh5Z4jds'

# Usage

In [None]:
# !pip install yellowduck -q

!pip install --upgrade --force-reinstall yellowduck

In [None]:
import yellowduck

In [None]:
yellowduck.preprocessing.text.TextCleansing.http_https(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.new_line(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.tab_space(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.hashtag(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.punctuation(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.emoji(text)


In [None]:
yellowduck.preprocessing.text.TextCleansing.redundant_space(text)