In [1]:
import os
import json
import pickle

from collections import Counter

import pandas as pd
import numpy as np

# Setup

In [2]:
data_dir = os.path.join(os.curdir, "data")

raw_dataset_url = "https://nlp-slides.vercel.app/clean-tweets.tsv"

In [3]:
raw = pd.read_csv(filepath_or_buffer=raw_dataset_url, sep="\t")

raw.head()

Unnamed: 0,Tweet,Country,Topic,Sentiment,Sentiment_Expression,Sentiment_Target,word_count,char_count,clean_text,clean_stemmed
0,"""أنا أؤمن بأن الانسان ينطفئ جماله عند ابتعاد م...",lebanon,personal,negative,implicit,بريق العيون,23,132,اومن بان الانسان ينطفي جماله ابتعاد يحب بريق ا...,اوم بان انس نطف جمل بعد يحب برق عين خفي صبح ذب...
1,من الذاكره... @3FInQe . عندما اعتقد كريستيانو ...,jordan,sports,positive,explicit,افضل لاعب في العالم,23,141,الذاكره عندما اعتقد كريستيانو انه افضل لاعب ال...,ذكر عند عقد كريستيانو انه فضل لعب علم ككا يسي ...
2,لا نخلو من ضغوطات الحياة. فنحن نعيش على أرض أع...,palestine,personal,neutral,none,none,24,133,نخلو ضغوطات الحياه فنحن نعيش ارض اعدت للبلاء و...,خلو ضغط حيه فنح نعش ارض اعد بلء ولم سلم بيء وك...
3,#مصطلحات_لبنانيه_حيرت_البشريه بتوصل عالبيت ، ب...,lebanon,personal,negative,explicit,مصطلحات_لبنانيه,23,135,بتوصل عالبيت بنط بقلك جيت بتقعد لتتحدث معو بقل...,وصل علب بنط بقل جيت قعد حدث معو بقل شو تقم تمش...
4,نصمت !! لتسير حياتنا على مً يرام فالناّس لم تع...,palestine,personal,negative,explicit,س لم تعد كما ك,16,67,نصمت لتسير حياتنا يرام فالناس تعد كانت نقيه,نصم تسر حيت يرم لنس تعد كانت نقه


In [4]:
tweets = raw["clean_text"]

# Tokenization

First step is to split the dataset into small bits, each bit is called a `token`

once the corpus is tokenized, we can assign each unique `token` an `index`, note that the index value for any token is not important 

In [5]:
sample = tweets.iloc[0]
sample

'اومن بان الانسان ينطفي جماله ابتعاد يحب بريق العيون يختفي فيصبح ذابلا منطفيا يتحول ربيعه خريف'

Tokenizing have many forms, examples: 
- Word Level Tokenization
- Character Level Tokenization
- Sub-word Tokenization
- Byte Pair Encoding

In this chapter we will cover word level and character level tokenization, others will be covered in later chapters

In [6]:
# Implement a generic Tokenizer class
# Different tokenizers will inherit from this class
class Tokenizer:
    def __init__(self, corpus: list[str], min_frequency: int = None):
        self.min_frequency = min_frequency
        self.vocab = self._create_vocab(corpus=corpus)
        
        
    def _create_vocab(self, corpus: list[str]) -> dict[str, int]:
        ...
    
    def _tokenize_document(self, document: str) -> list[int]:
        ...
    
    def tokenize(self, documents: list[str]) -> list[list[int]]:
        return [self._tokenize_document(document) for document in documents]
    
    def __len__(self):
        return self.vocab

## Word Level

Here we split the sentence into indivual words, omitting the whitespaces between them

In [7]:
sample_tokens = sample.split(" ")
sample_tokens

['اومن',
 'بان',
 'الانسان',
 'ينطفي',
 'جماله',
 'ابتعاد',
 'يحب',
 'بريق',
 'العيون',
 'يختفي',
 'فيصبح',
 'ذابلا',
 'منطفيا',
 'يتحول',
 'ربيعه',
 'خريف']

In [8]:
# Create a list of all unique tokens in the corpus
all_word_tokens = [token for sample in tweets for token in sample.split(" ")]

word_level_tokens = set(all_word_tokens)
print(len(word_level_tokens), len(all_word_tokens))

19644 62252


In [9]:
word2idx = {token: index for index, token in enumerate(word_level_tokens)}
word2idx

{'': 0,
 'طايل': 1,
 'اعلاميينكم': 2,
 'بالطواقي': 3,
 'عاما': 4,
 'نصااااااااب': 5,
 'ذنوبا': 6,
 'وهنالك': 7,
 'تغرد': 8,
 'انهانت': 9,
 'القديم': 10,
 'محنوني': 11,
 'مناصفه': 12,
 'الجمهور': 13,
 'ببرنامج': 14,
 'فليس': 15,
 'باب': 16,
 'قطع': 17,
 'واسكب': 18,
 'والداخل': 19,
 'حريه': 20,
 'الهاويه': 21,
 'المسيحي': 22,
 'اعربي': 23,
 'الييت': 24,
 'كادو': 25,
 'مستشفي': 26,
 'ضيعه': 27,
 'خيرات': 28,
 'فهذا': 29,
 'دحلان': 30,
 'خطه': 31,
 'عاقل': 32,
 'للعلي': 33,
 'تقرا': 34,
 'تختار': 35,
 'بدا': 36,
 'الحقل': 37,
 'مراتبهم': 38,
 'الرقص': 39,
 'الحوت': 40,
 'تنقل': 41,
 'عينيكل': 42,
 'غموض': 43,
 'الحكومي': 44,
 'وزريعه': 45,
 'لعموم': 46,
 'حاربتنا': 47,
 'اسمك': 48,
 'يثمنها': 49,
 'الالباب': 50,
 'الطايره': 51,
 'بمكرهن': 52,
 'نتوقف': 53,
 'فالحمدلل': 54,
 'الطوابع': 55,
 'قيلت': 56,
 'وبساتين': 57,
 'تحسدون': 58,
 'لدعمه': 59,
 'وكويزين': 60,
 'وخليها': 61,
 'ندفع': 62,
 'وغزير': 63,
 'راييكم': 64,
 'نري': 65,
 '😠': 66,
 'عيبا': 67,
 'الثوره': 68,
 'وللاسف': 69,
 'درجات

In [10]:
class WordLevelTokenizer(Tokenizer):
    def __init__(self, corpus: list[str], min_frequency: int = 0):
        super().__init__(corpus=corpus, min_frequency=min_frequency)
        
    def _create_vocab(self, corpus: list[str]) -> dict[str, int]:
        tokens_counter = Counter([token for sample in corpus for token in sample.split(" ")])
        tokens = [token for token, count in tokens_counter.items() if count >= self.min_frequency]
        vocab = {token: index for index, token in enumerate(tokens, start=2)} 
        vocab["[PAD]"] = 0
        vocab["[OOV]"] = 1
        return vocab
    
    def _tokenize_document(self, document: str) -> list[int]:
        return [self.vocab.get(token, -1) for token in document.split(" ")]

    

In [11]:
word_level_tokenizer = WordLevelTokenizer(corpus=tweets, min_frequency=10)

In [12]:
word_level_tokenizer.vocab

{'بان': 2,
 'الانسان': 3,
 'عندما': 4,
 'اعتقد': 5,
 'انه': 6,
 'افضل': 7,
 'لاعب': 8,
 'العالم': 9,
 'حدث': 10,
 '😂': 11,
 'الحياه': 12,
 'نعيش': 13,
 'ارض': 14,
 'ولم': 15,
 'دايما': 16,
 'بالله': 17,
 'جيت': 18,
 'شو': 19,
 'شي': 20,
 '🤔': 21,
 'حياتنا': 22,
 'تعد': 23,
 'صاحب': 24,
 'السمو': 25,
 'الملكي': 26,
 'الامير': 27,
 'الدكتور': 28,
 'سعود': 29,
 'عبدالعزيز': 30,
 'امير': 31,
 'منطقه': 32,
 'مجلس': 33,
 'المنطقه': 34,
 'اكثر': 35,
 'خارج': 36,
 'علينا': 37,
 'الف': 38,
 'مبروك': 39,
 'للمنتخب': 40,
 'السوري': 41,
 'الجميع': 42,
 'لعب': 43,
 'شكرا': 44,
 'النهايه': 45,
 'الظروف': 46,
 'حلو': 47,
 'انو': 48,
 'بلا': 49,
 'احمد': 50,
 'رحمه': 51,
 'بال': 52,
 'كلام': 53,
 'قال': 54,
 'لانهم': 55,
 'الاسلام': 56,
 '🔴': 57,
 'شخص': 58,
 'دخل': 59,
 'قضيه': 60,
 'انتهي': 61,
 'المسوول': 62,
 'الدوله': 63,
 'الحكومه': 64,
 'الاردنيه': 65,
 'تعلن': 66,
 'اطلاق': 67,
 'مشروع': 68,
 'المدينه': 69,
 'الجديده': 70,
 'يكون': 71,
 'ترامب': 72,
 'سلمان': 73,
 'اي': 74,
 'وجود': 75,
 'حيات

In [13]:
len(word_level_tokenizer.vocab)

961

## Character Level Tokenization

In [14]:
sample_tokens = list(sample)
sample_tokens

['ا',
 'و',
 'م',
 'ن',
 ' ',
 'ب',
 'ا',
 'ن',
 ' ',
 'ا',
 'ل',
 'ا',
 'ن',
 'س',
 'ا',
 'ن',
 ' ',
 'ي',
 'ن',
 'ط',
 'ف',
 'ي',
 ' ',
 'ج',
 'م',
 'ا',
 'ل',
 'ه',
 ' ',
 'ا',
 'ب',
 'ت',
 'ع',
 'ا',
 'د',
 ' ',
 'ي',
 'ح',
 'ب',
 ' ',
 'ب',
 'ر',
 'ي',
 'ق',
 ' ',
 'ا',
 'ل',
 'ع',
 'ي',
 'و',
 'ن',
 ' ',
 'ي',
 'خ',
 'ت',
 'ف',
 'ي',
 ' ',
 'ف',
 'ي',
 'ص',
 'ب',
 'ح',
 ' ',
 'ذ',
 'ا',
 'ب',
 'ل',
 'ا',
 ' ',
 'م',
 'ن',
 'ط',
 'ف',
 'ي',
 'ا',
 ' ',
 'ي',
 'ت',
 'ح',
 'و',
 'ل',
 ' ',
 'ر',
 'ب',
 'ي',
 'ع',
 'ه',
 ' ',
 'خ',
 'ر',
 'ي',
 'ف']

In [15]:
char_level_tokens = [token for tweet in tweets for token in tweet]

char_level_tokens = set(char_level_tokens)
print(len(char_level_tokens))

325


In [16]:
char2idx = {token: index for index, token in enumerate(char_level_tokens)}
char2idx

{'❣': 0,
 'گ': 1,
 '🐳': 2,
 '👑': 3,
 '✍': 4,
 'ذ': 5,
 '🏠': 6,
 '🤥': 7,
 'ﻠ': 8,
 '￼': 9,
 '♓': 10,
 '🌴': 11,
 '•': 12,
 'ر': 13,
 '🙌': 14,
 'ﻴ': 15,
 '😠': 16,
 '🔥': 17,
 '🙃': 18,
 '🤔': 19,
 'ۈ': 20,
 '주': 21,
 'چ': 22,
 'ﺨ': 23,
 'ﺸ': 24,
 '💳': 25,
 '💴': 26,
 '🏀': 27,
 '🤦': 28,
 '📍': 29,
 '😌': 30,
 '👻': 31,
 'و': 32,
 '😜': 33,
 '🇦': 34,
 'ۆ': 35,
 '😷': 36,
 '🇸': 37,
 '😎': 38,
 '🤨': 39,
 ' ': 40,
 '😈': 41,
 '🇴': 42,
 '😟': 43,
 '😴': 44,
 'ﺷ': 45,
 '💸': 46,
 'ﺪ': 47,
 '🎉': 48,
 'خ': 49,
 '⚽': 50,
 'ﻟ': 51,
 '😑': 52,
 'ﻚ': 53,
 '🕋': 54,
 '💔': 55,
 '·': 56,
 '💜': 57,
 '🇬': 58,
 '🌹': 59,
 '💚': 60,
 'ﺣ': 61,
 'ﻙ': 62,
 '🕤': 63,
 '👏': 64,
 '\u200c': 65,
 '🍂': 66,
 '🇾': 67,
 '🏾': 68,
 '🙄': 69,
 '🍷': 70,
 '♀': 71,
 '🌟': 72,
 '🕊': 73,
 'ﻭ': 74,
 '퍼': 75,
 'ق': 76,
 'ﺬ': 77,
 '🔺': 78,
 '니': 79,
 'ﻜ': 80,
 '⠀': 81,
 '✊': 82,
 'ا': 83,
 '🎼': 84,
 '🌸': 85,
 '😞': 86,
 '🚦': 87,
 '🤷': 88,
 '🔶': 89,
 '🤬': 90,
 '🤗': 91,
 '️': 92,
 '😁': 93,
 '‿': 94,
 '🤣': 95,
 '👆': 96,
 '🌱': 97,
 '🐾': 98,
 'ﻰ': 99,
 'ﻤ':

In [17]:
# TODO: Implement character level tokenizer
# 1. __init__()
# 2. _create_vocab
# 3. _tokenize_document 
class CharacterLevelTokenizer(Tokenizer):
    ...

> Notice the difference in the vocabulary size, between word level and character level. Why would you choose one over the other? 

## Result of Tokenization

1. List of documents (corpus)
2. Each document is represented by a sequence of tokens

> Not all documents have the same length

In [18]:
tokenized_tweets = word_level_tokenizer.tokenize(tweets)

In [19]:
max([len(t) for t in tokenized_tweets])

82

# n-grams

To be continued

# Save the Tokenizer

One of the most straight forward ways of saving a Python object is through binary `serialization`

serialization is a method of converting the `object` to `bytes`, these `bytes` can be read later to recreate the object

`pickle` package is the built-in package for object serialization

In [20]:
word_level_tokenizer_path = os.path.join(data_dir, "word-tokenizer.pkl")
word_level_vocab_path = os.path.join(data_dir, "word-level-vocab.json")

with open(word_level_tokenizer_path, "wb+") as f:
    pickle.dump(obj=word_level_tokenizer, file=f)

    
with open(word_level_vocab_path, "wt+") as f:
    json.dump(word_level_tokenizer.vocab, f)

In [21]:
# TODO: Pickle character level tokenizer