## Tokenization: A Fundamental Step in NLP
Tokenization is a crucial step in Natural Language Processing (NLP) that involves breaking down text into smaller components called "tokens." These tokens can be words, sentences, or even characters, depending on the specific application.

*In this noteb* ook, we will explore the concept of tokenization, why it is essential, and how it is implemented. We will demonstrate word and sentence tokenization for both English and Arabic text. By the end of this notebook, you will have a clear understanding of how to tokenize text effectively and handle the challenges that arise during the process.

Let's get started! 🚀

In [1]:
pip install -U spacy

Collecting spacy
  Downloading spacy-3.8.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting thinc<8.4.0,>=8.3.0 (from spacy)
  Downloading thinc-8.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (15 kB)
Collecting blis<1.1.0,>=1.0.0 (from thinc<8.4.0,>=8.3.0->spacy)
  Downloading blis-1.0.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.6 kB)
Collecting numpy>=1.19.0 (from spacy)
  Downloading numpy-2.0.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.9/60.9 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Downloading spacy-3.8.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (29.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m29.1/29.1 MB[0m [31m56.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading thinc-8.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.w

In [2]:
import spacy
nlp = spacy.load('en_core_web_sm')



In [3]:
doc = nlp('I am Khaled, an AI engineer who is always striving to improve my skills.')


In [4]:
type(doc)


spacy.tokens.doc.Doc

In [5]:
for token in doc:
    print(token.text)
#     print(token.shape)
    print(token.shape_)
    print(token.is_alpha)
#     print(token.is_stop)
    print('---------------')

I
X
True
---------------
am
xx
True
---------------
Khaled
Xxxxx
True
---------------
,
,
False
---------------
an
xx
True
---------------
AI
XX
True
---------------
engineer
xxxx
True
---------------
who
xxx
True
---------------
is
xx
True
---------------
always
xxxx
True
---------------
striving
xxxx
True
---------------
to
xx
True
---------------
improve
xxxx
True
---------------
my
xx
True
---------------
skills
xxxx
True
---------------
.
.
False
---------------


In [6]:
doc[0] , doc[1] , doc[2] , doc[3] , doc[4] , doc[5] , doc[6] , doc[7] , 

(I, am, Khaled, ,, an, AI, engineer, who)

In [7]:
doc2 = nlp('''
Although commmonly attributed to John Lennon from his song "Beautiful Boy",
the phrase "Life is what happens to us while we are making other plans" was written by cartoonist Allen Saunders and
published in Reader\'s Digest in 1957, when Lennon was 17.    
''')

In [8]:
life_quote = doc2[19:31]
print(life_quote)

Life is what happens to us while we are making other plans


In [9]:
mystring = '"We\'re moving to L.A.!"'
print(mystring)

"We're moving to L.A.!"


In [10]:
doc3 = nlp(mystring)

for token in doc3:
    print(token.text, end=' | ')

" | We | 're | moving | to | L.A. | ! | " | 

In [11]:
doc4 = nlp(u"We're here to help! Send snail-mail, email support@oursite.com or visit us at http://www.oursite.com!")

for token in doc4:
    print(token)

We
're
here
to
help
!
Send
snail
-
mail
,
email
support@oursite.com
or
visit
us
at
http://www.oursite.com
!


In [12]:
doc5 = nlp(u'A 5km NYC cab ride costs $10.30')

for token in doc5:
    print(token)

A
5
km
NYC
cab
ride
costs
$
10.30


In [13]:
doc6 = nlp(u"Let's visit St. Louis in the U.S. next year.")

for token in doc6:
    print(token)

Let
's
visit
St.
Louis
in
the
U.S.
next
year
.


In [14]:
doc = nlp(' يعد الذكاء الإصطناعي من العلوم التي يتسارع التطور فيها بشكل لافت منذ عام 2005 و لمدة 15 سنة ')

for token in doc:
    print(token.text)
    print(token.shape_)
    print(token.is_alpha)
    print(token.is_stop)
    print('---------------')

 
 
False
False
---------------
يعد
xxx
True
False
---------------
الذكاء
xxxx
True
False
---------------
الإصطناعي
xxxx
True
False
---------------
من
xx
True
False
---------------
العلوم
xxxx
True
False
---------------
التي
xxxx
True
False
---------------
يتسارع
xxxx
True
False
---------------
التطور
xxxx
True
False
---------------
فيها
xxxx
True
False
---------------
بشكل
xxxx
True
False
---------------
لافت
xxxx
True
False
---------------
منذ
xxx
True
False
---------------
عام
xxx
True
False
---------------
2005
dddd
False
False
---------------
و
x
True
False
---------------
لمدة
xxxx
True
False
---------------
15
dd
False
False
---------------
سنة
xxx
True
False
---------------


In [15]:
doc2 = nlp('''
أبو عبد الله محمد بن موسى الخوارزمي عالم رياضيات وفلك
وجغرافيا مسلم. يكنى باسم الخوارزمي وأبي جعفر. قيل أنه ولد حوالي 164هـ 781م (وهو غير مؤكد) وقيل أنه توفي بعد 232 هـ أي (بعد 847م). يعتبر
من أوائل علماء الرياضيات المسلمين حيث ساهمت أعماله بدور كبير في تقدم الرياضيات في عصره. اتصل بالخليفة العباسي المأمون وعمل في بيت الحكمة في 
بغداد وكسب ثقة الخليفة إذ ولاه المأمون بيت الحكمة كما عهد إليه برسم خارطة للأرض عمل فيها أكثر من سبعين جغرافيا. قبل وفاته في 850 م/232 هـ
كان الخوارزمي قد ترك العديد من المؤلفات في علوم الرياضيات والفلك والجغرافيا ومن أهمها كتاب المختصر في حساب الجبر والمقابلة الذي يعد أهم كتبه

''')

In [16]:
life_quote = doc2[15:33]
print(life_quote)

يكنى باسم الخوارزمي وأبي جعفر. قيل أنه ولد حوالي 164هـ 781م (وهو غير مؤكد)


In [17]:
doc4 = nlp(u"يمكنك مراسلتنا علي البريد الإلكتروني للشركة هو info@hp.com   او تصفح موقع الشركة وهو www.hp.com ")

for token in doc4:
    print(token)

يمكنك
مراسلتنا
علي
البريد
الإلكتروني
للشركة
هو
info@hp.com
  
او
تصفح
موقع
الشركة
وهو
www.hp.com


## Sentence Segmentation

In [18]:
doc1 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

doc1.sents

<generator at 0x7b0cb80b0180>

In [19]:
for sent in doc1.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [20]:
print(doc1[6])
doc1[6].is_sent_start

This


True

In [21]:
print(doc1[4])
print(doc1[4].is_sent_start)

sentence
False


In [22]:
list(doc1.sents)[1]

This is another sentence.

In [23]:
doc_sents = [sent for sent in doc1.sents]
doc_sents

[This is the first sentence.,
 This is another sentence.,
 This is the last sentence.]

In [24]:
print(doc_sents[1].start, doc_sents[1].end)

6 11


In [25]:
doc2 = nlp(u'This is a sentence. that is a sentence. here is a sentence.')

for token in doc2:
    print(token.is_sent_start, ' '+token.text)

True  This
False  is
False  a
False  sentence
False  .
True  that
False  is
False  a
False  sentence
False  .
True  here
False  is
False  a
False  sentence
False  .


In [26]:
doc3 = nlp(u'"Management is doing things right; leadership is doing the right things." -Peter Drucker')

for sent in doc3.sents:
    print(sent)

"Management is doing things right; leadership is doing the right things."
-Peter Drucker


In [27]:
import spacy
from spacy.language import Language

# تحميل النموذج اللغوي
nlp = spacy.load("en_core_web_sm")

# إضافة decorator لتسجيل الدالة كـ component
@Language.component("set_custom_boundaries")
def set_custom_boundaries(doc):
    for token in doc[:-1]:
        if token.text == ';':
            doc[token.i+1].is_sent_start = True
    return doc

# إضافة الدالة إلى الـ pipeline قبل الـ parser باستخدام اسم الـ component
nlp.add_pipe("set_custom_boundaries", before="parser")

# عرض جميع الـ pipes في الـ pipeline
print(nlp.pipe_names)


['tok2vec', 'tagger', 'set_custom_boundaries', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [28]:
doc4 = nlp(u'"Management is doing things right; leadership is doing the right things." -Peter Drucker')

for sent in doc4.sents:
    print(sent)

"Management is doing things right;
leadership is doing the right things."
-Peter Drucker


In [29]:
doc1 = nlp('هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة')

for sent in doc1.sents:
    print(sent)
    print('-------------------')

هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة
-------------------


In [30]:
doc_sents = [sent for sent in doc1.sents]
doc_sents

[هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة]

In [31]:
doc3 = nlp('هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة')

for token in doc3:
    print(token.is_sent_start, ' '+token.text)


True  هذه
False  هي
False  الجملة
False  الأولي
False  .
False  ,
False  هذه
False  هي
False  الجملة
False  الثانية
False  ,
False  والجملة
False  الثالثة
