# What’s spaCy?

spaCy is a free, open-source library for advanced Natural Language Processing (NLP) in Python.

spaCy is designed specifically for production use and helps you build applications that process and “understand” large volumes of text. It can be used to build <b>information extraction</b> or <b>natural language understanding</b> systems, or to <b>pre-process text for deep learning</b>.

url : https://spacy.io/

### Load library

In [1]:
import spacy
from spacy.lang.ar import *

### Load Data

In [2]:
english_text = """Perhaps one of the most significant advances made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely the beginnings of algebra. It is important to understand just how significant this new idea was. It was a revolutionary move away from the Greek concept of mathematics which was essentially geometry. Algebra was a unifying theory which allowedrational numbers,irrational numbers, geometrical magnitudes, etc., to all be treated as \"algebraic objects\". It gave mathematics a whole new development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the subject. Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itselfin a way which had not happened before."""

In [3]:
arabic_text ="""ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي وهي بدايات الجبر, ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا عن المفهوم اليوناني للرياضيات التي هي في جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, أن تتعامل على أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير من الذي كان موجودا من قبل, وقم وسيلة للتنمية في هذا الموضوع مستقبلا. وجانب آخر مهم لإدخال أفكار الجبر وهو أنه سمح بتطبيق الرياضيات على نفسها بطريقة لم تحدث من قبل"""

## Tokenization

In [4]:
nlp = spacy.load("en_core_web_sm")

In [5]:
doc_ar = Arabic()
doc_ar = nlp(arabic_text)

In [6]:
doc_en = nlp(english_text)

In [7]:
for token in doc_ar:
    print(token.text)
    
for token in doc_en:
    print(token.text)

ربما
كانت
أحد
أهم
التطورات
التي
قامت
بها
الرياضيات
العربية
التي
بدأت
في
هذا
الوقت
بعمل
الخوارزمي
وهي
بدايات
الجبر
,
ومن
المهم
فهم
كيف
كانت
هذه
الفكرة
الجديدة
مهمة
,
فقد
كانت
خطوة
نورية
بعيدا
عن
المفهوم
اليوناني
للرياضيات
التي
هي
في
جوهرها
هندسة
,
الجبر
کان
نظرية
موحدة
تتيح
الأعداد
الكسرية
والأعداد
اللا
كسرية
,
والمقادير
الهندسية
وغيرها
,
أن
تتعامل
على
أنها
أجسام
جبرية
,
وأعطت
الرياضيات
ككل
مسارا
جديدا
للتطور
بمفهوم
أوسع
بكثير
من
الذي
كان
موجودا
من
قبل
,
وقم
وسيلة
للتنمية
في
هذا
الموضوع
مستقبلا
.
وجانب
آخر
مهم
لإدخال
أفكار
الجبر
وهو
أنه
سمح
بتطبيق
الرياضيات
على
نفسها
بطريقة
لم
تحدث
من
قبل
Perhaps
one
of
the
most
significant
advances
made
by
Arabic
mathematics
began
at
this
time
with
the
work
of
al
-
Khwarizmi
,
namely
the
beginnings
of
algebra
.
It
is
important
to
understand
just
how
significant
this
new
idea
was
.
It
was
a
revolutionary
move
away
from
the
Greek
concept
of
mathematics
which
was
essentially
geometry
.
Algebra
was
a
unifying
theory
which
allowedrational
numbers
,
irration

### Part-of-speech tags and dependencies

In [8]:
for token in doc_en:
    print(token.text, token.pos_, token.tag_)

Perhaps ADV RB
one NUM CD
of ADP IN
the DET DT
most ADV RBS
significant ADJ JJ
advances NOUN NNS
made VERB VBN
by ADP IN
Arabic ADJ JJ
mathematics NOUN NNS
began VERB VBD
at ADP IN
this DET DT
time NOUN NN
with ADP IN
the DET DT
work NOUN NN
of ADP IN
al PROPN NNP
- PUNCT HYPH
Khwarizmi PROPN NNP
, PUNCT ,
namely ADV RB
the DET DT
beginnings NOUN NNS
of ADP IN
algebra PROPN NNP
. PUNCT .
It PRON PRP
is AUX VBZ
important ADJ JJ
to PART TO
understand VERB VB
just ADV RB
how ADV WRB
significant ADJ JJ
this DET DT
new ADJ JJ
idea NOUN NN
was AUX VBD
. PUNCT .
It PRON PRP
was AUX VBD
a DET DT
revolutionary ADJ JJ
move NOUN NN
away ADV RB
from ADP IN
the DET DT
Greek ADJ JJ
concept NOUN NN
of ADP IN
mathematics NOUN NNS
which DET WDT
was VERB VBD
essentially ADV RB
geometry NOUN NN
. PUNCT .
Algebra PROPN NNP
was AUX VBD
a DET DT
unifying ADJ JJ
theory NOUN NN
which DET WDT
allowedrational ADJ JJ
numbers NOUN NNS
, PUNCT ,
irrational ADJ JJ
numbers NOUN NNS
, PUNCT ,
geometrical ADJ JJ
magni

In [9]:
for token in doc_ar:
    print(token.text, token.pos_)

ربما PROPN
كانت PROPN
أحد PROPN
أهم PROPN
التطورات VERB
التي PROPN
قامت VERB
بها NOUN
الرياضيات ADJ
العربية NOUN
التي NOUN
بدأت VERB
في ADP
هذا ADJ
الوقت PROPN
بعمل PROPN
الخوارزمي PROPN
وهي PROPN
بدايات NOUN
الجبر NOUN
, PUNCT
ومن PROPN
المهم NOUN
فهم PROPN
كيف PROPN
كانت PROPN
هذه PROPN
الفكرة PROPN
الجديدة PROPN
مهمة PROPN
, PUNCT
فقد PROPN
كانت PROPN
خطوة PROPN
نورية VERB
بعيدا NOUN
عن PROPN
المفهوم PROPN
اليوناني PROPN
للرياضيات PROPN
التي PROPN
هي PROPN
في INTJ
جوهرها PROPN
هندسة PROPN
, PUNCT
الجبر PROPN
کان PROPN
نظرية PROPN
موحدة PROPN
تتيح PROPN
الأعداد PROPN
الكسرية NOUN
والأعداد NOUN
اللا NOUN
كسرية VERB
, PUNCT
والمقادير PROPN
الهندسية PROPN
وغيرها PROPN
, PUNCT
أن PRON
تتعامل VERB
على PROPN
أنها PROPN
أجسام PROPN
جبرية NOUN
, PUNCT
وأعطت PROPN
الرياضيات ADJ
ككل VERB
مسارا NOUN
جديدا NOUN
للتطور VERB
بمفهوم NOUN
أوسع NOUN
بكثير PROPN
من PROPN
الذي PROPN
كان PROPN
موجودا PROPN
من NOUN
قبل NOUN
, PUNCT
وقم PRON
وسيلة VERB
للتنمية ADJ
في ADP
هذا PROPN
الموضوع PROPN
مستقبلا PR

### Visualizing the dependency parse

In [None]:
from spacy import displacy
displacy.serve(doc_en, style="dep")

### Lemmatization

In [10]:
for token in doc_ar:
    print(token.text, token.pos_, token.lemma_)

ربما PROPN ربما
كانت PROPN كانت
أحد PROPN أحد
أهم PROPN أهم
التطورات VERB التطورات
التي PROPN التي
قامت VERB قامت
بها NOUN بها
الرياضيات ADJ الرياضيات
العربية NOUN العربية
التي NOUN التي
بدأت VERB بدأت
في ADP في
هذا ADJ هذا
الوقت PROPN الوقت
بعمل PROPN بعمل
الخوارزمي PROPN الخوارزمي
وهي PROPN وهي
بدايات NOUN بدايات
الجبر NOUN الجبر
, PUNCT ,
ومن PROPN ومن
المهم NOUN المهم
فهم PROPN فهم
كيف PROPN كيف
كانت PROPN كانت
هذه PROPN هذه
الفكرة PROPN الفكرة
الجديدة PROPN الجديدة
مهمة PROPN مهمة
, PUNCT ,
فقد PROPN فقد
كانت PROPN كانت
خطوة PROPN خطوة
نورية VERB نورية
بعيدا NOUN بعيدا
عن PROPN عن
المفهوم PROPN المفهوم
اليوناني PROPN اليوناني
للرياضيات PROPN للرياضيات
التي PROPN التي
هي PROPN هي
في INTJ في
جوهرها PROPN جوهرها
هندسة PROPN هندسة
, PUNCT ,
الجبر PROPN الجبر
کان PROPN کان
نظرية PROPN نظرية
موحدة PROPN موحدة
تتيح PROPN تتيح
الأعداد PROPN الأعداد
الكسرية NOUN الكسرية
والأعداد NOUN والأعداد
اللا NOUN اللا
كسرية VERB كسرية
, PUNCT ,
والمقادير PROPN والمقادير
الهندسية PROPN الهندسية
وغيرها

### Chunking

In [11]:
for chunk in doc_en.noun_chunks:
    print(chunk.label_, chunk)

NP the most significant advances
NP Arabic mathematics
NP this time
NP the work
NP al-Khwarizmi
NP namely the beginnings
NP algebra
NP It
NP this new idea
NP It
NP a revolutionary move
NP the Greek concept
NP mathematics
NP essentially geometry
NP Algebra
NP a unifying theory
NP allowedrational numbers
NP irrational numbers
NP geometrical magnitudes
NP "algebraic objects
NP It
NP mathematics
NP a whole new development path
NP concept
NP a vehicle
NP future development
NP the subject
NP Another important aspect
NP the introduction
NP algebraic ideas
NP it
NP mathematics
NP a way


In [12]:
for token in doc_en:
    if token.pos_ == "VERB":
        print(token.tag_, token.lemma_)

VBN make
VBD begin
VB understand
VBD be
VBN treat
VBD give
VBN exist
VBD provide
VBD allow
VBN apply
VB itselfin
VBN happen


### Named entities 

In [17]:
for ent in doc_en.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Arabic mathematics 53 71 NORP
al-Khwarizmi 108 120 GPE
Greek 268 273 NORP


### Dependencies

In [14]:
%load_ext watermark

In [15]:
%watermark -p spacy

spacy: 3.1.0

