# spaCy

### Load library Spacy

In [None]:
import spacy
from spacy.lang.ar import *

### My Data

In [None]:
ENG_TXT = """Perhaps one of the most significant advances made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely the beginnings of algebra. It is important to understand just how significant this new idea was. It was a revolutionary move away from the Greek concept of mathematics which was essentially geometry. Algebra was a unifying theory which allowedrational numbers,irrational numbers, geometrical magnitudes, etc., to all be treated as \"algebraic objects\". It gave mathematics a whole new development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the subject. Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itselfin a way which had not happened before."""

In [None]:
AR_TXT ="""ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي وهي بدايات الجبر, ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا عن المفهوم اليوناني للرياضيات التي هي في جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, أن تتعامل على أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير من الذي كان موجودا من قبل, وقم وسيلة للتنمية في هذا الموضوع مستقبلا. وجانب آخر مهم لإدخال أفكار الجبر وهو أنه سمح بتطبيق الرياضيات على نفسها بطريقة لم تحدث من قبل"""

## Tokenize


In [None]:
nlp = spacy.load("en_core_web_sm")

In [None]:
AR_DOCS = Arabic()
AR_DOCS = nlp(AR_TXT)

In [None]:
ENG_DOCS = nlp(ENG_TXT)

In [None]:
for token in AR_DOCS:
    print(token.text)
    
for token in ENG_DOCS:
    print(token.text)

### Part-of-speech tags


In [None]:
for token in ENG_DOCS:
    print(token.text, token.pos_, token.tag_)

In [None]:
for token in AR_DOCS:
    print(token.text, token.pos_)

### Visualizing the dependency parse

In [None]:
from spacy import displacy
displacy.serve(ENG_DOCS, style="dep")

### Lemmatization

In [None]:
for token in AR_DOCS:
    print(token.text, token.pos_, token.lemma_)

### Chunking

In [None]:
for chunk in ENG_DOCS.noun_chunks:
    print(chunk.label_, chunk)

In [None]:
for token in ENG_DOCS:
    if token.pos_ == "VERB":
        print(token.tag_, token.lemma_)

### Named entities 

In [None]:
for ent in ENG_DOCS.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

### Dependencies

In [None]:
!pip install watermark
%load_ext watermark


In [None]:
%watermark -p spacy