In [1]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [2]:
doc1 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

doc1.sents

<generator at 0x1a9998b3868>

In [3]:
for sent in doc1.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [5]:
print(doc1[6])
doc1[6].is_sent_start

This


True

In [7]:
print(doc1[4])
print(doc1[4].is_sent_start)

sentence
None


In [8]:
# print(doc1.sents[0])

TypeError: 'generator' object is not subscriptable

In [10]:
list(doc1.sents)[1]

This is another sentence.

In [11]:
doc_sents = [sent for sent in doc1.sents]
doc_sents

[This is the first sentence.,
 This is another sentence.,
 This is the last sentence.]

In [12]:
print(doc_sents[1].start, doc_sents[1].end)

6 11


In [14]:
doc2 = nlp(u'This is a sentence. that is a sentence. here is a sentence.')

for token in doc2:
    print(token.is_sent_start, ' '+token.text)

True  This
None  is
None  a
None  sentence
None  .
True  that
None  is
None  a
None  sentence
None  .
True  here
None  is
None  a
None  sentence
None  .


In [15]:
doc3 = nlp(u'"Management is doing things right; leadership is doing the right things." -Peter Drucker')

for sent in doc3.sents:
    print(sent)


"Management is doing things right; leadership is doing the right things."
-Peter Drucker


In [16]:
def set_custom_boundaries(doc):
    for token in doc[:-1]:
        if token.text == ';':
            doc[token.i+1].is_sent_start = True
    return doc

nlp.add_pipe(set_custom_boundaries, before='parser')

nlp.pipe_names

['tagger', 'set_custom_boundaries', 'parser', 'ner']

In [17]:
doc4 = nlp(u'"Management is doing things right; leadership is doing the right things." -Peter Drucker')

for sent in doc4.sents:
    print(sent)

"Management is doing things right;
leadership is doing the right things."
-Peter Drucker


In [18]:
from nltk.tokenize import sent_tokenize

EXAMPLE_TEXT = """
Hello Mr. Smith, how are you doing today? The weather is great, 
and Python is awesome. The sky is pinkish-blue. You shouldn't eat cardboard.
"""

In [19]:
for s in sent_tokenize(EXAMPLE_TEXT) : 
    print(s)
    print('----------------------')


Hello Mr. Smith, how are you doing today?
----------------------
The weather is great, 
and Python is awesome.
----------------------
The sky is pinkish-blue.
----------------------
You shouldn't eat cardboard.
----------------------


In [20]:
EXAMPLE_TEXT = '''
Thomas Gradgrind, sir.  A man of realities.  A man of facts and calculations.  A man who proceeds upon the principle that two and two are four, and nothing over, and who is not to be talked into allowing for anything over.  Thomas Gradgrind, sir—peremptorily Thomas—Thomas Gradgrind.  With a rule and a pair of scales, and the multiplication table always in his pocket, sir, ready to weigh and measure any parcel of human nature, and tell you exactly what it comes to.  It is a mere question of figures, a case of simple arithmetic.  You might hope to get some other nonsensical belief into the head of George Gradgrind, or Augustus Gradgrind, or John Gradgrind, or Joseph Gradgrind (all supposititious, non-existent persons), but into the head of Thomas Gradgrind—no, sir!
In such terms Mr. Gradgrind always mentally introduced himself, whether to his private circle of acquaintance, or to the public in general.  In such terms, no doubt, substituting the words ‘boys and girls,’ for ‘sir,’ Thomas Gradgrind now presented Thomas Gradgrind to the little pitchers before him, who were to be filled so full of facts.
Indeed, as he eagerly sparkled at them from the cellarage before mentioned, he seemed a kind of cannon loaded to the muzzle with facts, and prepared to blow them clean out of the regions of childhood at one discharge.  He seemed a galvanizing apparatus, too, charged with a grim mechanical substitute for the tender young imaginations that were to be stormed away.
‘Girl number twenty,’ said Mr. Gradgrind, squarely pointing with his square forefinger, ‘I don’t know that girl.  Who is that girl?’
'''

In [21]:
for s in sent_tokenize(EXAMPLE_TEXT) : 
    print(s)
    print('----------------------')


Thomas Gradgrind, sir.
----------------------
A man of realities.
----------------------
A man of facts and calculations.
----------------------
A man who proceeds upon the principle that two and two are four, and nothing over, and who is not to be talked into allowing for anything over.
----------------------
Thomas Gradgrind, sir—peremptorily Thomas—Thomas Gradgrind.
----------------------
With a rule and a pair of scales, and the multiplication table always in his pocket, sir, ready to weigh and measure any parcel of human nature, and tell you exactly what it comes to.
----------------------
It is a mere question of figures, a case of simple arithmetic.
----------------------
You might hope to get some other nonsensical belief into the head of George Gradgrind, or Augustus Gradgrind, or John Gradgrind, or Joseph Gradgrind (all supposititious, non-existent persons), but into the head of Thomas Gradgrind—no, sir!
----------------------
In such terms Mr. Gradgrind always mentally intr

In [22]:
from nltk.tokenize import PunktSentenceTokenizer

In [23]:
custom_sent_tokenizer = PunktSentenceTokenizer(EXAMPLE_TEXT)
tokenized = custom_sent_tokenizer.tokenize(EXAMPLE_TEXT)
tokenized[:10]

['\nThomas Gradgrind, sir.',
 'A man of realities.',
 'A man of facts and calculations.',
 'A man who proceeds upon the principle that two and two are four, and nothing over, and who is not to be talked into allowing for anything over.',
 'Thomas Gradgrind, sir—peremptorily Thomas—Thomas Gradgrind.',
 'With a rule and a pair of scales, and the multiplication table always in his pocket, sir, ready to weigh and measure any parcel of human nature, and tell you exactly what it comes to.',
 'It is a mere question of figures, a case of simple arithmetic.',
 'You might hope to get some other nonsensical belief into the head of George Gradgrind, or Augustus Gradgrind, or John Gradgrind, or Joseph Gradgrind (all supposititious, non-existent persons), but into the head of Thomas Gradgrind—no, sir!',
 'In such terms Mr. Gradgrind always mentally introduced himself, whether to his private circle of acquaintance, or to the public in general.',
 'In such terms, no doubt, substituting the words ‘boys

In [25]:
doc1 = nlp('هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة')

for sent in doc1.sents:
    print(sent)
    print('-------------------')

هذه هي الجملة الأولي .
-------------------
, هذه هي الجملة الثانية , والجملة الثالثة
-------------------


In [27]:
print(doc1[5].is_sent_start)

True


In [None]:
#print(doc1.sents[0])

In [28]:
list(doc1.sents)[0]

هذه هي الجملة الأولي .

In [29]:
doc_sents = [sent for sent in doc1.sents]
doc_sents

[هذه هي الجملة الأولي ., , هذه هي الجملة الثانية , والجملة الثالثة]

In [30]:
doc2 = nlp(u'This is a sentence. This is a sentence. This is a sentence.')

for token in doc2:
    print(token.is_sent_start, ' '+token.text)

True  This
None  is
None  a
None  sentence
None  .
True  This
None  is
None  a
None  sentence
None  .
True  This
None  is
None  a
None  sentence
None  .


In [32]:
doc3 = nlp('هذه هي الجملة الأولي ., هذه هي الجملة الثانية , والجملة الثالثة')

for token in doc3:
    print(token.is_sent_start, ' '+token.text)


True  هذه
None  هي
None  الجملة
None  الأولي
None  .
True  ,
None  هذه
None  هي
None  الجملة
None  الثانية
None  ,
None  والجملة
None  الثالثة


In [33]:
from nltk.tokenize import sent_tokenize

EXAMPLE_TEXT = '''
أبو عبد الله محمد بن موسى الخوارزمي عالم رياضيات وفلك
وجغرافيا مسلم. يكنى باسم الخوارزمي وأبي جعفر. قيل أنه ولد حوالي 164هـ 781م (وهو غير مؤكد) وقيل أنه توفي بعد 232 هـ أي (بعد 847م). يعتبر
من أوائل علماء الرياضيات المسلمين حيث ساهمت أعماله بدور كبير في تقدم الرياضيات في عصره. اتصل بالخليفة العباسي المأمون وعمل في بيت الحكمة في 
بغداد وكسب ثقة الخليفة إذ ولاه المأمون بيت الحكمة كما عهد إليه برسم خارطة للأرض عمل فيها أكثر من سبعين جغرافيا. قبل وفاته في 850 م/232 هـ
كان الخوارزمي قد ترك العديد من المؤلفات في علوم الرياضيات والفلك والجغرافيا ومن أهمها كتاب المختصر في حساب الجبر والمقابلة الذي يعد أهم كتبه
'''

In [34]:
for s in sent_tokenize(EXAMPLE_TEXT) : 
    print(s)
    print('----------------------')


أبو عبد الله محمد بن موسى الخوارزمي عالم رياضيات وفلك
وجغرافيا مسلم.
----------------------
يكنى باسم الخوارزمي وأبي جعفر.
----------------------
قيل أنه ولد حوالي 164هـ 781م (وهو غير مؤكد) وقيل أنه توفي بعد 232 هـ أي (بعد 847م).
----------------------
يعتبر
من أوائل علماء الرياضيات المسلمين حيث ساهمت أعماله بدور كبير في تقدم الرياضيات في عصره.
----------------------
اتصل بالخليفة العباسي المأمون وعمل في بيت الحكمة في 
بغداد وكسب ثقة الخليفة إذ ولاه المأمون بيت الحكمة كما عهد إليه برسم خارطة للأرض عمل فيها أكثر من سبعين جغرافيا.
----------------------
قبل وفاته في 850 م/232 هـ
كان الخوارزمي قد ترك العديد من المؤلفات في علوم الرياضيات والفلك والجغرافيا ومن أهمها كتاب المختصر في حساب الجبر والمقابلة الذي يعد أهم كتبه
----------------------


In [35]:
EXAMPLE_TEXT = '''
يشكل الذكاء الاصطناعي تحديا والهاما لعلم الفلسفة ؛ لزعمه القدرة على إعادة خلق قدرات العقل البشري

وكمارو يحيي الناس
هل هناك حدود لمدى ذكاء الآلات؟ هل هناك فرق جوهري بين الذكاء البشري والذكاء الاصطناعي؟ وهل يمكن أن يكون للآلة عقل ووعي؟ عدد قليل من أهم الإجابات على هذه الأسئلة ترد أدناه.

آلات الحساب والذكاء "قانون تورنغ"
إذا كان الجهاز يعمل بذكاء يضاهي الإنسان، إذافذكائه يماثل ذكاء الإنسان. تفيد نظرية آلان تورنغ أنه، في نهاية المطاف، لا يسعنا إلا أن نحكم على ذكاء الآلة بناء على أدائها. هذه النظرية تشكل أساسا لاختبار تورنغ.

'''

In [36]:
for s in sent_tokenize(EXAMPLE_TEXT) : 
    print(s)
    print('----------------------')


يشكل الذكاء الاصطناعي تحديا والهاما لعلم الفلسفة ؛ لزعمه القدرة على إعادة خلق قدرات العقل البشري

وكمارو يحيي الناس
هل هناك حدود لمدى ذكاء الآلات؟ هل هناك فرق جوهري بين الذكاء البشري والذكاء الاصطناعي؟ وهل يمكن أن يكون للآلة عقل ووعي؟ عدد قليل من أهم الإجابات على هذه الأسئلة ترد أدناه.
----------------------
آلات الحساب والذكاء "قانون تورنغ"
إذا كان الجهاز يعمل بذكاء يضاهي الإنسان، إذافذكائه يماثل ذكاء الإنسان.
----------------------
تفيد نظرية آلان تورنغ أنه، في نهاية المطاف، لا يسعنا إلا أن نحكم على ذكاء الآلة بناء على أدائها.
----------------------
هذه النظرية تشكل أساسا لاختبار تورنغ.
----------------------


In [None]:
I went to Germany , then went to Italy. but my trip was awful

In [None]:
I met Prof. Mohamed yesterday

In [None]:
I spent 3.26 $ last monday