In [1]:
import spacy
from spacy.tokens import Doc, Token, Span

# Scaling


## `.pipe()` method


If you want to process many docs then `.pipe()` method wil be more efficient than `for` loop with `nlp()` over each text. 

In [7]:
texts = ['I think it\'s amazing', 'John was here before us', 
         'I read an inspiring book by Ray Dalio, but don\'t remember the title',
         'I read a book by Wittgenstein while I was studying philosophy',
         'Freud was a good writer']

In [8]:
# Get the model
nlp = spacy.load('en_core_web_sm')

In [9]:
# The efficirnt way:
for doc in nlp.pipe(texts):
    print([token.text for token in doc if token.pos_ == 'ADJ'])

['amazing']
[]
['inspiring']
[]
['good']


## `.pipe()` with extensions

In [11]:
data = [
    (
        """
    כמו איזה שני משוגעים בחוף
    שמרנו רגעים בלב שתינו ת'נוף
    ואת היית יפה כמו פרח שאסור היה לקטוף
    רציתי רק לקטוף אותך
    רציתי לקטוף
        """, 
        {'song': 'Shnei Meshugaim',
         'artist': 'Omer Adam'}
    ),
    (
        """
    Israël est magnifique mais un peu problématique
    Chez nous on disait maspik
    Comme ci comme ça ze hatrick
    Par exemple sur tel aviv il y'a tout de tout sans déconner
    Mais c'est toujours pas parfait
    Attends j'vais tout t'expliquer
        """,
        {'song': 'Comme ci comme ça',
         'artist': 'Stéphane Legar'}
    )
]

In [10]:
# Set doc-level extensions
Doc.set_extension('song', default = None)
Doc.set_extension('artist', default = None)

In [16]:
# Set extensions from the context
for doc, context in nlp.pipe(data, as_tuples = True):
    doc._.song = context['song']
    doc._.artist = context['artist']
    
    # Print the text and custom attribute data
    print(doc.text, '\n', "— '{}' by {}".format(doc._.song, doc._.artist), '\n')


    כמו איזה שני משוגעים בחוף
    שמרנו רגעים בלב שתינו ת'נוף
    ואת היית יפה כמו פרח שאסור היה לקטוף
    רציתי רק לקטוף אותך
    רציתי לקטוף
         
 — 'Shnei Meshugaim' by Omer Adam 


    Israël est magnifique mais un peu problématique
    Chez nous on disait maspik
    Comme ci comme ça ze hatrick
    Par exemple sur tel aviv il y'a tout de tout sans déconner
    Mais c'est toujours pas parfait
    Attends j'vais tout t'expliquer
         
 — 'Comme ci comme ça' by Stéphane Legar 



## Using `.make_doc()`

When you already have nlp built and you need to build a `Doc` object but not apply all the pipeline, then `.make_doc()` is your friend:

In [22]:
nlp.make_doc('John, yes I do').ents

()

In [23]:
nlp('John, yes I do').ents

(John,)

## Using `.disable_pipes()`

When you want to temporarily disable some of the pipeline components, you can do it with `.disable_pipes()` method within a `with` statement.

In [24]:
with nlp.disable_pipes('ner'):
    doc = nlp('John, yes I do')
    print(doc.ents)

()
