<a href="https://akademie.datamics.com/kursliste/">![title](bg_datamics_top.png)</a>

<center><em>© Datamics</em></center><br><center><em>Besuche uns für mehr Informationen auf <a href='https://akademie.datamics.com/kursliste/'>www.akademie.datamics.com</a></em></center>

# Pipeline

Dieses Notebook ist aus Quantopians offiziellem Pipeline Guide. Besuche ihre Dokumentation für viele weitere großartige Quellen!

Viele Handelsalgorithmen haben die folgende Struktur:

1. Für jeden Posten in einem bekannten (großen) Satz, berechne N skalare Werte für den Posten, basierend auf einem nacheilenden (trailing) Datenfenster.
2. Wähle einen kleineren handelbaren Satz Posten, basierend auf den Werten aus (1).
3. Berechne die Gewichte des angestrebten Portfolios auf dem Postensatz aus (2).
4. Gib Bestellungen in Auftrag, um die Allokationen des aktuellen Portfolios des Algorithmus zu den angestrebten Gewichten aus (3) zu bewegen.

Es gibt verschiedene technische Herausforderungen, wenn man dies auf solide Weise tun will. Dazu gehören:

* effizient große Postensätze abfragen
* Berechnungen auf großen Postensätzen durchführen
* mit Anpassungen umgehen (Splits und Dividenden)
* Börsenabgang (delisting) eines Postens

Es gibt Pipeline, um diese Herausforderungen zu lösen, indem eine einheitliche API bereitgestellt wird, die Berechnungen auf einer vielseitigen Sammlung von Datensätzen ausdrücken kann.

## Faktoren

Ein Faktor ist eine Funktion eines Wertpapiers und eines Zeitpunktes als numerischer Wert.

Ein einfaches Beispiel eines Faktors ist der aktuellste Preis eines Wertpapiers. Wenn ein Wertpapier und ein bestimmter Zeitpunkt gegeben sind, ist der aktuellste Preis eine Zahl. Ein anderes Beispiel ist der 10-Tagesdurchschnitt des Handelsvolumens eines Wertpapiers. Faktoren werden am häufigsten dazu verwendet Wertpapieren Werte zuzuordnen, die dann auf verschiedenste Arten genutzt werden können. Ein Faktor kann in jeder der folgenden Prozeduren verwendet werden:
* Zielgewichtungen berechnen
* Alpha-Signal generieren
* andere, komplexere Faktoren konstruieren
* Filter erstellen

## Filter

Ein Filter ist eine Funktion eines Postens und eines Zeitpunktes als Boolean.
Ein Beispiel eines Filters ist eine Funktion, die anzeigt ob der Preis eines Postens unter 10 Dollar liegt. Sind ein Wertpapier und ein Zeitpunkt gegeben, kommt dabei entweder True oder False raus. Filter werden meist zur Beschreibung von Postensätzen verwendet, die aus einem bestimmten Grund ein- oder ausgeschlossen werden sollen.

## Klassifikatoren

Ein Klassifikator ist eine Funktion eines Postens und eines Zeitpunkts als kategorischer Output.
Genauer gesagt produziert ein Klassifikator einen String oder einen Integer, der keinen numerischen Wert repräsentiert (z.B. ein Integerlabel wie einen Sektorcode). Klassifikatoren werden hauptsächlich dafür verwendet, Posten für komplexe Transformationen auf Faktoroutputs zu gruppieren. Ein Beispiel eines Klassifikators ist die Börse, an der der Posten zur Zeit gehandelt wird.

In [1]:
from quantopian.pipeline import Pipeline

In [22]:
def make_pipeline():
    return Pipeline() 

In [23]:
pipe = make_pipeline()

In [24]:
from quantopian.research import run_pipeline

In [25]:
result = run_pipeline(pipe,'2017-01-01','2017-01-01')

In [26]:
result.head(10)

Unnamed: 0,Unnamed: 1
2017-01-03 00:00:00+00:00,Equity(2 [ARNC])
2017-01-03 00:00:00+00:00,Equity(21 [AAME])
2017-01-03 00:00:00+00:00,Equity(24 [AAPL])
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR])
2017-01-03 00:00:00+00:00,Equity(31 [ABAX])
2017-01-03 00:00:00+00:00,Equity(39 [DDC])
2017-01-03 00:00:00+00:00,Equity(41 [ARCB])
2017-01-03 00:00:00+00:00,Equity(52 [ABM])
2017-01-03 00:00:00+00:00,Equity(53 [ABMD])
2017-01-03 00:00:00+00:00,Equity(62 [ABT])


In [27]:
result.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 8343 entries, (2017-01-03 00:00:00+00:00, Equity(2 [ARNC])) to (2017-01-03 00:00:00+00:00, Equity(50569 [OUSM]))
Empty DataFrame

# Daten

In [36]:
from quantopian.pipeline.data.builtin import USEquityPricing

## Faktoren

Denke daran, dass Faktoren einen Posten und einen Zeitstempel verwenden und einen numerischen Wert zurückgeben.

In [38]:
from quantopian.pipeline.factors import BollingerBands,SimpleMovingAverage,EWMA

In [40]:
SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)

SimpleMovingAverage((USEquityPricing.close::float64,), window_length=30)

In [41]:
def make_pipeline():
    
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    
    return Pipeline(columns={
        '30 Day Mean Close':mean_close_30
    })

In [46]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')

In [48]:
results.head(20)

Unnamed: 0,Unnamed: 1,30 Day Mean Close
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523
2017-01-03 00:00:00+00:00,Equity(41 [ARCB]),29.969167
2017-01-03 00:00:00+00:00,Equity(52 [ABM]),42.138239
2017-01-03 00:00:00+00:00,Equity(53 [ABMD]),114.030167
2017-01-03 00:00:00+00:00,Equity(62 [ABT]),38.664333


In [49]:
def make_pipeline():
    
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    return Pipeline(columns={
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close
    })

In [50]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')

In [52]:
results.head(10)

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523,9.69
2017-01-03 00:00:00+00:00,Equity(41 [ARCB]),29.969167,27.75
2017-01-03 00:00:00+00:00,Equity(52 [ABM]),42.138239,40.68
2017-01-03 00:00:00+00:00,Equity(53 [ABMD]),114.030167,112.7
2017-01-03 00:00:00+00:00,Equity(62 [ABT]),38.664333,38.42


## Faktoren kombinieren 

In [54]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    return Pipeline(columns={
        'Percent Difference':percent_difference,
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close
    })

In [55]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')

In [56]:
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665


# Filter und Bildschirme (Screens)

Filter nehmen einen Posten und einen Zeitstempel und geben einen Boolean zurück.

In [57]:
last_close_price = USEquityPricing.close.latest
close_price_filter = last_close_price > 20

In [58]:
close_price_filter

NumExprFilter(expr='x_0 > (20.0)', bindings={'x_0': Latest((USEquityPricing.close::float64,), window_length=1)})

In [59]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
        'Percent Difference':percent_difference,
        '30 Day Mean Close':mean_close_30,
        'Latest Close':latest_close,
        'Positive Percent Diff': perc_diff_check
    })

In [60]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749,False
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499,False
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481,True
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474,False
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665,False


## Bildschirme

In [61]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=perc_diff_check)

In [62]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(24 [AAPL]),113.368433,115.84,0.028481,True
2017-01-03 00:00:00+00:00,Equity(66 [AB]),23.119167,23.45,0.004578,True
2017-01-03 00:00:00+00:00,Equity(69 [ACAT]),15.8395,15.02,0.009375,True
2017-01-03 00:00:00+00:00,Equity(70 [VBF]),18.20848,18.49,0.011814,True
2017-01-03 00:00:00+00:00,Equity(84 [ACET]),20.722753,21.97,0.03963,True


### Bildschirm umkehren

In [63]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=~perc_diff_check)

In [64]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2 [ARNC]),20.1105,18.55,-0.022749,False
2017-01-03 00:00:00+00:00,Equity(21 [AAME]),3.899241,4.1,-0.005499,False
2017-01-03 00:00:00+00:00,Equity(25 [ARNC_PR]),86.796111,,-0.000474,False
2017-01-03 00:00:00+00:00,Equity(31 [ABAX]),52.498394,52.74,-0.007665,False
2017-01-03 00:00:00+00:00,Equity(39 [DDC]),9.523,9.69,-0.015436,False


## Filter kombinieren

In [65]:
def make_pipeline():
    
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30)
    latest_close = USEquityPricing.close.latest
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    small_price = latest_close < 5
    
    final_filter = perc_diff_check & small_price
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [66]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(535 [ARTW]),3.097778,3.4,0.013271,True
2017-01-03 00:00:00+00:00,Equity(677 [AXAS]),2.265333,2.56,0.145527,True
2017-01-03 00:00:00+00:00,Equity(1144 [BTX]),3.531167,3.62,0.065795,True
2017-01-03 00:00:00+00:00,Equity(1323 [CAW]),2.541333,2.6,0.016002,True
2017-01-03 00:00:00+00:00,Equity(1546 [CIF]),2.50037,2.57,0.015579,True


# Masken

Manchmal möchten wir bestimmte Posten ignorieren, wenn wir Pipelineausdrücke berechnen. Es gibt zwei häufige Fälle, bei denen das Ignorieren von Posten nützlich ist:
* Wir wollen einen Ausdruck berechnen, der viel Rechenleistung kostet und brauchen nur für bestimmte Posten die Ergebnisse.
* Wir wollen einen Ausdruck berechnen, der Vergleiche zwischen Posten ausführt, aber wir wollen nur einen Teil der Posten untereinander vergleichen.

In [83]:
def make_pipeline():
    
    # zuerst Filter für Masken erstellen
    latest_close = USEquityPricing.close.latest
    small_price = latest_close < 5
    
    # Maske übergeben
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10,mask=small_price)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30,mask=small_price)
    
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    
    final_filter = perc_diff_check
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [84]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(535 [ARTW]),3.097778,3.4,0.013271,True
2017-01-03 00:00:00+00:00,Equity(677 [AXAS]),2.265333,2.56,0.145527,True
2017-01-03 00:00:00+00:00,Equity(1144 [BTX]),3.531167,3.62,0.065795,True
2017-01-03 00:00:00+00:00,Equity(1323 [CAW]),2.541333,2.6,0.016002,True
2017-01-03 00:00:00+00:00,Equity(1546 [CIF]),2.50037,2.57,0.015579,True


In [85]:
len(results)

391

# Klassifikatoren

Ein Klassifikator ist eine Funktion eines Postens und eines Zeitpunkts und gibt einen kategorischen Output (String, Integerlabel) zurück.

In [74]:
from quantopian.pipeline.data import morningstar
from quantopian.pipeline.classifiers.morningstar import Sector

In [75]:
morningstar_sector = Sector()

In [76]:
exchange = morningstar.share_class_reference.exchange_id.latest

In [77]:
exchange

Latest((share_class_reference.exchange_id::object,), window_length=1)

### Methoden für Klassifikatoren

* eq (equals)
* isnull
* startswith

In [79]:
nyse_filter = exchange.eq('NYS')

In [80]:
def make_pipeline():
    
    # zuerst Filter für Masken erstellen
    latest_close = USEquityPricing.close.latest
    small_price = latest_close < 5
    
    # Klassifikator
    nyse_filter = exchange.eq('NYS')
    
    # Maske übergeben
    mean_close_10 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=10,mask=small_price)
    mean_close_30 = SimpleMovingAverage(inputs=[USEquityPricing.close],window_length=30,mask=small_price)
    
    
    percent_difference = (mean_close_10-mean_close_30) / mean_close_30
    
    perc_diff_check = percent_difference > 0 
    
    
    final_filter = perc_diff_check & nyse_filter
    
    return Pipeline(columns={
                            'Percent Difference':percent_difference,
                            '30 Day Mean Close':mean_close_30,
                            'Latest Close':latest_close,
                            'Positive Percent Diff': perc_diff_check},
                    screen=final_filter)

In [81]:
results = run_pipeline(make_pipeline(),'2017-01-01','2017-01-01')
results.head()

Unnamed: 0,Unnamed: 1,30 Day Mean Close,Latest Close,Percent Difference,Positive Percent Diff
2017-01-03 00:00:00+00:00,Equity(2586 [EQS]),1.960533,2.02,0.02212,True
2017-01-03 00:00:00+00:00,Equity(3265 [GLF]),1.576367,1.725,0.16242,True
2017-01-03 00:00:00+00:00,Equity(3645 [HOV]),2.406667,2.735,0.176939,True
2017-01-03 00:00:00+00:00,Equity(4577 [LUB]),4.292333,4.27,0.004116,True
2017-01-03 00:00:00+00:00,Equity(4971 [RT]),3.244,3.24,0.009094,True


In [82]:
len(results)

67

# Pipelines in der Quantopian IDE

In [None]:
from quantopian.pipeline import Pipeline
from quantopian.algorithm import attach_pipeline, pipeline_output

def initialize(context):
    my_pipe = make_pipeline()
    attach_pipeline(my_pipe, 'my_pipeline')

def make_pipeline():
    return Pipeline()

def before_trading_start(context, data):
    # Unser Pipeline-output (Datenframe) in context speichern.
    context.output = pipeline_output('my_pipeline')