# Benzinga-Nachrichten-Verarbeitung

## Setup up

### Cluster spin up

In [None]:
import sys, io, tarfile, os
import re
import pandas as pd
import subprocess
import os

import dask
import dask.dataframe as dd
from dask.distributed import Client
from distributed.diagnostics.plugin import WorkerPlugin
from pyngrok import ngrok, conf

from src.preprocessing.news_parser import get_company_abbreviation, yahoo_get_wrapper, \
                                          infer_author, filter_body

In [None]:
from dask.distributed import Client, LocalCluster
cluster = LocalCluster()
client = Client(cluster)

In [None]:
## Set Up NGROK-Tunnel
conf.get_default().auth_token = "2WntwErWDt9LxQ2Jfp6C8OxDAMK_7iZVdC1utyZET1PE8cuUg"

public_url = ngrok.connect(8787).public_url
print(" * ngrok tunnel \"{}\" -> \"http://127.0.0.1:{}\"".format(public_url, 8787))

%%capture
if 'client' not in globals():
  !python -m pip install jupyter-server-proxy
  client = Client()

### System settings

In [None]:
using_laptop = True
cwd = os.getcwd()

### CUDF für hardware acceleration

In [None]:
# !git clone https://github.com/rapidsai/rapidsai-csp-utils.git
# !python rapidsai-csp-utils/colab/pip-install.py
# import cudf

## Grobes HTML-Parsing
Als erstes müssen wir die HTML-Dokumente zu normalem Text umwandeln, ansonsten sind die Text-Zellen zu groß und führen zu Problemen mit PyArrow/Dask.

In [None]:
input_dir = "data/raw_bzg/"
output_dir = 'data/unraw1_bzg/'

In [None]:
# for year in range(2019, 2020):
#     print(year)
#     df = pd.read_parquet(f"{input_dir}story_df_raw_{year}.parquet")
#     df = dd.from_pandas(df, npartitions=12)
#     df["html_body"] = df["html_body"].apply(body_formatter, meta=pd.Series(dtype="str"))
#     df = df.rename(columns={"html_body":"body"})
#     name_function = lambda x: f"data-{year}-{x}.parquet"
#     df.to_parquet(output_dir, name_function=name_function)

## Neu-Partitionierug
Sodass alle Partitionen etwa die gleiche Größe haben.

In [None]:
input_dir = 'data/unraw1_bzg/'
output_dir = 'data/unraw2_bzg/'

# ddf = dd.read_parquet(input_dir+"*.parquet")
# ddf2 = ddf.repartition(npartitions=50)
# name_function = lambda x: f"data-{x}.parquet"
# ddf2.to_parquet(output_dir, name_function=name_function)

## Author-Inferenz

Ein bisschen die Daten säubern...

In [None]:
input_dir = cwd+'/data/unraw2_bzg/'
output_dir = cwd+'/data/unraw3_bzg/'

In [None]:
ddf = dd.read_parquet(input_dir+"*.parquet")

In [None]:
# Remove rows for which noo stock ticker is recorded
ddf = ddf[ddf.stocks != '']

In [None]:
# Convert `channels`  datatype from string to list
ddf["channels"] = ddf["channels"].apply(eval, meta=pd.Series(dtype='object'))

Untersuche als nächstes die Behauptung, dass **PRNewswire** und **Businesswire** den gesamten Markt für Pressemeldungen in den USA kontrollieren. Wenn dem so ist, und sie nicht noch weitere, unwichtige Meldungen veröffentlichen, dann können wir einfach die Newsartikel nach diesen Autoren filtern und uns viel Arbeit ersparen.

In [None]:
dask.config.set(scheduler="processes")
ddf["inferred_author"] = None
ddf["inferred_author"] = ddf.body.apply(infer_author, meta=pd.Series(dtype="string"))

In [None]:
# value_counts for authors
auhtor_value_counts = pd.concat([ddf.author.value_counts().head(10), ddf.inferred_author.value_counts().head(10)], axis=1)

In [None]:
auhtor_value_counts

In [None]:
auhtor_value_counts.sum().diff()

Ungefähr 650k Nachrichten werden ausgelassen, wenn nur die vier Hauptvertreiber von Pressemeldungen berücksichtigt werden.

In [None]:
ddf = ddf[~ddf.inferred_author.isna()]

In [None]:
ddf["inferred_author"] = ddf["inferred_author"].astype("string")

In [None]:
ddf["channels"] = ddf.channels.apply(lambda x: str(x), meta=pd.Series(dtype="string"))

In [None]:
ddf.inferred_author.value_counts().compute()

In [None]:
ddf.inferred_author.value_counts().sum().compute()

In [None]:
name_function = lambda x: f"data-{x}.parquet"
ddf.to_parquet(output_dir, name_function=name_function)

In [None]:
# Contains 100k rows
earnings_ddf = ddf[ddf.channels.apply(lambda x: "Earnings" in x, meta=pd.Series(dtype=bool))]

In [None]:
# value counts for authors of earnings reports (contrast to value counts of all news articles)
earnings_ddf.inferred_author.value_counts().head(10)

Hier sehen wir, dass es keine einzige Pressemeldung von **Business Wire** gibt, die mit *Earnings* gekennzeichnet sind. Trotzdem gibt es relevante *Earnings* reports von Business Wire. Dies habe ich kurz verifiziert...

## Vorgehen

Benötigt:
---------
- data_shared/corporation_endings.txt \\
- input_dir = data/unraw3_bzg/ \\

Produziert:
-----------
- data_shared/all_ticker_name_mapper.parquet

--------------

Wie viele Nachrichten bleiben, wenn wir auf relevante Ticker filtern? Wir wollen nicht(!) - so ist es momentan - auf die momentane Russell 3k-Zusammensetzung filtern, denn wir wollen auch ungelistete bzw. ehemalige Russell-Aktien beachten.


**1. Full-Name-Discovery:**

Herausfinden des vollen Namens des Unternehmens für jeden Ticker, damit 1. der Text richtig geparst werden kann und 2. damit wir einen Anhaltspunkt für das Ticker-Grouping haben.


**2. Ticker-Filtering:**

Alle Ticker herausfiltern, die wir nicht brauchen. Wenn wir aber ein großes Aktienuniversum (mit inzwischen ungelisteten Aktien) benutzen, werden wir fast alle Nachrichten behalten können. Allerdings lassen sich so Fehlerhafte Nachrichten/Ticker etc. herausfiltern.


**3. Ticker-Grouping:**

Was machen wir, wenn wir mehrerer Aktiengattungen für ein Unternehmen haben? Z.B. Vorzugs- und Stammaktien. Wir können i.A. die Stammaktie nehmen, da diese normalerweise ein höheres Handelsvolumen aufweist. D.h. wir bilden alle Ticker der Benzinga-Nachrichten auf den Ticker der Stammaktie ab.


**4. Firmennamen-Nachrichtenkörper-Verifikation:**

Da Ticker wiederverwendet werden können bzw. sich verändern können wollen wir sicherstellen, dass der Unternehmensname im Nachrichtenkörper vorkommt! Bzw. generell ist das eine gute Datensäuberungs-Maßnahme.

In [None]:
input_dir = cwd+'/data/unraw3_bzg/'
ddf = dd.read_parquet(input_dir)

In [None]:
all_tickers = ddf.stocks.unique().compute()

### Full-Name-Discovery

In [None]:
company_names = all_tickers.apply(lambda x: yahoo_get_wrapper(x))

In [None]:
all_mapper = pd.concat([all_tickers, company_names], axis=1)

In [None]:
all_mapper.columns = ["ticker", "company_name"]

In [None]:
all_mapper = all_mapper.dropna() # This drops like half of the tickers.

In [None]:
all_mapper[all_mapper.company_name.apply(lambda x: "Alphabet" in x)]

In [None]:
print(len(all_mapper))
print(len(all_mapper.company_name.unique()))

In [None]:
vcs = all_mapper.company_name.value_counts()
vcs = vcs[vcs >= 2]

In [None]:
# Ticker-Grouping
all_mapper[all_mapper.company_name.isin(vcs.index)].sort_values("company_name")

Es ist nicht leicht zu sagen, welchen von den Tickern wir bevorzugen sollten. Abgleichen mit den Aktientickern des Kursdatensatzes notwendig, um zu sehen, ob überhaupt nur ein Ticker übereinstimmt. Wenn es für beide Ticker eine Kurszeitreihe gibt, dann sollten wir die nehmen, die ein höheres historisches Volumen hat. Dies ist allerdings etwas, was wir später machen und nicht jetzt. Hier wollen wir zunächst nur die Nachrichten verarbeiten, weswegen wir nur die NaN-Unternehmen rausnehmen und den Rest - *ohne Ticker-Filtering* - weiterverarbeiten.

In [None]:
mapper = all_mapper

In [None]:
mapper.columns = ["ticker", "company_names"]
mapper = mapper[mapper.isna().sum(axis=1) == 0]

In [None]:
mapper = mapper.set_index("ticker")

In [None]:
company_endings = pd.read_table("data_shared/corporation_endings.txt").iloc[:, 0]
# Apply get_company_abbreviation twice in order to get rid of Enterprise, Ltd.
# Otherwise , Ltd. remains.
mapper["short_name"] = mapper.company_names.apply(lambda x: get_company_abbreviation(x, company_endings=company_endings))

In [None]:
print(mapper.short_name.isna().sum()) # 2037 stocks for which we don't have an ending to abbreviate
# mapper.loc[:, "short_name"] = mapper.short_name.fillna(mapper.company_names)
mapper = mapper.applymap(lambda x: x.strip(" "))

In [None]:
mapper.to_parquet(cwd + "/data_shared/ticker_name_mapper.parquet")

In [None]:
mapper = pd.read_parquet(cwd + "/data_shared/ticker_name_mapper.parquet")

In [None]:
filt_ddf = ddf[ddf.stocks.isin(mapper.index.to_list())]

In [None]:
ddf.shape[0].compute()

In [None]:
filt_ddf.shape[0].compute()

Es verbleiben circa 1 Mio. Nachrichten, für die wir den Ticker zu einem FIrmennamen auflösen können.

Diese Nachrichten können wir nun wirklich parsen, und danach ordentlich kategorisieren.

In [None]:
ddf = filt_ddf
ddf = ddf.drop(columns=["author"]).rename(columns={"inferred_author":"author"})

In [None]:
# TODO: Kann effizienter werden mit GroupBy-Operation
ddf["company_name"] = ddf.stocks.apply(lambda x: mapper.company_names.loc[x], meta=pd.Series(dtype="string"))
ddf["short_name"] = ddf.stocks.apply(lambda x: mapper.short_name.loc[x], meta=pd.Series(dtype="string"))

In [None]:
name_function = lambda x: f"data-{x}.parquet"
ddf.to_parquet(cwd+'/data/latest/', name_function=name_function)

### Firmennamen-Nachrichtenkörper-Verifikation

In [None]:
ddf = dd.read_parquet(cwd+'/data/latest/')

In [None]:
# ddf["time"] = ddf["time"].astype(str)

In [None]:
def f(df):
    df["time"] = df["time"].astype(str)
    return df
# futures = client.submit(f, ddf)
# ddf = ddf.map_partitions(f)

In [None]:
# results = client.gather(futures)

In [None]:
mask = ddf.apply(lambda x: bool(re.search(x["short_name"], x["body"].replace("( )*\n( )*", " "), re.IGNORECASE)) or \
                 bool(re.search(x["short_name"], x.title, re.IGNORECASE)),
                 axis=1,
                 meta=pd.Series(dtype=bool))

In [None]:
# Around 11k stocks before `filtering`
# len(ddf.stocks.unique())

# Around 10k stocks after `filtering`
# len(ddf[mask].stocks.unique())

In [None]:
ddf[mask].shape[0].compute()

In [None]:
# Case 1: Firmenname wird in abgekürzter Version benutzt, die wir nicht methodisch rekonstruieren können
#   Z.B.: IBM -> International Business Machines,
#   oder UPS -> United Parcel Service
#   oder GE -> General Electric
# Case 2: Ticker wurde recycled und zeigt inzwischen auf eine andere Firma.
# Will hierzu nicht auch noch Daten kaufen, deswegen werden hier leider einige Nachrichten verworfen werden.

ddf[~mask].shape[0].compute() # ~120k Nachrichten mit `FALSCHEM` Firmennamen -> Textinhalt ableichen mit Firmennamen des Kursdaten-Datensatzes.

In [None]:
# ddf[~mask].stocks.value_counts().compute().head(15)

In [None]:
# Filter for high conviction entries
ddf = ddf[mask]

In [None]:
ddf = ddf.repartition(npartitions=30)

In [None]:
ddf.head()

### Duplikate Entfernen

In [None]:
res = ddf.map_partitions(lambda x: x.drop_duplicates())

In [None]:
# res.shape[0].compute()

In [None]:
ddf = res

In [None]:
ddf.head()

In [None]:
name_function = lambda x: f"data-{x}.parquet"
ddf.to_parquet(cwd+'/data/latest2/', name_function=name_function)

#### Convert ddf to pd.DataFrame

In [None]:
#ddf = ddf.compute()
ddf = ddf.sort_values("time")

### Timedeltas zwischen Nachrichtenmeldungen



Wir sehen, dass einige Nachrichten dupliziert vorkommen, d.h. mit einem Timedelta von 0 und mit derselben Überschrift etc. diese gilt es zu eliminieren.

In [None]:
tmp = ddf[["time", "stocks"]]

In [None]:
#### Adding timedeltas to the data frame
news_timedeltas = tmp.groupby("stocks").transform(lambda x: x.diff())

In [None]:
# ~3 minutes evaluates to true
# (news_timedeltas.index == ddf.index).all()

In [None]:
ddf.loc[:, "timedelta"] = news_timedeltas.time.fillna(pd.Timedelta(days=100))

In [None]:
news_timedeltas = ddf.timedelta

In [None]:
news_timedeltas.iloc[0].components

In [None]:
same_day_timedeltas = news_timedeltas.apply(lambda x: x.components.days == 0)

In [None]:
(same_day_timedeltas == 0).sum()

In [None]:
same_hour_timedeltas = news_timedeltas.apply(lambda x: (x.components.days == 0) & \
                                               (x.components.hours == 0))

In [None]:
print(same_hour_timedeltas.sum())

In [None]:
same_minute_timedeltas = news_timedeltas.apply(lambda x: (x.components.days == 0) & \
                                               (x.components.hours == 0) & \
                                               (x.components.minutes == 0))

In [None]:
print(same_minute_timedeltas.sum())

In [None]:
same_day_ddf = ddf.loc[same_day_timedeltas]

In [None]:
ddf.stocks.value_counts().describe()

Bis zu 5k Nachrichten pro Firma, z.B. AT&T, was in 13 Jahren ca. einer Nachricht pro Tag entspricht. Wir wollen nicht das eine Firma mit vielen Junk-Nachrichten das Modell dominiert.

Kategorisieren von Nachrichten (mit Text2Topic, wie Salbrechter?) und eliminieren von Business/Strategic etc.
Im Falle von Text2Topic, versuche Estimates des Unternehmens von Dritten zu unterscheiden.

Wichtig!!! Unterscheide zwischen LERN-Phase und PRODUKTIONS-Phase.
Wir können z.B. CLS-Token in der Produktions-Phase vergleichen, in der Lern-Phase aber noch nicht.

Text2Vec -> Business category evtl. entfernen-> Intrastock variance average

## Nachrichten-Parsing


In [None]:
ddf = dd.read_parquet("gcs://extreme-lore-398917-bzg/latest2/")

In [None]:
ticker_name_mapper_reduced = ddf[["stocks", "company_name", "short_name"]].drop_duplicates(keep="first").compute()

In [None]:
ticker_name_mapper_reduced.to_parquet("data_shared/ticker_name_mapper_reduced.parquet")

### Beispiel/ Untersuchung

In [None]:
sample_partition = ddf.get_partition(20)
y = sample_partition.head(5)
y.loc[:, "time"] = pd.to_datetime(y.time).dt.tz_convert("UTC")
x = y.iloc[2]
x.body

In [None]:
res = client.submit(filter_body, row=x, logging=False)

In [None]:
res.result()

### Anwenden der filter_body-Funktion auf alle Reihen:

In [None]:
def handle_timezone(x):
    try:
        return x.tz_convert("US/Eastern")
    except Exception as e:
        return x.tz_localize("US/Eastern")

In [None]:
# Still need to parse time correctly...
ddf["time"] = ddf["time"].map(lambda x: handle_timezone(pd.to_datetime(x)), meta=pd.Series(dtype="datetime64[ns, US/Eastern]"))

In [None]:
par = ddf  

In [None]:
par["parsed_body"] = par.map_partitions(lambda y: y.apply(lambda x: filter_body(x),
                                                axis=1),
                                                meta=pd.Series(dtype="string"))

In [None]:
par = client.persist(par) 

In [None]:
# Do this only after having persisted, because this blocks the console making us unable to interact witth client/cluster
# and can interfere with communication between client and scheduler.

# VMManager needs to be redone... do os.system(kubectl delete dsk example), its a cleaner shutdown and also deletes nodes
# with VMManager(cluster) as _:
par.to_parquet("gcs://extreme-lore-398917-bzg/processed_news",
        storage_options={'token': token})

In [None]:
client # no connection, can we connect via ip??

In [None]:
cluster # connection still here?

## Filtern von Newstiteln

## Voranstellen von gefilterten Newstiteln an Nachrichtenkörper

## Analyse der durschnittlichen Tokenlänge