# Twitter Query Expansion
In this demo file, the project **Twitter Query Expansion** is ...

## Download Models
First, different models for text processing and word embeddings are downloaded. 

For text processing SpaCy is utilized. The word embeddings of Word2Vec and Fasttext are 

In [1]:
SPACY_MODEL = "de_core_news_lg"

In [None]:
import subprocess

# download the respective SpaCy model
subprocess.run(f"python -m spacy download {SPACY_MODEL}", shell=True)

Download FastText model

In [None]:
# Download german model from fasttext website
subprocess.run("wget -P ./data/fasttext https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.de.300.bin.gz", shell=True)

# unzip the fasttext model
subprocess.run(f"gunzip -d ./model/fasttext/cc.de.300.bin.gz", shell=True)

Download Word2Vec model

In [None]:
# Download german model from devmount website
subprocess.run("wget -P ./model/fasttext https://cloud.devmount.de/d2bc5672c523b086/german.model", shell=True)

## Define Queries
The queries on which to evaluate the query expansion are stated.

In [1]:
QUERIES = [
    "Ist die große Koalition gescheitert unter Merkel? #Groko",
    "Lauterbach Deutschland Corona-Maßnahmen #Impfung",
    "@bundestag Bundestagswahl 2021 Ergebnisse",
    "Europäische Union #Brexit Boris Johnson",
    "Gesetzliche Rentenversicherung Reform #Rentenreform #RenteMit67",
    "Klimapolitik Deutschland #Grüne",
    "Asylpolitik Merkel",
    "Deutsch-französische Beziehungen gescheitert",
    "Soll man Soli abschaffen",
    "Bundeswehr Afghanistan Krieg stoppen",
    "Deutschland Energiewende unter SPD und CDU"
]

SPACY_MODEL = "de_core_news_lg"

## Set Pipeline Parameters
Modify the following parameters to use different options for the word embeddings and elastic search query.

`pos_list: ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'CONJ', 'DET', 'EOL', 'IDS', 'INTJ', 'NAMES', 'NOUN', 'NO_TAG', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SPACE', 'SYM', 'VERB', 'X']`

`entity_list: ['LOC', 'MISC', 'ORG', 'PER']`

In [2]:
EMBEDDING_PARAMS = {
    "type": "word2vec",
    "pos_list": ["NOUN","ADJ","VERB"],
    "entity_list": ['LOC', 'ORG', 'PER'],
    "hashtag": True,
    "user": False,
    "num_nearest_terms": 3
}

ELASTIC_PARAMS = {
    "index": "tweets",
    "retweet": False,
    "hashtag_boost": 0.5,
    "tweet_range": ("2021-01-01", "2023-01-01")
}

## Execute Pipeline
Run the Pipeline - the results are stored in the `/out` directory.

In [3]:
# run pipeline
from scripts import pipeline

res = pipeline.run(
    queries=QUERIES, 
    spacy_model=SPACY_MODEL,
    embedding_params=EMBEDDING_PARAMS,
    elastic_params=ELASTIC_PARAMS)

Processing text using SpaCy...
Loading word2vec model...
Connecting to Elastic Search...
Successfully connected to https://localhost:9200
Retrieving Tweets...
Writing results to out/word2vec/10-01-23_14-57-58
Done!


## Inspect Results
Load results and have a look through the retrieved Tweets. 

In [8]:
for tweets, i in zip(res,range(len(QUERIES))):
    print("Query:", QUERIES[i], "\n")
    for tweet in tweets["tweets"]:
        print("->", tweet["_source"]["txt"])

Query: Ist die große Koalition gescheitert unter Merkel? #Groko 

0) #GroKo mit Reserverad und dem „mit Abstand schlechtesten Koalitionsvertrag“ (@LischkaB) - das ist was man bekommt, wenn man @SPD_LSA gewählt hat. Ohne Ideen für die großen Fragen der Zeit. Setzt in den nächsten fünf Jahren beim #Klimaschutz nicht auf #SachsenAnhalt https://t.co/hvhVwdlsK1
0) #Laschet hält im Bundestag eine Rede darüber, wie großartig die Große Koalition ist. #Groko Mehr muss man eigentlich nicht hören. #btw21
0) "Bei der #Digitalisierung steht Deutschland unter den 22 größten Industrienationen auf dem drittletzten Platz!" @ABaerbock benennt das Resultat von 12 Jahren #GroKo. Respekt bedeutet auch digitale Daseinsvorsorge. #bereitweilihresseid #btw21
0) @calvinamfreitag Scholz hat eine Groko nie final ausgeschlossen. Darum geht es auch nicht. Ausgeschlossen habt ihr die #Groko schon beim letzten Mal und was ist daraus geworden...? Aus Berlin hört man, dass viele aus der Bundestagsfraktion im Zweifel au