# Feature Engineering : News embedding

L'objectif de cette partie est de convertir la masse de textes (News) d'une journée précise en un chiffre unique. Ce chiffre représente l'humeur globale du marché pour ce jour-là. C'est ce signal que vous allez ensuite comparer aux mouvements du S&P 500.
- Scoring des articles/tweets : Pour chaque document (article ou tweet) publié le jour $d$, on regarde quels mots du lexique (généré à l'étape précédente) sont présents. On fait la moyenne des scores $f(j)$ de ces mots pour obtenir le score de l'article.
- Agrégation quotidienne : On calcule ensuite la moyenne de tous les scores d'articles/tweets pour obtenir la valeur $S_d$ (Sentiment du jour $d$).
- Création de la Time Series : À la fin, vous n'avez plus du texte, mais une colonne de chiffres alignée sur des dates.

In [26]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import os
import sys
from gensim.models import KeyedVectors

sys.path.append(os.path.abspath(os.path.join('..')))
from src.feature_engineering import run_feature_engineering_pipeline

#### Loading GloVe pre-trained embeddings

In [19]:
# Loading the Dolma 2024 KeyedVectors
print("Loading Dolma 2024 Vectors...")
word_vectors = KeyedVectors.load_word2vec_format(
    '../models/dolma_300_2024_1.2M.100_combined.txt', 
    binary=False, 
    no_header=True
)

Loading Dolma 2024 Vectors...


#### News embeddings procedure

In [27]:
# Création d'embeddings pour chaque article de news
news = pd.read_csv('../data/processed/news_2023_clean.csv')
news_features = run_feature_engineering_pipeline(news, '../data/processed/daily_lexicons/', word_vectors)
news_features.to_csv('../data/for_models/news_features.csv', index=False)

TypeError: run_feature_engineering_pipeline() takes 2 positional arguments but 3 were given