# Feature Engineering : News embedding

L'objectif de cette partie est de convertir la masse de textes (News) d'une journée précise en un chiffre unique. Ce chiffre représente l'humeur globale du marché pour ce jour-là. C'est ce signal que vous allez ensuite comparer aux mouvements du S&P 500.
- **Filtrage par lexique** : Pour chaque article de presse, on ne conserve que les mots qui figurent dans le lexique spécifique au domaine généré à l'étape précédente.
- **Utilisation des Embeddings** : Chaque mot restant est remplacé par son vecteur Word2Vec (de dimension 300).
- **Représentation du Document** : Le vecteur final de l'article est la moyenne des vecteurs Word2Vec des mots filtrés.

In [5]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import os
import sys
from gensim.models import KeyedVectors

sys.path.append(os.path.abspath(os.path.join('..')))
from src.feature_engineering import run_feature_engineering_pipeline

#### Loading GloVe pre-trained embeddings

In [6]:
# Loading the Dolma 2024 KeyedVectors
print("Loading Dolma 2024 Vectors...")
word_vectors = KeyedVectors.load_word2vec_format(
    '../models/dolma_300_2024_1.2M.100_combined.txt', 
    binary=False, 
    no_header=True
)

Loading Dolma 2024 Vectors...


#### News embeddings procedure

In [7]:
# Création d'embeddings pour chaque article de news
news = pd.read_csv('../data/processed/news_2023_clean.csv')
news_features = run_feature_engineering_pipeline(news, '../data/processed/daily_lexicons/', word_vectors)
news_features.to_csv('../data/for_models/news_features.csv', index=False)

Feature Engineering: 100%|██████████| 334/334 [00:01<00:00, 208.42it/s]
