### Creación de dataset con tantas columnas como componentes de los vectores

Como se usará para *baseline* un modelo KNN, hay que transformar el dataset para que cada una de las coordenadas de los vectores sea tratada como una característica individual. Es decir, habrá que crear un dataset nuevo con tantas columnas como campos tengan los vectores de cada columna. Se seguirá el siguiente esquema de renombramiento:

- `semantic_sbert` ----> `semantic_sbert_1`, `semantic_sbert_2`, ..., `semantic_sbert_768`
- `semantic_use` ----> `semantic_use_1`, `semantic_use2`, ..., `semantic_use_512`
- `sentiment` ----> `admiration`, `amusement`, ..., `surprise`

In [None]:
import os
import pandas as pd

# Ruta de datasets en bruto
raw_path = os.path.join(os.getcwd(), "../..", "datasets", "raw")

# Lectura del dataset de libros en bruto (coincidirá con el procesado después de limpiarlo)
books_df = pd.DataFrame(pd.read_pickle(raw_path + "/books_raw.pkl"))
print("# de libros:", books_df.shape[0])

In [None]:
# Create a new column for each element of the arrays in column semantic_sbert
long_df = pd.DataFrame(books_df['book_id'].tolist(), columns=['book_id'])
long_df = pd.concat([long_df, pd.DataFrame(books_df['semantic_sbert'].tolist(), columns=['semantic_sbert_' + str(i) for i in range(1, 769)])], axis=1)
long_df = pd.concat([long_df, pd.DataFrame(books_df['semantic_use'].tolist(), columns=['semantic_use_' + str(i) for i in range(1, 513)])], axis=1)
long_df

In [None]:
emotions = ['disappointment', 'sadness', 'annoyance', 'neutral', 'disapproval', 'realization', 'nervousness', 'approval', 'joy', 'anger', 'embarrassment', 'caring', 'remorse', 'disgust', 'grief', 'confusion', 'relief', 'desire', 'admiration', 'optimism', 'fear', 'love', 'excitement', 'curiosity', 'amusement', 'surprise', 'gratitude', 'pride']
emotions.sort()
print(emotions)

In [None]:
long_df = pd.concat([long_df, pd.DataFrame(books_df['sentiment'].tolist(), columns=emotions)], axis=1)
long_df

In [None]:
long_df.to_csv(raw_path + "/books_knn.csv", index=False)