# Preprocess

In [None]:
!pip install sentence-transformers umap nltk emoji==0.6.0

In [24]:
import numpy as np
import pandas as pd
import torch
import pickle
from tqdm import tqdm
from sklearn.linear_model import LogisticRegression
from Preprocess import discrete_hour, normalize_tweet, encode_bertweet, encode_user_description, encode_user_covariates

tqdm.pandas()
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [35]:
domains = ['music', 'politics', 'health', 'technology']
for domain in domains:
    print(f'Preprocessing {domain} data . . .')
    df = pd.read_pickle(f'pickles/{domain}_tweets_filtered.pkl')
    df['normalized_text'] = df['text'].apply(normalize_tweet)
    X_text = df['normalized_text'].progress_apply(encode_bertweet)
    X_user_description = df['user_description'].progress_apply(encode_user_description)
    X_user_covariates = df.progress_apply(lambda x: encode_user_covariates(x), axis=1)
    Y = df['scaled_favorite_count']
    T = df['hour'].apply(discrete_hour)
    
    X_text = np.vstack(X_text)
    X_user_description = np.vstack(X_user_description)
    X_user_covariates = np.vstack(X_user_covariates)
    
    with open(f'pickles/encodings/{domain}/X_text.pkl', 'wb') as f: pickle.dump(X_text, f)
    with open(f'pickles/encodings/{domain}/X_user_description.pkl', 'wb') as f: pickle.dump(X_user_description, f)
    with open(f'pickles/encodings/{domain}/X_user_covariates.pkl', 'wb') as f: pickle.dump(X_user_covariates, f)
    with open(f'pickles/encodings/{domain}/T.pkl', 'wb') as f: pickle.dump(T, f)
    with open(f'pickles/encodings/{domain}/Y.pkl', 'wb') as f: pickle.dump(Y, f)

Preprocessing music data . . .


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9035/9035 [32:29<00:00,  4.64it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 9035/9035 [47:59<00:00,  3.14it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 9035/9035 [00:04<00:00, 2241.88it/s]


Preprocessing politics data . . .


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 1483/1483 [05:12<00:00,  4.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 1483/1483 [05:41<00:00,  4.34it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 1483/1483 [00:00<00:00, 1973.97it/s]


Preprocessing health data . . .


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4157/4157 [14:01<00:00,  4.94it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4157/4157 [15:02<00:00,  4.60it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 4157/4157 [00:01<00:00, 2226.54it/s]


Preprocessing technology data . . .


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4741/4741 [15:16<00:00,  5.18it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 4741/4741 [16:45<00:00,  4.72it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 4741/4741 [00:02<00:00, 2223.25it/s]


In [36]:
with open(f'pickles/encodings/music/X_text.pkl', 'rb') as f:
    X = pickle.load(f)
X.shape

(9035, 1024)