In [1]:
import pandas as pd
import texthero as hero
import sys
from datetime import datetime

In [2]:
def preprocess_text(s):
    s = hero.fillna(s)
    s = hero.lowercase(s)
    s = hero.remove_digits(s)
    s = hero.remove_punctuation(s)
    s = hero.remove_diacritics(s)
    s = hero.remove_whitespace(s)
    return s

STOPWORDS = ["e", "te", "i", "me", "qe", "ne", "nje", "a", "per", "sh", "nga", "ka", "u", "eshte", "dhe", "shih", "nuk",
             "m", "dicka", "ose", "si", "shume", "etj", "se", "pa", "sipas", "s", "t", "dikujt", "dike", "mire", "vet",
             "bej", "ai", "vend", "prej", "ja", "duke", "tjeter", "kur", "ia", "ku", "ta", "keq", "dy", "ben", "bere",
             "behet", "dickaje", "edhe", "madhe", "la", "sa", "gjate", "zakonisht", "pas", "veta", "mbi", "disa", "iu",
             "mos", "c", "para", "dikush", "gje", "be", "pak", "tek", "fare", "beri", "po", "bie", "k", "do", "gjithe",
             "vete", "mund", "kam", "le", "jo", "beje", "tij", "kane", "ishte", "jane", "vjen", "ate", "kete", "neper",
             "cdo", "na", "marre", "merr", "mori", "rri", "deri", "b", "kishte", "mban", "perpara", "tyre", "marr",
             "gjitha", "as", "vetem", "nen", "here", "tjera", "tjeret", "drejt", "qenet", "ndonje", "nese", "jap",
             "merret", "rreth", "lloj", "dot", "saj", "nder", "ndersa", "cila", "veten", "ma", "ndaj", "mes", "ajo",
             "cilen", "por", "ndermjet", "prapa", "mi", "tere", "jam", "ashtu", "kesaj", "tille", "behem", "cilat",
             "kjo", "menjehere", "ca", "je", "aq", "aty", "prane", "ato", "pasur", "qene", "cilin", "teper", "njera",
             "tej", "krejt", "kush", "bejne", "ti", "bene", "midis", "cili", "ende", "keto", "kemi", "sic", "kryer",
             "cilit", "atij", "gjithnje", "andej", "siper", "sikur", "ketej", "ciles", "ky", "papritur", "ua",
             "kryesisht", "gjithcka", "pasi", "kryhet", "mjaft", "ketij", "perbashket", "ata", "atje", "vazhdimisht",
             "kurre", "tone", "keshtu", "une", "sapo", "rralle", "vetes", "ishin", "afert", "tjetren", "ketu", "cfare",
             "to", "anes", "jemi", "asaj", "secila", "kundrejt", "ketyre", "pse", "tilla", "mua", "nepermjet", "cilet",
             "ndryshe", "kishin", "ju", "tani", "atyre", "dic", "yne", "kudo", "sone", "sepse", "cilave", "kem", "ty",
             "t'i", "nbsp", "tha", "re", "the"]

In [12]:
# load data
df = pd.read_csv(
    '../data/processed/Kosovo-News-Articles.csv',
    dtype={"content":str, "title":str, "category":str, "author":str, 'source':str},
    parse_dates=['date']
)

In [13]:
# Get posts from only one source
df = df.loc[df["source"]=="Telegrafi"]

In [14]:
df['content'] = preprocess_text(df['content'])

In [15]:
# Remove stopwords
df['content_without_stopwords'] = df['content'].apply(
    lambda x: ' '.join([word for word in x.split() if word not in (STOPWORDS)])
)

In [16]:
# Fill missing values
df['category'] = df['category'].fillna('NoCategory')

In [None]:
# subselect only first 10000 rows because of memory issues
df = df.sample(10000) 

# texthero pipeline and plot
df['pca'] = (
   df['content_without_stopwords']
   .pipe(hero.tfidf)
   .pipe(hero.pca)
)
hero.scatterplot(df, 'pca', color='category', title="Telegrafi")