In [3]:
import joblib
import re
import string
from nltk.stem import PorterStemmer
import json
import nltk

In [17]:
# Text preprocessing
def wordopt(text):
    text = text.lower()
    text = re.sub('https?://\S+|www\.\S+', '', text)
    text = re.sub('\[.*?\]', '', text)
    text = re.sub("\\W", " ", text)
    text = re.sub('<.*?>+', '', text)
    text = re.sub('[%s]' % re.escape(string.punctuation), '', text)
    text = re.sub('\n', '', text)
    text = re.sub('\w*\d\w*', '', text)
    return text

ps = PorterStemmer()
with open('static/detector/models/stopwords-tl.json', 'r') as f:
    stopwords = json.load(f)

def preprocess(text):
    text = wordopt(text)
    tokens = nltk.word_tokenize(text)
    stems = [ps.stem(token) for token in tokens]
    filtered = [stem for stem in stems if stem not in stopwords]
    return filtered

In [11]:
news = """Ipina-deport pabalik sa China ang 167 mga Tsino na arestado sa isinagawang pagsalakay ng mga awtoridad sa isang POGO hub sa Bamban, Tarlac noong Marso.

Sa ulat ni Bam Alegre sa Unang Balita nitong Martes, sinabing tinipon magdamag ng Presidential Anti-Organized Crime Commission (PAOCC) sa Pasay ang mahigit 100 na mga dayuhan na dinakip sa Zun Yuan Technology Inc. dahil sa pagkakasangkot umano sa mga ilegal na aktibidad online.

Front ng mga Tsino ang pagiging POGO workers na mga scammer pala.

Ayon kay Dr. Winston Casio, spokesperson ng PAOCC, nagpakilala ang mga Tsino na mga customer service representative, ngunit lumabas sa imbestigasyon na nagsasagawa sila ng mga investment scam, love scam at cryptocurrency scam.

“Basically sa ilalim ng legal na POGO nagtatago ‘yung mga scamming activities ng Zun Yuan. Kaya lahat po ng mga itong ide-deport natin ay scammers po lahat itong mga ito,” sabi ni Casio.

RELATED STORIES
Paglalayag ng Pinoy civilian vessels sa WPS, tuloy sa kabila ng ulat na may mga Chinese vessel na haharang

Senior citizen na suspek sa umano'y panggagahasa sa bata sa Misamis Occidental, arestado

Kotse nahulog sa tulay sa CamSur; drayber patay, 5 pasahero sugatan

Pasado 4 a.m. pa nang iproseso ang mga dayuhan ng mga taga-PAOCC, saka sila pinapila habang dala-dala ang kanilang mga maleta.

Pinabalik ang mga Tsino sa Shanghai, China para harapin ang mga kasong isasampa sa kanila ng Shanghai Police Station.

Sa Shanghai rin sila sasampahan ng kaso dahil naroon ang mga nagrereklamo para sa mga kasong cybercrime at internet fraud.

Nakarating ang mga dayuhan sa NAIA Terminal 1 pasado 6 a.m. —Jamil Santos/VBL, GMA Integrated News"""

In [18]:
processed = preprocess(news)
text = ' '.join(processed)

vectorizer = joblib.load('static/detector/models/vectorizer_mlp.joblib')
stack_model = joblib.load('static/detector/models/stack_mlp_4_954.joblib')



In [19]:
print(processed)

['ipina', 'deport', 'pabalik', 'china', 'tsino', 'arestado', 'isinagawang', 'pagsalakay', 'awtoridad', 'pogo', 'hub', 'bamban', 'tarlac', 'noong', 'marso', 'ulat', 'bam', 'alegr', 'unang', 'balita', 'nitong', 'mart', 'sinab', 'tinipon', 'magdamag', 'presidenti', 'anti', 'organ', 'crime', 'commiss', 'paocc', 'pasay', 'mahigit', 'dayuhan', 'dinakip', 'zun', 'yuan', 'technolog', 'inc', 'pagkakasangkot', 'umano', 'ileg', 'aktibidad', 'onlin', 'front', 'tsino', 'pagig', 'pogo', 'worker', 'scammer', 'pala', 'ayon', 'kay', 'dr', 'winston', 'casio', 'spokesperson', 'paocc', 'nagpakilala', 'tsino', 'custom', 'servic', 'repres', 'ngunit', 'lumaba', 'imbestigasyon', 'nagsasagawa', 'invest', 'scam', 'love', 'scam', 'cryptocurr', 'scam', 'basic', 'legal', 'pogo', 'nagtatago', 'yung', 'scam', 'activ', 'zun', 'yuan', 'po', 'itong', 'ide', 'deport', 'natin', 'scammer', 'po', 'itong', 'casio', 'relat', 'stori', 'paglalayag', 'pinoy', 'civilian', 'vessel', 'wp', 'tuloy', 'kabila', 'ulat', 'chines', 'ves

In [20]:
print(text)

ipina deport pabalik china tsino arestado isinagawang pagsalakay awtoridad pogo hub bamban tarlac noong marso ulat bam alegr unang balita nitong mart sinab tinipon magdamag presidenti anti organ crime commiss paocc pasay mahigit dayuhan dinakip zun yuan technolog inc pagkakasangkot umano ileg aktibidad onlin front tsino pagig pogo worker scammer pala ayon kay dr winston casio spokesperson paocc nagpakilala tsino custom servic repres ngunit lumaba imbestigasyon nagsasagawa invest scam love scam cryptocurr scam basic legal pogo nagtatago yung scam activ zun yuan po itong ide deport natin scammer po itong casio relat stori paglalayag pinoy civilian vessel wp tuloy kabila ulat chines vessel haharang senior citizen suspek umano y panggagahasa bata misami occident arestado kots nahulog tulay camsur drayber patay pasahero sugatan pasado a m nang iproseso dayuhan taga paocc saka pinapila dala dala maleta pinabalik tsino shanghai china harapin kasong isasampa shanghai polic station shanghai rin

In [21]:
tfidf = vectorizer.transform([text])
prediction = stack_model.predict_proba(tfidf)
print(prediction)


[[0.07828134 0.92171866]]
