In [6]:
################################################################################
################################################################################
## 

import pandas as pd

################################################################################
################################################################################
##

train_df = pd.read_csv("../input/train.csv")
train_df.to_pickle("../output/train_df.pkl", protocol = 2)

response_df = train_df[['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]
response_df.to_pickle("../output/response_df.pkl", protocol = 2)


In [3]:
################################################################################
################################################################################
##

MAX_WORD_FEATURES = 100

In [4]:
######################################################
######################################################
## 

import re
from string import punctuation
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer

######################################################
######################################################
##

STEMMER = PorterStemmer()
NON_LETTER_RE = re.compile(r'\W+')
WHITESPACE_RE = re.compile(r'\s+')

def preprocess(text):
    text = text.lower()
    text = NON_LETTER_RE.sub(' ', text)
    return WHITESPACE_RE.sub(' ', text)

def stem_tokens(tokens):
    stemmed = []
    for item in tokens:
        stemmed.append(STEMMER.stem(item))
    return stemmed

def text_tokenizer(text):
    text_no_punctuation_or_unicode = preprocess(text)
    tokens = nltk.word_tokenize(text_no_punctuation_or_unicode)
    stems = tokens
    #stems = stem_tokens(tokens)
    return stems

text_vectorizer = TfidfVectorizer(
    tokenizer = text_tokenizer,
    stop_words = set(stopwords.words('english')).union(set(punctuation)),
    ngram_range = (1, 3),
    max_features = MAX_WORD_FEATURES
)

features_processed_crs = text_vectorizer.fit_transform(train_df['comment_text'])


In [5]:
######################################################
######################################################
## 

import numpy as np

np.save("../output/features_processed_array.npy", features_processed_crs.toarray())