# Sentiment analysis with Random forest 
<p> Part 2 / 4 create word vectors and vocabulary </p>

In [1]:
# Import the pandas package, then use the "read_csv" function to read the labeled training data
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import json
import codecs
from sklearn.externals import joblib
from collections import Counter

### Hyperparams

In [2]:
serialize_train_datafile = "/mnt/basket/processingData/volatile/telco_train_dataset.json"

serialize_word2vec_features = "/mnt/basket/processingData/volatile/telco_data_features.npy"
serialize_word2vec_vocabulary = "/mnt/basket/processingData/volatile/telco_data_vocab.json"
serialize_word2vec_vectorizer = "/mnt/basket/processingData/volatile/telco_data_vectorizer.joblib"

### Load cleaned data

In [3]:
with codecs.open(serialize_train_datafile, 'r', encoding='utf-8') as f:
	clean_train_reviews = json.load(f)

In [4]:
# extract the second column which contains the reviews
list_of_reviews = [row[2] for row in clean_train_reviews]
print "Example review: [" , list_of_reviews[1] , "]"
print "Training dataset lenght: " , len(list_of_reviews)

Example review: [ anschlusswechsel dauert schon ueber drei monate immer vollzogen erste verzoegerung mehrfache falsche bearbeitung wechselauftrags zweite verzoegerung vertrag falsch aufgesetzt wurde check rabatte wurden beruecksichtigt wurde entertain s statt gebuchten m bestaetigt gleichen preis umstaendliche hotline langen wartezeiten wenigen hilfreichen groesstenteils inkompetenten mitarbeitern teilweise respektlos wahrscheinlich eigener hilflosigkeit luegen gegenueber kunden auftreten kunde wechselprozess staendiges nachfragen vorantreiben fehler telekom teilweise identifizieren korrektur anstossen telekom versprochenes feedback wirklich erhalten telekom fertig bevor vertrag begonnen mangels geeigneter alternativen fuer gewuenschten vertrag wechsel geblieben ]
Training dataset lenght:  3455


### Creating Features from a Bag of Words (Using scikit-learn)
<p> Initialize the "CountVectorizer" object, which is scikit-learn's bag of words tool. </p>

In [5]:
print "Creating the bag of words...\n"

vectorizer = CountVectorizer(analyzer = "word",   \
                             tokenizer = None,    \
                             preprocessor = None, \
                             stop_words = None,   \
                             max_features = 5000)

# fit_transform() does two functions: 
#   - First, it fits the model and learns the vocabulary; 
#   - Second, it transforms our training data into feature vectors. 
# The input to fit_transform should be a list of strings.
train_data_features = vectorizer.fit_transform(list_of_reviews)

Creating the bag of words...



In [6]:
# Numpy arrays are easy to work with, so convert the result to an array
train_data_features = train_data_features.toarray()
print Counter(train_data_features[0])
print Counter(train_data_features[10])
print train_data_features.shape

Counter({0: 4978, 1: 22})
Counter({0: 4996, 1: 4})
(3455, 5000)


### Vocabulary

In [7]:
# Take a look at the words in the vocabulary
vocab = vectorizer.get_feature_names()
print vocab

[u'ab', u'abaendern', u'abarbeitung', u'abbestellung', u'abbrueche', u'abbruechen', u'abbschalten', u'abbuchen', u'abbuchung', u'abdesetzt', u'abend', u'abends', u'abendstunden', u'abfolge', u'abgeben', u'abgebrochenen', u'abgebucht', u'abgefragt', u'abgehandelt', u'abgeht', u'abgelaufen', u'abgelegenen', u'abgelegt', u'abgelehnt', u'abgemacht', u'abgemeldet', u'abgerechnet', u'abgerufen', u'abgesagt', u'abgeschaltet', u'abgeschickt', u'abgeschlossen', u'abgeschlossene', u'abgeschlossenen', u'abgesehen', u'abgesetzt', u'abgesprochen', u'abgestimmt', u'abgewickelt', u'abgewimmelt', u'abgezogen', u'abhaengig', u'abhaengigkeit', u'abhanden', u'abhilfe', u'abholen', u'abietern', u'ablaeufe', u'ablaeuft', u'ablauf', u'ablaufes', u'ablehnung', u'abmachungen', u'abmeldung', u'abo', u'abraten', u'abrechnung', u'abrechnungen', u'abruf', u'abrufen', u'absagen', u'absagt', u'abschalttag', u'abschalttermin', u'abschaltung', u'abschliessen', u'abschluss', u'abschlusstermin', u'absetzen', u'absichli

In [8]:
# Sum up the counts of each vocabulary word
dist = np.sum(train_data_features, axis=0)

# For each, print the vocabulary word and the number of times it appears in the training set
for tag, count in zip(vocab, dist):
    print count, tag

26 ab
1 abaendern
2 abarbeitung
1 abbestellung
2 abbrueche
1 abbruechen
1 abbschalten
1 abbuchen
3 abbuchung
1 abdesetzt
3 abend
4 abends
1 abendstunden
1 abfolge
3 abgeben
1 abgebrochenen
13 abgebucht
1 abgefragt
1 abgehandelt
1 abgeht
10 abgelaufen
1 abgelegenen
1 abgelegt
2 abgelehnt
1 abgemacht
1 abgemeldet
3 abgerechnet
1 abgerufen
2 abgesagt
3 abgeschaltet
1 abgeschickt
5 abgeschlossen
2 abgeschlossene
1 abgeschlossenen
1 abgesehen
1 abgesetzt
3 abgesprochen
1 abgestimmt
2 abgewickelt
1 abgewimmelt
1 abgezogen
1 abhaengig
1 abhaengigkeit
1 abhanden
1 abhilfe
1 abholen
1 abietern
2 ablaeufe
3 ablaeuft
18 ablauf
1 ablaufes
1 ablehnung
1 abmachungen
1 abmeldung
1 abo
1 abraten
6 abrechnung
1 abrechnungen
1 abruf
1 abrufen
1 absagen
1 absagt
1 abschalttag
1 abschalttermin
1 abschaltung
2 abschliessen
3 abschluss
1 abschlusstermin
1 absetzen
1 absichlich
19 absolut
6 absolute
1 absoluten
1 absoluter
1 abspecken
1 abspeisung
9 absprache
5 absprachen
1 absprechen
2 abstand
1 abstimmung


### Serialize data features

In [9]:
np.save(serialize_word2vec_features,train_data_features)

with codecs.open(serialize_word2vec_vocabulary,  'w', encoding='utf-8') as f:
	json.dump(vocab, f,  indent=3)

joblib.dump(vectorizer, serialize_word2vec_vectorizer)


['/mnt/basket/processingData/volatile/telco_data_vectorizer.joblib']