# Natural Language Processing of Reviews

In this notebook we will display some basic NLP characteristics of the App Store reviews (todo: Google Play reviews)

## Load the data from CSV

In [15]:
import pandas as pd
import json

# need to strip out lists from some columns so we can parse it to a DataFrame
with open('data/appStoreReviews.json') as json_file:
    data = json.load(json_file)
    reviews = []
    for r in data:
        for r2 in r:
            # while we're at it, also remove other unnecessary fields
            del r2['updated_parsed'], r2['link'], r2['guidislink'], r2['title_detail'], r2['content'], r2['im_contenttype'], r2['authors'], r2['author_detail'], r2['href'], r2['links']
            reviews.append(r2)

df = pd.DataFrame(reviews)
#convert field 'updated' to datetime 
df['updated'] =  pd.to_datetime(df['updated'])

In [21]:
#This will give us a pretty interactive data table
import qgrid
qgrid_widget = qgrid.show_grid(df, show_toolbar=True)
qgrid_widget

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

## Most common words

In [17]:
import nltk
from collections import Counter

In [18]:
stemmer = nltk.stem.PorterStemmer()
t = df['summary'].str.cat(sep=' ')
tokens = nltk.word_tokenize(t)
stopwords = nltk.corpus.stopwords.words('german')
stemmed_tokens = [stemmer.stem(t) for t in tokens if t not in stopwords and len(t) > 2]
Counter(stemmed_tokens).most_common(100)

[('app', 433),
 ('daten', 298),
 ('tage', 253),
 ('ich', 151),
 ('funktioniert', 103),
 ('die', 102),
 ('...', 100),
 ('gespendeten', 99),
 ('updat', 98),
 ('gespendet', 82),
 ('rki', 80),
 ('seit', 78),
 ('leider', 77),
 ('gern', 72),
 ('angezeigt', 70),
 ('ide', 69),
 ('tagen', 68),
 ('immer', 64),
 ('anzeig', 64),
 ('health', 63),
 ('appl', 60),
 ('steht', 57),
 ('mal', 52),
 ('null', 52),
 ('anzahl', 51),
 ('da', 50),
 ('helfen', 48),
 ('wurd', 48),
 ('hoff', 46),
 ('schon', 43),
 ('nach', 43),
 ('mehr', 43),
 ('zähler', 42),
 ('schade', 42),
 ('gute', 42),
 ('installiert', 39),
 ('geht', 38),
 ('gibt', 38),
 ('datenspend', 37),
 ('wäre', 34),
 ('bleibt', 34),
 ('tag', 33),
 ('find', 33),
 ('übertragen', 33),
 ('erst', 32),
 ('wenn', 32),
 ('heut', 32),
 ('wurden', 32),
 ('zeigt', 31),
 ('iphon', 31),
 ('viel', 29),
 ('watch', 29),
 ('habe', 27),
 ('problem', 27),
 ('einfach', 27),
 ('gut', 27),
 ('der', 26),
 ('stehen', 26),
 ('dank', 26),
 ('überhaupt', 26),
 ('datenschutz', 25),

## Most common bigrams (2 words occuring together)

In [19]:
bigrams = nltk.ngrams(stemmed_tokens, 2)
Counter(bigrams).most_common(50)

[(('gespendeten', 'tage'), 85),
 (('gespendet', 'tage'), 39),
 (('die', 'app'), 35),
 (('appl', 'health'), 33),
 (('tage', 'angezeigt'), 29),
 (('anzahl', 'gespendeten'), 27),
 (('gute', 'ide'), 27),
 (('ich', 'app'), 25),
 (('anzeig', 'gespendeten'), 24),
 (('seit', 'tagen'), 19),
 (('appl', 'watch'), 18),
 (('daten', 'gespendet'), 17),
 (('ich', 'hoff'), 17),
 (('tage', 'gespendet'), 16),
 (('health', 'app'), 16),
 (('app', 'funktioniert'), 14),
 (('ich', 'find'), 14),
 (('daten', 'gesendet'), 14),
 (('letzten', 'updat'), 13),
 (('daten', 'übertragen'), 12),
 (('hoff', 'daten'), 11),
 (('app', 'seit'), 11),
 (('die', 'anzeig'), 11),
 (('app', 'deinstalliert'), 11),
 (('funktioniert', 'app'), 11),
 (('scheint', 'funktionieren'), 10),
 (('...', 'ich'), 10),
 (('ich', 'gern'), 10),
 (('app', 'installiert'), 9),
 (('habe', 'app'), 9),
 (('daten', 'helfen'), 9),
 (('daten', 'übermittelt'), 9),
 (('die', 'anzahl'), 9),
 (('app', 'gelöscht'), 9),
 (('find', 'ide'), 9),
 (('updat', 'funktion

## Most common trigrams (3 words occuring together)

In [8]:
trigrams = nltk.ngrams(stemmed_tokens, 3)
Counter(trigrams).most_common(50)

[(('anzeig', 'gespendeten', 'tage'), 23),
 (('anzahl', 'gespendeten', 'tage'), 20),
 (('gespendeten', 'tage', 'angezeigt'), 16),
 (('anzeig', 'gespendet', 'tage'), 8),
 (('anzahl', 'gespendet', 'tage'), 8),
 (('tage', 'daten', 'gespendet'), 7),
 (('ich', 'find', 'ide'), 7),
 (('ich', 'hoff', 'daten'), 7),
 (('gespendeten', 'tage', 'immer'), 7),
 (('daten', 'gesendet', 'wurden'), 6),
 (('seit', 'letzten', 'updat'), 6),
 (('hoff', 'daten', 'helfen'), 6),
 (('funktioniert', 'anzeig', 'gespendeten'), 6),
 (('immer', 'gespendet', 'tage'), 6),
 (('appl', 'health', 'app'), 5),
 (('tage', 'korrekt', 'angezeigt'), 5),
 (('anzahl', 'ihrer', 'gespendeten'), 5),
 (('ihrer', 'gespendeten', 'tage'), 5),
 (('die', 'anzahl', 'gespendeten'), 5),
 (('ich', 'app', 'seit'), 5),
 (('seit', 'paar', 'tagen'), 4),
 (('seit', 'tagen', 'installiert'), 4),
 (('die', 'app', 'einfach'), 4),
 (('die', 'app', 'funktioniert'), 4),
 (('ich', 'gern', 'bereit'), 4),
 (('steht', 'seit', 'tagen'), 4),
 (('daten', 'gespend