In [1]:
import sys
sys.path.append('../..')
import src.data.data_loader as dl
from src.visualization import hlda_graph as hg
from src.models.sampler import HierarchicalLDA

### HLda for german editorial articles

In [2]:
data = dl.get_articles_by_type("german","editorial")
texts = data["article_texts"]

In [3]:
doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [4]:
n_samples = 100      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.01             # smoothing over topic-word distributions
num_levels = 5        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=4730): prozent (1577), produkt (1523), lebensmittel (1065), verbraucher (924), unternehmen (899), 
    topic=1 level=1 (documents=4184): prozent (3321), bio (1441), euro (1439), landwirtschaft (1176), deutschland (1031), 
        topic=2 level=2 (documents=3771): produkt (1495), landwirtschaft (1138), tier (1033), bio (991), ökologisch (924), 
            topic=3 level=3 (documents=3554): eiern (2130), deutschland (1210), pestizid (915), lebensmittel (756), tier (701), 
                topic=4 level=4 (documents=3451): bio (1484), bauer (1453), tier (1377), prozent (1188), hof (1102), 
                topic=14 level=4 (documents=7): glyphosat (62), bier (23), zulassung (13), bfr (10), liter (9), 
                topic=24 level=4 (documents=38): prozent (113), österreich (38), ökologisch (34), stadt (22), beteiligen (17), 
                topic=34 level=4 (documents=23): betroffen (29), unternehmen (26), produkt (25), mi

.......... 20
topic=0 level=0 (documents=4730): produkt (3403), lebensmittel (2609), verbraucher (1753), ware (951), unternehmen (902), 
    topic=1 level=1 (documents=4013): prozent (6628), euro (2315), bio (2177), deutschland (1980), ökologisch (1656), 
        topic=2 level=2 (documents=3472): landwirtschaft (1674), stehen (1099), produkt (1027), leben (947), bio (915), 
            topic=3 level=3 (documents=3211): eiern (2085), tier (1986), huhn (1438), betrieb (1342), deutschland (1317), 
                topic=4 level=4 (documents=3109): bauer (2269), hof (1423), kunde (1410), preisen (1350), fleisch (1282), 
                topic=14 level=4 (documents=6): glyphosat (61), bier (23), zulassung (11), bfr (10), liter (9), 
                topic=24 level=4 (documents=29): prozent (98), österreich (39), ökologisch (39), stadt (22), beteiligen (15), 
                topic=34 level=4 (documents=26): produkt (33), betroffen (30), unternehmen (29), mindesthaltbarkeitsdatum (26), rufen (20

.......... 30
topic=0 level=0 (documents=4730): produkt (3914), lebensmittel (3035), verbraucher (2053), studie (1042), finden (1019), 
    topic=1 level=1 (documents=3915): prozent (6877), euro (2471), bio (2347), deutschland (2206), ökologisch (1749), 
        topic=2 level=2 (documents=3293): landwirtschaft (2226), gemüse (1107), stehen (1102), produkt (954), regional (923), 
            topic=3 level=3 (documents=3030): tier (2982), eiern (1988), huhn (1533), betrieb (1431), deutschland (1316), 
                topic=4 level=4 (documents=2942): bauer (2555), hof (1446), kunde (1343), fleisch (1325), preisen (1313), 
                topic=14 level=4 (documents=6): glyphosat (62), bier (23), pro (11), zulassung (11), bfr (10), 
                topic=24 level=4 (documents=17): prozent (82), ökologisch (40), stadt (22), österreich (22), beteiligen (16), 
                topic=34 level=4 (documents=26): betroffen (30), produkt (28), unternehmen (26), mindesthaltbarkeitsdatum (25), salmo

                topic=243 level=4 (documents=4): grenzwert (7), probe (7), belastung (6), gewusst (6), zusätzlich (5), 
                topic=317 level=4 (documents=2): unternehmen (16), bank (6), ehemalig (4), anthroposophischen (4), bekennen (4), 
                topic=539 level=4 (documents=2): brunner (11), <url> (10), green (7), angebot (6), urlaub (6), 
            topic=240 level=3 (documents=20): dioxin (20), betrieb (16), eiern (11), ministerium (11), gefährlich (9), 
                topic=241 level=4 (documents=2): unternehmen (10), seite (8), rückruf (8), meyer (5), martin_rücker (5), 
                topic=271 level=4 (documents=5): glyphosat (22), pflanzenschutzmittel (7), kommission (5), eu-kommission (4), feld (4), 
                topic=288 level=4 (documents=7): hof (17), eiern (16), stall (13), sprecher (11), betreiben (6), 
                topic=412 level=4 (documents=3): gfk (6), mineralöl (6), profitieren (4), verbrauchen (3), ausgeben (3), 
                topic=5

                topic=94 level=4 (documents=13): wien (16), wienern (14), logo (12), broschüre (8), red (8), 
                topic=103 level=4 (documents=4): stecken (24), aldi_süd (20), günstig (20), mark (19), hersteller (19), 
                topic=137 level=4 (documents=11): eröffnen (23), reformhaus (18), filiale (17), unternehmen (14), quadratmeter (14), 
                topic=150 level=4 (documents=2): standard (33), adeg (14), rewe (9), spar (9), lieferant (7), 
                topic=224 level=4 (documents=5): fleisch (9), brot (7), salzburger (6), kilo (3), klima (3), 
                topic=226 level=4 (documents=4): wien (8), supermarkt (6), kaufen (5), abseits (4), papier (4), 
                topic=255 level=4 (documents=5): foodwatch (13), enthalten (13), geschmacksverstärker (10), produkt (10), natur (6), 
                topic=424 level=4 (documents=3): wasser (12), kosmetik (9), hauen (9), zutat (8), vegane (8), 
                topic=544 level=4 (documents=4): töten (

                topic=128 level=4 (documents=6): biene (49), grüne (26), pestizid (16), forscher (10), insekt (8), 
                topic=165 level=4 (documents=4): gärtnern (7), niederrhein (6), gemüse (6), hektar (6), jens (6), 
                topic=171 level=4 (documents=6): norwegen (12), lachs (8), eu (6), bio-siegel (5), aquakultur (4), 
                topic=187 level=4 (documents=9): eiern (31), fipronil (19), deutsch (11), stall (9), behörde (7), 
                topic=204 level=4 (documents=5): bier (17), brauerei (14), flasche (6), abfüllen (4), weber (4), 
                topic=206 level=4 (documents=4): weinen (8), besucher (6), tropfen (3), suisse (3), fleisch (3), 
                topic=212 level=4 (documents=5): grüne (15), bremen (7), antrag (6), massentierhaltung (6), gemeinde (5), 
                topic=215 level=4 (documents=9): technische (11), agrarminister (9), niedersachsen (8), thüringen (7), jürgen (6), 
                topic=223 level=4 (documents=3): kilo (

        topic=6 level=2 (documents=125): finden (52), tier (35), teilen (35), belasten (33), angeben (29), 
            topic=7 level=3 (documents=45): eiern (61), betrieb (48), verkaufen (29), deutschland (25), unternehmen (19), 
                topic=8 level=4 (documents=12): produkt (16), ware (15), markt (14), verkaufen (14), lidl (13), 
                topic=90 level=4 (documents=6): aigner (9), verbraucher (9), hart (7), gesetz (6), aldi_süd (6), 
                topic=102 level=4 (documents=7): prozent (23), steigen (21), hektar (10), ackerland (7), preisen (6), 
                topic=132 level=4 (documents=13): eiern (63), stallpflicht (16), freilandeier (11), niederlande (10), fipronil (9), 
                topic=219 level=4 (documents=2): koch (10), rostock (6), kochen (6), kurs (5), kosten (4), 
                topic=436 level=4 (documents=5): code (6), adresse (5), produzent (5), nummer (5), eg-öko-verordnung (4), 
            topic=88 level=3 (documents=21): genau (6), bio

                topic=120 level=4 (documents=10): prozent (18), konventionell (14), probe (9), konventionelle (8), antioxidantien (8), 
                topic=310 level=4 (documents=3): honig (6), weingut (5), winzer (5), weinen (4), traube (4), 
                topic=385 level=4 (documents=5): million (8), kürzen (6), kürzung (5), brandenburg (5), staatlich (4), 
            topic=200 level=3 (documents=27): berliner (8), schleswig-holstein (6), luft (5), möglichst (5), anbau (5), 
                topic=201 level=4 (documents=4): enthalten (10), produkt (9), verpackung (7), plastik (6), franke (5), 
                topic=374 level=4 (documents=4): subvention (7), regierung (7), bündnis (6), forscher (5), klimaschutz (5), 
                topic=378 level=4 (documents=4): migros (11), standort (4), buch (3), bedienen (3), quadratmeter (3), 
                topic=434 level=4 (documents=5): linz (11), umsatz (8), standort (6), ’s (6), million (6), 
                topic=518 level=4 (docume

.......... 50
topic=0 level=0 (documents=4730): produkt (3718), lebensmittel (3225), verbraucher (2186), bio (1448), konventionell (1417), 
    topic=1 level=1 (documents=3868): prozent (6851), euro (2382), deutschland (2232), bio (1987), ökologisch (1596), 
        topic=2 level=2 (documents=3216): landwirtschaft (2438), produkt (1272), gemüse (1157), stehen (1099), region (1000), 
            topic=3 level=3 (documents=2933): tier (3080), eiern (1904), huhn (1509), betrieb (1498), deutschland (1282), 
                topic=4 level=4 (documents=2844): bauer (2427), kunde (1385), hof (1310), preisen (1298), landwirt (1128), 
                topic=14 level=4 (documents=5): glyphosat (62), bier (22), zulassung (11), bfr (10), liter (9), 
                topic=24 level=4 (documents=16): prozent (73), ökologisch (38), österreich (24), stadt (22), beteiligen (15), 
                topic=34 level=4 (documents=27): betroffen (31), unternehmen (28), mindesthaltbarkeitsdatum (27), produkt (26),

                topic=46 level=4 (documents=4): besucher (8), ziege (5), erleben (3), gemüse (3), rind (3), 
                topic=322 level=4 (documents=8): fairtrade (32), fair (18), handeln (17), banane (15), kaffee (15), 
                topic=335 level=4 (documents=2): weber (11), christine (6), hofladen (4), sebastian (3), erkrankung (3), 
                topic=698 level=4 (documents=2): aktie (11), gesellschaft (4), schwach (4), hofreiter (4), führend (3), 
            topic=58 level=3 (documents=47): werner (45), rehn (43), deutschland (40), streiten (35), bestätigen (23), 
                topic=59 level=4 (documents=4): region (5), veranstaltung (5), schloss (5), besuchen (4), erzählen (3), 
                topic=143 level=4 (documents=29): alnatura (186), dm (182), klage (31), unternehmen (31), alnatura-produkte (25), 
                topic=191 level=4 (documents=3): salzburger (6), ulrich (4), metzger (3), regionalität (3), käse (3), 
                topic=196 level=4 (docum

.......... 60
topic=0 level=0 (documents=4730): produkt (3759), lebensmittel (2830), verbraucher (1989), konventionell (1466), bio (1178), 
    topic=1 level=1 (documents=3852): prozent (6776), euro (2343), deutschland (2333), bio (2139), österreich (1542), 
        topic=2 level=2 (documents=3196): landwirtschaft (2354), produkt (1360), gemüse (1140), stehen (1073), region (981), 
            topic=3 level=3 (documents=2898): tier (3063), eiern (1885), huhn (1504), betrieb (1499), stall (1260), 
                topic=4 level=4 (documents=2808): bauer (2334), kunde (1415), preisen (1397), hof (1197), verbraucher (1071), 
                topic=14 level=4 (documents=7): glyphosat (73), bier (35), liter (13), pro (13), zulassung (12), 
                topic=24 level=4 (documents=17): prozent (72), ökologisch (40), stadt (30), beteiligen (16), österreich (16), 
                topic=34 level=4 (documents=27): betroffen (32), unternehmen (29), mindesthaltbarkeitsdatum (27), produkt (25), ru

                topic=56 level=4 (documents=5): gurke (51), spanien (24), spanisch (11), erreger (11), hamburger (10), 
                topic=135 level=4 (documents=7): betrieb (29), tier (21), hof (18), klein (15), hektar (12), 
                topic=268 level=4 (documents=4): brot (14), <url> (7), mehl (7), glyphosat (5), öko-test (5), 
                topic=768 level=4 (documents=2): wissenschaftler (6), maschine (6), zielen (4), biologisch (4), schreiten (4), 
            topic=284 level=3 (documents=15): verbraucher (17), dioxin (15), tier (10), teilen (9), fleisch (9), 
                topic=285 level=4 (documents=5): <url> (12), unternehmen (10), rückruf (9), information (9), informieren (8), 
                topic=344 level=4 (documents=6): schwein (8), schweinefleisch (5), futtern (4), wurstwaren (3), passieren (3), 
                topic=877 level=4 (documents=2): vegane (9), kosmetik (8), tierische (6), verzichten (4), inhaltsstoffe (3), 
                topic=883 level=4 (d

.......... 70
topic=0 level=0 (documents=4730): produkt (3493), lebensmittel (3001), verbraucher (2008), konventionell (1548), bio (1373), 
    topic=1 level=1 (documents=3841): prozent (6749), euro (2367), deutschland (2290), bio (2061), österreich (1526), 
        topic=2 level=2 (documents=3204): landwirtschaft (2149), produkt (1331), gemüse (1242), stehen (1182), region (1014), 
            topic=3 level=3 (documents=2878): tier (3059), eiern (1857), huhn (1496), betrieb (1481), stall (1254), 
                topic=4 level=4 (documents=2784): bauer (2308), preisen (1456), kunde (1361), hof (1120), kosten (1030), 
                topic=14 level=4 (documents=6): glyphosat (74), bier (35), liter (13), pro (12), bfr (12), 
                topic=24 level=4 (documents=17): prozent (53), ökologisch (42), stadt (31), österreich (19), beteiligen (16), 
                topic=34 level=4 (documents=28): betroffen (33), mindesthaltbarkeitsdatum (27), produkt (26), unternehmen (24), rufen (21), 

                topic=56 level=4 (documents=5): gurke (51), spanien (24), spanisch (11), erreger (11), hamburger (10), 
                topic=135 level=4 (documents=7): betrieb (31), tier (21), hof (18), klein (14), hektar (12), 
                topic=268 level=4 (documents=5): brot (14), mehl (7), <url> (7), glyphosat (5), öko-test (5), 
                topic=768 level=4 (documents=3): wissenschaftler (6), maschine (6), klein (4), biologisch (4), schreiten (4), 
                topic=1096 level=4 (documents=2): ertrag (7), ertragen (4), biolandwirtschaft (4), brasilien (4), hungern (4), 
            topic=284 level=3 (documents=12): verbraucher (17), tier (8), lebensmittel (8), fleisch (6), gefahr (6), 
                topic=285 level=4 (documents=3): unternehmen (10), <url> (9), rückruf (9), informieren (8), information (7), 
                topic=344 level=4 (documents=4): dioxin (16), schwein (8), schweinefleisch (5), geflügel (4), passieren (3), 
                topic=877 level=4 

.......... 80
topic=0 level=0 (documents=4730): produkt (3567), lebensmittel (3023), verbraucher (1886), konventionell (1468), bio (1253), 
    topic=1 level=1 (documents=3799): prozent (6710), euro (2305), deutschland (2275), bio (1909), österreich (1517), 
        topic=2 level=2 (documents=3159): landwirtschaft (2112), produkt (1291), gemüse (1192), bio (1093), stehen (1025), 
            topic=3 level=3 (documents=2841): tier (3029), eiern (1853), betrieb (1557), huhn (1489), landwirtschaft (1320), 
                topic=4 level=4 (documents=2751): bauer (2285), kunde (1402), preisen (1364), supermarkt (1091), verbraucher (1079), 
                topic=14 level=4 (documents=6): glyphosat (74), bier (35), liter (13), zulassung (12), pro (12), 
                topic=24 level=4 (documents=14): prozent (54), ökologisch (36), stadt (30), österreich (22), beteiligen (16), 
                topic=34 level=4 (documents=29): betroffen (34), produkt (29), mindesthaltbarkeitsdatum (27), untern

                topic=1005 level=4 (documents=3): löwenstein (6), henne (5), bio-eier (5), unterschied (3), dioxin-skandal (3), 
                topic=1234 level=4 (documents=2): mitglied (6), meist (5), wien (4), vereinen (4), lagern (3), 
    topic=25 level=1 (documents=250): prozent (293), liegen (76), neu (68), deutschland (65), land (63), 
        topic=26 level=2 (documents=185): lebensmittel (80), supermarkt (53), landwirtschaft (48), finden (45), handeln (44), 
            topic=27 level=3 (documents=34): euro (69), million (28), standort (24), spar (21), lebensmittelhandel (13), 
                topic=28 level=4 (documents=6): freitag (5), zeitung (5), aigner (4), tonne (3), vorgehen (3), 
                topic=146 level=4 (documents=4): frischen (37), bio (26), milch (22), vollmilch (20), stiftung_warentest (12), 
                topic=177 level=4 (documents=17): prozent (88), rewe (37), umsatz (36), filiale (33), österreich (29), 
                topic=860 level=4 (documents

.......... 90
topic=0 level=0 (documents=4730): produkt (3548), lebensmittel (3061), verbraucher (1985), konventionell (1329), bio (1300), 
    topic=1 level=1 (documents=3809): prozent (6706), deutschland (2275), euro (2267), bio (1983), österreich (1513), 
        topic=2 level=2 (documents=3147): landwirtschaft (2012), produkt (1363), gemüse (1169), stehen (1132), region (1019), 
            topic=3 level=3 (documents=2825): tier (3018), eiern (1853), betrieb (1604), huhn (1489), landwirtschaft (1487), 
                topic=4 level=4 (documents=2734): bauer (2205), preisen (1399), kunde (1353), milch (1014), verbraucher (1011), 
                topic=14 level=4 (documents=6): glyphosat (74), bier (35), liter (13), pro (12), zulassung (12), 
                topic=24 level=4 (documents=15): prozent (54), ökologisch (40), stadt (29), österreich (24), beteiligen (16), 
                topic=34 level=4 (documents=29): betroffen (34), unternehmen (30), mindesthaltbarkeitsdatum (27), prod

                topic=388 level=4 (documents=2): whole_foods (14), platzen (13), kunde (10), dollar (10), läden (7), 
                topic=500 level=4 (documents=7): konventionell (14), bioprodukt (9), löwenstein (7), konventionelle (6), qualität (6), 
                topic=807 level=4 (documents=3): terra (6), slow_food (6), europa (4), generation (4), österreich (4), 
                topic=1035 level=4 (documents=4): kuh (21), horn (14), rind (9), bauer (6), nrw (6), 
                topic=1102 level=4 (documents=3): schreiben (6), kunde (5), kundin (5), fleisch (5), zutat (3), 
            topic=248 level=3 (documents=26): hof (13), wichtig (8), gentechnik (8), deutsch (7), landwirtschaft (7), 
                topic=249 level=4 (documents=11): sonntag (14), gast (9), august (6), familie (6), laden (5), 
                topic=276 level=4 (documents=5): prozent (34), verbraucher (14), befragte (13), marke (6), studie (6), 
                topic=286 level=4 (documents=7): befragte (7)

.......... 100
topic=0 level=0 (documents=4730): produkt (3655), lebensmittel (3156), verbraucher (1922), bio (1504), konventionell (1458), 
    topic=1 level=1 (documents=3787): prozent (6650), euro (2212), deutschland (2207), bio (1848), österreich (1514), 
        topic=2 level=2 (documents=3113): landwirtschaft (2072), gemüse (1225), produkt (1194), stehen (1032), region (996), 
            topic=3 level=3 (documents=2792): tier (2999), eiern (1840), betrieb (1579), huhn (1474), landwirtschaft (1395), 
                topic=4 level=4 (documents=2704): bauer (2328), preisen (1350), kunde (1275), milch (1014), supermarkt (1012), 
                topic=14 level=4 (documents=6): glyphosat (74), bier (35), liter (13), zulassung (12), bfr (12), 
                topic=24 level=4 (documents=14): prozent (53), ökologisch (41), stadt (30), österreich (24), netzwerk (15), 
                topic=34 level=4 (documents=29): betroffen (34), produkt (33), unternehmen (27), mindesthaltbarkeitsdatum

                topic=146 level=4 (documents=4): frischen (36), bio (24), milch (22), vollmilch (20), euro (13), 
                topic=177 level=4 (documents=17): prozent (93), rewe (36), filiale (32), österreich (30), marktanteil (28), 
                topic=860 level=4 (documents=4): trend (12), naturkostläden (11), messen (9), löwenstein (7), beispielsweise (7), 
            topic=108 level=3 (documents=46): belasten (73), betreffen (25), eiern (22), deutschland (22), betrieb (21), 
                topic=109 level=4 (documents=15): gemüse (43), pestizid (40), obst (36), greenpeace (16), frucht (15), 
                topic=198 level=4 (documents=6): kunststoff (40), abbaubar (20), biologisch (18), herstellen (17), rohstoff (11), 
                topic=202 level=4 (documents=16): eiern (106), fipronil (84), niederlande (39), belgien (26), schmidt (23), 
                topic=834 level=4 (documents=2): behörde (7), tier (4), firma (4), offenbaren (4), bayerisch (4), 
                t

In [5]:
dot = hg.graph(hlda)
dot.render("German Editorial with 5levels", view = True)

'German Editorial with 5levels.pdf'

### Hlda for english editorial articles

In [6]:
data = dl.get_articles_by_type("english","editorial")
texts = data["article_texts"]

In [7]:
doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [8]:
n_samples = 100      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.01             # smoothing over topic-word distributions
num_levels = 3        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=2345): use (3090), health (2732), eat (2627), study (2414), pesticide (2394), 
    topic=1 level=1 (documents=2295): product (3141), make (2562), year (2171), company (1953), consumer (1914), 
        topic=2 level=2 (documents=2285): farm (3448), farmer (3427), store (3219), year (2937), $ (2870), 
        topic=8 level=2 (documents=5): sunscreen (246), skin (161), protection (126), ingredient (100), free (89), 
        topic=11 level=2 (documents=3): animal (21), meat (20), central (14), valley (14), company (14), 
        topic=14 level=2 (documents=2): vaccine (46), child (33), moore (24), parent (19), anti (12), 
    topic=3 level=1 (documents=7): dairy (71), amish (47), large (40), farmer (31), cow (23), 
        topic=4 level=2 (documents=7): milk (110), farm (45), usda (38), cow (36), aurora (33), 
    topic=6 level=1 (documents=25): accord (46), high (37), level (36), pesticide (35), company (27), 
        topi

.......... 50
topic=0 level=0 (documents=2345): eat (3530), use (3197), health (2898), good (2653), study (2535), 
    topic=1 level=1 (documents=2258): product (5014), consumer (3173), company (2751), label (2120), use (2074), 
        topic=2 level=2 (documents=2237): farm (5354), farmer (4734), store (4007), year (3559), $ (3542), 
        topic=8 level=2 (documents=5): sunscreen (246), skin (161), protection (126), ingredient (100), free (88), 
        topic=11 level=2 (documents=3): meat (19), central (14), animal (14), valley (14), supplier (12), 
        topic=14 level=2 (documents=2): vaccine (46), child (34), moore (24), parent (20), anti (12), 
        topic=42 level=2 (documents=7): $ (121), bag (76), store (44), grocery (35), price (24), 
        topic=44 level=2 (documents=4): waste (30), village (15), compost (14), barrington (12), resident (11), 
    topic=3 level=1 (documents=11): farmer (57), amish (47), large (41), label (24), small (22), 
        topic=4 level=2 (doc

.......... 80
topic=0 level=0 (documents=2345): eat (3631), use (3223), health (2918), good (2677), make (2585), 
    topic=1 level=1 (documents=2249): product (4993), consumer (3159), company (2703), label (2125), use (2038), 
        topic=2 level=2 (documents=2230): farm (5192), farmer (4640), store (4005), year (3682), $ (3539), 
        topic=8 level=2 (documents=5): sunscreen (246), skin (159), protection (126), ingredient (97), free (89), 
        topic=11 level=2 (documents=2): animal (20), meat (18), valley (14), central (14), supplier (11), 
        topic=14 level=2 (documents=2): vaccine (46), child (33), moore (24), parent (20), anti (12), 
        topic=42 level=2 (documents=6): bag (74), store (42), grocery (29), plastic (23), bring (22), 
        topic=44 level=2 (documents=4): waste (29), compost (15), village (15), barrington (12), resident (11), 
    topic=3 level=1 (documents=18): farmer (57), large (41), use (29), agency (29), consumer (29), 
        topic=4 level=2

In [9]:
dot = hg.graph(hlda)
dot.render("English Editorial Vec", view = True)

'English Editorial Vec.pdf'

### HLda english forum

In [6]:
data = dl.get_forum_threads_by_language("english","forum")
texts = data["thread_texts"]

In [7]:
doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [8]:
n_samples =10      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.1             # smoothing over topic-word distributions
num_levels = 5        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=3274): food (8160), organic (7493), eat (5010), animal (4369), good (4065), 
    topic=1 level=1 (documents=2539): food (5152), eat (4110), organic (3305), just (2921), buy (2840), 
        topic=2 level=2 (documents=1967): gmo (8999), food (4676), monsanto (4164), people (2990), know (2597), 
            topic=3 level=3 (documents=1657): organic (14826), food (5769), use (2826), grow (2657), good (2469), 
                topic=4 level=4 (documents=1436): organic (5848), pesticide (4494), use (4140), food (3148), crop (2760), 
                topic=14 level=4 (documents=8): purple (33), potato (17), blue (10), sweet (9), love (9), 
                topic=24 level=4 (documents=174): food (598), organic (480), buy (406), gmo (319), product (210), 
                topic=34 level=4 (documents=15): protein (86), baby (75), make (57), whey (53), powder (44), 
                topic=53 level=4 (documents=9): salmon (350), costco

In [9]:
dot = hg.graph(hlda)
dot.render("English Forum with 5 levels", view = True)

'English Forum with 5 levels.pdf'

### HLda german forum 

In [10]:
data = dl.get_forum_threads_by_language("german","forum")
texts = data["thread_texts"]

doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [11]:
n_samples = 100      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.01             # smoothing over topic-word distributions
num_levels = 5        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=641): lebensmittel (834), kaufen (501), einfach (468), <url> (462), bio (455), 
    topic=1 level=1 (documents=514): all (529), finden (443), welch (346), essen (279), bio (272), 
        topic=2 level=2 (documents=474): bio (860), eiern (513), lg (376), produkt (362), tier (337), 
            topic=3 level=3 (documents=389): fleisch (971), bio (955), kaufen (820), kaufe (712), essen (666), 
                topic=4 level=4 (documents=370): bio (1506), kaufen (729), lg (629), jed (393), preisen (387), 
                topic=14 level=4 (documents=6): landwirtschaft (13), ökologisch (9), nummer (9), benötigen (8), welch (8), 
                topic=24 level=4 (documents=6): bio (12), unbedenklich (11), essen (9), schlachter (5), re (5), 
                topic=53 level=4 (documents=5): chemie (29), spritzen (6), @gansh (6), düngung (5), körper (5), 
                topic=185 level=4 (documents=2): schwer (3), siehe (2), vorb

.......... 20
topic=0 level=0 (documents=641): lebensmittel (1204), <url> (790), kaufen (756), finden (507), einfach (458), 
    topic=1 level=1 (documents=482): all (694), frage (402), jed (385), finden (373), lassen (357), 
        topic=2 level=2 (documents=445): bio (1187), tier (798), eiern (701), produkt (627), halten (449), 
            topic=3 level=3 (documents=362): fleisch (1303), essen (1066), kaufen (1004), kaufe (903), gemüse (797), 
                topic=4 level=4 (documents=346): bio (2011), lg (815), kaufen (628), preisen (519), schmecken (495), 
                topic=14 level=4 (documents=5): landwirtschaft (10), welch (10), nummer (9), fleisch (9), benötigen (9), 
                topic=24 level=4 (documents=5): unbedenklich (11), essen (11), bioprodukt (7), belasten (6), re (5), 
                topic=53 level=4 (documents=6): chemie (30), @gansh (6), spritzen (5), behandeln (5), chemisch (5), 
            topic=12 level=3 (documents=10): wasser (8), folgend (4), min

.......... 30
topic=0 level=0 (documents=641): lebensmittel (1318), kaufen (803), <url> (761), finden (614), beispiel (437), 
    topic=1 level=1 (documents=457): all (632), finden (437), leben (432), lassen (429), pfeilnachrechts (394), 
        topic=2 level=2 (documents=425): bio (1334), tier (1034), eiern (686), produkt (541), konventionell (502), 
            topic=3 level=3 (documents=356): fleisch (1375), essen (1142), kaufe (1103), kaufen (986), gemüse (953), 
                topic=4 level=4 (documents=332): bio (2132), lg (792), kaufen (602), preisen (533), teuer (461), 
                topic=14 level=4 (documents=7): <url> (11), landwirtschaft (10), nummer (9), ökologisch (9), benötigen (9), 
                topic=24 level=4 (documents=7): unbedenklich (11), essen (10), bioprodukt (7), pestizid (6), belasten (6), 
                topic=53 level=4 (documents=5): chemie (30), chemisch (6), spritzen (6), @gansh (6), bestehen (5), 
                topic=388 level=4 (documents=5):

.......... 40
topic=0 level=0 (documents=641): lebensmittel (1303), kaufen (940), <url> (718), finden (664), leider (514), 
    topic=1 level=1 (documents=459): all (560), finden (464), jed (407), leben (404), problem (383), 
        topic=2 level=2 (documents=417): bio (1451), tier (1021), eiern (729), konventionell (522), produkt (502), 
            topic=3 level=3 (documents=343): fleisch (1333), kaufe (1119), essen (1079), kaufen (1032), gemüse (924), 
                topic=4 level=4 (documents=324): bio (2080), lg (961), preisen (554), schmecken (468), kaufen (457), 
                topic=14 level=4 (documents=6): nummer (12), fläche (11), landwirtschaft (11), benötigen (9), welch (9), 
                topic=24 level=4 (documents=4): unbedenklich (11), bioprodukt (9), kosten (6), belasten (6), re (5), 
                topic=53 level=4 (documents=4): chemie (30), @gansh (6), spritzen (5), düngung (5), körper (5), 
                topic=388 level=4 (documents=3): kaffee (6), studie 

.......... 50
topic=0 level=0 (documents=641): lebensmittel (1356), kaufen (961), finden (791), <url> (666), einfach (545), 
    topic=1 level=1 (documents=472): all (653), jed (486), finden (418), leben (380), pfeilnachrechts (379), 
        topic=2 level=2 (documents=432): bio (1343), tier (964), eiern (727), konventionell (561), bauer (454), 
            topic=3 level=3 (documents=333): fleisch (1337), kaufe (1134), essen (1047), kaufen (982), gemüse (953), 
                topic=4 level=4 (documents=317): bio (2149), lg (901), preisen (539), teuer (477), produkt (475), 
                topic=14 level=4 (documents=5): fläche (12), nummer (11), fleisch (9), benötigen (9), welch (8), 
                topic=24 level=4 (documents=4): unbedenklich (11), bioprodukt (8), pestizid (6), belasten (6), re (5), 
                topic=53 level=4 (documents=5): chemie (30), spritzen (6), @gansh (6), bestehen (5), düngung (5), 
                topic=388 level=4 (documents=2): gülle (19), <url> (9)

.......... 60
topic=0 level=0 (documents=641): lebensmittel (1361), kaufen (791), <url> (721), finden (700), einfach (538), 
    topic=1 level=1 (documents=463): all (795), leben (483), finden (467), jed (466), einfach (381), 
        topic=2 level=2 (documents=409): bio (1516), tier (839), eiern (722), konventionell (531), bauer (432), 
            topic=3 level=3 (documents=324): fleisch (1234), kaufe (1201), kaufen (1131), essen (1025), gemüse (941), 
                topic=4 level=4 (documents=310): bio (1980), lg (974), produkt (526), preisen (525), schmecken (465), 
                topic=14 level=4 (documents=6): fläche (12), nummer (11), welch (11), landwirtschaft (9), benötigen (9), 
                topic=24 level=4 (documents=4): unbedenklich (11), re (5), kosten (5), belasten (5), bioprodukt (4), 
                topic=53 level=4 (documents=4): chemie (30), spritzen (6), @gansh (5), behandeln (5), bestehen (5), 
            topic=12 level=3 (documents=18): <url> (18), deutsch 

.......... 70
topic=0 level=0 (documents=641): lebensmittel (1385), finden (801), kaufen (750), <url> (727), produkt (626), 
    topic=1 level=1 (documents=481): all (738), jed (498), leben (485), einfach (466), essen (434), 
        topic=2 level=2 (documents=414): bio (1494), tier (888), eiern (720), konventionell (580), milch (432), 
            topic=3 level=3 (documents=321): fleisch (1237), kaufe (1200), kaufen (1078), essen (958), gemüse (864), 
                topic=4 level=4 (documents=307): bio (2090), lg (1071), kaufen (509), preisen (496), teuer (460), 
                topic=14 level=4 (documents=3): benötigen (9), fläche (8), nummer (8), fußabdruck (7), welch (7), 
                topic=24 level=4 (documents=3): unbedenklich (11), pestizid (6), belasten (6), re (5), re^3 (4), 
                topic=53 level=4 (documents=6): chemie (30), spritzen (6), @gansh (6), düngung (5), chemisch (5), 
                topic=858 level=4 (documents=2): unkraut (8), ha (8), ernten (8), ka

.......... 80
topic=0 level=0 (documents=641): lebensmittel (1381), kaufen (856), finden (814), <url> (694), produkt (549), 
    topic=1 level=1 (documents=470): all (776), jed (559), einfach (549), leben (506), essen (501), 
        topic=2 level=2 (documents=421): bio (1816), tier (901), eiern (717), konventionell (585), produkt (455), 
            topic=3 level=3 (documents=318): kaufe (1228), fleisch (1227), kaufen (1124), essen (972), gemüse (872), 
                topic=4 level=4 (documents=305): bio (1833), lg (1026), preisen (528), schmecken (475), teuer (474), 
                topic=14 level=4 (documents=3): benötigen (9), landwirtschaft (8), nummer (8), fleisch (8), fläche (8), 
                topic=24 level=4 (documents=4): unbedenklich (10), pestizid (7), re (7), belasten (6), re^3 (4), 
                topic=53 level=4 (documents=5): chemie (30), @gansh (6), spritzen (6), körper (5), düngung (5), 
                topic=990 level=4 (documents=1): rewe (6), vg (5), sauce (4

.......... 90
topic=0 level=0 (documents=641): lebensmittel (1381), finden (797), kaufen (784), <url> (721), einfach (562), 
    topic=1 level=1 (documents=481): all (734), jed (620), leben (508), essen (490), einfach (426), 
        topic=2 level=2 (documents=426): bio (1599), tier (875), eiern (637), konventionell (571), produkt (537), 
            topic=3 level=3 (documents=320): kaufe (1228), fleisch (1215), kaufen (1144), essen (947), gemüse (826), 
                topic=4 level=4 (documents=303): bio (2024), lg (991), preisen (491), teuer (440), schmecken (412), 
                topic=14 level=4 (documents=3): <url> (9), welch (9), benötigen (9), nummer (8), fußabdruck (7), 
                topic=24 level=4 (documents=2): unbedenklich (10), essen (7), pestizid (7), belasten (6), re (5), 
                topic=53 level=4 (documents=5): chemie (30), @gansh (6), düngung (5), körper (5), biolebensmittel (4), 
                topic=1028 level=4 (documents=5): fair (9), mitglied (8), p

.......... 100
topic=0 level=0 (documents=641): lebensmittel (1382), finden (901), kaufen (872), <url> (691), einfach (582), 
    topic=1 level=1 (documents=475): all (641), essen (590), leben (523), frage (432), thema (432), 
        topic=2 level=2 (documents=427): bio (1504), tier (907), eiern (652), konventionell (467), bauer (444), 
            topic=3 level=3 (documents=322): kaufe (1210), fleisch (1197), kaufen (1081), essen (882), gemüse (812), 
                topic=4 level=4 (documents=300): bio (2088), lg (1009), preisen (519), produkt (492), teuer (451), 
                topic=14 level=4 (documents=5): nummer (8), fläche (8), benötigen (7), welch (7), fußabdruck (7), 
                topic=24 level=4 (documents=2): essen (10), unbedenklich (10), belasten (6), pestizid (6), re (5), 
                topic=53 level=4 (documents=7): chemie (29), spritzen (8), @gansh (6), bestehen (6), düngung (5), 
                topic=1028 level=4 (documents=5): mitglied (8), vorgeben (4), ge

In [12]:
dot = hg.graph(hlda)
dot.render("German Forum with 5levels", view = True)

'German Forum with 5levels.pdf'

### Hlda English Editorial Comments

In [18]:
data = dl.get_comments_by_type("english","editorial")
texts = data["comment_texts"]

doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [19]:
n_samples = 100      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.01             # smoothing over topic-word distributions
num_levels = 3        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=441): food (5522), good (3625), organic (2731), like (2417), people (2198), 
    topic=1 level=1 (documents=353): organic (6479), food (5669), pesticide (2662), use (2416), make (1800), 
        topic=2 level=2 (documents=326): food (5824), gmo (4474), eat (2918), organic (2587), use (2150), 
        topic=8 level=2 (documents=6): county (76), soccer (75), land (64), field (58), farm (55), 
        topic=14 level=2 (documents=5): garden (33), $ (31), year (24), cost (21), grow (20), 
        topic=21 level=2 (documents=8): deal (10), monday (8), cyber (8), <url> (8), website (4), 
        topic=23 level=2 (documents=6): africa (3), deer (2), sample (2), nice (2), percent (2), 
        topic=26 level=2 (documents=1): mayo (72), just (37), mayonnaise (32), egg (25), product (15), 
        topic=28 level=2 (documents=1): bar (3), raman (1), feature (1), menu (1), afternoon (1), 
    topic=3 level=1 (documents=15): diaper (

.......... 50
topic=0 level=0 (documents=441): food (7112), good (3611), people (3038), eat (2908), like (2574), 
    topic=1 level=1 (documents=325): organic (11473), food (3813), pesticide (3544), use (3010), grow (2896), 
        topic=2 level=2 (documents=306): food (6190), gmo (5843), people (2335), eat (2322), label (2192), 
        topic=8 level=2 (documents=6): county (76), soccer (75), land (66), farm (60), field (52), 
        topic=14 level=2 (documents=5): garden (38), $ (29), year (27), grow (18), cost (18), 
        topic=35 level=2 (documents=2): soil (17), biochar (12), carbon (7), plant (6), co2 (6), 
        topic=65 level=2 (documents=3): water (8), beetle (3), tap (2), bt (2), pipe (2), 
        topic=89 level=2 (documents=3): africa (3), thaw (2), james (2), women (2), vegatable (1), 
    topic=3 level=1 (documents=15): article (41), year (39), child (35), baby (33), cost (25), 
        topic=4 level=2 (documents=3): diaper (216), use (115), disposable (112), cotto

.......... 90
topic=0 level=0 (documents=441): food (7188), good (3569), eat (3202), people (2937), like (2807), 
    topic=1 level=1 (documents=333): organic (11466), food (4039), pesticide (3542), use (2803), grow (2696), 
        topic=2 level=2 (documents=303): food (5929), gmo (5843), label (2124), know (2102), crop (2048), 
        topic=8 level=2 (documents=8): county (76), soccer (75), land (66), farm (60), field (58), 
        topic=14 level=2 (documents=4): garden (37), $ (32), grow (25), cost (18), year (17), 
        topic=65 level=2 (documents=4): water (9), beetle (3), larva (2), artesian (2), eggplant (2), 
        topic=109 level=2 (documents=6): direct (4), africa (3), arrive (3), editor (2), thoroughly (2), 
        topic=129 level=2 (documents=5): deal (11), monday (8), cyber (8), <url> (7), deer (2), 
        topic=146 level=2 (documents=3): frozen (6), solid (2), recipe (2), danger (2), catsup (2), 
    topic=3 level=1 (documents=17): use (67), article (46), year (

In [20]:
dot = hg.graph(hlda)
dot.render("English Editorial Comments Vec", view = True)

'English Editorial Comments Vec.pdf'

### Hlda German Editorial Comments

In [13]:
data = dl.get_comments_by_type("german","editorial")
texts = data["comment_texts"]

doc_converted,vocab2 = hg.param_for_Hlda(texts)

In [14]:
n_samples = 100      # no of iterations for the sampler
alpha = 10          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.01             # smoothing over topic-word distributions
num_levels = 5        # the number of levels in the tree
display_topics = 10   # the number of iterations between printing a brief summary of the topics so far
n_words = 5           # the number of most probable words to print for each topic after model estimation
with_weights = True  # whether to print the words with the weights

hlda = HierarchicalLDA(doc_converted, vocab2, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels, verbose=False)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.......... 10
topic=0 level=0 (documents=1782): fleisch (2190), bauer (2179), tier (2117), jed (2052), produkt (1982), 
    topic=1 level=1 (documents=1531): bio (8776), bauer (2827), landwirtschaft (2367), kaufen (2331), gemüse (2011), 
        topic=2 level=2 (documents=1327): bio (4290), essen (2287), zitat (2008), kaufen (1738), produkt (1665), 
            topic=3 level=3 (documents=1210): zitat (4060), tier (2579), jed (2310), essen (2184), fleisch (2037), 
                topic=4 level=4 (documents=1190): zitat (13207), dioxin (4143), lebensmittel (2997), verbraucher (2949), kontrolle (2757), 
                topic=14 level=4 (documents=2): bla (14), haltung (3), geführt (1), rp (1), hängen (1), 
                topic=24 level=4 (documents=7): alnatura (6), dm (5), produkt (4), international (2), ned (2), 
                topic=34 level=4 (documents=6): artikel (6), siegeln (3), setzen (3), leser (3), journalismus (2), 
                topic=53 level=4 

                topic=297 level=4 (documents=4): licht (20), erkenntnis (4), zelle (4), anregen (2), bedeutet (2), 
                topic=347 level=4 (documents=1): alm (3), hmmm (2), hindern (1), glaub (1), bissl (1), 
                topic=357 level=4 (documents=1): beschiss (1), € (0), gegessen (0), gegenüberstellen (0), gegenüberstehen (0), 
            topic=190 level=3 (documents=9): eigenmarken (6), landwirtschaft (5), familienbetriebe (3), jed (3), goethe (3), 
                topic=201 level=4 (documents=4): re (62), konzern (14), arbeiten (13), österreicher (11), genießen (10), 
                topic=218 level=4 (documents=3): material (2), kreislauf (2), ansagen (1), strengstens (1), dienstag (1), 
                topic=313 level=4 (documents=1): herzlichst (1), geschmacks- (1), zunge (1), manchmal (1), peer (1), 
                topic=337 level=4 (documents=1): € (0), geburtenrate (0), gegenüberstehen (0), gegenzug (0), gegenwärtige (0), 
            topic=358 level=3 (docu

.......... 20
topic=0 level=0 (documents=1782): fleisch (5552), tier (3025), essen (2693), leben (2637), bauer (2611), 
    topic=1 level=1 (documents=1464): bio (9065), bauer (3666), kaufen (2992), <url> (2618), gemüse (2354), 
        topic=2 level=2 (documents=1230): bio (6316), landwirtschaft (3167), konventionell (2085), essen (2066), boden (2024), 
            topic=3 level=3 (documents=1120): tier (4104), essen (2582), jed (2518), all (1992), fleisch (1764), 
                topic=4 level=4 (documents=1102): zitat (19802), dioxin (4615), verbraucher (4346), lebensmittel (3786), kontrolle (3485), 
                topic=14 level=4 (documents=4): bla (14), elende (1), qualitativ (1), banal (1), klarstellen (1), 
                topic=34 level=4 (documents=2): artikel (5), siegeln (3), ausführlich (2), journalismus (2), erwarten (2), 
                topic=53 level=4 (documents=6): wien (11), versand (2), wünschen (2), lagen (1), linz (1), 
                topic=570 level=4 (documen

                topic=565 level=4 (documents=5): bestimmen (3), faymann (2), april (2), regierung (2), bescheuert (2), 
            topic=423 level=3 (documents=15): titel (3), asiatisch (3), schwager (2), markt (2), dick (1), 
                topic=424 level=4 (documents=7): erwarten (5), überschrift (5), usa (5), text (4), + (3), 
                topic=562 level=4 (documents=3): geradezu (1), einschränken (1), z._b. (1), eindämmen (1), verfügung (1), 
                topic=582 level=4 (documents=2): irgendwann (2), importieren (2), ausgebracht (1), trocknen (1), stickstoff (1), 
                topic=593 level=4 (documents=3): naschmarkt (3), tier (2), fehlen (1), zahlreich (1), intensive (1), 
    topic=5 level=1 (documents=101): bio (60), schmecken (13), konventionell (12), welt (12), eh (11), 
        topic=6 level=2 (documents=101): tier (34), betrieb (17), produkt (14), bio (13), kaufen (13), 
            topic=7 level=3 (documents=23): bio-produkte (7), alternative (6), schredd

.......... 30
topic=0 level=0 (documents=1782): fleisch (6758), essen (3890), leben (3177), tier (2899), milch (2788), 
    topic=1 level=1 (documents=1506): bio (5497), bauer (3987), kaufen (3361), <url> (2726), österreich (2389), 
        topic=2 level=2 (documents=1246): bio (10003), landwirtschaft (4028), konventionell (3046), boden (2230), pestizid (2161), 
            topic=3 level=3 (documents=1093): tier (4447), jed (2753), all (2395), essen (2125), leben (1790), 
                topic=4 level=4 (documents=1079): zitat (19932), dioxin (4614), verbraucher (4349), lebensmittel (3906), kontrolle (3489), 
                topic=14 level=4 (documents=4): bla (14), betrug (3), verantwortliche (2), tier (1), cent (1), 
                topic=34 level=4 (documents=3): artikel (3), leser (3), siegeln (3), teilen (2), ausführlich (2), 
                topic=53 level=4 (documents=5): wien (11), bund (2), wünschen (2), linz (2), brauerei (2), 
                topic=808 level=4 (documents=2):

                topic=484 level=4 (documents=3): süßstoff (3), familienbetriebe (3), verzehren (3), lasch (1), technik (1), 
                topic=604 level=4 (documents=7): pvc (4), erzeuger (4), linz (3), gehören (3), schnellen (2), 
                topic=825 level=4 (documents=4): gehalt (2), lach (2), wettern (2), landkreis (2), unabdingbar (1), 
                topic=833 level=4 (documents=2): ages (4), kenntnis (2), kärnten (1), quälen (1), zurückrufen (1), 
            topic=315 level=3 (documents=8): gütesiegel (4), neu (3), online (2), denns (1), vl (1), 
                topic=471 level=4 (documents=1): dm (1), perfekt (1), offensichtlich (1), gegenteilig (0), gegenseite (0), 
                topic=625 level=4 (documents=4): eu (8), logo (7), austreten (5), norwegen (4), ama (3), 
                topic=845 level=4 (documents=3): verkäufer (3), ab-hof (3), ministerium (2), schnittlauch (1), mutter (1), 
            topic=385 level=3 (documents=8): antibiotikas (4), soße (3), ve

                topic=380 level=4 (documents=3): billa (6), greissler (3), amerika (2), unsympathisch (2), eingehen (2), 
                topic=848 level=4 (documents=1): € (0), geburtenrate (0), gegenüberstehen (0), gegenzug (0), gegenwärtige (0), 
        topic=708 level=2 (documents=6): deutschland (3), letzt (2), zusammenschließen (1), spd (1), direkt (1), 
            topic=709 level=3 (documents=6): landwirt (3), ausbeuter (2), schlachterei (2), wusste (1), nitrat (1), 
                topic=710 level=4 (documents=2): verursacher (2), sprechen (1), afrika (1), kraut (1), ungestraft (1), 
                topic=799 level=4 (documents=2): zigarette (5), versteuern (5), sprechen (4), beschimpfen (4), lohnen (3), 
                topic=828 level=4 (documents=2): durchschauen (2), erwarten (1), supermarktketten (1), aufspringen (1), händler (1), 

.......... 40
topic=0 level=0 (documents=1782): fleisch (7024), essen (4699), leben (3428), tier (3321), milch (2925), 
    topic=1 level=1 

                topic=193 level=4 (documents=4): gewisse (17), werben (11), mcdonalds (5), burger (5), kirsche (4), 
                topic=260 level=4 (documents=5): position (3), mitteln (2), hp (2), korn (2), wissenschaft (2), 
                topic=1085 level=4 (documents=4): nest (2), kopf (2), lohas (2), kritisieren (2), ne (2), 
                topic=1145 level=4 (documents=1): shop (1), marie (1), to (1), gegensatz (0), gegenseite (0), 
            topic=864 level=3 (documents=10): billig (4), farbstoffen (3), schalen (2), wahren (2), methode (2), 
                topic=893 level=4 (documents=2): erdäpfel (6), kochen (5), schleifen (3), übung (3), schmecken (3), 
                topic=947 level=4 (documents=8): verunreinigung (5), lampert (4), technisch (3), fortschreiten (3), bedeuten (2), 
        topic=29 level=2 (documents=94): bio (42), lebensmittel (21), beispiel (12), landwirtschaft (12), artikel (12), 
            topic=30 level=3 (documents=20): bild (3), ozean (3), bod

                topic=1124 level=4 (documents=1): einzelhandel (2), grossteil (1), produzenten (1), anscheinen (1), äusserst (1), 
                topic=1130 level=4 (documents=2): netto (10), marke (4), unternehmen (4), gemeint (2), gelbe (2), 
    topic=25 level=1 (documents=44): markt (6), kunde (6), re (5), klein (4), artikel (4), 
        topic=26 level=2 (documents=44): bio (15), biologisch (7), lebensmittel (5), konventionell (5), anbau (4), 
            topic=27 level=3 (documents=3): anstand (2), anbauen (1), sinnvoll (1), sowieso (1), monokultur (1), 
                topic=28 level=4 (documents=3): kuh (9), kalben (2), milchkuh (2), laufstall (2), geplant (1), 
            topic=215 level=3 (documents=16): betrifft (2), getrocknet (2), landwirt (2), kraut (2), denken (1), 
                topic=344 level=4 (documents=5): fenster (2), taz (2), gucken (1), tiergerecht (1), monokultur (1), 
                topic=990 level=4 (documents=3): vegan (3), putenfleisch (3), for (2), il

                topic=744 level=4 (documents=9): woran (3), irgendwann (3), wahnsinnig (3), getrocknet (3), öko (3), 
                topic=1251 level=4 (documents=5): landwirt (3), einfluss (2), rücksicht (2), einzigartig (2), temperatur (1), 
                topic=1348 level=4 (documents=4): kaffee (5), thema (4), syrien (3), afghanistan (2), südamerika (2), 
                topic=1365 level=4 (documents=1): € (0), geburtenrate (0), gegenüberstehen (0), gegenzug (0), gegenwärtige (0), 
            topic=315 level=3 (documents=13): < (5), gutmenschen (3), € (1), holen (1), bekommens (1), 
                topic=945 level=4 (documents=5): metro (23), einkaufen (11), arzt (9), freiberufler (6), gewerbe (4), 
                topic=1282 level=4 (documents=2): katze (4), nützliche (1), fischmehl (1), zutatenlisten (1), kater (1), 
                topic=1349 level=4 (documents=6): > (5), steiner (3), + (3), formel (3), alnatura (2), 
            topic=385 level=3 (documents=26): verschärfen 

.......... 60
topic=0 level=0 (documents=1782): fleisch (7548), essen (5463), tier (3955), leben (3672), milch (2878), 
    topic=1 level=1 (documents=1502): bauer (4906), kaufen (3081), <url> (2715), bio (2572), österreich (2394), 
        topic=2 level=2 (documents=1231): bio (12900), landwirtschaft (3934), konventionell (3243), lebensmittel (2396), pestizid (2174), 
            topic=3 level=3 (documents=1040): tier (3490), all (3403), problem (2573), jed (2427), deutschland (2279), 
                topic=4 level=4 (documents=1022): zitat (18585), dioxin (4614), verbraucher (4351), lebensmittel (4210), kontrolle (3490), 
                topic=14 level=4 (documents=3): bla (14), allgemein (1), weihnachtsmann (1), geführt (1), universität (1), 
                topic=34 level=4 (documents=6): siegeln (4), ausführlich (2), legal (2), reagieren (2), leser (2), 
                topic=53 level=4 (documents=7): wien (12), bund (6), 1##a (4), öko-test (4), aktuell (3), 
                topic

                topic=1614 level=4 (documents=1): stumpfen (1), € (0), gegenüberstellen (0), gegenzug (0), gegenwärtige (0), 
        topic=29 level=2 (documents=88): bio (62), zum (17), finden (16), kaufe (14), produkt (14), 
            topic=30 level=3 (documents=20): massentierhaltung (4), sehen (4), wald (3), propaganda (2), glatt (2), 
                topic=31 level=4 (documents=5): kennzeichnung (5), migros (3), klimawandel (3), planet (2), hauptverursacher (2), 
                topic=757 level=4 (documents=4): bestätigen (3), monsanto (2), relevant (2), umweltschäden (2), genossenschaft (2), 
                topic=1024 level=4 (documents=4): veganer (9), jo (4), wurst (3), lebensgefährlich (3), bewußt (3), 
                topic=1446 level=4 (documents=5): tatsächlich (3), position (3), ausleben (2), mainstream (2), subventionieren (2), 
                topic=1580 level=4 (documents=2): € (0), geburtenrate (0), gegenüberstehen (0), gegenzug (0), gegenwärtige (0), 
            t

                topic=380 level=4 (documents=4): billa (11), spar (5), meinl (3), greissler (3), kassa (3), 
                topic=1035 level=4 (documents=4): hofer (6), lidl (2), schämen (1), heiß (1), esel (1), 
                topic=1604 level=4 (documents=2): wahn (2), nahrung (2), kreisen (1), maschine (1), kartoffel (1), 

.......... 70
topic=0 level=0 (documents=1782): fleisch (7647), essen (5746), tier (4518), leben (3626), milch (2898), 
    topic=1 level=1 (documents=1495): bauer (5179), kaufen (3178), <url> (2603), bio (2416), österreich (2384), 
        topic=2 level=2 (documents=1215): bio (13012), landwirtschaft (3887), konventionell (3238), lebensmittel (2497), produkt (2251), 
            topic=3 level=3 (documents=1023): all (3930), tier (2894), problem (2746), jed (2541), deutschland (2043), 
                topic=4 level=4 (documents=1017): zitat (18561), dioxin (4614), verbraucher (4342), lebensmittel (4221), kontrolle (3490), 
                topic=53 level=4 (docu

        topic=29 level=2 (documents=92): bio (71), produkt (25), lebensmittel (21), artikel (20), zum (20), 
            topic=30 level=3 (documents=24): konsument (5), fleischhauer (4), samstag (3), naschmarkt (3), per (3), 
                topic=31 level=4 (documents=6): kennzeichnung (4), mindeststandard (3), migros (3), klimawandel (3), methan (2), 
                topic=757 level=4 (documents=5): mhd (4), dämlich (3), linke (2), verschwinden (2), erinnerung (2), 
                topic=1024 level=4 (documents=9): veganer (8), aktie (5), jo (4), lebensgefährlich (3), hergestellt (3), 
                topic=1794 level=4 (documents=3): freude (2), augen (2), berg (2), aufgebläht (1), ebenfalls (1), 
                topic=1817 level=4 (documents=1): gestrig (1), € (0), gefürchtet (0), gegenzug (0), gegenwärtige (0), 
            topic=103 level=3 (documents=13): bedeuten (5), bioläden (3), enzym (2), pdf (2), offiziell (2), 
                topic=220 level=4 (documents=3): kommission (

        topic=26 level=2 (documents=22): bio (17), lebensmittel (6), konventionell (4), nachhaltig (4), beziehungsweise (4), 
            topic=224 level=3 (documents=22): nahrung (7), glück (3), unterstützen (3), bildung (2), beispiel (2), 
                topic=268 level=4 (documents=7): weinen (9), alkohol (4), saufen (4), wein (3), trinken (3), 
                topic=380 level=4 (documents=5): billa (12), spar (6), wwf (3), vergleichen (3), greissler (3), 
                topic=1035 level=4 (documents=2): lehrer (2), pflanzenschutz (2), erträge (2), vortrag (1), bezweifel (1), 
                topic=1604 level=4 (documents=2): € (6), geschäft (5), blindverkostung (3), zuordnen (2), laden (2), 
                topic=1655 level=4 (documents=1): durchschauen (2), diktat (1), gebieten (1), landwirt (1), beliefern (1), 
                topic=1737 level=4 (documents=5): ernährungswissenschaften (2), milch (2), geizen (1), arche (1), säugling (1), 

.......... 80
topic=0 level=0 (document

                topic=2050 level=4 (documents=2): umsetzbar (1), € (0), gegenüberstellung (0), gegenüberstehen (0), gegenzug (0), 
                topic=2065 level=4 (documents=5): version (9), verkäufer (3), ab-hof (3), idee (2), wegwerfen (2), 
        topic=29 level=2 (documents=75): bio (49), produkt (21), landwirtschaft (15), lebensmittel (14), artikel (13), 
            topic=30 level=3 (documents=12): co2 (4), naschmarkt (3), samstag (3), fleischersatz (2), ressourcenverschwendung (2), 
                topic=31 level=4 (documents=4): kennzeichnung (5), klimawandel (3), konsum (2), unnötig (2), methan (2), 
                topic=1024 level=4 (documents=6): veganer (10), jo (4), lebensgefährlich (3), gesünder (3), entspannen (3), 
                topic=2072 level=4 (documents=2): verlässt (1), zeichnen (1), bio-laden (1), manchmal (1), telefonieren (1), 
            topic=103 level=3 (documents=14): hofer (6), kaufe (4), bioläden (3), enzym (2), kreislauf (2), 
                top

.......... 90
topic=0 level=0 (documents=1782): fleisch (7696), essen (5568), tier (4574), leben (3912), milch (2919), 
    topic=1 level=1 (documents=1542): bauer (5215), kaufen (3017), <url> (2491), österreich (2374), bio (2191), 
        topic=2 level=2 (documents=1227): bio (13218), landwirtschaft (3539), konventionell (3222), zitat (2390), produkt (2275), 
            topic=3 level=3 (documents=1026): all (3367), tier (2867), problem (2801), jed (2349), deutschland (2328), 
                topic=4 level=4 (documents=1001): zitat (18340), dioxin (4614), lebensmittel (4203), verbraucher (4110), kontrolle (3493), 
                topic=53 level=4 (documents=5): wien (9), weiblich (2), brauerei (2), gratulation (1), stundenlohn (1), 
                topic=2009 level=4 (documents=4): netto (10), marke (4), regional (3), geizen (3), hund (3), 
                topic=2101 level=4 (documents=2): massentierhaltung (3), grundsätzlich (3), biohaltung (2), propaganda (2), mainstream (2), 
    

                topic=893 level=4 (documents=5): erdäpfel (10), kochen (8), klein (6), farbstoffen (5), mia (4), 
                topic=1614 level=4 (documents=6): tee (6), global (5), belastung (4), umfang (3), rentabilität (3), 
                topic=2081 level=4 (documents=5): re (17), geizen_geil (8), sparen (4), traurig (4), sowas (4), 
                topic=2090 level=4 (documents=3): kühlschrank (5), fleischhauer (3), schimmeln (3), kurieren (3), bananen (2), 
                topic=2215 level=4 (documents=3): gold (1), gebieten (1), trend (1), einschränken (1), machbar (1), 
                topic=2266 level=4 (documents=1): monieren (1), aufgrund (1), behalten (1), akkord (1), gittern (1), 
            topic=1959 level=3 (documents=11): zweit (3), spenden (2), lassen (2), zusätzlich (2), länge (1), 
                topic=2065 level=4 (documents=6): version (9), wegwerfen (5), betrieben (3), unterstützen (3), arme (2), 
                topic=2277 level=4 (documents=5): statistik 

                topic=2064 level=4 (documents=1): werbung (5), rewe (4), zitrone (4), selben (3), reportage (2), 
                topic=2230 level=4 (documents=1): grundlage (1), gerechtigkeit (1), effizient (1), verbrauchen (1), beurteilen (1), 
                topic=2270 level=4 (documents=1): teilnahme (1), herzliche (1), umfragen (1), gegenmittel (0), gegenzug (0), 
                topic=2285 level=4 (documents=2): amtlich (2), billig (1), gesetz (1), sowas (1), schleusen (1), 
    topic=25 level=1 (documents=28): bio (11), preisen (6), bekommen (6), re (5), halt (5), 
        topic=26 level=2 (documents=27): produkt (5), bio (5), kaufe (5), artikel (4), region (4), 
            topic=224 level=3 (documents=21): land (4), naschmarkt (3), glück (3), ö (3), gleichzeitig (3), 
                topic=268 level=4 (documents=12): weinen (12), trinken (5), herrn (5), saufen (4), alkohol (4), 
                topic=380 level=4 (documents=3): billa (8), mitarbeiter (3), kassa (3), greissler 

                topic=2451 level=4 (documents=7): gewisse (13), werben (11), mcdonalds (5), burger (5), bewerben (3), 
                topic=2504 level=4 (documents=2): bravo (5), korea (5), hendln (3), fläche (3), durchgehen (2), 
        topic=29 level=2 (documents=138): bio (89), jed (23), kaufen (22), landwirtschaft (22), lebensmittel (21), 
            topic=30 level=3 (documents=40): kuh (14), tier (6), eu (3), landwirt (3), malen (3), 
                topic=31 level=4 (documents=6): unnötig (3), ressourcenverschwendung (3), mogelpackung (2), planet (2), rodung (2), 
                topic=1024 level=4 (documents=6): veganer (10), jo (6), ärgern (3), helfen (3), entspannen (3), 
                topic=2251 level=4 (documents=7): katze (3), neuseeland (3), farmer (2), system (2), anleitung (2), 
                topic=2345 level=4 (documents=6): italien (6), verbrauchen (4), energie (3), aufsicht (3), gleichzeitig (2), 
                topic=2425 level=4 (documents=6): verbraucher (3

In [15]:
dot = hg.graph(hlda)
dot.render("German Editorial Comments with 5 Levels", view = True)

'German Editorial Comments with 5 Levels.pdf'