In [13]:
import os
import requests

import numpy as np
import pandas as pd
from tqdm import tqdm

## Download file

Download file as streamable request to prevent out-of-memory errors since the file is "somewhat" large. 26MB should be easy to save, but this programm should also handle larger amounts of data (e.g. multiple GB). Therefore streaming is saver to use.

In [7]:
os.makedirs("../data", exist_ok=True)
with requests.get("http://144.76.101.108/sent.txt", stream=True) as r:
    r.raise_for_status()
    with open("../data/sent.txt", 'wb') as f:
        for chunk in r.iter_content(chunk_size=8192):
            f.write(chunk)

## Check for invalid characters

Only let pass ASCII-Chars. Remove invalid line-endings

In [16]:
data = {
    "URL": [],
    "Kategorie": [],
    "Text": []
}
with open("../data/sent.txt") as f:
    for i, line in enumerate(tqdm(f.readlines(), total=156559)):
        # Skip header
        if i == 0:
            continue
        url, category, text = line.strip("\n").split("\t")
        data["URL"].append(url)
        data["Kategorie"].append(category)
        data["Text"].append(text)
data = pd.DataFrame(data)
data

100%|██████████| 156559/156559 [00:00<00:00, 1254527.43it/s]


Unnamed: 0,URL,Kategorie,Text
0,https://www.kununu.com/de/b2x-care-solutions,Pro,"Internationale Teamarbeit, schnelle Entscheidu..."
1,https://www.kununu.com/de/b2x-care-solutions,Contra,"Ressourcen und Geld zu wenig, um alle Chancen ..."
2,https://www.kununu.com/de/tayfunrecruitment/a/...,Contra,Es gibt keine Firmenparkplätze
3,https://www.kununu.com/de/fuchs-foerdertechnik,Contra,keine Aussagen über zukünftige Entwicklungen. ...
4,https://www.kununu.com/de/berufliches-training...,Pro,"Super Team, erstklassige Einarbeitung, sehr ha..."
...,...,...,...
156553,https://www.kununu.com/de/aviretta/a/SUFqV1J8f...,Karriere / Weiterbildung,Mit Leistung kommt man da nicht weiter. Von We...
156554,https://www.kununu.com/de/aviretta/a/SUFqV1J8f...,Arbeitsbedingungen,entspricht nicht den Standard. ich hatte k...
156555,https://www.kununu.com/de/aviretta/a/SUFqV1J8f...,Umwelt- / Sozialbewusstsein,zu vergessen
156556,https://www.kununu.com/de/aviretta/a/SUFqV1J8f...,Work-Life-Balance,nicht möglich


In [19]:
np.unique(data["Kategorie"], return_counts=True)

(array(['Abwechslung', 'Arbeitsatmosphäre', 'Arbeitsbedingungen',
        'Arbeitszeiten', 'Aufgaben/Tätigkeiten', 'Ausbildungsvergütung',
        'Betriebsklima', 'Contra', 'Die Ausbilder',
        'Gehalt / Sozialleistungen', 'Gleichberechtigung', 'Image',
        'Interessante Aufgaben', 'Karriere / Weiterbildung',
        'Karrierechancen', 'Kollegenzusammenhalt', 'Kommentar',
        'Kommunikation', 'Pro', 'Respekt', 'Spaßfaktor',
        'Umgang mit älteren Kollegen', 'Umwelt- / Sozialbewusstsein',
        'Vorgesetztenverhalten', 'Work-Life-Balance'], dtype=object),
 array([   23, 11495,  9260,    30,    24,    33,    26, 14323,    32,
         9233,  6692,  8034, 10382,  9131,    23, 11300,  1329, 10960,
        19947,    24,    27,  6886,  5515, 11921,  9908]))