In [3]:
############################################################
########## MEANING AND GRAMMAR
############################################################

from googletrans import Translator
import pandas as pd
import spacy
from spacy.tokens import Token
import random
from datetime import date
import sys
import codecs
import sqlite3

def VERBpipeline(x):
    x._.att_li["aux_labels"] = []
    if x._.att_li["family"]=="": #only words without previous category can become main
        x._.att_li["family"] = "VERB"
        x._.att_li["subtype"] = "MAIN"
    morphoverb = x.morph.to_dict()
    x._.att_li["aux_labels"] += [morphoverb[i] for i in morphoverb if i in ['Mood','Tense', 'VerbForm']] #xche cera un upper???

    for i in x.children:
        if i.dep_ == "svp": #separable verbs
            i._.att_li["family"] = "VERB" #+= ["SEPARABLE_VERB_p"]
            i._.att_li["subtype"] = "SVP"
            i._.questioncategory = ["SVP"]

            x._.att_li["aux_labels"] += ["SEPARABLE_VERB"]
            x._.att_li["aux_string"] = i.text
        elif i.pos_ == "AUX": #auxiliary verbs
            i._.att_li["family"] = "VERB"
            i._.att_li["subtype"] = "AUX"
        else: #Reflexive verbs
            adder=0
            morphochild = i.morph.to_dict()
            if morphochild.get("Reflex","No")=="Yes":
                x._.att_li["aux_labels"] += ["REFLEXIVE_VERB"]
                i._.att_li["family"] = "VERB"
                i._.att_li["subtype"] = "REFLEXPRON"
            elif ("Number" in morphoverb) and ("Person" in morphoverb):
                if (i.pos_=="PRON") and (morphochild["PronType"]=="Prs")and (morphochild["PronType"] in ["Acc","Dat"]):
                    for j in ["Number","Person"]:
                        adder+=(morphochild[j]==morphoverb[j])
                    if adder == 2:
                        #i._.extra_info += i._.extra_info+["REFLEXIVE_VERB_p"]
                        i._.att_li["family"] = "VERB"
                        i._.att_li["subtype"] = "REFLEXPRON"
                        x._.att_li["aux_labels"] += ["REFLEXIVE_VERB"]


def nonVERBpipeline(x):
    x._.att_li["aux_labels"] = []
    if x.pos_ in ["NOUN", "PRON", "PROPN", "ADJ", "DET"]: #noun group elements
        if x._.att_li["family"] == "":
            x._.att_li["family"] = "NOUN"
            x._.att_li["subtype"] = x.pos_
        morphodict = x.morph.to_dict()
        x._.att_li["aux_labels"] += [morphodict[i] for i in morphodict if i in ["Gender","Case","Number"]] #xche cera un upper???
    elif x.pos_ not in ["X","SPACE","PUNCT"]: #il resto
        if x._.att_li["family"] == "":
            x._.att_li["family"] = "OTHERS"
            x._.att_li["subtype"] = x.pos_
            x._.questioncategory = ["OTHERS", x.pos_]

def computeattli(doc):
    for i in doc:
        if i.pos_ in ["VERB","AUX"]:
            VERBpipeline(i)
        else:
            nonVERBpipeline(i)



def gettranslatednumbered(text_with_n):

    translator = Translator()
    final = ""
    final_t = ""
    elements = text_with_n.split("\n")
    nr_el = len(elements)
    ciphers = len(str(nr_el))
    for i in range(nr_el):
        if elements[i]!="":
            final+= "("+str(i).zfill(ciphers)+") "+elements[i]+"</br>"
            final_t+= "("+str(i).zfill(ciphers)+") "+translator.translate(elements[i]).text+"</br>"
        else:
            final+="</br>"
            final_t+="</br>"
    return final,final_t

def numberparagraphs(text_with_n):
    final = ""
    elements = text_with_n.split("\n")
    nr_el = len(elements)
    ciphers = len(str(nr_el))
    for i in range(nr_el):
        if elements[i]!="":
            final+= "("+str(i).zfill(ciphers)+") "+elements[i]+"</br>"
        else:
            final+="</br>"
    return final




##################################################
### VOCABULARY
##################################################

import wordfreq
import numpy as np
import simplemma
langdata = simplemma.load_data('de')

def basewordfreq(x):
    if x.pos_ not in ["NUM","X","PROPN","SPACE","PUNCT"] and not ((x._.att_li["family"] == "VERB") and (x._.att_li["subtype"] == "SVP")):
        word_candidates = [x.lemma_, x.text, simplemma.lemmatize(x.text, langdata)]
        if "SEPARABLE_VERB" in x._.att_li["aux_labels"]:
            word_candidates = [x._.att_li["aux_string"]+i for i in word_candidates]
        maxfreq = max([wordfreq.word_frequency(i,"de") for i in word_candidates])
                      
        return x, x._.att_li["family"], list(set(word_candidates)), maxfreq
    return x, np.nan, np.nan, np.nan

def isanewword(x):
    x._.newword=True
    if len(x._.questioncategory)==0:
        x._.questioncategory = ["NEW"]
    else:
        x._.questioncategory += ["NEW"]
    if (x._.att_li["family"] == "VERB") and (x._.att_li["subtype"] == "MAIN"):
        for i in x.children:
            if (i._.att_li["family"] == "VERB") and (i._.att_li["subtype"] in ["REFLEXPRON", "SVP"]):
                i._.newword = True
                if len(i._.questioncategory)==0:
                    i._.questioncategory = ["NEW"]
                else: #controllare che new non c'è già
                    x._.questioncategory += ["NEW"]                
    
def processvocabulary(doc):
    try:
        history = pd.read_csv("history.csv",sep="|", index_col = 0)
        profile = pd.read_csv("profile.csv",sep="|", index_col = 0)

        dfvocab = pd.Series(doc).apply(basewordfreq).apply(pd.Series)
        nr_words = len(dfvocab.dropna())
        dfvocab = dfvocab.explode(2)
        
        dfvocab.columns = ["token", "family", "base", "freq"]

        dfaux = dfvocab.groupby(["family", "base"]).agg({"freq":["count","max"]})
        dfaux.columns = ["nr_appearances", "freq_corpus"]
        dfaux=dfaux.reset_index()
        dfaux["freq_text"]=dfaux["nr_appearances"]/nr_words
        
        history.columns = ["family", "base", "nr_appearances_old", "freq_corpus_old","highlighted"]
        dfaux = pd.merge(dfaux,history, on= ["family","base"], how = 'outer')
        dfaux["nr_appearances"] = dfaux["nr_appearances"].fillna(0)
        dfaux["nr_appearances_old"] = dfaux["nr_appearances_old"].fillna(0)
        dfaux["nr_app_tot"] = dfaux["nr_appearances"]+dfaux["nr_appearances_old"]
        dfaux["highlight"]=(dfaux["highlighted"]==False)&((dfaux["nr_app_tot"]>30)|((dfaux["freq_text"]>0.01)&(dfaux["nr_appearances"]>5)))
        if (dfaux["highlight"].sum()<10):
            highlight = dfaux[(dfaux["highlight"]==False)&(dfaux["highlighted"]==False)].sort_values("freq_corpus",ascending=False).iloc[:10-dfaux["highlight"].sum()][["family","base"]].drop_duplicates()
            tohighlight = list(highlight["family"]+"_"+highlight["base"])
            dfaux["highlight"] = dfaux["highlight"]|dfaux.apply(lambda x: x["family"]+"_"+x["base"] in tohighlight, axis = 1)
        pd.merge(dfvocab,dfaux[dfaux["highlight"]])["token"].apply(isanewword)
        dfaux["nr_appearances"] = dfaux["nr_app_tot"]
        dfaux["freq_corpus"] = dfaux.apply(lambda x: max([x["freq_corpus_old"],x["freq_corpus"]]),axis = 1)
        dfaux["highlighted"] = dfaux["highlighted"]|dfaux["highlight"]
        dfaux=dfaux[["family","base","nr_appearances","freq_corpus","highlighted"]]
        dfaux.to_csv("history.csv",sep="|")
        
        profile.iloc[0,0]=profile.iloc[0,0]+1
        profile.iloc[1,0]=profile.iloc[1,0]+nr_words
        profile.to_csv("profile.csv",sep="|")
    except:
        dfvocab = pd.Series(doc).apply(basewordfreq).apply(pd.Series)
        nr_words = len(dfvocab.dropna())
        dfvocab = dfvocab.explode(2)
        dfvocab.columns = ["token", "family", "base", "freq"]
        dfaux = dfvocab.groupby(["family", "base"]).agg({"freq":["count","max"]})
        dfaux.columns = ["nr_appearances", "freq_corpus"]
        dfaux=dfaux.reset_index()
        dfaux["freq_text"]=dfaux["nr_appearances"]/nr_words
        dfaux["highlight"]=(dfaux["freq_corpus"]>0.01)|((dfaux["freq_text"]>0.01)&(dfaux["nr_appearances"]>5))
        if (dfaux["highlight"].sum()<10):
            highlight = dfaux[dfaux["highlight"]==False].sort_values("freq_corpus",ascending=False).iloc[:10-dfaux["highlight"].sum()][["family","base"]].drop_duplicates()
            tohighlight = list(highlight["family"]+"_"+highlight["base"])
            dfaux["highlight"] = dfaux["highlight"]|dfaux.apply(lambda x: x["family"]+"_"+x["base"] in tohighlight, axis =1)
        pd.merge(dfvocab,dfaux[dfaux["highlight"]])["token"].apply(isanewword)
        dfaux=dfaux[["family","base","nr_appearances","freq_corpus","highlight"]]
        dfaux.columns = ["family","base","nr_appearances","freq_corpus","highlighted"]
        dfaux.to_csv("history.csv",sep="|")
        pd.Series([1, nr_words]).to_csv("profile.csv",sep="|")
        
        
##################################
## FORMAT
##################################

def formattokensSNSV(x):
    attributes = x._.att_li
    formatted = x.text
    formatted_v = x.text
    if attributes["family"]=="VERB":
        formatted="<b>{}</b>".format(formatted)
        formatted_v="<b>{}</b>".format(formatted_v)
        if "Fin" in attributes["aux_labels"]:
            formatted_v ='<span style="color: blue">{}</span>'.format(formatted_v)
        if "Part" in attributes["aux_labels"]:
            formatted_v ='<span style="color: pink">{}</span>'.format(formatted_v)
        if "Inf" in attributes["aux_labels"]:
            formatted_v ='<span style="color: orange">{}</span>'.format(formatted_v)
        if "Sub" in attributes["aux_labels"]:
            formatted_v = '<span class="wavyUnderline">{}</span>'.format(formatted_v)
        if "Ind" in attributes["aux_labels"]:
            #formatted_v = '<span class="normalUnderline">{}</span>'.format(formatted_v)
            pass
        if "Pres" in attributes["aux_labels"]:
            pass
            #formatted_v = '<span class="normalOverline">{}</span>'.format(formatted_v)
        if "Past" in attributes["aux_labels"]:
            formatted_v = '<i>{}</i>'.format(formatted_v)
    elif x._.att_li["family"] == "NOUN": #prima cera un else e basta
        #formatted_v = "<b>{}</b>".format(formatted_v)
        if "Nom" in attributes["aux_labels"]:
            formatted = '<span class="doubleUnderline">{}</span>'.format(formatted)
            formatted_v = formatted
        if "Acc" in attributes["aux_labels"]:
            formatted = '<span class="normalUnderline">{}</span>'.format(formatted)
            formatted_v = formatted
        if "Dat" in attributes["aux_labels"]:
            formatted = '<span class="dashedUnderline">{}</span>'.format(formatted)
            formatted_v = formatted
        if "Gen" in attributes["aux_labels"]:
            formatted = '<span class="dottedUnderline">{}</span>'.format(formatted)

        if "Masc" in attributes["aux_labels"]:
            formatted ='<span style="color: blue">{}</span>'.format(formatted)
        if "Fem" in attributes["aux_labels"]:
            formatted ='<span style="color: pink">{}</span>'.format(formatted)
        if "Neut" in attributes["aux_labels"]:
            formatted ='<span style="color: orange">{}</span>'.format(formatted)
            
        if "Plur" in attributes["aux_labels"]:
            formatted ='<span class="doubleOverline">{}</span>'.format(formatted)
            if ("Nom" in attributes["aux_labels"]) or ("Dat" in attributes["aux_labels"]) or ("Acc" in attributes["aux_labels"]):
                formatted_v = '<span class="doubleOverline">{}</span>'.format(formatted_v)
        if "Sing" in attributes["aux_labels"]:
            formatted ='<span class="normalOverline">{}</span>'.format(formatted)
            #formatted_v = '<span class="normalOverline">{}</span>'.format(formatted_v)
    formatted_new = x.text
    if x._.newword:
        formatted_new = "<b>{}</b>".format(formatted_new)


    x._.html_formatted_SN= formatted
    x._.html_formatted_SV= formatted_v
    x._.html_formatted_new= formatted_new

def computeformat(doc):
    for i in doc:
        formattokensSNSV(i)
        
def replacequestion(doc,qcat,qcatno=""): #aggiungere una probabilità di sostituire oppure no.
    string = ""
    wordlist = []
    for i in doc:
        if i.is_punct == True:
            string+=i.text
        else:
            if i.is_alpha and (qcat in i._.questioncategory) and (qcatno not in i._.questioncategory):
                string+= " ________ "
                wordlist.append(i.text.lower())
            else:
                string+= " "+i.text
    random.shuffle(wordlist)

    string += """

    You should use the words in the following list:

    """ + str(wordlist)
    return string

def printFormattedText(doc):
    initialstring = ""
    css = """
    /* css here */

{
  border: 1px dotted black;
}

p.question {
  font-family: Arial, sans-serif;
  font-size:20px;
  color: #2E2E2E;
  margin-bottom:0px;
}

h2.quizHeader {
  font-family: Arial, sans-serif;
  font-weight:normal;
  font-size:25px;
  line-height: 27px;
  margin: 24px 0 12px 0;
  padding: 0 0 4px 0;
  border-bottom: 1px solid #a2a2a2;
}

h2.quizScore{
  font-family: Arial, sans-serif;
  font-size:25px;
}

div.quizAnswers{
  font-family: Arial, sans-serif;
  font-size:16px;
  color: #424242;
  padding: 4px 0 4px 0;
}

label {
  font-family: Arial, sans-serif;
  font-size:14px;
  color: #424242;
  vertical-align:top;
}

input.answer[type="radio"] {
  margin-bottom: 10px;
}

input.quizSubmit[type="submit"] {
  -webkit-background-clip: border-box;
  -webkit-background-origin: padding-box;
  -webkit-background-size: auto;
  -webkit-transition-delay: 0s, 0s;
  -webkit-transition-duration: 0.2s, 0.2s;
  -webkit-transition-property: color, background-color;
  -webkit-transition-timing-function: ease, ease;
  box-shadow: rgba(0, 0, 0, 0.498039) 0px 0px 5px 0px;
  color: #ffffff;
  background-color: #c30b0a;
  margin: 0;
  border: 0;
  outline: 0;
  text-transform:uppercase;
  height:35px;
  width:85px;
  border: 1px solid #5E5E5E;
  border-radius:5px;

 }

input.quizSubmit[type="submit"]:hover {
  color: #ffffff;
  background: #680f11;
  text-decoration: none;
}

table {
  background-color: #F2F2F2;
  border:1px solid #BDBDBD;
  border-radius:5px;
  padding:10px;
  padding-left:25px;
  box-shadow: rgba(0, 0, 0, 0.498039) 0px 0px 1px 0px;
}

th {

}

tr {

}

td {

}

.submitter {
	  width:85px;
}

.hide {
	  display:none;
}
.normalUnderline {
    text-decoration:underline #000;
}

.normalOverline {
    text-decoration: overline 1px #000;
}

.wavyUnderline {
    text-decoration:underline wavy #000;
}

.wavyOverline {
    text-decoration: overline wavy 1px #000;
}

.doubleOverline {
    text-decoration: overline 1px double #000;
}

.doubleUnderline {
    text-decoration:underline #000;
    border-bottom: 1px solid #000;
}

.dottedUnderline {
    border-bottom: 1px dotted #000;
    text-decoration: none;
}

.dashedUnderline {
    border-bottom: 1px dashed #000;
    text-decoration: none;
}
/*SFS light red = #c30b0a;
SFS dark red = #9f2026; */

    """
    initialstring_v = ""
    initialstring_new = ""
    initialstring_qsvp = replacequestion(doc,"SVP")
    initialstring_qnew = replacequestion(doc,"NEW")
    initialstring_qadp = replacequestion(doc,"ADP")
    initialstring_qoth = replacequestion(doc,"OTHERS","ADP")

        
                
    
    html = '''<!DOCTYPE html><html lang="en"><head><style>{}</style></head><body><p style="line-height: 200%">{}</p></body></html>'''

    for i in doc:
        if i.is_punct==True:
            initialstring+=i._.html_formatted_SN
            initialstring_v += i._.html_formatted_SV
            initialstring_new += i._.html_formatted_new
        else:
            initialstring+= " "+ i._.html_formatted_SN
            initialstring_v +=" "+ i._.html_formatted_SV
            initialstring_new += " "+ i._.html_formatted_new



    final,final_t = gettranslatednumbered(doc.text)
    html3 = html.format(css,numberparagraphs(initialstring))
    html4 = html.format(css,numberparagraphs(initialstring_v))
    html5 = html.format(css,numberparagraphs(initialstring_new))
    html6 = html.format(css,numberparagraphs(initialstring_qsvp))
    html7 = html.format(css,numberparagraphs(initialstring_qnew))
    html8 = html.format(css,numberparagraphs(initialstring_qadp))
    html9 = html.format(css,numberparagraphs(initialstring_qoth))
    html1 = html.format(css,final)
    html2 = html.format(css,final_t)
    return [html1, html2, html3, html4, html5, html6,html7,html8, html9]
        
        
##################################
## PIPELINE
##################################


def pipeline(folder, file, questions = False):
    print("1")
    Token.set_extension('att_li', default={"family":"","subtype":"","aux_labels":[],"aux_string":""},force=True)
    #Token.set_extension('svp', default="",force=True)
    Token.set_extension("html_formatted_SN", default="",force=True)
    Token.set_extension("html_formatted_SV", default="",force=True)
    Token.set_extension("html_formatted_new", default="",force=True)
    Token.set_extension("questioncategory",default=[],force=True)
    Token.set_extension("newword",default=False,force=True)
    nlp = spacy.load("de_core_news_lg")
    print("2")

    f = codecs.open(folder+"/"+file, "r", "utf-8")    # suess_sweet.txt file contains two
    text = f.read()                          # comma-separated words: süß, sweet
    f.close()

    doc = nlp(text)
    assert doc.has_annotation("SENT_START")
    computeattli(doc)
    computeformat(doc)
    return printFormattedText(doc)


def pipeline2(text, folder = "Templates"):
    global doc
    print("1")
    Token.set_extension('att_li', default={"family":"","subtype":"","aux_labels":[],"aux_string":""},force=True)
    #Token.set_extension('svp', default="",force=True)
    Token.set_extension("html_formatted_SN", default="",force=True)
    Token.set_extension("html_formatted_SV", default="",force=True)
    Token.set_extension("html_formatted_new", default="",force=True)
    Token.set_extension("questioncategory",default="",force=True)
    Token.set_extension("newword",default=False,force=True)
    nlp = spacy.load("de_core_news_lg")
    print("2")

    doc = nlp(text)
    assert doc.has_annotation("SENT_START")
    computeattli(doc)
    
    processvocabulary(doc)
    computeformat(doc)
    htmls =  printFormattedText(doc)
    
    fw = open("original.html", "w")
    fw.write(htmls[0])
    fw.close()
    
    fw = open("translation.html", "w")
    fw.write(htmls[1])
    fw.close()
    
    fw = open("SN.html", "w")
    fw.write(htmls[2])
    fw.close()
    
    fw = open("SV.html", "w")
    fw.write(htmls[3])
    fw.close()

    fw = open("newwords.html", "w")
    fw.write(htmls[4])
    fw.close()
    
    fw = open("qsvp.html", "w")
    fw.write(htmls[5])
    fw.close()
    
    fw = open("qnew.html", "w")
    fw.write(htmls[6])
    fw.close()    
    fw = open("qadp.html", "w")
    fw.write(htmls[7])
    fw.close()    
    fw = open("qoth.html", "w")
    fw.write(htmls[8])
    fw.close()

In [4]:
text = """
UN sehen Kriegsverbrechen durch Taliban
Die radikalislamischen Taliban begehen in Afghanistan nach UN-Informationen schwere Menschenrechtsverletzungen. Betroffen seien vor allem Frauen und Journalisten, erklärte UN-Generalsekretär Guterres.
Der Generalsekretär der Vereinten Nationen, António Guterres, betonte, es sei "besonders entsetzlich und herzzerreißend, Berichte zu sehen, wonach den afghanischen Mädchen und Frauen ihre hart erkämpften Rechte entrissen werden". Und er betonte: "Angriffe auf Zivilisten sind eine schwere Verletzung des humanitären Völkerrechts und sind gleichbedeutend mit Kriegsverbrechen."

Provinzstädte fallen wie Dominosteine
Seit Beginn des Abzugs der NATO-Truppen aus Afghanistan haben die radikalislamischen Taliban weite Teile des Landes unter ihre Kontrolle gebracht. In den vergangenen acht Tagen nahmen die Islamisten rund die Hälfte der 34 afghanischen Provinzhauptstädte ein. Am Freitag standen sie nach der Eroberung der Provinzhauptstadt Pul-i-Alam nur noch 50 Kilometer vor der Hauptstadt Kabul, wie ein Regionalabgeordneter der Provinz Logar mitteilte.

Taliban attackieren Masar-i-Scharif
Inzwischen haben die islamistischen Kämpfer auch einen Angriff auf die nördliche Stadt Masar-i-Scharif gestartet. Laut Munir Ahmad Farhad, Sprecher des Gouverneurs in der Provinz Balch, attackieren die Taliban die Stadt aus mehreren Richtungen. Es sei zu schweren Kämpfen in den Außenbezirken gekommen. Über Opferzahlen ist bisher nichts bekannt. In Masar-i-Scharif befand sich bis zum Ende des Afghanistan-Einsatzes das zentrale Feldlager der dort eingesetzten Bundeswehrsoldaten.

Die Taliban hatten während ihrer Herrschaft von 1996 bis 2001 eine strenge Auslegung des islamischen Rechts in Afghanistan eingeführt. Mädchen waren von Bildung, Frauen vom Arbeitsleben ausgeschlossen. Straftaten wurden mit öffentlichen Auspeitschungen oder Hinrichtungen geahndet.

Soll Kabul abgeschnitten werden?
Nach Ansicht des US-Verteidigungsministeriums versuchen die Taliban, Kabul vom Rest des Landes abzuschneiden. Die afghanische Hauptstadt sei momentan aber nicht "unmittelbar bedroht", sagte der Sprecher des Pentagons, John Kirby.

Er warf zugleich der afghanischen Führung und den Sicherheitskräften mangelnde Kampfbereitschaft vor. Es sei "beunruhigend" zu sehen, dass die politische und militärische Führung nicht den
Willen gehabt habe, sich dem Vormarsch der militanten Islamisten zu widersetzen. Die USA hätten diesen "fehlenden Widerstand" durch die afghanischen Streitkräfte nicht vorhersehen können. Mit Blick auf die finanzielle Unterstützung der US-Regierung fügte Kirby hinzu: "Geld kann keinen Willen kaufen."

Die USA sehen sich damit in dem Land am Hindukusch zunehmend auf sich selbst gestellt. Sie wollen auch deshalb 3000 zusätzliche Soldatinnen und Soldaten an den Flughafen in Kabul verlegen. Sie sollen unter anderem die Reduzierung des Personals der US-Botschaft unterstützen. Zudem verlegen die USA bis zu 4000 weitere Soldaten nach Kuwait und noch einmal rund 1000 nach Katar, um im Bedarfsfall als Verstärkung bereitzustehen. Der Abzug der US-Soldaten aus Afghanistan soll aber weiterhin bis zum 31. August abgeschlossen werden.

Seehofer macht Zugeständnisse
Bundesinnenminister Horst Seehofer kündigte an, er wolle die Einreise afghanischer Ortskräfte erleichtern und ihre Identität notfalls erst auf deutschem Boden überprüfen lassen. "Wenn die Klärung der Identität und die Erteilung der Visa in Afghanistan nicht möglich ist, kann sie in Deutschland durchgeführt werden", sagte der CSU-Politiker der "Süddeutschen Zeitung". Seehofer weiter: "Wir sind für jedes Verfahren offen. Am Bundesinnenministerium scheitert keine Einreise von Ortskräften."

Außenminister Heiko Maas (SPD) hatte als Konsequenz auf den Vormarsch der militant-islamistischen Taliban in Afghanistan eine Reduzierung des Botschaftspersonals in Kabul auf das "absolute Minimum" angekündigt. Für die Rückholaktion sollen zwei Flugzeuge gechartert werden, mit denen dann auch afghanische Ortskräfte nach Deutschland gebracht werden sollen, die für die Bundeswehr oder Bundesministerien tätig waren oder es noch sind.
"""

In [5]:
pipeline2(text)

1
2


In [7]:
text1 = """
Die deutsche Direktheit
Bei der deutschen Direktheit handelt es sich um ein bereits bekanntes Phänomen. Diejenigen, die sie nicht kennen, sind zunächst überrascht, wenn nicht sogar schockiert von der direkten Art. Unterschiedliche Nationen nehmen sie auf ganz verschiedene Art und Weise wahr.

Ein Brasilianer berichtet davon, wie er das erste Mal in einem deutschen Supermarkt einkaufen war. Er erledigte gemütlich seine Einkäufe und legte sie anschließend in seinem Tempo auf das Kassenband. Die Reaktion der Kassiererin war daraufhin, dass sie ihm sagte, er sollte jetzt mal bitte schneller machen.  


Aussagen wie: „Guten Tag zusammen. Wir sollten schnell mit den Verhandlungen beginnen! Ich habe folgenden Vorschlag, sind Sie mit mir einer Meinung…?“ (Frankfurter Rundschau: 2016), empfinden Japaner/-innen als sehr unhöflich, zu Beginn einer Geschäftsverhandlung. Sowas kann eine potenzielle Geschäftsbeziehung kaputt machen.   


Ein Amerikaner erzählt davon, wie er an der Universität ein Seminar besucht hat, welches von einem deutschen und einem amerikanischen Dozenten gehalten wurde. Während des Seminars hat einer der Teilnehmer immer wieder Fragen gestellt und damit den Zeitplan des Seminars durcheinandergebracht. Die Reaktion des amerikanischen Dozenten darauf war, dass er den Vorschlag äußerte, die Fragen doch bitte am Ende des Seminars zu stellen. Der deutsche Dozent unterbrach ihn und sagte, er solle doch jetzt ruhig sein, er nerve sie alle.  


Jedoch ist diese Direktheit in keiner Art und Weise unhöflich gemeint. Für Menschen, die in Deutschland aufgewachsen sind, bedeutet Direktheit, dass man aufrichtig und ehrlich ist, da man ein mögliches Problem sofort anspricht. Die Kommunikation dient zum Übermitteln von Informationen. Bei der Kommunikation steht die Sachlichkeit, also der tatsächliche Informationsaustausch, mehr im Vordergrund, da dadurch schneller und effizienter gehandelt werden kann. Im Fokus der Kommunikation steht nicht das „wie“, sondern viel mehr das „was“. Das Motto lautet: Wie komme ich so effizient wie möglich an mein Ziel? 


Durch den Prozess der Industrialisierung und dem wirtschaftlichen Aufschwung, der nach 1945 stattgefunden hat, ist das Bewusstsein für effizientes Arbeiten entstanden. Man behebt am schnellsten Probleme, indem man sie direkt anspricht. Aus diesem Grund hat sich die direkte Kommunikation durchgesetzt. Effizientes Arbeiten bedeutet, dass Probleme direkt erkannt und gelöst werden.  


Zu der Direktheit gehört auch das Äußern von Kritik. In der deutschen Berufswelt ist konstruktive Kritik sehr angesehen, denn es gibt immer etwas zu verbessern. Äußert jemand direkt Kritik, wird das nicht als negativ gewertet, sondern als Verbesserungsmöglichkeit, welche man sich in Ruhe anhören kann und dann entscheiden kann, inwieweit man die Kritik sinnvoll findet und annehmen möchte. Wichtig dabei ist jedoch, dass darauf geachtet wird, wie Kritik geäußert wird. Es macht einen Unterschied, ob gesagt wird, dass jemand seine Arbeit schlecht macht oder ob geäußert wird, dass man das Layout des Firmennamens gerne etwas auffälliger gestaltet hätte. Verbesserungsvorschläge sind jederzeit zu gebrauchen und können wirklich hilfreich sein.  


Ein weiterer Aspekt der deutschen Kommunikation, der oft als zu direkt, wenn nicht sogar schon als beleidigend wahrgenommen wird, ist „Nein“ zu sagen. Es ist völlig normal, wenn man eine Person fragt, ob sie Lust hat, wandern zu gehen, dass die Person dann antwortet: „Nein, ich gehe nicht gerne wandern“. Dies ist in keiner Weise unhöflich gemeint. Es wurde ein Vorschlag gemacht und dieser kann angenommen oder abgelehnt werden. Dazu eignen sich „Ja“ und „Nein“. Ein „Nein“ bedeutet auch wirklich „Nein“ und ist keine Aufforderung dazu nochmal gefragt zu werden. 


Von vielen anderen Nationalitäten wird diese offensichtliche Verneinung als beleidigend wahrgenommen. In Brasilien zum Beispiel wird das Wort „Nein“ so gut wie gar nicht gebraucht, da es als sehr unhöflich wahrgenommen wird. Ist man zum Beispiel bei einer brasilianischen Familie zum Essen eingeladen und wird gefragt, ob man gerne Fisch isst, obwohl man keinen Fisch mag, sollte man nicht sagen, dass man keinen Fisch mag. Stattdessen würde man so etwas sagen, wie: „Ich esse Fisch normalerweise nicht, aber dieser ist sehr lecker.“ Damit wird vermieden, das Wort „Nein“ zu benutzen, um niemanden vor den Kopf zu stoßen. 


Solche Regeln in der Kommunikation können oft zu Missverständnissen führen, wenn die Regeln den betreffenden Personen nicht bekannt sind. Wichtig ist im Hinterkopf zu behalten, dass oftmals keine böse Absicht dahintersteckt. Elena, eine Britin, die einige Jahre in Deutschland gelebt hat, berichtet dem Spiegel 2017, dass sie die deutsche Direktheit vermisst, denn die Deutschen sagen einfach, was sie denken. Direktheit kann auch sehr praktisch sein, wenn man sich daran gewöhnt hat.  


Ist dir schon einmal ein derartige Situation in Deutschland passiert und wenn ja, wie bist du damit umgegangen?

"""

text2 = """
Persönlichkeitsunterschiede im Job
Introvertierte und Extrovertierte – manchmal scheinen sie wie zwei völlig verschiedene Spezies. Die einen ruhig und nachdenklich, die anderen redefreudig und impulsiv. Kein Wunder, dass es da auch am Arbeitsplatz hin und wieder zu Schwierigkeiten kommen kann. Doch diese lassen sich mit ein wenig Empathie beheben.

Wer kennt sie nicht? Die energiegeladene Kollegin, die den ganzen Tag reden könnte oder den reservierten Kollegen, der so gut wie nie etwas von sich preisgibt. Und mindestens eines davon hat jeden bestimmt schon einmal genervt. Dies ist wahrscheinlich in den unterschiedlichen Persönlichkeiten begründet bzw. darin, dass eine/r zu den Extrovertierten und der/die andere zu den Introvertierten gehört. 


Der Schweizer Psychoanalytiker Carl Gustav Jung führte diese Begriffe erstmals im Jahr 1921 ein. Extrovertierte werden dabei dadurch charakterisiert, dass sie viel Stimulation aus ihrer externen Umgebung benötigen und diese vor allem aus der Interaktion mit ihren Mitmenschen sowie aufregenden Aktivitäten ziehen. Introvertierte hingegen benötigen weitaus weniger dieser externen Stimulation und ziehen ihre Energie aus eher ruhigeren Umgebungen sowie der Auseinandersetzung mit ihren eigenen Gedanken und Gefühlen. 


Dies ist nicht nur psychologisch begründet, sondern auch neurobiologisch. Das Belohnungssystem des Gehirns ist bei Extrovertierten aktiver, was dazu führt, dass externe Stimulationen und die Aussicht auf Belohnungen die Produktion des Neurotransmitters Dopamin anregen, wodurch sich Extrovertierte energiegeladen und motiviert fühlen. Diese Dopamin-Produktion ist bei Introvertierten durch dieselben Aktivitäten deutlich geringer und Wohlbefinden stellt sich bei ihnen vielmehr durch die Produktion des Neurotransmitters Acetylcholin ein, welches vor allem durch Ruhe und Zeit alleine entsteht. 


Das bedeutet jedoch nicht, dass Introvertierte isolierte, ungesellige Alleingänger sind und auch Schüchternheit ist nicht gleichzusetzen mit Introversion. Das Sozialverhalten und der Kommunikationsstil sind schlichtweg anders als bei Extrovertierten. Aber wie genau können Intro- und Extrovertierte dann konkret erfolgreich kommunizieren und zusammenarbeiten? Die folgenden Tipps können dabei helfen.


Arbeiten und Kommunizieren mit Introvertierten:


1) Introvertierte bevorzugen die Gesellschaft kleiner Gruppen und/oder vertrauter Personen. Führungskräften wird daher empfohlen, Meetings in möglichst kleinen Runden abzuhalten und Aufgaben, welche häufige Kontakte mit (vielen) unbekannten Personen involvieren eher Extrovertierten zu überlassen. 


2) Planung und Vorbereitung sind Introvertierten sehr wichtig. Jegliche Vorankündigungen wie beispielsweise das Zusenden der Tagesordnung vor einem Meeting ermöglichen ihnen, sich ausreichend vorzubereiten und dadurch letztendlich auch mehr zu einem Thema beitragen zu können.


3) Eng damit verbunden ist auch die Präferenz der schriftlichen Kommunikation. Introvertierte werden Kollegen und Geschäftspartnern daher eher eine E-Mail schreiben anstatt sie anzurufen und werden es zu schätzen wissen, wenn sich Extrovertierte ebenfalls zumindest schriftlich ankündigen, bevor sie zum Hörer greifen oder persönlich bei ihnen vorbeischauen. 


4) Introvertierte werden in Meetings eher selten das Wort ergreifen oder spontan ihre Meinung äußern. Das heißt allerdings nicht, dass sie keine Meinung haben. Sie sollten daher gezielt angesprochen werden, am besten nach dem Meeting, wenn sie die Gelegenheit hatten, das Gehörte zu verarbeiten und ihre Gedanken diesbezüglich zu sortieren. 


5) Introvertierte brauchen Zeit, um ihre Kollegen kennenzulernen. Vertrauen aufzubauen dauert bei ihnen zwar vielleicht länger, sie sind deshalb jedoch nicht unnahbar oder desinteressiert an Gesprächen bzw. einem Kontaktaufbau.


6) Extrovertierte sollten im Hinterkopf behalten, dass Introvertierte Ruhe benötigen, um ihre Energiespeicher aufzufüllen und konzentriert arbeiten zu können. Darum sollte ihnen auch hin und wieder Zeit für sich gelassen werden.


7) Introvertierte ziehen tiefe Gespräche Small Talk vor. Eine Verbindung zu ihnen baut man daher am besten und schnellsten über Themen auf, für die sie sich begeistern und zu denen sie viel beitragen können. Dann können auch Introvertierte überraschend redefreudig sein.  


8) Introvertierten Mitarbeitenden sollten, sofern möglich, geräuschärmere Bereiche oder eigene Büros zum Arbeiten zur Verfügung gestellt werden. Auch Home-Office ist eine gute Möglichkeit, ihnen die ruhige Arbeitsumgebung zu bieten, die sie für eine möglichst hohe Produktivität und Konzentration benötigen.  


Arbeiten und Kommunizieren mit Extrovertierten:


1) Es empfiehlt sich, Small Talk zu trainieren. Dieser sollte als Möglichkeit gesehen werden, mehr über die extrovertierten Kollegen zu erfahren und so auf Themen zu kommen, bei denen man später mehr in die Tiefe gehen kann. Introvertierte können sich beispielsweise im Voraus ein paar Dinge aus ihrem privaten Leben überlegen, die sie mit ihren extrovertierten Kollegen teilen könnten, ohne dass sie sich dabei unwohl fühlen. So können sie ihnen die Chance geben, sie näher kennenzulernen und Vertrauen aufzubauen. 


2) Führungskräfte sollten Extrovertierten bevorzugt abwechslungsreiche Aufgaben geben, welche Kontakte mit vielen unterschiedlichen Personen beinhalten, mit denen sie sich austauschen und gemeinsam Lösungen erarbeiten können. So bleiben sie motiviert und es wird ihnen garantiert nicht langweilig.


3) Extrovertierte äußern gerne spontan ihre Gedanken und tauschen Ideen aus. Introvertierte sollten sich vor allem bei Meetings und Konferenzen darauf vorbereiten und, falls möglich, ein paar inhaltliche Argumente im Voraus zurechtlegen. In jedem Fall hilft es, den Extrovertierten vertiefende Folgefragen zu stellen, damit man spontane Gedanken gemeinsam ausarbeiten und voneinander profitieren kann.


4) Es sollte stets im Hinterkopf behalten werden, dass Extrovertierte ihre Energie und Motivation aus der Interaktion mit anderen ziehen. Man sollte ihnen also auch Raum zum Reden geben und es als Introvertierte nicht persönlich nehmen, wenn man hin und wieder bei einem Gespräch unterbrochen wird. Führungskräfte sollten dennoch darauf achten, dass introvertierte Mitarbeitende dadurch nicht untergehen und beispielsweise in Meetings entsprechend moderieren. 


5) Es wird davon abgeraten, extrovertierten Kollegen lange, detaillierte E-Mails zu schreiben. Stattdessen wird empfohlen, sich auf die wesentlichen Punkte zu konzentrieren oder ein persönliches Gespräch zu arrangieren, in welchem Details dann ausführlich besprochen werden können.


6) Offene Büros sind für extrovertierte Mitarbeitende ideal. Sie sollten dabei in möglichst „lebendigen“ Bereichen platziert werden, in denen viel Interaktion stattfindet. Ruhigere Ecken sollten für die introvertierten Mitarbeitenden aufgehoben werden. 


7) Lob auszusprechen ist für die Motivation von introvertierten Mitarbeitenden selbstverständlich ebenso wichtig wie für die von extrovertierten. Da Extrovertierte jedoch ein aktiveres Belohnungssystem besitzen, ist Lob (natürlich sofern es gerechtfertigt ist) bei ihnen gleich doppelt so wirksam. 


8) Introvertierte sollten ihren extrovertierten Kollegen gegenüber stets bestimmt sein und kommunizieren, wenn sie mehr Zeit, Ruhe o.Ä. für etwas brauchen, auch wenn ihnen das vielleicht unangenehm ist. Möglicherweise ist den Extrovertierten gar nicht bewusst, dass sie ihre introvertierten Kollegen gerade in eine stressige Lage bringen. Solange man höflich bleibt, werden sie danach bestimmt Verständnis zeigen.


Dies sind sicherlich nur ein paar Beispiele, um Problemen zwischen Intro- und Extrovertierten am Arbeitsplatz vorzubeugen. In erster Linie gilt stets: Miteinander sprechen! Nur so können Missverständnisse aus dem Weg geräumt werden und eine erfolgreiche Zusammenarbeit entstehen.


Zählst du eher zu den Introvertierten oder zu den Extrovertierten? Stimmst du den Empfehlungen zu? Womit könnte man die Liste noch ergänzen? Tausche dich mit den anderen Lernenden aus.
"""

text3 = """
Innovation in der DNA
Welche Eigenschaften haben Menschen, die sich durch innovative Ideen auszeichnen? Was haben sie gemeinsam? Ist es möglich, sie unter Tausenden zu erkennen? Eine sechsjährige Studie versuchte, diese Fragen zu beantworten.

In dem Bewusstsein, dass Innovationsfähigkeit eine wesentliche Eigenschaft für den Erfolg und das Überleben eines Unternehmens ist, fragen sich Top-Manager/-innen oft, wie sie innovative Mitarbeitende finden sowie selbst innovativer werden können. 


Drei Universitätsprofessoren und Forscher haben deshalb sechs Jahre lang innovative Unternehmer/-innen und Manager/-innen beobachtet und interviewt, um zu verstehen, was diese voneinander unterscheidet und den einen zum Steve Jobs und die andere zur Besitzerin eines Franchise-Geschäfts macht. Diese Studie führte zur Entdeckung von fünf essenziellen Fähigkeiten, welche diejenigen charakterisieren, die einhellig als Innovatoren bzw. Innovatorinnen angesehen werden und nach Ansicht der Wissenschaftler das besitzen, was sie als "DNA des Innovators" bezeichnen:


1. Die Fähigkeit, Assoziationen zu bilden bzw. Elemente (Probleme, Ideen, Fragen, ...) zu verknüpfen, die auf den ersten Blick keinen direkten Bezug zueinander haben: Dieses Phänomen wurde von dem Unternehmer Frans Johansson als "Medici-Effekt" beschrieben, welcher sich auf die kreative Explosion in Florenz bezieht, als die Medici-Familie Menschen aus verschiedenen Disziplinen (Dichtung, Bildhauerei, Architektur, Philosophie, Malerei,...) zusammenbrachte und durch die Interaktion zwischen verschiedenen Wissens- und Tätigkeitsbereichen eine Periode außergewöhnlicher Kreativität herbeiführte, die man heute als Renaissance kennt. Das Gehirn assoziiert Ideen basierend auf den Erfahrungen, die gemacht wurden. Je vielfältiger diese Erfahrungen sind, desto mehr ist das Gehirn in der Lage, nicht offensichtliche Assoziationen zu erzeugen. 


2. Die Fähigkeit, Fragen zu stellen: Wie jemand einmal sagte: "Das Wichtigste ist nicht, die richtigen Antworten zu finden, sondern die richtigen Fragen zu stellen". Während Unternehmer/-innen sich fragen, wie sie bestehende Prozesse verbessern können, denken Innovatoren und Innovatorinnen darüber nach, wie sie den Status quo und die traditionelle Denkweise in Frage stellen können und fragen sich selbst: "Wenn wir XY tun würden, was würde dann passieren"?


3. Die Fähigkeit zu beobachten: Innovatoren und Innovatorinnen beobachten sorgfältig die Welt um sich herum, egal ob es sich um potenzielle Kunden, Lieferanten, konkurrierende Unternehmen oder normale Menschen handelt, die arbeiten und ihren täglichen Aktivitäten nachgehen. Dadurch erhalten sie Einblicke und folglich Ideen, wie bestimmte Dinge auf eine neue Art und Weise erledigt werden können.  


4. Die Fähigkeit zu experimentieren: Genau wie Wissenschaftler und Wissenschaftlerinnen testen auch Innovatoren und Innovatorinnen aktiv ihre Ideen, erstellen Prototypen und initiieren Pilotprojekte. Das Leben und Arbeiten im Ausland ist beispielsweise eine nützliche Erfahrung, um innovative Ideen zu stimulieren: Es scheint, dass, je mehr Länder eine Person besucht hat, desto wahrscheinlicher ist es, dass sie diese Erfahrungen nutzt, um innovative Dienstleistungen oder Produkte zu erschaffen. Tatsächlich zeigen Untersuchungen, dass Unternehmen, die von CEOs geführt werden, welche vor deren Ernennung mindestens eine internationale Erfahrung gesammelt haben, finanziell besser abschneiden als Unternehmen, die von CEOs ohne diese Erfahrung geführt werden. 


5. Networking: Innovative Unternehmer/-innen treffen und sprechen mit Menschen aus verschiedenen Berufsfeldern und mit unterschiedlichen Sichtweisen, um ihr Wissen zu erweitern und die Dinge aus einer anderen Perspektive zu sehen.


Die gute Nachricht ist, dass wir, auch wenn wir nicht mit der richtigen DNA geboren wurden, trotzdem zu Innovator/-innen werden können, indem wir die fünf oben beschriebenen Fähigkeiten regelmäßig trainieren, sodass die entsprechenden Verhaltensweisen mit der Zeit automatisiert werden. Kurz gesagt: Innovatoren und Innovatorinnen werden nicht als solche geboren, sondern zu diesen gemacht. 

Pregunta
Stimmst du den Forschungsergebnissen zu, dass Innovator/-innen nicht geboren, sondern gemacht werden? Sind deiner Meinung nach noch andere Fähigkeiten erforderlich, um innovative Ideen entwickeln zu können?
"""

In [8]:
pipeline2(text1)

1
2


In [9]:
pipeline2(text2)

1
2


In [10]:
pipeline2(text3)

1
2


In [None]:
wordfreq.word_frequency("hay","es")

In [None]:
wordfreq.word_frequency("había","es")

In [None]:
wordfreq.word_frequency("hubo","es")

In [None]:
wordfreq.word_frequency("haber","es")

In [None]:
wordfreq.word_frequency("abfahren","de")

In [49]:
his = pd.read_csv("history.csv",sep="|")

In [50]:
his["highlighted"].sum()

127

In [32]:
for i in doc:
    if i._.newword:
        print(i)

sehen
sehen
Tagen
gekommen
dort
sagte
sehen
diesen
sehen
wollen
wolle
erst
lassen
sagte
weiter


In [None]:
pd.Series(doc).apply(basewordfreq).apply(pd.Series)

# get a word
myword = 'masks'
# decide which language data to load
# apply it on a word form


In [None]:
pd.options.display.max_rows = 999

In [None]:
dfv2 = dfvocab.dropna()

In [None]:
len(dfaux[dfaux["highlighted"]])

In [None]:
True|False

In [None]:
dfaux[dfaux["highlighted"]]

In [None]:
dfex

In [None]:
dfaux["highlight"]

In [None]:
auxfreq = dfv2[1].value_counts().reset_index()

In [None]:
auxfreq.columns = 1, "times"

In [None]:
auxfreq= pd.merge(dfv2[[1,2]].groupby(1)[2].max().reset_index(),auxfreq)

In [None]:
auxfreq["highlight"] = auxfreq[2]>0.01

In [None]:
auxfreq

In [None]:
from german_lemmatizer import lemmatize

lem =lemmatize(
    ['Johannes war ein guter Schüler', 'Sabiene sang zahlreiche Lieder'],
    working_dir='*',
    chunk_size=10000,
    n_jobs=1,
    escape=False,
    remove_stop=False)

In [None]:
le

In [None]:
dfvocab

In [None]:
pd.Series(doc).apply(processvocabulary)

In [None]:
nlp("Morgen rufe ich dich an")[-1].pos_

In [None]:
from datetime import date


In [None]:
not True

In [None]:
for i in doc:
    if i.pos_ == "PROPN":
        print(i)

In [None]:
def newwordchecker(doc,user):
    today = date.today()
    d1 = today.strftime("%Y/%m/%d")
    historyname = "history.csv"
    targetvocabularyname = user+"/000_history/targetvocabulary.csv"
    auxiliarname = user+"/000_history/auxdictionary.csv"
    
    
    #CREATION/CHARGE DATASETS
    aux = pd.read_csv(auxiliarname,sep="|")
    targetvocabulary = pd.read_csv(targetvocabularyname,sep="|")
    try:
        history = pd.read_csv(history, sep ='|')
    except:
        history = pd.DataFrame(columns = ["word","pos","firsttime","lasttime","counter_text","counter_word"])
    if "firsttime" not in targetvocabulary.columns:
        for i in ["firsttime","lasttime"]:
            targetvocabulary[i] = "never"
        for i in ["counter_text","counter_word"]:
            targetvocabulary[i] = 0
        
    newwords = pd.DataFrame(columns = ["word","pos","firsttime","lasttime","counter_text","counter_word"])
    oldwords = []
    
    
    
    for x in doc:
        if x.pos_ not in ["NUM","X","PROPN","SPACE","PART","PUNCT"]:
            if (x.pos_ in ["NOUN","PROPN"]):
                entries = wordfinder(aux, x.lemma_, "NOUN")
            elif (x.pos_ in ["AUX","VERB"]):
                sep = "REFLEXIVE_VERB" in x._.att_li["aux_labels"]
                entries = wordfinder(aux, x.lemma_.lower(), "VERB",x._.att_li["aux_string"] ,sep)
            else:
                entries = wordfinder(aux, x.lemma.lower(),"OTHERS_clean_complete")
                
            if len(entries) == 0:
                continue
                
            for i in entries:
                
                selectedrowsvocab = targetvocabulary[targetvocabulary["entries"]==i]
            
            if (x.pos_ != "NOUN") and (x.pos_ != "PROPN"):
                word =x._.att_li["aux_string"]+x.lemma_.lower()
            else:
                word = x._.att_li["aux_string"]+x.lemma_
            word2 = nlp(word)[0]#.lemma_
            if word2.pos_ == x.pos_:
                word = word2.lemma_
            rowword = wordlist[wordlist["word"]==word]
            if (len(rowword)==1):
                index = rowword.index[0]
                if x.pos_ not in wordlist.loc[index,"pos"]:
                    wordlist.loc[index,"pos"] += " "+x.pos_
                wordlist.loc[index,"lasttime"] = today.strftime("%Y/%m/%d")
                if (word not in oldwords):
                    wordlist.loc[index,"counter"] += 1
                    oldwords.append(word)
            if len(rowword)==0:
                x._.newword= True
                if word not in list(newwords["word"]):
                    newwords = newwords.append({"word":word,"pos": x.pos_, "firsttime":d1, "lasttime":d1,"counter":1},ignore_index=True)
                else:
                    index2 = newwords.loc[newwords["word"]==word].index[0]
                    if x.pos_ not in newwords.loc[index2, "pos"]:
                        newwords.loc[index2,"pos"] += " "+x.pos_
                    
    #newvocdf = pd.DataFrame(newwords)
    ff = pd.read_csv(vocabfile, sep = "|")
    report,listenriched = enrichnewvocabulary(newwords, ff)
    #render dataframe as html
    report = report.drop_duplicates()
    html = report.to_html()

    #write html to file
    text_file = open(folder+"/report.html", "w",encoding="utf-8")
    text_file.write(html)
    text_file.close()
    
    pd.concat([wordlist, report]).to_csv(wordlistname, sep ='|', index= False)

    if "counter" not in ff.columns:
        ff["counter"] = 0
        ff["firsttime"] = "never"
        ff["lasttime"] = "never"
        
    ff.loc[ff["entries"].apply(lambda x: x in listenriched), "counter"]+=1
    ff.loc[(ff["entries"].apply(lambda x: x in listenriched))&(ff["firsttime"]=="never"), "firsttime"] = d1
    ff.loc[ff["entries"].apply(lambda x: x in listenriched), "lasttime"]=d1
    ff.to_csv(vocabfile, sep ='|', index= False)

In [None]:
pd.Series(doc)

In [None]:
def wordknowledge(x, mode):
    if mode == "writing":
        