Здесь находится код для проектной работы по компьютерной лингвистике. Цель проекта: проанализировать корпус текстов на немецком языке по тематике "Индустрия 4.0" и извлечь из него список ключевых слов, используя модель tf-idf.  

Шаг 1: загрузка коллекции текстов и сохранение этих текстов в переменные (а также добавление их в список).
На выходе получаем список из восьми элементов строкового типа.

In [None]:
import os
os.mkdir('digitalisierung')

In [36]:
project_texts = []

In [42]:
for i in os.listdir('digitalisierung'):
 with open('digitalisierung/' + i) as f:
  textde = f.read()
  project_texts.append(textde)

Шаг 2: нормализация текстов. После приведения к нижнему регистру и удалению пунктуации выяснилось, что в некоторых словах мелькает нечитаемый символ, который пришлось удалять дополнительно регулярным выражением.

In [4]:
import string
import re
def normalize(i):
  normalized1 = i.lower().translate(str.maketrans('' , '', string.punctuation))
  normalized2 = re.sub('￾', '', normalized1)
  return normalized2

normalized_project_texts = []
for i in project_texts:
  normalize(i)
  normalized_project_texts.append(normalize(i))

In [None]:
print(normalized_project_texts[1]) # код для проверки

Шаг 3: токенизация. Удаление пунктуации, цифр, а также стоп-слов на немецком и английском.

In [None]:
!pip install nltk

from nltk.tokenize import word_tokenize, wordpunct_tokenize, sent_tokenize

from nltk import download
download('punkt')
download('stopwords')
from nltk.corpus import stopwords
stop_words = stopwords.words('german', 'english')


In [7]:
def tokenize(i):
  tokenized1 = word_tokenize(i)
  tokenized2 = [word for word in tokenized1 if word not in stop_words and word[0].isalpha()]
  return tokenized2

tokenized_project_texts = []
for i in normalized_project_texts:
  tokenized_project_texts.append(tokenize(i))


In [None]:
print(type((tokenized_project_texts[2]))) # код для проверки

Шаг 4: лемматизация токенов при помощи Hanover Tagger (HanTa).


In [None]:
! pip install HanTa
from HanTa import HanoverTagger as ht

tagger_de = ht.HanoverTagger('morphmodel_ger.pgz')

In [9]:
# функция для лемматизации списка токенов внутри одного текста:

def lemmatize(token):
    lemma = tagger_de.analyze(token)
    return lemma

In [10]:
texts_for_vectorizing = [] # сюда будут сохраняться лемматизированные тексты-строки

In [11]:
# лемматизация списка токенов, превращение результата в строку, сохранение строки в пустой список - для первого текста:

lemmas_tuples1 = []
for token in tokenized_project_texts[0]:
  lemmas_tuples1.append(lemmatize(token))
lemmas_list1 = []
for pair in lemmas_tuples1:
  lemmas_list1.append('_'.join(pair))

lemmas_string1 = ' '.join(lemmas_list1)
print(lemmas_string1)
texts_for_vectorizing.append(lemmas_string1)

Forschungsbeirat_NN wandlungsfähig_ADJ(A) menschzentriert_ADJ(A) Struktur_NN Fabrik_NN Netzwerk_NN Industrie_FM Vorwort_NN zunehmend_ADJ(A) Individualisierung_NN marktbedingen_VV(PP) verstärkt_ADJ(A) Produktinnovation_NN führen_VV(INF) Variantenvielfalt_NN verkürzt_ADJ(A) produktlebenszykl_ADJ(A) produzierend_ADJ(A) unternehmen_VV(INF) bedeuten_VV(FIN) kurzzyklisch_ADJ(A) Produktion_NN neu_ADJ(A) Variante_NN innovativ_ADJ(A) Produkt_NN Kerngeschäft_NN erfolgreich_ADJ(D) realisieren_VV(INF) Fähigkeit_NN rasch_ADJ(D) Veränderung_NN reagieren_VV(INF) wesentlich_ADJ(A) Erfolgsfaktor_NN erreichen_VV(INF) lassen_VV(FIN) Integration_NN Wandlungsfähigkeit_NN unternehmen_VV(INF) bereits_ADV heute_ADV leisten_VV(INF) Technologie_NN Industrie_FM Fabrik_NN Netzwerk_NN zielgerichtet_ADJ(A) Beitrag_NN Erhöhung_NN Wandlungsfähigkeit_NN konkret_ADJ(A) Auswirkung_NN Wandlungsfähigkeit_NN Industrie_FM jedoch_ADV ausreichend_ADJ(D) untersuchen_VV(PP) Interdependenz_NN Industrie_FM Organisation_NN Mitarbe

In [None]:
# ниже - повторение предыдущей операции для последующих семи текстов:

In [12]:
# для второго текста:
lemmas_tuples2 = []
for token in tokenized_project_texts[1]:
  lemmas_tuples2.append(lemmatize(token))
lemmas_list2 = []
for pair in lemmas_tuples2:
  lemmas_list2.append('_'.join(pair))

lemmas_string2 = ' '.join(lemmas_list2)
print(lemmas_string2)
texts_for_vectorizing.append(lemmas_string2)

Forschungsbeirat_NN themenfelder_ADJ(A) Industrie_FM Forschung_NN Entwicklungsbedarf_NN erfolgreich_ADJ(A) Umsetzung_NN Industrie_FM Einleitung_NN Digitalisierung_NN ermöglichen_VV(FIN) Realisierung_NN Industrie_FM viert_ADJ(A) industriell_ADJ(A) Revolution_NN Umbruch_NN hinsichtlich_APPR neu_ADJ(A) Technologie_NN formen_VV(FIN) Arbeit_NN Unternehmensorganisation_NN Geschäft_NN beziehungsweise_KON erlösmodell_ADJ(A) Wertschöpfungsnetzwerk_NN dynamisch_ADJ(A) digital_ADJ(A) Ökosystem_NN potenzial_ADJ(D) gesellschaftlich_ADJ(D) übergreifend_ADJ(A) Wirkung_NN entfalten_VV(INF) heute_ADV vollständig_ADJ(D) erfassen_VV(INF) lassen_VV(FIN) Einsatz_NN cyberphysisch_ADJ(A) System_NN Cp_NE der_PRELAT umfassend_ADJ(A) Vernetzung_NN Grundlage_NN Wandel_NN Basis_NN lassen_VV(INF) Zulieferung_NN Fertigung_NN Wartung_NN Auslieferung_NN Kundenservice_NN miteinander_ADV verknüpfen_VV(INF) starr_ADJ(A) wertschöpfungskett_ADJ(A) hochflexibl_ADJ(A) Wertschöpfungsnetzwerke_NE verwandeln_VV(INF) Industrie_

In [13]:
# для третьего текста:
lemmas_tuples3 = []
for token in tokenized_project_texts[2]:
  lemmas_tuples3.append(lemmatize(token))
lemmas_list3 = []
for pair in lemmas_tuples3:
  lemmas_list3.append('_'.join(pair))
lemmas_string3 = ' '.join(lemmas_list3)
print(lemmas_string3)
texts_for_vectorizing.append(lemmas_string3)

schnell_ADJ(D) Markterfolg_NN Memorandum_NN Forschungsbeirat_NN Plattform_NN Industrie_FM agil_ADJ(A) flexibel_ADJ(A) Innovationssystem_NN Deutschland_NE Memorandum_NN nehmen_VV(FIN) Bezug_NN Innovationssystem_NN Deutschland_NE ganz_ADJ(A) rahmen_VV(FIN) innerhalb_APPR neu_ADJ(A) Innovation_NN Form_NN Produkt_NN verfahren_VV(INF) Dienstleistung_NN Geschäftsmodell_NN entstehen_VV(INF) Memorandum_NN Impuls_NN Weiterentwicklung_NN verstehen_VV(INF) motivieren_VV(PP) Erfahrung_NN Mitglied_NN Forschungsbeirat_NN treiben_VV(PP) digital_ADJ(A) Wandel_NN weltweit_ADJ(D) seit_APPR Jahr_NN anhaltend_ADJ(A) Beschleunigung_NN Forschung_NN Entwicklungsprozeß_NN feststellen_VV(IZU) betreffen_VV(FIN) Entwicklung_NN digital_ADJ(A) Hard_FM Software_NN kommend_ADJ(A) Plattformökonomie_NN kaum_ADV Disziplin_NN Branche_NN hiervon_PROAV ausnehmen_VV(PP) immer_ADV agil_ADJ(A) zunehmend_ADJ(D) interdisziplinär_ADJ(A) Entwicklungsmethode_NN kennzeichnen_VV(INF) Wandel_NN entlang_APPR gesamt_ADJ(A) Innovations

In [14]:
# для четвёртого текста:
lemmas_tuples4 = []
for token in tokenized_project_texts[3]:
  lemmas_tuples4.append(lemmatize(token))
lemmas_list4 = []
for pair in lemmas_tuples4:
  lemmas_list4.append('_'.join(pair))
lemmas_string4 = ' '.join(lemmas_list4)
print(lemmas_string4)
texts_for_vectorizing.append(lemmas_string4)

Acatech_FM Studie_NN Industrie_FM Maturity_FM Index_NN digital_ADJ(A) Transformation_NN unternehmen_VV(INF) gestalten_VV(INF) updat_ADJ(A) Günther_NE Schuh_NN rein_ADJ(A) ander_PIAT Roman_NE Dumitrescu_NE Antonio_NE Krug_NN Michael_NE Ten_FM Hompel_NE Hrsg_NN Vorwort_NN unternehmen_VV(INF) stehen_VV(FIN) immer_ADV neu_ADJ(A) Herausforderung_NN traditionell_ADJ(A) Markt_NN Plattform_NN verändern_VV(PP) neu_ADJ(A) Technologie_NN Arbeitsmethode_NN verkürzen_VV(INF) innovationszykl_ADJ(A) Klimawandel_NN Ressourcenknappheit_NN erfordern_VV(FIN) zirkulär_ADJ(A) Wirtschaftsansatz_NN Kompetenz_NN Resilienz_NE Reaktion_NN Anpassungsfähigkeit_NN verstärken_VV(PP) fragen_VV(PP) Wettbewerbsfähigkeit_NN Unternehmen_NN sichern_VV(INF) Industrie_FM werden_VA(FIN) viert_ADJ(A) industriell_ADJ(A) Revolution_NN einläuten_VV(PP) Fabrik_NN Zukunft_NN hypervernetzen_VV(PP) Smart_FM autonom_ADJ(D) bieten_VV(FIN) hoch_ADJ(A) Wandlungsfähigkeit_NN optimal_ADJ(A) Ressourceneinsatz_NN Industrie_FM Deutschland_N

In [15]:
# для пятого текста:
lemmas_tuples5 = []
for token in tokenized_project_texts[4]:
  lemmas_tuples5.append(lemmatize(token))
lemmas_list5 = []
for pair in lemmas_tuples5:
  lemmas_list5.append('_'.join(pair))
lemmas_string5 = ' '.join(lemmas_list5)
print(lemmas_string5)
texts_for_vectorizing.append(lemmas_string5)

Acatech_FM Kooperation_NN Industrie_FM Maturity_FM Index_NN betrieblich_ADJ(A) Anwendung_NN aktuell_ADJ(A) Herausforderung_NN Fallbeispiel_NN Entwicklungstrend_NN Günther_NE Schuh_NN rein_ADJ(A) ander_PIAT Roman_NE Dumitrescu_NE Antonio_NE Krug_NN Michael_NE Ten_FM Hompel_NE Hrsg_NN Zusammenfassung_NN Erfahrung_NN drei_CARD Jahr_NN Anwendung_NN Acatech_FM Industrie_FM Maturity_FM Index_NN zeigen_VV(FIN) viert_ADJ(A) industriell_ADJ(A) Revolution_NN Implementierung_NN einzeln_ADJ(A) isoliert_ADJ(A) Prototyp_NN umsetzen_VV(INF) lassen_VV(FIN) deutsch_ADJ(A) produzierend_ADJ(A) Industrie_FM mittlerweile_ADV erkennen_VV(PP) vielmehr_ADV stehen_VV(FIN) heute_ADV Gestaltung_NN systematisch_ADJ(A) Transformationsprogramm_NN Fokus_NN klar_ADJ(A) Mehrwert_NN abzielen_VV(INF) stringent_ADJ(D) strukturieren_VV(PP) Einsatz_NN Acatech_FM Industrie_FM Maturity_FM Index_NN seit_APPR Veröffentlichung_NN Acatech_FM Studie_NN drei_CARD Jahr_NN Industrie_FM Maturity_FM Index_NN praktisch_ADJ(A) Werkzeug_

In [16]:
# для шестого текста:
lemmas_tuples6 = []
for token in tokenized_project_texts[5]:
  lemmas_tuples6.append(lemmatize(token))
lemmas_list6 = []
for pair in lemmas_tuples6:
  lemmas_list6.append('_'.join(pair))
lemmas_string6 = ' '.join(lemmas_list6)
print(lemmas_string6)
texts_for_vectorizing.append(lemmas_string6)

Industrie_FM deutsch_ADJ(A) Industrie_FM Index_NN Studie_NN staufen_VV(INF) Ag_NN staufen_VV(INF) digital_ADJ(D) Neonex_FM Gmbh_NN editorial_ADJ(D) lieben_VV(FIN) Leserin_NN Leser_NN gut_ADJ(A) Index_NN gut_ADJ(A) Wein_NN reifen_VV(FIN) alt_ADJ(A) gelten_VV(FIN) deutsch_ADJ(A) Industrie_FM Index_NN bereits_ADV fünft_ADJ(A) Jahr_NN Folge_NN ermitteln_VV(PP) werden_VA(FIN) somit_ADV viel_PIAT interessant_ADJ(A) Zeitreihe_NN liefern_VV(FIN) enorm_ADJ(A) Dynamik_NN digital_ADJ(A) Transformation_NN konkret_ADJ(D) sichtbar_ADJ(D) ergänzen_VV(PP) zahlreich_ADJ(A) Statement_NN laufen_VV(FIN) Jahr_NN fast_ADV Index_NN befragt_ADJ(A) unternehmen_VV(INF) stellen_VV(FIN) ausdrücklich_ADJ(D) bedanken_VV(INF) möchten_VM(FIN) Studie_NN mittlerweile_ADV spannend_ADJ(A) Abbild_NN jung_ADJ(A) Wirtschaftsgeschichte_NN gewordend_ADJ(A) mögen_VM(FIN) angesichts_APPR Zeitraum_NN bisher_ADV Monat_NN vielleicht_ADV Nummer_NN groß_ADJ(D) lohnen_VV(FIN) Blick_NN zurück_PTKVZ Analyse_NN Studienergebnis_NN anno_A

In [17]:
# для седьмого текста:
lemmas_tuples7 = []
for token in tokenized_project_texts[6]:
  lemmas_tuples7.append(lemmatize(token))
lemmas_list7 = []
for pair in lemmas_tuples7:
  lemmas_list7.append('_'.join(pair))
lemmas_string7 = ' '.join(lemmas_list7)
print(lemmas_string7)
texts_for_vectorizing.append(lemmas_string7)

Forschungsbeirat_NN Engineering_FM smart_ADJ(A) Produkt_NN Services_FM Plattform_NN Industrie_FM Studie_NN Michael_NE Abramovici_NE Hrsg_NN Einleitung_NN Durchdringung_NN Industrieprodukt_NN Unternehmensprozeß_NN Organisation_NN Internet_NN Datum_NN Mensch_NN Services_FM Ding_NN Internet_NN Of_FM Everything_FM führen_VV(FIN) letzt_ADJ(A) Jahr_NN viert_ADJ(A) Industrierevolution_NN Industrieunternehmen_NN stehen_VV(FIN) gewaltig_ADJ(A) Transformationsprozeß_NN gänzlich_ADJ(D) neu_ADJ(A) innovationspotenzial_ADJ(A) neu_ADJ(A) profitabel_ADJ(A) Geschäftsmodell_NN ermöglichen_VV(FIN) radikal_ADJ(A) Veränderung_NN bewältigen_VV(INF) eingehend_ADJ(A) potenzial_ADJ(A) ausschöpfen_VV(IZU) müssen_VM(FIN) unternehmen_VV(INF) Vielzahl_NN Herausforderung_NN überwinden_VV(INF) unternehmen_VV(INF) Umsetzung_NN Transformationsprozeß_NN unterstützen_VV(INF) werden_VA(FIN) Deutschland_NE weltweit_ADJ(D) verschieden_ADJ(A) Fachverband_NN Arbeitsgruppe_NN bilden_VV(PP) Vielzahl_NN Studie_NN durchführen_V

In [18]:
# для восьмого текста:
lemmas_tuples8 = []
for token in tokenized_project_texts[7]:
  lemmas_tuples8.append(lemmatize(token))
lemmas_list8 = []
for pair in lemmas_tuples8:
  lemmas_list8.append('_'.join(pair))
lemmas_string8 = ' '.join(lemmas_list8)
print(lemmas_string8)
texts_for_vectorizing.append(lemmas_string8)

Datenland_NN Deutschland_NE deutsch_ADJ(A) Technologiesektor_NN Hardware_NN Servicestandort_NN Executive_NE Summary_NE deutsch_ADJ(A) Technologiesektor_NN durchlaufen_VV(FIN) bemerkenswert_ADJ(A) Evolutionsprozeß_NN wesentlich_ADJ(A) Merkmal_NN gegensätzlich_ADJ(A) Entwicklung_NN beide_PIAT groß_ADJ(A) sektorsegment_ADJ(A) Hardware_NN Software_NN Services_FM unterscheiden_VV(INF) beträchtlich_ADJ(D) Entwicklungsdynamik_NN Hardwareumsatz_NN seit_APPR Jahr_NN stagnieren_VV(INF) Software_NN Services_FM inzwischen_ADV fundamental_ADJ(A) wachstumstreiber_ADJ(D) gesamt_ADJ(A) Technologiebranche_NN Ergebnis_NN vorliegend_ADJ(A) Untersuchung_NN zeigen_VV(FIN) Umsatz_NN deutsch_ADJ(A) Technologiebranche_NN Jahr_NN Prozent_NN fast_ADV Mrd_NN Euro_NE steigen_VV(INF) Techsektor_FM sieben_CARD Prozentpunkt_NN stark_ADJ(D) wachsen_VV(INF) nominal_ADJ(A) Bruttoinlandsprodukt_NN gleich_ADJ(A) Zeitraum_NN beflügeln_VV(PP) neu_ADJ(A) Megatrend_NN nehmen_VV(INF) nächst_ADJ(A) Monat_NN Investition_NN digi

In [None]:
print(len(texts_for_vectorizing[0])) # код для проверки


Шаг 5: создание векторов текстов и получение частотного списка по модели tf-idf. Использована функция из семинарской тетради (с минимальными изменениями, вектор внутри каждого кортежа преобразуется из числа в строку).

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 1))

In [21]:
def tfidfs(texts_for_vectorizing):
    number_of_texts = len(texts_for_vectorizing)
    tfidf_matrix = tfidf_vectorizer.fit_transform(texts_for_vectorizing)
    npm_tfidf = tfidf_matrix.todense()
    list_of_doc_vectors = []
    for index in range(number_of_texts):
        document_vector = npm_tfidf[index]
        list_of_doc_vectors.append(document_vector.tolist())

    tfidfs_for_texts = []
    types = tfidf_vectorizer.get_feature_names_out()
    for index in range(number_of_texts):
        types_tfidf = [(types[ind], str(list_of_doc_vectors[index][0][ind])) for ind in range(len(types))]
        tfidfs_for_texts.append(types_tfidf)

    return tfidfs_for_texts

In [22]:
print(tfidfs(texts_for_vectorizing)) # код для проверки

Output hidden; open in https://colab.research.google.com to view.

In [23]:
# сортировка полученных значений

sorted_tfidfs = sorted(tfidfs(texts_for_vectorizing)[0], key=lambda tup: tup[1], reverse=True)

In [None]:
print(len(sorted_tfidfs)) # код для проверки

In [24]:
# создание пустого списка и добавление в него строковых элементов: "лемма + вектор"

glossar0 = []
for element in sorted_tfidfs:
  glossar0.append(' '.join(element))

In [None]:
print(glossar0) # код для проверки

['fin 0.6221122506633039', 'inf 0.5423077636977488', 'pp 0.33372785458323007', 'prozent_nn 0.13163430333932183', 'unternehmen_vv 0.12333420712858502', 'digital_adj 0.09794187036681752', 'industrie_fm 0.09068691700631251', 'neu_adj 0.07073579526492377', 'eigen_adj 0.06354759471553467', 'betrieb_nn 0.06127803776140844', 'befragt_adj 0.05912196416000416', 'transformation_nn 0.054469366899029724', 'predictiv_adj 0.05328866996624428', 'machine_ne 0.049959152992943276', 'learning_fm 0.04948233639722684', 'maschine_nn 0.04662941679739187', 'bereits_adv 0.04460205084967918', 'groß_adj 0.04460205084967918', 'erfahrung_nn 0.04333548118885287', 'additiv_adj 0.042699196337780784', 'losgröße_nn 0.04087567063058995', 'beispielsweise_adv 0.04054731895425381', 'smart_fm 0.04054731895425381', 'technologie_nn 0.04054731895425381', 'maintenance_fm 0.0380633356901745', 'index_nn 0.03743778415096414', 'fast_adv 0.03455795460088997', 'weit_adj 0.03446522111111573', 'fertigung_nn 0.03404335431189358', 'datum

In [25]:
# сортировка элементов глоссария по частям речи: остаются только существительные (nn) и англицизмы (иностранные слова, fm)

glossar_nn = []
glossar_fm = []

for element in glossar0:
  if element.find('_nn') > 0:
    glossar_nn.append(element.split())
  if element.find('_fm') > 0:
      glossar_fm.append(element.split())

glossar = []
glossar.append(glossar_nn)
glossar.append(glossar_fm)

In [28]:
# результат: частотные списки для немецких существительных и англицизмов (разных частей речи)

glossar_df = pd.DataFrame(glossar).T.rename(columns={0:"german", 1:"english"})
glossar_df[50:100]

Unnamed: 0,german,english
50,"[studie_nn, 0.016791936377981712]","[culture_fm, 0.0016355475619811684]"
51,"[qualifikation_nn, 0.01659310123286187]","[eats_fm, 0.0016355475619811684]"
52,"[reaktion_nn, 0.016559422266297395]","[fastwork_fm, 0.0016355475619811684]"
53,"[zeit_nn, 0.016523726707311163]","[gestaltungsspielraums_fm, 0.0016355475619811684]"
54,"[prozessorientierung_nn, 0.016355475619811686]","[go_fm, 0.0016355475619811684]"
55,"[verantwortlichkeit_nn, 0.016355475619811686]","[grow_fm, 0.0016355475619811684]"
56,"[anpassung_nn, 0.01560574189023832]","[hesoun_fm, 0.0016355475619811684]"
57,"[berücksichtigung_nn, 0.01560574189023832]","[hightech_fm, 0.0016355475619811684]"
58,"[ebene_nn, 0.01560574189023832]","[inferiore_fm, 0.0016355475619811684]"
59,"[strategie_nn, 0.01560574189023832]","[inspire_fm, 0.0016355475619811684]"
