# Kandidaten

In [1]:
import codecs
from collections import Counter
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

In [2]:
df = pd.read_csv('Korpus/corpus_final.csv', sep=',', encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words,lemmatized_text,cleaned_tokenized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0,iv . 4 . rima del arcadi : aglauro cidonia ( f...,"[['iv'], [], ['rima', 'arcadi', 'aglauro', 'ci..."
1,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit...","[['iv'], [], ['ludovico', 'antonio', 'muratori..."
2,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (...","[['iv'], [], ['lorenzo', 'magalotti', 'lettere..."
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0,[ proemio ] \n prendere a scrivere il mio vita...,"[['proemio', 'prendere', 'scrivere', 'vita', '..."
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit...","[['iv'], [], ['vincenzo', 'filicaia', 'lettere..."


In [4]:
df.shape

(710840, 11)

In [5]:
df.text = df.text.fillna('')
df.lemmatized_text = df.lemmatized_text.fillna('')

In [6]:
# Teilframes pro Zeitraum erstellen

period_frames = []
periods = list(df['period'].unique())
df_periods = dict(tuple(df.groupby(by='period')))

for df, period in zip(df_periods, periods):
    df_period = df_periods[period]
    period_frames.append(df_period)

In [7]:
# Funktion, die bestimmte Wörter zählt (im lemmatisierten Text)

def count_keywords(df, keywords):
    keyword_dict = {w:w.replace(' ', '_') for w in keywords}

    corpus = ' '.join(df.lemmatized_text).lower()
    for w,w2 in keyword_dict.items():
        corpus = corpus.replace(w,w2)

    all_counts = Counter(corpus.split())
    final_counts = {w:all_counts[w2] for w,w2 in keyword_dict.items()}
    return final_counts

In [8]:
# mögliche Kandidaten

keywords = ['atrocemente', 'formidabilmente', 'mostruosamente', 'orrendamente', 
            'orribilmente', 'spaventosamente', 'terribilmente', 'tremendamente', 
            'molto', 'angoscia', 'angosciare', 'ansia', 'atterrire', 'panico', 
            'paura', 'raccapricciare', 'raccapriccio', 'schifo', 'sgomentare', 
            'sgomento', 'spaventare', 'spavento', 'terrore', 'domani', 'finora', 
            'ieri', 'oggi', 'presto', 'raramente', 'sempre', 'spesso']

In [9]:
candidates = {}

for df, period in zip(period_frames, periods):
    res = count_keywords(df, keywords)
    candidates[period] = res

In [10]:
candidates

{'1700-1750': {'atrocemente': 2,
  'formidabilmente': 0,
  'mostruosamente': 2,
  'orrendamente': 1,
  'orribilmente': 20,
  'spaventosamente': 9,
  'terribilmente': 13,
  'tremendamente': 0,
  'molto': 11215,
  'angoscia': 25,
  'angosciare': 0,
  'ansia': 1,
  'atterrire': 202,
  'panico': 22,
  'paura': 583,
  'raccapricciare': 7,
  'raccapriccio': 1,
  'schifo': 11,
  'sgomentare': 61,
  'sgomento': 7,
  'spaventare': 136,
  'spavento': 391,
  'terrore': 597,
  'domani': 56,
  'finora': 444,
  'ieri': 25,
  'oggi': 913,
  'presto': 509,
  'raramente': 9,
  'sempre': 2269,
  'spesso': 814},
 '1751-1800': {'atrocemente': 3,
  'formidabilmente': 0,
  'mostruosamente': 0,
  'orrendamente': 1,
  'orribilmente': 25,
  'spaventosamente': 1,
  'terribilmente': 13,
  'tremendamente': 0,
  'molto': 16013,
  'angoscia': 124,
  'angosciare': 0,
  'ansia': 2,
  'atterrire': 134,
  'panico': 14,
  'paura': 285,
  'raccapricciare': 2,
  'raccapriccio': 8,
  'schifo': 31,
  'sgomentare': 18,
  'sg

In [11]:
table = pd.DataFrame.from_dict(candidates, orient='index')
table

Unnamed: 0,atrocemente,formidabilmente,mostruosamente,orrendamente,orribilmente,spaventosamente,terribilmente,tremendamente,molto,angoscia,...,spavento,terrore,domani,finora,ieri,oggi,presto,raramente,sempre,spesso
1700-1750,2,0,2,1,20,9,13,0,11215,25,...,391,597,56,444,25,913,509,9,2269,814
1751-1800,3,0,0,1,25,1,13,0,16013,124,...,212,595,189,271,108,714,975,80,3334,1347
1801-1825,2,0,2,10,28,2,16,2,11595,142,...,217,340,363,125,412,1418,670,30,3287,866
1826-1850,25,2,3,11,61,4,33,6,12414,306,...,671,1375,239,339,169,1086,906,47,3464,1487
1851-1875,55,6,12,23,163,29,95,34,21562,851,...,790,1515,1971,454,897,2969,2469,98,6016,1984
1876-1900,119,16,36,45,223,81,219,67,24742,1202,...,1199,1932,5290,892,2764,5023,4101,309,9632,3427
1901-1925,59,14,21,33,198,104,169,23,17141,1048,...,657,1343,4313,604,1746,3646,2846,337,6434,2958
1926-1950,37,9,15,27,90,68,181,30,13137,814,...,408,1122,2439,285,1176,2820,1244,110,3946,1113
1951-1975,16,0,6,6,21,26,54,11,9349,118,...,55,151,234,87,310,1174,381,49,2467,784
1976-2000,98,5,77,171,154,139,1046,343,36331,5936,...,992,7050,8119,7342,11055,12097,7669,3039,13323,8515


In [12]:
table.to_csv('Korpus/candidates_after_lemmatization.csv', sep=';')