# Kandidaten

In [1]:
import codecs
from collections import Counter
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

In [2]:
df = pd.read_csv('Korpus/corpus_lemmatized.csv', sep=',', encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words,lemmatized_text
0,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0,iv . 11 . rima del arcade : tirsi leucasio ( g...
1,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (..."
2,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit..."
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0,[ proemio ] \n prendere a scrivere il mio vita...
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit..."


In [4]:
df.shape

(304129, 10)

In [5]:
df.text = df.text.fillna('')
df.lemmatized_text = df.lemmatized_text.fillna('')

In [6]:
# Teilframes pro Zeitraum erstellen

period_frames = []
periods = list(df['period'].unique())
df_periods = dict(tuple(df.groupby(by='period')))

for df, period in zip(df_periods, periods):
    df_period = df_periods[period]
    period_frames.append(df_period)

In [7]:
# Funktion, die bestimmte Wörter zählt (im lemmatisierten Text)

def count_keywords(df, keywords):
    keyword_dict = {w:w.replace(' ', '_') for w in keywords}

    corpus = ' '.join(df.lemmatized_text).lower()
    for w,w2 in keyword_dict.items():
        corpus = corpus.replace(w,w2)

    all_counts = Counter(corpus.split())
    final_counts = {w:all_counts[w2] for w,w2 in keyword_dict.items()}
    return final_counts

In [8]:
# mögliche Kandidaten

keywords = ['atrocemente', 'formidabilmente', 'mostruosamente', 'orrendamente', 
            'orribilmente', 'spaventosamente', 'terribilmente', 'tremendamente', 
            'molto', 'angoscia', 'angosciare', 'ansia', 'atterrire', 'panico', 
            'paura', 'raccapricciare', 'raccapriccio', 'schifo', 'sgomentare', 
            'sgomento', 'spaventare', 'spavento', 'terrore', 'domani', 'finora', 
            'ieri', 'oggi', 'presto', 'raramente', 'sempre', 'spesso']

In [9]:
candidates = {}

for df, period in zip(period_frames, periods):
    res = count_keywords(df, keywords)
    candidates[period] = res

In [10]:
candidates

{'1700-1750': {'atrocemente': 2,
  'formidabilmente': 0,
  'mostruosamente': 2,
  'orrendamente': 1,
  'orribilmente': 28,
  'spaventosamente': 11,
  'terribilmente': 18,
  'tremendamente': 0,
  'molto': 15326,
  'angoscia': 26,
  'angosciare': 0,
  'ansia': 1,
  'atterrire': 136,
  'panico': 16,
  'paura': 247,
  'raccapricciare': 12,
  'raccapriccio': 1,
  'schifo': 17,
  'sgomentare': 83,
  'sgomento': 8,
  'spaventare': 96,
  'spavento': 297,
  'terrore': 200,
  'domani': 44,
  'finora': 336,
  'ieri': 39,
  'oggi': 784,
  'presto': 361,
  'raramente': 11,
  'sempre': 2953,
  'spesso': 743},
 '1751-1800': {'atrocemente': 4,
  'formidabilmente': 0,
  'mostruosamente': 0,
  'orrendamente': 1,
  'orribilmente': 30,
  'spaventosamente': 1,
  'terribilmente': 15,
  'tremendamente': 0,
  'molto': 18796,
  'angoscia': 81,
  'angosciare': 0,
  'ansia': 3,
  'atterrire': 87,
  'panico': 11,
  'paura': 265,
  'raccapricciare': 3,
  'raccapriccio': 11,
  'schifo': 38,
  'sgomentare': 19,
  's

In [11]:
table = pd.DataFrame.from_dict(candidates, orient='index')
table

Unnamed: 0,atrocemente,formidabilmente,mostruosamente,orrendamente,orribilmente,spaventosamente,terribilmente,tremendamente,molto,angoscia,...,spavento,terrore,domani,finora,ieri,oggi,presto,raramente,sempre,spesso
1700-1750,2,0,2,1,28,11,18,0,15326,26,...,297,200,44,336,39,784,361,11,2953,743
1751-1800,4,0,0,1,30,1,15,0,18796,81,...,128,174,202,303,111,723,688,103,3731,1068
1801-1825,4,0,2,14,42,3,16,2,16968,147,...,144,224,372,150,501,1872,727,38,4375,1027
1826-1850,21,0,0,7,49,2,39,0,12033,147,...,318,368,171,176,145,839,646,27,2953,704
1851-1875,35,2,11,13,118,13,80,25,14770,214,...,237,339,629,199,277,1210,946,60,3949,811
1876-1900,63,13,7,34,141,31,87,33,14523,240,...,285,295,711,216,390,968,835,164,4156,870
1901-1925,83,19,42,42,173,129,238,38,16820,458,...,340,455,1060,360,717,1532,1040,313,4786,1177
1926-1950,68,12,33,36,232,121,281,46,16462,424,...,271,481,1006,310,728,1767,708,314,4089,890
1951-1985,38,4,16,35,69,65,176,46,18413,548,...,161,551,1049,882,1565,2878,1153,428,4753,1955
1986-2000,101,6,94,105,93,101,122,106,17584,303,...,217,303,936,826,3642,3394,864,515,3944,1273


In [12]:
table.to_csv('Korpus/candidates_after_lemmatization.csv', sep=';')