# Kandidaten

In [1]:
import codecs
from collections import Counter
from IPython.display import Markdown, display
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

### Anzahl der Kandidaten im lemmatisierten Korpus 

In [2]:
df = pd.read_csv('Korpus/corpus_periods.csv', sep=',', encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,words,text,cleaned_text,lemmatized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,3184.0,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,iv. . rime degli arcadi: aglauro cidonia fau...,iv . 4 . rima del arcadi : aglauro cidonia ( f...
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,6113.0,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,iv. . rime degli arcadi: tirsi leucasio gio...,iv . 11 . rima del arcade : tirsi leucasio ( g...
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,10862.0,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,iv. . rime degli arcadi: alessi cillenio giu...,iv . 1 . rima del arcadi : alessi cillenio ( G...
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,8374.0,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...","iv. . lorenzo magalotti, lettere odorose ...","iv . 5 . Lorenzo magalotti , lettere odoroso (..."
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,8990.0,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...","iv. . ludovico antonio muratori, antichità i...","﻿iv . 4 . Ludovico Antonio muratori , antichit..."


In [4]:
df.shape

(431959, 11)

In [5]:
df.text = df.text.fillna('')
df.lemmatized_text = df.lemmatized_text.fillna('')

In [6]:
# Teilframes pro Zeitraum erstellen

period_frames = []
periods = list(df['period'].unique())
df_periods = dict(tuple(df.groupby(by='period')))

for df, period in zip(df_periods, periods):
    df_period = df_periods[period]
    period_frames.append(df_period)

In [7]:
# Funktion, die bestimmte Wörter zählt (im lemmatisierten Text)

def count_keywords(df, keywords):
    keyword_dict = {w:w.replace(' ', '_') for w in keywords}

    corpus = ' '.join(df.lemmatized_text).lower()
    for w,w2 in keyword_dict.items():
        corpus = corpus.replace(w,w2)

    all_counts = Counter(corpus.split())
    final_counts = {w:all_counts[w2] for w,w2 in keyword_dict.items()}
    return final_counts

In [8]:
# mögliche Kandidaten

keywords = ['atrocemente', 'formidabilmente', 'mostruosamente', 'orrendamente', 
            'orribilmente', 'spaventosamente', 'terribilmente', 'tremendamente', 
            'molto', 'angoscia', 'angosciare', 'ansia', 'atterrire', 'panico', 
            'paura', 'raccapricciare', 'raccapriccio', 'schifo', 'sgomentare', 
            'sgomento', 'spaventare', 'spavento', 'terrore', 'domani', 'finora', 
            'ieri', 'oggi', 'presto', 'raramente', 'sempre', 'spesso']

In [9]:
candidates = {}

for df, period in zip(period_frames, periods):
    res = count_keywords(df, keywords)
    candidates[period] = res

In [10]:
candidates

{'1700-1750': {'atrocemente': 2,
  'formidabilmente': 0,
  'mostruosamente': 2,
  'orrendamente': 1,
  'orribilmente': 20,
  'spaventosamente': 9,
  'terribilmente': 13,
  'tremendamente': 0,
  'molto': 10683,
  'angoscia': 18,
  'angosciare': 0,
  'ansia': 1,
  'atterrire': 100,
  'panico': 11,
  'paura': 177,
  'raccapricciare': 7,
  'raccapriccio': 1,
  'schifo': 11,
  'sgomentare': 57,
  'sgomento': 6,
  'spaventare': 70,
  'spavento': 224,
  'terrore': 143,
  'domani': 33,
  'finora': 237,
  'ieri': 25,
  'oggi': 602,
  'presto': 275,
  'raramente': 9,
  'sempre': 1998,
  'spesso': 534},
 '1751-1800': {'atrocemente': 3,
  'formidabilmente': 0,
  'mostruosamente': 0,
  'orrendamente': 1,
  'orribilmente': 25,
  'spaventosamente': 1,
  'terribilmente': 13,
  'tremendamente': 0,
  'molto': 15498,
  'angoscia': 70,
  'angosciare': 0,
  'ansia': 2,
  'atterrire': 75,
  'panico': 10,
  'paura': 240,
  'raccapricciare': 2,
  'raccapriccio': 8,
  'schifo': 31,
  'sgomentare': 17,
  'sgome

In [11]:
table = pd.DataFrame.from_dict(candidates, orient='index')
table

Unnamed: 0,atrocemente,formidabilmente,mostruosamente,orrendamente,orribilmente,spaventosamente,terribilmente,tremendamente,molto,angoscia,...,spavento,terrore,domani,finora,ieri,oggi,presto,raramente,sempre,spesso
1700-1750,2,0,2,1,20,9,13,0,10683,18,...,224,143,33,237,25,602,275,9,1998,534
1751-1800,3,0,0,1,25,1,13,0,15498,70,...,100,151,180,244,106,618,578,80,3069,828
1801-1850,21,0,2,17,71,4,45,2,21657,232,...,369,466,420,258,476,2095,1048,50,5780,1313
1851-1900,145,22,30,68,380,68,228,105,46874,733,...,844,963,1931,688,1061,3323,2631,336,12568,2481
1901-1950,128,25,63,70,332,218,439,75,27863,768,...,533,813,1810,561,1266,2728,1539,538,7678,1744
1951-2000,134,9,113,132,150,148,241,142,31298,694,...,337,710,1770,1514,5050,5710,1760,848,7640,2749
2001-2021,201,193,206,202,201,201,216,212,28675,266,...,221,361,1785,714,3312,5865,989,250,7110,1603


In [12]:
table.to_csv('Korpus/candidates.csv', sep=';')

### Kandidaten im Korpus 

In [3]:
df = pd.read_csv('Korpus/corpus_periods.csv', sep=',', encoding='utf-8')

In [4]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,words,text,cleaned_text,lemmatized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,3184.0,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,iv. . rime degli arcadi: aglauro cidonia fau...,iv . 4 . rima del arcadi : aglauro cidonia ( f...
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,6113.0,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,iv. . rime degli arcadi: tirsi leucasio gio...,iv . 11 . rima del arcade : tirsi leucasio ( g...
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,10862.0,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,iv. . rime degli arcadi: alessi cillenio giu...,iv . 1 . rima del arcadi : alessi cillenio ( G...
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,8374.0,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...","iv. . lorenzo magalotti, lettere odorose ...","iv . 5 . Lorenzo magalotti , lettere odoroso (..."
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,8990.0,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...","iv. . ludovico antonio muratori, antichità i...","﻿iv . 4 . Ludovico Antonio muratori , antichit..."


In [5]:
df.shape

(431959, 11)

In [7]:
df.text = df.text.fillna('')
df_cleaned_text = df.cleaned_text.fillna('')

In [8]:
# Teilframes pro Zeitraum erstellen

df_periods = dict(tuple(df.groupby(by='period')))

df1 = df_periods['1700-1750']
df2 = df_periods['1751-1800']
df3 = df_periods['1801-1850']
df4 = df_periods['1851-1900']
df5 = df_periods['1901-1950']
df6 = df_periods['1951-2000']
df7 = df_periods['2001-2021']

In [9]:
# Funktion, die die Sätze ausgibt, in der ein bestimmtes Wort vorkommt

def find_sentences_with_keyword(document, keyword):
    
    sentlist = []
    
    for sentence in document:
        
        if keyword.lower() in sentence.lower():
            sentence = re.sub('\n', ' ', sentence)
            sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)            
            sentlist.append(sentence)
            
    #result = list(set(sentlist))              # wenn set keine Duplikate
    result = list(sentlist)
    for sentence in result: 
        display(Markdown(sentence))
    
    #return result

### Zeitraum 1: 1700-1750

In [10]:
text1 = ''
for i in df1.cleaned_text:
    text1 += i

In [11]:
document1 = nltk.sent_tokenize(text1)

In [12]:
find_sentences_with_keyword(document1, 'terribilmente')

così, poich ebbe tracannato a iosa cento gran  giare e cento, tombolando di qua, di là, senza trovar mai posa, sdraiato alfine e di sé tutto in bando, ei s addormì, coll ampia abbominosa bocca **terribilmente** rimugghiando.

abbiamo da san girolamo che **terribilmente** infierì nella soria e cicilia la carestia colla mortalità d  innumerabili persone.

di questa orrida fame, che, dov  egli passava, lasciava la micidial infezione secondo il suo costume, di modo che cominciò a sentirsi **terribilmente** anche in roma.

ma si trovò **terribilmente** gonfio esso mare con pioggia e tuoni; lo stesso tevere era in tempesta; però convenne prendere terra.

abbiamo da san girolamo che **terribilmente** infierì nella soria e cicilia la carestia colla mortalità d  innumerabili persone.

giocarono in questo conflitto **terribilmente** le artiglierie d  ambe le parti, facendo squarci grandi nelle schiere opposte; le sciabole e baionette non istetteroquanto a me, vo sospettando che fosse uno spettacolo pubblico, in cui si rappresentava federigo imperadore coi pavesi e reggiani, e col patriarca, suoi aderenti, forse non con molto onore.

, dov  egli passava, lasciava la micidial infezione secondo il suo costume, di modo che cominciò a sentirsi **terribilmente** anche in roma.

, per testimonianza di teofane      , da un secondo furioso tremuoto, che nel dì    di novembre per un  ora continua sì **terribilmente** scosse la città d  antiochia, che tutto quanto era rimasto in piedi nel precedente anno    , e quanto era statopapa gregorio ix,     .

dai quali con uno strattagemma sono **terribilmente** sconfitti,   .

, per testimonianza di teofane      , da un secondo furioso tremuoto, che nel dì    di novembre per un  ora continua sì **terribilmente** scosse la città d  antiochia, che tutto quanto era rimasto in piedi nel precedente anno    , e quanto era statoin una casa privata, e la seguente mane imbarcatosi con tutti i suoi in due galee, pel tevere discese al mare.

ma si trovò **terribilmente** gonfio esso mare con pioggia e tuoni; lo stesso tevere era in tempesta; però convenne prendere terra.

dai quali con uno strattagemma sono **terribilmente** sconfitti,   .

giocarono in questo conflitto **terribilmente** le artiglierie d  ambe le parti, facendo squarci grandi nelle schiere opposte; le sciabole e baionette non istetteroprobabilmente non vi perì tanta gente; contuttociò fu questa una delle maggiori calamità che mai toccassero a quel regno.

### Zeitraum 2: 1751-1800

In [13]:
text2 = ''
for i in df2.cleaned_text:
    text2 += i

In [14]:
document2 = nltk.sent_tokenize(text2)

In [15]:
find_sentences_with_keyword(document2, 'terribilmente')

è una cosa, che mi muove la bile **terribilmente**.

ma il tuono e il vento e l onda **terribilmente** agita tutti e batte; nè le vele contratte nè da la doppia sponda il forte remigar, l urto che abbonda vince nè frena.

l industria viene corrosa nella sua radice, e la nazione non ricever mai spinta ad accrescere l annua riproduzione, perch fischia il flagello delle leggi **terribilmente** sul capo degli uomini riproduttori avviliti e scoraggiti.

dettò poscia questa lettera **terribilmente** laconica:  in nome del dio misericordioso, haroun al rashid comandante dei fedeli, a niceforo, cane romano.

si trovarono però **terribilmente** angustiati dai passaggi che traggono da eginardo, da teofane e dagli antichi annali laureshamenses, fuldenses,, e conseguenze che da ciò derivarono    incendio di roma sotto il regno di nerone    i cristiani accusati di esso e **terribilmente** puniti    passo di tacito a tale proposito    osservazioni sovra questo passo    i cristiani ed i giudei egualmenteperò e il cavaliere parla con disprezzo di coloro che pensavano alla ritirata, e il monaco loda que   suoi compatriotti che erano risoluti di morire coll  armi alla mano.

i cristiani accusati dell  incendio di roma sotto nerone e **terribilmente** puniti, t. iii, p.   .

si trovarono però **terribilmente** angustiati dai passaggi che traggono da eginardo, da teofane e dagli antichi annali laureshamenses, fuldenses,storia e della favola, troncò le deboli armi dei greci senza smuzzare il taglio della sua.

dettò poscia questa lettera **terribilmente** laconica:  in nome del dio misericordioso, haroun al rashid comandante dei fedeli, a niceforo, cane romano.

i cristiani accusati dell  incendio di roma sotto nerone e **terribilmente** puniti, t. iii, p.   .

, e conseguenze che da ciò derivarono    incendio di roma sotto il regno di nerone    i cristiani accusati di esso e **terribilmente** puniti    passo di tacito a tale proposito    osservazioni sovra questo passo    i cristiani ed i giudei egualmente, e alla vostra coronazione.

oh sì, per questo, ten scongiuro io forte, largo mio pianto, per giocasta madre, per l orror di que  giorni onde mi lasci **terribilmente** in preda, per l amore d antigon tua.

giace poi sopra un suolo **terribilmente** sterile, coperto di piccole roccie simili al basalto.

### Zeitraum 3: 1801-1850

In [16]:
text3 = ''
for i in df3.cleaned_text:
    text3 += i

TypeError: can only concatenate str (not "float") to str

In [None]:
document3 = nltk.sent_tokenize(text3)

In [None]:
find_sentences_with_keyword(document3, 'terribilmente')

### Zeitraum 4: 1851-1900

In [None]:
text4 = ''
for i in df4.cleaned_text:
    text4 += i

In [None]:
document4 = nltk.sent_tokenize(text4)

In [None]:
find_sentences_with_keyword(document4, 'terribilmente')

### Zeitraum 5: 1901-1950

In [None]:
text5 = ''
for i in df5.cleaned_text:
    text5 += i

In [None]:
document5 = nltk.sent_tokenize(text5)

In [None]:
find_sentences_with_keyword(document5, 'terribilmente')

### Zeitraum 6: 1951-2000

In [None]:
text6 = ''
for i in df6.cleaned_text:
    text6 += i

In [None]:
document6 = nltk.sent_tokenize(text6)

In [None]:
find_sentences_with_keyword(document6, 'terribilmente')

### Zeitraum 7: 2001-2021

In [None]:
text7 = ''
for i in df7.cleaned_text:
    text7 += i

In [None]:
document7 = nltk.sent_tokenize(text7)

In [None]:
find_sentences_with_keyword(document7, 'terribilmente')