# Vorbereitung des Korpus

In [1]:
import codecs
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

from gensim.models.phrases import Phraser, Phrases
from joblib import Parallel, delayed  
from nltk.corpus import stopwords
from tabulate import tabulate

In [2]:
# vortrainierte Pipeline für das Italienische
nlp = spacy.load('it_core_news_lg')

In [3]:
lemmatizer = nlp.get_pipe('lemmatizer')
stopwords = stopwords.words('italian')
tokenizer = nltk.data.load('tokenizers/punkt/italian.pickle')

In [4]:
df = pd.read_csv('Korpus/corpus_norm.csv', sep=',', encoding='utf-8')

In [5]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0
1,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0
2,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0


In [6]:
df.shape

(710840, 9)

In [7]:
df.text = df.text.fillna('')

### Lemmatisierung

In [8]:
def lemmatize_text(raw_text):
    """
    lemmatizes the text
    """
    text = ''
    doc = nlp(raw_text)
    lemmas = ' '.join([x.lemma_ for x in doc])
    text = text + lemmas
    return text

In [9]:
nlp.max_length = 100000000000000            # Wert erhöhen, weil sehr großes Korpus...

In [10]:
%%time 
df['lemmatized_text'] = df['text'].apply(lemmatize_text)               

Wall time: 5h 23min 6s


In [11]:
# zwischenspeichern

df.to_csv('Korpus/corpus_lemmatized.csv', encoding='utf-8', index=False)

In [12]:
# neu laden 

df = pd.read_csv('Korpus/corpus_lemmatized.csv', sep=',', encoding='utf-8')

In [13]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words,lemmatized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0,iv . 4 . rima del arcadi : aglauro cidonia ( f...
1,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit..."
2,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (..."
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0,[ proemio ] \n prendere a scrivere il mio vita...
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit..."


In [14]:
df['text'].iloc[60000]

"che Giuliano aveva la noia sino alla gola, gli recò la novità di certe voci che correvano, secondo le quali, a Torino, molti giovani carcerati poco tempo innanzi, erano stati messi a morte per mano del carnefice. Il pover''uomo aveva inteso la"

In [15]:
df['lemmatized_text'].iloc[60000]

"che Giuliano avere il noia sino alla gola , lo recare il novità di certe voce che correre , secondo il quali , a Torino , molto giovane carcerato poco tempo innanzi , essere stare mettere a morte per mano del carnefice . il pover''uomo avere intendere il"

In [16]:
df['text'].iloc[697240]

'È questa capacità di influenza che consente di mantenere la propria capacità di rappresentanza, non viceversa.'

In [17]:
df['lemmatized_text'].iloc[697240]

'essere questo capacità di influenza che consentire di mantenere il proprio capacità di rappresentanza , non viceversa .'

### Bereinigung und Tokenisierung

In [18]:
def sentence_to_wordlist(raw:str):
    """
    cleans and tokenizes the sentences
    """
    text = re.sub('[^A-Za-z_àÀèÈìÌòÒùÙáÁéÉíÍóÓúÚ]',' ', raw).split()        # Diakritika ans Italienische anpassen                    
    filtered_text = [word for word in text if word not in stopwords]        # Stopwörter löschen
    return filtered_text


def tokenize_text(raw_text):
    """
    returns a list of lowercase tokenized sentences 
    """
    raw_sentences = tokenizer.tokenize(str(raw_text).lower())    
    tokenized_sentences = Parallel(n_jobs=-1)(delayed(sentence_to_wordlist)(raw_sentence) for raw_sentence in raw_sentences)
    phrases = Phrases(tokenized_sentences)
    bigram = Phraser(phrases)
    sentences = list(bigram[tokenized_sentences])
    return sentences

In [19]:
%%time 
df['cleaned_tokenized_text'] = df['lemmatized_text'].apply(tokenize_text)           

Wall time: 1h 30min 51s


In [20]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words,lemmatized_text,cleaned_tokenized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0,iv . 4 . rima del arcadi : aglauro cidonia ( f...,"[[iv], [], [rima, arcadi, aglauro, cidonia, fa..."
1,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit...","[[iv], [], [ludovico, antonio, muratori, antic..."
2,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (...","[[iv], [], [lorenzo, magalotti, lettere, odoro..."
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0,[ proemio ] \n prendere a scrivere il mio vita...,"[[proemio, prendere, scrivere, vita, siami, ac..."
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit...","[[iv], [], [vincenzo, filicaia, lettere, inedi..."


In [21]:
df['cleaned_tokenized_text'].iloc[60000]

[['giuliano',
  'avere',
  'noia',
  'sino',
  'gola',
  'recare',
  'novità',
  'certe',
  'voce',
  'correre',
  'secondo',
  'quali',
  'torino',
  'molto',
  'giovane',
  'carcerato',
  'poco',
  'tempo',
  'innanzi',
  'essere',
  'stare',
  'mettere',
  'morte',
  'mano',
  'carnefice'],
 ['pover', 'uomo', 'avere', 'intendere']]

In [22]:
df['cleaned_tokenized_text'].iloc[697240]

[['essere',
  'capacità',
  'influenza',
  'consentire',
  'mantenere',
  'proprio',
  'capacità',
  'rappresentanza',
  'viceversa']]

In [23]:
# speichern

df.to_csv('Korpus/corpus_final.csv', encoding='utf-8', index=False)