# Vorbereitung des Korpus

In [1]:
import codecs
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

from gensim.models.phrases import Phraser, Phrases
from joblib import Parallel, delayed  
from nltk.corpus import stopwords
from tabulate import tabulate

In [2]:
# vortrainierte Pipeline für das Italienische
nlp = spacy.load('it_core_news_lg')

In [3]:
lemmatizer = nlp.get_pipe('lemmatizer')
stopwords = stopwords.words('italian')
tokenizer = nltk.data.load('tokenizers/punkt/italian.pickle')

In [4]:
df = pd.read_csv('Korpus/corpus_norm.csv', sep=',', encoding='utf-8')

In [5]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text type,text,words
0,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0
1,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0
2,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
4,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0


In [6]:
df.shape

(710231, 9)

In [8]:
df.text = df.text.fillna('')

### Lemmatisierung

In [9]:
def lemmatize_text(raw_text):
    """
    lemmatizes the text
    """
    text = ''
    doc = nlp(raw_text)
    lemmas = ' '.join([x.lemma_ for x in doc])
    text = text + lemmas
    return text

In [5]:
nlp.max_length = 10000000000000            # Wert erhöhen, weil sehr großes Korpus...

In [14]:
%%time 
df['lemmatized_text'] = df['text'].apply(lemmatize_text)               

Wall time: 10h 22min 15s


In [15]:
# zwischenspeichern

df.to_csv('Korpus/corpus_lemmatized.csv', encoding='utf-8', index=False)

In [6]:
# neu laden 

df = pd.read_csv('Korpus/corpus_lemmatized.csv', sep=',', encoding='utf-8')

In [24]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text type,text,words,lemmatized text
0,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit..."
1,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0,iv . 1 . rima del arcadi : alessi cillenio ( G...
2,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit..."
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (..."
4,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0,iv . 4 . rima del arcadi : aglauro cidonia ( f...


In [25]:
df['text'].iloc[60000]

'nera dello tsar di Russia, e dietro l\'\'aquila usurpata e infame dello tsar di Parigi. Di\'\'.... Rispondi.... Che sei oggi ? "Schiava invilita tolleri l\'\'onta di un re di Napoli che la storia ricorderà col soprannome di Bomba, il quale flagella'

In [26]:
df['lemmatized_text'].iloc[60000]

'nero del tsar di Russia , e dietro l\'\'aquila usurpare e infame del tsar di Parigi . di \'\' .... rispondi .... che essere oggi ? " schiava invilire tollerare l\'\'onta di uno re di Napoli che il storia ricordare col soprannome di bomba , il quale flagellare'

In [39]:
df['text'].iloc[697240]

"In ogni circostanza porta con se un ombrello che cambia colore quando piove o c'è il sole."

In [40]:
df['lemmatized_text'].iloc[697240]

"in ogni circostanza portare con se uno ombrello che cambiare colore quando piovere o c' essere il sole ."

### Bereinigung und Tokenisierung

In [None]:
def sentence_to_wordlist(raw:str):
    """
    cleans and tokenizes the sentences
    """
    text = re.sub('[^A-Za-z_àÀèÈìÌòÒùÙáÁéÉíÍóÓúÚ]',' ', raw).split()        # Diakritika ans Italienische anpassen                    
    filtered_text = [word for word in text if word not in stopwords]        # Stopwörter löschen
    return filtered_text


def tokenize_text(raw_text):
    """
    returns a list of lowercase tokenized sentences 
    """
    raw_sentences = tokenizer.tokenize(str(raw_text).lower())    
    tokenized_sentences = Parallel(n_jobs=-1)(delayed(sentence_to_wordlist)(raw_sentence) for raw_sentence in raw_sentences)
    phrases = Phrases(tokenized_sentences)
    bigram = Phraser(phrases)
    sentences = list(bigram[tokenized_sentences])
    return sentences

In [41]:
%%time 
df['cleaned_tokenized_text'] = df['lemmatized_text'].apply(tokenize_text)           

Wall time: 1h 55min 13s


In [42]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text type,text,words,lemmatized text,cleaned tokenized text
0,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit...","[[iv], [], [ludovico, antonio, muratori, antic..."
1,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0,iv . 1 . rima del arcadi : alessi cillenio ( G...,"[[iv], [], [rima, arcadi, alessi, cillenio, gi..."
2,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit...","[[iv], [], [vincenzo, filicaia, lettere, inedi..."
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (...","[[iv], [], [lorenzo, magalotti, lettere, odoro..."
4,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,1700-1750,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0,iv . 4 . rima del arcadi : aglauro cidonia ( f...,"[[iv], [], [rima, arcadi, aglauro, cidonia, fa..."


In [43]:
df['cleaned_tokenized_text'].iloc[60000]

[['nero',
  'tsar',
  'russia',
  'dietro',
  'aquila',
  'usurpare',
  'infame',
  'tsar',
  'parigi'],
 ['rispondi', 'essere', 'oggi'],
 ['schiava',
  'invilire',
  'tollerare',
  'onta',
  're',
  'napoli',
  'storia',
  'ricordare',
  'soprannome',
  'bomba',
  'flagellare']]

In [44]:
df['cleaned_tokenized_text'].iloc[697240]

[['ogni',
  'circostanza',
  'portare',
  'ombrello',
  'cambiare',
  'colore',
  'quando',
  'piovere',
  'essere',
  'sole']]

In [45]:
# speichern

df.to_csv('Korpus/corpus_final.csv', encoding='utf-8', index=False)