# Vorbereitung des Korpus

In [1]:
import codecs
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

In [2]:
# vortrainierte Pipeline für das Italienische
nlp = spacy.load('it_core_news_lg')

In [3]:
lemmatizer = nlp.get_pipe('lemmatizer')

In [4]:
df = pd.read_csv('Korpus/corpus_complete.csv', sep=',', encoding='utf-8')

In [5]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words
0,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0
1,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
2,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0


In [6]:
df.shape

(304129, 9)

In [7]:
df.text = df.text.fillna('')

### Lemmatisierung

In [8]:
def lemmatize_text(raw_text):
    """
    lemmatizes the text
    """
    text = ''
    doc = nlp(raw_text)
    lemmas = ' '.join([x.lemma_ for x in doc])
    text = text + lemmas
    return text

In [9]:
nlp.max_length = 100000000000000            # Wert erhöhen, weil sehr großes Korpus...

In [10]:
%%time 
df['lemmatized_text'] = df['text'].apply(lemmatize_text)               

Wall time: 4h 38min 41s


In [11]:
# zwischenspeichern

df.to_csv('Korpus/corpus_lemmatized.csv', encoding='utf-8', index=False)

In [12]:
# neu laden 

df = pd.read_csv('Korpus/corpus_lemmatized.csv', sep=',', encoding='utf-8')

In [13]:
df.head()

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words,lemmatized_text
0,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0,iv . 11 . rima del arcade : tirsi leucasio ( g...
1,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0,"iv . 5 . Lorenzo magalotti , lettere odoroso (..."
2,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,1700-1750,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0,"﻿iv . 4 . Ludovico Antonio muratori , antichit..."
3,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0,[ proemio ] \n prendere a scrivere il mio vita...
4,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0,"iv . 4 . Vincenzo da filicaia , lettere inedit..."


In [14]:
df['text'].iloc[60000]

'Allora mi parve nuovamente che il Lucchino Visconti dovesse aprirmi la strada a lucrosi guadagni, che mi avrebbero permesso un giorno di acquistare uno di quei deliziosi villini e di condurvi la contessa Savina.  '

In [15]:
df['lemmatized_text'].iloc[60000]

'allora mi parere nuovamente che il lucchino Visconti dovere aprire il strada a lucroso guadagno , che mi avere permettere uno giorno di acquistare uno di quello delizioso villino e di condurvi il contessa savina .  '

In [16]:
df['text'].iloc[200000]

'Ma mettiamo da parte la correttezza istituzionale e la coerenza personale, che è materia indisponibile nel presidente del Consiglio.'

In [17]:
df['lemmatized_text'].iloc[200000]

'ma mettere da parte il correttezza istituzionale e il coerenza personale , che essere materia indisponibile nel presidente del consiglio .'

In [18]:
df['text'].iloc[220000]

'Catania - Bologna è la madre di tutte le speranze di salvezza per la squadra di De Canio, concentrazione e fiducia caratterizzano la vigilia vissuta a Torre del Grifo.'

In [19]:
df['lemmatized_text'].iloc[220000]

'Catania - Bologna essere il madre di tutto il speranza di salvezza per il squadra di De Canio , concentrazione e fiducia caratterizzare il vigilia vivere a Torre del grifo .'