# Vorbereitung des Korpus

In [1]:
import codecs
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import spacy

In [2]:
# vortrainierte Pipeline für das Italienische
nlp = spacy.load('it_core_news_lg')

In [3]:
lemmatizer = nlp.get_pipe('lemmatizer')

In [4]:
df = pd.read_csv('Korpus/corpus_complete.csv', sep=',', encoding='utf-8')

In [5]:
df.head()

Unnamed: 0,doc,source,author,title,year,text_type,words,text,cleaned_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,poesia,3184.0,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,iv. . rime degli arcadi: aglauro cidonia fau...
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,poesia,6113.0,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,iv. . rime degli arcadi: tirsi leucasio gio...
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,poesia,10862.0,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,iv. . rime degli arcadi: alessi cillenio giu...
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,personale,8374.0,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...","iv. . lorenzo magalotti, lettere odorose ..."
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,espositivo,8990.0,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...","iv. . ludovico antonio muratori, antichità i..."


In [6]:
df.shape

(431959, 9)

In [7]:
df.text = df.text.fillna('')

### Lemmatisierung

In [8]:
def lemmatize_text(raw_text):
    """
    lemmatizes the text
    """
    text = ''
    doc = nlp(raw_text)
    lemmas = ' '.join([x.lemma_ for x in doc])
    text = text + lemmas
    return text

In [10]:
nlp.max_length = 10000000000000000            # Wert erhöhen, weil sehr großes Korpus...

In [11]:
%%time 
df['lemmatized_text'] = df['text'].apply(lemmatize_text)               

Wall time: 3h 38min 20s


In [12]:
# zwischenspeichern

df.to_csv('Korpus/corpus_lemmatized.csv', encoding='utf-8', index=False)

In [13]:
# neu laden 

df = pd.read_csv('Korpus/corpus_lemmatized.csv', sep=',', encoding='utf-8')

In [14]:
df.head()

Unnamed: 0,doc,source,author,title,year,text_type,words,text,cleaned_text,lemmatized_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,poesia,3184.0,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,iv. . rime degli arcadi: aglauro cidonia fau...,iv . 4 . rima del arcadi : aglauro cidonia ( f...
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,poesia,6113.0,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,iv. . rime degli arcadi: tirsi leucasio gio...,iv . 11 . rima del arcade : tirsi leucasio ( g...
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,poesia,10862.0,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,iv. . rime degli arcadi: alessi cillenio giu...,iv . 1 . rima del arcadi : alessi cillenio ( G...
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,personale,8374.0,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...","iv. . lorenzo magalotti, lettere odorose ...","iv . 5 . Lorenzo magalotti , lettere odoroso (..."
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,espositivo,8990.0,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...","iv. . ludovico antonio muratori, antichità i...","﻿iv . 4 . Ludovico Antonio muratori , antichit..."


In [15]:
df['text'].iloc[60000]

"Guardate: noi andiamo ad ammirare al Valle gli sbalzi di pantera della signora Duse in mezzo ai dinoccolamenti di cinque o sei marionette, e sul palco scenico del Metastasio Pulcinella imbastardito canta un''arietta francese.  "

In [16]:
df['lemmatized_text'].iloc[60000]

"guardare : noi andare ad ammirare al Valle il sbalzo di pantera della signora duse in mezzo al dinoccolamenti di cinque o sei marionetta , e sul palco scenico del metastasio pulcinella imbastardito cantare un''arietta francese .  "

In [17]:
df['text'].iloc[200000]

'Una delle poche concorrenti, calcolando le dimensioni, dell’Audi Q7.'

In [18]:
df['lemmatized_text'].iloc[200000]

'uno della poco concorrente , calcolare il dimensione , dell’ Audi q7 .'

In [19]:
df['text'].iloc[220000]

'Quindi il pm Antonio Ingroia non è il regista occulto dei pentiti?'

In [20]:
df['lemmatized_text'].iloc[220000]

'quindi il pm Antonio ingroia non essere il regista occulto del pentito ?'