# Erstellung des Korpus

In [1]:
import glob
import numpy as np
import os
import pandas as pd
import re

In [2]:
# Metadaten einlesen

md = pd.read_csv('metadata.csv', sep=';', encoding='utf-8')

In [3]:
files = []

for file in os.listdir('Texte'):
    files.append(file)

In [4]:
# Texte einlesen 

data = []

for file in os.listdir('Texte'):
    with open(os.path.join('Texte', file),'r', encoding='utf-8', errors='ignore') as myfile:
        data.append(myfile.read())

In [5]:
# Metadaten und Texte zusammenfügen (matcht den Dokumentnamen)

corpus = pd.DataFrame({'file': files, 'text': data})

df = pd.merge(md, corpus, how='left', left_on='doc', right_on='file')

In [6]:
# Wörter zählen und hinzfügen

df['words'] = df['text'].str.count(r'\w+')

In [7]:
# Spalten neu anordnen und unnötige entfernen

df = df[['doc', 'source', 'author', 'title', 'year', 'text_type', 'text', 'words']]

In [8]:
df.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0


In [9]:
df.shape 

(1635, 8)

In [10]:
# KWIC-Listen 
# (vorher einzeln in einheitliche Form gebracht, siehe Vorbereitungscode in den Ordnern der jeweiligen Korpora)

directory = 'KWIC'
kwic_files = glob.glob(os.path.join(directory, '*.csv'))

In [11]:
# alle KWIC-Listen einlesen 

frames = []

for kwic_file in kwic_files:
    df_new = pd.read_csv(kwic_file, sep=',', encoding='utf-8')
    frames.append(df_new)

In [12]:
# zu einem Dataframe zusammenfügen 

df_big = pd.concat(frames)

In [13]:
df_big.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.dica33.it/argomenti/tossicologia/dr...,http://www.dica33.it/argomenti/tossicologia/dr...,2005.0,stampa,"Il programma delle attività prevede il 27, 28 ...",24
1,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.corriere.it/Primo_Piano/Spettacoli/...,http://www.corriere.it/Primo_Piano/Spettacoli/...,2005.0,stampa,"E cos ieri, parlando a Bari, il leader ha pron...",22
2,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.corriere.it/Primo_Piano/Cronache/20...,http://www.corriere.it/Primo_Piano/Cronache/20...,2005.0,stampa,Cina-Grecia è stata l’unica partita con un val...,26
3,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kwmusica.kataweb.it/kwmusica/pp_sch...,http://www.kwmusica.kataweb.it/kwmusica/pp_sch...,2005.0,stampa,"I bambini, che avrebbero dovuto frequentare la...",31
4,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.mytech.it/news/articolo/idA02800106...,http://www.mytech.it/news/articolo/idA02800106...,2005.0,stampa,La dignità della persona va rispettata e tutel...,13


In [14]:
df_big.shape

(430324, 8)

In [15]:
# KWIC-Listen und selbst erstelltes Korpus zu einem zusammenfügen

df_bigger = pd.concat([df_big, df], axis=0, join='outer', ignore_index=False)

In [16]:
df_bigger.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.dica33.it/argomenti/tossicologia/dr...,http://www.dica33.it/argomenti/tossicologia/dr...,2005.0,stampa,"Il programma delle attività prevede il 27, 28 ...",24.0
1,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.corriere.it/Primo_Piano/Spettacoli/...,http://www.corriere.it/Primo_Piano/Spettacoli/...,2005.0,stampa,"E cos ieri, parlando a Bari, il leader ha pron...",22.0
2,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.corriere.it/Primo_Piano/Cronache/20...,http://www.corriere.it/Primo_Piano/Cronache/20...,2005.0,stampa,Cina-Grecia è stata l’unica partita con un val...,26.0
3,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kwmusica.kataweb.it/kwmusica/pp_sch...,http://www.kwmusica.kataweb.it/kwmusica/pp_sch...,2005.0,stampa,"I bambini, che avrebbero dovuto frequentare la...",31.0
4,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.mytech.it/news/articolo/idA02800106...,http://www.mytech.it/news/articolo/idA02800106...,2005.0,stampa,La dignità della persona va rispettata e tutel...,13.0


In [17]:
df_bigger.shape

(431959, 8)

In [18]:
# Text von Tags befreien

def parser(text):
    return re.sub('<[^<]+?>', '', str(text))

df_bigger['text'] = df_bigger.text.apply(parser)

In [19]:
# NaN durch 0 ersetzen (nur für den Fall, um spätere Fehler zu vermeiden)

df_bigger = df_bigger.fillna(0)

In [20]:
# chronologisch ordnen

df_bigger = df_bigger.sort_values(by=['year'])

In [24]:
# Text bereinigen 

def clean_text(text):
    clean = re.sub('[^A-Za-z_àÀèÈìÌòÒùÙáÁéÉíÍóÓúÚ.,;:?!]',' ', text).lower()
    return clean

# Sicherstellen, dass nach Punktuation ein Whitespace ist (wichtig für Tokenisierung)

def proof_punctuation(text):
    proofed = re.sub(r'(?<=[.,;:?!])(?=[^\s])', r' ', text)
    return proofed

In [22]:
df_bigger['filtered_text'] = df_bigger['text'].astype(str).apply(clean_text)

In [25]:
df_bigger['cleaned_text'] = df_bigger['filtered_text'].astype(str).apply(proof_punctuation)

In [26]:
# Spalten neu anordnen und unnötige entfernen

df_final = df_bigger[['doc', 'source', 'author', 'title', 'year', 'text_type', 'words', 'text', 'cleaned_text']]

In [27]:
df_final

Unnamed: 0,doc,source,author,title,year,text_type,words,text,cleaned_text
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700.0,poesia,3184.0,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,iv. . rime degli arcadi: aglauro cidonia fau...
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,poesia,6113.0,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,iv. . rime degli arcadi: tirsi leucasio gio...
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,poesia,10862.0,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,iv. . rime degli arcadi: alessi cillenio giu...
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,personale,8374.0,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...","iv. . lorenzo magalotti, lettere odorose ..."
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700.0,espositivo,8990.0,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...","iv. . ludovico antonio muratori, antichità i..."
...,...,...,...,...,...,...,...,...,...
206,JSIatterrire.csv,JSI,repubblica.it,repubblica.it,2021.0,web,48.0,", si dedica da anni all''avventura fantasy-que...",", si dedica da anni all avventura fantasy que..."
1043,JSIspaventare_randomsample.csv,JSI,zazoom.it,zazoom.it,2021.0,web,35.0,"francese â€~Footmercatoâ€™, nella giornata di ...","francese footmercato , nella giornata di ..."
449,JSImostruosamente.csv,JSI,repubblica.it,repubblica.it,2021.0,web,34.0,"linkmotorssalerno@gmail.com,LINK MOTORS SALERN...","linkmotorssalerno gmail. com, link motors sale..."
200,JSIatterrire.csv,JSI,doppiozero.com,doppiozero.com,2021.0,web,42.0,Un crescendo appartiene alla tonalità emotiva...,un crescendo appartiene alla tonalità emotiva...


In [28]:
# speichern

df_final.to_csv('Korpus/corpus_complete.csv', encoding='utf-8', index=False)