# Erstellung des Korpus

In [1]:
import glob
import numpy as np
import os
import pandas as pd
import re

In [2]:
# Metadaten einlesen

md = pd.read_csv('metadata.csv', sep=';', encoding='utf-8')

In [3]:
files = []

for file in os.listdir('Texte'):
    files.append(file)

In [4]:
# Texte einlesen 

data = []

for file in os.listdir('Texte'):
    with open(os.path.join('Texte', file),'r', encoding='utf-8', errors='ignore') as myfile:
        data.append(myfile.read())

In [5]:
# Metadaten und Texte zusammenfügen (matcht den Dokumentnamen)

corpus = pd.DataFrame({'file': files, 'text': data})

df = pd.merge(md, corpus, how='left', left_on='doc', right_on='file')

In [6]:
# Wörter zählen und hinzfügen

df['words'] = df['text'].str.count(r'\w+')

In [7]:
# Spalten neu anordnen und unnötige entfernen

df = df[['doc', 'source', 'author', 'title', 'year', 'text_type', 'text', 'words']]

In [8]:
df.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,Poesia.IV.4.Testo.txt,MIDIA,Faustina Maratti Zappi,Poesie,1700,poesia,IV. 4. Rime degli Arcadi: Aglauro Cidonia (Fau...,3184.0
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
4,Espositivi.IV.4.Testo.txt,MIDIA,Ludovico Antonio Muratori,Antichità italiane,1700,espositivo,"﻿IV. 4. Ludovico Antonio Muratori, Antichità i...",8990.0


In [9]:
df.shape 

(1635, 8)

In [10]:
# KWIC-Listen 
# (vorher einzeln in einheitliche Form gebracht, siehe Vorbereitungscode in den Ordnern der jeweiligen Korpora)

directory = 'KWIC'
kwic_files = glob.glob(os.path.join(directory, '*.csv'))

In [11]:
# alle KWIC-Listen einlesen 

frames = []

for kwic_file in kwic_files:
    df_new = pd.read_csv(kwic_file, sep=',', encoding='utf-8')
    frames.append(df_new)

In [12]:
# zu einem Dataframe zusammenfügen 

df_big = pd.concat(frames)

In [13]:
df_big.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.dica33.it/argomenti/tossicologia/dr...,http://www.dica33.it/argomenti/tossicologia/dr...,2005.0,stampa,"Il programma delle attività prevede il 27, 28 ...",24
1,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://qn.quotidiano.net/chan/tuttocalcio%3a53...,http://qn.quotidiano.net/chan/tuttocalcio%3a53...,2005.0,stampa,Anche i nostri lettori non capiscono la sua li...,9
2,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kataweb.it/sport/sportdetail.jsp%3f...,http://www.kataweb.it/sport/sportdetail.jsp%3f...,2005.0,stampa,Tutto questo mentre di fronte ai nostri occhi ...,28
3,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kataweb.it/sport/sportdetail.jsp%3f...,http://www.kataweb.it/sport/sportdetail.jsp%3f...,2005.0,stampa,"Su una cosa sono tutti d'accordo, amici e nemi...",19
4,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://it.sports.yahoo.com/050319/8/7179.html,http://it.sports.yahoo.com/050319/8/7179.html,2005.0,stampa,"Ogni partita è stata difficile, e siamo orgogl...",17


In [14]:
df_big.shape

(215692, 8)

In [15]:
# KWIC-Listen und selbst erstelltes Korpus zu einem zusammenfügen

df_bigger = pd.concat([df_big, df], axis=0, join='outer', ignore_index=False)

In [16]:
df_bigger.head()

Unnamed: 0,doc,source,author,title,year,text_type,text,words
0,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.dica33.it/argomenti/tossicologia/dr...,http://www.dica33.it/argomenti/tossicologia/dr...,2005.0,stampa,"Il programma delle attività prevede il 27, 28 ...",24.0
1,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://qn.quotidiano.net/chan/tuttocalcio%3a53...,http://qn.quotidiano.net/chan/tuttocalcio%3a53...,2005.0,stampa,Anche i nostri lettori non capiscono la sua li...,9.0
2,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kataweb.it/sport/sportdetail.jsp%3f...,http://www.kataweb.it/sport/sportdetail.jsp%3f...,2005.0,stampa,Tutto questo mentre di fronte ai nostri occhi ...,28.0
3,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://www.kataweb.it/sport/sportdetail.jsp%3f...,http://www.kataweb.it/sport/sportdetail.jsp%3f...,2005.0,stampa,"Su una cosa sono tutti d'accordo, amici e nemi...",19.0
4,ita_news_2005-2009_1M-sentences.txt,Corpora Italian,http://it.sports.yahoo.com/050319/8/7179.html,http://it.sports.yahoo.com/050319/8/7179.html,2005.0,stampa,"Ogni partita è stata difficile, e siamo orgogl...",17.0


In [17]:
df_bigger.shape

(217327, 8)

In [18]:
# Text von Tags befreien

def parser(text):
    return re.sub('<[^<]+?>', '', str(text))

df_bigger['text'] = df_bigger.text.apply(parser)

In [19]:
# NaN durch 0 ersetzen (nur für den Fall, um spätere Fehler zu vermeiden)

df_bigger = df_bigger.fillna(0)

In [20]:
# chronologisch ordnen

df_bigger = df_bigger.sort_values(by=['year'])

In [21]:
# Zeitraum zuordnen

df_bigger['period'] = ['1700-1750' if x >= 1700 and x <= 1750 
                    else '1751-1800' if x >= 1751 and x <= 1800
                    else '1801-1825' if x >= 1801 and x <= 1825
                    else '1826-1850' if x >= 1826 and x <= 1850
                    else '1851-1875' if x >= 1851 and x <= 1875
                    else '1876-1900' if x >= 1876 and x <= 1900
                    else '1901-1925' if x >= 1901 and x <= 1925
                    else '1926-1950' if x >= 1926 and x <= 1950
                    else '1951-1985' if x >= 1951 and x <= 1985
                    else '1986-2000' if x >= 1986 and x <= 2000
                    else '2001-2021' if x >= 2001 and x <= 2021
                    else '>1700' 
                    for x in pd.to_numeric(df_bigger['year'])]

In [22]:
# unbrauchbare Zeilen entfernen

df_bigger = df_bigger[df_bigger.period != '>1700']

In [23]:
# Spalten neu anordnen und unnötige entfernen

df_final = df_bigger[['doc', 'source', 'author', 'title', 'year', 'period', 'text_type', 'text', 'words']]

In [24]:
df_final

Unnamed: 0,doc,source,author,title,year,period,text_type,text,words
1,Poesia.IV.11.Testo.txt,MIDIA,Giambattista Felice Zappi,Poesie,1700.0,1700-1750,poesia,IV. 11. Rime degli arcadi: Tirsi Leucasio (Gio...,6113.0
6,Personali.IV.4.Testo.txt,MIDIA,Vincenzo da Filicaia,Lettere inedite a Lorenzo Magalotti,1700.0,1700-1750,personale,"IV. 4. Vincenzo da Filicaia, Lettere inedite a...",10073.0
5,Personali.IV.15.Testo.txt,MIDIA,Pietro Giannone,Vita scritta da lui medesimo,1700.0,1700-1750,personale,[Proemio]\nPrendo a scrivere la mia vita e qua...,10118.0
2,Poesia.IV.1.Testo.txt,MIDIA,Giuseppe Paolucci (Alessi Cillenio),Poesie,1700.0,1700-1750,poesia,IV. 1. Rime degli Arcadi: Alessi Cillenio (Giu...,10862.0
3,Personali.IV.5.Testo.txt,MIDIA,Lorenzo Magalotti,Lettere odorose (1693-1705),1700.0,1700-1750,personale,"IV. 5. Lorenzo Magalotti, Lettere odorose (169...",8374.0
...,...,...,...,...,...,...,...,...,...
160,JSIieri_randomsample.csv,JSI,affaritaliani.it,affaritaliani.it,2021.0,2001-2021,web,di circolazione e non violare i diritti di aut...,33.0
380,JSIschifo_randomsample.csv,JSI,zazoom.it,zazoom.it,2021.0,2001-2021,web,": il programma notizie_milan : Serie A, il pr...",33.0
169,JSIieri_randomsample.csv,JSI,agenzianova.com,agenzianova.com,2021.0,2001-2021,web,si provvederà immediatamente a fornire nuove c...,36.0
0,JSIangosciare_randomsample.csv,JSI,fattidigossip.com,fattidigossip.com,2021.0,2001-2021,web,15. La Persia ha potuto godere della prova ri...,39.0


In [25]:
# speichern

df_final.to_csv('Korpus/corpus_complete.csv', encoding='utf-8', index=False)