# Textdateien in chunks gliedern 


In [1]:
from pathlib import Path
import os 
import re

In [2]:
data = 'Z:/TM_Schuchardt' 

## Laden und sortieren

In [52]:
path_to_corpus = Path(data, 'hsa_spa_lemma') # Ausgangspfad (wird nicht überschrieben)

In [53]:
sorted(os.listdir(path=path_to_corpus))

['101_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1881-09-03_spa.txt',
 '102_Luis-Romero-y-Espinosa_an_Hugo-Schuchardt_1882-08-18_spa.txt',
 '104_Alejandro-Guichot-y-Sierra_an_Hugo-Schuchardt_1887-04-08_spa.txt',
 '106_Salvador-Calderón-y-Arana_an_Hugo-Schuchardt_1884-05-10_spa.txt',
 '108_Francisco-Rodríguez-Marín_an_Hugo-Schuchardt_1883-03-18_spa.txt',
 '10_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1882_spa.txt',
 '110_Antonio-Sánchez-Moguel_an_Hugo-Schuchardt_1880-03-04_spa.txt',
 '112_Antonio-Sánchez-Moguel_an_Hugo-Schuchardt_1885-12-22_spa.txt',
 '114_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1882-01_spa.txt',
 '116_Luis-Romero-y-Espinosa_an_Hugo-Schuchardt_1883-01-24_spa.txt',
 '117_Juan-Valera_an_Hugo-Schuchardt_1879-05-29_spa.txt',
 '118_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1885-09-09_spa.txt',
 '121_Juan-Valera_an_Hugo-Schuchardt_1879_spa.txt',
 '129_Salvador-Calderón-y-Arana_an_Hugo-Schuchardt_1879-02-10_spa.txt',
 '12_Antonio-Machado-y-Álvarez_an_Hugo-Schuchar

In [54]:
filenames = [os.path.join(path_to_corpus, fn) for fn in sorted(os.listdir(path_to_corpus))]

filenames

['Z:\\TM_Schuchardt\\hsa_spa_lemma\\101_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1881-09-03_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\102_Luis-Romero-y-Espinosa_an_Hugo-Schuchardt_1882-08-18_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\104_Alejandro-Guichot-y-Sierra_an_Hugo-Schuchardt_1887-04-08_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\106_Salvador-Calderón-y-Arana_an_Hugo-Schuchardt_1884-05-10_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\108_Francisco-Rodríguez-Marín_an_Hugo-Schuchardt_1883-03-18_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\10_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1882_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\110_Antonio-Sánchez-Moguel_an_Hugo-Schuchardt_1880-03-04_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\112_Antonio-Sánchez-Moguel_an_Hugo-Schuchardt_1885-12-22_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\114_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1882-01_spa.txt',
 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\116_Luis-Romero-y-Espinosa_a

## Dokumente in chunks teilen

In [55]:
def split_text(filename, n_words):
    """Split a text into chunks approximately `n_words` words in length."""
    input = open(filename, 'r', encoding="utf-8")
    words = " ".join(re.sub(',|\.|\;|\:|\(|\)|\-','',input.read()).split()).split(' ') # remove special charachters and normalize space
    input.close()
    chunks = []
    current_chunk_words = []
    current_chunk_word_count = 0
    for word in words:
        current_chunk_words.append(word)
        current_chunk_word_count += 1
        if current_chunk_word_count == n_words:
            chunks.append(' '.join(current_chunk_words))
            current_chunk_words = []
            current_chunk_word_count = 0
    chunks.append(' '.join(current_chunk_words) )
    return chunks

In [56]:
filenames.sort()

In [57]:
chunk_length = 100
chunks = []

for filename in filenames:
    chunk_counter = 0
    texts = split_text(filename, chunk_length)
    for text in texts:
        chunk = {'text': text, 'number': chunk_counter, 'filename': filename} # make dictionary with content and information
        chunks.append(chunk)
        chunk_counter += 1
        

Anzahl der Originaldateien:

In [58]:
len(filenames)

389

Anzahl der erzeugten chunks:

In [59]:
len(chunks)

1128

Prüfen, ob eine Originaldatei zu kurz war, um sie im Topic Modeling überhaupt zu verwenden. 

In [60]:
i = 0
for chunk in chunks:
    l_chunk = len(chunk['text'].split(' '))
    if l_chunk < 30 and chunk['number'] == 0:
        i+=1
        print(l_chunk, chunk['filename'],chunk['number'])
print('Anzahl der Dateien, die du entfernen solltest: ', i)

19 Z:\TM_Schuchardt\hsa_spa_lemma\1569_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1923-03-05_spa.txt 0
21 Z:\TM_Schuchardt\hsa_spa_lemma\1911_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1908-04-12_spa.txt 0
27 Z:\TM_Schuchardt\hsa_spa_lemma\1954_Resurrección-María-de-Azkue-y-Aberasturi_an_Hugo-Schuchardt_1922-12-18_spa.txt 0
23 Z:\TM_Schuchardt\hsa_spa_lemma\510_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1907-08-23_spa.txt 0
29 Z:\TM_Schuchardt\hsa_spa_lemma\540_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1907-12-28_spa.txt 0
26 Z:\TM_Schuchardt\hsa_spa_lemma\550_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1908-05-26_spa.txt 0
28 Z:\TM_Schuchardt\hsa_spa_lemma\551_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1908-08-25_spa.txt 0
22 Z:\TM_Schuchardt\hsa_spa_lemma\563_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1909-09-30_spa.txt 0
21 Z:\TM_Schuchardt\hsa_spa_lemma\566_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1910-01-15_spa.txt 0
11 Z:\TM_Schuchardt\hsa_spa_lemma\577_Julio-de-Urquijo-Ybarra_

Hatte eine Datei beispielsweise 110 Tokens, werden 2 chunks produziert: <br>
1) mit 100 Tokens <br>
2) mit 10 Tokens. <br>
Wir möchten diese kurzen chunks ihren vorhergehenden Geschwisterdateien hinzufügen.  

In [61]:
i = 0
for chunk in chunks:
    index = chunks.index(chunk)
    l_chunk = len(chunk['text'].split(' '))
    if l_chunk < 30 and chunk['number'] != 0:
        i+=1
        chunks[index-1]['text'] = chunks[index-1]['text'] + ' ' + chunk['text']
        print('Chunk ' + chunk['filename'] + str(chunk['number']-1) + ' erweitert mit chunk ' + str(chunk['number']) + ' auf dem Index ' + str(index))
        
print('Anzahl der erweiterten chunks: ' + str(i))

Chunk Z:\TM_Schuchardt\hsa_spa_lemma\106_Salvador-Calderón-y-Arana_an_Hugo-Schuchardt_1884-05-10_spa.txt2 erweitert mit chunk 3 auf dem Index 14
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\112_Antonio-Sánchez-Moguel_an_Hugo-Schuchardt_1885-12-22_spa.txt0 erweitert mit chunk 1 auf dem Index 26
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\117_Juan-Valera_an_Hugo-Schuchardt_1879-05-29_spa.txt0 erweitert mit chunk 1 auf dem Index 35
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\118_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1885-09-09_spa.txt3 erweitert mit chunk 4 auf dem Index 40
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\136_Antonio-Machado-y-Álvarez_an_Hugo-Schuchardt_1881-12-02_spa.txt0 erweitert mit chunk 1 auf dem Index 89
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\142_Salvador-Calderón-y-Arana_an_Hugo-Schuchardt_1880-01-11_spa.txt4 erweitert mit chunk 5 auf dem Index 99
Chunk Z:\TM_Schuchardt\hsa_spa_lemma\1435_Antonio-Griera-y-Gaja_an_Hugo-Schuchardt_1920-03-02_spa.txt0 erweitert mit chunk 1 auf dem Index 101
Chun

In [62]:
chunks[198]

{'text': 'V y que yo transmitir á Lacombe este me escribir “ Tout ce que je sais de japhétique en dehors de ce que M Marr m’en a dit de vivir voix c’est que à unir séance de l’Académie à laquelle vous n’assistiez pas l’an dernier Azkue nous montra uno mémoire [ je ne me souviens plus dans quelle langue il était rédigé ] sur cette question Il est très possible que Marr se soit trompé d’adresse et que ce travail vous fût destinar car je ne crois pas que l’Euskera puisse insérer celar ” Las teoría de Marr no parecer',
 'number': 1,
 'filename': 'Z:\\TM_Schuchardt\\hsa_spa_lemma\\1544_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1922-05-16_spa.txt'}

Nun können diejenigen chunks, die bereits zu ihren Geschwisterdateien kopiert wurden, sowie diejenigen chunks, die sehr kurz waren und keine Geschwister hatten (= kurze Originalfiles) gelöscht werden.

In [63]:
i = 0
for chunk in chunks:
    index = chunks.index(chunk)
    l_chunk = len(chunk['text'].split(' '))
    if l_chunk < 30:
        i+=1
        chunks.remove(chunk)
        
print('Gelöschte chunks: ' + str(i))

Gelöschte chunks: 100


In [64]:
print('Übriggebliebene: ' + str(len(chunks)))

Übriggebliebene: 1028


## chunks zu Textdateien speichern

In [65]:
output_dir = 'Z:/TM_Schuchardt/hsa_spa_chunks_100'

In [66]:
""" Quelle für Code: DARIAH-DE (https://liferay.de.dariah.eu/tatom/index.html)

    for chunk in chunks:
    basename = os.path.basename(chunk['filename'])
    fn = os.path.join(output_dir, "{}{:04d}".format(basename, chunk['number']))
    with open(fn, 'w', encoding='utf-8') as f:
        f.write(chunk['text'])
"""
# umgeändert, sodass valide txt-Dateien als output kommen
for chunk in chunks:
    basename = os.path.basename(chunk['filename'])
    fn_base, fn_ext = os.path.splitext(basename)
    fn = os.path.join(output_dir, "{}_{:04d}{}".format(fn_base, chunk['number'], fn_ext))
    with open(fn, 'w', encoding='utf-8') as f:
        f.write(chunk['text'])

Testen, ob kurze Dateien übriggeblieben sind:

In [67]:
# Test if short files remained
i = 0
for chunkfile in Path(data, output_dir).glob('*.txt'):
    with open(chunkfile, encoding='utf-8') as f:
        text = f.read().split(' ')
        #print(len(text))
        if len(text) < 30:
            i+=1
            print(chunkfile.name)
print('Übriggebliebene kurze Files: ', i)

540_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1907-12-28_spa_0000.txt
551_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1908-08-25_spa_0000.txt
566_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1910-01-15_spa_0000.txt
599_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1911-09-02_spa_0000.txt
609_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1911-11-08_spa_0000.txt
619_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1912-02-03_spa_0000.txt
635_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1912-05-15_spa_0000.txt
646_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1912_spa_0000.txt
673_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1914-12-24_spa_0000.txt
676_Julio-de-Urquijo-Ybarra_an_Hugo-Schuchardt_1915-01-22_spa_0000.txt
Übriggebliebene kurze Files:  10


Wenn ja, dann sollten diese auch manuell entfernt oder zu Geschwisterdateien hinzugefügt werden.
