# Lemmatisierung - Test an Beispieldateien

In [2]:
import warnings
warnings.filterwarnings('ignore')

from cophi_toolbox import preprocessing

import metadata_toolbox.utils as metadata
import pandas as pd
from pathlib import Path

In [3]:
data = 'Z:/TM_Schuchardt'

## Deutsch

### Laden und bereinigen

In [2]:
path_to_corpus = Path(data, 'hsa_txt_deu')

In [3]:
pattern = '{id}_{sender}_an_{reciever}_{date}_{language}' 
# z. B. 3048_Hugo Schuchardt_an_Ernst Dümmler_1902-05-28_deu

In [4]:
meta = pd.concat([metadata.fname2metadata(str(path), pattern=pattern) for path in path_to_corpus.glob('*.txt')])
meta[:5] 

Unnamed: 0,id,sender,reciever,date,language
C:\mallet-2.0.8\mydata\hsa_txt_deu\100_Max-Leopold-Wagner_an_Hugo-Schuchardt_1924-02-05_deu.txt,100,Max-Leopold-Wagner,Hugo-Schuchardt,1924-02-05,deu
C:\mallet-2.0.8\mydata\hsa_txt_deu\103_Hugo-Schuchardt_an_Otto-Jespersen_1889-12-01_deu.txt,103,Hugo-Schuchardt,Otto-Jespersen,1889-12-01,deu
C:\mallet-2.0.8\mydata\hsa_txt_deu\1056_Dirk-Christiaan-Hesseling_an_Hugo-Schuchardt_1914-01-13_deu.txt,1056,Dirk-Christiaan-Hesseling,Hugo-Schuchardt,1914-01-13,deu
C:\mallet-2.0.8\mydata\hsa_txt_deu\105_Gerhard-Bähr_an_Hugo-Schuchardt_1924-02-04_deu.txt,105,Gerhard-Bähr,Hugo-Schuchardt,1924-02-04,deu
C:\mallet-2.0.8\mydata\hsa_txt_deu\1063_Hugo-Schuchardt_an_Matthias-de-Vries_1882-06-19_deu.txt,1063,Hugo-Schuchardt,Matthias-de-Vries,1882-06-19,deu


In [5]:
corpus = list(preprocessing.read_files(meta.index))
corpus[150][:255] 

"\n\n\n\nDank für die Gabe.\nDie Bedeutung von by-and-by 'Geduld, warte nur', die Sie für\ndie Saramakka-Neger bezeugen,\nkenne ich auch im Munde englisch sprechender Chinesen, wovon mir ein österreichischer\nFregattenkapitän, der den chinesischen Feldzug mitgemac"

In [8]:
#Entfernen von Zeilenumbrüchen, Zahlen und Satzzeichen
import re
for text in corpus:
    index = corpus.index(text)
    corpus[index] = re.sub(r'\\n|\W+|\d', ' ', corpus[index])
    corpus[index] = corpus[index].rstrip()
corpus[45]

' Ihre Karte die ich gestern erhielt war für mich eine grosse Freude und Überraschung für die ich Ihnen herzlich danke Ich hatte auch gerade vor Ihnen in diesen Tagen in einer anderen Angelegenheit zu schreiben und zwar möchte ich Sie um Erlaubnis bitten Ihre Baskische Studien I ins Spanische übersetzen zu dürfen Die Euskaltzaindia hatte mich nämlich gebeten die Übersetzung vorzunehmen da nur sehr wenige ihrer Mitglieder Deutsch verstehen und sie andererseits den Wunsch hegen dieses grundlegende Werk kennen zu lernen Die Übersetzung sollte vorläufig nicht gedruckt werden sondern nur handschriftlich den Mitgliedern der Akademie zu Verfügung stehen worauf ich mich bereit erklärt habe sie zu übernehmen vorbehaltlich Ihrer Erlaubnis Leider beherrsche ich das Spanische nicht so vollständig um eine mustergültige Übersetzung liefern zu können besonders weil Ihr Stil oft schwer zu übertragen ist aber da sie aus dem kleinen Kreise nicht heraustritt hatte ich mich bereit erklärt zumal weiter kei

## Lemmatisierung mit Spacy

So schaut es aus, wenn mit Spacy sowohl tokenisiert, als auch lemmatisiert wird:



In [None]:
# Tokenisierung und Lemmatisierung mit Spacy
import spacy
nlp = spacy.load('de_core_news_sm')
text = corpus[45]
doc = nlp(text)
print([chunk.text for chunk in doc.noun_chunks])
print('___________________________________________')
print([token.lemma_ for token in doc])

[' Ihre Karte', 'die', 'ich', 'mich', 'eine grosse Freude', 'Überraschung', 'ich', 'Ihnen', 'Ich', 'Ihnen', 'diesen Tagen', 'einer anderen Angelegenheit', 'ich', 'Sie', 'Erlaubnis', 'Ihre Baskische Studien', 'Spanische', 'Die Euskaltzaindia', 'mich', 'die Übersetzung', 'nur sehr wenige', 'ihrer Mitglieder', 'Deutsch', 'sie', 'den Wunsch', 'dieses grundlegende Werk', 'Die Übersetzung', 'den Mitgliedern', 'der Akademie', 'Verfügung', 'ich', 'mich', 'sie', 'Ihrer Erlaubnis', 'ich', 'das Spanische', 'eine mustergültige Übersetzung', 'Ihr Stil', 'sie', 'dem kleinen Kreise', 'ich', 'mich', 'keiner', 'Frage', 'Ich', 'Sie', 'nicht auch Ihre übrigen Theorien', 'Bemerkungen', 'die Sie', 'wir', 'dieser Hinsicht', 'noch etwas', 'Ihnen', 'Die Baskischen Studien', 'ich', 'mir', 'einigen Wochen', 'Marburg', 'das Berliner Exemplar', 'Herrn Prof Urtel', 'dauernd verlie', 'en', 'zweimaligen Durcharbeiten', 'ich', 'alles', 'Ich', 'Seite', 'Ziel', 'Bezugsformen', 'guipuzkoanischen Ich', 'mich', 'des Eindr

Dies wendet man jetzt an alle Dateien aus dem Korpus an und ersetzt die Tokenisierung durch die Lemmatisierung.


In [None]:
import spacy
nlp = spacy.load('de_core_news_sm')

lemmatized_corpus = []
for document in corpus:
    #text = ' '.join(document) #Wenn nicht mit Spacy lemmatisiert, dann diese Zeile auskommentieren
    doc = nlp(document)
    lemmas = [token.lemma_ for token in doc]
    lemmatized_corpus.append([lemma.lower() for lemma in lemmas])
    
print(lemmatized_corpus[0])


[' ', 'für', 'der', 'überaus', 'liebenswürdig', 'zusendung', 'sich', 'primitiae', 'linguae', 'vasconum', 'können', 'ich', 'ich', 'nicht', 'genug', 'danken', 'ich', 'habe', 'schon', 'beginnen', 'sich', 'in', 'dies', 'herrlich', 'lichtvolle', 'darstellung', 'der', 'baskische', 'zu', 'versenken', 'und', 'hoffen', 'damit', 'endgültig', 'der', 'bannen', 'zu', 'brechen', 'der', 'für', 'sich', 'bisher', 'mit', 'dies', 'lengua', 'enrevesada', 'verbinden', 'sein']


In [None]:
print(lemmatized_corpus[45])

[' ', 'mein', 'karten', 'der', 'ich', 'gestern', 'erhalten', 'sein', 'für', 'sich', 'einen', 'grosse', 'freude', 'und', 'überraschung', 'für', 'der', 'ich', 'ich', 'herzlich', 'danke', 'ich', 'haben', 'auch', 'gerade', 'vor', 'ich', 'in', 'dies', 'tag', 'in', 'einer', 'ander', 'angelegenheit', 'zu', 'schreiben', 'und', 'zwar', 'mögen', 'ich', 'ich', 'um', 'erlaubnis', 'bitten', 'mein', 'baskisch', 'studie', 'i', 'ins', 'spanisch', 'übersetzen', 'zu', 'dürfen', 'der', 'euskaltzaindia', 'haben', 'sich', 'nämlich', 'gebeten', 'der', 'übersetzung', 'vornehmen', 'da', 'nur', 'sehr', 'wenig', 'sich', 'mitglied', 'deutsch', 'verstehen', 'und', 'ich', 'andererseits', 'der', 'wunsch', 'hegen', 'dies', 'grundlegende', 'werken', 'kennen', 'zu', 'lernen', 'der', 'übersetzung', 'sollen', 'vorläufig', 'nicht', 'drucken', 'werden', 'sondern', 'nur', 'handschriftlich', 'der', 'mitglied', 'der', 'akademie', 'zu', 'verfügung', 'stehen', 'worauf', 'ich', 'sich', 'bereiten', 'erklären', 'habe', 'ich', 'zu

## Französisch

### Spacy

In [4]:
path_to_corpus = Path(data, 'hsa_fra_test')
pattern = '{id}_{sender}_an_{reciever}_{date}_{language}' 
meta = pd.concat([metadata.fname2metadata(str(path), pattern=pattern) for path in path_to_corpus.glob('*.txt')])


In [15]:
import spacy
nlp = spacy.load('fr_core_news_md')
corpus = list(preprocessing.read_files(meta.index))

doc = nlp(corpus[0])

for token in doc:
    print(token, ' : ', token.lemma_)






  :  





Page  :  Page

  :  

Ligne  :  Ligne

  :  

Catéchisme  :  catéchisme
Créole  :  Créole
(  :  (
catécisse  :  catécisse
criole  :  criole
)  :  )



  :  



1  :  1
.  :  .

  :  

1  :  1

  :  

Demande  :  Demande
est  :  être
créole  :  créole
,  :  ,
mais  :  mais
se  :  se
prononce  :  prononcer
démande  :  démande
{  :  {
ou  :  ou
dimande  :  dimand
.  :  .
Réponse  :  réponse
est  :  être
créole  :  créole
.  :  .



 
  :  


 

5  :  5
.  :  .

  :  

Ciel  :  ciel
,  :  ,
prend  :  prendre
toujours  :  toujours
l’  :  l’
article  :  article
léciel  :  léciel
ou  :  ou
liciel  :  liciel



 
 
  :  


 
 

Seigneur  :  seigneur
se  :  se
prononce  :  prononcer
seigneir  :  seigneir
comme  :  comme

  :  

page  :  page
6  :  6
,  :  ,
ligne  :  ligne
20  :  20
.  :  .



  :  



2  :  2

  :  

2  :  2

  :  

chose  :  chose
non  :  non
,  :  ,
mais  :  mais
çose  :  çose
:  :  :
ch  :  ch
est  :  être
impossible  :  impossible
en  :  en
créole  :  créol

fini  :  finir
cassé  :  cassé
son  :  son
pipe  :  pipe
;  :  ;
non  :  non
mais  :  mais
qui  :  qui
fine  :  fin
casse  :  casse

  :  

son  :  son
pipe  :  pipe

  :  

p.  :  p.
6  :  6
eine  :  eine
côté  :  côté
moi  :  moi
bien  :  bien
aise  :  aise
,  :  ,
ce  :  ce
n’  :  n’
est  :  être
pas  :  pas
créole  :  créole

  :  

Diable  :  Diable
!  :  !
cette  :  ce
interjection  :  interjection
n’  :  n’
est  :  être
pas  :  pas
créole  :  créole
.  :  .

  :  

çiplique  :  çipliqu
-  :  -
moi  :  moi
:  :  :
pas  :  pas
créole  :  créole

  :  

tout  :  tout
d’  :  d’
site  :  site
non  :  non
,  :  ,
mais  :  mais
toutsite  :  toutsite
.  :  .

  :  

été  :  être
non  :  non
,  :  ,
mais  :  mais
té  :  té
ou  :  ou
ti  :  ti
.  :  .

  :  

p.  :  p.
7  :  7
.  :  .
dormi  :  dormi
,  :  ,
c’  :  c’
est  :  être
dourmi  :  dourmi

  :  

Faire  :  faire
vous  :  vous
consolé  :  consoler
,  :  ,
ce  :  ce
n’  :  n’
est  :  être
pas  :  pas
créole  :  créole
.  :  .

  :

In [16]:
for token in doc:
    if token.pos_ == 'NOUN':
        print(token, ' : ', token.lemma_)

Catéchisme  :  catéchisme
catécisse  :  catécisse
criole  :  criole
Réponse  :  réponse
Ciel  :  ciel
article  :  article
Seigneur  :  seigneur
page  :  page
ligne  :  ligne
chose  :  chose
çose  :  çose
créole  :  créole
cimin  :  cimin
dévré  :  dévré
forme  :  forme
té  :  té
dévré  :  dévré
auxiliaire  :  auxiliaire
texte  :  texte
fait  :  fait
Li  :  li
doitte  :  doitte
laboutique  :  laboutique
dettes  :  dette
auxiliaires  :  auxiliaire
mo  :  mo
to  :  to
té  :  té
néque  :  néque
oreille  :  oreille
*  :  *
yenna  :  yenna
conditionnel  :  conditionnel
capave  :  capave
service  :  service
expression  :  expression
saveur  :  saveur
jours  :  jour
cote  :  cote
antérieur  :  antérieur
p.  :  p.
g  :  gramme
condition  :  condition
emploi  :  emploi
mot  :  mot
zote  :  zote
content  :  content
s’  :  s’
uns  :  un
périphrase  :  périphrase
idée  :  idée
réciprocité  :  réciprocité
zote  :  zote
content  :  content
eine  :  eine
diables  :  diable
diabe  :  diabe
ble  :  ble


In [17]:
for token in doc:
    if token.pos_ == 'ADJ':
        print(token, ' : ', token.lemma_)

créole  :  créole
dimande  :  dimand
créole  :  créole
léciel  :  léciel
impossible  :  impossible
chimin  :  chimin
p.  :  p.
véritable  :  véritable
conditionnelle  :  conditionnel
aujourd’hui  :  aujourd’hui
té  :  té
original  :  original
doitte  :  doitt
neinque  :  neinqu
néque  :  néqu
utiles  :  utile
anciens  :  ancien
vrai  :  vrai
créole  :  créole
moderne  :  moderne
‘  :  ‘
zanges  :  zange
zanzes  :  zanze
impossible  :  impossible
créole  :  créole
camrades  :  camrade
autres  :  autre
créole  :  créole
aujourd’hui  :  aujourd’hui
laute  :  laut
final  :  final
impossible  :  impossible
‘  :  ‘
double  :  double
faible  :  faible
emphatique  :  emphatique
possessif  :  possessif
conné  :  conné
bas  :  bas
dernière  :  dernier
conne  :  con
monte  :  mont
sonne  :  sonn
créole  :  créole
meilleur  :  meilleur
péchés  :  péché
impossible  :  impossible
impossible  :  impossible
nation  :  nation
seul  :  seul
créole  :  créole
voulé  :  voulé
bèf  :  bèf
caste  :  cast
‘ 

In [18]:
for token in doc:
    if token.pos_ == 'VERB':
        print(token, ' : ', token.lemma_)

prononce  :  prononcer
démande  :  démande
{  :  {
prend  :  prendre
prononce  :  prononcer
seigneir  :  seigneir
=  :  =
existe  :  exister
=  :  =
prend  :  prendre
doit  :  devoir
Ex  :  ex
a  :  avoir
prend  :  prendre
va  :  aller
toi  :  toi
=  :  =
sonne  :  sonner
créole  :  créole
va  :  aller
constitué  :  constituer
dit  :  dire
p.  :  p.
rende  :  rendre
rendre  :  rendre
aiment  :  aimer
rendre  :  rendre
dirait  :  dire
prononce  :  prononcer
va  :  aller
péye  :  péye
toi  :  toi
doublé  :  doubler
faut  :  falloir
doubler  :  doubler
signalé  :  signaler
lire  :  lire
conservé  :  conserver
souligner  :  souligner
montre  :  montre
pécés  :  pécer
peuple  :  peuple
aujourd’hui  :  aujourd’hui
conquis  :  conquérir
manger  :  manger
a  :  avoir
perdre  :  perdre
aider  :  aider
conservé  :  conserver
disent  :  dire
vini  :  vini
vine  :  viner
souligne  :  souligner
montre  :  montre
ligne  :  ligne
=  :  =
entend  :  entendre
existe  :  exister
exister  :  exister
va  

## Stemming mit NLTK

In [8]:
import nltk
from nltk.stem.snowball import FrenchStemmer
stemmer = FrenchStemmer()


In [6]:
corpus = list(preprocessing.read_files(meta.index))


In [9]:
tokens = nltk.word_tokenize(corpus[0])
print(tokens)

['Page', 'Ligne', 'Catéchisme', 'Créole', '(', 'catécisse', 'criole', ')', '1', '.', '1', 'Demande', 'est', 'créole', ',', 'mais', 'se', 'prononce', 'démande', '{', 'ou', 'dimande', '.', 'Réponse', 'est', 'créole', '.', '5', '.', 'Ciel', ',', 'prend', 'toujours', 'l', '’', 'article', 'léciel', 'ou', 'liciel', 'Seigneur', 'se', 'prononce', 'seigneir', 'comme', 'page', '6', ',', 'ligne', '20', '.', '2', '2', 'chose', 'non', ',', 'mais', 'çose', ':', 'ch', 'est', 'impossible', 'en', 'créole', ';', 'donc', 'chimin', 'p.', '6', '=', 'cimin', '.', '7', 'dévré', 'véritable', 'forme', 'conditionnelle', '.', 'Elle', 'existe', 'couramment', 'aujourd', '’', 'hui', '(', 'vous', 'té', 'dévré', '=', 'vous', 'devriez', ',', ')', 'mais', 'prend', 'l', '’', 'auxiliaire', 'té', '.', 'Si', 'le', 'texte', 'est', 'de', '1828', ',', 'le', 'fait', 'est', 'particulièrement', 'original', '.', '(', 'Devoir', '=', 'doit', 'ou', 'doitte', '.', 'Ex', 'Li', 'doitte', 'laboutique', '.', 'Il', 'a', 'des', 'dettes', '

In [10]:
stemmas = [stemmer.stem(token) for token in tokens]
print(stemmas)   

['pag', 'lign', 'catech', 'créol', '(', 'catec', 'criol', ')', '1', '.', '1', 'demand', 'est', 'créol', ',', 'mais', 'se', 'prononc', 'démand', '{', 'ou', 'dimand', '.', 'répons', 'est', 'créol', '.', '5', '.', 'ciel', ',', 'prend', 'toujour', 'l', '’', 'articl', 'léciel', 'ou', 'liciel', 'seigneur', 'se', 'prononc', 'seigneir', 'comm', 'pag', '6', ',', 'lign', '20', '.', '2', '2', 'chos', 'non', ',', 'mais', 'ços', ':', 'ch', 'est', 'impossibl', 'en', 'créol', ';', 'donc', 'chimin', 'p.', '6', '=', 'cimin', '.', '7', 'devr', 'vérit', 'form', 'conditionnel', '.', 'elle', 'exist', 'cour', 'aujourd', '’', 'hui', '(', 'vous', 'té', 'devr', '=', 'vous', 'devr', ',', ')', 'mais', 'prend', 'l', '’', 'auxiliair', 'té', '.', 'si', 'le', 'text', 'est', 'de', '1828', ',', 'le', 'fait', 'est', 'particuli', 'original', '.', '(', 'devoir', '=', 'doit', 'ou', 'doitt', '.', 'ex', 'li', 'doitt', 'labout', '.', 'il', 'a', 'de', 'det', '.', 'il', 'prend', 'le', 'auxiliair', ';', 'ains', ',', 'mo', 'va',

In [11]:
for token, stemma in zip(tokens, stemmas):
    if token != '' or stemma != '':
        print(token + ' : '+ stemma)

Page : pag
Ligne : lign
Catéchisme : catech
Créole : créol
( : (
catécisse : catec
criole : criol
) : )
1 : 1
. : .
1 : 1
Demande : demand
est : est
créole : créol
, : ,
mais : mais
se : se
prononce : prononc
démande : démand
{ : {
ou : ou
dimande : dimand
. : .
Réponse : répons
est : est
créole : créol
. : .
5 : 5
. : .
Ciel : ciel
, : ,
prend : prend
toujours : toujour
l : l
’ : ’
article : articl
léciel : léciel
ou : ou
liciel : liciel
Seigneur : seigneur
se : se
prononce : prononc
seigneir : seigneir
comme : comm
page : pag
6 : 6
, : ,
ligne : lign
20 : 20
. : .
2 : 2
2 : 2
chose : chos
non : non
, : ,
mais : mais
çose : ços
: : :
ch : ch
est : est
impossible : impossibl
en : en
créole : créol
; : ;
donc : donc
chimin : chimin
p. : p.
6 : 6
= : =
cimin : cimin
. : .
7 : 7
dévré : devr
véritable : vérit
forme : form
conditionnelle : conditionnel
. : .
Elle : elle
existe : exist
couramment : cour
aujourd : aujourd
’ : ’
hui : hui
( : (
vous : vous
té : té
dévré : devr
= : =
vous : vo

créole : créol
dirait : dir
fatigue : fatigu
vous : vous
lécorps : lécorp
. : .
quand : quand
li : li
voulé : voul
gagné : gagn
son : son
l : l
’ : ’
arzent : arzent
. : .
partout : partout
ici : ici
au : au
lieu : lieu
de : de
li : li
, : ,
toujours : toujour
singulier : singuli
, : ,
il : il
faudrait : faudr
le : le
pluriel : pluriel
zaute : zaut
. : .
l : l
’ : ’
arzent : arzent
di : di
mois : mois
n : n
’ : ’
est : est
pas : pas
créole : créol
, : ,
mais : mais
larzent : larzent
zot : zot
lémois : lémois
. : .
Ma : ma
foi : foi
, : ,
l : l
’ : ’
exclamation : exclam
n : n
’ : ’
est : est
pas : pas
créole : créol
, : ,
pas : pas
plus : plus
que : que
sacristi : sacrist
. : .
c : c
’ : ’
est : est
qui : qui
, : ,
moins : moin
créole : créol
encore : encor
ça : ça
lé : lé
nom-là : nom-là
. : .
pourquoi : pourquoi
pas : pas
substantif : substant
, : ,
ce : ce
serait : ser
d : d
’ : ’
aussi : auss
bonne : bon
langue : langu
. : .
- : -
Pierrot : pierrot
dans : dan
les : le
embarras : em

## Italienisch
### Spacy

In [14]:
path_to_corpus = Path('Z:/TM_Schuchardt/hsa_ita_test')
pattern = '{id}_{sender}_an_{reciever}_{date}_{language}' 
meta = pd.concat([metadata.fname2metadata(str(path), pattern=pattern) for path in path_to_corpus.glob('*.txt')])


In [21]:
import spacy
nlp = spacy.load('it_core_news_sm')
corpus = list(preprocessing.read_files(meta.index))

doc = nlp(corpus[0])

for token in doc:
    print(token, ' : ', token.lemma_)


        
        
        
          :  
        
        
        
        
Vi  :  Vi
ringrazio  :  ringraziare
del  :  del
vostro  :  vostro
Estrattino  :  Estrattino
,  :  ,
che  :  che
m'  :  mi
arrivò  :  arrivare
il  :  il
17  :  17
,  :  ,

              :  
            
cioè  :  cioè
nel  :  nel
primo  :  primo
giorno  :  giorno
del  :  del
mio  :  mio
70mo  :  70mo
anno  :  anno
.  :  .
Ne  :  Ne
ho  :  avere
súbito  :  súbito
scritta  :  scrivere
una  :  una
molto  :  molto
allegra  :  allegro

              :  
            
confutazione  :  confutazione
,  :  ,
per  :  per
la  :  la
parte  :  partire
che  :  che
mi  :  mi
concerne  :  concernere
;  :  ;
e  :  e
ve  :  ve
la  :  la
volevo  :  volere
mandare  :  mandare
.  :  .
   :   
Ma  :  Ma
ho  :  avere
poi  :  poi
temuto  :  temere
che  :  che
vi  :  vi
potesse  :  potere
dispiacere  :  dispiacere
,  :  ,

              :  
            
non  :  non
ostante  :  ostare
il  :  il
rispetto  :  rispettare
e  :  e
l'  :  lo
a

portata  :  portato
pressocchè  :  pressocchè

              :  
            
all'  :  alla
evidenza  :  evidenza
dal  :  dal
fatto  :  fare
che  :  che
pugnóro  :  pugnóro
ha  :  avere
accanto  :  accanto
a  :  a
sè  :  sè
il  :  il
sinonimo  :  sinonimo

              :  
            
pugnólo  :  pugnólo
.  :  .
E  :  E
questa  :  questo
roba  :  roba
s'  :  si
oppone  :  opporre
al  :  al
cápor  :  cápor
che  :  che
esce  :  uscire
dal  :  dal
sub  :  sub
capore  :  capore
di  :  di
un  :  un
documento  :  documentare

              :  
            
latino  :  latino
!  :  !

          :  
        
Toccare  :  Toccare
ecc  :  ecc
.  :  .
   :   
Voi  :  Voi
stimate  :  stimato
che  :  che
'  :  '
toc  :  toc
toc  :  toc
toc  :  toc
'  :  '
abbia  :  avere
dato  :  datare
un  :  un
verbo  :  verbo
al  :  al
volgare  :  volgare
latino  :  latino
(  :  (
toccare  :  toccare
toucher  :  toucher
ecc  :  ecc
.  :  .
)  :  )
e  :  e
ne  :  ne
abbia  :  avere
tornato  :  tornare
a  :  a
dar

In [22]:
for token in doc:
    if token.pos_ == 'NOUN':
        print(token, ' : ', token.lemma_)

  :  voce
articolo  :  articolare
lessico  :  lessico
cápora  :  cápora
linguisti  :  linguista
cápora  :  cápora
ragione  :  ragione
plurale  :  plurale
tema  :  temere
derivazioni  :  derivazione
sien  :  sien
latino  :  latino
tema  :  temere
temporale  :  temporale
derivazione  :  derivazione
forma  :  formare
pluralità  :  pluralità
ramora  :  ramora
rami  :  ramo
teste  :  testa
teste  :  testa
contenuto  :  contenere
caporello  :  caporello
capitello  :  capitello
friul  :  friul
cosa  :  cosa
caperozzolo  :  caperozzolo
unità  :  unità
capo  :  capere
capitozza  :  capitozza
caporano  :  caporano
capitano  :  capitare
caporale  :  caporale
plurale  :  plurale
lettore  :  lettore
esempio  :  esempio
imbecille  :  imbecille
catedratico  :  catedratico
unicum  :  unicum
ordine  :  ordine
cosa  :  cosa
agitarsi  :  agitarsi
ironia  :  ironia
ricerca  :  ricercare
idea  :  ideare
lettore  :  lettore
vostro  :  vostro
collega  :  collegare
ragione  :  ragione
soggiunsi  :  soggiunger

In [23]:
for token in doc:
    if token.pos_ == 'ADJ':
        print(token, ' : ', token.lemma_)

primo  :  primo
allegra  :  allegro
particolare  :  particolare
della  :  della
dai  :  dare
eccessiva  :  eccessivo
singolare  :  singolare
seguenti  :  seguire
stessa  :  stesso
necessaria  :  necessario
caporale  :  caporale
caporale  :  caporale
altri  :  altro
caporale  :  caporale
doppia  :  doppio
imprima  :  imprimere
classico  :  classico
dal  :  dal
tempor+ale  :  tempor+ale
italiana  :  italiano
plurale  :  plurale
naturale  :  naturale
ideologicamente  :  ideologicamente
assurdo  :  assurdo
caporale  :  caporale
pieno  :  pieno
ideale  :  ideale
diverso  :  diverso
ć̓avidjél  :  ć̓avidjél
arbitraria  :  arbitrario
povero  :  povero
italiano  :  italiano
nell'  :  nella
grammaticale  :  grammaticale
ideologico  :  ideologico
tutt'  :  tutt'
onesta  :  onesto
XIII  :  XIII
l'-o  :  l'-o
cabo  :  cabo
asturiese  :  asturiese
dubitativo  :  dubitativo
qualsiasi  :  qualsiasi
qual  :  qual
povero  :  povero
enigmatica  :  enigmatico
grande  :  grande
XIV  :  XIV
documento  :  

In [24]:
for token in doc:
    if token.pos_ == 'VERB':
        print(token, ' : ', token.lemma_)

ringrazio  :  ringraziare
arrivò  :  arrivare
súbito  :  súbito
scritta  :  scrivere
concerne  :  concernere
mandare  :  mandare
temuto  :  temere
dispiacere  :  dispiacere
trasparivano  :  trasparire
entrava  :  entrare
inteso  :  intendere
Era  :  Era
aperto  :  aprire
pareva  :  parere
dipendere  :  dipendere
avveniva  :  avvenire
era  :  essere
preferisco  :  preferire
della  :  della
resta  :  restare
sgorgata  :  sgorgare
penna  :  penna
vedremo  :  vedere
parrà  :  parere
leggere  :  leggero
vien  :  vien
studiato  :  studiare
dedica  :  dedicare
ricorre  :  ricorrere
rassegnavano  :  rassegnare
derivar  :  derivare
è  :  essere
è  :  essere
volgare  :  volgare
provengono  :  provenire
sapete  :  sapere
insegnare  :  insegnare
è  :  essere
è  :  essere
Data  :  Data
sarebbe  :  essere
sentisse  :  sentire
è  :  essere
tirar  :  tirare
ramoruto  :  ramoruto
ramoruto  :  ramoruto
dice  :  dire
pien  :  pien
dire  :  diro
Volere  :  Volere
pare  :  parere
è  :  essere
manifesta  : 

## Stemming mit NLTK

In [15]:
import nltk
from nltk.stem.snowball import ItalianStemmer
stemmer = ItalianStemmer()


In [16]:
corpus = list(preprocessing.read_files(meta.index))


In [17]:
tokens = nltk.word_tokenize(corpus[0])
print(tokens)

['Vi', 'ringrazio', 'del', 'vostro', 'Estrattino', ',', 'che', "m'arrivò", 'il', '17', ',', 'cioè', 'nel', 'primo', 'giorno', 'del', 'mio', '70mo', 'anno', '.', 'Ne', 'ho', 'súbito', 'scritta', 'una', 'molto', 'allegra', 'confutazione', ',', 'per', 'la', 'parte', 'che', 'mi', 'concerne', ';', 'e', 've', 'la', 'volevo', 'mandare', '.', 'Ma', 'ho', 'poi', 'temuto', 'che', 'vi', 'potesse', 'dispiacere', ',', 'non', 'ostante', 'il', 'rispetto', 'e', "l'amicizia", 'che', 'naturalmente', 'ne', 'trasparivano', '.', 'Non', "c'entrava", ',', 'bene', 'inteso', ',', 'nessun', 'particolare', 'studio', '.', 'Era', "un'improvvisazione", ',', 'per', 'la', 'quale', 'non', 'avevo', 'aperto', 'se', 'non', 'un', 'pajo', 'di', 'libri', 'che', 'ho', 'sempre', 'sul', 'tavolo', '.', 'E', 'la', 'festosità', 'pareva', 'dipendere', 'dai', 'brindisi', 'della', 'sera', 'innanzi', ',', 'quando', 'avveniva', 'il', 'salto', 'dai', '69', 'ai', '70', '.', 'Ma', 'era', 'una', 'festosità', 'eccessiva', ';', 'e', 'prefer

In [18]:
stemmas = [stemmer.stem(token) for token in tokens]
print(stemmas)   

['vi', 'ringraz', 'del', 'vostr', 'estrattin', ',', 'che', "m'arriv", 'il', '17', ',', 'cio', 'nel', 'prim', 'giorn', 'del', 'mio', '70mo', 'anno', '.', 'ne', 'ho', 'sùb', 'scritt', 'una', 'molt', 'allegr', 'confut', ',', 'per', 'la', 'part', 'che', 'mi', 'conc', ';', 'e', 've', 'la', 'vol', 'mand', '.', 'ma', 'ho', 'poi', 'tem', 'che', 'vi', 'potess', 'dispiac', ',', 'non', 'ostant', 'il', 'rispett', 'e', "l'amiciz", 'che', 'natural', 'ne', 'traspar', '.', 'non', "c'entr", ',', 'ben', 'intes', ',', 'nessun', 'particol', 'stud', '.', 'era', "un'improvvis", ',', 'per', 'la', 'qual', 'non', 'avev', 'apert', 'se', 'non', 'un', 'paj', 'di', 'libr', 'che', 'ho', 'sempr', 'sul', 'tavol', '.', 'e', 'la', 'festos', 'par', 'dipend', 'dai', 'brindis', 'dell', 'ser', 'innanz', ',', 'quand', 'avven', 'il', 'salt', 'dai', '69', 'ai', '70', '.', 'ma', 'era', 'una', 'festos', 'eccess', ';', 'e', 'prefer', 'di', 'annoj', 'con', 'una', 'traduzion', 'in', 'pros', 'di', 'quel', 'singol', 'ditiramb', ',',

In [19]:
for token, stemma in zip(tokens, stemmas):
    if token != '' or stemma != '':
        print(token + ' : '+ stemma)

Vi : vi
ringrazio : ringraz
del : del
vostro : vostr
Estrattino : estrattin
, : ,
che : che
m'arrivò : m'arriv
il : il
17 : 17
, : ,
cioè : cio
nel : nel
primo : prim
giorno : giorn
del : del
mio : mio
70mo : 70mo
anno : anno
. : .
Ne : ne
ho : ho
súbito : sùb
scritta : scritt
una : una
molto : molt
allegra : allegr
confutazione : confut
, : ,
per : per
la : la
parte : part
che : che
mi : mi
concerne : conc
; : ;
e : e
ve : ve
la : la
volevo : vol
mandare : mand
. : .
Ma : ma
ho : ho
poi : poi
temuto : tem
che : che
vi : vi
potesse : potess
dispiacere : dispiac
, : ,
non : non
ostante : ostant
il : il
rispetto : rispett
e : e
l'amicizia : l'amiciz
che : che
naturalmente : natural
ne : ne
trasparivano : traspar
. : .
Non : non
c'entrava : c'entr
, : ,
bene : ben
inteso : intes
, : ,
nessun : nessun
particolare : particol
studio : stud
. : .
Era : era
un'improvvisazione : un'improvvis
, : ,
per : per
la : la
quale : qual
non : non
avevo : avev
aperto : apert
se : se
non : non
un : un
paj

## Spanisch
### Spacy

In [22]:
path_to_corpus = Path('Z:/TM_Schuchardt/hsa_spa_test')
pattern = '{id}_{sender}_an_{reciever}_{date}_{language}' 
meta = pd.concat([metadata.fname2metadata(str(path), pattern=pattern) for path in path_to_corpus.glob('*.txt')])


In [26]:
import spacy
nlp = spacy.load('es_core_news_md')
corpus = list(preprocessing.read_files(meta.index))

doc = nlp(corpus[0])

for token in doc:
    print(token, ' : ', token.lemma_)






  :  





Muy  :  Muy
señor  :  señor
mio  :  mio
y  :  y
de  :  de
toda  :  todo
mi  :  mi
consideracion  :  consideracion
y  :  y
estima  :  estimar
:  :  :
recibi  :  recibi
su  :  su
muy  :  muy
apreciada  :  apreciar
carta  :  carta
del  :  del

  :  

[  :  [
día  :  día
omitido  :  omitir
]  :  ]
junio  :  junio
ppº  :  ppº
[  :  [
=  :  =
pasado  :  pasar
]  :  ]
y  :  y
he  :  haber
diferido  :  diferir
mi  :  mi
contestacion  :  contestacion
por  :  por
causa  :  causar
de  :  de
las  :  los
varias  :  varios

  :  

atenciones  :  atención
que  :  que
me  :  me
rodean  :  rodear
de  :  de
q.  :  q.
no  :  no
puedo  :  poder
desentenderme  :  desentenderme
.  :  .

  :  

Ahora  :  Ahora
creo  :  creer
que  :  que
llegará  :  llegar
ya  :  ya
tarde  :  tardar
esta  :  este
que  :  que
va  :  ir
acompañada  :  acompañar
de  :  de
unos  :  uno
dialogos  :  dialogos
hechos  :  hecho
por  :  por
un  :  uno

  :  

vecino  :  vecino
de  :  de
aqui  :  aqui
en  :  en
donde  :

hija  :  hijo

  :  

Y  :  Y
piensas  :  pensar
tú  :  tú
que  :  que
te  :  te
hago  :  hacer
alguna  :  alguno
excusa  :  excusar
?  :  ?
no  :  no
hija  :  hijo
...  :  ...
;  :  ;
no  :  no
,  :  ,
créame  :  créame
.  :  .



  :  



Por  :  Por
eso  :  ese
con  :  con
ese  :  ese
de  :  de
usté  :  usté
hijo  :  hijo
cay  :  cay
grande  :  grande
yá  :  yá
,  :  ,
mandá  :  mandá
usté  :  usté
hacé  :  hacé
todo  :  todo
el  :  el
trabajo  :  trabajar
,  :  ,
y  :  y

  :  

no  :  no
dale  :  dale
gusto  :  gustar
con  :  con
ese  :  ese
man  :  man
manumbalay  :  manumbalay
,  :  ,
como  :  comer
tá  :  tá
mirá  :  mirá
yó  :  yó
algunas  :  alguno
veces  :  vez
.  :  .

  :  

Pues  :  Pues
en  :  en
ese  :  ese
caso  :  casar
,  :  ,
yá  :  yá
que  :  que
su  :  su
hijo  :  hijo
es  :  ser
demasiado  :  demasiar
crecido  :  creceryá
yó  :  yó
hija  :  hijo
...  :  ...
;  :  ;
adios  :  adios
ná  :  ná
caniño  :  caniño
todo  :  todo
.  :  .

  :  

Bien  :  Bien
,  :  ,
me 

In [27]:
for token in doc:
    if token.pos_ == 'NOUN':
        print(token, ' : ', token.lemma_)

señor  :  señor
mio  :  mio
consideracion  :  consideracion
carta  :  carta
[  :  [
día  :  día
junio  :  junio
ppº  :  ppº
[  :  [
contestacion  :  contestacion
causa  :  causar
atenciones  :  atención
q.  :  q.
dialogos  :  dialogos
vecino  :  vecino
modismos  :  modismo
vecinos  :  vecino
utilidad  :  utilidad
tendria  :  tendria
gusto  :  gustar
número  :  número
trabajos  :  trabajo
necesidad  :  necesidad
estudios  :  estudio
pais  :  pais
lenguas  :  lengua
moros  :  moro
lengua  :  lengua
monteses  :  montés
civilizamos  :  civilizar
lengua  :  lengua
moros  :  moro
fondo  :  fondo
puntos  :  punto
analogia  :  analogia
afinidad  :  afinidad
colegio  :  colegiar
niños  :  niño
niñas  :  niño
rescatados  :  rescatar
moros  :  moro
limosnas  :  limosna
personas  :  personar
cubiertos  :  cubrir
andrajos  :  andrajo
miseria  :  miseria
edad  :  edad
casa  :  casar
q.  :  q.
trabajo  :  trabajar
manos  :  mano
castellano  :  castellano
cristianos  :  cristiano
ejemplo  :  ejemplo
v

In [30]:
for token in doc:
    if token.pos_ == 'ADJ':
        print(token, ' : ', token.lemma_)

apreciada  :  apreciar
omitido  :  omitir
pasado  :  pasar
desentenderme  :  desentenderme
acompañada  :  acompañar
hechos  :  hecho
algun  :  algun
aislado  :  aislar
filologicos  :  filologicos
q.  :  q.
naturales  :  natural
distinta  :  distinto
estudiada  :  estudiar
caritativas  :  caritativo
educacion  :  educacion
competente  :  competente
buenos  :  bueno
buen  :  bueno
mejores  :  mejorar
viejos  :  viejo
medio  :  mediar
apagada  :  apagar
Buenos  :  Buenos
Bueno  :  Bueno
cortá  :  cortá
palay  :  palay
cortá  :  cortá
canamon  :  canamon
rendido  :  rendir
chino  :  chino
aguantá  :  aguantá
Bueno  :  Bueno
tenido  :  tener
causados  :  causar
preciso  :  precisar
imposible  :  imposible
hacé  :  hacé
necesario  :  necesario
tá  :  tá
hacé  :  hacé
remedios  :  remedio
bueno  :  bueno
bueno  :  bueno
canamon  :  canamon
pagá  :  pagá
chino  :  chino
endenantes  :  endenantes
preguntá  :  preguntá
chino  :  chino
cierto  :  cierto
ansina  :  ansina
cay  :  cay
lavada  :  la

In [29]:
for token in doc:
    if token.pos_ == 'VERB':
        print(token, ' : ', token.lemma_)

tener
reducimos  :  reducir
tiene  :  tener
Tenemos  :  Tenemos
envian  :  envian
seran  :  seran
Llegan  :  Llegan
aqui  :  aqui
viste  :  vestir
alimenta  :  alimentar
dá  :  dá
tienen  :  tener
ayudamos  :  ayudar
vivir  :  vivir
viera  :  ver
hablan  :  hablar
rezan  :  rezar
salen  :  salir
dan  :  dar
tál  :  tál
camó  :  camó
siguen  :  seguir
camé  :  camé
pasa  :  paso
tené  :  tené
vené  :  vené
comigo  :  comigo
caban  :  caban
ay  :  ay
camé  :  camé
tá  :  tá
tené  :  tené
pensá  :  pensá
pasamos  :  pasar
venir  :  venir
hicieras  :  hacer
devolveré  :  devolver
tardará  :  tardar
siento  :  sentir
quedará  :  quedar
tenemos  :  tener
pagar  :  pagar
prestó  :  prestar
tener  :  tener
resistir  :  resistir
sufrir  :  sufrir
pasamos  :  pasar
sinó  :  sinó
mirá  :  mirá
gane  :  ganar
tiene  :  tener
tá  :  tá
pasá  :  pasá
hacer  :  hacer
tener  :  tener
mire  :  mirar
tenemos  :  tener
vivir  :  vivir
pasamos  :  pasar
tener  :  tener
camé  :  camé
salí  :  salir
camé  :

## Stemming mit NLTK

In [20]:
import nltk
from nltk.stem.snowball import SpanishStemmer
stemmer = SpanishStemmer()


In [23]:
corpus = list(preprocessing.read_files(meta.index))


In [24]:
tokens = nltk.word_tokenize(corpus[0])
print(tokens)

['Muy', 'señor', 'mio', 'y', 'de', 'toda', 'mi', 'consideracion', 'y', 'estima', ':', 'recibi', 'su', 'muy', 'apreciada', 'carta', 'del', '[', 'día', 'omitido', ']', 'junio', 'ppº', '[', '=', 'pasado', ']', 'y', 'he', 'diferido', 'mi', 'contestacion', 'por', 'causa', 'de', 'las', 'varias', 'atenciones', 'que', 'me', 'rodean', 'de', 'q.', 'no', 'puedo', 'desentenderme', '.', 'Ahora', 'creo', 'que', 'llegará', 'ya', 'tarde', 'esta', 'que', 'va', 'acompañada', 'de', 'unos', 'dialogos', 'hechos', 'por', 'un', 'vecino', 'de', 'aqui', 'en', 'donde', 'entran', 'los', 'modismos', 'que', 'estos', 'vecinos', 'usan', '.', 'Me', 'alegraré', 'que', 'le', 'puedan', 'servir', 'á', 'V.', 'y', 'que', 'le', 'sean', 'de', 'utilidad', 'y', 'tendria', 'mucho', 'gusto', 'en', 'ver', 'algun', 'número', 'aislado', 'no', 'mas', 'del', 'Boletin', 'de', 'la', 'Academia', 'Imperial', 'de', 'Viena', 'en', 'donde', 'se', 'publican', 'sus', 'trabajos', 'de', 'V.', 'Nosotros', 'aqui', 'tenemos', 'que', 'dedicarnos', 

In [25]:
stemmas = [stemmer.stem(token) for token in tokens]
print(stemmas)   

['muy', 'señor', 'mio', 'y', 'de', 'tod', 'mi', 'consideracion', 'y', 'estim', ':', 'recibi', 'su', 'muy', 'apreci', 'cart', 'del', '[', 'dia', 'omit', ']', 'juni', 'ppº', '[', '=', 'pas', ']', 'y', 'he', 'difer', 'mi', 'contestacion', 'por', 'caus', 'de', 'las', 'vari', 'atencion', 'que', 'me', 'rod', 'de', 'q.', 'no', 'pued', 'desentend', '.', 'ahor', 'cre', 'que', 'lleg', 'ya', 'tard', 'esta', 'que', 'va', 'acompañ', 'de', 'unos', 'dialog', 'hech', 'por', 'un', 'vecin', 'de', 'aqui', 'en', 'dond', 'entran', 'los', 'modism', 'que', 'estos', 'vecin', 'usan', '.', 'me', 'alegr', 'que', 'le', 'pued', 'serv', 'a', 'v.', 'y', 'que', 'le', 'sean', 'de', 'util', 'y', 'tendri', 'much', 'gust', 'en', 'ver', 'algun', 'numer', 'aisl', 'no', 'mas', 'del', 'boletin', 'de', 'la', 'academi', 'imperial', 'de', 'vien', 'en', 'dond', 'se', 'public', 'sus', 'trabaj', 'de', 'v.', 'nosotr', 'aqui', 'ten', 'que', 'dedic', 'por', 'neces', 'a', 'algun', 'estudi', 'filolog', 'de', 'este', 'pais', 'q.', 'nos'

In [26]:
for token, stemma in zip(tokens, stemmas):
    if token != '' or stemma != '':
        print(token + ' : '+ stemma)

Muy : muy
señor : señor
mio : mio
y : y
de : de
toda : tod
mi : mi
consideracion : consideracion
y : y
estima : estim
: : :
recibi : recibi
su : su
muy : muy
apreciada : apreci
carta : cart
del : del
[ : [
día : dia
omitido : omit
] : ]
junio : juni
ppº : ppº
[ : [
= : =
pasado : pas
] : ]
y : y
he : he
diferido : difer
mi : mi
contestacion : contestacion
por : por
causa : caus
de : de
las : las
varias : vari
atenciones : atencion
que : que
me : me
rodean : rod
de : de
q. : q.
no : no
puedo : pued
desentenderme : desentend
. : .
Ahora : ahor
creo : cre
que : que
llegará : lleg
ya : ya
tarde : tard
esta : esta
que : que
va : va
acompañada : acompañ
de : de
unos : unos
dialogos : dialog
hechos : hech
por : por
un : un
vecino : vecin
de : de
aqui : aqui
en : en
donde : dond
entran : entran
los : los
modismos : modism
que : que
estos : estos
vecinos : vecin
usan : usan
. : .
Me : me
alegraré : alegr
que : que
le : le
puedan : pued
servir : serv
á : a
V. : v.
y : y
que : que
le : le
sean : 

ní : ni
un : un
pescao : pesca
Nosé : nos
Señora : señor
, : ,
pues : pues
como : com
yá : ya
le : le
digo : dig
, : ,
estuve : estuv
al : al
mercado : merc
y : y
no : no
he : he
visto : vist
ni : ni
siquiera : siqu
un : un
pescado : pesc
. : .
Sí : si
Biboy : biboy
yá : ya
andá : anda
vá : va
na : na
sugut : sugut
mirá : mir
venao : vena
? : ?
Y : y
Toribio : toribi
se : se
fué : fue
á : a
Sugut : sugut
á : a
buscar : busc
venado : ven
. : .
Nóse : nos
ñora : ñor
, : ,
tallí : tall
man : man
cajá : caj
si : si
Nita : nit
, : ,
preguntá : pregunt
usté : uste
si : si
yá : ya
andá : anda
ó : o
no : no
hay : hay
. : .
No : no
lo : lo
sé : se
Señora : señor
allí : alli
estará : estar
la : la
Juanita : juanit
en : en
su : su
casa : cas
y : y
preguntela : preguntel
V. : v.
si : si
fué : fue
ó : o
nó : no
. : .
No : no
hay : hay
dao : dao
allí : alli
Es : es
que : que
nó : no
está : esta
allí : alli
Ná : na
, : ,
no : no
ay : ay
vá : va
ustedes : usted
conversá : convers
del : del
pescao : pe