In [1]:
import pandas as pd
import numpy as np

In [2]:
def print_clean(string):
    print(repr(string))

In [3]:
texts = ['Dit is een tekst. Er staan meerdere zinnen in.',
         'Deze tèkst heeft véél speciale karäktérs  en dubbele    spaties', 
         'Hier een tekst met een \n witregel \n\n of soms twee',
         'Sommige teksten hebben afkortingen, en dat is m.n. lastig bij het splitsen in zinnen'
        ]

## Normalizing

In [4]:
from psynlp.preprocessing import BasicNormalizer

In [5]:
bn = BasicNormalizer()

In [6]:
for text in texts:
    t = bn.normalize(text)
    print_clean(t)

'Dit is een tekst. Er staan meerdere zinnen in.'
'Deze tekst heeft veel speciale karakters en dubbele spaties'
'Hier een tekst met een \n witregel \n of soms twee'
'Sommige teksten hebben afkortingen, en dat is m.n. lastig bij het splitsen in zinnen'


## Sentence splitting

In [7]:
from psynlp.preprocessing import BasicSentenceSplitter

In [8]:
bss = BasicSentenceSplitter()

In [9]:
for text in texts:    
    sentences = bss.split(text)    
    print_clean(sentences)    

['Dit is een tekst.', 'Er staan meerdere zinnen in.']
['Deze tekst heeft veel speciale karakters en dubbele spaties']
['Hier een tekst met een', 'witregel', 'of soms twee']
['Sommige teksten hebben afkortingen, en dat is mn lastig bij het splitsen in zinnen']


#### Processing a dataframe

In [10]:
df = pd.DataFrame([texts[0:2], texts[2:4]], columns=['Beleid', 'Conclusie'])

df['text_id'] = np.arange(len(df)) + 1

In [11]:
df

Unnamed: 0,Beleid,Conclusie,text_id
0,Dit is een tekst. Er staan meerdere zinnen in.,Deze tèkst heeft véél speciale karäktérs en d...,1
1,Hier een tekst met een \n witregel \n\n of som...,"Sommige teksten hebben afkortingen, en dat is ...",2


In [12]:
bss.process_dataframe(df, hash_var='text_id', text_columns=['Conclusie', 'Beleid'])

Unnamed: 0,text_id,stelling,text,sentence_counter
0,1,Conclusie,Deze tekst heeft veel speciale karakters en du...,1
1,2,Conclusie,"Sommige teksten hebben afkortingen, en dat is ...",1
2,1,Beleid,Dit is een tekst.,1
2,1,Beleid,Er staan meerdere zinnen in.,2
3,2,Beleid,Hier een tekst met een,1
3,2,Beleid,witregel,2
3,2,Beleid,of soms twee,3


## Tokenzing

In [13]:
from psynlp.preprocessing import SpacyTokenizer

In [14]:
spacy_model_name = "default_model"

st = SpacyTokenizer(spacy_model_name)

In [15]:
for text in texts:
    
    sentences = bss.split(text)
    
    for sentence in sentences:
        tokens = st.tokenize(sentence)
        print_clean(tokens)
    

['Dit', 'is', 'een', 'tekst', '.']
['Er', 'staan', 'meerdere', 'zinnen', 'in', '.']
['Deze', 'tekst', 'heeft', 'veel', 'speciale', 'karakters', 'en', 'dubbele', 'spaties']
['Hier', 'een', 'tekst', 'met', 'een']
['witregel']
['of', 'soms', 'twee']
['Sommige', 'teksten', 'hebben', 'afkortingen', ',', 'en', 'dat', 'is', 'mn', 'lastig', 'bij', 'het', 'splitsen', 'in', 'zinnen']
