## Reguliere expressies in Python - demo

We gaan een 'spam'-taal definieren met behulp van reguliere expressies. Hiervoor maken we eerst een lijst met voorbeelden van mogelijke strings die tot die taal zouden kunnen behoren:

In [None]:
# Put some example strings in a list
L = ['Spam!', 'Spaaaaaaaam!', 'Spam!Spam!Spam!']

# Add some more examples
L.append('spam!')
L.append('Spam!Spam!NI!')
L.append('Spm!')
L.append('Spam')
L.append('spaaaaamSpam!Spaaam!')

# Print each example in the list using a for-loop
for example in L:
    print(example)



We willen varianten van het woord 'spam' toestaan. Ook herhalingen worden geaccepteerd. We willen echter geen typfouten of andere woorden toestaan binnen de taal. Bijvoorbeeld (`*` betekent dat het geen goed zin is):

<pre>
Spam!
Spaaaaaaaam!
Spam!Spam!Spam!
spam!
*Spam!Spam!NI!
*Spm!
Spam
spaaaaamSpam!Spaaam!
</pre>

We gaan een reguliere expressie ontwerpen die matcht met spam-strings, maar niet met andere strings (zoals de twee gemarkeerde voorbeelden hierboven). Hierbij beginnen we met een hele specifieke expressie. Het doel is om deze expressie algemener, maar niet *te* algemeen te maken


In [None]:
# Importeer de 're' module om in Python met reguliere expressies te werken
import re

# Meest basale syntax: re.search(pattern, text)

if re.search(r'e', 'hello'):        # r geeft aan dat het om een 'raw' string gaat
    print('MATCH')
else:
    print('NO MATCH')

De specifieke spam-expressie:

In [None]:
# try 1: basically everything

pattern = r'^.*?$'   


In [None]:
# this function prints the grammaticality of the strings in L according to the value of pattern

def grammaticality(test_pattern):
    count = 1
    for example in L:
        if re.search(test_pattern, example):
            print(count, example)
        else:
            print(count, '*'+example)
        count += 1


In [None]:
# this code uses the `grammaticality` function on the pattern stored in `pattern`

grammaticality(pattern)

### Opdracht:

1. Schrijf voor elk voorbeeld op of het correct wordt geclassificeerd door onze specifieke expressie.
2. Leg voor elk voorbeeld uit *waarom* het al dan niet correct wordt geclassificeerd.
3. Bedenk voor elk voorbeeld hoe we de expressie moeten aanpassen om een correcte classificatie te krijgen. Let er hierbij op dat je bij de aanpassing geen fouten introduceert bij de andere voorbeelden!

In [None]:
# We gaan hier de aanpassingen testen:

pattern = r'Spam!'   


In [None]:
# use the function on the pattern stored in `pattern`

grammaticality(pattern)

In [None]:
# Extra space
# You can make more cells with the `+` button at the top too
























In [None]:
# Put your final pattern here:
final_pattern = r''


In [None]:
# print the grammaticality of the strings in L according to the value of final_pattern
grammaticality(final_pattern)
  

## Some RegExp syntax

If you run one of these cells and then run `grammaticality(pattern)` (e.g. at the bottom of the page), you'll get the grammaticality for that cell's pattern

In [None]:
# Disjunction:
pattern = r'[Ss]pam!'


In [None]:
# Optionality:
pattern = r'[Ss]pam!?'


In [None]:
# Optionality scope:
pattern = r'[Ss]pa(aaaaaaa)?m!?'


In [None]:
# Kleene star:
pattern = r'[Ss]pa*m!?'


In [None]:
# Kleene plus:
pattern = r'[Ss]pa+m!?'


In [None]:
# Word repetition:
pattern = r'([Ss]pa+m!?)+'


In [None]:
# Anchoring:
# ^ means start of string; $ means end of string
# warning: inside [], ^ means negation
pattern = r'^([Ss]pa+m!?)+$'


In [None]:
# print the grammaticality of the strings in L according to the value of pattern
grammaticality(pattern)
  