# Praktikum 1 - reguläre Ausdrücke

In [None]:
import numpy as np
import pandas as pd
import re

# Pandas String Documentation

In [None]:
import webbrowser
webbrowser.open_new_tab('http://pandas.pydata.org/pandas-docs/stable/text.html')

# Regex Cheat Sheet

```
NAME                REGEX    WHAT IT DOES                                          
Exception           [^X]     Match everything except `X`                        
Dot                 .        Match any character                                
Case Insensitive    (?i)     Matches irregardless of case; `Foo` & `foO` matched
Digit               \d       Match digits (i.e., [0-9])                         
Non-Digit           \D       Match non-digits (i.e., [^0-9])                    
Word                \w       Match words (i.e., [_a-zA-Z0-9])                   
Non-Word            \W       Match non-words (i.e., [^_a-zA-Z0-9])              
Whitespace          \s       Match whitespace (i.e., [ \t\r\n\f])           
Non-Whitespace      \S       Match non-whitespace (i.e., [^ \t\r\n\f])      
Word Boundary       \b       Match beginning/end of word                        
Non-Word Boundary   \B       Match not beginning/end of word                    
0-1 (Greedy)        x?       Match 0-1 times greedy                             
0-1 (Lazy)          x??      Match 0-1 times lazy                               
>= 0 (Greedy)       x*       Match 0 or more times greedy                       
>= 0 (Lazy)         x*?      Match 0 or more times lazy                         
>= 1 (Greedy)       x+       Match 1 or more times greedy                       
>= 1 (Lazy)         x+?      Match 1 or more times lazy                         
Exactly N           x{4}     Match N times                                      
Min-Max             x{4,8}   Match min-max times                                
> N                 x{9,}    Match N or more times        
```

# Übungen

## Ausgangsdaten

In [None]:
textdata = [
    "A download file from the http://example.com", 
    "Another url ftp://www.example.com",
    "And https://www.example.net",
    "@hadley (Dr. Wickham) I like #rstats for #ggplot2 work.",
    "Difference between #magrittr and #pipeR, both implement pipeline operators for #rstats: http://renkun.me/r/2014/07/26/difference-between-magrittr-and-pipeR.html @timelyportfolio",
    "Is -2 an integer?", "-4.3 and 3.33 are not.",
    "123,456 is 0 alot -123456 more than -.2", "and 3456789123 fg for 345.",
    "There is $5.50 for me.", "that's 45.6% of the pizza", 
    "14% is $25.99",
    "Mr. Bean bought 2 tickets 2-613-213-4567",
    "43 Butter Rd, Brossard QC K0A 3P0 - 613 213 4567", 
    "The Rat Race, XX, 12345",
    "Ignore phone numbers(613)2134567",
    "Grab zips with dashes 12345-6789 or no space before12345-6789",  
    "Grab zips with spaces 12345 6789 or no space before12345 6789",
    "I like 1234567 dogs",
    " There is ( $5.50 ) for , me and you (NAME HERE). ", " that's [ 45.6% ] of! the pizza !", 
    "     14% is { $26  } or $25.99 ?", "Oh ;  here's colon : Yippee !",
    "I love chicken [unintelligible]!",
    "Me too Miss Jane! (laughter) It's so good.[interrupting]",
    "Yep it's awesome {reading}.", "Agreed Ms. Jones. {is so much fun}",
    "R uses 1:5 for 1, 2, 3, 4, 5.", 
    "At 3:00 we'll meet up , and we leave by 4:30:20",
    "We'll meet at 6:33 , bring $20,000.", "He ran it in :22.34"
]
x = pd.DataFrame(textdata, columns = ['textdata'])
print(x)


## Übung 0: Verstehen und dokumentieren Sie, was diese Funktion tut

In [None]:
tokencount = 0
sumlength = 0
def addMatches(rx):
    """
    Die Funktion führt die RE aus und speichert die Anzahl der Matches Gesamt, sowie die Gesamtlänge aller Matches.
    Außerdem werden die Resultate der RE ausgegeben.
    """
    global tokencount
    global sumlength
    results = list(itertools.chain(*list(x.textdata.str.findall(rx))))
    print(results)
    tokencount += len(results)
    sumlength += len(''.join(results))
    print('New Tokencount: ' + str(tokencount))
    print('New Length: ' + str(sumlength))
    #return results

## Übung 1: Sammeln Sie alle Twitter-Tags (#Tag)

 Genereller Hinweise: codieren Sie sicherheitshalber aller Regexps als Rohstring mir dem r Flag http://stackoverflow.com/a/3995242/1000343

In [None]:
import itertools
addMatches(r'#\w+')

## Übung 2: Sammeln Sie alle Twitter Usernamen (@name)

In [None]:
addMatches(r'@\w+')

## Übung 3: Sammeln Sie alle positive/negative Zahlen sowie Dollarbeträge inklusive des Dollarzeichens und Dezimaltrennern. Durch Doppelpunkt getrennte Zahlen sollen getrennt behandelt werden.

In [None]:
addMatches(r'\$?-?\d*[.,]?\d+')

## Übung 4: Sammeln Sie die Anzahl englischer Artikel (the, a, an). Ignorieren Sie groß/Kleinschreibung. Vorkommen innerhalb von Wörtern ("the" in "they") sollen natürlich nicht erfasst werden.   



In [None]:
addMatches(r'(?i)\b(the|a|an)\b')

## Übung 5: Sammeln Sie 5 oder neunstellige Postleitzahlen.

In [None]:
addMatches(r'\b\d{5}-\d{4}')

In [None]:
addMatches(r'\D(\d{5}(?:-\d{4})?)\D')

## Übung 6: Sammeln Sie alle Anreden (Mr., Ms., Mz., Miss, Dr.) gefolgt von einem Namen, der mit einem Großbuchstaben beginnt

In [None]:
addMatches(r'(?:Mr.|Ms.|Mz.|Dr.|Miss)\s\w+')

## Übung 7: Sammeln Sie alle abschließenden Satzzeichen (? . !)

In [None]:
addMatches(r'[.!?]$')

## Übung 8: Extrahieren Sie alle URLs (hier sollten Sie unbedingt googlen...)

In [None]:
addMatches(r'\w+:\/\/(?:\w|\.|\/|\-|\+|\?|\=|\@)+')

In [None]:
['http://example.com', 'ftp://www.example.com', 'https://www.example.net', 'http://renkun.me/r/2014/07/26/difference-between-magrittr-and-pipeR.html']

## Übung 9: Entfernen Sie alle Zeichen, außer Buchstaben, Apostrophen und Leerzeichen: 


In [None]:
x.textdata.str.replace(r'[^\sA-Za-z\']', "")

In [None]:
0               A download file from the httpexamplecom
1                          Another url ftpwwwexamplecom
2                                And httpswwwexamplenet
3       hadley Dr Wickham I like rstats for ggplot work
4     Difference between magrittr and pipeR both imp...
5                                        Is  an integer
6                                          and  are not
7                                  is  alot  more than 
8                                          and  fg for 
9                                      There is  for me
10                                 that's  of the pizza
11                                                  is 
12                             Mr Bean bought  tickets 
13                       Butter Rd Brossard QC KA P    
14                                     The Rat Race XX 
15                                 Ignore phone numbers
16            Grab zips with dashes  or no space before
17          Grab zips with spaces   or no space before 
18                                         I like  dogs
19               There is    for  me and you NAME HERE 
20                              that's    of the pizza 
21                                          is     or  
22                           Oh   here's colon  Yippee 
23                        I love chicken unintelligible
24    Me too Miss Jane laughter It's so goodinterrup...
25                             Yep it's awesome reading
26                       Agreed Ms Jones is so much fun
27                                     R uses  for     
28                  At  we'll meet up  and we leave by 
29                               We'll meet at   bring 
30                                        He ran it in ()

## Wie lässt sich die Folgende Ausgabe von Python erklären (spekulieren Sie zur Not)?

In [None]:
print(re.findall("(a(([be])+c))d", "abecd"))
'''
In der Ausgabe sind die 3 Gruppen des RE-Ausdrucks zu sehen. 
Die 0. Gruppe, gekennzeichnet durch die äußerste Klammer,
matcht 'abec'. 
Die 1. Gruppe, gekennzeichnet durch die 2. äußerste Klammer matcht 'bec'. 
Die innerste Gruppe matcht 'b' oder 'e'. Der '+' Quantor bezieht sich auf die Gruppe selbst, dadurch ist nur ein 
Character in der innersten Gruppe enthalten. 
'''
"""
Erklärung:
Die Methode re.findall gibt nur die Matches für die Gruppen zurück, da es sich um capturing groups handelt. Man kann dies unterbinden, 
indem man ein Fragezeichen hinter die öffnenden Klammern gefolgt von einem Doppelpunkt (?:) stellt. Der Buchstabe d wird nicht gematcht, da er nicht zu einer
Gruppe gehört. Die 1. Gruppe matcht abec. Die 2. Gruppe matcht bec und die 3. Gruppe matcht b oder e.
"""

## Checksummen:

In [None]:
print('Tokencount: ' + str(tokencount))
print('Length: ' + str(sumlength))