# Обработка текстов

## Регулярные выражения

Часто возникает задача поиска в тексте каких-то элементов (например гиперссылок) или проверки введенных пользоватем данных. Для упрощения этих задач существуют регулярные выражения. 

Применение:
- поиск паттерна в строке
- проверка строки на совпадение паттерну 
- сегментация строки по паттерну 
- замена паттерна в строке.


Паттерн описывается с помощью специального языка - регулярного выражения, в Python используются регулярные выражения с синтаксисом PCRE:

**Основные конструкции:**

<table>
<tr><th>Выражение</th><th>Значение</th><th>Выражение</th><th>Значение</th></tr>
<tr><td>`.`</td><td>любой символ</td>
    <td>**\d**</td><td>цифра</td></tr>
<tr><td>**\D**</td><td>не цифра</td>
    <td>**\s**</td><td>пробельный символ</td></tr>
<tr><td>**\S**</td><td>*не* пробельный символ</td>
    <td>**\w**</td><td>буквенный символ</td></tr>
<tr><td>**\W**</td><td>*не* буквенный символ</td>
    <td>**^**</td><td>начало строки</td></tr>
<tr><td>**$**</td><td>конец строки</td>
    <td>**\b**</td><td>начало слова</td></tr>
<tr><td>**\B**</td><td>конец слова</td>
    <td>**[abc]**</td><td>любой символ из перечисленных</td></tr>
<tr><td>**[^abc]**</td><td>любой символ кроме перечисленных</td>
    <td>**[a-zA-Z]**</td><td>символы из интервалов</td></tr>
<tr><td>**X|Y**</td><td>или</td></tr>    
</table>

**Жадные квантификаторы:**

<table>
<tr><th>Выражение</th><th>Значение</th><th>Выражение</th><th>Значение</th></tr>
<tr><td>**X?**</td><td>ноль или одно повторение</td>
    <td>** X* **</td><td>ноль или больше повторений</td></tr>
<tr><td>** X+ **</td><td>одно или больше повторений</td>
    <td>**X{n}**</td><td>*n* повторений</td></tr>
<tr><td>** X{n,} **</td><td>больше *n* больше повторений</td>
    <td>**X{n,m}**</td><td>от *n* до *m* повторений</td></tr>    
</table>    
 
**Ленивые квантификаторы: :**
<table>
<tr><th>Выражение</th><th>Значение</th><th>Выражение</th><th>Значение</th></tr>
<tr><td>**X?**</td><td>ноль или одно повторение</td>
    <td>** X*? **</td><td>ноль или больше повторений</td></tr>
<tr><td>** X+? **</td><td>одно или больше повторений</td>
    <td>**X{n}?**</td><td>*n* повторений</td></tr>
<tr><td>** X{n,}? **</td><td>больше *n* больше повторений</td>
    <td>**X{n,m}?**</td><td>от *n* до *m* повторений</td></tr>    
</table>   

#### Группы:
<table>
<tr><th>Выражение</th><th>Значение</th><th>Выражение</th><th>Значение</th></tr>
<tr><td>**(X)**</td><td>группа (capturing)</td>
    <td>**(?:X)**</td><td>группа (non-capturing)</td></tr>
<tr><td>**(?=X)**</td><td>предпросмотр</td>
    <td>**(?!X)**</td><td>негативный предпросмотр</td></tr>
</table>  


In [1]:
import re

In [2]:
pattern = re.compile(r'a+a$', re.UNICODE)
print(pattern.match('aaaa'))

<_sre.SRE_Match object; span=(0, 4), match='aaaa'>


In [3]:
pattern = re.compile(r'a+b')
s = 'Hello aaab world ab !'

In [4]:
pattern.findall(s)

['aaab', 'ab']

In [5]:
pattern.split(s)

['Hello ', ' world ', ' !']

In [6]:
pattern.sub('e', s)

'Hello e world e !'

In [7]:
pattern.sub(lambda x: x.group(0) + 'a', s)

'Hello aaaba world aba !'

In [8]:
pattern = re.compile(r'(\w+)@(\w+)\.(\w{2,3})')

matcher = pattern.match('test@example.com')
if matcher:
    print(matcher.group(0))
    print(matcher.group(1))
    print(matcher.group(2))
    print(matcher.group(3))

test@example.com
test
example
com


In [9]:
t = 'test@example.com ssss test2@gmail.com'

pattern = re.compile(r'(\w+)@((\w+)\.(\w{2,3}))')
for m in pattern.finditer(t):
    print (m.group(2))

example.com
gmail.com


In [10]:
s = 'test@example.com hello@mail.ru'
matchers = pattern.finditer(s)
for matcher in matchers:
    print (matcher.group(1))

test
hello


In [11]:
s = '<h1> text1 </h1>  <h2> text3 </h2>'
re.findall(r'<\w+>(?:.+)</\w+>', s)

['<h1> text1 </h1>  <h2> text3 </h2>']

In [12]:
re.findall(r'<\w+>(?:.+?)</\w+>', s)

['<h1> text1 </h1>', '<h2> text3 </h2>']

In [13]:
re.findall(r'(a*a*)*c', 'a' * 10 + 'e')

[]

In [14]:
scanner = re.Scanner(
   [(r'(\w+)@(\w+)\.(\w{2,3})', lambda s, x: (x, 'email')),
    (r'[a-zA-Z]+', lambda s, x: (x, 'word')), 
    (r'\d+', lambda s, x: (x, 'digit')),    
    (r'\s+', lambda s, x: (x, 'whitespace')),
    (r'[.,;"!?:]', lambda s, x: (x, 'preposition')),
    ])

scanner.scan('hello, world 1234 test@example.com')

([('hello', 'word'),
  (',', 'preposition'),
  (' ', 'whitespace'),
  ('world', 'word'),
  (' ', 'whitespace'),
  ('1234', 'digit'),
  (' ', 'whitespace'),
  ('test@example.com', 'email')],
 '')

## NLTK
Natural Language Toolkit, библиотека для обработки естественных языков. 
Токенизация реализована через регулярные выражение Python (в общем случае медленно)

In [15]:
import nltk
from nltk.tokenize import wordpunct_tokenize, word_tokenize

nltk.download('punkt')

(word_tokenize('Hello world 4.2.'), 
 word_tokenize('LA New-York'), 
 wordpunct_tokenize('Hello world 4.2!'))

[nltk_data] Downloading package punkt to /home/alex/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


(['Hello', 'world', '4.2', '.'],
 ['LA', 'New-York'],
 ['Hello', 'world', '4', '.', '2', '!'])

## Реализации регулярных выражений

### Формальные языки

> *Формальный язык*— множество конечных слов над конечным алфавитом $\Sigma$. 
Пусть есть некоторое конечно множество символов $\Sigma$, тогда множество $L \in \Sigma^*$ есть формальный язык. 

Над формальными языками можно определить операции:
- $L_1 \cap L_2$
- $L_1 \cup L_2$
- $L_1 \setminus L_2$
- $L_1 \cdot L_2 $ - новый язык, в котором ко всем возможным словам из $L_1$ присоеденены справа слова из $L_2$
- $L^*$ - замыкание клини, $\{\epsilon\} \cup L \cup (L \cdot L) \cup (L \cdot L \cdot L) \cup \cdots$

### Регулярные языки

> Формальный язык над алфавитом $\Sigma$ является *регулярным*, если он принаджежит множеству языков $R \in \Sigma^*$:
- $\varnothing \in R$
- $\{\varepsilon\} \in R$
- $\forall a \in \Sigma: \{a\} \in R$
- $P \in R \land Q \in R \Rightarrow (P \cup Q) \in R$
- $P \in R \land Q \in R \Rightarrow (P \cdot Q) \in R$
- $P \in R \Rightarrow P^* \in R$


Любой регулярный язык может быть описан:
- детерменированным конечным автоматом
- недетерменированным конечным автоматом
- регулярным выражением
- регулярном грамматикой

### Конечные автоматы

> Конечный автомат это упорядоченная пятерка $A = (\Sigma, Q, q_0, F, \delta)$, где
* $\Sigma$ - входной алфавит
* $Q$ - множество состояний
* $q_0 \in Q$ - начальное состояние
* $F \subset Q$ - множество конечных состояний
* $\delta: (\Sigma \cup \varepsilon) \times Q \rightarrow 2^Q$ - функция перехода

В зависимости от определения функции перехода:
- недетерминированный конечный автомат с $\varepsilon$-переходами ($\varepsilon$-NFA)
$$\delta: (\Sigma \cup \varepsilon) \times Q \rightarrow 2^Q$$ 

- недетерминированный конечный автомат (NFA)
$$\delta: \Sigma \times Q \rightarrow 2^Q$$ 

- детерминированный конечный автомат (DFA)
$$\delta: \Sigma \times Q \rightarrow Q$$ 

Множество слов, которые принимаются конечным автоматом образуют регулярный язык. По любому $\varepsilon$-NFA можно построить эквивалентый DFA. В DFA можно минимизировать число состояний. 


### Пример конечного автомата

![конечный автомат](images/dfa.svg)


Существует два распространенных способа реализации регулярных выражений, применяемых в различных задачах (не считая гибридов и т.п.):
1. регулярное выражение -> $\varepsilon$-NFA -> DFA -> min-DFA
2. backtracking 

#### Разновидности синтаксиса регулярных выражений

* POSIX RE (., *, [ ], [^ ], \{ \}, \( \))
* POSIX ERE (., *, +, ?, |, [ ], [^ ], { }, ( ))
* PCRE (стандартные библиотеки Perl, Java, C#, Python) - только backtracking

### Инструменты

- ply (Python)
- pyparsing (Python)
- lex, flex (C)
- jflex (Java)
- ANTLR (Java, C++, )

### Ply

In [None]:
from ply.lex import lex, TOKEN

class Lexer:
    tokens = ( 'NUMBER', 'ID', 'WHITESPACE' )
    
    
    @TOKEN(r'\d{1,5}')
    def t_NUMBER(self, t):
        t.value = int(t.valae)
        return t

    @TOKEN(r'\w+')
    def t_ID(self, t):
        return t

    @TOKEN(r'\s+')
    def t_WHITESPACE(self, t):
        pass

    def t_error(self, t):
        pass
    

         
lexer = lex(object=Lexer())
lexer.input('123 abs 965')
for token in lexer:
    print(token)

### Pyparsing

In [16]:
from pyparsing import Word, alphas, nums,  Literal, StringEnd, ZeroOrMore, Suppress, OneOrMore 

word = Word(alphas)
num = Word(nums)
sep = Suppress(OneOrMore(','))
col = Suppress(':')

s = word + col + num + ZeroOrMore(sep + num) + StringEnd()
        
s.parseString('hello: 1, 22, 3')

(['hello', '1', '22', '3'], {})

In [17]:
from pyparsing import Literal, Forward, StringEnd, OneOrMore, Empty

br_o = Literal('(')
br_c = Literal(')')

braces = Forward()
braces << OneOrMore(br_o + (braces | Empty() ) + br_c)
start = braces + StringEnd()
        
start.parseString('(())()()')

(['(', '(', ')', ')', '(', ')', '(', ')'], {})

In [18]:
from pyparsing import Word, Literal, Or, nums, Forward, StringEnd
from operator import mul, truediv, add, sub

class NumNode(object):
    def __init__(self, t):
        self.num = float(t[0])        
    def calc(self):
        return self.num          
    def __repr__(self):
        return 'Num(%s)' % self.num
        
class OpNode(object):
    def __init__(self, t):               
        self.left = t[0]
        self.op = { '-' : sub, '+' : add, '/' : truediv, '*' : mul }[t[1]]
        self.right = t[2]       
    def calc(self):
        return self.op(self.left.calc(), self.right.calc())        
    def __repr__(self):
        return 'Op(%s, %s, %s)' % (self.left, self.op, self.right)

plus = Literal('+')
minus = Literal('-')
div = Literal('/')
mult = Literal('*')
        
factor = Word(nums).setParseAction(NumNode)

term = Forward()
term << (( factor + (mult | div) + term ).setParseAction(OpNode) | factor )        

expr = Forward()
expr << ((term + (plus | minus) + expr).setParseAction(OpNode) | term )

start = expr + StringEnd()

tree = start.parseString('2 * 4 + 6 * 7')[0]
print(tree)
print(tree.calc())

Op(Op(Num(2.0), <built-in function mul>, Num(4.0)), <built-in function add>, Op(Num(6.0), <built-in function mul>, Num(7.0)))
50.0


### JFlex

In [19]:
cat code/jflex/src/main/jflex/TestScanner.jflex

package ru.spbu.apmath.pt.lexer;

import java.io.IOException;
import ru.spbu.apmath.pt.lexer.TokenTypes;


%%

%class TestScanner
%public
%unicode
%ignorecase
%type TokenTypes
%function getNextToken
%pack
%char

%{


public String getText() {
    return yytext();
}

public int getCurPosistion() {
    return yylength();
}

%}

ALPHA = [a-zA-Z]
DIGIT = [0-9]


COMMENT   = "/*"  ~"*/"

IDENTIFIER = {ALPHA} ({ALPHA} | {DIGIT})*

INTEGER = 0 | [1-9][0-9]*


%%

<YYINITIAL> {
    {IDENTIFIER} { return TokenTypes.TOKEN_IDENTIFIER; }
    {INTEGER} { return TokenTypes.TOKEN_INTEGER; }
    {COMMENT} {  }
    . {    }
}


In [20]:
cat code/jflex/src/main/java/ru/spbu/apmath/pt/lexer/TestScanner.java

/* The following code was generated by JFlex 1.4.3 on 14.10.13 21:58 */

package ru.spbu.apmath.pt.lexer;

import java.io.IOException;
import ru.spbu.apmath.pt.lexer.TokenTypes;



/**
 * This class is a scanner generated by 
 * <a href="http://www.jflex.de/">JFlex</a> 1.4.3
 * on 14.10.13 21:58 from the specification file
 * <tt>C:/Users/alms/home/work/asp/compilers/lexer/src/main/jflex/TestScanner.jflex</tt>
 */
public class TestScanner {

  /** This character denotes the end of file */
  public static final int YYEOF = -1;

  /** initial size of the lookahead buffer */
  private static final int ZZ_BUFFERSIZE = 16384;

  /** lexical states */
  public static final int YYINITIAL = 0;

  /**
   * ZZ_LEXSTATE[l] is the state in the DFA for the lexical state l
   * ZZ_LEXSTATE[l+1] is the state in the DFA for the lexical state l
   *                  at the beginning of a line
   * l is of the form l = 2*k, k a non negative int

In [21]:
cat code/jflex/src/main/java/ru/spbu/apmath/pt/lexer/LexerExample.java

package ru.spbu.apmath.pt.lexer;

import java.io.StringReader;

public class LexerExample {

    public static void main(String[] args) throws Exception {
        //Разбиваем строку на токены (комментарии игнорируем).
        final String exampleText = "hello world 2012 /* comment */ ";

        final TestScanner scanner = new TestScanner(new StringReader(exampleText));

        TokenTypes token = null;
        while ((token = scanner.getNextToken()) != null) {
            System.out.println(token + " " + scanner.getText() + " " + scanner.getCurPosistion());
        }
    }
}
