*Регулярное выражение* — это последовательность символов, используемая для поиска и замены текста в строке или файле

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. Аналогично символу *, который как правило означает «любой символ» (но в регулярных выражениях работает немного иначе, о чем поговорим ниже);

- литералы (например: a, b, 1, 2 и т. д.).

In [1]:
# Реализовано тут
import re

In [3]:
help(re)

Help on module re:

NAME
    re - Support for regular expressions (RE).

DESCRIPTION
    This module provides regular expression matching operations similar to
    those found in Perl.  It supports both 8-bit and Unicode strings; both
    the pattern and the strings being processed can contain null bytes and
    characters outside the US ASCII range.
    
    Regular expressions can contain both special and ordinary characters.
    Most ordinary characters, like "A", "a", or "0", are the simplest
    regular expressions; they simply match themselves.  You can
    concatenate ordinary characters, so last matches the string 'last'.
    
    The special characters are:
        "."      Matches any character except a newline.
        "^"      Matches the start of the string.
        "$"      Matches the end of the string or just before the newline at
                 the end of the string.
        "*"      Matches 0 or more (greedy) repetitions of the preceding RE.
                 Greedy 

In [None]:
re.match()  # Try to apply the pattern at the start of the string, returning a match object, or None if no match was found.

re.search() # Scan through string looking for a match to the pattern, returning a match object, or None if no match was found.

re.findall() # Return a list of all non-overlapping matches in the string.
re.split() # Split the source string by the occurrences of the pattern, returning a list containing the resulting substrings.
re.sub()  # Return the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in string by the 
          #replacement repl
re.compile() # Чтобы собрать регулярки в отдельный объект

## re.match(pattern, string):

In [25]:
result = re.match('AV', 'AV Analytics Vidhya')
print (result)

<_sre.SRE_Match object; span=(0, 2), match='AV'>


In [23]:
print (result.start()) # начало и конец найденной подстроки
print (result.end())

0
2


In [28]:
result.group(0) # что именно

'AV'

In [33]:
result = re.match(r'Analytics', 'AV Analytics Vidhya AV') 
print (result)

None


## re.search(pattern, string):    

In [36]:
result = re.search(r'AV', 'AV Analytics Vidhya AV')
print (result.group(0))

AV


In [37]:
result

<_sre.SRE_Match object; span=(0, 2), match='AV'>

## re.findall(pattern, string):


In [39]:
result = re.findall(r'AV', 'AV Analytics Vidhya AV')

In [40]:
result

['AV', 'AV']

## re.split(pattern, string, [maxsplit=0]):


In [42]:
result = re.split(r'y', 'Analytics')
print (result) 

['Anal', 'tics']


In [43]:
result = re.split(r'i', 'Analytics Vidhya')
print (result) # все возможные участки.


['Analyt', 'cs V', 'dhya']


In [45]:
result = re.split(r'i', 'Analytics Vidhya',maxsplit=1)
print (result)

['Analyt', 'cs Vidhya']


## re.sub(pattern, repl, string):

In [47]:
result = re.sub(r'India', 'the World', 'AV is largest Analytics community of India')
print (result)

AV is largest Analytics community of the World


## re.compile(pattern, repl, string):

In [49]:
pattern = re.compile('AV')
result = pattern.findall('AV Analytics Vidhya AV')
print (result)

['AV', 'AV']


In [51]:
result2 = pattern.findall('AV is largest analytics community of India')
print (result2)

['AV']


## Определение количества вхождений

In [28]:
import re

c = re.compile(r'[0-9]+?')
str = '32 43 23423424'
print(re.findall(c, str))

['3', '2', '4', '3', '2', '3', '4', '2', '3', '4', '2', '4']


In [4]:
# Пример 1. Как получить все числа из строки

price = '324234dfgdg34234DFDJ343'
b = "[a-zA-Z]*" # регулярное выражение для последовательности букв любой длины
nums = re.sub(b,"",price)
print (nums)

32423434234343


### Задача 1

In [None]:
#попробуем вытащить каждый символ (используя .)


In [None]:
# в конечный результат не попал пробел

In [None]:
# Теперь вытащим первое слово

In [None]:
# А теперь вытащим первое слово

### Задача 2

In [64]:
#используя \w, вытащить два последовательных символа, кроме пробельных, из каждого слова


In [None]:
# вытащить два последовательных символа, используя символ границы слова (\b)

### Задача 3 

вернуть список доменов из списка адресов электронной почты

In [None]:
#Сначала вернем все символы после «@»:

In [107]:
str = 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz 111@asd.ry@@'

In [108]:
#Если части «.com», «.in» и т. д. не попали в результат. Изменим наш код:

In [109]:
# вытащить только домен верхнего уровня, используя группировку — ( )

In [110]:
# Получить список почтовых адресов

### Задача 4: 



In [None]:
# Извлечь дату из строки

In [None]:
str = 'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009'

In [79]:
#А теперь только года, с помощью скобок и группировок:    

### Задача 5

In [80]:
#Извлечь все слова, начинающиеся на гласную. Но сначала получить все слова (\b - границы слов)

### Задача 6: 
Проверить телефонный номер (номер должен быть длиной 10 знаков и начинаться с 8 или 9)

In [81]:
li = ['9999999999', '999999-999', '99999x9999']

for val in li:
    print()






### Задача 7: 
Разбить строку по нескольким разделителям


In [None]:
line = 'asdf fjdk;afed,fjek,asdf,foo' # String has multiple delimiters (";",","," ").

# Жадный против нежадного

In [69]:
s = '<html><head><title>Title</title>'
print (len(s))

32


In [71]:
print (re.match('<.*>', s).span())

(0, 32)


In [72]:
print (re.match('<.*>', s).group())

<html><head><title>Title</title>


In [None]:
print re.match('<.*?>', s).group()

In [73]:
c = re.compile(r'\d+')
str = '0123456789'
tuples = re.findall(c, str)
print(tuples)

['0123456789']


In [74]:
#Но как сделать так, чтобы получить каждой отдельное число

## Разное

### Просмотр с возращением

In [6]:
#(?=...) - положительный просмотр вперед

s = "textl, text2, textЗ text4"
p = re.compile(r"\w+(?=[,])", re.S | re.I) # все слова, после которых есть запятая
print (p.findall(s))


['textl', 'text2']


In [12]:
#(?!...) - отрицательный просмотр вперед
import re
s = "textl, text2, textЗ text4"
p = re.compile(r"[a-z]+[0-9](?![,])", re.S | re.I) # все слова, после которых нет запятой
print(p.findall(s))

['text4']


In [4]:
#(?<=...) - положительный просмотр назад
import re
s = "textl, text2, textЗ text4"
p = re.compile(r"(?<=[,][ ])([a-z]+[0-9])", re.S | re.I) # все слова, перед которыми есть запятая с пробелм
print (p.findall(s) )

['text2']


In [9]:
#(?<!...) - отрицательный просмотр назад

s = "textl, text2, textЗ text4"
p = re.compile(r"(?<![,]) ([a-z]+[0-9])", re.S | re.I) # все слова, перед которыми есть пробел но нет запятой
print (p.findall(s))

['text4']


In [14]:
#Дано текст: 
str = 'ruby python 456 java 789 j2not clash2win'
#Задача: Найти все упоминания языков программирования в строке.
pattern = 'ruby|java|python|c#|fortran|c\+\+'
string = 'ruby python 456 java 789 j2not clash2win'
re.findall(pattern, string)

['ruby', 'python', 'java']

## Определитесь, нужны ли вам регулярные выражения для данной задачи. Возможно, получится гораздо быстрее, если вы примените другой способ решения.