Выделение сумм в долларах из строковых значений
Этот однострочник демонстрирует еще одно применение регулярных выражений на практике. В данном случае представьте себя финансовым аналитиком. Ваша компания планирует приобрести другую, и вам поручили прочитать ее финансовые отчеты. Особенно вас интересуют все суммы в долларах. Конечно, вы можете просмотреть весь документ вручную, но это утомительная работа и вы не хотели бы тратить на нее самое продуктивное
время дня. Поэтому вы решили написать небольшой сценарий на Python. Но как лучше всего это сделать?

Общее описание
К счастью, вы уже прочли мое руководство по регулярным выражениям, поэтому вместо того чтобы тратить огромное количество времени на написание собственного, очень большого и чреватого ошибками средства синтаксического разбора на Python, вы решили воспользоваться более аккуратной реализацией на основе регулярных выражений — мудрое решение. Но прежде чем углубиться в решение поставленной задачи, обсудим еще три понятия, связанные с регулярными выражениями.
Во-первых, рано или поздно вы захотите найти какой-либо специальный символ, используемый в этом качестве и языком регулярных выражений. В таком случае необходимо задействовать префикс \ для экранирования этого специального символа. Например, для поиска символа правой скобки '(', используемого для группировки регулярных выражений, необходимо экранировать его следующим образом: \(. При этом символ '(' теряет особый смысл в регулярных выражениях.
Во-вторых, с помощью квадратных скобок [ ] можно описывать диапазоны конкретных символов. Например, регулярному выражению [0-9] соответствует любой из следующих символов: '0', '1', '2', . . . , '9'. Еще один пример — регулярное выражение [a-e], которому соответствует любой из следующих символов: 'a', 'b', 'c', 'd', 'e'.
В-третьих, как мы обсуждали в посвященном предыдущему однострочнику разделе, регулярное выражение «скобки» (<pattern>) задает группу. Одна или несколько групп могут быть в любом регулярном выражении. При использовании функции re.findall() для включающего группы регулярного выражения в виде кортежа строковых значений будут возвращены только совпадающие группы, а не вся совпадающая строка. Например, регулярному выражению hello(world), вызванному для строки 'helloworld', соответствует вся строка, но возвращена будет только соответствующая ему группа world. С другой стороны, при использовании двух вложенных групп в регулярном выражении (hello(world)) результат функции re.findall() будет представлять собой кортеж всех подходящих групп ('helloworld', 'world'). Внимательно изучите следующий код, чтобы лучше разобраться с понятием вложенных групп:

In [1]:
import re

string = 'helloworld'
reg_1  = 'hello(world)'
reg_2 = '(hello(world))'
res_1 = re.findall(reg_1, string)
res_2 = re.findall(reg_2, string)

print(res_1)
print(res_2)

['world']
[('helloworld', 'world')]


Напомню, что мы хотим посмотреть на все денежные суммы из заданного отчета компании. А именно, нам нужно решить следующую задачу: получить по заданной строке список всех вхождений сумм в долларах, возможно, с десятичными значениями. Например, следующих строк символов: $10, $10. и $10.00021.

In [5]:
import re 

report = '''
If you invested $1 in the year 1801, you would have $18087791.41 today.
This is a 7.967% return on investment.
But if you invested only $0.25 in 1801, you would end up with $4521947.8525.
'''

dollars = [x[0] for x in re.findall('(\$[0-9]+(\.[0-9]*)?)', report)]
#найди все значения начинающеся с $ с 0-9, + все что после "." 0-9,
# не ограниченной длины сколько-нибудь раз
print(dollars)

['$1', '$18087791.41', '$0.25', '$4521947.8525']
