# Программирование на языке Python. Уровень 1.Основы языка Python

## Модуль 8. Работа со текстовыми данными

### Строки и обработка текстовых данных

#### Элементарные операции над строками

Строка в Python - это неизменяемый (unmutable) объект. При этом, во время работы со строками можно использовать операции, которые определены для списков:
- ```len()``` - эта функция Python вернет длину строки в символах
- можно делать срезы  (напимер, ```str_x[2:-1]``` вернет подстроку, начиная со 2-го символа, но без последнего символа)
- перебирать символы в строке в цикле ```for```\
__НО__:
- присваивать символы определенным позициям в строках нельзя
- также для строк не определены ```append()```, ```remove()```, ```sort()``` и прочее.

In [12]:
hello = "Привет"
print(len(hello)) # 6
print(hello[1:-1]) # риве
for char in hello:
    print(char)
# П
# р
# и
# в
# е
# т

6
риве
П
р
и
в
е
т


In [15]:
hello.append("тттт") # ошибка AttributeError: 'str' object has no attribute 'append'
hello[2] = "ю" # ошибка TypeError: 'str' object does not support item assignment

TypeError: 'str' object does not support item assignment

Но со строками в Python можно делать ряд других операций:
- конкатенация строк (соединение) - оператором "``` + ```"
- разбиение строк методом ```split( str )``` (здесь str - это разделитель)
- соединение строк из списка методом ```join()```
- можно обрезать строки слева и/или справа функцией ```strip( str )```
- строки можно форматировать.

In [17]:
hello = "Hello"
world = "World"
hello_world = hello + ', ' + world+'!'
print(hello_world) # Hello, World!

list_hw = hello_world.split(', ')
print(list_hw) # ['Hello', 'World!']

print( ", ".join(list_hw) ) # Hello, World!

Hello, World!
['Hello', 'World!']
Hello, World!


In [24]:
# убрать пробелы и ненужные символы
print("Hello world    !".strip(' !'))

# изменить регистр
print(hello_world.upper()) # HELLO, WORLD!
print(hello_world.lower()) # hello, world!
print(hello_world.capitalize()) # Hello, world!


Hello world
HELLO, WORLD!
hello, world!
Hello, world!


##### Форматирование строк

Существует несколько методов форматирования:
- с помощью f-строк (например, ```f"{var1} {var2}"```)
- с использованием метода ```format()```
- как в Python 2.X, с использованием оператора "%"

In [32]:
# f-строки:
hello = "Hello"
world = "World"
print(f"{hello}, {world}!") # Hello, World!

import math

# можно "на лету" форматировать вывод чисел, например число знаков после запятой
print(f'The value of pi is approximately {math.pi:.4f}.') # 4 знака после запятой


Hello, World!
The value of pi is approximately 3.1416.


In [33]:
# можно устанавливать ширину строки, что удобно при табличном выводе:
table = {'Sjoerd': 4127, 'Jack': 4098, 'Dcab': 7678}
for name, phone in table.items():
    print(f'{name:10} ==> {phone:10d}')

Sjoerd     ==>       4127
Jack       ==>       4098
Dcab       ==>       7678


In [51]:
# функция format работает аналогично f-строке
hello = "Hello"
world = "World"
print("{}, {}!".format(hello, world)) # Hello, World!
print("{1}, {0}!".format(hello, world)) # World, Hello!

# можно удобно выводить содержимое словаря
table = {'Sjoerd': 4127, 'Jack': 4098, 'Dcab': 7678}
print('Jack: {Jack:d}; Sjoerd: {Sjoerd:d}; Dcab: {Dcab:d}'.format(**table)) # Jack: 4098; Sjoerd: 4127; Dcab: 7678

# форматирование в стиле Python 2.X:
print('Jack: %(Jack)d; Sjoerd: %(Sjoerd)d; Dcab: %(Dcab)d' % table)

Hello, World!
World, Hello!
Jack: 4098; Sjoerd: 4127; Dcab: 7678
Jack: 4098; Sjoerd: 4127; Dcab: 7678


In [55]:
# также в Python есть функции выравнивания по левому краю, правому краю и центру
print(hello.rjust(10))
print(hello.ljust(10))
print(hello.center(10))

     Hello
Hello     
  Hello   


#### __ПРАКТИКА__

1. Дан текст, содержащий несколько строк, где через символ-разделитель ```|``` перечислены различные показатели. Требуется вывести их в табличной форме, упорядоченными по убыванию, в формате ```<Название показателя>: <число>```.

In [16]:
data = """
приборы|8%
тангаж|11.5%
развитие|0.05%
температура|11.1%
макроэкономика|9
инфлюэнца|100%
декупаж|9.99%
"""

# ваш код здесь

#### Байтовые строки, перекодировка

В Python также существует и переменная типа "байты" (bytes), для хранения байтов. Один символ в такой строке равен одному байту, и все байты, которые выходят за семибитную границу таблицы ASCII, отображаются в шестнадцатиричном представлении.

In [5]:
import codecs

In [9]:
str_t = "Это строка текстовая" # объект класса str
str_b = b"This is byte string" # объект класса bytes
# А тут будет Syntax Error, в b-строках при задании в коде могут быть только ASCII-символы
#str_b1 = b"Это строка текстовая" 


print(type(str_t))
print(type(str_b))

# проеобразуем текст в байты
utf8    = codecs.lookup('utf-8') # подбираем кодировщик
(str_t_b, _) = utf8.encode(str_t) # раскодируем
print(str_t_b) # b'\xd0\xad\xd1\x82\xd0\xbe \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 \xd1\x82\xd0\xb5\xd0\xba\xd1\x81\xd1\x82\xd0\xbe\xd0\xb2\xd0\xb0\xd1\x8f'

# и обратно
(str_t_b_t, _) = utf8.decode(str_t_b)
print(str_t_b_t)

<class 'str'>
<class 'bytes'>
b'\xd0\xad\xd1\x82\xd0\xbe \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 \xd1\x82\xd0\xb5\xd0\xba\xd1\x81\xd1\x82\xd0\xbe\xd0\xb2\xd0\xb0\xd1\x8f'
Это строка текстовая


### Обработка текстовой информации: поиск и замена

#### Простой поиск и замена

У объектов класса str есть встроенные средства поиска подстроки:
- простая проверка наличия подстроки в строке: ```if x in y:```
- метод ```find( str )```, который возвращает позицию найденной подстроки или либо -1
- методы ```startswith( str )``` и ```endswith( str )``` проверяют, начинается или заканчивается данная строка строкой ```str```
- метод ```count( str )```, который возвращает количество вхождений подстроки в строку
- для замены одной подстроки на другую используйте метод ```replace( from, to )```

__ВНИМАНИЕ!__ Все эти методы чувствительны к регистру.

In [37]:
hello_world  = "Hello, World!"

print( 'World' in hello_world ) # True
print( 'world' in hello_world ) # False - т.к. чувствительность к регистру

print(hello_world.find(', ')) # 5

print(hello_world.startswith('Hell')) # True
print(hello_world.endswith('World')) # False, т.к. восклицательный знак

# замена
print(numbers.replace('42', '!!!')) # 2 12 85 06 !!! 4 718 29 3 70 !!!0

numbers = "2 12 85 06 42 4 718 29 3 70 420"
print(numbers.count("42")) # 2 - так как поиск идет по подстроке


# задание: сделайте так, чтобы код возвращал количество вхождений именно числа 42 в данную строку



True
False
5
True
False
2 12 85 06 !!! 4 718 29 3 70 !!!0
2


#### Регулярные выражения

Язык регулярных выражений позволяет находить подстроки по "паттернам", а также разбивать строки, заменять текст, и так далее.

Пример: e-mail адреса ```ieliseev@yandex.ru``` ```john.doe@gmail.com``` ```eddie@somehost.com```.
Между ними определенно есть что-то общее.

Нужен был некоторый простой язык, который позволял бы задавать паттерны (шаблоны), по которым будет вестись поиск подстрок, которые им соответствуют. Самый простой пример (не имеющий отношения к регулярным выражениям) - поиск по имени файлов в операционной системе:
```
> dir *.txt
file1.txt
file2.txt
filen.txt
```
    
В результате был придуман язык регулярных выражений, который примерно одинаков на всех платформах (C/C++, JavaScript, SQL, и конечно, Python). В Python есть некоторые особенности реализации регуляных выражений, мы их рассмотрим.

Продолжим с примером про e-mail адреса, вот простое регулярное выражение для их поиска:
```
str_reg_email = r"[a-z0-9\.\_\-]+\@[\w\_\-]+\.[a-z]{2,6}"
```

Спецсимволы, которые используются в регулярных выражениях:
 - ```[``` и ```]``` - внутри таких скобок заключается множество значений, которые может принимать __один символ__. Можно перечислять единичные значения ```[abcde]```, можно множества ```[a-e]```, а можно классы символов:
     - наиболее часто использются:
        - ```\s``` - соответствуют всем пробелам, символам переноса строки и знакам табуляции,
        - ```\S``` - всем символам, которые таковыми не являются,
        - ```\d``` - цифрам от 0 до 9,
        - ```\D``` - всем не-цифрам,
        - ```\w``` - всем печатным символам, за исключением знаков препинания, символов подчеркивания, дефиса и пр.
        - ```\W``` - соответственно, наоборот.
        
 спецсимвол ```^```, включенный в такие скобки, будет отрицать принадлежность паттерна к множеству символов, следующих за ним.
 
 
     
 - ```.``` - соответствует любому символу
 - ```(``` и ```)``` - в круглых скобках можно размещать __группу последовательно идущих символов__. В них же можно размещать несколько групп, разделенных спецсимволом ```|```. Пример: ```(com|org|ru)``` - будет соответствовать и "org", и "com", и "ru". Также найденное соответствие паттерну, заключенному в скобках, можно извлекать из текста.
 - ```+```, ```*``` и конструкции в ```{n,m}``` - квантификаторы, задающие количество повторов заданного символа или группы символов. Перечисленные квантификаторы задают:  
     - ```*``` - любое количество повторов, 
     - ```+``` - как минимум один повтор, 
     - ```{n,m}``` - количество повторов от n до m включительно\
     Пример: ```[0-9]{2,4}``` будет соответствовать подстрокам, содержащим от 2-х до 4-х цифр\
 - если после квантификатора поставить знак вопроса ```?``` - это будет так называемый "ограничитель жадности", который потребует искать как можно меньшее количество соответствий для данного квантификатора
 - ```^``` и ```\$``` - начало и конец строки. Пример регулярного выражения, проверяющего, что строка содержит только латинские буквы - ```^[a-z]+$```
 - ```\``` - обратный слэш служит для обозначения спецсимволов (например, ```\t```, ```\n```), символов, записанных в шестнадцатиричных кодах, а самое главное - для экранирования управляющих символов регулярных выражений.
 
В Python для работы с регулярными выражениями используется модуль ```re```. Алгоритм работы сводится к следующим действиям:\
    - задать регулярное выражение\
    - скомпилировать его\
    - использовать его для работы с текстом.


In [38]:
import re

# создаем строку с регулярным выражением
str_reg_email = r"[a-z0-9\.\_\-]+\@[\w\_\-]+\.[a-z]{2,6}"

# компилируем регулярное выражение
reg_email = re.compile(str_reg_email)

# проверим список на соответствие
mails = ['ieliseev@yandex.ru', 'john.doe@gmail.com', 'notmail$haha.org', 'eddie@somehost.com']
for mail in mails:
    if reg_email.search(mail):
        print(f"{mail} is e-mail address")
    else:
        print(f"{mail} is NOT e-mail address")



ieliseev@yandex.ru is e-mail address
john.doe@gmail.com is e-mail address
notmail$haha.org is not e-mail address
eddie@somehost.com is e-mail address


In [99]:
# примеры простых регулярных выражений
pattern = re.compile("o")
print(pattern.search("dog")) # <re.Match object; span=(1, 2), match='o'>

pattern = re.compile("^[A-Z0-9]*$")
print(pattern.search("Python")) # None, search чувствителен к регистру

pattern = re.compile("^[A-Z0-9]*$", re.IGNORECASE)
print(pattern.search("Python")) # <re.Match object; span=(0, 6), match='Python'>

pattern = re.compile("^[A-Z^0-9]*$")
print(pattern.search("Python123")) # None, так как содержит цифры

pattern = re.compile("^[\w\s]*$")
print(pattern.search("Python123")) # не None, так как буквы здесь есть, а пробелы опциональны

pattern = re.compile("^[\w]*$")
print(pattern.search("Python-123")) # None, так как содержит дефис

pattern = re.compile("^[\S]*$")
print(pattern.search("Python-123")) # не None, так как не содержит пробелы


<re.Match object; span=(1, 2), match='o'>
None
<re.Match object; span=(0, 6), match='Python'>
None
<re.Match object; span=(0, 9), match='Python123'>
None
<re.Match object; span=(0, 10), match='Python-123'>


In [60]:
# десятичное число
pattern = re.compile(r"^[0-9]+$") # регулярное выражение для чисел
print(pattern.search("10")) # <re.Match object; span=(0, 2), match='10'>
print(pattern.search("-10")) # None, мы не учли знак

pattern = re.compile(r"^[\+\-]{0,1}[0-9]+$")
print(pattern.search("-10")) # <re.Match object; span=(0, 3), match='-10'>

# натуральное десятичное число, добавим дробную часть(\.[0-9]+)?
pattern = re.compile(r"^[\+\-]{0,1}[0-9]+(\.[0-9]+)?$")
print(pattern.search("10.05")) # <re.Match object; span=(0, 5), match='10.05'>



<re.Match object; span=(0, 2), match='10'>
None
<re.Match object; span=(0, 3), match='-10'>
<re.Match object; span=(0, 5), match='10.05'>


### __ПРАКТИКА__

Пользователь вводит дату в формате ДД.ММ.ГГГГ. Проверьте ее на корректность с помощью регулярного выражения.

In [None]:
str_date = input("Введите дату в формате ДД.ММ.ГГГГ: ")

# ваш код здесь



#### Извлечение данных из текста с помощью регулярных выражений

Извлекаем данные из полученного объекта ```match()```. Наиболее часто используют методы ```match.group()```, ```match.groups()``` и ```match.groupdict()```.

In [77]:
# снова натуральное десятичное число, посмотрим что у нас в group()
pattern = re.compile(r"^[\+\-]{0,1}[0-9]+(\.[0-9]+)?$")
match = pattern.search("100.500")
print(match.group(0)) # здесь всегда полное соответствие паттерну
print(match.group(1)) # здесь соответствие первым "скобкам"
#print(match.group(2)) # здесь соответствие вторым "скобкам", но у нас их нет - так что None

# Можно извлечь избранные группы в виде кортежа
(num, fraction) = match.group(0,1)
print(f"Number: {num}, fraction: {fraction}")

# Методом groups() можно извлечь группы, начиная с 1-й, в виде кортежа
fraction_, = match.groups()
print(f"Fraction is : {fraction_}")

# "Скобкам" можно дать имя
pattern = re.compile(r"^(?P<sign>[\+\-]{0,1})(?P<int>[0-9]+)(?P<fraction>\.[0-9]+)?$")
match = pattern.search("+100.500")
print(match.group(0)) # полное соответствие паттерну
print(match.group('sign')) # здесь соответствие "скобкам" sign, +
print(match.group('int')) # здесь соответствие "скобкам" int, 100
print(match.group('fraction')) # здесь соответствие "скобкам" int, .500

# с помощью метода groupdict() можно извлечь группы в виде словаря
dict_match = match.groupdict()
print(dict_match)


100.500
.500
Number: 100.500, fraction: .500
Fraction is : .500
+100.500
+
100
.500
{'sign': '+', 'int': '100', 'fraction': '.500'}


### __ПРАКТИКА__

Для предыдущей задачи реализуйте создание объекта datetime.date, который содержал бы введенную пользователем дату.
При попытке ввода некорректной даты нужно выводить дружественное сообщение об ошибке.

In [94]:
str_date = input("Введите дату в формате ДД.ММ.ГГГГ: ")

# ваш код здесь



Введите дату в формате ДД.ММ.ГГГГ: 24134


Для поиска всех соответствий паттерну в тексте используют функцию ```findall()```. Она возвращает список кортежей найденных соответствий.

Чтобы работать с соответствиями как со словарями, используйте ```finditer()```, эта функция возвращает итерируемый объект, который на каждую итерацию возвращает объект ```match```.

In [90]:
# найдем все интернет-адреса с помощью регулярного выражения:
re_url = re.compile(r'(?P<url>https?\:\/\/(www\.)?(?P<domain>[\w\-]+\.(com|ru)))')

text = """
Первой поисковой системой в Рунете была http://www.ru, затем появились Рамблер https://rambler.ru и 
Яндекс https://yandex.ru.
"""

# findall()
urls = re_url.findall(text)
print(urls)

# finditer()
for match_url in re_url.finditer(text):
    dict_groups = match_url.groupdict()
    print(dict_groups)

[('http://www.ru', '', 'www.ru', 'ru'), ('https://rambler.ru', '', 'rambler.ru', 'ru'), ('https://yandex.ru', '', 'yandex.ru', 'ru')]
{'url': 'http://www.ru', 'domain': 'www.ru'}
{'url': 'https://rambler.ru', 'domain': 'rambler.ru'}
{'url': 'https://yandex.ru', 'domain': 'yandex.ru'}


### __ПРАКТИКА__

Верните список всех хештегов, упомянутых в тексте.

In [92]:
text = """
Этот #пост создан для того, чтобы его #лайк'али. 
Посмотрите, какая красивая фотография #котик'а. 
Какой он #Мягкий_и_Пушистый!
Пройдите #опрос, он у нас посвящен #кот'ам.
Всем #чао! ###
"""

re_tag = re.compile(r"\#[\w]+")
# ваш код здесь



#### Замена в регулярных выражениях

Для замены используется функция ```re.sub( pattern, repl, string )```. В строке ```string``` все соответсвия ```pattern``` заменяются на ```repl```. Если ```repl``` - функция, ей передается match-объект, из которого можно извлечь группы, и тогда совпадения по паттерну будут заменены тем, что возвращает функция.


In [11]:
rex_ooo = re.compile(r"(o{3}|w{3})", re.IGNORECASE)
string = "mooo mooooo mOOOO awww Awwww awww"
str__ = re.sub(rex_ooo, 'xxx', string)
print(str__)   # mxxx mxxxoo mxxxO

str__1 = re.sub(rex_ooo, lambda match: match.group(1)[0], string)
print(str__1)

mxxx mxxxoo mxxxO axxx Axxxw axxx
mo mooo mOO aw Aww aw


### __ПРАКТИКА__

Замените все e-mail адрес в строке строкой "<e-mail адрес скрыт>". А потом замените строкой, которая состоит из части адреса до "собаки", и вышеозначенной фразы. 

In [None]:
str_ = "Пишет пользователь ieliseev@specialist.ru в ответ на письмо пользователя john.doe@camel.com"

# ваш код здесь