# Методы строк

<div class="alert alert-info alertinfo">

<b><span style="color: black; font-style: italic">Если вы нашли опечатку или другую проблему в этом материале, пожалуйста, расскажите нам об этом на <a href="https://edu.hse.ru/mod/forum/discuss.php?d=22869" style="color: blue; font-style: italic">форуме курса</a>. Спасибо, что помогаете нам стать лучше!</span></b>

</div>

Очень часто мы сталкиваемся с задачей, в которой имеющийся у нас текст нужно как-либо исследовать или как-либо очистить перед дальнейшим использованием.
В этом нам помогают *методы* строк — команды, которые применяются только к строкам и пишутся через точку после строки. Ранее мы работали с методом строк `.split()`, который позволяет превратить строку в список элементов:

In [2]:
s = 'раз два три четыре пять'
numbers = s.split("р")
print(numbers)

['', 'аз два т', 'и четы', 'е пять']


Так как в этой неделе мы изучим очень много методов, в тексте блокнотов мы будем писать их названия с точек, так как в коде они всегда пишутся через точку, да и отличить от функций методы так тоже будет проще. Методы бывают не только у строк, например, далее мы будем изучать методы списков и других структур данных, с которым познакомимся позже.

Со странными текстами, которые сложно обрабатывать руками, часто работают биологи, когда работают с текстами генетического кода. Тексты генов состоят из букв A,C,G и T, но иногда там встречается буква N, которая обозначает, что букву гена не удалось распознать. Пример текста генетического кода можно увидеть внизу [страницы](https://www.ncbi.nlm.nih.gov/nuccore/NC_000003.12?report=genbank&from=91374236&to=91513775).

Давайте напишем программу, которая проверит текст генетического кода на наличие ошибок и удалит из него лишние пробелы.

In [4]:
gene = 'aacaatggaa tcatttatga acttttttat tatgaacntt ttngttacat tcaattttca '
gene = gene.strip()
print(f'Анализируем текст гена "{gene}"')

Анализируем текст гена "aacaatggaa tcatttatga acttttttat tatgaacntt ttngttacat tcaattttca"


Метод строк `.strip()` позволяет удалить лишние символы по бокам строки. В нашем случае он создал новую строчку, удалив из старой лишний пробел в конце. Чтобы удалить все лишние пробелы, можно воспользоваться методом строк `.replace()`, который создаёт новую строчку, заменяя указанный символ (последовательность символов) другим символом (последовательностью символов):

In [None]:
gene = 'aacaatggaa tcatttatga acttttttat tatgaacntt ttngttacat tcaattttca '
gene = gene.replace(' ', '')  # замени каждый пробел пустотой в старой строке 
print(f'Анализируем текст гена "{gene}"')

Анализируем текст гена "aacaatggaatcatttatgaacttttttattatgaacnttttngttacattcaattttca"


Попробуем узнать, есть ли в тексте гена ошибки:

In [None]:
print(f'Анализируем текст гена "{gene}"')
if 'n' in gene: # есть ли вообще ошибочная буква (n) в тексте гена?
    print('В тексте есть хотя бы одна ошибка!')
else:
    print('В тексте нет ошибок')

Анализируем текст гена "aacaatggaatcatttatgaacttttttattatgaacnttttngttacattcaattttca"
В тексте есть хотя бы одна ошибка!


Благодаря конструкции `if <символ> in <строка>:` мы можем узнать о наличии ошибок, но не можем узнать их точное количество.

Чтобы узнать точное количество ошибочных букв в тексте гена, воспользуемся методом строк `.count()`:

In [None]:
print(f'Анализируем текст гена "{gene}"')
errors = gene.count('n')  # сколько раз встречается буква-ошибка n в строке гена?
print(f'В тексте гена есть {errors} ошибки!')

Анализируем текст гена "aacaatggaatcatttatgaacttttttattatgaacnttttngttacattcaattttca"
В тексте гена есть 2 ошибки!


Метод count можно применять не только к одному символу, но и к нескольким сразу. Например, найдём, сколько раз строка "atg" встречается в строке из нашего примера:

In [None]:
gene = 'aacaatggaa tcatttatga acttttttat tatgaacntt ttngttacat tcaattttca '
gene = gene.replace(' ', '') 
print(f'Анализируем текст гена "{gene}"')
print(f'ATG встречается {gene.count("atg")} раз')

Анализируем текст гена "aacaatggaatcatttatgaacttttttattatgaacnttttngttacattcaattttca"
ATG встречается 3 раз


Попробуем индексы букв, которые не прочитались. Для этого в Python есть два метода строк: `.find()`, который ищет слева направо и выводит индекс первого найденного фрагмента, и `.rfind()`, который ищет справа налево, и выводит индекс последнего найденного фрагмента:

In [None]:
first_error = gene.find('n')  # Переменная gene, заданная в одном из верхних примеров, будет работать и здесь
last_error = gene.rfind('n')  # Если компьютер вывел NameError, что он не знает  
                              # переменную gene — pапустите любой из верхних примеров
    
print(f'Первая ошибка в гене находится в символе с индексом {first_error}!')
print(f'Посленяя ошибка в гене находится в символе с индексом {last_error}!')

Первая ошибка в гене находится в символе с индексом 38!
Посленяя ошибка в гене находится в символе с индексом 86!


Напишем теперь общую программу, которая будет проверять, есть ли во введённом гене ошибки, и если есть, сколько их и где находятся первая и последняя:

In [None]:
gene = input('Введите текст гена: ')
gene = gene.replace(' ', '') 
print(f'Анализируем текст гена "{gene}"')

if "n" in gene:             # Есть ли вообще буквы с ошибкой в тексте гена?
    if gene.count('n') > 1: # Если они есть и ошибок больше одной
        print(f'В тексте гена есть {gene.count("n")} ошибки (ошибок)')
        print(f'Первая в символе с индексом {gene.find("n")}')
        print(f'Последняя с индексом {gene.rfind("n")}')
    elif gene.count('n') == 1:
        print('В тексте гена только одна ошибка, под номером', gene.find('n'))
else:
    print('В тексте гена нет ошибок')

Введите текст гена: aacaatggaa tcatttatga acttttttat tatgaacntt ttngttacat tcaattttca 
Анализируем текст гена "aacaatggaatcatttatgaacttttttattatgaacnttttngttacattcaattttca"
В тексте гена есть 2 ошибки (ошибок)
Первая в символе с индексом 37
Последняя с индексом 42


К сожалению, если ошибок больше двух, то встроенных методов их поиска в Python нет.

Кроме методов поиска, вроде `.find()`, `.rfind()` и `.count()`, мы можем проверить все символы нашей строки. 

Например, метод `.islower()` позволяет проверить, что все символы в строке — строчные:

In [None]:
if 'все строчные'.islower():
    print('Во фразе "все строчные" все символы — строчные')
else:
    print('Во фразе "все строчные" не все символы — строчные')

if 'А тут — НЕ ВСЕ'.islower():
    print('Во фразе "А тут — НЕ ВСЕ" все символы — строчные')
else:
    print('Во фразе "А тут — НЕ ВСЕ" не все символы — строчные')

Во фразе "все строчные" все символы — строчные
Во фразе "А тут — НЕ ВСЕ" не все символы — строчные


Метод строк `.isdigit()` позволяет проверить, что строка состоит только из цифр:

In [None]:
print('42'.isdigit())           # Все символы в этой строке — цифры
print('40plus2=42'.isdigit())   # А в этой — нет

True
False


Метод `.isalpha()` позволяет проверить, что строка состоит только из букв:

In [None]:
print('answer'.isalpha())           # В этой строке только буквы,
print('answer is near'.isalpha())   # В этой есть ещё и пробелы

True
False


Метод `.isalnum()` позволяет проверить, что строка состоит только из букв и цифр:

In [None]:
print('ответ42'.isalnum())      # В этой строке только цифры и буквы,
print('ответ=42'.isalnum())     # В этой есть ещё знак равно,
print('ответ 42'.isalnum())     # В этой есть ещё пробел

True
False
False


Полный список методов проверки можно найти в [документации языка Python](https://docs.python.org/3/library/stdtypes.html#str.isalnum).

Коротко повторим все изученные методы строк:
* `.isdigit()` позволяет проверить, что строка состоит только из цифр;
* `.islower()` позволяет проверить, что строка состоит только из букв нижнего регистра (строчных);
* `.isupper()` позволяет проверить, что строка состоит только из букв верхнего регистра (прописных);
* `.isalpha()` позволяет проверить, что строка состоит только из букв;
* `.isalnum()` позволяет проверить, что строка состоит только из букв и цифр;
* `.strip()` позволяет создать новую строчку, удалив лишние символы по бокам исходной строки (например, лишние пробелы);
* `.replace()` позволяет создать новую строчку, заменив что-то в изначальной;
* `.count()` позволяет понять, сколько раз последовательность символов встречалась в строке;
* `.find()` и `.rfind()` позволяют найти индекс самой первой и самой последней найденной последовательности символов в строке. 

In [2]:
s = ' 4242HelloHello42!   '
print(f'Проверим их работу на примере строки "{s}""')
print(f'Состоит ли строка только из цифр: {s.isdigit()}')
print(f'Состоит ли строка только из строчных букв: {s.islower()}')
print(f'Состоит ли строка только из прописных букв: {s.isupper()}')
print(f'Состоит ли строка только из букв: {s.isalpha()}')
print(f'Состоит ли строка только из букв или цифр: {s.isalnum()}')
print(f'Удалим боковые пробелы: "{s.strip()}"')
print(f'Заменим число 42 на слово "Ответ": "{s.replace("42","Ответ")}"')
print(f'Найдём первый и последний индекс для цифр "42" : {s.find("42")}, {s.rfind("42")}')
print(f'Сколько раз последовательность цифр "42" встречаются в строке: {s.count("42")}')

Проверим их работу на примере строки " 4242HelloHello42!   ""
Состоит ли строка только из цифр: False
Состоит ли строка только из строчных букв: False
Состоит ли строка только из прописных букв: False
Состоит ли строка только из букв: False
Состоит ли строка только из букв или цифр: False
Удалим боковые пробелы: "4242HelloHello42!"
Заменим число 42 на слово "Ответ": " ОтветОтветHelloHelloОтвет!   "
Найдём первый и последний индекс для цифр "42" : 1, 15
Сколько раз последовательность цифр "42" встречаются в строке: 3
