# String Operations

В одном из первых семинаров мы говорили о типах данных, и одним из этих типов была строка (str). 
**Строка** -- это любая неизменяемая последовательность символов. В нее могут входить буквы алфавита, цифры, знаки препинания, пробельные символы и др.

В питоне предусмотрен целый ряд функций для работы со строками. Некоторые из них мы уже разбирали:
* длина строки 
* разбиение на слова
* разбиение на символы
* извлечение символа по индексу
* срезы (slices)
* наличие подстроки в строке

In [1]:
sent = "The cat is on the mat"

# длина строки в символах
print(len(sent))

# разбиение на слова
print(sent.split())

# разбиение на символы
print(list(sent))

# извлечение символа по индексу
print(sent[0])

# срез
print(sent[8:-1])

# наличие подстроки в строке
print("cat" in sent)

21
['The', 'cat', 'is', 'on', 'the', 'mat']
['T', 'h', 'e', ' ', 'c', 'a', 't', ' ', 'i', 's', ' ', 'o', 'n', ' ', 't', 'h', 'e', ' ', 'm', 'a', 't']
T
is on the ma
True


## Лирическое отступление №1: токенизация

Выше мы разбивали предложения на слова: это простейший пример **токенизации**, или разбиения строки на значимые элементы. Такими элементами, или **токенами**, могут быть не только слова, но и знаки пунктуации, части слов, смайлики, хэштеги и т.п. Токенизация -- это первый после нормализации (см. ниже) этапов предобработки текста. Подробности -- в следующем семинаре!

## Функции для работы со строками 

### join()
Раз строку можно разбить, то можно ее и соединить обратно! Для этого существует метод `join()`. 


In [2]:
s = 'abracadabra'
chars = s.split('br')
print(chars) 

# в кавычках то, что будет между элементами
# аргумент -- список
s2 = '__'.join(chars)
print(s2)

['a', 'acada', 'a']
a__acada__a


### replace()
Кроме того, можно заменить один символ(ы) на другой с помощью функции `replace()`.

In [3]:
s.replace('br', 'BR')

'aBRacadaBRa'

### strip()

Текст, с которым приходится работать, не всегда выглядит идеально: в нем может быть много лишних пробелов и прочего мусора, от которого нужно избавиться, прежде чем переходить к дальнейшей работе. Процесс очистки текста от мусора называется **нормализацией**.

Допустим, у нас есть строка с лишними пробельными символами по краям. Отрезать их позволяет функция `strip()`.

In [4]:
sent = "\t   \tThe cat is on the mat   \n"
print(sent)
print(sent.split(" "))

# обрезаем мусор
# обратите внимания, что можно "приклеивать" методы друг к другу!
sent.strip(" ").split()

	   	The cat is on the mat   

['\t', '', '', '\tThe', 'cat', 'is', 'on', 'the', 'mat', '', '', '\n']


['The', 'cat', 'is', 'on', 'the', 'mat']

Вообще-то функция `split()` хитрая, и если вызвать её без аргумента, то она сделает c пробельными символами ровно то же самое, что и последняя строчка кода в предыдущей ячейке.

In [5]:
sent.split()

['The', 'cat', 'is', 'on', 'the', 'mat']

Часто также требуется избавиться от пунктуации. Чтобы это сделать, нужно подать функции `strip()` в качестве аргумента строку из пунктуационных знаков, которые нужно убрать.

In [6]:
sent = "???!The cat is on the mat?!!?"

# убираем все
print(sent.strip("?!"))

# убираем только ? (до первого встретившегося другого символа с обеих сторон)
print(sent.strip("?"))

# убираем знаки справа
print(sent.rstrip("?!"))

# убираем знаки слева
print(sent.lstrip("?!"))

The cat is on the mat
!The cat is on the mat?!!
???!The cat is on the mat
The cat is on the mat?!!?


Для удобства в питоне даже есть встроенная переменная punctuation, но для русскоязычных текстов там знаков маловато.

In [7]:
from string import punctuation

sent = "&%$$???!The cat is on the mat?@#**^!!?>"
print(sent.strip(punctuation))

# а если так?
sent = "&%$„“«»†?!The cat is on the mat?@#**^!!?>"
print(sent.strip(punctuation))

The cat is on the mat
„“«»†?!The cat is on the mat


Во втором примере не получилось удалить символы `„“«»†`, потому что они не предусмотрены в `punctuation` (в этом легко убедиться). Что делать в таком случае? Просто задать необходимую пунктуацию самомстоятельно! Назвать это можно как угодно.  

In [8]:
print(punctuation)

# так-то лучше!
punct = "!\"#$%&'()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-"
print(sent.strip(punct))

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
The cat is on the mat


### upper(), lower() и title()

Питон также позволяет работать с регистром, т.е. приводить все к верхнему или нижнему регистру, или же писать слово с большой буквы. Приведение к нижнему регистру часто будет требоваться вам при работе с текстовыми данными.

In [9]:
print('cat'.upper())
print('ABRACADABRA'.lower())
print('нижний новгород'.title())

CAT
abracadabra
Нижний Новгород


## Проверка условий

Иногда необходимо проверить, удовлетворяет ли строка какому-либо условию:

* **s.startswith()** -- начинается с определенного символа
* **s.endswith()** -- заканчивается определенным символом
* **s.isalpha()** -- состоит только из букв алфавита
* **s.isalnum()** -- состоит из букв алфавита и цифр
* **s.isdigit()** -- состоит только из цифр
* **s.islower()** -- написана в нижнем регистре
* **s.isupper()** -- написана в верхнем регистре
* **s.istitle()** -- написана с большой буквы (т.е. первая буква прописная, остальные строчные)

Для всего этого есть простые функции.

In [10]:
sent = "The 3 9-legged cats ARE on the mat"

# начинается на определенный символ(ы)
print([w for w in sent.split() if w.startswith("c")])

# заканчивается на определенный символ(ы)
print([w for w in sent.split() if w.endswith("at")])

# состоит только из букв алфавита
print([w for w in sent.split() if w.isalpha()])

# состоит только из цифр
print([w for w in sent.split() if w.isdigit()])

# состоит из цифр и букв алфавита
print([w for w in sent.split() if w.isalnum()])

# верхнй регистр
print([w for w in sent.split() if w.isupper()])

# нижний регистр
print([w for w in sent.split() if w.islower()])

# с большой буквы, как в предложении
print([w for w in sent.split() if w.istitle()])

['cats']
['mat']
['The', 'cats', 'ARE', 'on', 'the', 'mat']
['3']
['The', '3', 'cats', 'ARE', 'on', 'the', 'mat']
['ARE']
['9-legged', 'cats', 'on', 'the', 'mat']
['The']


## Лирическое отступление №2: list comprehensions

В ячейке выше вас наверняка удивил код в [ ]. Это **генераторы списков** (list comprehensions) -- конструкция, которая создает список по определенным правилам. И способ сократить простейший цикл for до одной строчки. :)

Возьмем один из рассмотренных выше примеров, где мы хотим выбрать из предложения  сохранить в список только те токены, которые состоят из букв алфавита. Можно записать эту операцию в виде цикла.

In [11]:
sent = "The 3 9-legged cats ARE on the mat"

words = []
for word in sent.split():
    if word.isalpha():
        words.append(word)
        
print(words)

['The', 'cats', 'ARE', 'on', 'the', 'mat']


Приведенный выше код построчно читается как

    words -- это список
    для каждого элемента в строке sent, разбитой по пробелам,
    если слово состоит только из символов алфавита,
    добавь этот элемент в список words

Такая запись хороша тем, что ее очень легко прочитать, но это целых 4 строчки! А можно записать эти 4 строчки в одну, и читаться это будет точно так же.

In [12]:
# записываем результат в переменную, как в примере выше
words = [w for w in sent.split() if w.isalpha()]

# или сразу его печатаем
print([w for w in sent.split() if w.isalpha()])

['The', 'cats', 'ARE', 'on', 'the', 'mat']


В этом примере в генераторе списков спрятан цикл `for` и простое условие `if`, но можно сделать условие более распространенным с помощью `else`. В таком случае сначало должно идти условие, а затем цикл.

In [13]:
words = [ w if w.isalpha() else "Ooops!" for w in sent.split()]
print(words)

['The', 'Ooops!', 'Ooops!', 'cats', 'ARE', 'on', 'the', 'mat']


## Задание

**Удивительная кошка**

_Несчастная кошка порезала лапу- <br>
Сидит, и ни шагу не может ступить.<br>
Скорей, чтобы вылечить кошкину лапу<br>
Воздушные шарики надо купить!<br>
<br>
И сразу столпился народ на дороге-<br>
Шумит, и кричит, и на кошку глядит.<br>
А кошка отчасти идет по дороге,<br>
Отчасти по воздуху плавно летит!<br>_

1. Скопировать текст, сохранить его в переменную. 
2. Узнать длину текста в символах.
3. Очистить текст от пунктуации, используя list compehensions. На выходе должен получиться список слов.
4. Объединить слова из получившегося списка в строку через пробел.
4. С помощью list comprehensions проверить, написано ли слово с большой буквы, и если да, то привести его к нижнему регистру. На выходе должен получиться список из всех слов стихотворения, написанных с маленькой буквы (не только те, которые изначально были с маленькой буквы, а все).
5. Узнать длину текста в словах.
6. Узнать количество уникальных слов.
7. Распечатать последние 10 слов.
8. Посчитать биграммы.
9. Соединить полученный список в строку. Слова в строке должны быть написаны через знак переноса строки. 
10. Распечатать с 20 по 30 символ этой строки (включительно).

In [11]:
# Как писать многострочный текст


poem = """
Удивительная кошка

Несчастная кошка порезала лапу-
Сидит, и ни шагу не может ступить.
Скорей, чтобы вылечить кошкину лапу
Воздушные шарики надо купить!

И сразу столпился народ на дороге-
Шумит, и кричит, и на кошку глядит.
А кошка отчасти идет по дороге,
Отчасти по воздуху плавно летит!
"""

In [12]:
# решение пункта №3 без генератора списков

words = []

for word in poem.split():
    words.append(word.strip("!?.,-"))
    
print(words)

['Удивительная', 'кошка', 'Несчастная', 'кошка', 'порезала', 'лапу', 'Сидит', 'и', 'ни', 'шагу', 'не', 'может', 'ступить', 'Скорей', 'чтобы', 'вылечить', 'кошкину', 'лапу', 'Воздушные', 'шарики', 'надо', 'купить', 'И', 'сразу', 'столпился', 'народ', 'на', 'дороге', 'Шумит', 'и', 'кричит', 'и', 'на', 'кошку', 'глядит', 'А', 'кошка', 'отчасти', 'идет', 'по', 'дороге', 'Отчасти', 'по', 'воздуху', 'плавно', 'летит']


In [13]:
# решение пункта №3 с генератором списков

words = [word.strip("!?.,-") for word in poem.split()]
print(words)

['Удивительная', 'кошка', 'Несчастная', 'кошка', 'порезала', 'лапу', 'Сидит', 'и', 'ни', 'шагу', 'не', 'может', 'ступить', 'Скорей', 'чтобы', 'вылечить', 'кошкину', 'лапу', 'Воздушные', 'шарики', 'надо', 'купить', 'И', 'сразу', 'столпился', 'народ', 'на', 'дороге', 'Шумит', 'и', 'кричит', 'и', 'на', 'кошку', 'глядит', 'А', 'кошка', 'отчасти', 'идет', 'по', 'дороге', 'Отчасти', 'по', 'воздуху', 'плавно', 'летит']


Аннотация некоторой магии (поиск всех слов, в которых не меньше двух букв 'a'):

In [14]:
import re

re.findall("\S*a\S*a\S* ", " hakuna matata ... He found his aroma lacked a certain appeal\
                                             He could clear the savannah after every meal")

['hakuna ', 'matata ', 'aroma ', 'appeal ', 'savannah ']