# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Методы строк и списков

*Автор: Татьяна Рогович, Александра Краснокутская, НИУ ВШЭ*

### Методы строк

**https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html**

Методы строк позволяют нам обрабатывать текст и осуществлять поиск по условиям. В этом блокноте познакомимся с самыми популярными методами, которые чсто пригождаются в работе.

Например `news.upper()` — метод `.upper()` вызывается от строковой переменной `news`. По сути методы, это функции, которые применимы только к особому типу данных. Так, например, функция `print()` напечатает все, что бы мы ей не передали, а перевод к верхнему регистру (а именно это делает метод `.upper()`) ни с одним типом данных кроме строки уже не сработает.

In [None]:
news = 'Samsung releases new device'
print(news.upper()) # Приводит строку к верхнему регистру
print(news.lower()) # Приводит строку к нижнему регистру

SAMSUNG RELEASES NEW DEVICE
samsung releases new device


Обратите внимание, что строковый метод, как правило, не изменяет объект и наша строка осталась такой как была.

In [None]:
news

'Samsung releases new device'

У строк есть множество методов, которые позволяют искать паттерны и как-то их редактировать. Методы `.startswith()` и `.endswith()` проверяют, стоит ли искомая построка в начале или в конце строки.

Пусть у нас есть отзыв посетителя о кафе. Мы заранее знаем, что пользователь для отзыва выбирает только последнее слово из предложенных двух: 'good', 'bad'. Попробуем оценить, остался ли доволен клиент.

In [None]:
feedback = 'This place was bad' # Сам отзыв

if feedback.endswith('bad'): # Если строка заканчивается на 'bad'
    print('Client was disappointed') # то клиент расстроен
else:
    print('Client was satisfied') # иначе  — клиенту все понравилось

Client was disappointed


Теперь усложним задачу. Что если слово находится не в конце предложения? Попробуем его найти!

In [None]:
feedback2 = 'This place was bad enough'

if feedback2.find('bad') != -1: 
    print('Client was disappointed') # то клиент расстроен
else:
    print('Client was satisfied') # иначе  — клиенту все понравилось

Client was disappointed


Метод `.strip()` (и его собратья `.lstrip()` и `.rstrip()`, работающие только с одной стороны строки, удаляет незначимые символы (пробелы, табуляцию и т.д.) с краев строк. Очень полезный метод, когда мы собираем информацию из интернета. Если этим методам передать аргумент, то они удалят подстроку.

In [None]:
print(' 135133   '.strip())    # удалили пробельные символы слева и справа
print('ruhse.ru'.strip('ru'))  # Удалили ru с обеих сторон
print('ruhse.ru'.lstrip('ru')) # Удалили ru слева
print('ruhse.ru'.rstrip('ru')) # Удалили ru справа

135133
hse.
hse.ru
ruhse.


В реальности `.strip()` часто используется для нормализации email'ов или дргуих идентификторов.

In [None]:
print('      pileyan@gmail.com       '.strip())

pileyan@gmail.com


Также мы можем заменять символы в строке, с помощью метода `.replace()`, который берет два аргумента — что заменяем и на что заменяем. Есть еще опциональный третий аргумент — количество замен, которые нужно сделать.

In [None]:
print('39 000'.replace('0', '9'))    # Заменяем все нули на девятки
print('39 000'.replace('0', '9', 1)) # Заменяем только первый найденный нуль
print('39 000'.replace('0', '9', 2)) # Заменяем только два первых найденных нуля

39 999
39 900
39 990


Теперь научимся считать количество вхождений подстроки в строку с помощью метода `.count()`.

In [None]:
s = "Mushroooom soup"     # Исходная строка
print(s.count("O"))       # Ищем заглавную букву О, не находим
print(s.count("o"))       # Ищем строчную букву о, находим 5 штук
print(s.count("oo"))      # Ищем две буквы о подряд, находим две таких подстроки
print(s.count("ooo"))     # Ищем три букв о подряд, находим одно такое вхождение
print(s.count("push"))    # Ищем подстроку 'push', не находим
print(s.count("o", 4, 7)) # Ищем букву о в s[4:7]
print(s.count("o", 7))    # Ищем букву о в s[7:]
print(s.count("o", 0, 3)) # Ищем букву о в s[0:3]

0
5
2
1
0
2
3
0


Отдельное семейство методов строк отвечает за проверку на соответствие условиям.

In [None]:
# isalpha  — проверяет, что все символы строки являются буквами.
print('Ask me a question!'.isalpha())
print('Ask'.isalpha())

# isdigit  — проверяет, что все символы строки являются цифрами.
print('13242'.isdigit())

# isalnum  — проверяет, что все символы строки являются буквами или цифрами.
print('Ask me a question!'.isalnum())
print('Ask232'.isalnum())

# islower  — проверяет, что все символы строки являются маленькими (строчными) буквами.
print('ask me a question!'.islower())

# isupper — проверяет, что все символы строки являются большими (заглавными, прописными) буквами.
print('Ask me a question!'.isupper())

False
True
True
False
True
True
False


На этом методы строк не заканчиваются) Например, можно менять регистр букв или переводить в верхний регистр первые буквы слов.

In [None]:
# title — переводит первую букву всех слов к верхнему регистру
print('ask me a question!'.title())

# swapcase — меняет регистр на противоположный
print('ask me a question!'.swapcase())

Метод строки `.split()` получает на вход строку-разделитель и возвращает список строк, разбитый по этому разделителю.

По умолчанию метод разбивает строку по пробелу.

In [None]:
print('Hello darkness my old friend'.split())
print('Hello    darkness  my old     friend'.split()) # несколько разделителей подряд? не беда, они будут прочитаны как один

['Hello', 'darkness', 'my', 'old', 'friend']
['Hello', 'darkness', 'my', 'old', 'friend']


In [None]:
print('Ночь. Улица. Фонарь. Аптека'.split('. '))

['Ночь', 'Улица', 'Фонарь', 'Аптека']


Также можно совмещать `.split()` с `input()`.

In [None]:
L = input().split(', ')
print(L)

### Методы списков и функция `map()`

**https://pythonworld.ru/tipy-dannyx-v-python/spiski-list-funkcii-i-metody-spiskov.html**

Способ расширить список — метод `.append()`, который добавляет аргумент в список в качестве последнего элемента.

In [None]:
lst = [0, 10, 2, 3, 4, 'cat', 'dog']

lst.append(5)
print(lst)


lst += [5] # Эквивалентное append выражение
print(lst)

[0, 10, 2, 3, 4, 'cat', 'dog', 5]
[0, 10, 2, 3, 4, 'cat', 'dog', 5, 5]


Удалить элемент из списка можно с помощью метода `.remove()` (без возвращения удаленного элемента) или `.pop()` (с возвращением удаленного элемента).

In [None]:
lst.remove('cat') # Аргумент — объект, который ходим удалить
print(lst)

[0, 10, 2, 3, 4, 'dog', 5, 5]


In [None]:
x = lst.pop(1) # Аргумент — индекс объекта. Результат операции можно сохранить в переменную
print(lst)
print(x)

[0, 2, 3, 4, 'dog', 5, 5]
10


Поиском в списках занимается метод `.index()`, который вернет индекс объекта, переданного в качестве аргумента.

In [None]:
print(lst.index('dog'))      # Находим индекс объекта 'dog'
print(lst[lst.index('dog')]) # Используем метод, возвращающий индекс, для обращения к объекту

4
dog


Можно совместить его с методом `.pop()`.

In [None]:
x = lst.pop(lst.index('dog'))
print(lst)
print(x)

[0, 2, 3, 4, 5, 5]
dog


Если говорить еще о полезных методах, то это `.count()`, который подсчитывает количество элементов и `.reverse()`, который разворачивает список. Ниже еще отдельно поговорим о сортировке.

In [None]:
print(lst.count('dog')) # Считаем количество 'dog' в списке
lst.reverse()           # Разворачиваем список. Осторожно — метод меняет список!
print(lst)

0
[5, 5, 4, 3, 2, 0]


Отдельно следует рассказать про метод `.sort()`. Метод производит сортировку списка. Задачи сортировки — очень распространены в программировании. В общем случае, они сводятся к выстроению элементов списка в заданном порядке. В Python есть встроенные методы для сортировки объектов для того, чтобы программист мог не усложнять себе задачу написанием алгоритма сортировки. Метод `.sort()` — как раз, один из таких случаев.

In [None]:
test_list = [5, 8, 1, 4, 3, 7, 2]
print(test_list)  # Элементы списка расположены в хаотичном порядке
test_list.sort()
print(test_list)  # Теперь элементы списка теперь расположены по возрастанию

[5, 8, 1, 4, 3, 7, 2]
[1, 2, 3, 4, 5, 7, 8]


Таким образом, метод `.sort()` упорядочил элементы списка `test_list`. Если нужно отсортировать элементы в обратном порядке, то можно использовать именнованный параметр `reverse`.

In [None]:
test_list.sort(reverse=True)  # Параметр reverse указывает на то, что нужно отсортировать список в обратном порядке
print(test_list)

[8, 7, 5, 4, 3, 2, 1]


Следует обратить внимание, что метод `.sort()` изменяет сам список, на котором его вызвали. Таким образом, при каждом вызове метода `.sort()`, наш список `test_list` изменяется. Это может быть удобно, если нам не нужно держать в памяти исходный список. Однако, в противном случае, или же — в случае неизменяемого типа данных (например, кортежа или строки) — этот метод не сработает. В таком случае, на помощь приходит встроенная в питон функция `sorted()`.

In [None]:
print(sorted(test_list))  # Сам список при сортировке не изменяется

[1, 2, 3, 4, 5, 7, 8]


Так как `sorted()` функция, а не метод, то будет работать и с другими типами данных.

In [None]:
print(sorted('something')) # Отсортирует буквы в строке, но выведет список
print(''.join(sorted('something'))) # С помощью метода join можно собрать отсортированную строку, чуть ниже подробнее про него

['e', 'g', 'h', 'i', 'm', 'n', 'o', 's', 't']
eghimnost


У функции `sorted()`, как и у метода `.sort()` есть параметр `key`, с помощью которого можно указать функцию, которая будет применена к каждому элементу последовательности при сортировке.

In [None]:
test_string = 'A string With upper AND lower cases'
print(sorted(test_string.split())) # Заглавные буквы получили приоритет над строчными
print(sorted(test_string.split(), key=str.upper)) # Все буквы были приведены к верхнему регистру, сортировка получилась по алфавиту

['A', 'AND', 'With', 'cases', 'lower', 'string', 'upper']
['A', 'AND', 'cases', 'lower', 'string', 'upper', 'With']


Функция `map()` берет функцию и последовательность и применяет эту функцию ко всем ее элементам (`map()` всегда будет ожидать от вас два аргумента).

Обратите внимание, чтобы увидеть результат работы этой функции надо дополнительно вручную преобразовать в список (или в кортеж, в зависимости от ваших целей).

In [None]:
print(map(str, [9, 0, 8, -288, 998, 0])) # не совсем то, что надо
print(list(map(str, [9, 0, 8, -288, 998, 0]))) # а теперь работает, каждое число преобразовалось в логическую переменную

<map object at 0x000001CF223EDA20>
['9', '0', '8', '-288', '998', '0']


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем - попытайтесь сделать их дома сами.

### Задание 1. Пароль

Пусть программа просит пользователя ввести пароль. Ваш код должен проверять, что код состояит ровно из 10 символов и состоит только из букв. Если эти условия соблюдены, то программа выводит фразу "Пароль принят", в противном случае — "Попробуйте ввести пароль снова".

**ФОРМАТ ВВОДА**

+ Строка.

**ФОРМАТ ВЫВОДА**

+ Строка "Пароль принят" или "Попробуйте ввести пароль снова".

**ПРИМЕР**

Входные данные:  
qweABCjoHn   
Вывод программы:  
Пароль принят

In [None]:
password = input()

if len(password) == 10 and password.isalpha():
    print('Пароль принят')
else: 
    print('Попробуйте ввести пароль снова')

пролджтиар
Пароль принят


### Задание 2. Диета

Петя решил придерживаться новой диеты - есть на ужин только продукты, названия которых имеют определенную длину и начинаются с определенной буквы. Помогите Пете определить, чем можно поужинать в рамках новой диеты. На вход подается список продуктов через запятую. На выходе программа выдает только те продукты, которые можно есть Пете, а если таких продуктов нет, пишет "Нужно идти в магазин".

**ФОРМАТ ВВОДА**

+ Строка с названиями продуктов через запятую и пробел.

+ Буква.

+ Число.

+ Каждый ввод с новой строки.

**ФОРМАТ ВЫВОДА**

+ Строка типа "Сегодня Петя может съесть на ужин следующие продукты: " и перечисление продуктов через запятую (см. пример), либо строка "Нужно идти в магазин."


**ПРИМЕР**

Входные данные:  
бананы, яблоки, малина, молоко, батон, морковь   
м  
6

Вывод программы:  
Сегодня Петя может съесть на ужин следующие продукты: малина, молоко.



In [None]:
products = input().split(', ') 
letter = input() 
number = int(input())  
products_new = []  
for i in products:     
    if i[0] == letter and  len(i) == number:                  
        products_new.append(i)          
if len(products_new) == 0:     
    print('Нужно идти в магазин.') 
else:     
    print('Сегодня Петя может съесть на ужин следующие продукты:', ', '.join(products_new) + '.')

орехи
д
5
Нужно идти в магазин.


### Задание 3. Волшебные палочки
Менеджер магазина волшебных палочек Олливандера проверяет работоспособность магической системы учета проданных палочек. Выборочно он записывает информацию о проданных волшебных палочках в виде списка, содержащего фамилию и имя владельца, год приобретения и материал, из которого изготовлена палочка. Записи вводятся до тех пор, пока менеджер не введет слово "Конец".  Иногда владелец магазина, Олливандер, хочет вспомнить всех, кто покупал у него палочку в определенный год. Если никто не купил палочку в указанный год, то выводится фраза: "В этот год никто не покупал волшебные палочки".

**ФОРМАТ ВВОДА** 

+ Строки типа "ИФ владельца, год, материал".

+ Год.

+ Каждый с новой строки.

**ФОРМАТ ВЫВОДА**

+ Строка типа "В xxxx году волшебную палочку купили:" и перечисление ИФ тех, кто купил волшебную палочку, а также уточнение материала, из которого она изготовлена (см. пример).


**ПРИМЕР**

Входные данные:  
+ Долорес Амбридж, 1957, береза
+ Гермиона Грейнджер, 1989, виноградная лоза  
+ Седрик Диггори, 1985, ясень
+ Невилл Долгопупс, 1989, вишневое дерево
+ Конец  
+ 1989

Вывод программы:  
"В 1989 году волшебную палочку купили: Невилл Долгопупс (материал - вишневое дерево), Гермиона Грейнджер (материал - виноградная лоза)".

In [None]:
item = input().split(', ')

wizard_list = []

while item != ['Конец']:
    wizard_list.append(item)
    
    item = input().split(', ')
    
year = int(input())

test_system = []

for i in wizard_list:
    if int(i[1]) == year:
        test_system.append(f'{i[0]} (материал - {i[2]})')


if len(test_system) == 0:
    print('В этот год никто не покупал волшебные палочки.')
else:
    print(f'В {year} году волшебную палочку купили:', ', '.join(test_system) + '.')

Долорес Амбридж, 1957, береза
Гермиона Грейнджер, 1989, виноградная лоза
Седрик Диггори, 1985, ясень
Конец
1989
В 1989 году волшебную палочку купили: Гермиона Грейнджер (материал - виноградная лоза).
