# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Вещественные числа и строки, методы строк
Социлогия | 1 курс | 3 модуль | Семинар 3

*Автор: Татьяна Рогович, НИУ ВШЭ*

## Вещественные числа
По сути, вещественные числа это десятичные дроби, записанные через точку. Вещественные числа в питоне обозначаются словом float (от "плавающей" точки в них). Также могут быть представлены в виде математической записи: 1/10000 = 1e-05


In [1]:
4.5 + 5

9.5

Если у нас было действие с участие целого и вещественного числа, то ответ всегда будет в виде вещественного числа (см. выше).

Также давайте вспомним про "обычное" деление, в результате которого получается вещественное число.

In [3]:
print(11 / 2)
print(type(11 / 2))
print(11 // 2)
print(type(11 // 2))

5.5
<class 'float'>
5
<class 'int'>


Но что интересно, мы можем использовать целочисленное деление для вещественных чисел (в ответе получим дробь, но дробная часть будет равна нулю). Например, у Васи есть 50 рублей 70 копеек и он считает, сколько пирожков по 20 рублей 60 копеек он сможет купить.

In [6]:
50.70 // 20.60 # Спойлер: всего два. Бедный Вася!

2.0

С вещественными числами нужно быть осторожными со сравнениями. В связи с особенностями устройства памяти компьютера дробные числа хранятся там весьма хитро и не всегда условные 0.2 то, чем кажутся. Это связано с проблемой точности представления чисел.

In [7]:
0.2 + 0.1 == 0.3

False

Наверняка, от такого равенства мы ожидали результат True, но нет. Поэтому будьте аккуратны и старайтесь не "завязывать" работу вашей программы на условия, связанные с вычислением вещественных чисел. Давайте посмотрим, как на самом деле выглядят эти числа в памяти компьютера. Для этого воспользуемся функцией str().

In [12]:
print(str(0.2 + 0.1))
print(str(0.3))

0.30000000000000004
0.3


Если вам совсем не обойтись без такого условия, то можно сделать так: сравнивать не результат сложения и числа, а разность эти двух чисел с каким-то очень маленьким числом (с таким, размер которого будет точно не критичен для нашего вычисления). Например, порог это числа будет разным для каких-то сложных физических вычислений, где важна высокая точность, и сравнения доходов граждан.

In [15]:
0.2 + 0.1 - 0.3 < 0.000001

True

Следующая проблема, с которой можно столкнуться - вместо результата вычисления получить ошибку. Если все написано правильно, то связано это с ограничением выделяемой памяти на хранение вещественного числа.

In [21]:
1.5 ** 100000

OverflowError: (34, 'Result too large')

In [23]:
1.5 ** 1000

1.2338405969061735e+176

А если все получилось, то ответ еще может выглядеть вот так. Такая запись числа называется научной и экономит место - она хранит целую часть числа (мантисса) и степень десятки на которую это число нужно умножить (экспонента). Здесь результатом возведения 1.5 в степень 1000 будет число 1.2338405969061735, умноженное на 10 в степень 176. Понятно, что это число очень большое. Если бы вместо знакак + стоял -, то и степень десятки была бы отрицательная (10 в -176 степени), и такое число было бы очень, очень маленьким.

## Округление вещественных чисел

У нас часто возникает необходимость превратить вещественное число в целое ("округлить"). В питоне есть несколько способов это сделать, но, к сожалению, ни один из них не работает как наше привычное округление и про это всегда нужно помнить.

Большинство этих функций не реализованы в базовом наборе команд питона и для того, чтобы ими пользоваться, нам придется загрузить дополнительную библиотеку math, которая содержит всякие специальные функции для математических вычислений.

In [24]:
import math # команда import загружает модуль под названием math

Модуль math устанавливается в рамках дистрибутива anaconda, который мы скачали, чтобы установить Jupyter Notebook, поэтому его не нужно отдельно скачивать, а можно просто импортировать (загрузить в оперативную память текущей сессии). Иногда нужную библиотеку придется сначала установить на компьютер с помощью команды !pip install -название модуля- и только потом импортировать.

Самый простой способ округлить число - применить к нему функцию int.

In [25]:
int(2.6)

2

Обратите внимание, что такой метод просто обрубает дробную часть (значения выше 0.5 не округляются в сторону большего числа). Похоже себя ведет функция floor из модуля math. Такое округление еще называют окргулением "в пол" (потому что всегда округляется до меньшего ближайшего числа).

In [27]:
print(int(2.6))
print(math.floor(2.6)) # чтобы использовать функцю из дополнительного модуля - 
                        # нужно сначала написать название этого модуля и через точку название функции
print(math.floor(-2.6))

2
2
-3


Округление "в потолок" работает ровно наоброт - округляет до ближайшего большего числа, независимо от значения дробной части.

In [28]:
print(math.ceil(2.6))
print(math.ceil(-2.6))

3
-2


В самом питоне есть еще функция round(). Вот она работает почти привычно нам, если бы не одно "но"...

In [30]:
print(round(2.2))
print(round(2.7))
print(round(2.5)) # внимание на эту строку
print(round(3.5))

2
3
2
4


Неожиданно? Тут дело в том, что в питоне реализованы американские правила округления чисел с вещественной частью 0.5 - такое число округляется до ближайшего четного числа: 2 для 2.5 и 4 для 3.5.

## Замечание по импорту функций
Иногда нам не нужна вся библиотека, а только одна функция из-за нее. Скажите, странно же хранить в опреативной памяти всю "Войну и мир", если нас интересует только пятое предложение на восьмой странице.
Для этого можно воспользоваться импортом функции из библиотеки и тогда не нужно будет писать ее название через точку. Подводный камень здесь только тот, что если среди базовых команд питона есть функция с таким же именем, то она перезапишется и придется перезапускать свой блокнот, чтобы вернуть все как было.

In [32]:
from math import ceil
ceil(2.6) # теперь работает без math.

3

### Задача: цена товара

Цена товара обозначена в рублях с точностью до копеек, то есть действительным числом с двумя цифрами после десятичной точки. Запишите в две целочисленные переменные стоимость товара в виде целого числа рублей и целого числа копеек и выведите их на экран. При решении этой задачи нельзя пользоваться условными инструкциями и циклами.

**Формат ввода**

Вводится неотрицательное действительное число.

**Формат вывода**

Выведите ответ на задачу.

**Примеры**  
Тест 1  
Входные данные:  
10.35  

Вывод программы:  
10 35  

Тест 2  
Входные данные:  
1.99  

Вывод программы:  
1 99  



Тест 3  
Входные данные:  
3.50  

Вывод программы:  
3 50

In [None]:
# решение здесь

### Задача: сложные проценты
Процентная ставка по вкладу составляет P процентов годовых, которые прибавляются к сумме вклада через год. Вклад составляет X рублей Y копеек. Определите размер вклада через K лет.

**Формат ввода**

Программа получает на вход целые числа P, X, Y, K.

**Формат вывода**

Программа должна вывести два числа: величину вклада через K лет в рублях и копейках. Дробное число копеек по истечение года отбрасывается. Перерасчет суммы вклада (с отбрасыванием дробных частей копеек) происходит ежегодно.

**Примеры**  
Тест 1  
Входные данные:  
12  
179  
0  
5  

Вывод программы:  
315 43

Тест 2  
Входные данные:  
13  
179  
0  
100  

Вывод программы:
36360285 50

Тест 3  
Входные данные:  
1  
1  
0  
1000  

Вывод программы:  
11881 92

In [None]:
# решение здесь

## Строки: срезы и методы
Строки (strings) в питоне предназначаются для хранения и отображения текстовой информации. 
Строки представляют собой последовательность символов, которые имеют свой порядок, 
что значит, что питон отслеживает положение каждого элемента строки. Это позволит нам, например, 
удобно индексировать строки. Для создания строки нужно использовать одинарные или двойные кавычки. 
Попробуем создать строку.

In [33]:
s = 'Welcome to Brasil!' # одинарные кавычки
print(s)

s = "Welcome to Brasil!" # Двойные кавычки
print(s)

Welcome to Brasil!
Welcome to Brasil!


Если мы хотим в строке использовать кавычки, например, для какого-то названия, 
то следует использовать разные кавычки для текста внутри строки и для самой страны.

In [34]:
s = 'Welcome to "Brasil!"' # Правильно так
print(s)

Welcome to "Brasil!"


Также можно посчитать длину строки с помощью функции len()

In [35]:
len(s)

20

Строка представляет собой последовательность, а это значит, что мы можем обратиться к любому ее элементу по индексу.
Для выполнения такой операции в питоне используются квадратные скобки [] после объекта. 
В квадратных скобках указывается желаемый индекс. Индексирование начинается с 0.

In [38]:
print(s[0]) # первый элемент
print(s[1]) # второй
print(s[2]) # третий
print(s[-1]) # последний
print(s[-2]) # второй с конца

#Предыдущие действия никак не изменили строку
print(s)

W
e
l
"
!
Welcome to "Brasil!"


Кроме выбора одного элемента с помощью индексирования можно получить подстроку. 
Для этого надо указать индексы границ подстроки через двоеточие. 

Первое число - от какого индекса начинаем, если ничего не написать, то начнем сначала. Второе число (после первого двоеточия) - каким индексом заканчивается срец, если ничего не написать, то питон возьмет последний символ. Третье число (необязательное, после второго двоеточия) - шаг, по умолчанию там стоит 1 (каждая буква).

Таким образом, использовав одно число без двоеточий мы получим один символ. Использовав два числа через двоеточие - срез строки, включая первый индекс и не включая второй (первое число обязательно меньше второго). Использовав три числа через два двоеточих - срез шаги с определенным шагом, заданным третьим числом.

In [39]:
print(s[1:])
print(s[:4]) # четыре первых символа до порядкового номера 4
print(s[:]) # копия строки
print(s[:-1]) # вся строка кроме последнего символа
print(s[::2]) # также можно выбирать символы из строки с каким-то шагом
print(s[::-1]) # например, с помощью шага -1 можно получить строку наоборот

elcome to "Brasil!"
Welc
Welcome to "Brasil!"
Welcome to "Brasil!
Wloet Bai!
"!lisarB" ot emocleW


Стоит заметить, что строка - это неизменяемый объект. Если вдруг вы хотите заменить первую букву строки - ничего не выйдет.

In [40]:
s[1] = 'A'

TypeError: 'str' object does not support item assignment

# Задача: палиндром

Вводится слово. Нужно проверить, является ли слово палиндромом. Если да - программа выводит соответствующее уведомление.

In [41]:
# решение здесь

## Методы строк
Теперь перейдем к задачам поинтереснее. Представьте, что вы маркетолог и вам надо узнать, сколько раз ваша компания была упомянута в новостях на прошлой неделе. Мы можем проверять наличие подстроки в строке с помощью специального слова in.

In [42]:
news = 'Samsung device has exploded again'
print('Samsung' in news)

True


Если бы новостей у нас было много, мы бы могли написать код, который заходил бы в каждую из них и прибавлял бы новость к числу упоминаний, если название компании в ней встречалось бы. Пока мы не умеем работать с типами данных, которые могут содержать в себе несколько строк, поэтому давайте еще раз потренируемся писать цикл while. Предположим, что нам на оценку прилетело пять новостей с утра.

In [45]:
mentions = 0 # переменная, в которой будем считать упоминания
news_number = 1 # счетчик новостей, начинаем работать с первой

while news_number <= 5:
    news = input()
    if 'Samsung' in news:
        mentions += 1
    news_number += 1
    
print(mentions)

4


Обратите внимание, что третья строка, там где было написано samsung с маленькой буквы, не учлась. Напоминаю, что питон чувствителен к регистру. Бороться с этой бедой научимся чуть ниже.

Работая со строками, мы будем использовать очень много методов. Методы отличаются от функций тем, что вызываются от имени переменной через точку. Например news.upper() - метод upper() вызывается от строковой переменной news. По сути методы, это функции, которые применимы только к особому типу данных. Так, например, функция print() напечатает все, что бы мы ей не передали, а перевод к верхнему регистру (а именно это делает метод upper()) ни с одним типом данных кроме строки уже не сработает.

In [83]:
print(news.upper()) # приводит строку к верхнему регистру
print(news.lower()) # приводит строку к нижнему регистру

SAMSUNG SHARES GO UP
samsung shares go up


Обратите внимание, что метод, как правило, не изменяет объект и наша строка осталась такой как была.

In [47]:
news

'Samsung shares go up'

Мы с вами рассмотрим самые основные методы работы со строками, которые уже позволят нам решать интересные задачки.

**find()**  
Метод find() возвращает индекс вхождения символа в строку (или индекс первого символа подстроки в строке, если мы ищем подстроку). Зная индекс первого элемента, мы можем достать интересующую нас информацию.

Например, мы скачали с сайта информацию о цене нового планшета и хотим достать оттуда собственно цену. Мы знаем, что цена идет после подстроки "ЦЕНА:" и что после самой цены идет постфикс руб.

In [58]:
info = 'iPad 64 GB ЦЕНА: 39 990 руб. Скидка: 5%'
print(info.find('ЦЕНА:')) # нашли индекс Ц - начала подстроки "ЦЕНА:"
print(info.find('руб.')) # нашли индекс р
price = info[info.find('ЦЕНА:')+6:info.find('руб.')-1] # вывели срез от от начала до конца цены (с помощью
                                               # слогаемых 6 и -1 нашли индексы именно начала и конца цены)
print(price)

11
24
39 990


Кстати, если в строке нет искомой подстроки, то выведется -1. Это не значит, что первый символ находится на последнем месте, это значит, что такой подстроки в строке не встречается.

In [61]:
info.find('Samsung')

-1

А если подстрока входит в строку несколько раз, то find() вернет индекс только для первого вхождения.

In [63]:
info.find('9')

18

Есть модификация метода find(): rfind(substring) - возвращает позицию самого правого вхождения подстроки substring в строку string или -1, если подстрока не найдена. 

In [65]:
info.rfind('9')

21

Отлично! Нашли цену и с ней уже почти можно работать (например, мы хотим что-то считать). Но пробел в середине не даст нам сделать из нее целое число. Тут на помощь приходит метод **replace()**. С помощью него мы можем заменить символ или подстроку в строке. Метод принимает два аргумента - что меняем и на что меняем.

In [60]:
print(price.replace(' ', '')) # меняем пробел на "ничего"
int(price.replace(' ', '')) * 2 # ура! теперь можно перевести цену в int и узнать, сколько стоят два планшета

39990


79980

Метод replace() заменяет все вхождения, если мы не укажем ограничение специальным третьим аргументом, который как раз ограничивает количество замен.

In [67]:
print(price.replace('9', '1'))
print(price.replace('9', '1', 2))

31 110
31 190


Рассмотрим следующую задачу: у нас есть строка, в которой собраны данные ответа на вопрос 
о качестве оказанной услуги. Каждый ответ отделен точкой с запятой от следующего. 
Требуется напечатать каждый ответ на новой строке.

In [86]:
s = 'Хорошо;Удовлетворительно;Можно было и лучше;И так сойдет;Восхитительно!'

while len(s) > 0:
    idx = s.find(';')
    if idx == -1:
        print(s)
        s = ''
    else:
        print(s[:idx])
        s = s[idx+1:]

Хорошо
Удовлетворительно
Можно было и лучше
И так сойдет
Восхитительно!


### Задача: удаление фрагмента

Дана строка, в которой буква h встречается минимум два раза. Удалите из этой строки первое и последнее вхождение буквы h,а также все символы, находящиеся между ними.

**Формат ввода**

Вводится строка.

**Формат вывода**

Выведите ответ на задачу.

**Примеры**
Тест 1  
Входные данные:  
In the hole in the ground there lived a hobbit

Вывод программы:  
In tobbit

Тест 2  
Входные данные:  
qwertyhasdfghzxcvb

Вывод программы:  
qwertyzxcvb

Тест 3  
Входные данные:  
asdfghhzxcvb

Вывод программы:  
asdfgzxcvb



In [64]:
# решение здесь

### Задача: второе вхождение
Дана строка. Найдите в этой строке второе вхождение буквы f и выведите индекс этого вхождения. Если буква f в данной строке встречается только один раз, выведите число -1, а если не встречается ни разу, выведите число -2. При решении этой задачи нельзя использовать метод count.

**Формат ввода**

Вводится строка.

**Формат вывода**

Выведите ответ на задачу.

**Примеры**

Тест 1  
Входные данные:  
comfort  

Вывод программы:  
-1



Тест 2  
Входные данные:  
coffee  

Вывод программы:  
3



Тест 3  
Входные данные:  
qwerty  

Вывод программы:  
-2

In [68]:
# решение

## Задача: переставить слова
Дана строка, состоящая ровно из двух слов, разделенных пробелом. Переставьте эти слова местами. Результат запишите в строку и выведите получившуюся строку. При решении этой задачи нельзя пользоваться циклами и инструкцией if.

**Формат ввода**

Вводится строка.

**Формат вывода**

Выведите ответ на задачу.

**Примеры**
Тест 1  
Входные данные:  
Hello, world!

Вывод программы:  
world! Hello,

Тест 2  
Входные данные:  
A B

Вывод программы:  
B A

Тест 3  
Входные данные:  
Q WERRTYUIOP

Вывод программы:  
WERRTYUIOP Q

In [69]:
# решение

Конечно, это не все. У строк есть еще множестве методов, которые позволяют искать паттерны и как-то их редактировать. Методы **startswith()** и **endswith()** проверяют, стоит ли искомая построка в начале или в конце строки.

In [70]:
print(s)
print(s.startswith('W')) # данный метод проверяет, оканчивается ли исходная строка на данную подстроку

Welcome to "Brasil!"
True


Пусть у нас есть отзыв посетителя о кафе. Мы заранее знаем, что пользователь 
для отзыва выбирает только последнее слово из предложенных двух: 'good', 'bad'. 
Попробуем оценить, остался ли доволен клиент.

In [72]:
feedback = 'This place was bad.' # сам отзыв

if feedback.endswith('bad.'): # если строка заканчивается на 'bad'
    print('Client was disappointed') # то клиент расстроен
else:
    print('Client was satisfied') # иначе - клиенту все понравилось

Client was disappointed


Теперь усложним задачу. Что если слово находится не в конце предложения? Попробуем его найти!


In [75]:
feedback2 = 'This place was bad enough'

if feedback2.find('bad') != -1: 
    print('Client was disappointed') # то клиент расстроен
else:
    print('Client was satisfied') # иначе - клиенту все понравилось

Client was disappointed


Метод **strip()** (и его собратья **lstrip()** и **rstrip()**, работающие только с одной стороны) удаляет незначимые символы (пробелы, табуляцию и т.д.) с краев строк. Очень полезный метод, когда мы собираем информацию из интернета. Если этим методам передать аргумент, то они удалят подстроку.

In [81]:
print(' 135133   '.strip())
print('ruhse.ru'.strip('ru'))
print('ruhse.ru'.lstrip('ru'))
print('ruhse.ru'.rstrip('ru'))

135133
hse.
hse.ru
ruhse.


Теперь научимся считать количество вхождений подстроки в строку с помощью метода **count()**


In [84]:
s = "Mushroooom soup" # исходная строка
print(s.count("O")) # ищем заглавную букву О, не находим
print(s.count("o")) # ищем строчную букву о, находим 5 штук
print(s.count("oo")) # ищем две буквы о подряд, находим две таких подстроки
print(s.count("ooo")) # ищем три букв о подряд, находим одно такое вхождение
print(s.count("push")) # ищем подстроку 'push', не находим
print(s.count("o", 4, 7)) # ищем букву о в s[4:7]
print(s.count("o", 7)) # ищем букву о в s[7:]

0
5
2
1
0
2
3


Отдельное семейство методов строк отвечает за проверку на соответствие условиям.

In [89]:
# isalpha - проверяет, что все символы строки являются буквами.
print('Ask me a question!'.isalpha())
print('Ask'.isalpha())

# isdigit - проверяет, что все символы строки являются цифрами.
print('13242'.isdigit())

# isalnum - проверяет, что все символы строки являются буквами или цифрами.
print('Ask me a question!'.isalnum())
print('Ask232'.isalnum())

# islower - проверяет, что все символы строки являются маленькими (строчными) буквами.
print('ssk me a question!'.islower())

# isupper - проверяет, что все символы строки являются большими (заглавными, прописными) буквами.
print('ssk me a question!'.isupper())

False
True
True
False
True
True
False


Может возникнуть вопрос: а зачем нам проверять, из каких символов состоит строка? Ведь даже, если строка состоит из цифр, числом она автоматически не станет. Давайте рассмотрим две ситуации, в которых очень полезно знать, какие символы входят в нашу строку.

**Ситуация**

Пользователь должен придумать пароль для своей учетной записи. Пароль должен состоять только из цифр и букв.

In [95]:
password = input("Введите пароль: ")

if password.isalnum() == False:
    print("Пароль должен состоять только из букв и цифр!")

Пароль должен состоять только из букв и цифр!


А теперь давайте усложним и добавим проверку на то, что хотя бы одна буква должна быть заглавная.

In [96]:
password = input("Введите пароль: ")

if password.isalnum() == False:
    print("Пароль должен состоять только из букв и цифр!")
if password.islower() == True:
    print("Пароль должен содержать и заглавные, и строчные буквы!")

Пароль должен содержать и заглавные, и строчные буквы!


### Задача: вставка символов
Дана строка. Получите новую строку, вставив между каждыми двумя символами исходной строки символ *. Выведите полученную строку.

**Формат ввода**

Вводится строка.

**Формат вывода**

Выведите ответ на задачу.

Примеры  
Тест 1  
Входные данные:  
Python

Вывод программы:  
P*y*t*h*o*n 

Тест 2  
Входные данные:  
Hello

Вывод программы:  
H*e*l*l*o

Тест 3  
Входные данные:  
A

Вывод программы:  
A

In [97]:
# решение здесь