# Основы работы с количественными данными

*Алла Тамбовцева*

## Лекция 1. Введение в Python

* Базовые арифметические операции
* Функции и импорты
* Особенности работы с дробными числами
* Переменные и присваивание
* Проверка условий

### Базовые арифметические операции

Выполнение операций в Python происходит благодаря **операторам** или **функциям**. На **операторы** можно смотреть как на специальные символы, отвечающие за определённые действия. Начнём с простых арифметических операций.

Базовые операции выполняются с помощью операторов, знакомых всем по работе с калькуляторами:

* операторы `+` и `-` для сложения и вычитания;
* операторы `*` и `/` для умножения и деления.

Посмотрим на пример:

In [3]:
50 + 10 * 20

250

Python, как и другие языки программирования, не чувствителен к пробелам, поэтому выражение выше можно было бы записать и без пробелов вокруг операторов, но по стандартам оформления кода такой вариант считается менее предпочтительным (вообще в Python много «эстетических» принципов, которые направлены на то, чтобы код выглядел понятно, аккуратно и единообразно):

In [4]:
50+10*20

250

Порядок действий при вычислениях такой же, как и в математике, поэтому при необходимости его изменения пригодятся скобки:

In [5]:
(50 + 10) * 20

1200

При делении результат всегда получается в виде дробного числа (числа с плавающей точкой), даже если результат целочисленный:

In [6]:
20 / 7 # разделитель – точка, не запятая

2.857142857142857

In [7]:
20 / 5

4.0

Если нужен ответ в виде целого числа, можно воспользоваться оператором целочисленного деления `//`:

In [8]:
20 // 5

4

Если ответ дробный, то в результате просто отбрасывается дробная часть (работает как округление в меньшую сторону):

In [9]:
20 // 7

2

Для возведения в степень используется оператор `**`:

In [10]:
4 ** 3

64

In [11]:
5 ** 0.5 # квадратный корень - степень 0.5

2.23606797749979

### Функции и импорты

Для более сложных операций в Python используются функции. **Функции** – это своего рода команды, которые выполняют определённые операции. Как и у функций в математике, у функций в Python есть **аргумент** – то, к чему эту функцию необходимо применить, чтобы получить результат. Аргумент указывается в круглых скобках после названия функции, таков синтаксис Python. 

Например, для вывода результата на экран используется функция `print()`:

In [12]:
# число 10 превратилосьь в текст, он напечатался одной строкой
# слева от ячейки нет Out

print(20 - 10)

10


Аргументов у функции может быть несколько. Тогда они перечисляются в круглых скобках через запятую. По умолчанию функция `print()` объединяет все части, которые ей подаются на вход через запятую, с помощью пробела и выводит полученное сообщение на экран:

In [13]:
print(20 - 10, 20 + 10)
print("Сумма:", 30 + 50)
print("Произведение:", 30 * 50)
print("S", "O", "S")

10 30
Сумма: 80
Произведение: 1500
S O S


Однако при желании разделитель можно изменить, добавив дополнительный аргумент `sep` (от *separator*):

In [14]:
print("01", "09", "2024", sep = "-")
print("user", 123, sep = "_")
print("S", "O", "S", sep = "") # пустая строка в sep

01-09-2024
user_123
SOS


Возвращаясь к операциям с числами, посмотрим на функцию `round()` для окруления. По умолчанию она производит обычное арифметическое округление до целых:

In [15]:
round(20.576)

21

Но здесь тоже можно добавить дополнительный аргумент – до какого числа знаков после точки необходимо округлять:

In [16]:
round(20.576, 2) # до сотых

20.58

In [17]:
round(20.576, 1) # до десятых

20.6

Почему в данном случае мы не указали название аргумента, как мы делали с `sep` в `print()`? Ответ простой – аргумент единственный, название необязательно. А как узнать, какие аргументы есть у функции? Запросить помощью через `help()`:

In [18]:
help(round)

Help on built-in function round in module builtins:

round(number, ndigits=None)
    Round a number to a given precision in decimal digits.
    
    The return value is an integer if ndigits is omitted or None.  Otherwise
    the return value has the same type as the number.  ndigits may be negative.



Функции `print()` и `round()`, которые мы рассмотрели – **базовые**. Это означает, что для их использования не нужно подгружать специальные наборы функций, можно просто написать их названия и запускать код. Но часто этих функций не хватает для полноценной работы, особенно если речь идёт о работе с данными. Поэтому возникает необходимость в **модулях** и **библиотеках** – наборах функций, которые служат для решения конкретной группы задач. Модуль обычно меньше библиотеки, а библиотека состоит из нескольких модулей, каждый из которых выполняет определённый набор действий. 

Чтобы использовать функции из определенной библиотеки или модуля, её сначала нужно импортировать. Иначе Python не поймет, откуда ему эту команду брать, и выдаст ошибку. Например, в модуле `math` для базовых математических операций есть функция `sqrt()` для извлечения квадратного корня. Попробуем её использовать без импорта:

In [19]:
sqrt(9) # ошибка!

NameError: name 'sqrt' is not defined

Ошибка `NameError` – Python пишет, что `sqrt` не определено. Такое возможно в двух случаях:

* такой функции действительно нет, мы опечатались;
* такая функция есть, но она «спрятана» в библиотеке.

Наш случай – второй, поэтому давайте импортируем модуль `math`.

In [20]:
import math

Теперь из `math`, про который Python уже знает, вызовем функцию `sqrt()`:

In [21]:
math.sqrt(9) # работает

3.0

В модуле `math` много разных функций, но далеко не все из них нам активно пригодятся. Jupyter Notebook и Google Colab позволяют получить подсказки по содержанию модуля: если напечатать `math.` и после точки нажать на кнопку *Tab* на клавиатуре, откроется выпадающий список доступных функций.

Посмотрим на функции `ceil()` и `floor()` для округления в большую и меньшую сторону соответственно (от *ceiling* – потолок и *floor* – пол):

In [22]:
print(math.ceil(25.5))
print(math.floor(25.5))

26
25


In [23]:
math.log(8, 2) # логарифм 8 по основанию 2

3.0

In [24]:
math.log(5) # логарим 5 по основанию e (натуральный логарифм)

1.6094379124341003

In [25]:
math.log(1000, 10) # логарифм 1000 по основанию 10

2.9999999999999996

В последнем примере что-то пошло не так: по идее ответ должен быть равен ровно числу 3, так как 10 в кубе – это тысяча. Здесь мы сталкиваемся с **проблемой представления**. О ней мы сейчас поговорим, а пока выйдем из положения – воспользуемся функцией `log10()`, которая даст корректный ответ:

In [26]:
math.log10(1000) # 10 в степени 3 равно 1000

3.0

### Особенности работы с дробными числами

Чтобы понять, что такое проблема представления, с которой мы столкнулись выше, возьмём пример попроще. Посмотрим на округление числа 3.525 до сотых:

In [27]:
round(3.525, 2)

3.52

Получили странный результат, поскольку при обычном арифметическом округлении ожидается результат 3.53. Эти странности связаны с тем, что число, которое мы видим, не совпадает с тем, которое хранится в компьютере (так называемая «проблема представления», возникающая из-за конфликта Python и архитектуры системы при преобразовании чисел из десятичной системы в двоичную и обратно). Чтобы понять, как Python видит число 3.525 при обработке, обратимся к модулю `decimal`:

In [28]:
import decimal
decimal.Decimal(3.525)

Decimal('3.524999999999999911182158029987476766109466552734375')

Такое число будет законно округляться до 3.52 по правилам арифметического округления. Такая же проблема возникла ранее и с логарифмом, поскольку функция `log()` настроена на работу с дробными числами. А в функции `log10()` эта проблема уже скорректирована.

С одной стороны, полезно помнить, что числа с плавающей точкой не рекомендуется использовать в финансовых вычислениях и вообще в вычислениях, требующих высокой точности, поскольку они «накапливают ошибку», то есть могут давать неточные результаты. С другой стороны, важно понимать, что эта проблема решаема. Вместо того чтобы использовать дробные числа в виде чисел с плаващей точкой «как есть», можно вопользоваться тем же модулем `decimal` или модулем `fractions`, если речь идёт об обычных дробях. Но мы углубляться в такие тонкости не будем. 

С какими ещё особенностями можно столкнуться при работе с дробными числами? С **компьютерной записью числа** (она же научная):

In [29]:
1 / 25 ** 8

6.5536e-12

Результат выше – компьютерная форма экспоненциальной записи числа. Здесь `e-12` – это $10^{-12}$, а вся запись означает 
$6.5536 * 10^{-12}$, то есть примерно 0. Эта форма записи объясняет, почему дробные числа в Python называются **числами с плавающей точкой** (от *floating point numbers*). Мы можем представить дробное число в виде произведения какой-то дроби и числа 10, возведённого в какую-то степень. Так, число выше, это и $6.5536 * 10^{-12}$, и $0.65536 * 10^{-11}$, и $65.536 * 10^{-13}$. Получается, точка, которая отделяет дробную часть от целой, «плавает», однако само число не меняется, так как степень десятки обязательно корректируется.

Теоретически, если число было очень большим, `e` стояло бы в положительной степени. Но в Python такое не случается, обычно он выводит огромные числа, просто переходя на новую строку, если места на одной не хватает:

In [30]:
23 ** 990

1289904795722524852300664653946433572197941130104134088478189930383101076502744219639659417064279093437500724657867718280363659016416181923552335933421079599787731352623013818688037376821636356298471193060683439063568388956706601750163828629545445022359292138002524361265592997289185467008900595878230131374891925740927099907644385574371712931640134380964875519021338743237009960351798990591785901330234187832132594157031508869823418944411036223721421784688413593595239909735242752185287762072502162693811343723284822605812833452885992267779219869756802170805925667519108800646706974810901481745137595259834979091153560765179649358449388942743557094050235977330162288125989098383992641123256017473945558974138807380552944666746150516911066016176584327355762384321949080570879109260247597464891633632925375455033171650232736541688999821214785702033094236827743042780438506654627194341368995082202093140059324504630375861097394388223559274979429315506000963668011991635894787947288278280887007622963549

### Переменные и присваивание

В Python, вне зависимости от того, с чем мы работаем (с отдельными числами, с набором чисел, с таблицами), интересующие нас объекты имеет смысл сохранять в переменные.

На переменную можно смотреть как на контейнер, в который можно «положить» любой объект, чтобы потом удобным образом обратиться к нему по короткому названию. Например, мы можем сохранить в переменные `x` и `y` числа 2 и 3, а затем, не переписывая сами числа, производить с ними любые манипуляции:

In [31]:
x = 2
y = 3

In [32]:
print((x * y) / (x + y))
print(x // y, y // x)

1.2
0 1


Если мы хотим изменить значение переменной, мы можем перезаписать его ещё раз через оператор присваивания `=`:

In [33]:
x = 10
print(x, y)

10 3


Кроме того, можно взять уже сохранённое в переменной значение и «отредактировать» его, например, увеличить или уменьшить:

In [34]:
x = x * 2
print(x)

20


In [35]:
x = x - 1
print(x)

19


Названия переменных в Python могут быть почти любыми. Три общих правила: название переменной не должно начинаться с цифры, в названии не должно быть пробелов, название не должно совпадать со служебными (зарезервированными) словами в Python. Список зарезервированных слов можно узнать так:

In [36]:
import keyword
print(keyword.kwlist)

['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']


Обычно рекомендуется давать переменным осмысленные названия: если речь идёт о доходе, называть переменную не `x`, а `income`, если речь идёт о данных по преступности, сохранять таблицу в переменную `crimes`, и так далее.

### Проверка условий

Сохраним в переменную `age` возраст респондента:

In [37]:
age = 24

Сравним возраст с 18 с помощью операторов `>` и `<`:

In [38]:
age > 18

True

In [39]:
age < 18

False

В результате проверки условий мы получили значения `True` и `False` логического типа, «истина» или «ложь». Чтобы проверить точное соответствие значению, потребуется оператор `==` (двойное «равно», чтобы отличать от обычного присваивания с `=`):

In [40]:
age == 18

False

Нестрогие неравенства (больше или равно, меньше или равно) формулируются с помощью составных операторов:

In [41]:
# нет пробела между > и =
    
print(age >= 18)
print(age <= 18)

True
False


Условия можно объединять с помощью специальных логических операторов. Чаще используются следующие два оператора:
    
* оператор `and` или `&` для логического «И» (одновременное выполнение условий);
* оператор `or` или `|` для логического «ИЛИ» (хотя бы одно из условий верно).

«Словесные» операторы `and` и `or` в Python активно используются, но вот библиотеки для работы с данными, которые мы будем использовать далее, признают только «символьные» операторы. Давайте создадим переменные `one` и `two` и проверим разные условия.

In [42]:
one = 100
two = 200

In [43]:
# True & True = True, оба верны

(one >= 100) & (two >= 100)

True

In [44]:
# False & True = False, не оба верны

(one >= 200) & (two >= 200)

False

In [45]:
# False | True = True, хотя бы одно верно

(one >= 200) | (two >= 200)

True

In [46]:
# True | True = True, снова хотя бы одно верно

(one >= 100) | (two >= 100)

True

**Примечание.** Обратите внимание на скобки, они здесь важны, так как символьные операторы `&` и `|` – самые сильные. Если не поставить скобки, можно получить странный результат:

In [47]:
print(one, two)
print(one == 100 & two == 200)

100 200
False


С чем связана эта странность? Ведь в `one` ровно 100, а в `two` ровно 200, оба условия одновременно верны... Дело в том, что раз оператор `&` самый сильный, самым первым выполняется действие в середине выражения, то есть `100 & two`:

In [48]:
100 & two # итого условие one == 64 == 200

64

Ответ кажется неожиданным, но здесь вступает в действие ещё одна особенность Python. Оператор `&` при работе с числами (а не значениями `True` и `False`) выполняет их умножение в двоичной системе, а затем переводит результат обратно в десятичную. В смысл этих операций углубляться необязательно, главное, помнить, что наличие и порядок скобок важны :)