## 2. Обработка данных

![Data management](https://raw.githubusercontent.com/amaargiru/pycore/main/pics/02_Data_Management.png)  

### Логические операторы

В Python'е есть три простых логических оператора — not (инверсия), and (логическое "И") и or (логическое "ИЛИ"). Операторы работаю с переменными типа bool.

In [6]:
a: bool = 15 > 10
b: bool = 20 < 5

print(a)
print(b)

print ("not:", not a)
print ("and:", a and b)
print ("or:", a or b)

True
False
not: False
and: False
or: True


В использовании логических операторов есть два небольших нюанса.

Во-первых, у логических операторов тоже есть приоритет исполнения — наивысший приоритет у not, потом идёт and, потом or. Так что при необходимости используйте скобки.

Во-вторых, вы можете подкинуть логическим операторам другой тип данных, не bool, но тогда его поведение будет несколько странным, если заранее не знать об этой особенности. Дело в том, что логические операторы возвращают первое встреченное значение, влияющее на всю цепочку вычислений. Это True для or и False для and:


In [10]:
print(10 or 20 or 30)
print(0 and 2 and 3)

10
0


Если хотите избавиться от этой особенности, просто прямо приведите тип вычисляемого выражения к bool:

In [11]:
print(bool(10 or 20 or 30))
print(bool(0 and 2 and 3))

True
False


### Битовые операции

Чтобы научиться работать с битовыми операциями, нужно представлять, как то или иное число выглядит в [двоичной системе счисления](https://en.wikipedia.org/wiki/Binary_code). Вспомним, как выглядят в двоичном виде числа от 0 до 15:

In [17]:
for a in range(0, 16):
    print(f"{a:#02d}: {a:#06b}")

00: 0b0000
01: 0b0001
02: 0b0010
03: 0b0011
04: 0b0100
05: 0b0101
06: 0b0110
07: 0b0111
08: 0b1000
09: 0b1001
10: 0b1010
11: 0b1011
12: 0b1100
13: 0b1101
14: 0b1110
15: 0b1111


Вот с этими-то единицами и нулями, отсылающими нас к реальному формату хранения данных в компьютерных системах, и работают битовые операции. Если вам прежде не приходилось работать с двоичным форматом, лучше немного попрактикуйтесь с ним; заодно изучите шестнадцатиричный формат, в котором четыре двоичных цифры представлены одним знаком от 0 до F:

In [23]:
for a in range(0, 16):
    print(f"{a:#06b}: {a:#03x}")

0b0000: 0x0
0b0001: 0x1
0b0010: 0x2
0b0011: 0x3
0b0100: 0x4
0b0101: 0x5
0b0110: 0x6
0b0111: 0x7
0b1000: 0x8
0b1001: 0x9
0b1010: 0xa
0b1011: 0xb
0b1100: 0xc
0b1101: 0xd
0b1110: 0xe
0b1111: 0xf


Битовые операции подразделяются на:  
~ (NOT);  
& (AND);  
| (OR);  
^ (XOR);  
<<, >> (сдвиги влево и вправо).  

Если вы поняли формат представления чисел в двоичной системе счисления, то понимание логики работы этих опреаторов не вызовет у вас никаких затруднений. Есть, однако, даже в таких тихих водах несколько подводных камней, которые мы с вами тоже разберём.

~ (NOT) побитово инвертирует все единички и нолики:

In [27]:
a: int = 8
b = ~a

print(f"{a:#06b}: {b:#06b}")

0b1000: -0b1001


Эм, это не совсем то, что мы ожидали... Инверсия от 0b1000 вроде же должна выглядеть как 0b0111? Дело в том, что int в Python - знаковый. Операция "~" действительно инвертирует все биты числа, но затрагивает еще и знаковый бит, поэтому результат получается несколько неожиданным.

Что делать? Выход есть - нужно взять беззнаковые числа из numpy, работа с ними будет более предсказуемой:

In [10]:
import numpy as np

a = np.uint8(0b10001100)  # Берём беззнаковое число из numpy
b = ~a

print(f"{a:#b}: {b:#b}")

0b10001100: 0b1110011


Таблица истинности оператора & (AND) такова:  
1 & 1 = 1  
1 & 0 = 0  
0 & 1 = 0  
0 & 0 = 0  

Как видите, единичка на выходе разряда будет только тогда, когда на входе две единички.

In [11]:
a: int = 0b1101
b: int = 0b1000

c = a & b

print(f"{c:#06b}")

0b1000


У оператора | (OR) такая таблица истинности:
1 | 1 = 1
1 | 0 = 1
0 | 1 = 1
0 | 0 = 0

In [15]:
a: int = 0b1001
b: int = 0b0010

c = a | b

print(f"{c:#06b}")

0b1011


Оператор ^ (XOR) называется также "Исключающим ИЛИ", у него такая таблица истинности:
1 ^ 1 = 0
1 ^ 0 = 1
0 ^ 1 = 1
0 ^ 0 = 0

Как видите, единичка на выходе появляется только тогда, когда на входе разные переменные, для одинаковых перменных будет выдан ноль.

In [16]:
a: int = 0b11111100
b: int = 0b00111111

c = a ^ b

print(f"{c:#010b}")

0b11000011


Наконец, сдвиги:

In [18]:
a = 0b1100

b = a << 1
c = a >> 1

print(f"{b:#b}: {c:#b}")

0b11000: 0b110


Когда-то сдвиги были популярным методом ускорения умножения или деления числа на два (если вы сдвинете влево, например, 16, то получите 32), но современные компиляторы и интерпретаторы, как правило, не нуждаются в такого рода подсказках.

### Подсчет битов

In [1]:
a: int = 4242
print(f"{a} in binary format: 0b{a:b}")

c = a.bit_count()  # Возвращает количество "единичек" в двоичном представлении числа
print(f"Bit count: {c}")

4242 in binary format: 0b1000010010010
Bit count: 4


### Простейшие вычисления — Sum, Count, Min, Max

In [None]:
a: list[int] = [1, 2, 3, 4, 5, 2, 2]

s = sum(a)
print(s)

c = a.count(2)  # Вернет количество вхождений
print(c)

mn = min(a)
print(mn)

mx = max(a)
print(mx)

19
3
1
5


Присмотритесь к [встроенным функциям](https://docs.python.org/3/library/functions.html), там есть ещё кое-что, касающееся элементарной математики.

### Базовая математика

In [None]:
from math import pi

a: float = pi ** 2  # Or pow(pi, 2)
print(f"Power: {a}")

b: float = round(pi, 2)
print(f"Round: {b}")

c: int = round(256, -2)
print(f"Int round: {c}")

d: float = abs(-pi)
print(f"Abs: {d}")

e: float = abs(10+10j)  # Or e: float = abs(complex(real=10, imag=10))
print(f"Complex abs: {e}")


Power: 9.869604401089358
Round: 3.14
Int round: 300
Abs: 3.141592653589793
Complex abs: 14.142135623730951


### Fractions

Обеспечивает работу с рациональными числами, т. е. с числами, представимыми в виде дроби.

In [None]:
from fractions import Fraction

f = Fraction("0.2").as_integer_ratio()

print(f)

(1, 5)


### Евклидово расстояние между двумя точками

In [None]:
import math

p1 = (0.22, 1, 12)
p2 = (-0.12, 3, 7)

print(math.dist(p1, p2))

5.39588732276722


### Сортировка (sort, sorted)

В сортировке всё самое интересное спрятано под капотом (мы ненадолго вернемся к этой теме чуть ниже, в разделе «Алгоритмы»), пока рассмотрим только Python-специфичный синтаксис.  
Надо различать методы sort() и sorted(), первый сортирует данные [in-place](https://en.wikipedia.org/wiki/In-place_algorithm), второй порождает новую структуру.

In [8]:
a: list = [5, 2, 3, 1, 4]

b: list = sorted(a)
print(a, b)

a.sort()
print(a)

[5, 2, 3, 1, 4] [1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


И sort(), и sorted() имеют параметр key для указания функции, которая будет вызываться на каждом элементе. Если вам больше по нраву сортировка при помощи функции, принимающей два аргумента (или вы привыкли к cmp в Python 2), присмотритесь к functools.cmp_to_key().

In [11]:
# Регистрозависимое сравнение строк

dinos: str = "Dinosaurs were Big and small"
a = sorted(dinos.split())
print(a)

# Регистронезависимое сравнение строк

dinos: str = "Dinosaurs were Big and small"
b = sorted(dinos.split(), key=str.lower)
print(b)

['Big', 'Dinosaurs', 'and', 'small', 'were']
['and', 'Big', 'Dinosaurs', 'small', 'were']


Сложносочиненные структуры данных можно сортировать при помощи _лямбд_ (что такое лямбды, будет рассмотрено ниже) по key=lambda el: el[1] или даже, например по key=lambda el: (el[1], el[0]).

### Comprehension

Comprehension, которое переводится то как включение в список, то как абстракция списков ([Википедия](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%BE%D0%B5_%D0%B2%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5)), то вообще никак не переводится — способ компактного описания операций обработки списков (а применительно к Python — еще и словарей, и множеств). Некоторые авторы используют термин «генераторы списков», но он пересекается с собственно генераторами — объектами, использующими отложенные вычисления, что вносит еще большую путаницу.

Проще говоря, если вам нужно получить из некоторой структуры данных (например, из другого списка) список, включающий только те значения, которые удовлетворяют какому-то определенному условию, или вычисляемые из первого списка по каким-то определенным правилам, то comprehension — претендент на решение этой задачи № 1.

In [8]:
# Примеры Comprehension

a = [i+1 for i in range(10)]  # list
b  = {i for i in range(10) if i > 5}  # set
c = (2*i+5 for i in range(10))  # iter
d = {i: i**2 for i in range(10)}  # dict

print(a,"\n", b, "\n", list(c), "\n", d)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 
 {8, 9, 6, 7} 
 [5, 7, 9, 11, 13, 15, 17, 19, 21, 23] 
 {0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}


Тут главное не перегнуть палку. Если запись comprehension становится слишком сложной и нечитаемой, возможно, стоит развернуть логику в «нормальный» цикл или в другой более удобочитаемый алгоритм. Comprehension соблазняет записывать «однострочниками» достаточно сложные выражения, но не забывайте, что программист примерно 90 % времени читает код, и только 10 % пишет, так что если выражение будет плохочитаемым, вы усложните жизнь и себе, и свои коллегам.

Есть более-менее [удачные](https://leetcode.com/problems/flipping-an-image/discuss/2378360/python-1-liner-988-speed-97-mem) «однострочники», есть быстрые, но [плохочитаемые](https://leetcode.com/problems/reverse-string-ii/discuss/2281269/python-fast-beats-984-and-short-almost-1-line-solution-with-python-38-features-pep572), написанные из спортивного интереса (это ссылки на решенные мной задачки на leetcode), желательно использовать comprehension в меру; лучше написать понятный развернутый алгоритм, чем непонятный, но обложенный пояснениями (если нет особых требований к производительности, само собой).

Еще немного про list comprehension:

In [None]:
# new_list = [expression for member in iterable (if conditional)]

fruits: list = ["Lemon", "Apple", "Banana", "Kiwi", "Watermelon", "Pear"]

e_fruits = [fruit for fruit in fruits if "e" in fruit]
#                                     ☝ условие
print(e_fruits)

upper_fruits = [fruit.upper() for fruit in fruits]
#                     ☝ выражение
print(upper_fruits)

# Пример разбиения списка на фрагменты одинаковой длины
chunk_len = 2
chunk_fruits = [fruits[i:i + chunk_len] for i in range(0, len(fruits), chunk_len)]
print(chunk_fruits)


['Lemon', 'Apple', 'Watermelon', 'Pear']
['LEMON', 'APPLE', 'BANANA', 'KIWI', 'WATERMELON', 'PEAR']
[['Lemon', 'Apple'], ['Banana', 'Kiwi'], ['Watermelon', 'Pear']]


>__Что такое list comprehension?__
>
>List comprehension (или включение в список) — компактный способ формирования списков из других структур данных, позволяющий отфильтровать значения или провести над ними вычисления. Включение в список эквивалентно циклу for, но обладает более удобоваримой записью.

Dict comprehension, включение в словарь:

In [1]:
# new_dict = {expression for member in iterable (if conditional)}

d: dict = {"Italy": "Pizza", "US": "Hot-Dog", "China": "Dim Sum", "South Korea": "Kimchi"}
print(d)

a: dict = {k: v for k, v in d.items() if "i" in v}  # Вернет новый словарь, отфильтрованный по значению
print(a)

b: dict = {k: v for k, v in d.items() if "i" in k}  # Вернет новый словарь, отфильтрованный по ключу
print(b)

c: dict = {k: v for k, v in d.items() if len(v) >= 7}  # Вернет новый словарь, отфильтрованный по длине значений
print(c)

{'Italy': 'Pizza', 'US': 'Hot-Dog', 'China': 'Dim Sum', 'South Korea': 'Kimchi'}
{'Italy': 'Pizza', 'China': 'Dim Sum', 'South Korea': 'Kimchi'}
{'China': 'Dim Sum'}
{'US': 'Hot-Dog', 'China': 'Dim Sum'}


Попробуйте самостоятельно поиграться с set comprehension. Не забывайте, что set «переваривает» только уникальные значения, поэтому в результате вы можете получить не совсем то, на что рассчитывали.

Попробуйте также освоить nested (вложенный) comprehension, используя конструкции вида [[func(y) for y in x] for x in n]. Для примера создайте двумерный массив, содержащий случайные значения, среднее значение которых плавно нарастает ближе к правому нижнему углу (если не получится, готовый пример есть чуть ниже, в коде, иллюстрирующем применение matplotlib).  

### Срез (slice)

Самый простой метод обработки данных, просто возвращает ту часть данных, местоположение которой (индексы) удовлетворяет определенным условиям.

In [None]:
a:str = "Pack my box with five dozen liquor jugs"

start, stop = 8, 21

b:str = a[start:stop]  # Значения от start до stop-1
c:str = a[start:]  # Значения от start до конца структуры
d:str = a[:stop]  # Значения от начала до stop-1
e:str = a[:]  # Полная копия структуры

print(b, "\n",
      c, "\n",
      d, "\n",
      e, "\n")

box with five 
 box with five dozen liquor jugs 
 Pack my box with five 
 Pack my box with five dozen liquor jugs 



Значения start и stop могут быть отрицательными, это будет означать, что отсчет ведется от конца структуры. Будьте аккуратны, используя отрицательные значениями индекса можно наделать еще больше ошибок, чем обычно; например, разработчики языка Go намеренно отказались от этой возможности.

Можно также использовать значение step, чтобы на выход среза попали не все подряд данные из входной структуры.

In [None]:
a:str = "Step on no pets"

b:str = a[-4:]  # "Хвостик"
c:str = a[::-1]  # Реверс входной строки
d:str = a[4::-1]  # Первые четыре значения, реверсированы
e:str = a[::2]  # Каждый второй символ

print(b, "\n",
      c, "\n",
      d, "\n",
      e, "\n")


pets 
 step on no petS 
  petS 
 Se nn es 



### bisect(), бинарный поиск

Бинарный поиск существенно быстрее, чем обычный (см. раздел «Алгоритмы»), но работает только с отсортированными коллекциями.

Есть [мнение](https://habr.com/ru/companies/ispsystem/articles/779224/), что бинарный поиск со всеми его особенностями и краевыми случаями — идеальная основа для собеседования, алгоритм, который при постепенном введении дополнительных условий хорошо отражает уровень подготовки кандидата. Так что присмотритесь к bisect и его конкретным реализациям повнимательнее.

In [None]:
import bisect

a: list[int] = [12, 6, 8, 19, 1, 33]

a.sort()
print(f"Sorted: {a}")

print(bisect.bisect(a, 20))  # Найти индекс для потенциальной вставки

bisect.insort(a, 15)  # Вставка значения в отсортированную последовательность
print(a)

# Бинарный поиск

def binary_search(a, x, lo=0, hi=None):
    if hi is None:
        hi = len(a)

    pos = bisect.bisect_left(a, x, lo, hi)
    return pos if pos != hi and a[pos] == x else -1

print(binary_search(a, 15))

Sorted: [1, 6, 8, 12, 19, 33]
5
[1, 6, 8, 12, 15, 19, 33]
4


### Операции над строками. lower(), upper(), capitalize() и title()

In [None]:
s: str = "camelCase string"

print(s.lower())
print(s.upper())
print(s.capitalize())
print(s.title())

camelcase string
CAMELCASE STRING
Camelcase string
Camelcase String


### strip(), lstrip(), rstrip()

Обрезает начальные и конечные символы в строке.

In [None]:
s: str = "  ~~##A big blahblahblah##~~  "

s = s.strip()  # strip() без аргумента удалит начальные и конечные пробелы и символы табуляции.
print(s)

s = s.strip("~#")  # Удалит переданные символы в начале и в конце строки
print(s)

s = s.lstrip(" A")  # Удалит переданные символы слева
print(s)

s = s.rstrip("habl")  # Удалит переданные символы справа
print(s)


~~##A big blahblahblah##~~
A big blahblahblah
big blahblahblah
big 


### split(), splitlines(), rsplit()

Разделяет строку на подстроки.

In [None]:
s1: str = "Follow the white rabbit, Neo"

c1 = s1.split()  # split() без аргумента использует в качестве разделителей пробелы и символы табуляции
print(c1)

c2 = s1.split(sep=", ", maxsplit=1)  # В качестве разделителя будет использоваться строка ", ". Дополнительный параметр maxsplit позволяет ограничить число разделений
print(c2)

s2: str = "Beware the Jabberwock, my son!\n The jaws that bite, the claws that catch!"

c3 = s2.splitlines(keepends=False)  # При keepends=False символы разделения строк (\n\r\f\v\x1c-\x1e\x85\u2028\u2029 и \r\n) будт исключены из результирующих строк
print(c3)

# split() vs rsplit()

c4 = s2.split(maxsplit=2)
c5 = s2.rsplit(maxsplit=2)

print(c4, c5)

['Follow', 'the', 'white', 'rabbit,', 'Neo']
['Follow the white rabbit', 'Neo']
['Beware the Jabberwock, my son!', ' The jaws that bite, the claws that catch!']
['Beware', 'the', 'Jabberwock, my son!\n The jaws that bite, the claws that catch!'] ['Beware the Jabberwock, my son!\n The jaws that bite, the claws', 'that', 'catch!']


### ord(), chr()

Преобразование между символом Unicode и его целочисленным значением.

In [None]:
s1: str = "abcABC!"

for ch in s1:
    print(f"{ch} -> {ord(ch)}")  # Возвращает целочисленное знвчение символа Unicode

nums = [72, 101, 108, 108, 111, 33]

for num in nums:
    print(f"{num} -> {chr(num)}")  # Возвращает символ Unicode

a -> 97
b -> 98
c -> 99
A -> 65
B -> 66
C -> 67
! -> 33
72 -> H
101 -> e
108 -> l
108 -> l
111 -> o
33 -> !


### Regex

Регулярные выражения — отдельная область знаний, и весьма-весьма непростая область. Тут, пожалуй, самое время для бородатой шутки про то, что если вы решили свою проблему при помощи регулярных выражений — теперь у вас две проблемы :)  

Регулярки похожи на вхождение в воду на пляже острова Гуам в сторону Марианской впадины — даже когда вы думаете, что погрузились *реально* глубоко, то, скорее всего, вы просто не видите бездны, лежащей впереди. Но — знать регулярные выражения, хотя бы на начальном уровне, необходимо для решения целого класса задач, а то, что вёрткие регулярки периодически поворачиваются к вам своими, кхм... новыми гранями, придется простить, переварить и принять.  

Надо заметить, что иногда нелегко не только составить нужную регулярку, но и по прошествии времени вносить в неё минимальные изменения, т. к. для того, чтобы внести достаточно небольшие коррективы в регулярное выражение, необходимо порой заново «переварить» его, упорно преодолевая слабую человекочитаемость.

Вот [здесь](https://habr.com/ru/post/349860/) есть грамотное и методически выдержанное введение в тему, пока же окинем взглядом основные возможности регулярных выражений:

In [5]:
import re

s1: str = "123 abc ABC 456"

m1 = re.search("[aA]", s1)  # Ищет первое вхождение паттерна, при неудаче возвращает None
print(m1, m1.group(0))

m2 = re.fullmatch("[aA]", s1)  # Проверка, подходит ли строка под шаблон
print(m2)

c1: list = re.findall("[aA]", s1)  # Найти в строке все непересекающиеся шаблоны
print(c1)

def replacer(s):
    return chr(ord(s[0]) + 1)  # Следующий символ из алфавита

s2 = re.sub("\w", replacer, s1)  # Вы можете использовать функцию вместо шаблона
print(s2)

c2 = re.split("\d", s1)
print(c2)

iter = re.finditer("\D", s1)  # Итератор по непересекающимся шаблонам

for ch in iter:
    print(ch.group(0), end= "")

<re.Match object; span=(4, 5), match='a'> a
None
['a', 'A']
234 bcd BCD 567
['', '', '', ' abc ABC ', '', '', '']
 abc ABC 

### Match Object

In [6]:
import re

m3 = re.match(r"(\w+) (\w+)", "John Connor, leader of the Resistance")

s3: str = m3.group(0)  # Возвращает полное совпадение
s4: str = m3.group(1)  # Возвращает часть в первых скобках
t1: tuple = m3.groups()
start: int = m3.start()  # Возвращает начальный индекс совпадения
end: int = m3.end()  # Возвращает конечный индекс совпадения
t2: tuple[int, int] = m3.span()  # Кортеж (start, end)

print (f"{s3}\n {s4}\n {t1}\n {start}\n {end}\n {t2}\n")

John Connor
 John
 ('John', 'Connor')
 0
 11
 (0, 11)



### Split

Разбивка строки с использованием регулярного выражения.

In [20]:
import re

ip = '192.168.0.1:8080'

split_ip_1 = re.split(r'[.:]', ip)
split_ip_2 = [j for i in ip.split(':') for j in i.split('.')]  # Эту же задачу можно решить без regex, но придётся использовать list comprehension

print(split_ip_1, split_ip_2)

['192', '168', '0', '1', '8080'] ['192', '168', '0', '1', '8080']


### Compile

re.compile используется при работе с одним и тем же регулярным выражением. В этом случае Python создаёт объект, который можно использовать повторно и сэкономить ресурсы.

In [23]:
import re
result = re.match('hell', 'hello world')

print(result)

pattern = re.compile('hell')
result = pattern.match('hello world')

print(result)


<re.Match object; span=(0, 4), match='hell'>
<re.Match object; span=(0, 4), match='hell'>


### Finditer

В отличие от findall, finditer выдает не список, а итератор, что может быть полезно при большом объёме выдаваемых объектов.

### Создание переменных datetime 

Python использует Unix Epoch: "1970-01-01 00:00 UTC"

In [None]:
from datetime import datetime
from dateutil.tz import tzlocal

dt1: datetime = datetime.fromisoformat("2021-10-04 00:05:23.555+00:00")  # Может вызвать ValueError
dt2: datetime = datetime.strptime("21/10/04 17:30", "%d/%m/%y %H:%M")   # Подробнее про форматы — https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes
dt3: datetime = datetime.fromordinal(100_000)  # 100000-й день от 1.1.0001
dt4: datetime = datetime.fromtimestamp(20_000_000.01)  # Время в секундах с начала Unix Epoch

tz = tzlocal()
dt5: datetime = datetime.fromtimestamp(20_000_000.01, tz)  # С учетом часового пояса

print (f"{dt1}\n {dt2}\n {dt3}\n {dt4}\n {dt5}")

2021-10-04 00:05:23.555000+00:00
 2004-10-21 17:30:00
 0274-10-16 00:00:00
 1970-08-20 16:33:20.010000
 1970-08-20 16:33:20.010000+05:00


### Преобразование переменных datetime

In [None]:
from datetime import datetime

dt1: datetime = datetime.today()

s1: str = dt1.isoformat()
s2: str = dt1.strftime("%d/%m/%y %H:%M")  # https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes
i: int = dt1.toordinal()
a: float = dt1.timestamp()  # Секунды с начала Unix Epoch

print (f"{dt1}\n {s1}\n {s2}\n {i}\n {a}")

2022-09-06 17:50:38.041159
 2022-09-06T17:50:38.041159
 06/09/22 17:50
 738404
 1662468638.041159


### Арифметика datetime

In [None]:
from datetime import date, time, datetime, timedelta
from dateutil.tz import UTC, tzlocal, gettz, datetime_exists, resolve_imaginary

d: date  = date.today()
dt1: datetime = datetime.today()
dt2: datetime = datetime(year=1981, month=12, day=2)
td1: timedelta = timedelta(days=5)
td2: timedelta = timedelta(days=1)

d = d + td1  # date = date ± timedelta
dt3 = dt1 - td1  # datetime = datetime ± timedelta

td3 = dt1 - dt2  # timedelta = datetime - datetime

td4 = 10 * td1  # timedelta = const * timedelta
c: float = td1/td2  # timedelta/timedelta

print (f"{d}\n {dt3}\n {td3}\n {td4}\n {c}")

2022-09-11
 2022-09-01 17:50:38.132916
 14888 days, 17:50:38.132916
 50 days, 0:00:00
 5.0


### Today, now

Получение текущей даты или даты/времени.

In [26]:
from datetime import date, datetime
import pytz  # Позволяет воспользоваться данными о часовых поясах с www.iana.org/time-zones
import time

d: date  = date.today()
dt1: datetime = datetime.today()
dt2: datetime = datetime.now()
dt3: datetime = datetime.now(pytz.timezone('US/Pacific'))

t1 = time.time()  # Эпоха Unix
t2 = time.ctime()

print (f"{d}\n {dt1}\n {dt2}\n {dt3}\n {t1}\n {t2}")


2025-05-02
 2025-05-02 16:47:58.022559
 2025-05-02 16:47:58.022588
 2025-05-02 04:47:58.022633-07:00
 1746186478.0226727
 Fri May  2 16:47:58 2025


### Timezone

Часовые пояса.

In [None]:
from datetime import datetime, tzinfo
from dateutil.tz import UTC, tzlocal, gettz

tz1: tzinfo = UTC  # Часовой пояс UTC

tz2: tzinfo = tzlocal()  # Местный часовой пояс
tz3: tzinfo = gettz()  # Местный часовой пояс

tz4: tzinfo = gettz("America/Chicago")  # Или, например, "Asia/Kolkata". Полный список: en.wikipedia.org/wiki/List_of_tz_database_time_zones

local_dt = datetime.today()
utc_dt = local_dt.astimezone(UTC)  # Конвертация местного часового пояса в часовой пояс UTC

print (f"{tz1}\n {tz2}\n {tz3}\n {tz4}\n {local_dt}\n {utc_dt}")

tzutc()
 tzlocal()
 tzlocal()
 tzfile('US/Central')
 2024-03-06 15:30:35.706820
 2024-03-06 10:30:35.706820+00:00


### Функциональное программирование (map, filter, reduce, partial)

На случай, если начиная с этого момента и до конца текущего жизненного цикла вы собираетесь к месту и не месту использовать приёмы функционального программирования, чтобы сделать свой код «воистину крутым», просто процитирую вам Джоэля Граса, автора книги «Data Science: Наука о данных с нуля»: «В первом издании этой книги были представлены функции partial, map, reduce и filter языка Python. На своем пути к просветлению я понял, что этих функций лучше избегать, и их использование в книге было заменено включениями в список, циклами и другими, более Python'овскими конструкциями». Такие дела...  

In [1]:
import functools

# Преобразует все входящие значения при помощи указанной функции
iter1 = map(lambda x: x + 1, range(10))
print(list(iter1))

# Передает в выходной итератор только значения, удовлетворяющие условию
iter2 = filter(lambda x: x > 5, range(10))
print(list(iter2))

# Применяет указанную функцию ко всей последовательности входных данных, сводя их к единственному значению
a = functools.reduce(lambda out, x: out + x, range(10))
print(a)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[6, 7, 8, 9]
45


In [None]:
import functools

def sum(a,b):
    return a + b

add_const = functools.partial(sum, 10)

print(add_const(5))

15


Если вам не сразу станет понятно, как работает функция partial (и зачем она нужна), не расстраивайтесь, вы не одиноки :). Вот, пожалуйста, тема на Stackoverflow: «[I am not able to get my head on how the partial works](https://stackoverflow.com/questions/15331726/how-does-functools-partial-do-what-it-does)». Там, кстати, есть совет, как partial могут быть полезны при организации pipeline с включением функций, имеющих разное количество аргументов.

### Any, all

any() вернет True, если хотя бы один элемент итерируемой коллекции истинен, all() вернет True только в случае истинности всех элементов коллекции.

In [None]:
animals = ["Squirrel", "Beaver", "Fox"]
sentence = "Bison likes squirrels and beavers"

any_animal: bool = any(animal.lower() in sentence.lower() for animal in animals)
print(any_animal)

all_animal: bool = all(animal.lower() in sentence.lower() for animal in animals)
print(all_animal)

True
False


### Файлы

Файловые операции стоят немного особняком от остальных методов обработки данных, как подразумевающие не сиюминутную торопливую обработку информации, а взаимодействие с неким постоянным энергонезависимым хранилищем данных. Так что если вам нужно сохранить данные *на завтра*, или, наоборот, нужно прочитать данные, которые вам предоставили *неделю назад*, то вам, очевидно, нужно будет работать с файлами. В файлах же осядет информация, которую мы передаем базам данных, но эту тему мы рассмотрим ниже.

In [None]:
f = open("f.txt", mode='r', encoding="utf-8", newline=None)

print(f.read())

Hello from file!


На всякий случай, если вы испытываете программистский зуд даже небольшой степени выраженности, напоминаю — обязательно прогоняйте в IDE все непонятные куски кода, не надо на них *смотреть*, их надо _видоизменять, корректировать, дорабатывать_; только когда концы свяжутся, только когда вы поймете, как функционирует этот кусочек кода, только тогда промелькнёт маленькая искорка и ваша квалификация как программиста немного подрастёт.  

Режимы (mode):  
"r" — чтение (поведение по умолчанию)  
"w" — запись (информация, ранее присутствующая в файле, будет стёрта)  
"x" — эксклюзивное создание и запись; если файл уже существует, будет выброшено исключение FileExistsError  
"a" — открытие с последующим добавлением в конец файла  
"w+" — чтение и запись  
"r+" — чтение и запись с начала файла  
"a+" — чтение и запись с конца файла  
"t" — текстовый режим ("rt", "wt" и т. д.; поведение по умолчанию)  
"b" — двоичный режим ("rb", "wb", "xb" и т. д.)  

encoding=None — будет использована кодировка по умолчанию (зависит от системы, см. getpreferredencoding()). Если нет специальных требований, просто используйте везде encoding="utf-8"; без этого, например, русский текст запишется в текстовый файл в виде человеконечитаемой последовательности.

newline=None — при чтении системные символы конца строки будут конвертированы в "\n"; при записи, наоборот, "\n" будут конвертированы в системные символы конца строки.

Возможные исключения при работе с файлами:  
*FileNotFoundError* при чтении в режиме "r" или "r+".  
*FileExistsError* при записи в режиме "x".  
*IsADirectoryError*, *PermissionError* — в любом режиме.  

### Чтение из файла

Открывает файл и возвращает файловый объект.  
Для работы с файлами лучше использовать менеджеры контекста (рассмотрены ниже), т. е. конструкции вида "with open...". Даже если что-то пойдет не так, как задумано (например, вы не обработаете исключение во время работы с файлом), менеджер контекста «зачистит хвосты», и ваша оплошность не отразится на файловой системе.

In [None]:
with open("f.txt", encoding="utf-8") as f:
    chars = f.read(5)  # Reads chars/bytes or until EOF
    print(chars)

    f.seek(0)  # Moves to the start of the file. Also seek(offset) and seek(±offset, anchor), where anchor is 0 for start, 1 for current position and 2 for end

    lines: list[str] = f.readlines()  # Also readline()
    print(lines)

Hello
['Hello from file!']


### Запись в файл

In [None]:
with open("f.txt", "w", encoding="utf-8") as f:
    f.write("Hello from file!")  # Или f.writelines(<collection>)

### JSON

Человекочитаемый формат для хранения и передачи данных.

In [None]:
import json

d: dict = {1: "Lemon", 2: "Apple", 3: "Banana!"}

object_as_string: str = json.dumps(d, indent=2)
print(object_as_string)

restored_object = json.loads(object_as_string)

# Write object to JSON file
with open("1.json", 'w', encoding='utf-8') as file:
    json.dump(d, file, indent=2)

# Read object from JSON file
with open("1.json", encoding='utf-8') as file:
    restored_from_file = json.load(file)
    
print(restored_from_file)


{
  "1": "Lemon",
  "2": "Apple",
  "3": "Banana!"
}
{'1': 'Lemon', '2': 'Apple', '3': 'Banana!'}


### Пути (paths)

При работе с файлами не обойтись без манипулирования файловыми путями.

In [None]:
from os import getcwd, path, listdir
from pathlib import Path

s1: str = getcwd()  # Возвращает текущую рабочую директорию
print(s1)

s2: str = path.abspath("f.txt")  # Возвращает полный путь
print(s2)

s3: str = path.basename(s2)  # Возвращает имя файла
s4: str = path.dirname(s2)  # Возвращает путь без файла
t1: tuple = path.splitext(s2)  # Возвращает кортеж из пути и имени файла
print(s3, s4, t1)

p = Path(s2)
st = p.stat()
print(st)

b1: bool = p.exists()
b2: bool = p.is_file()
b3: bool = p.is_dir()
print(b1, b2, b3)

c: list = listdir(path=s1)  # Возвращает список имен файлов, находящихся по указанному пути
print(c)

s5: str = p.stem  # Возвращает имя файла без расширения
s6: str  = p.suffix  # Возвращает расширение файла
t2: tuple = p.parts  # Возвращает все элементы пути как отдельные строки
print(s5, s6, t2)

c:\Works\amaargiru\pycore
c:\Works\amaargiru\pycore\f.txt
f.txt c:\Works\amaargiru\pycore ('c:\\Works\\amaargiru\\pycore\\f', '.txt')
os.stat_result(st_mode=33206, st_ino=2251799814917120, st_dev=3628794147, st_nlink=1, st_uid=0, st_gid=0, st_size=16, st_atime=1662468638, st_mtime=1662468638, st_ctime=1661089564)
True True False
['.git', '.gitignore', '.pytest_cache', '01_python.ipynb', '01_python.md', '02_postgre.md', '03_architecture.md', '04_algorithms.ipynb', '04_algorithms.md', '05_admin_devops.md', '06_pytest_mock.ipynb', '06_pytest_mock.md', '07_fastapi.md', '08_flask.md', '1.bin', '1.json', 'compose_readme.bat', 'coupling_vs_cohesion.svg', 'f.txt', 'gitflow.svg', 'graph_for_dfs.jpg', 'pycallgraph3.png', 'readme.md']
f .txt ('c:\\', 'Works', 'amaargiru', 'pycore', 'f.txt')


### Pickle

Бинарный формат для хранения и передачи данных. Экономит место, но не [сильно](https://docs.python.org/3/library/pickle.html#data-stream-format) (uses a relatively compact binary representation), так что в случае необходимости сильного сжатия информации мостоитжно рассмотреть использование специализированных алгоритмов, например, [lzma](https://docs.python.org/3/library/archiving.html).

In [None]:
import pickle

d: dict = {1: "Lemon", 2: "Apple", 3: "Banana!"}

# Запись объекта в бинарный файл
with open("1.bin", "wb") as file:
    pickle.dump(d, file)

# Чтение объекта из файла
with open("1.bin", "rb") as file:
    restored_from_file = pickle.load(file)

print(restored_from_file)

{1: 'Lemon', 2: 'Apple', 3: 'Banana!'}


### Protocol Buffers
Если вы хотите передавать и хранить данные, используя универсальную структуру, одинаково хорошо понимаемую всеми языками программирования (как JSON) и занимающую мало места (как Pickle), то можно посмотреть в сторону Protocol Buffers ([Wikipedia](https://en.wikipedia.org/wiki/Protocol_Buffers), [примеры для Python](https://developers.google.com/protocol-buffers/docs/pythontutorial)). Есть еще альтернативы, например, [FlatBuffers](https://google.github.io/flatbuffers/), [Apache Avro](https://avro.apache.org/) или [Thrift](https://thrift.apache.org/).

### IOBase

IOBase — это базовый класс для всех потоков ввода-вывода, который нельзя использовать напрямую. Он определяет общие методы, но не реализует их.

In [2]:
from io import IOBase

file = open('f.txt', 'r')
print(isinstance(file, IOBase))  # Проверка, является ли объект потоком
file.close()

True


### StringIO

Поток для работы с текстом. Имитирует файл в памяти для работы со строками.

In [4]:
from io import StringIO

stream = StringIO()  # Создание "виртуального файла"

stream.write('First string.\n') # Запись данных
stream.write('Second string.')

stream.seek(0) # Перемещение курсора в начало

# Чтение данных
print(stream.read())  # Выведет все содержимое
stream.close()

First string.
Second string.


### BytesIO

Работает с данными.

In [5]:
from io import BytesIO

stream = BytesIO()

# Запись
stream.write(b'\x48\x65\x6c\x6c\x6f')  # 'Hello'
stream.seek(0)

# Чтение
print(stream.read())
stream.close()

b'Hello'


### RawIOBase

Используется для небуферизированных низкоуровневых операций.

In [7]:
from io import RawIOBase

file = open('f.txt', 'rb', buffering=0)  # Открытие файла в небуферизованном режиме

# Проверка типа
print(isinstance(file, RawIOBase))

# Чтение байтов
data = file.read(4)
print(data)  # Первые 4 байта файла
file.close()

True
b'Hell'


### BufferedIOBase

Класс BufferedIOBase предоставляет буферизованные байтовые потоки. Буферизация позволяет минимизировать количество операций ввода-вывода за счет накопления данных в памяти перед их записью или чтением. BufferedIOBase можно использовать для повышения производительности при частых мелких операциях чтения-записи.

In [8]:
from io import BufferedIOBase
import sys

# Открытие файла в буферизованном режиме (по умолчанию)
with open("data.bin", "wb") as file:
    print(isinstance(file, BufferedIOBase))  # Проверка типа

    file.write(b"Hello, BufferedIOBase!\n")  # Запись в буфер
    file.flush()  # Принудительный сброс буфера на диск

True


### stdin, stdout, stderr

stdin – стандартный поток ввода, stdout – стандартный вывод, stderr – стандартный вывод ошибок. Стандартные потоки доступны с помощью модуля sys.

In [2]:
import sys

# Чтение из stdin
print("Введите текст:")
user_input = sys.stdin.readline()
print(f"Вы ввели: {user_input}")

# Вывод в stdout и stderr
sys.stdout.write("Это обычный вывод\n")  # Аналог print()
sys.stderr.write("Это ошибка!\n")

Это обычный вывод


Это ошибка!


12

Поток stdout буферизируется, поэтому вывод может «тормозить». Например, при выполнении print() в цикле данные могут накапливаться в буфере и выводиться пачкой (обходится при помощи sys.stdout.flush()). stderr не буферизируется, поэтому сообщения об ошибках выводятся сразу же.