## Основные типы данных

##### Целочисленный тип данных и числа с плавающей точкой

In [101]:
year = 2019

<div class="alert alert-warning">
    <b>Name binding</b>
    <ul>
    <li>`имя_переменной = выражение`</li>
    </ul>
</div>

In [102]:
type(year)

int

In [103]:
type(2019)

int

In [104]:
year * 365.25

737439.75

In [105]:
year * 12

24228

In [106]:
year / 100

20.19

In [107]:
year // 100

20

In [108]:
year % 100

19

In [109]:
2.018 * 10**3

2017.9999999999998

In [110]:
2.018E3

2018.0

<div class="alert alert-warning">
    <b>Непонятная запись?</b>
    <ul>
      <li>Это так называемая компьютерная форма экспоненциальной записи чисел. Она удобна, если нужно уметь записывать очень большие или очень маленькие числа: `1.2E2` означает $1.2 \times 10^2$, то есть $120$, а `2.4E-3` — то же самое, что $2.4 \times 10^{-3}=0.0024$.</li>
    </ul>
</div>

In [111]:
0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1

0.9999999999999999

<div class="alert alert-warning">
    <b>Почему не единица?</b>
    <ul>
      <li>$0.1 = \frac{1}{10} = 0*2^{-1} + 0*2^{-2} + 0*2^{-3} + 1*2^{-4} + 1*2^{-5} + ... = 00011(0011)$</li>
      <li>Все вычисления в вещественных числах делаются компьютером с некоторой ограниченной точностью (см. стандарт IEEE-754), поэтому зачастую вместо «честных» ответов получаются такие приближенные. К этому надо быть готовым.</li>
    </ul>
</div>

##### Булевый тип

In [112]:
to_be = True

In [113]:
to_be or not to_be

True

In [114]:
is_leap = (year % 4 == 0 and year % 100 != 0) or (year % 400 == 0)

In [115]:
is_leap

False

In [116]:
True or это_называется_ленивые_вычисления_или_lazy_evaluation

True

In [117]:
isinstance(True, bool) and isinstance(True, int)

True

##### Строки

In [118]:
first_name = 'Marat'
last_name = 'Bogdanov'
email = 'bogdanov_marat@mail.ru'

In [119]:
full_name = first_name + ' ' + last_name
full_name

'Marat Bogdanov'

In [120]:
full_name = ' '.join([first_name, last_name])
full_name

'Marat Bogdanov'

<div class="alert alert-warning">
    <b>В Python все является объектом</b>
    <ul>
      <li>Каждый объект предоставляет интерфейс (методы) взаимодействия с ним, а также хранит внутреннее состояние посредством переменных. Обращение к методам и перенным объекта (атрибутам) происходит через точку, например: `объект.метод(список аргументов)`. Чтобы посмотреть список доступных методов можно воспользоваться функцией `help` и передать в нее интересующий нас объект, например: `help(объект)`.</li>
    </ul>
</div>

In [121]:
len(full_name) # --> full_name.__len__()

14

In [122]:
username, domain = email.split('@')

In [123]:
username

'bogdanov_marat'

In [124]:
domain

'mail.ru'

In [125]:
email.endswith('mail.ru')

True

<img src="../images/hello.png">

In [126]:
first_name[0]

'M'

In [127]:
first_name[-1]

't'

In [128]:
email[:email.index('@')]

'bogdanov_marat'

<div class="alert alert-warning">
    <b>Замечание про срезы</b>
    <br><br>
    `sequence[start:stop:step]`, где:
    <ul>
    <li>`sequence` - объект, который реализует Sequence протокол;</li>
    <li>`start` - левая граница среза, может быть опущена, тогда принимается равной $0$;</li>
    <li>`stop` - правая граница среза минус $1$, таким образом, правая граница не включается; может быть опущена, тогда принимается равной `len(sequence)`;</li>
    <li>`step` - шаг, с которым перемещаемся по `sequence`, если не указан, то считается равным $1$.</li>
    </ul>
</div>

##### Списки

In [129]:
scores = []
scores

[]

In [130]:
scores = [90.4, 83, 85, 72.3, 65, 84.5, 76, 80, 64.9, 61]
scores

[90.4, 83, 85, 72.3, 65, 84.5, 76, 80, 64.9, 61]

<div class="alert alert-warning">
    <b>Эффективность работы со списками</b>
    <br>
    <ul>
        <li>Если вы когда-нибудь изучали программирование и знаете, что такое «односвязный список» и «двусвязный список» — в этом месте можете про это временно забыть. Списки Python основаны на стандартных C'шных динамических массивах и обладают их свойствами с точки зрения сложности: в частности, обращение к элементу по его индексу имеет сложность $O(1)$, а поиск элемента имеет сложность $O(N)$.</li>
    </ul>
</div>

In [131]:
scores[0]

90.4

In [132]:
len(scores)

10

In [133]:
mean_score = sum(scores) / len(scores)
mean_score

76.21000000000001

In [134]:
scores.append(90)
scores

[90.4, 83, 85, 72.3, 65, 84.5, 76, 80, 64.9, 61, 90]

In [135]:
scores.extend([58, 91.5, 79])
scores

[90.4, 83, 85, 72.3, 65, 84.5, 76, 80, 64.9, 61, 90, 58, 91.5, 79]

In [136]:
scores_copy = scores.copy() # == scores[:] == list(scores)
scores_copy

[90.4, 83, 85, 72.3, 65, 84.5, 76, 80, 64.9, 61, 90, 58, 91.5, 79]

In [137]:
sorted(scores, reverse=True)

[91.5, 90.4, 90, 85, 84.5, 83, 80, 79, 76, 72.3, 65, 64.9, 61, 58]

##### Кортежи

In [138]:
point = (1, 2, 3)
point

(1, 2, 3)

In [139]:
#point[0] = 4

<div class="alert alert-warning">
    <b>Кортежи vs списков</b>
    <br>
    <ul>
        <li>С точки зрения внутреннего представления, кортежи также являются динамическими массивами.</li>
        <li>Кортежи занимают меньше места в памяти, так как имеют фиксированную длину.</li>
        <li>Кортежи неизменяемые (immutable) и могут быть выступать в качестве ключей словарей или элементов множеств.</li>
        <li>Кортежи обычно представляют абстрактные объекты, обладающие некоторой структурой.</li>
    </ul>
</div>

In [140]:
from collections import namedtuple

In [141]:
Point = namedtuple('Point', 'x y z')
p = Point(1, 2, 3)
p.x, p.y, p.z

(1, 2, 3)

In [142]:
p[0], p[1], p[2]

(1, 2, 3)

In [143]:
from typing import NamedTuple

In [144]:
Point2D = NamedTuple('Point', [('x', int), ('y', int)])
p = Point2D(1, 2)
p.x, p.y

(1, 2)

##### Словари

In [145]:
population_by_countries = {
    'India': 1326801576,
    'Brazil': 209567920,
    'China': 1382323332,
    'Nigeria': 186987563,
    'Bangladesh': 162910864,
    'U.S.': 324118787,
    'Russia': 143439832,
    'Pakistan': 192826502,
    'Mexico': 128632004
}

In [146]:
population_by_countries['Russia']

143439832

In [147]:
population_by_countries['Russia'] = 143439832 + 1

In [148]:
population_by_countries['Russia']

143439833

In [149]:
population_by_countries['Japan'] = 126323715
population_by_countries

{'India': 1326801576,
 'Brazil': 209567920,
 'China': 1382323332,
 'Nigeria': 186987563,
 'Bangladesh': 162910864,
 'U.S.': 324118787,
 'Russia': 143439833,
 'Pakistan': 192826502,
 'Mexico': 128632004,
 'Japan': 126323715}

In [150]:
population_by_countries['China']

1382323332

In [151]:
population_by_countries.get('China')

1382323332

In [152]:
population_by_countries.get('China', 'NA')

1382323332

In [153]:
population_by_countries.keys()

dict_keys(['India', 'Brazil', 'China', 'Nigeria', 'Bangladesh', 'U.S.', 'Russia', 'Pakistan', 'Mexico', 'Japan'])

In [154]:
population_by_countries.values()

dict_values([1326801576, 209567920, 1382323332, 186987563, 162910864, 324118787, 143439833, 192826502, 128632004, 126323715])

In [155]:
population_by_countries.items()

dict_items([('India', 1326801576), ('Brazil', 209567920), ('China', 1382323332), ('Nigeria', 186987563), ('Bangladesh', 162910864), ('U.S.', 324118787), ('Russia', 143439833), ('Pakistan', 192826502), ('Mexico', 128632004), ('Japan', 126323715)])

In [156]:
"Russia" in population_by_countries

True

In [157]:
"Poland" in population_by_countries

False

<div class="alert alert-warning">
    <b>Проверка на вхождение</b>
    <br>
    <ul>
        <li>Оператор `in` работает со всеми контейнерами (строки, списки, кортежи, словари, множества), но для последовательностей (строки, списки, кортежи) эта операция является медленной.</li>
    </ul>
</div>

In [158]:
countries = ['India', 'Brazil', 'China', 'Nigeria', 'Bangladesh', 'U.S.', 'Russia', 'Pakistan', 'Mexico']
populations = [1326801576, 209567920, 1382323332, 186987563, 162910864, 324118787, 143439832, 192826502, 128632004]
dict(zip(countries, populations))

{'India': 1326801576,
 'Brazil': 209567920,
 'China': 1382323332,
 'Nigeria': 186987563,
 'Bangladesh': 162910864,
 'U.S.': 324118787,
 'Russia': 143439832,
 'Pakistan': 192826502,
 'Mexico': 128632004}

In [159]:
from operator import itemgetter

sorted(population_by_countries.items(), key=itemgetter(1), reverse=True)

[('China', 1382323332),
 ('India', 1326801576),
 ('U.S.', 324118787),
 ('Brazil', 209567920),
 ('Pakistan', 192826502),
 ('Nigeria', 186987563),
 ('Bangladesh', 162910864),
 ('Russia', 143439833),
 ('Mexico', 128632004),
 ('Japan', 126323715)]

##### Небольшой пример использования словарей

Например, хотим получить текущую погоду:

In [160]:
"""
import requests
from pprint import pprint as pp

url = 'https://api.openweathermap.org/data/2.5/weather?q=Saint Petersburg&units=metric&APPID=a46b3bb83f9e16e2ee203e9ecfca99f8'
response = requests.get(url)
pp(response.json())
"""

"\nimport requests\nfrom pprint import pprint as pp\n\nurl = 'https://api.openweathermap.org/data/2.5/weather?q=Saint Petersburg&units=metric&APPID=a46b3bb83f9e16e2ee203e9ecfca99f8'\nresponse = requests.get(url)\npp(response.json())\n"

In [161]:
#type(response.json())

In [162]:
#response.json()['main']['temp']

##### Множества

In [163]:
a_set = {1, 2, 1, 3, 3, 4, 2, 5}
a_set

{1, 2, 3, 4, 5}

In [164]:
{1, 2, 1, 3, 3, 4, 2, 5} == {1, 2, 3, 4, 5}

True

In [165]:
1 in a_set

True

In [166]:
6 in a_set

False

In [167]:
{1, 2, 3} | {1, 4, 5}

{1, 2, 3, 4, 5}

In [168]:
{1, 2, 3} & {1, 4, 5}

{1}

In [169]:
{1, 2, 3} - {1, 4, 5}

{2, 3}

## Размеры некоторых типов

In [170]:
import sys

def show_sizeof(x, level=0):
    print("{indent}class: {dtype}, size: {size}b, value: {x}".format(
        indent='    ' * level,
        dtype=x.__class__.__name__,
        size=sys.getsizeof(x),
        x=x
    ))
    if hasattr(x, '__iter__') and not isinstance(x, str):
        if hasattr(x, 'items'):
            for xx in x.items():
                show_sizeof(xx, level + 1)
        else:
            for xx in x:
                show_sizeof(xx, level + 1)

In [171]:
show_sizeof(2018)
show_sizeof(123456789101112131415)
show_sizeof(2.018E3)
show_sizeof(True)
show_sizeof("Marat")
show_sizeof("")
show_sizeof([])
show_sizeof([1, 2, 3])
show_sizeof(())
show_sizeof((1, 2, 3))
show_sizeof(set())
show_sizeof({1, 2, 3})

class: int, size: 28b, value: 2018
class: int, size: 36b, value: 123456789101112131415
class: float, size: 24b, value: 2018.0
class: bool, size: 28b, value: True
class: str, size: 54b, value: Marat
class: str, size: 51b, value: 
class: list, size: 64b, value: []
class: list, size: 88b, value: [1, 2, 3]
    class: int, size: 28b, value: 1
    class: int, size: 28b, value: 2
    class: int, size: 28b, value: 3
class: tuple, size: 48b, value: ()
class: tuple, size: 72b, value: (1, 2, 3)
    class: int, size: 28b, value: 1
    class: int, size: 28b, value: 2
    class: int, size: 28b, value: 3
class: set, size: 224b, value: set()
class: set, size: 224b, value: {1, 2, 3}
    class: int, size: 28b, value: 1
    class: int, size: 28b, value: 2
    class: int, size: 28b, value: 3


## Everything is an Object

В Python все является объектом: числа, последовательности, функции, классы, модули и т.д.

<img src="../images/aEquals2.jpg">

In [172]:
a = 2
id(a)

140737262166448

In [173]:
a = a + 1
id(a)

140737262166480

In [174]:
b = 2
id(b)

140737262166448

Каждый объект «наследуется» от структуры `PyObject` или  `PyVarObject` для объектов переменной (variable) длинны (строки, списки и т.д.):

[`Include/object.h`](https://github.com/python/cpython/blob/master/Include/object.h#L106)
```c
typedef struct _object {
    _PyObject_HEAD_EXTRA
    Py_ssize_t ob_refcnt;
    struct _typeobject *ob_type;
} PyObject;
```

где `_PyObject_HEAD_EXTRA` это макрос, который определен следующим образом:

```c
#define _PyObject_HEAD_EXTRA            \
    struct _object *_ob_next;           \
    struct _object *_ob_prev;
```

Если «раскрыть» макрос `_PyObject_HEAD_EXTRA`, то структура `PyObject` будет следующей:

```c
typedef struct _object {
    struct _object *_ob_next;
    struct _object *_ob_prev;
    Py_ssize_t ob_refcnt;
    struct _typeobject *ob_type;
} PyObject;
```

 - `_ob_next` и `_ob_prev` это указатели на следующий и предыдущий объекты, таким образом, все объекты представлены в виде двунаправленного связного списка;
 - `ob_refcnt` счетчик ссылок;
 - `ob_type` - указатель на структуру `_typeobject`, которая определяет тип объекта;

```c
typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
} PyVarObject;
```

- `ob_size` - количество элементов в объекте, если объект переменной длины (например, для списка из пяти элементов `ob_size` равен 5).

> **Замечание про подсчет ссылок**: CPython uses reference counting for memory management. This is a simple method in which whenever a new reference to an object is created such as the case of binding a name to an object, the reference count of the object goes up. The converse is true - whenever a reference to an object goes away (for example using a `del` on name deletes the reference), the reference count is decremented. When the reference count of an object gets to zero, it can be deallocated by the VM. In the VM world, the `Py_INCREF` and `Py_DECREF` are used to increase and decrease reference count of objects.

In [175]:
import sys

L1 = [1,2,3]               # На объект [1,2,3] одна ссылка L1
print(sys.getrefcount(L1)) # На объект [1,2,3] две ссылки: L1 и getrefcount(object)

L2 = L1                    # На объект [1,2,3] две ссылки: L1 и L2
print(sys.getrefcount(L1)) # На объект [1,2,3] три ссылки: L1, L2 и getrefcount(object)

del L2                     # На объект [1,2,3] одна ссылка L1
print(sys.getrefcount(L1)) # На объект [1,2,3] две ссылки: L1 и getrefcount(object)

2
3
2


Итак, если вы решили ввести свой тип, то он должен «наследоваться» от `PyObject` или `PyVarObject` с помощью макросов `PyObject_HEAD` и `PyObject_VAR_HEAD`:

```c
#define PyObject_HEAD          PyObject ob_base;
...
#define PyObject_VAR_HEAD      PyVarObject ob_base;
```

Например:

```c
typedef struct _myobject {
       PyObject_HEAD
       ...
} PyMyObject;
```

Таким образом, `PyMyObject` будет содержать все поля, которые есть в `PyObject`.

Макрос `PyObject_HEAD` должнен идти первым в структуре. Это связано с «наследованием», о котором говорилось ранее. Как утверждается в `object.h`:

> Objects are always accessed through pointers of the type `PyObject *`

и означает, что должна быть возможность преобразования указателя на `PyMyObject` к указателю на `PyObject`, то есть:

```c
PyObject *obj = (PyObject*)my_py_type_variable;
```

### Длинная арифметика в Python

Может ли произойти переполнение при работе с целыми числами в Python? Нет, если мы **не** говорим о таких пакетах как Numpy и Pandas, так как при работе с целыми числами в Python используется длинная арифметика.

Следующая структура отвечает за представление целых чисел:

```c
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
} PyLongObject;
```

Если «раскрыть» макрос `PyObject_VAR_HEAD`, то стурктура будет выглядеть следующим образом:

```c
struct _longobject {
    struct _object *_ob_next;
    struct _object *_ob_prev;
    ssize_t ob_refcnt;
    struct _typeobject *ob_type;
    ssize_t ob_size; 
    uint32_t ob_digit[1];
} PyLongObject;
```

Где:
- `ob_refcnt` - счетчик ссылок на объект;
- `ob_type` - содержит указатель на [структуру](https://docs.python.org/3/c-api/typeobj.html), описывающую тип объекта (в данном случае целое число);
- `ob_digit` - массив беззнаковых целых чисел по основанию $2^{30}$;
- `ob_size` - размер массива `ob_digit`.

##### Как хранить произвольно большое целое число?

Одним из решений является представление целого числа в виде массива отдельных **цифр**. Чтобы сделать это наиболее эффективно мы можем конвертировать наше число из десятичной системы счисления в систему счисления по основанию $2^{30}$, в таком случае каждый элемент представлен «цифрой» в диапазоне от $0$ до $2^{30} - 1$. В зависимости от платформы Python использует или 32-битные беззнаковые массивы с 30-битными цифрами или 16-битные беззнаковые массивы с 15-битными цифрами. Такой подход представления больших целых чисел накладывает [дополнительные ограничения](https://github.com/python/cpython/blob/865e4b4f630e2ae91e61239258abb58b488f1d65/Include/longintrepr.h#L9), которые не позволяют использовать все биты. Поле `ob_digit` структуры показанной выше, содержит такие массивы. 

Для избежания лишних вычислений CPython имеет быстрый путь реализации для целых чисел в диапазоне от $-2^{30}$ до $2^{30}$. Такие целые числа храняться как массивы с одним элементом.

Также следует отметить, что в отличие от классического представления знака, знак целого числа хранится отдельно в поле `ob_size`, которое также содержит размер массива `ob_digit`. Так, если мы хотим изменить знак целого с размером `ob_size=2`, то `ob_size` становится равным -2.

Комментарий из исходных текстов по представлению целых чисел:

```c
/* Long integer representation.
   The absolute value of a number is equal to
   SUM(for i=0 through abs(ob_size)-1) ob_digit[i] * 2**(SHIFT*i)
   Negative numbers are represented with ob_size < 0;
   zero is represented by ob_size == 0.
   In a normalized number, ob_digit[abs(ob_size)-1] (the most significant
   digit) is never zero.  Also, in all cases, for all valid i,
   0 <= ob_digit[i] <= MASK.
   The allocation function takes care of allocating extra memory
   so that ob_digit[0] ... ob_digit[abs(ob_size)-1] are actually available.

   CAUTION:  Generic code manipulating subtypes of PyVarObject has to aware that integers abuse  ob_size's sign bit.
*/
```

Например, представление числа $123456789101112131415$ будет следующим:


`ob_size = 3`

`ob_digit = [437976919 87719511 107]`


Алгоритм конвертирования числа обратно:

$$(437976919 ∗ 2^{30 ∗ 0}) + (87719511 ∗ 2^{30 ∗ 1}) + (107 ∗ 2^{30 ∗ 2})$$

Ниже приведен упрощенный вариант алгоритма представления произвольно больших чисел:

In [176]:
SHIFT = 30  # number of bits for each 'digit'
MASK = (2 ** SHIFT)

def split_number(bignum):
    t = abs(bignum)

    num_list = []
    while t != 0:
        # Get remainder from division
        small_int = t % MASK  # more efficient bitwise analogue: (t & (MASK-1))
        num_list.append(small_int)

        # Get integral part of the division (floor division)
        t = t // MASK  # more efficient bitwise analogue: t >>= SHIFT

    return num_list

def restore_number(num_list):
    bignum = 0
    for i, n in enumerate(num_list):
        bignum += n * (2 ** (SHIFT * i))
    return bignum

In [177]:
bignum = 123456789101112131415
num_list = split_number(bignum)
assert bignum == restore_number(num_list)

In [178]:
num_list

[437976919, 87719511, 107]

In [179]:
import ctypes

class PyLongObject(ctypes.Structure):
    _fields_ = [("ob_refcnt", ctypes.c_long),
                ("ob_type", ctypes.c_void_p),
                ("ob_size", ctypes.c_ulong),
                ("ob_digit", ctypes.c_uint * 3)]


bignum = 123456789101112131415

for i,d in enumerate(PyLongObject.from_address(id(bignum)).ob_digit):
    print("ob_digit[{i}] = {d}".format(i=i, d=d))

print("ob_size:", PyLongObject.from_address(id(bignum)).ob_size)

ob_digit[0] = 0
ob_digit[1] = 437976919
ob_digit[2] = 87719511
ob_size: 3


##### Оптимизации

Небольшие целые числа в диапазоне от `-5` до `256` преаллоцируются в процессе инициализации интерпретатора. Так как целые числа являются неизменяемыми, то мы можем воспринимать их как синглтоны. Каждый раз, когда нам необходимо создать небольшое целое число (например, как результат некоторой арифметической операции), то вместо создания нового объекта, Python просто возвращает указатель на уже преаллоцированный объект. Это позволяет сократить количество потребляемой памяти и время затрачиваемое на вычисления при работе с небольшими целыми числами.

In [180]:
a = 1
b = 1

In [181]:
print(a is b)

True


In [182]:
id(a), id(b)

(140737262166416, 140737262166416)

Следует иметь ввиду, что структура `PyLongObject` занимает не менее 28 байт для каждого целого числа, то есть в три раза больше чем требуется под 64-битное целое в языке C.

In [183]:
import sys
sys.getsizeof(1)

28

##### Выполнение арифметических операций 

Базовые арифметические операции выполняются аналогично тому, как мы это делали в школе, с одним исключением: что каждый элемент массива считается «цифрой».

В результате выполнения каждой операции создается минимум еще один объект. Например, когда вы хотите выполнить `c += 10`, то грубо говоря выполняются следующие шаги:

- Получить адрес уже преаллоцированного объекта для значения `10` (так как это небольшое число, то не нужно повтороно под него выделять память)
- Создать новый объект, такого размера, чтобы он мог вместить в себя резльутат сложения
- Сложить `c` и `10`. Результат поместить в созданный ранее объект
- Заменить переменную `c` ссылкой на новый объект
- Уменьшить счетчик ссылок на старый объект

In [184]:
def add_bignum(a, b):
    z = []

    if len(a) < len(b):
        # Ensure a is the larger of the two
        a, b = b, a

    carry = 0

    for i in range(0, len(b)):
        carry += a[i] + b[i]
        z.append(carry % MASK)
        carry = carry // MASK

    for i in range(i + 1, len(a)):
        carry += a[i]
        z.append(carry % MASK)
        carry = carry // MASK

    z.append(carry)

    # remove trailing zeros
    i = len(z)
    while i > 0 and z[i-1] == 0:
        i -= 1
    z = z[0:i]

    return z

In [185]:
a = 8223372036854775807
b = 100037203685477
assert restore_number(add_bignum(split_number(a), split_number(b))) == a + b

##### Замечание про Numpy и Pandas

In [186]:
import numpy as np

In [187]:
ar = np.array([2**63 - 1, 2**63 - 1])
ar

array([9223372036854775807, 9223372036854775807], dtype=int64)

In [188]:
ar.dtype

dtype('int64')

Элементами `ndarray` являются 64-битные знаковые целые, таким обрзаом, $2^{63}-1$ наибольшее положительное значение, которое мы можем хранить в `ndarray`. Добавление 1 приведет к  переполнению (overflow):

In [189]:
ar + 1

array([-9223372036854775808, -9223372036854775808], dtype=int64)

In [190]:
np.sum(ar)

-2

In [191]:
np.mean(ar) # При вычислении среднего элементы массива сначала приводятся к типу float

9.223372036854776e+18

 1. [Python internals: Arbitrary-precision integer implementation](https://rushter.com/blog/python-integer-implementation/)
 2. [Can integer operations overflow in Python](http://mortada.net/can-integer-operations-overflow-in-python.html)

### Числа с плавающей запятой и стандарт IEEE-754

Вещественные числа в CPython представлены следующей структурой:
    
```c
typedef struct {
    PyObject_HEAD
    double ob_fval;
} PyFloatObject;
```

Легко заметить, что поле `ob_fval` это обычное вещественное число двойной точности.

```c
static PyObject *
float_add(PyObject *v, PyObject *w)
{
    double a,b;
    CONVERT_TO_DOUBLE(v, a);
    CONVERT_TO_DOUBLE(w, b);
    PyFPE_START_PROTECT("add", return 0)
    a = a + b;
    PyFPE_END_PROTECT(a)
    return PyFloat_FromDouble(a);
}
```

In [192]:
[0.1] * 10

[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]

In [193]:
sum([0.1] * 10) == 1.0

False

In [194]:
sum([0.1] * 10)

0.9999999999999999

In [195]:
from math import fsum

In [196]:
fsum([0.1] * 10)

1.0

> [Binary floating point summation accurate to full precision](https://code.activestate.com/recipes/393090/)

### Строки

```c
/* ASCII-only strings created through PyUnicode_New use the PyASCIIObject
   structure. state.ascii and state.compact are set, and the data
   immediately follow the structure. utf8_length and wstr_length can be found
   in the length field; the utf8 pointer is equal to the data pointer. */
typedef struct {
    PyObject_HEAD
    Py_ssize_t length;          /* Number of code points in the string */
    Py_hash_t hash;             /* Hash value; -1 if not set */
    struct {
        unsigned int interned:2;
        unsigned int kind:3;
        unsigned int compact:1;
        unsigned int ascii:1;
        unsigned int ready:1;
        unsigned int :24;
    } state;
    wchar_t *wstr;              /* wchar_t representation (null-terminated) */
} PyASCIIObject;
```

##### Интернирование строк

In [197]:
s1 = "foo!"
s2 = "foo!"
s1 is s2

False

In [198]:
s1 = "a"
s2 = "a"
s1 is s2

True

https://github.com/python/cpython/blob/master/Objects/unicodeobject.c#L15171

In [199]:
interned = None

def intern(string):
    global interned
    
    if string is None or not type(string) is str:
        raise TypeError

    if interned is None:
        interned = {}

    t = interned.get(string)
    if t is not None:
        return t

    interned[string] = string
    return string

##### Пример

In [200]:
import sys
s1 = sys.intern("foo!")
s2 = sys.intern("foo!")
s1 is s2

True

Использование интернирования строк гарантирует, что не будет создано двух одинаковых строковых объектов. Когда вы создаете второй объект с тем же значением, что и у существующего объекта, то вы получаете ссылку на уже существующий объект. Таким образом, интернирование строк позволяет экономить память и повышает скорость сравнения строк, путем сравнения их адресов (хешей), а не содержимого.

1. [Python String Interning](http://guilload.com/python-string-interning/)

### Списки и кортежи

```c
typedef struct {
    PyObject_VAR_HEAD
    /* Vector of pointers to list elements.  list[0] is ob_item[0], etc. */
    PyObject **ob_item;

    /* ob_item contains space for 'allocated' elements.  The number
     * currently in use is ob_size.
     * Invariants:
     *     0 <= ob_size <= allocated
     *     len(list) == ob_size
     *     ob_item == NULL implies ob_size == allocated == 0
     * list.sort() temporarily sets allocated to -1 to detect mutations.
     *
     * Items must normally not be NULL, except during construction when
     * the list is not yet visible outside the function that builds it.
     */
    Py_ssize_t allocated;
} PyListObject;
```

```c
/* This over-allocates proportional to the list size, making room
 * for additional growth.  The over-allocation is mild, but is
 * enough to give linear-time amortized behavior over a long
 * sequence of appends() in the presence of a poorly-performing
 * system realloc().
 * The growth pattern is:  0, 4, 8, 16, 25, 35, 46, 58, 72, 88, ...
 * Note: new_allocated won't overflow because the largest possible value
 *       is PY_SSIZE_T_MAX * (9 / 8) + 6 which always fits in a size_t.
 */
new_allocated = (size_t)newsize + (newsize >> 3) + (newsize < 9 ? 3 : 6);
```

```c
typedef struct {
    PyObject_VAR_HEAD
    PyObject *ob_item[1];

    /* ob_item contains space for 'ob_size' elements.
     * Items must normally not be NULL, except during construction when
     * the tuple is not yet visible outside the function that builds it.
     */
} PyTupleObject;
```

<div class="alert alert-warning">
    <b>Вопрос:</b>
    <ul>
        <li>`Размер в байтах([1,1,1,1,1]) = Размер в байтах((1,1,1,1,1))`?</li>
        <li>`Размер в байтах([1,1,1,1,1]) > Размер в байтах((1,1,1,1,1))`?</li>
        <li>`Размер в байтах([1,1,1,1,1]) < Размер в байтах((1,1,1,1,1))`?</li>
    </ul>
</div>

### Словари

1. [Modern Dictionaries by Raymond Hettinger](https://www.youtube.com/watch?v=p33CVV29OG8)
2. [Brandon Rhodes: The Dictionary Even Mightier](https://www.youtube.com/watch?v=66P5FMkWoVU)