### Лекция 6. Контейнеры и итераторы

https://en.cppreference.com/w/cpp/container

https://apprize.info/c/optimized/10.html

Что такое контейнер и что такое итератор общими словами:
* контейнер - хранилище объектов одного типа
* итератор - "ключик" к конкретному объекту в контейнере, возможно, позволяющий "обходить" контейнер - перечислять объекты в нём

```c++
// контейнер целых чисел
std::vector<int> v = {1, 2, 3, 4, 5};

// итератор, указывающий на нулевой элемент в контейнере:
std::vector<int>::iterator it = v.begin();
// auto it = v.begin();  // или так, компилятор сам выведет тип

++it;  // теперь it указывает на первый элемент в контейнере

*it = 42;

std::cout << v[1]; // # 42
v[1] = 55;
std::cout << *it; // # 55
```

__Вопросы__:
* с какими контейнерами мы уже имели дело в курсе?

<details>
<summary>Подсказка</summary>
<p>

`std::string`

</p>
</details>

* какие ещё контейнеры вы знаете?
* владеет ли контейнер объектами в нём? (про что этот вопрос?)

<br />

##### Стандартные контейнеры: последовательности

Памятка: обратить _особое_ внимание на внутреннюю организацию, `sizeof`, детали реализации, стоимость операций.

<br />

https://en.cppreference.com/w/cpp/container/array

Массив:
* compile-time размер
* объекты размещены непосредственно в `std::array`
* объекты размещены последовательно

```c++
// example
template<typename T, size_t N>
class array
{
private:
    T data_[N];

    ...;    
};
```

Важнейшее свойство `std::array`, которое выделяет его на фоне всех других контейнеров - отсутствие аллокаций внутри контейнера:

```c++
void func()
{
    // 5 целых чисел будут отмотаны НА СТЕКЕ, никаких вызовов malloc
    std::array<int, 5> arr;
    arr[2] = 0;
    arr[3] = 0;
    
    // добро пожаловать в динамическую память, malloc-free
    // и прочие радости медленного кода 
    std::vector<int> v = {1, 2, 3, 4, 5};
    
    // ну оооооооок, в динамической памяти
    auto* p = new std::array<int, 5>();
    ...
}
```

Стоимость:
* расходы памяти на i-ый элемент - ???
* доступ до i-го элемента - ???
* поиск по значению - ???
* вставка - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

https://en.cppreference.com/w/cpp/container/vector

http://www.cvl.isy.liu.se:82/education/graduate/opencv/pres.pdf

* меняющийся размер
* выделение памяти на куче
* объекты размещены последовательно

```c++
int f()
{
    std::vector<int> v1 = {1, 2, 3, 4, 5};
    v1.push_back(6);
    v1.push_back(7);
    v1.push_back(8);
    
    v1.clear();
    v1.push_back(9);
    v1.insert(v1.begin(), 1);
    
    return v1.back();
}
```

```c++
std::vector<int> v = {1, 2, 3};
v.front(); // 1
v.back(); // 3
```

![](vector_internals.png)

Эта история будет вечной...

```c++
// ex 1
std::vector<int> v;
for (int i = 0; i < N; ++i)
    v.push_back(i);
// Вопрос: сложность алгоритма в кол-ве копирований
// Вопрос: сложность алгоритма в кол-ве аллокаций
    
// ex 2
std::vector<int> v;
v.reserve(N);
for (int i = 0; i < N; ++i)
    v.push_back(i);
// Вопрос: сложность алгоритма в кол-ве копирований
// Вопрос: сложность алгоритма в кол-ве аллокаций
```

Стоимость:
* расходы памяти на i-ый элемент - ???
* доступ до i-го элемента - ???
* поиск по значению - ???
* вставка в начало - ???
* вставка в середину - ???
* вставка в конец - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

Специальное исключение:

```c++
std::vector<bool> bv;
```

<br />

https://en.cppreference.com/w/cpp/container/deque

* меняющийся размер
* выделение памяти на куче
* объекты размещены последовательными блоками, а блоки раскиданы по памяти

Нарисовать как хранится `deque`: блоки + переходы (bookkeeping)

![](deque_internals.png)

Размер блока зависит от реализации: 
* times the object size on 64-bit libstdc++;
* 16 times the object size or 4096 bytes, whichever is larger, on 64-bit libc++

```c++
std::deque<int> d = {1, 2, 3, 4 ,5};
        
d.push_back(6);
d.push_front(0);

d.pop_back();
d.pop_front();

d[2] = 3;
```

Стоимость:
* расходы памяти на i-ый элемент - ???
* доступ до i-го элемента - ???
* поиск по значению - ???
* вставка в начало - ???
* вставка в середину - ???
* вставка в конец - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

https://en.cppreference.com/w/cpp/container/list

* меняющийся размер
* выделение памяти на куче отдельно под каждый элемент
* оптимизирован под вставку / удаление элементов в произвольном месте

![](list_internals.png)

```c++
std::list<int> l = { 7, 5, 16, 8 };
l.push_back(4);
l.push_front(3);

l.sort();
```

Стоимость:

* расходы памяти на i-ый элемент - ???
* доступ до i-го элемента - ???
* поиск по значению - ???
* вставка в начало - ???
* вставка в середину - ???
* вставка в конец - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

https://en.cppreference.com/w/cpp/container/forward_list

Вариант `std::list` с урезанным функционалом, но более дешёвый по памяти.

![](forwardlist_internals.jpg)

```c++
std::forward_list<int> f = {1, 2, 3, 4, 5};
f.push_front(0);
f.insert_after(f.begin(), 1);
```

Стоимость:

* расходы памяти на i-ый элемент - ???
* доступ до i-го элемента - ???
* поиск по значению - ???
* вставка в начало - ???
* вставка в середину - ???
* вставка в конец - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

##### Стандартные контейнеры: ассоциативные

https://en.cppreference.com/w/cpp/container/map

https://en.cppreference.com/w/cpp/container/set

https://en.cppreference.com/w/cpp/container/multimap

https://en.cppreference.com/w/cpp/container/multiset

Отображения / множества, основанные на порядке элементов. Обычно реализуются в виде красно-чёрных деревьев по ключам.

Главное требование к ключам - они должны иметь порядок с требованиями Compare (strict weak ordering + equivalence https://en.cppreference.com/w/cpp/named_req/Compare):
* либо определён `operator<` для ключей, удовлетворящий требованиям Compare
* либо специфицирована пользовательская функция сравнения, удовлетворящия требованиям Compare

Замечание: если сравнение не удовлетворяет требованиям Compare - UB

Важное свойство: порядок обхода объектов - отсортированы по ключу.

```c++
// создание отображения
std::map<int, std::string> id_to_name = {
    {73, "Balin"},
    {42, "Dwalin"},
    {55, "Gloin"}
};

// добавление элементов:
id_to_name[53] = "Gimli";

// изменение:
id_to_name[53] = "Torin";

// особенность map-подобных контейнеров: operator[] создаёт элемент, если его там нет
const std::string name = id_to_name[54]; // # name == "", но в id_to_name теперь есть такой элемент: {54, ""}
        
// перебор элементов (порядок!!)
{
    // так код не пишите, это до С++11
    for (std::map<int, std::string>::iterator it = id_and_name.begin(); it != id_and_name.end(); ++it)
        std::cout << it->first << " " << it->second << std::endl;

    // так код не пишите, только для иллюстрации
    for (const std::pair<const int, std::string>& id_and_name : id_to_name)
        std::cout << id_and_name.first << " " << id_and_name.second << std::endl;
    
    // если не разрешён С++17, то хотя бы так
    for (const auto& id_and_name : id_to_name)
        std::cout << id_and_name.first << " " << id_and_name.second << std::endl;
    
    // начиная с С++17:
    for (const auto& [id, name] : id_to_name)
        std::cout << id << " " << name << std::endl;
}

// поиск элемента в map
{
    // до С++11
    std::map<int, std::string>::iterator it = id_to_name.find(42);
    if (it != id_to_name.end())
        std::cout << it->second;
    
    // после C++11
    auto it = id_to_name.find(42);
    if (it != id_to_name.end())
        std::cout << it->second;
}
```

```c++
std::set<std::string> animals = {"cat", "dog", "dolphin"};
animals.insert("elephant");
animals.erase("dragon");

// !порядок
for (const auto& animal : animals)
    std::cout << animal << std::endl;
```

![](set_internals.jpg)

Задание оператора сравнения:

```c++
// пользовательский тип
struct Point
{
    float x, y;
};

// определяем понятие меньше через лексикографическое сравнение
bool operator < (const Point& l, const Point& r) noexcept
{
    return std::tie(l.x, l.y) < std::tie(r.x, r.y);
}

// теперь можно делать set/map:
std::set<Point> points;
```

```c++
// пользовательский тип
struct Person
{
    std::string name;
    int age;
};

// не хотим определять operator< или хотим отличную от него сортировку в set
struct LessPersonByAge
{
    bool operator()(const Person& l, const Person& r) const noexcept
    {
        return std::tie(l.age, l.name) < std::tie(r.age, r.name);
    }
};

// теперь можно:
std::set<Person, LessPersonByAge> people;    
```

Стоимость:

* расходы памяти на элемент - ???
* поиск по ключу - ???
* вставка - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

###### unordered

https://en.cppreference.com/w/cpp/container/unordered_map
    
https://en.cppreference.com/w/cpp/container/unordered_set
    
https://en.cppreference.com/w/cpp/container/unordered_multimap

https://en.cppreference.com/w/cpp/container/unordered_multiset

Отображения / множества, основанные на значении хеш-функции от элементов.

Обычно реализуются в виде массива списков (из-за специфики требований их сложно реализовать через открытую адресацию).

(Не забыть рассказать про load_factor и rehashing)

![](unordered_internals.jpg)

В качестве функции хеширования по умолчанию испольуется `std::hash`, но можно и задавать собственную функцию хеширования (аналогично собственной функции сравнения для `std::map`)

```c++
std::unordered_map<int, std::string> id_to_name = {
    {73, "Balin"},
    {42, "Dwalin"},
    {55, "Gloin"}
};
                
// порядок перечисления объектов не гарантирован!
for (const auto& [id, name] : id_to_name)
    std::cout << id;
    
std::unordered_set<std::string> animals = {"cat", "dog", "dolphin"};
                
// порядок перечисления объектов не гарантирован!
for (const auto& animal : animals)
    std::cout << animal;
```

Заполнение unordered-контейнера, обратить внимание на load_factor + rehash:

```c++
std::unordered_set<int> ids;
for (int i = 0; i < 1000; ++i)
    ids.insert(generate_id());
// Вопрос: сложность алгоритма в кол-ве копирований
// Вопрос: сложность алгоритма в кол-ве аллокаций

std::unordered_set<int> ids;
ids.reserve(1000);
for (int i = 0; i < 1000; ++i)
    ids.insert(generate_id());
// Вопрос: сложность алгоритма в кол-ве копирований
// Вопрос: сложность алгоритма в кол-ве аллокаций
```

__Замечание__: если ослабить требования к `unordered_*` контейнерам, например, разрешить протухать итераторам при вставке новых элементов, то hash-based отображения можно значительно (в разы) ускорить, что и было сделано сторонними реализациями.

Например, реализация от google: https://www.youtube.com/watch?v=ncHmEUmJZf4

И море, море их. Обзорный доклад с деревом решений "какой когда использовать":
https://www.youtube.com/watch?v=M2fKMP47slQ

Стоимость:

* расходы памяти на элемент - ???
* поиск по ключу - ???
* вставка - ???
* удаление - ???
* сортировка - ???
* sizeof - ???

<br />

##### Итераторы. begin && end

`begin()`, `end()` - методы у контейнеров, возвращающие итераторы:
* `begin()` на первый элемент в контейнере
* `end()` на следующий за последним элементом

Как, зная `begin()` и `end()`, проверить, что контейнер пуст?

```c++
std::vector<int> v = {10, 20, 30, 40};
```

![](vector_internals.png)

```c++
auto it = v.begin();
std::cout << *it; // 10
        
++it;
std::cout << *it; // 20
        
++it;
std::cout << *it; // 30

++it;
std::cout << *it; // 40

++it; // it == v.end()
std::cout << *it; // UB - you should never dereference end()!
```

<br />

##### range for

https://en.cppreference.com/w/cpp/language/range-for

```c++
std::vector<int> v = {10, 20, 30, 40};
for (int x : v)
    std::cout << x; // во что разворачивается range-for? (упрощённо)
```

во что разворачивается range-for? (упрощённо)

```c++
for (auto& x : v) { ... }
```

```c++
{
    auto&& __range = v;
    auto __begin = __range.begin();
    auto __end = __range.end();
    for (; __begin != __end; ++__begin) {
        auto& x = *__begin;
        ...
    }
}
```

Смысл в том, что как только для пользовательского контейнера определены итераторы и методы `begin()`, `end()`, `cbegin()`, `cend()`, для него "из коробки" начинает работать range-for.

<br />

##### Инвалидация итераторов

Итераторы могут быть инвалидированы, если контейнер меняется.

Под инвалидацией итераторов понимается, что они "ломаются молча", о том, что они сломаны, никак не узнать. Программист обязан уметь читать документацию и отслеживать такие ситуации.

Рассмотрим на примере `std::vector` в предположении, что итератор реализован как указатель на элемент в `std::vector`.

(нарисовать происходящее на доске)

```c++
std::vector<int> v = {10, 20, 30, 40};

auto v_end = v.end();
auto it = v.begin();

v.push_back(50);
// at this point:
// |it|    - might be invalidated
// |v_end| - might be invalidated

std::cout << *it; // oooops, ub
if (v.begin() == v_end)  // ooooops, ub
    ...;
```

https://en.cppreference.com/w/cpp/container/vector/push_back

```c++
std::set<int> s = {20, 30, 40, 50};
        
auto it = s.begin();
std::cout << *it;  // 20

s.insert(10);

std::cout << *it;  // ok, 20
```

Почему так? Потому что документация:

https://en.cppreference.com/w/cpp/container/set/insert

*У каждого контейнера у каждого метода прописан контракт на валидность итераторов (когда и какие итераторы инвалидируются).*

*Читайте документацию внимательно!*

<br />

##### Правильное удаление элементов из map/set по условию

Как неправильно удалять элементы из `std::set`:

```c++
std::set<int> s = {1, 2, 3, 4, 5};

auto it = s.begin();
for(; it != s.end(); ++it)
    if((*it) % 2 == 1)
        s.erase(it);
```

В каком месте баг?

Правильное удаление:

```c++
std::set<int> s = {1, 2, 3, 4, 5};
for(auto it = s.begin(); it != s.end();)
{
    if((*it) % 2 == 1)
        it = s.erase(it);
    else
        ++it;
}
```

<br />

Обобщённо проблема выглядит следующим образом:
    
```c++
for (const auto& item : container) {    
    operate_with(item, container);
    // внутри цикла работа с container-ом не должна
    // инвалидировать его итераторы, иначе перебор
    // элементов в контейнере сломается.
}
```

Проблема (кмк) должна быть решена в Rust на уровне синтаксиса языка.

<br />

##### Операции над итераторами доступа

```c++
std::vector<int> v = {10, 20, 30, 40, 50};
        
auto it = v.begin();

// некоторые итераторы позволяют брать следующий элемент:
auto jt_1 = it + 1;
auto jt_2 = std::next(it);
        
// некоторые итераторы позволяют брать предыдущий элемент:
auto jt_3 = it - 1;         // ?
auto jt_4 = std::prev(it);  // ?
        
// некоторые итераторы позволяют прыгать на n элементов вперёд:
auto jt_5 = it + 4;
auto jt_6 = std::advance(it, 4);

// некоторые итераторы позволяют прыгать на n элементов назад:
auto jt_7 = it - 4;                // ?
auto jt_8 = std::advance(it, -4);  // ?

// некоторые итераторы позволяют считать расстояние между ними:
std::cout << std::distance(it, jt_5);  // 4
```

Стандартные операции над итераторами доступа (access iterators):
* `std::next`
* `std::prev`
* `std::advance`
* `std::distance`

<br />

##### Категории итераторов

Как вы помните, у access iterators у `std::forward_list` нельзя делать `--it`, они только для хождения вперёд и только по одному шагу. А у `std::vector` можно вперёд-назад и на любое число шагов за раз. По этому принципу классифицируются итераторы доступа:
* [Forward Iterator](https://en.cppreference.com/w/cpp/named_req/ForwardIterator)
* [Bidirectional Iterator](https://en.cppreference.com/w/cpp/named_req/BidirectionalIterator)
* [Random Access Iterator](https://en.cppreference.com/w/cpp/named_req/RandomAccessIterator)

Классификация имеет важное значение для алгоритмов. Например, алгоритм сортировки работает только с Random Access Iterator:

```c++
std::vector<int> v = {20, 30, 10};
std::sort(v.begin(), v.end());  // ok
        
std::list<int> l = {20, 30, 10};
std::sort(l.begin(), l.end());  // compile-time error
```

И это отражено в требованиях к алгоритму:
    
https://en.cppreference.com/w/cpp/algorithm/sort

Поэтому для `std::list` реализовали свой `sort`:

https://en.cppreference.com/w/cpp/container/list/sort

```c++
std::list<int> l = {20, 30, 10};
l.sort();
```

<br />

Прочие типы итераторов:
* [Input Iterator](https://en.cppreference.com/w/cpp/named_req/InputIterator)
* [Output Iterator](https://en.cppreference.com/w/cpp/named_req/OutputIterator)
* [Reverse Iterator](https://en.cppreference.com/w/cpp/iterator/reverse_iterator)

##### reverse_iterator

![](reverse_iterator.jpg)

```c++
std::vector<int> v = {10, 20, 30, 40};

// сортировка по возрастанию:
std::sort(v.begin(), v.end());
        
// сортировка по убыванию:
std::sort(v.rbegin(), v.rend());
```

Конвертация iterator <-> reverse_iterator:

Обратите внимание на перескакивание итератора на предыдущий элемент при конвертации.

```c++
std::vector<int> v = {10, 20, 30, 40};
        
auto it = v.begin() + 2; // 30

auto rit = std::make_reverse_iterator(it); // 20 !!!!
++rit; // 10

auto it2 = rit.base();  // 20 !!!!
++it2; // 30
```

<br />

#### Специфика итераторов в С++

Формально, итератор - это класс, который обязан определить методы, требуемые его категорией. Других требований нет.

Формально, итератор не обязан итерироваться по контейнерам или итерироваться вообще по чему либо. Итератор может делать любую работу.

Напишем свой собственный итератор по... простым числам:

```c++
class PrimeNumbersIterator {
private:
    std::uint32_t index_ = 0;
    std::uint32_t value_ = 2;
    
public:
    PrimeNumbersIterator(const std::uint32_t index)
        : index_(index)
        , value_(get_nth_prime_number(index))
    {}
    
    PrimeNumbersIterator(const PrimeNumbersIterator&) = default;
    PrimeNumbersIterator(PrimeNumbersIterator&&) = default;
    PrimeNumbersIterator& operator =(const PrimeNumbersIterator&) = default;
    PrimeNumbersIterator& operator = (PrimeNumbersIterator&&) = default;
    
    // ++it
    PrimeNumbersIterator& operator ++() {
        switch_to_next_prime();
        return *this;
    }

    // it++
    PrimeNumbersIterator operator ++(int) {
        PrimeNumbersIterator old = *this;
        switch_to_next_prime();
        return old;
    }
    
    std::uint32_t operator *() const  {
        return value_;
    }
    
    std::uint32_t get_prime_number_index() const {
        return index_;
    }

private:
    void switch_to_next_prime() {
        ++index;
        do {
            ++value_;
        } while (!is_prime(value_));
    }
};

bool operator == (const PrimeNumbersIterator& lhs,
                  const PrimeNumbersIterator& rhs) {
    return
        lhs.get_prime_number_index() ==
        rhs.get_prime_number_index();
}

bool operator != (const PrimeNumbersIterator& lhs,
                  const PrimeNumbersIterator& rhs) {
    return
        lhs.get_prime_number_index() !=
        rhs.get_prime_number_index();
}


// usage:
PrimeNumbersIterator end(5);
for (PrimeNumbersIterator it; it != end; ++it)
    std::cout << *it;
```

<br />

В стандартной библиотеке есть несколько классов итераторов, реализующих "нестандартный" подход:
* `std::istream_iterator<T>` - читает из потока объекты типа T, пока поток не закончится
* `std::ostream_iterator<T>` - выводит в потом объекты типа T через `operator <<`

Мощь и безобразие итераторов в двух примерах:

```c++
std::istringstream str("0.1 0.2 0.3 0.4");
const double sum = std::accumulate(std::istream_iterator<double>(str),
                                   std::istream_iterator<double>(),
                                   0.);


std::vector<int> v = {1, 2, 3, 4, 5};
std::copy(v.begin(),
          v.end(),
          std::ostream_iterator<int>(std::cout, " "));

```

<br />

**Задача**: найти последнее число 5 в последовательности, предшествующее первому 10

Вариант решения:

```c++
template<typename It>
It function(It begin, It end)
{
    auto it = std::find(begin, end, 10);
    
    if (it == end)
        return end;  // no 10
    
    auto rit = std::find(std::make_reverse_iterator(it),
                         std::make_reverse_iterator(begin),
                         5);

    if (rit == std::make_reverse_iterator(begin))
        return end;  // no 5 before 10
    
    return std::prev(rit.base());    
}

std::list<int> l = {1, 2, 3, 5, 5, 10};
auto it = function(l.begin(), l.end());
auto rit = function(l.rbegin(), l.rend());
```