# Программирование на Python
## Библиотека NumPy
### Ответы на вопросы
#### Про `Counter` и `defaultdict`
Загрузите файл `StudentsPerformance.csv` используя модуль `csv`. Преобразуйте его в следующий формат:

```python
{
    'gender': ['female', 'female', 'female', 'male', ...],
    'race/ethnicity': [...],
    ...
}
```

Также используйте модуль `collections`.

In [1]:
import csv
from collections import defaultdict, Counter

path = 'StudentsPerformance.csv'
data = defaultdict(list)

with open(path, mode='r', newline='') as file:  # file = open(path, mode='r', newline='')
    # after executing this code file will be closed
    csvfile = csv.DictReader(file, delimiter=',')
    
    for line_dict in csvfile:
        for key, value in line_dict.items():
            data[key].append(value)

Без `defaultdict` пришлось бы инициализировать новые ключи с значениями в виде пустыз списков "вручную":

In [2]:
path = 'StudentsPerformance.csv'
data = {}

with open(path, 'r') as file:
    csvfile = csv.DictReader(file, delimiter=',')
    
    for line_dict in csvfile:
        for key, value in line_dict.items():
            if key not in data:
                data[key] = [value]
            else:
                data[key].append(value)

`Counter` поможет посчитать частоту каждого уникального значения в переменной `parental level of education`:

In [3]:
Counter(data['parental level of education'])

Counter({'some college': 226,
         "associate's degree": 222,
         'high school': 196,
         'some high school': 179,
         "bachelor's degree": 118,
         "master's degree": 59})

#### Делаем flat list из списка любой вложенности
**Вариант 1.** NumPy

In [5]:
import numpy as np

nested_list = [[1, 2, 3], [4, 5, 6]]  # получится только с массивом "правильной формы"
nested_list2 = [[[1], 2, 3], [4, 5, 6]]

In [10]:
np.array(nested_list).flatten()

array([1, 2, 3, 4, 5, 6])

In [11]:
np.array(nested_list2).flatten()

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 2 dimensions. The detected shape was (2, 3) + inhomogeneous part.

**\[только для степени вложенности 2\] Вариант 2.1.** List comprehension

In [12]:
nested_list = [[1, 2, 3], [4, 5, 6]]

In [13]:
[value for lst in nested_list for value in lst]

[1, 2, 3, 4, 5, 6]

**\[только для степени вложенности 2\] Вариант 2.2.** `sum`

In [14]:
nested_list = [[1, 2, 3], [4, 5, 6]]

sum(nested_list, [])

[1, 2, 3, 4, 5, 6]

**Вариант 3.** Рекурсивно

In [22]:
def flatten(nested: list) -> list:
    global flat
    
    for elem in nested:
        if not isinstance(elem, list):  # if not hasattr(elem, '__iter__')
            flat.append(elem)
        else:
            flatten(elem)

In [26]:
nested_list = [[1, 2, 3], [4, 5, 6]]
very_nested_list = [[1, [[[[[2]]]]], 3], [4, 5, 6]]

In [27]:
flat = []

flatten(nested_list)

In [28]:
flat

[1, 2, 3, 4, 5, 6]

In [29]:
flat = []

flatten(very_nested_list)

In [30]:
flat

[1, 2, 3, 4, 5, 6]

#### `lambda` и `key`

In [None]:
# наш код здесь

#### `*args` и `**kwargs`
Необходимо написать функцию `test_function`, которая:

- будет принимать на вход другую функцию, аргументы к ней и предполагаемое возвращаемое значение при вызове с такими аргументами;
- вызывать функцию с указанными аргументами;
- сравнивать предполагаемое значение и фактическое и возвращать `True`, если они совпали, и `False` иначе.

In [1]:
def test_function(fun, value):
    fun_result = fun()

    return fun_result == value

In [2]:
def constant():
    return 5

In [3]:
test_function(constant, 5)

True

Схема аргументов в `test_function` типичная и продиктована порядком аргументов:

```python
def func(a, b, c=0, d=1, *args, e, f, **kwargs):
   ...
```

См. еще [пример](https://numpy.org/doc/stable/reference/generated/numpy.apply_along_axis.html).

In [9]:
def test_function(fun, value, *args, **kwargs):
    fun_result = fun(*args, **kwargs)
    
    return fun_result == value

In [7]:
def square(n):
   return n ** 2

In [10]:
test_function(square, 36, 6)

True

In [11]:
def area(a, b):
   return a * b

In [13]:
test_function(area, 30, 6, 5)

True

In [15]:
def concat_dicts(*dicts):
    concatenated = {}

    for dct in dicts:
        concatenated.update(dct)
    
    return concatenated

In [16]:
dict1 = {'a': 1}
dict2 = {'b': 2}

result = {'a': 1, 'b': 2}

test_function(concat_dicts, result, dict1, dict2)

True

#### Еще немного про рекурсию
Самое главное в рекурсии:

- определить ветку, в которой мы выходим из рекурсии;
- в остальных ветках "продвигаться" к тому, чтобы в один момент оказаться в упомянутой выше ветке.

Напишите функцию, которая бы считала факториал целого положительного числа `n`.

In [None]:
# наш код здесь

Копирование изменяемых объектов в Python не идеально:

In [None]:
some_dict = {
    'a': 1,
    'b': {
        'c': 0
    }
}

In [None]:
some_dict_copied = some_dict.copy()

In [None]:
some_dict_copied['b']['c'] = 1

In [None]:
some_dict_copied

In [None]:
some_dict

Напишите функцию `deepcopy`, которая принимает на вход словарь любой степени вложенности и копирует его, создавая полностью новый объект. В качестве изменяемых значений по условию могут встретиться только словари.

In [None]:
def deepcopy(mutable: dict) -> dict:  # from copy import deepcopy
    mutable_copied = {}

    for key, value in mutable.items():
        if isinstance(value, dict):
            value = deepcopy(value)
            mutable_copied[key] = value
        else:
            mutable_copied[key] = value

    return mutable_copied

In [None]:
some_dict = {
    'a': 1,
    'b': {
        'c': 0
    }
}

In [None]:
some_dict_copied = deepcopy(some_dict)

In [None]:
some_dict_copied['b']['c'] = 1

In [None]:
some_dict_copied

In [None]:
some_dict

### Наконец-то NumPy
Вам дан массив данных, представленный в виде списка списков. Каждый вложенный список представляет собой измерение одного параметра для разных индивидуумов. В процессе обработки данных вам часто придется сталкиваться с тем, что параметры могут иметь разную шкалу. Существуют различные способы решения данной проблемы, среди которых - т. н. стандартизация, приводящее значения к стандартному нормальному распределению (большинство значений от -3 до 3). Формула выглядит следующим образом (в данном случае `x` - каждое значение, т. е. операцию ниже необходимо выполнить с каждым значением наших данных):

![standardization](https://i.ibb.co/THbWKqM/1-YSAAU-v-I8-Ol-HQz-G5-A1-Sg.png)

Напишите функцию, которая выполняет эту стандартизацию для двухмерного массива. При этом должна быть предусмотрена возможность осуществить это по строкам, по колонкам и для всего массива в целом.

Решите задачу в двух вариантах: 1) используя ТОЛЬКО встроенные средства Python и 2) с помощью `numpy`. Сравните эффективность двух подходов.

In [None]:
import numpy as np

# (псевдо)случайно генерируем матрицу 10 * 10000 из равномерного распределения с границами от -1000 до 1000
simulated_data = np.random.uniform(-1000, 1000, (10, 10000))
simulated_data_list = simulated_data.tolist()

**Python**

In [None]:
# наш код здесь

**NumPy**

In [None]:
# наш код здесь