# **1. Написать функцию на Python**

Напиши функцию, которая удалит дубликаты в списке. Список не отсортирован. Необходимо сохранить порядок сортировки оригинального списка.

Примеры:

*   [1, 2, 3, 1] → [1, 2, 3]
*   [1, 3, 2, 1, 5, 3, 5, 1, 4] → [1, 3, 2, 5, 4]


Какая асимптотическая сложность у этой функции?

Если задание покажется слишком простым, можешь дополнительно написать юнит тест или doctest.


In [1]:
def delete_duplicates(input_array):
  seen_elements = set()
  output_array = []
  for element in input_array:
    if element not in seen_elements:
      seen_elements.add(element)
      output_array.append(element) 
  return output_array

Асимптотическая сложность написанной функции $O(n)$. Действительно, внутри цикла по $n$ элементам списка проверяется, встречался ли ранее этот элемент. Это проверяется с помощью множества `seen_elements`, а поскольку `set` реализован с помощью хэшей, то такая проверка в среднем выполняется за $O(1)$. Добавление элемента в `seen_elements` и `output_array` тоже выполняется за $O(1)$.

##Юнит тест

In [2]:
import unittest

class DeleteDuplicatesTest(unittest.TestCase):
  def test_empty_array(self):
    self.assertEqual(delete_duplicates([]), [])  

  def test_constant_num_array(self):
    self.assertEqual(delete_duplicates([1, 1, 1, 1, 1, 1]), [1])   

  def test_constant_string_array(self):
    self.assertEqual(delete_duplicates(['a', 'a', 'a', 'a']), ['a'])       

  def test_alternating_numbers(self):
    input_array = [2, 1, 2, 1, 3, 2, 2]
    expected_output = [2, 1, 3]
    self.assertEqual(delete_duplicates(input_array), expected_output)

  def test_alternating_strings(self):
    input_array = ['a', 'b', 'b', 'a', 'c', 'b', 'b']
    expected_output = ['a', 'b', 'c']
    self.assertEqual(delete_duplicates(input_array), expected_output)

  def test_alternating_numbers_and_strings(self):
    input_array = ['a', 1, 'b', 2, 1, 'a', 2, 'b', 'b', 2, 2, 1]
    expected_output = ['a', 1, 'b', 2]
    self.assertEqual(delete_duplicates(input_array), expected_output)            

  def test_example_from_task_1(self):
    input_array = [1, 2, 3, 1]
    expected_output = [1, 2, 3]
    self.assertEqual(delete_duplicates(input_array), expected_output)

  def test_example_from_task_2(self):
    input_array = [1, 3, 2, 1, 5, 3, 5, 1, 4]
    expected_output = [1, 3, 2, 5, 4]
    self.assertEqual(delete_duplicates(input_array), expected_output)


unittest.main(argv=[''], verbosity=2, exit=False)

test_alternating_numbers (__main__.DeleteDuplicatesTest) ... ok
test_alternating_numbers_and_strings (__main__.DeleteDuplicatesTest) ... ok
test_alternating_strings (__main__.DeleteDuplicatesTest) ... ok
test_constant_num_array (__main__.DeleteDuplicatesTest) ... ok
test_constant_string_array (__main__.DeleteDuplicatesTest) ... ok
test_empty_array (__main__.DeleteDuplicatesTest) ... ok
test_example_from_task_1 (__main__.DeleteDuplicatesTest) ... ok
test_example_from_task_2 (__main__.DeleteDuplicatesTest) ... ok

----------------------------------------------------------------------
Ran 8 tests in 0.011s

OK


<unittest.main.TestProgram at 0x7f508348a240>

# **2. Написать SQL запрос**

Дана таблица employees всех сотрудников компании. Поля:

*   full_name TEXT (PK),
*   position TEXT,
*   department TEXT.


Напиши запрос, выводящий все отделы, в которых меньше 5 разработчиков (position = 'Software Developer').



```
SELECT department
FROM employees
EXCEPT 
SELECT department
FROM employees
WHERE position = 'Software developer'
GROUP BY department
HAVING COUNT(*) >= 5
```

В СУБД, которые не поддерживают `EXCEPT` (например, в MySQL), можно написать запрос в таком виде:


```
SELECT DISTINCT department
FROM employees
WHERE department NOT IN(
  SELECT department
  FROM employees
  WHERE position = 'Software developer'
  GROUP BY department
  HAVING COUNT(*) >= 5
)
```

Написанный в скобках подзапрос находит все отделы, в которых не меньше 5 разработчиков. Затем эти отделы исключаются из списка всех отделов. 

**Замечание.** Просто написать такой же запрос, как в скобках, но с `HAVING COUNT(*) < 5` не сработало бы: тогда не выводились бы те отделы, в которых вообще нет разработчиков.






# **3. Решить задачу**


Подкинули монету N раз. Кол-во случаев, когда выпал орёл, на 10% больше, чем кол-во случаев, когда выпала решка. При каком N мы можем сказать, что монета «нечестная» (орёл и решка выпадают с разной вероятностью)?

## Первый способ

 **Проверка гипотез о значениях параметра биномиального распределения**

Даны $N$ случайных величин $(\xi_1, \xi_2, \dots, \xi_N)$ со значениями $(x_1, x_2, \dots, x_N)$. При этом $\xi_k = 
\begin{cases} 
0&\text{с вероятностью $1-p$} \\
1 &\text{с вероятностью $p$}\\
\end{cases}$

Обозначим $S_N = \sum\limits_{i = 1}^{N} \xi_i$. Тогда $S_N$ имеет биномиальное распределение с параметрами $(N, p)$. Другими словами, $P(S_N = m) = C_N^m p^m (1 - p)^{N-m}$.

Рассмотрим две гипотезы:

$H_0$: $p = p_0$

$H_1$: $p\neq p_0$

**Статистика:** $T(\xi) = S_N$

**Критерий:** если $T(x) \leq b_{(N, p_0)}\left(\frac{\alpha}{2}\right)$ или $T(x) \geq b_{(N, p_0)}\left(1-\frac{\alpha}{2}\right)$, то $H_0$ отклоняется в пользу $H_1$, иначе принимается. Здесь за $b_{(N, p_0)}\left(\alpha\right)$ обозначена $\alpha$-квантиль биномиального распределения $B(N, p)$.


Всего было $N$ подбрасываний монеты. Пусть выпало $y$ решек. Тогда орлов выпало $1.1y$.

Значит, $N = y + 1.1y$. Или, другими словами, $N = 2.1y$. Поскольку  $y$ и $N$ — натуральные числа, то $N$ должно нацело делиться на $21$, а $y$ — нацело делиться на $10$.

Во введённых выше обозначениях пусть $\xi_k = 0$ соответствует выпадению орла, а $\xi_k = 1$ — выпадению решки. При этом $p_0 = 0.5$ и $\alpha = 0.05$ (стандартный уровень значимости).

Критерий проверим с помощью следующего кода




In [3]:
from scipy import stats

p_value_array = []
p_val = 1
num_iter = 1
while p_val > 0.05:
  p_val = stats.binom_test(num_iter * 10, num_iter * 21, 0.5, alternative = 'two-sided') 
  # num_iter * 21 equals N and num_iter * 10 corresponds to the number of tails 
  p_value_array.append(p_val) 
  num_iter = num_iter + 1
print('N = {} * 21 = {}'.format(num_iter, num_iter * 21))

N = 84 * 21 = 1764


Итого, при $N \geq 1764$ мы можем сказать, что монета «нечестная» (орёл и решка выпадают с разной вероятностью).

##Второй способ

**Асимптотический критерий на основе центральной предельной теоремы**

Обозначения такие же, как в первом решении:

$H_0$: $p = p_0$

$H_1$: $p\neq p_0$

**Статистика:** $T(\xi) = S_N = \sum\limits_{i = 1}^{N} \xi_i$


По центральной предельной теореме при выполнении гипотезы $H_0$ величина $\frac{S_N - Np_0}{\sqrt{Np_0(1-p_0)}}$ имеет асимптотическое нормальное распределение $\mathcal{N}(0, 1)$.

**Критерий:** Обозначим $Z(x) = \frac{T(x) - Np_0}{\sqrt{Np_0(1-p_0)}}$. Тогда если $Z(x)< -z\left(1-\frac{\alpha}{2}\right)$ или $Z(x)> z\left(1-\frac{\alpha}{2}\right)$, то $H_0$ отклоняется в пользу $H_1$, иначе принимается. Здесь за $z\left(\alpha\right)$ обозначена $\alpha$-квантиль стандартного нормального распределения $\mathcal{N}(0, 1)$.





В нашей задаче $T(x)$ это число выпавших решек, то есть $\frac{N}{2.1}$, а $p_0 = 0.5$. Значит, $Z(x) = \frac{\frac{N}{2.1}-\frac{N}{2}}{{\sqrt{\frac{N}{2\cdot 2}}}}= 2\sqrt{N}\left(\frac{1}{2.1}-\frac{1}{2}\right)=\frac{-\sqrt N}{21}$.

Итак, при $\alpha = 0.05$ неравенство $Z < -z\left(1-\frac{\alpha}{2}\right)$ равносильно $\frac{\sqrt N}{21}>1.960$, что в свою очередь равносильно $N > (21\cdot 1.960)^2 \approx 1694$. Ближайшее к полученному число, которое делится на $21$, это $1701$. То есть согласно асимптотическому критерию при $N \geq 1701$ мы можем сказать, что монета «нечестная».



Два рассмотренных критерия дали немного отличающиеся ответы. Асимпотический критерий даёт лишь приблизительный ответ, потому что критерий верен в пределе при $N\to\infty$. Но зато этот критерий требует меньше вычислений и решается без написания кода. Действительно, ведь используются стандартные "табличные" квантили для распределения $\mathcal{N}(0, 1)$. В то время как нужные для первого критерия кватили $b_{(N, p_0)}(\alpha)$ зависят от неизвестного $N$.