## Тестовое задание на позицию аналитика данных

#### <span style="color:red;"> Задача 1 </span>
На ферме содержатся шесть разных видов животных, и каждый раз, когда фермер заходит в сарай, он видит одно случайное животное. За день фермер заходит в сарай 6 раз. Каково математическое ожидание количества разных видов животных, которые фермер увидит за день?

**Ответ: 3.99**
- Используем модель "проб и покрытий". Математическое ожидание можно выразить через сумму индикаторных переменных для каждого вида: `X = X₁ + X₂ + ... + X₆`, где Xᵢ = 1, если вид i был увиден хотя бы раз, и 0 иначе. X - общее количество разных животных, которые фермер увидел. Тогда `E[X] = Σ E[Xᵢ]` для всех i от 1 до 6.
- Для каждого Xᵢ, вероятность того, что вид i не был увиден ни разу за 6 попыток, равна (5/6)^6. Следовательно, вероятность того, что вид i был увиден хотя бы раз, равна `1 - (5/6)^6`.<br>
  Тогда за 6 заходов `E[Xᵢ] = 1 - (5/6)^6`.
- Итоговое математическое ожидание будет `6 * [1 - (5/6)^6] = 3.99`.

#### <span style="color:red;"> Задача 2 </span>
В конкурсе участвуют 80 шеф-поваров с уникальными уровнями мастерства. В первом этапе судьи случайным образом распределяют их по парам (в любом состязании двух шефов выигрывает тот, у кого выше уровень мастерства). На втором этапе шефы снова случайно образуют пары для финального раунда (пары могут повториться). Победную награду получают те, кто выиграл в обоих этапах. Каково математическое ожидание числа победителей?

**Ответ: 26.84**
- Допустим, что уникальные ранги мастерства можно распределить для каждого шефа от 1 до 80. Тогда для шефа с рангом k вероятность победить в одном этапе будет `(k-1)/79`, так как он может встретиться с любым из 79 других шефов, и k−1 из них слабее.
- Тогда вероятность победить в двух этапах будет `((k-1)/79)^2`
- Математическое ожидание числа победителей будет суммой по всем k от 1 до 80: `[(k-1)^2]/(79^2) = 167,480 / 6,241 ≈ 26.84`

#### <span style="color:red;"> Задача 3 </span>
На пустынном шоссе вероятность появления автомобиля за 30-минутный период составляет 0.95. Какова вероятность его появления за 10 минут? а за 27 минут?

**Ответ: 63.2% 93.3%**
- Данная задача предполагает, что события появления автомобиля происходят в рамках пуассоновского процесса (события редкие и независимые). Вероятность появления автомобиля за определённый период связана с интенсивностью процесса λ. Вероятность того, что за время t не произойдет ни одного события, равна `e^(-λt)`.<br>
  Тогда вероятность появления хотя бы одного события за время t будет `1 - e^(-λt)`.
- Из условия `0.95 = 1 − e^(λ * 30)` => `−λ * 30 = ln(0.05)` => интенсивность λ ≈ 0.1 (событий в минуту)
- Для t = 10: `1 − e^(−0.1 * 10) = 1 − e^−1 = 0.6321`
- Для t = 27: 0.9328

#### <span style="color:red;"> Задача 4 </span>
Реализовать функцию (или тело функции), которая проверяет на изоморфность два слова. Пояснение: строки s и t называются изоморфными, если все вхождения каждого символа строки s можно последовательно заменить другим символом и получить строку t. Порядок символов при этом должен сохраняться, а замена — быть уникальной. Так, два разных символа строки s нельзя заменить одним и тем же символом из строки t, а вот одинаковые символы в строке s должны заменяться одним и тем же символом.

#Пример:
```python
s = 'paper' 
t = 'title' 
print(is_isomorphic(s, t))
#Вывод: 
True
```
Оценить оптимальность решения по времени и памяти.

In [10]:
def is_isomorphic(s, t):
    if len(s) != len(t):
        return False
    
    s_to_t = {}
    t_to_s = {}
    
    for char_s, char_t in zip(s, t):
        if char_s in s_to_t:
            if s_to_t[char_s] != char_t:
                return False
        else:
            if char_t in t_to_s:
                if t_to_s[char_t] != char_s:
                    return False

            s_to_t[char_s] = char_t
            t_to_s[char_t] = char_s
    
    return True

print(is_isomorphic('paper', 'title'))  
print(is_isomorphic('foo', 'bar'))    
print(is_isomorphic('egg', 'add')) 

True
False
True


- Проходим по всем символам строк s и t один раз. Если длина строк равна n, то цикл выполняется n раз.
- Проверка наличия ключа в словаре выполняется за O(1).
- Добавление элемента в словарь также выполняется за O(1).
- Итоговая временная сложность: O(n), где n — длина строк.
- В худшем случае (если все символы уникальны) каждый словарь будет содержать n элементов.
- Таким образом, общий объем памяти, используемый словарями, составляет O(n).

#### <span style="color:red;"> Задача 5 </span>
Реализовать функцию (или тело функции), которая находит единственное отсутствующее число из последовательности натуральных чисел 1,2,…,n.<br>

#Пример:
```python
nums = [1,2,3,4,5,6,8,9,10,11]
print(missing_number(nums))
#Вывод: 
7
```
Оценить оптимальность решения по времени и памяти.


In [17]:
def missing_number(nums):
    for i in range(1, len(nums)):
        if nums[i] - nums[i-1] != 1:
            return nums[i-1] + 1

print(missing_number([1,2,3,4,5,6,8,9,10,11]))

7


- Цикл проходит по списку nums один раз, выполняя n-1 итераций, где n - длина списка.
- Вычитание (nums[i] - nums[i-1]) и сравнение (!= 1) выполняются за O(1).
- Возврат результата (return nums[i-1] + 1) также выполняется за O(1).
- Итоговая временная сложность O(n), где n - длина списка.
- Используется только несколько переменных, которые занимают константное пространство. Список nums передается в функцию и не копируется.
- Итоговая пространственная сложность O(1).

#### <span style="color:red;"> Задача 6 </span>
Реализовать функцию (или тело функции), которая при введении натурального числа n разбивает его на простые множители (представить его в виде произведения простых чисел).<br>

#Пример:
```py
n = 56
print(prime_factors(n))
# Вывод:
[2, 2, 2, 7]
```
Оценить оптимальность решения по времени и памяти.

In [33]:
def prime_factors(n):
    result = []
    i = 2  

    while n > 1:
        if n % i == 0:
            result.append(i)
            n = n / i  
        else:
            i += 1  
            
    return result

print(prime_factors(56))

[2, 2, 2, 7]


- На каждой итерации n уменьшается как минимум в 2 раза, поэтому максимальное количество итераций цикла - O(log n).
- Внутренние операции цикла выполняются за O(1).
- В худшем случае (когда n простое число) цикл выполнится O(sqrt(n)) раз, так как максимальный делитель, который нужно проверить это sqrt(n).
- Оценка по памяти: в худшем случае (когда n степень двойки) список result будет содержать O(log n) элементов.

#### <span style="color:red;"> Задача 7 </span>
Есть таблица examination с двумя полями: id (id абитуриента), scores (кол-во набранных баллов дополнительного вступительного испытания от 0 до 100).

Требуется реализовать запрос, который создаёт колонку с позицией абитуриента в общем рейтинге. 

```sql
SELECT *,
	RANK() OVER (ORDER BY scores DESC)
FROM examination;
```

#### <span style="color:red;"> Задача 8 </span>
Представьте две таблицы: первая содержит 30 строк, а вторая — 20 строк. Мы выполняем операцию FULL JOIN между ними. 
Какой диапазон возможного количества строк может быть в результирующей таблице, если учесть, что ключи для соединения могут быть как полностью совпадающими, так и абсолютно уникальными?

Ответ в краткой форме, например: минимально 10 и максимально 3000 строк

**Ответ: минимально 30 строк, максимально 50 строк.**

#### <span style="color:red;"> Задача 9 </span>
```sql
create table account
(
    id integer, -- ID счета
    client_id integer, -- ID клиента
    open_dt date, -- дата открытия счета
    close_dt date -- дата закрытия счета
)


create table transaction
(
    id integer,  -- ID транзакции
    account_id integer,  -- ID счета
    transaction_date date,  -- дата транзакции
    amount numeric(10,2), -- сумма транзакции
    type varchar(3) -- тип транзакции
)
```
Вывести ID клиентов, которые за последний месяц по всем своим счетам совершили покупок меньше, чем на 5000 рублей. 

Без использования подзапросов и оконных функций.

```sql
SELECT a.client_id
FROM account AS a
JOIN transaction AS t ON a.id = t.account_id
WHERE t.transaction_date >= DATE_TRUNC('month', CURRENT_DATE)
  	AND t.transaction_date < DATE_TRUNC('month', CURRENT_DATE) + INTERVAL '1 month'
  	AND t.type = 'OUT' 
GROUP BY a.client_id
HAVING SUM(t.amount) < 5000;
```

#### <span style="color:red;"> Задача 10 </span>
Вы – аналитик компании Самокат (сервис по доставке продуктов на дом).
Команда решила протестировать гениальную идею замены транспортного средства доставщиков и провели АБ эксперимент в небольшом городке РФ. Результаты превзошли все ожидания: время доставки значимо снизилось в несколько раз! Руководству не терпится применить изменения по всей стране. 

Делаем? Выберите все верные утверждения: 
- Делаем. Только применяем изменения в таком же масштабе (количество транспортных средств с изменением), как в городе, где проводили тест.
- Тест нерепрезентативен, поэтому результаты применять по всей стране нельзя.
- Тест репрезентативен относительно своей генеральной совокупности: таких же небольших городов, можем применять только в подобных городах.
- Наличие эффекта подтвердило потенциал идеи, поэтому сразу применять по всем городам не будет, но можем провести эксперимент в других городах.

**Ответ: все варианты, кроме первого**

#### <span style="color:red;"> Задача 11 </span>
Что такое p-value в статистическом тестировании?
- Вероятность, что нулевая гипотеза верна
- Вероятность наблюдения такого или более экстремального результата при условии, что нулевая гипотеза верна
- Значение уровня значимости, при котором отвергается нулевая гипотеза
- Среднее значение выборки

**Ответ: Вероятность наблюдения такого или более экстремального результата при условии, что нулевая гипотеза верна**

#### <span style="color:red;"> Задача 12 </span>
Вам необходимо провести аб-тестирование, целевая метрика - среднее число уникальных покупок на пользователя. Размер выборки велик (более 5 млн наблюдений в группах теста и контроля), значительные выбросы в выборках отсутствуют.
Можем ли мы применить t-критерий Стьюдента для проверки гипотезы о неравенстве средних в тестовой и контрольной группах при условии, что распределение уникальных покупок является логнормальным?

**Ответ: да**
- При большом размере выборки распределение выборочных средних стремится к нормальному (ЦПТ), даже если исходные данные ненормальны. Это позволяет использовать t-критерий для сравнения средних.

#### <span style="color:red;"> Задача 13 </span>
Вас просят разработать модель, классифицирующую лошадок и пони. Вместо разработки вы нашли на GitHub две интересные модели и после прогона на ваших данных одна из них показала ROC-AUC=0.7, а другая ROC-AUC=0.1.

Какую модель вы возьмете для дальнейшей работы и что будете с ней делать?

**Ответ:**
- ROC-AUC = 0.1 - аномально низкое значение, которое может указывать на техническую ошибку, например инверсию классов. Если это так, инвертирую выходы: ROC-AUC = 1 - 0.1 = 0.9. Если нет, тогда выберу первую модель и оптимизирую её гиперпараметры.

#### <span style="color:red;"> Задача 14 </span>
Классификатор выдал следующие прогнозируемые метки класса и вероятности принадлежности к классу "1":<br>
![](https://raw.githubusercontent.com/Vendor62/tech_interview/refs/heads/main/media/05.png)<br>

На основе полученных данных рассчитайте метрику ROC_AUC. Тезисно опишите ход решения.

**Ответ:**
- Посчитать количество пар "класс 1 vs класс 0", где вероятность класса 1 выше:
    - Всего пар: 7 (класс 1) × 8 (класс 0) = 56.
    - Правильные пары: 42
- Вычислить ROC-AUC: 42 / 56 = 0.75
- Модель показывает умеренное качество разделения классов, AUC > 0.7

#### <span style="color:red;"> Задача 15 </span>
Cуществует ли связь между количеством чашек кофе, выпитых студентами в течение экзаменационного дня, и их итоговым баллом за экзамен? Рассчитайте линейную корреляцию Пирсона, на основе данных. Ответ округлите до сотых. Какой вывод можно сделать на основе полученного результата?<br>
![](https://raw.githubusercontent.com/Vendor62/tech_interview/refs/heads/main/media/06.png)

- Среднее количество чашек - 2.3, средний балл - 73.2
- Далее находим отклонения от среднего для всех значений обеих переменных и считаем произведения отклонений. Находим сумму произведений `−94.2`.
- Считаем суммы квадратов отклонений: для чашек 8.1, для баллов 1500.6
- Считаем по формуле корреляцию: `-94.2/(sqrt(8.1 * 1500.6)) = -0.85`
- По шкале Чеддока наблюдается сильная отрицательная линейная связь. Это означает, что с увеличением числа чашек кофе баллы студентов снижаются.