# Тестовое задание Data Analyst | Задание 1

* Тестовое задание состоит из нескольких задач, которые необходимо реализовать на языке Python.
* Допускается применение дополнительных пакетов, будет плюсом распараллелить задачи для ускорения выполнения там где это требуется.
* Все тестовые датасеты загружаем и процессим (делаем выборки, джойны, фильтруем и т.д.) в коде.
* Если у вас не получилось сделать какие-то шаги, но вы понимаете все остальное - пропускайте их и делайте то  в чем разбираетесь.
* Результат выполнения - ссылка на github с jupiter notebook. Высылаем все ответы / ссылки на fediaeva@skytecgames.com. Так же напишите сколько часов у вас ушло на выполнение.
* При возникновении вопросов по тестовому заданию - пишем туда же, на  fediaeva@skytecgames.com
* Необходимо сделать минимум 3 задания на ваш выбор. Чем больше заданий сделали, тем лучше.
* Тестовый датасет прилагается к письму sqlite файлом `testcase.db.zip`

---

## 1 Успешность прототипа

Известно что компания конкурент выпустила 1000 прототипов игр, из которых было 5 успешных. Наша компания выпустила 200 прототипов из которых ни один не был успешен.

Какова вероятность что следующий (201й) наш прототип будет успешен? Решите задачу классическим и баесовским подходами.

Исходные данные:
- | Выпущенных игр $ (N) $ | Успешных прототипов $ (s) $
-|-|-
Компания-конкурент $ (B) $ | 1000 | 5
Наша компания $ (A) $ | 200 | 0

Найти:
* вероятность, что следующий (201й) наш прототип будет успешен

In [1]:
import pandas as pd

Создадим таблицу с исходными данными:

In [2]:
# creating table width data
data_01 = pd.DataFrame.from_dict({
    'total_games': [1000, 200],
    'success': [5, 0]
})

# changing names of indexes
data_01.index = ['competitor_company', 'our_company']

# checking results
data_01

Unnamed: 0,total_games,success
competitor_company,1000,5
our_company,200,0


<br>

### 1.1 Классический подход

**Без кода**

Расчёт вероятности следующего прототипа:

Вероятность | Значение
-|-
Успех нашей компании | $ P(A) = \frac { A_s }{ A_N } = \frac {0}{200} = 0 $

<br>

><br>
><b>Вывод</b>
>
>Вероятность того, что следующий (201-й) наш прототип будет успешен = 0
><br><br>

**Python**

Рассчитаем вероятности с помощью классического подхода:

In [3]:
# calculating probabilities with classic method
data_01['next_game_success_prob_classic'] = data_01.apply(
    lambda x: x['success'] / x['total_games'],
    axis=1
)

# checking results
data_01

Unnamed: 0,total_games,success,next_game_success_prob_classic
competitor_company,1000,5,0.005
our_company,200,0,0.0


<br>

### 1.2 Байесовский подход

**Без кода**

Расчёт вероятности следующего прототипа:

Вероятность | Условие | Значение
-|-|-
Успех нашей компании | | $ P(A) = \frac { A_s }{ A_N } = \frac {0}{200} = 0 $
Успех компании-конкурента | | $ P(B) = \frac { B_s }{ B_N } = \frac {5}{1000} = 0.005 $
Успех нашей компании | Успех компании-конкурента | $ P(A \cap B) = P(B \| A) \times P(A) = 0 $
Успех нашей компании | Компания-конкурент уже выпустила успешные прототипы | $ P(A \| B) = \frac { P(A \cap B) } { P(B) } = \frac {0}{0.005} = 0 $

<br>

><br>
><b>Вывод</b>
>
>Вероятность того, что следующий (201-й) наш прототип будет успешен = 0.
><br><br>

**Python**

Рассчитаем вероятности с помощью байесовского подхода:

In [4]:
def calc_prob_bayes(data: pd.DataFrame, index_A: str) -> float:
    '''Calculation of probabilities with Bayes algorithm

        Args:
        - data (pd.DataFrame) - initial DataFrame
        - index_A (str) - name of a column with leading success state

        Returns:
        - float - probability of event
    '''
    
    if index_A == 'our_company':
        p_A = data.loc['our_company', 'next_game_success_prob_classic']
        p_B = data.loc['competitor_company', 'next_game_success_prob_classic']
    else:
        p_A = data.loc['competitor_company', 'next_game_success_prob_classic']
        p_B = data.loc['our_company', 'next_game_success_prob_classic']
    
    p_BA = 0
    p_A_intersect_B = p_A * p_BA

    if p_B > 0:
        p_AB = p_A_intersect_B / p_B
    else: # exception
        p_AB = 0.0

    return p_AB


# calculating probabilities with bayes algorithm
data_01['next_game_success_prob_bayes'] = [calc_prob_bayes(data_01, col) for col in data_01.index.values]

# checking results
data_01

Unnamed: 0,total_games,success,next_game_success_prob_classic,next_game_success_prob_bayes
competitor_company,1000,5,0.005,0.0
our_company,200,0,0.0,0.0
