# Финал Академии ИИ

## Доступные данные

Как и в задаче он-лайн этапа, будут доступны обучающая и тестовая выборки:
- `academy2019_final_train.csv`, `academy2019_final_test.csv`: признаки от организаторов
- `academy2019_final_train.jsonlines`, `academy2019_final_test.jsonlines`: расширенный набор данных в формате строчек с JSON объектами

Дополнительные поля, которые добавлены в JSONLines:

- `kills_log`, `deaths_log`: списки убийств и смертей героя во время игры, указано время и координаты события на карте
- `wards`: список установленных игроком "вардов" — специальных игровых предметов, которые дают обзор карты в некотором радиусе
- `gold_by_reason`: информация о том, по какой причине сколько золота было получено
- `actions`: действия мышкой за первые 10 минут игры, в колоночном формате со следующими полями:
  - `time`: время действия
  - `order_type`: тип действия
  - `camera_(x,y)`: положение камеры в момент действия
  - `cursor_(x,y)`: положение курсора на экране в момент действия
  - `pos_(x,y)`: координаты действия на игровой карте; в случае если действие не относится к карте — (0, 0)
- `pings`: "пинги" — сообщения, которые делал игрок союзникам о некоторой важной точке на карте, в колоночном формате

Данные он-лайн этапа доступны могут также быть полезны для решения задачи.

## Предсказание

Необходимо для каждого тестового примера оценить вероятность `P(skilled = 1)`. Для этого в моделях SciKit-Learn можно использовать методы `model.predict_proba()`. 

Для оценки качества предсказаний будет использоваться метрика ROC-AUC.

## Чтение таблиц с признаками

In [1]:
import pandas
df_train = pandas.read_csv('data/final/academy2019_final_train.csv', index_col='id')
df_test = pandas.read_csv('data/final/academy2019_final_test.csv', index_col='id')

FileNotFoundError: ignored

In [0]:
df_train.head()

## Пример обработки расширенного набора данных

In [0]:
import json

with open('data/final/academy2019_final_train.jsonlines') as fin:
    for line in fin:
        record = json.loads(line)
        
        record_id = record['id']
        df_actions = pandas.DataFrame(record['actions'])
        df_pings = pandas.DataFrame(record['pings'])
        
        # обработка записи
        
        break

In [0]:
df_actions.head()

## Облачные вычисления

Для решения задачи можно использовать ТОЛЬКО:
- рабочие персональные компьютеры
- [Google Colab](https://colab.research.google.com)

Данные в Colab доступны по адресам:
- данные финала `https://s3.eu-central-1.amazonaws.com/ai-academy-2019/public/final/{filename}`
- данные он-лайн этапа `https://s3.eu-central-1.amazonaws.com/ai-academy-2019/public/online/{filename}`

In [0]:
df = pandas.read_csv(
    'https://s3.eu-central-1.amazonaws.com/ai-academy-2019/public/final/academy2019_final_train.csv',
    index_col='acid',
)

## Вопросы по задачам и обсуждение

Добавляйтесь в Discord чат [Party Parrot](https://discord.gg/APmbju), в канале `#ai_academy_final` можно обсуждать постановку задачи.

**Помните**, что решать задачу необходимо самостоятельно. Обсуждение решения во время соревнования не допускается.