## **Анализ данных**

In [1]:
import numpy as np
import pandas as pd

### Загрузка данных

In [None]:
cases = pd.read_csv('../data/cases_labeled.csv', sep=';')
print(cases.columns.to_list())
cases.head()

['Номер поручения', 'Заказчик', 'Дата поручения', 'Выполнено', 'Дата выполнения', 'Затрачено дней', 'Сумма вознаграждения', 'Описание', 'Тип поручения']


Unnamed: 0,Номер поручения,Заказчик,Дата поручения,Выполнено,Дата выполнения,Затрачено дней,Сумма вознаграждения,Описание,Тип поручения
0,11000,Анна,1051-08-11,да,1051-08-21,4.0,6000,В лесу по дороге от пещеры звери нападают на л...,3
1,11001,Мария,1051-07-09,да,1051-09-02,2.0,20000,В лесу по дороге от пещеры были замечены разбо...,3
2,11002,Эмилио,1053-10-05,да,1053-10-20,7.0,22500,По дороге из деревни монстры похитили путников...,1
3,11003,Бьянка,1052-11-24,да,1052-12-02,5.0,5500,Недалеко от города видели монстров. Нужно побе...,3
4,11004,Бьянка,1052-02-23,да,1052-03-30,8.0,10500,В деревне у меня пропала сумка с документами. ...,2


In [3]:
marks = pd.read_csv('../data/marks.csv', sep=';')
print(marks.columns.to_list())
marks.head()

['Номер поручения', 'Герой', 'Оценка за качество', 'Оценка по срокам', 'Оценка за вежливость']


Unnamed: 0,Номер поручения,Герой,Оценка за качество,Оценка по срокам,Оценка за вежливость
0,11000,Мартин,4,3,4
1,11001,Альфред,5,5,4
2,11002,Мартин,5,4,4
3,11003,Бендер,2,4,3
4,11004,Юлия,4,4,5


In [17]:
diaries = pd.read_csv('../data/diaries.csv', sep=';')
diaries['Затрачено часов'] = diaries['Затрачено часов'].str.replace(',', '.').astype(float)
print(diaries.columns.to_list())
diaries.head()

['Номер поручения', 'Герой', 'Запись в дневнике', 'Затрачено часов', 'Роль']


Unnamed: 0,Номер поручения,Герой,Запись в дневнике,Затрачено часов,Роль
0,11000,Мартин,разжечь костёр,1.0,рейнджер
1,11000,Мартин,выследить цель,6.0,следопыт
2,11001,Альфред,разжечь костёр,1.0,рейнджер
3,11001,Альфред,залечить раны,18.0,лекарь
4,11002,Мартин,выследить цель,6.0,следопыт


In [5]:
print('Всего выполненных поручений каждого типа:')
cases.loc[cases['Выполнено'] == 'да']['Тип поручения'].value_counts()

Всего выполненных поручений каждого типа:


Тип поручения
3    161
2    148
0    110
1     62
Name: count, dtype: int64

In [25]:
note_types = diaries['Запись в дневнике'].unique()
print('Все виды записей в дневнике:')
print(*note_types, sep=', ')
print()

class_to_type = {0:'Чудовище в пещере',
                 1:'Спасение путников',
                 2:'Поиск пропажи',
                 3:'монстры/разбойники'
                 }

for note in note_types:
    ids = diaries.loc[diaries['Запись в дневнике'] == note]['Номер поручения']
    texts = cases.loc[cases['Номер поручения'].isin(ids)]['Тип поручения'].value_counts().to_dict()
    print(f'"{note}" встречается в {len(texts)} типах поручений:')
    for key in texts:
        print(f'В заказе на "{class_to_type[key]}"({key}) встречается {texts[key]} раз')
    print()

print('=' * 50 + '\n')

role_types = diaries['Роль'].unique()
print('Все виды ролей:')
print(*role_types, sep=', ')
print()

class_to_role = {i:[] for i in range(4)}

for role in role_types:
    ids = diaries.loc[diaries['Роль'] == role]['Номер поручения']
    texts = cases.loc[cases['Номер поручения'].isin(ids)]['Тип поручения'].value_counts().to_dict()
    print(f'"{role}" встречается в {len(texts)} типах поручений:')
    for key in texts:
        class_to_role[key].append(role)
        print(f'В заказе на "{class_to_type[key]}"({key}) встречается {texts[key]} раз')
    print()

print('=' * 50 + '\n')
print(diaries[['Запись в дневнике', 'Роль']].groupby('Запись в дневнике').value_counts())

Все виды записей в дневнике:
разжечь костёр, выследить цель, залечить раны, найти пропажу, отыскать заказчика

"разжечь костёр" встречается в 2 типах поручений:
В заказе на "монстры/разбойники"(3) встречается 161 раз
В заказе на "Чудовище в пещере"(0) встречается 110 раз

"выследить цель" встречается в 2 типах поручений:
В заказе на "Спасение путников"(1) встречается 62 раз
В заказе на "монстры/разбойники"(3) встречается 23 раз

"залечить раны" встречается в 2 типах поручений:
В заказе на "Чудовище в пещере"(0) встречается 63 раз
В заказе на "монстры/разбойники"(3) встречается 58 раз

"найти пропажу" встречается в 1 типах поручений:
В заказе на "Поиск пропажи"(2) встречается 148 раз

"отыскать заказчика" встречается в 1 типах поручений:
В заказе на "Поиск пропажи"(2) встречается 148 раз


Все виды ролей:
рейнджер, следопыт, лекарь, лучник, мечник, боевой маг

"рейнджер" встречается в 1 типах поручений:
В заказе на "монстры/разбойники"(3) встречается 115 раз

"следопыт" встречается в 3 

In [26]:
class_to_role

{0: ['лекарь', 'лучник', 'мечник', 'боевой маг'],
 1: ['следопыт'],
 2: ['следопыт'],
 3: ['рейнджер', 'следопыт', 'лекарь', 'лучник', 'мечник', 'боевой маг']}

Средние оценки героев по всем поручениям:

In [12]:
heroes = marks['Герой'].unique()
print(heroes)

['Мартин' 'Альфред' 'Бендер' 'Юлия' 'Агата' 'Фредерик' 'Пастушок' 'Соня'
 'Леопольд' 'Глюкоза' 'Бенедикт' 'Синеглазый']


In [8]:
marks[['Герой','Оценка за качество','Оценка по срокам','Оценка за вежливость']].groupby('Герой').mean()

Unnamed: 0_level_0,Оценка за качество,Оценка по срокам,Оценка за вежливость
Герой,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Агата,3.939394,3.727273,4.0
Альфред,3.871795,3.692308,3.897436
Бендер,3.928571,3.928571,3.928571
Бенедикт,3.785714,3.880952,3.928571
Глюкоза,3.863636,3.931818,4.0
Леопольд,3.893617,3.808511,3.87234
Мартин,3.967742,3.935484,3.935484
Пастушок,4.0,3.836735,4.0
Синеглазый,3.878049,3.756098,3.878049
Соня,3.888889,3.972222,3.833333


Количество записей в дневких для каждой роли героя

In [14]:
note_cnt = diaries[['Герой', 'Роль', 'Запись в дневнике']].groupby('Герой').value_counts()
for hero in heroes:
    print(hero)
    print(note_cnt[hero])
    print()

Мартин
Роль      Запись в дневнике 
лучник    разжечь костёр        15
следопыт  отыскать заказчика    14
          найти пропажу         14
лекарь    залечить раны          8
рейнджер  разжечь костёр         8
следопыт  выследить цель         3
Name: count, dtype: int64

Альфред
Роль      Запись в дневнике 
мечник    разжечь костёр        26
лекарь    залечить раны         22
рейнджер  разжечь костёр        13
следопыт  выследить цель         8
          найти пропажу          6
          отыскать заказчика     6
Name: count, dtype: int64

Бендер
Роль      Запись в дневнике 
мечник    разжечь костёр        22
следопыт  найти пропажу         15
          отыскать заказчика    15
          выследить цель         7
рейнджер  разжечь костёр         6
Name: count, dtype: int64

Юлия
Роль      Запись в дневнике 
мечник    разжечь костёр        33
лекарь    залечить раны         23
рейнджер  разжечь костёр        18
следопыт  отыскать заказчика    13
          найти пропажу         13
      

### Формирование датасета со статистикой оценок/времени/суммы по героям

In [18]:
diaries_edited = pd.merge(diaries, marks, on=['Номер поручения', 'Герой'], how='left')
diaries_edited = pd.merge(diaries_edited, cases[['Номер поручения', 'Тип поручения', 'Затрачено дней', 'Сумма вознаграждения']], on=['Номер поручения'], how='left')

In [19]:
stats = diaries_edited[['Герой', 'Тип поручения', 'Роль', 'Оценка за качество', 'Оценка по срокам', 'Оценка за вежливость', 'Затрачено часов', 'Затрачено дней', 'Сумма вознаграждения']].groupby(['Герой', 'Тип поручения', 'Роль']).mean()
stats['Количество поручений'] = diaries_edited[['Герой', 'Тип поручения', 'Роль']].groupby(['Герой', 'Тип поручения', 'Роль']).value_counts()
stats

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Оценка за качество,Оценка по срокам,Оценка за вежливость,Затрачено часов,Затрачено дней,Сумма вознаграждения,Количество поручений
Герой,Тип поручения,Роль,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Агата,0,лучник,4.125000,4.375000,4.125000,0.666667,4.250000,16000.000000,8
Агата,1,следопыт,4.000000,3.500000,3.500000,4.000000,6.250000,15500.000000,4
Агата,2,следопыт,3.777778,3.777778,4.000000,2.500000,5.555556,16944.444444,18
Агата,3,лучник,3.888889,3.111111,4.222222,0.666667,5.222222,8888.888889,9
Агата,3,рейнджер,3.857143,3.000000,4.000000,2.000000,4.714286,8642.857143,7
...,...,...,...,...,...,...,...,...,...
Юлия,2,следопыт,3.923077,3.615385,3.846154,3.750000,6.230769,15653.846154,26
Юлия,3,лекарь,3.833333,3.750000,4.083333,18.000000,6.666667,14041.666667,12
Юлия,3,мечник,3.818182,3.772727,4.045455,1.000000,6.318182,14863.636364,22
Юлия,3,рейнджер,3.833333,3.888889,4.055556,0.666667,6.944444,15861.111111,18


In [20]:
stats.to_csv('../data/stats.csv')