In [None]:
import pandas as pd
import datetime as dt
import matplotlib.pyplot as plt

# чтение xlsx файлов
cities_data = pd.read_excel('Города.xlsx')
staff_data = pd.read_excel('Сотрудники.xlsx')
# преобразование их в Data Frame
cities_df = pd.DataFrame(cities_data)
staff_df = pd.DataFrame(staff_data)


# 1. Предобработка таблицы:
# 1.1. В таблице есть ошибки данных (некорректный для поля тип данных, дубликат и пр.), укажите, как их обнаружили, и что предприняли для их устранения

# 1) форматирование данных по сотрудникам

# форматирование поля "Период" из формата excel в привычную дату, исключение пропусков
staff_df['Период'] = pd.to_datetime(staff_df['Период'], unit='D', origin='1899-12-30').dt.date
staff_df.dropna(subset=['Период'])
'''
Параметр origin='1899-12-30' взят из особенностей работы с датами в Microsoft Excel. 
В Excel даты хранятся как целые числа, начиная с 1 января 1900 года. 
Однако существует особенность: день 29 февраля 1900 года был включен в систему, хотя этот год не был високосным. 
Это было сделано для упрощения вычислений, но привело к тому, что базовая дата сместилась на два дня назад.
'''

# форматирование поля "ID должности" в строковый тип данных, удаление из поля всех буквенных обозначений, удаление пропусков
staff_df['ID должности'] = staff_df['ID должности'].astype("str")
staff_df['ID должности'] = staff_df['ID должности'].str.extract('(\\d+)', expand=False)
staff_df['ID должности'] = staff_df['ID должности'].astype("Int64")
staff_df.dropna(subset=['ID должности'])
staff_df.drop_duplicates(subset=['Период', 'ID должности'], keep='first') # удаление дубликатов ID в каждом периоде (сохраняется только первое вхождение)

# форматирование поля "Табельный номер" в тип данных "целое число"
staff_df['Табельный номер'] = staff_df['Табельный номер'].astype("Int64")

# 2) форматирование данных по городам

# сначала убираются все пропуски в столбцах Федеральный округ и Регион
cities_df.dropna(subset=['Федеральный округ'])
cities_df.dropna(subset=['Регион'])

# затем убираются все дубликаты значений в столбце Город
cities_df.drop_duplicates(subset=['Город'])

# 1.2. Часть данных по некоторым должностям была утеряна, но известно, что ID имеет уникальную должность и локацию, и не меняется из периода в период, 
# восстановите недостающие данные

# Восстановление значений "Должность" и "Локация" по "ID должности" в каждом периоде
staff_df.sort_values(by='Период')
staff_df['Должность'] = staff_df.groupby('ID должности')['Должность'].ffill().bfill()
staff_df['Город'] = staff_df.groupby('ID должности')['Город'].ffill().bfill()
# print(staff_df)

# 1.3. Вытянуть строки с новыми штатными единицами, на которые еще не распределены должности и сотрудники. 
# В графах Табельного номера и Должности проставить признак «Резерв»;

# Создание условия для получения строк с новыми штатными единицами, на которые еще не распределены должности и сотрудники
# (т.е. пустые строки "Табельный номер")

null_number_condition = (
    (staff_df['Табельный номер'].isna() | (staff_df['Табельный номер'] == ''))
)

# Вытягивание строк из исходного датафрейма в отдельную таблицу 
null_numbers_df = staff_df[null_values_condition].copy()
# Установка смешанного типа данных для графы Табельный номер, чтобы заполнить его строковыми значениями
null_numbers_df['Табельный номер'] = null_numbers_df['Табельный номер'].astype('object')
# Проставление в графах Табельного номера и Должности признака «Резерв» в получившейся таблице
null_numbers_df['Табельный номер'] = 'Резерв'
null_numbers_df['Должность'] = 'Резерв'
# print(null_numbers_df)

# 2. Построить сводную таблицу с разбивкой по месяцам со следующими показателями:
# 2.1. Количество действующих сотрудников (должностей);
# 2.2. Количество свободных должностей (подсказка: табельный номер пустой);
# 2.3. Доля свободных должностей от итого должностей;

# 2.1 Подсчёт количества действующих сотрудников (табельный номер непустой)
point_1_df = staff_df.groupby('Период')['Табельный номер'].count().reset_index(name='Кол-во действующих сотрудников')
# 2.2 Подсчёт свободных должностей (табельный номер пустой)
point_2_df = staff_df[staff_df['Табельный номер'].isna()].groupby('Период').size().reset_index(name='Кол-во свободных должностей')
# Соединение двух получившихся датафреймов
merged_p1_p2_df = pd.merge(point_1_df, point_2_df)

# 2.3 Добавление столбца "Доля свободных должностей от итого должностей" в итоговую сводную таблицу
merged_p1_p2_df['Доля свободных должностей от итого должностей'] = (merged_p1_p2_df['Кол-во свободных должностей'] / 
                                                                    (merged_p1_p2_df['Кол-во действующих сотрудников'] + 
                                                                     merged_p1_p2_df['Кол-во свободных должностей'])) * 100
# Округление значений до двух знаков после запятой
merged_p1_p2_df['Доля свободных должностей от итого должностей'] = merged_p1_p2_df['Доля свободных должностей от итого должностей'].round(2)
# print(merged_p1_p2_df)

# 3. Работа по дополнению предобработанной таблицы, добавьте следующие показатели:
# 3.1. Федеральные округа и Регионы;
# 3.2. Количество месяцев поиска сотрудника по должности накопительно по каждому месяцу 
# (н-р должность "директор" не заполнена в январе до марта включительно, а в апреле заполнена, 
# результат получится следующим: январь - 1, февраль - 2, март - 3). Задание повышенной сложности, если не получится реализовать, 
# то напишите ваши идеи, как бы это могло быть реализовано. 


# 3.1 Объединение таблиц Города.xlsx и Сотрудники.xlsx по столбцу 'Город', с сохранением всех значений из таблицы Сотрудники.xlsx
staff_df = staff_df.merge(cities_df, on='Город', how='left')

# 3.2. Добавление количества месяцев поиска сотрудника по должности накопительно по каждому месяцу

# Сначала создаётся столбец, в котором отмечается True (должность свободна) или False (должность занята) по табельному номеру
staff_df['Не занята'] = staff_df['Табельный номер'].isna().astype(bool)
# Затем значения складываются кумулятивным методом, используя группировку по ID должности
# (т.к. ID уникален для каждого периода и никогда не повторится в одном и том же месяце дважды)
staff_df['Поиска сотрудника по должности (месяцев)'] = (staff_df['Не занята']).groupby(staff_df['ID должности']).cumsum()
# Преобразование полученных сумм в "числовой" формат из формата "число с запятой"
staff_df['Поиска сотрудника по должности (месяцев)'] = staff_df['Поиска сотрудника по должности (месяцев)'].astype("Int64")
# Исключение из таблицы лишнего столбца "(должность) Не занята" после вычисления сумм
staff_df = staff_df.loc[:, staff_df.columns != 'Не занята']
# print(staff_df)

# 4. Ответьте на следующие вопросы, построив сводные таблицы исходя из дополненных данных пункта 3;
# 4.1. В каких городах наблюдается нехватка кадров на последний месяц? Отсортируйте по убыванию;
# 4.2. В каком регионе работает наибольшее количество сотрудников на последний месяц? Отсортируйте по убыванию;
# 4.3. Какие должности подвержены наибольшей текучести (подсказка: расчет из п.2.3)?
# Выведите наименование должности и коэффициенты текучести по месяцам, отразите первыми те должности, по которым наблюдалась наибольшая текучесть.

# 4.1.
# Вычисление последнего месяца в периоде
last_month = staff_df['Период'].max()
# Создание таблицы по последнему месяцу
last_month_df = staff_df[staff_df['Период'] == last_month]
# Подсчёт суммы кадров по табельному номеру по каждому городу за последний месяц периода
point4_1_df = last_month_df.groupby(['Город'])['Табельный номер'].count().reset_index(name='Сумма значений по табельному номеру')
# Сортировка по убыванию
# print(point4_1_df.sort_values(by='Сумма значений по табельному номеру', ascending=False))

# 4.2.
# Подсчёт суммы кадров по табельному номеру по каждому региону за последний месяц периода
point4_2_df = last_month_df.groupby(['Регион'])['Табельный номер'].count().reset_index(name='Сумма значений по табельному номеру')
# Сортировка по убыванию
# print(point4_2_df.sort_values(by='Сумма значений по табельному номеру', ascending=False))

# 4.3.

# Количество непустых табельных номеров за каждый период по каждой должности
non_empty_numbers = staff_df.pivot_table(
    index='Период',
    columns='Должность',
    values='Табельный номер',
    aggfunc='count'
)

# Количество пустых табельных номеров за каждый период по каждой должности
empty_numbers = staff_df[staff_df['Табельный номер'].isna()].pivot_table(
    index='Период',
    columns='Должность',
    values='Табельный номер',
    aggfunc='size',
    fill_value=0
)

# Расчёт коэффициента текучести кадров 
# ((Кол-во пустых таб. номеров / Кол-во непустых таб. номеров + Кол-во пустых таб. номеров)) * 100
staff_turnover = (empty_numbers / (non_empty_numbers + empty_numbers)) * 100
# Заполнение отсутствующих значений нулём 
staff_turnover = staff_turnover.fillna(0)
# Округление значений до двух знаков после запятой
staff_turnover = staff_turnover.round(2)
# Подсчёт Суммарного коэфф. за весь период для последующей сортировки по нему
staff_turnover.loc['Суммарный коэфф. за весь период'] = staff_turnover.sum()
# Сортировка столбцов по убыванию суммы коэффициентов
sorted_columns = staff_turnover.loc['Суммарный коэфф. за весь период'].sort_values(ascending=False).index
# Переупорядочивание столбцов для итоговой таблицы
staff_turnover = staff_turnover[sorted_columns]
# print(staff_turnover)

# 5. Визуализация (тип диаграммы и библиотека на ваше усмотрение);
# 5.1. Количество действующих сотрудников по Федеральным округам;
# 5.2. Количество свободных должностей по регионам.

# 5.1. Количество действующих сотрудников по Федеральным округам;
# Вычисление количества действующих сотрудников (табельный номер не пустой) по каждому округу за весь период
point5_1_df = staff_df.groupby(['Федеральный округ'])['Табельный номер'].count().reset_index(name='Сумма значений по табельному номеру')
# Сохранение столбца с суммами для добавления на диаграмму
point5_1_df_sums = point5_1_df['Сумма значений по табельному номеру']

# Функция, которая берёт процентное значение фрагмента диаграммы и преобразует его в реальное
def absolute_value(val):
    total = sum(point5_1_df_sums)
    real_value = int(round(val * total / 100))
    return f'{real_value} чел.'

# Построение диаграммы

# point5_1_plot = point5_1_df.set_index('Федеральный округ')['Сумма значений по табельному номеру'].plot(
#     kind='pie',
#     autopct=absolute_value,
#     figsize=(8, 8), 
#     title='Количество действующих сотрудников по Федеральным округам'
# )

# Отображение, но без подписи "Сумма значений по табельному номеру"

# plt.ylabel('') 
# plt.show()


# 5.2. Количество свободных должностей по регионам.
point5_2_df = staff_df[staff_df['Табельный номер'].isna()].groupby('Регион').size().reset_index(name='Кол-во свободных должностей')

# Построение диаграммы

# point5_2_plot = point5_2_df.plot(
#     x='Регион',
#     y='Кол-во свободных должностей',
#     kind='bar', 
#     color='skyblue',
#     legend=False,
#     figsize=(8, 5),
#     title='Количество свободных должностей по регионам'
# )

# Добавление значения на каждый столбец диаграммы

# for i in range(len(point5_2_df['Регион'])):
#     plt.text(i, # Позиция по оси X
#              point5_2_df['Кол-во свободных должностей'][i], # Позиция по оси Y
#              str(point5_2_df['Кол-во свободных должностей'][i]), # Текст для отображения
#              ha='center', va='bottom')
    
# Подписи осей

# plt.xlabel('Регион')
# plt.ylabel('Количество')

# Отображение диаграммы

# plt.show()

