In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

# 1. Предварительная очистка данных

## 1.1 Загрузка таблицы и удаление не нужных столбцов

##### Перед началом всех манипуляций заполнить столбец "Готовность" 0, если красная ячейка, 1 если зеленая 

Указываем путь к файлу csv или excel

Для автоматического поиска последнего файла в директории CSV (или Excell)

In [2]:
pathdir = 'Excel'
listfile = os.listdir(pathdir)
path = pathdir + '\\' + listfile[-1]
path

'Excel\\15.input_14.01.2020.xlsx'

Можно указать вручную

In [3]:
# path =
data = pd.read_excel(path, encoding='cp1251') # для csv - read_csv
data.shape

(9535, 13)

Сохраним дату документа

In [4]:
date = path[-15:-5]
date

'14.01.2020'

Выбрать только требуемые столбцы

In [5]:
data = data[['Обозначение документа', 'Наименование документа',
            'Кол-во листов А4 ', 'Готовность документа', 'Подразделение',
            'Разработчик']]

In [6]:
data.shape # размерность таблицы (количество строк, количество столбцов)

(9535, 6)

In [7]:
data[0:10] # первые 10 строк

Unnamed: 0,Обозначение документа,Наименование документа,Кол-во листов А4,Готовность документа,Подразделение,Разработчик
0,,Документация на АКС Р-779-16,,,,
1,ИКГТ.461273.052ВЭ,АКС Р-779-16. Ведомость эксплуатационных докум...,3.0,0.0,НТЦ ИКС НК,Петухова
2,ИКГТ.461273.052ВЭ-ЛУ,АКС Р-779-16. Ведомость эксплуатационных докум...,2.0,0.0,НТЦ ИКС НК,Петухова
3,,Документация общая,2652.0,,,
4,ИКГТ.461273.052,АКС Р-779-16. Спецификация,182.0,0.0,ПКО,
5,ИКГТ.461273.052Э4,АКС Р-779-16. Схема электрическая соединений,182.0,0.0,НТЦ ИКС НК,Петухова
6,"ИКГТ.461273.052ТЭ4, ИКГТ.461273.052ТЭ41",АКС Р-779-16. Таблица соединений,1042.0,0.0,НТЦ ИКС НК,Петухова
7,ИКГТ.461273.052ПЭ4,АКС Р-779-16. Перечень элементов,39.0,0.0,НТЦ ИКС НК,Петухова
8,ИКГТ.461273.052РЭ,АКС Р-779-16. Руководство по эксплуатации,,0.0,НТЦ ИКС НК,Русанцов
9,ИКГТ.461273.052РЭ-ЛУ,АКС Р-779-16. Руководство по эксплуатации. Лис...,,0.0,НТЦ ИКС НК,Русанцов


Для сохранения таблицы в csv

In [8]:
# data.to_csv('18.09.2019_rkd.csv', encoding='cp1251')

## 1.2 Удаляем строки без обозначения документа, подразделения и количества листов

In [9]:
data = data[~(data['Обозначение документа'].isnull() | (data['Подразделение'].isnull() & data['Кол-во листов А4 '].isnull()))]
data.tail(20) # отобразить последние 20 строк в таблице

Unnamed: 0,Обозначение документа,Наименование документа,Кол-во листов А4,Готовность документа,Подразделение,Разработчик
9497,ИКГТ.755223.002,Уголок.Чертеж детали,,1.0,ПКО,
9498,ИКГТ.758491.020,Втулка.Чертеж детали,,1.0,ПКО,
9499,ИКГТ.753161.003,Втулка.Чертеж детали,,1.0,ПКО,
9500,ИКГТ.713312.001,Штемпель.Чертеж детали,,1.0,ПКО,
9501,ИКГТ.745351.002,Планка. Чертеж детали,,1.0,ПКО,
9502,ИКГТ.741131.023,Планка. Чертеж детали,,1.0,ПКО,
9503,ИКГТ.713161.002,Втулка.Чертеж детали,,1.0,ПКО,
9504,ИКГТ.741532.015,Подкладка.Чертеж детали,,1.0,ПКО,
9505,ИКГТ.741128.179,Рама. Чертеж детали,,1.0,ПКО,
9506,ИКГТ.741124.830,Стекло. Чертеж детали,,1.0,ПКО,


In [10]:
data.shape

(8584, 6)

## 1.3 Исправляем неправильно написанные фамилии и подразделения

### 1.3.1 Исправление неправильных фамилий

Сделаем выборку всех уникальных значений в колонке 'Разработчик'

In [11]:
data['Разработчик'].drop_duplicates()

1          Петухова
4               NaN
8          Русанцов
20           Бычков
21          Паскина
27       Храковский
33      Варфоломеев
246          Лившиц
2059          Попик
2091       Матюшков
3388      Русанцов 
3741         Попик 
6391     Тропников 
9356      Петухова 
Name: Разработчик, dtype: object

Из вывода видно, что есть отсутствующие значения и не единообразное заполнение ячеек.

Заменим все NaN значение на "Не указан"

In [12]:
data.loc[data['Разработчик'].isnull(), 'Разработчик'] = 'Не указан'

In [13]:
# Проверка
data['Разработчик'].drop_duplicates()

1          Петухова
4         Не указан
8          Русанцов
20           Бычков
21          Паскина
27       Храковский
33      Варфоломеев
246          Лившиц
2059          Попик
2091       Матюшков
3388      Русанцов 
3741         Попик 
6391     Тропников 
9356      Петухова 
Name: Разработчик, dtype: object

Аналогичным образом приведем написание фамилий к единообразию

In [14]:
# Исправим сразу для всех
ntc = ['Русанцов', 'Паскина', 'Молчанова', 'Лившиц', 'Петухова', 
       'Тропников', 'Попик', 'Варфоломеев', 'Храковский', 'Матюшков', 
       'Бычков', 'Зозуля', 'Полковников', 'Кавинский', 'Щепетин']
for i in ntc:
    res = '(' + i[:4] + ')'+'+'
    data.loc[(data['Разработчик'].str.contains(res)), 'Разработчик'] = i

# проверка
data['Разработчик'].drop_duplicates()

  return func(self, *args, **kwargs)


1          Петухова
4         Не указан
8          Русанцов
20           Бычков
21          Паскина
27       Храковский
33      Варфоломеев
246          Лившиц
2059          Попик
2091       Матюшков
6391      Тропников
Name: Разработчик, dtype: object

In [15]:
data.head()

Unnamed: 0,Обозначение документа,Наименование документа,Кол-во листов А4,Готовность документа,Подразделение,Разработчик
1,ИКГТ.461273.052ВЭ,АКС Р-779-16. Ведомость эксплуатационных докум...,3.0,0.0,НТЦ ИКС НК,Петухова
2,ИКГТ.461273.052ВЭ-ЛУ,АКС Р-779-16. Ведомость эксплуатационных докум...,2.0,0.0,НТЦ ИКС НК,Петухова
4,ИКГТ.461273.052,АКС Р-779-16. Спецификация,182.0,0.0,ПКО,Не указан
5,ИКГТ.461273.052Э4,АКС Р-779-16. Схема электрическая соединений,182.0,0.0,НТЦ ИКС НК,Петухова
6,"ИКГТ.461273.052ТЭ4, ИКГТ.461273.052ТЭ41",АКС Р-779-16. Таблица соединений,1042.0,0.0,НТЦ ИКС НК,Петухова


### 1.3.2 Приведем название подразделений к единообразию

In [16]:
# Проверка
data['Подразделение'].drop_duplicates()

1            НТЦ ИКС НК
4                   ПКО
54                  NaN
56     Серийное изделие
263                ПКО 
332         НТЦ ИКС НК 
355               РиМАП
764               РИМАП
Name: Подразделение, dtype: object

In [17]:
# изменим NaN значения на "Не указано"
data.loc[data['Подразделение'].isnull(), 'Подразделение'] = 'Не указано'

In [18]:
print(data.shape)
data['Подразделение'].drop_duplicates()

(8584, 6)


1            НТЦ ИКС НК
4                   ПКО
54           Не указано
56     Серийное изделие
263                ПКО 
332         НТЦ ИКС НК 
355               РиМАП
764               РИМАП
Name: Подразделение, dtype: object

In [19]:
# Исправим сразу для всех
rio = ['НТЦ ИКС НК', 'ПКО', 'РИМАП', 'Серийное изделие']
for i in rio:
    res = '(' + i[-2:] + ')'+'+'
    data.loc[(data['Подразделение'].str.contains(res)), 'Подразделение'] = i

# проверка
data['Подразделение'].drop_duplicates()

1            НТЦ ИКС НК
4                   ПКО
54           Не указано
56     Серийное изделие
355               РИМАП
Name: Подразделение, dtype: object

### 1.3.3 Удалим весь верхний уровень изделий (не указано подразделение)

In [20]:
data = data[~(data['Подразделение'] == 'Не указано')]
data.shape

(7859, 6)

### 1.3.4 Удалим все строки, для которых не указана готовность (повторы)

In [21]:
data = data[~(data['Готовность документа'].isnull())]

In [22]:
print(data.shape)
data.columns

(4347, 6)


Index(['Обозначение документа', 'Наименование документа', 'Кол-во листов А4 ',
       'Готовность документа', 'Подразделение', 'Разработчик'],
      dtype='object')

### 1.3.5 Удалим значения NaN для остальных столбцов

In [23]:
data.loc[data['Наименование документа'].isnull(), 'Наименование документа'] = '---'

In [24]:
data.loc[data['Кол-во листов А4 '].isnull(), 'Кол-во листов А4 '] = 'Не указано'

# Сводные таблицы 

##### Предварительно изменим название столбца 'Готовность документа' на 'Документов готово' и добавим столбец 'Документов не готово'

In [25]:
data.rename(columns={'Готовность документа': 'Документов готово'}, inplace=True)
data['Документов готово'] = data['Документов готово'].astype(int)
data['Документов не готово'] = (data['Документов готово'].astype(int) - 1)*(-1)

## 1 Состояние готовности в общем

### 1.1 Все документы 

In [26]:
result = pd.DataFrame(index = ['Всего, шт'], columns=['Документов готово', 'Документов не готово'])
result['Документов готово'] = data['Документов готово'].sum()
result['Документов не готово'] = data['Документов не готово'].sum()
result.columns = pd.MultiIndex.from_product([[date], result.columns])
result

Unnamed: 0_level_0,14.01.2020,14.01.2020
Unnamed: 0_level_1,Документов готово,Документов не готово
"Всего, шт",3337,1010


### 1.2 Все документы в процентах от общего количества по всему проекту

In [27]:
resperc = (result / data.shape[0]) * 100
resperc = resperc.apply(np.round)
resperc.index = ['Всего, %']
resperc

Unnamed: 0_level_0,14.01.2020,14.01.2020
Unnamed: 0_level_1,Документов готово,Документов не готово
"Всего, %",77.0,23.0


## 2 Состояние готовности документации по подразделениям

### 2.1 Готовность документов

In [28]:
complit = data.pivot_table(['Документов готово', 'Документов не готово'], 'Подразделение', aggfunc=sum)
# добавим дату
complit.columns = pd.MultiIndex.from_product([[date], complit.columns])

complit

Unnamed: 0_level_0,14.01.2020,14.01.2020
Unnamed: 0_level_1,Документов готово,Документов не готово
Подразделение,Unnamed: 1_level_2,Unnamed: 2_level_2
НТЦ ИКС НК,288,593
ПКО,2153,236
РИМАП,864,181
Серийное изделие,32,0


### 2.2 Готовность документов в процентах (от общего количества по всему проекту)

In [29]:
complitpercent = (complit / data.shape[0]) * 100
complitpercent = complitpercent.apply(np.round)
complitpercent[date, 'Всего от общего количества'] = complitpercent[date, 'Документов готово'] + complitpercent[date, 'Документов не готово']
complitpercent

Unnamed: 0_level_0,14.01.2020,14.01.2020,14.01.2020
Unnamed: 0_level_1,Документов готово,Документов не готово,Всего от общего количества
Подразделение,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
НТЦ ИКС НК,7.0,14.0,21.0
ПКО,50.0,5.0,55.0
РИМАП,20.0,4.0,24.0
Серийное изделие,1.0,0.0,1.0


В представленной таблице указано, сколько в процентах от общего количества документации по проекту сделано или не сделано каждым подразделением. Например, НТЦ ИКС НК делает 21 % от всех документов по проекту, из них готово 7 % (от общего количества), не готово 14 % (от общего количества)

### 2.3 Готовность документов в процентах (по подразделениям)

In [30]:
compp = pd.DataFrame() # пустой объект DF
for i in list(complit):
    compp[i[1]] = (complit[i]/(complit[date, 'Документов готово'] + complit[date, 'Документов не готово'])) * 100 # переводим значения каждого столбца в проценты
compp = compp.apply(np.round) # округляем
compp.columns = pd.MultiIndex.from_product([[date], compp.columns])
compp

Unnamed: 0_level_0,14.01.2020,14.01.2020
Unnamed: 0_level_1,Документов готово,Документов не готово
Подразделение,Unnamed: 1_level_2,Unnamed: 2_level_2
НТЦ ИКС НК,33.0,67.0
ПКО,90.0,10.0
РИМАП,83.0,17.0
Серийное изделие,100.0,0.0


В представленной таблице приведена готовность в процентах по документам, разрабатываемым конкретным подразделением.
Например, из всей документации, которую разрабатывает ПКО 82 % сделано, 18 % не сделано.

## 3. Состояние готовности документации по исполнителям

### 3.1 Добавим сотрудников к каждому подразделению

In [31]:
isp = data.pivot_table(['Документов готово', 'Документов не готово'], ['Подразделение', 'Разработчик'], aggfunc=sum)
# добавим дату
isp.columns = pd.MultiIndex.from_product([[date], isp.columns])
isp

Unnamed: 0_level_0,Unnamed: 1_level_0,14.01.2020,14.01.2020
Unnamed: 0_level_1,Unnamed: 1_level_1,Документов готово,Документов не готово
Подразделение,Разработчик,Unnamed: 2_level_2,Unnamed: 3_level_2
НТЦ ИКС НК,Бычков,3,0
НТЦ ИКС НК,Варфоломеев,14,1
НТЦ ИКС НК,Лившиц,100,25
НТЦ ИКС НК,Матюшков,0,233
НТЦ ИКС НК,Не указан,3,21
НТЦ ИКС НК,Паскина,0,2
НТЦ ИКС НК,Петухова,33,16
НТЦ ИКС НК,Попик,15,81
НТЦ ИКС НК,Русанцов,0,182
НТЦ ИКС НК,Тропников,120,30


Определим имена сохраняемых файлов

In [32]:
pathsv = 'Output\\' + date + '\\' # указать путь сохранения файла
if not os.path.exists(pathsv):
    os.makedirs(pathsv)    # создать директорию, если она не существует

result.to_csv(pathsv + date + '_Все_документы' + '.csv', encoding='cp1251')# Таблица с общим количеством документов
resperc.to_csv(pathsv + date + '_Все_документы_%' + '.csv', encoding='cp1251')# Таблица с общим количеством документов в процентах
complit.to_csv(pathsv + date + '_Все_документы_подр' + '.csv', encoding='cp1251')# Готовность документов по подразделениям (общее) ######
complitpercent.to_csv(pathsv + date + '_Все_документы_подр_общ_%' + '.csv', encoding='cp1251')# Готовность документов по подразделениям в процентах (от общего количества по всему проекту)
compp.to_csv(pathsv + date + '_Все_документы_подр_%' + '.csv', encoding='cp1251')# Готовность документов в процентах (по подразделениям) ######
isp.to_csv(pathsv + date + '_Все_документы_исп' + '.csv', encoding='cp1251')# Состояние готовности документации по исполнителям

##### Обработка полученных результатов и анализ данных за временные периоды приведен в Sort_data