In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json

## ORDER

In [2]:
orders_df = pd.read_excel('order.xlsx', index_col=0)
orders_df['deadline'] = pd.to_datetime( orders_df['deadline'])

In [3]:
orders_df.head()

Unnamed: 0_level_0,product_id,amount,deadline
_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,5c94953dc9e77c0001d5e130,520,2019-04-01
1,5c94953dc9e77c0001d5e12b,1000,2019-04-03
2,5c94953dc9e77c0001d5e131,360,2019-04-10
3,5c94953dc9e77c0001d5e141,90,2019-03-25
4,5c94953dc9e77c0001d5e139,860,2019-04-16


In [4]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 124949 entries, 0 to 124948
Data columns (total 3 columns):
product_id    124949 non-null object
amount        124949 non-null int64
deadline      124949 non-null datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 3.8+ MB


In [5]:
orders_df.describe()

Unnamed: 0,amount
count,124949.0
mean,524.987155
std,273.446274
min,50.0
25%,290.0
50%,520.0
75%,760.0
max,1000.0


In [6]:
orders_df.describe(include=['object','datetime64[ns]'])

Unnamed: 0,product_id,deadline
count,124949,124949
unique,37,30
top,5c94953dc9e77c0001d5e125,2019-04-20 00:00:00
freq,3377,4179
first,,2019-03-22 00:00:00
last,,2019-04-20 00:00:00


In [7]:
orders_df.groupby('deadline').size()

deadline
2019-03-22    4169
2019-03-23    4174
2019-03-24    4164
2019-03-25    4171
2019-03-26    4173
2019-03-27    4170
2019-03-28    4144
2019-03-29    4164
2019-03-30    4160
2019-03-31    4164
2019-04-01    4174
2019-04-02    4162
2019-04-03    4174
2019-04-04    4156
2019-04-05    4156
2019-04-06    4157
2019-04-07    4161
2019-04-08    4161
2019-04-09    4160
2019-04-10    4155
2019-04-11    4167
2019-04-12    4159
2019-04-13    4173
2019-04-14    4168
2019-04-15    4173
2019-04-16    4161
2019-04-17    4155
2019-04-18    4171
2019-04-19    4174
2019-04-20    4179
dtype: int64

## EQUIPMENT

In [8]:
equipment_df = pd.read_excel('equipment_2.xlsx', index_col=0)

In [9]:
equipment_df.head()

Unnamed: 0_level_0,class,available_hours,speed_per_hour
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7596f724-c038-11e6-80c1-e1497160343b,Масс-спектрометр,,60
0ea79b45-aa16-11e5-80d6-00505692e771,Бокс химической защиты с двойной системой филь...,,100
e2de4578-93a6-11e7-80da-00155df02900,Хроматограф газовый,,55
cd806b45-26fd-11e5-80c0-00505692e771,Весы,,95
8392404a-f2a4-11e6-80d2-00155df02900,Хроматограф жидкостный,,70


In [10]:
equipment_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 541 entries, 7596f724-c038-11e6-80c1-e1497160343b to 6ca97f03-2d89-11e6-80e8-00505692e771
Data columns (total 3 columns):
class              541 non-null object
available_hours    0 non-null float64
speed_per_hour     541 non-null int64
dtypes: float64(1), int64(1), object(1)
memory usage: 16.9+ KB


In [11]:
equipment_df.describe(include=['object'])

Unnamed: 0,class
count,541
unique,116
top,Хроматограф жидкостный
freq,104


In [12]:
eqpt_classes = equipment_df.groupby('class')['speed_per_hour'].sum()
eqpt_classes

class
CO2-инкубатор                                               95
pH-метр                                                    650
Автоклав                                                   605
Автоматизированная система для клеточного клонирования      60
Автоматизированная система для переноса колоний            115
Автоматизированная система подачи плашек                    90
Автостейнер                                                 85
Автосэмплер                                                100
Амплификатор                                               670
Анализатор биохимический                                    80
Анализатор динамического светорассеяния                     85
Анализатор жизнеспособности клеток                          65
Анализатор иммуноферментный                                150
Анализатор общего углерода                                  60
Анализатор светорассеяния                                   95
Анализатор гематологический                      

In [13]:
eqpt_nouse = pd.Series(eqpt_classes.index.values).apply(lambda a: a.find('НЕ ИСПОЛЬЗОВАТЬ') != -1)
eqpt_nouse.index = eqpt_classes.index
eqpt_classes[eqpt_nouse==True]

Series([], Name: speed_per_hour, dtype: int64)

In [14]:
no_use_equipment = list(eqpt_classes[eqpt_nouse==True].index)
no_use_equipment

[]

## PRODUCT

In [15]:
product_df = pd.read_excel('product_2.xlsx', index_col=0)

In [16]:
product_df.head()

Unnamed: 0_level_0,equipment_class
_id,Unnamed: 1_level_1
5c94953dc9e77c0001d5e130,"['Хроматограф жидкостный', 'Насос', 'Принтер д..."
5c94953dc9e77c0001d5e12b,"['Вытяжной шкаф', 'pH-метр', 'Система капилляр..."
5c94953dc9e77c0001d5e131,"['Манипулятор переносящий', 'Криохранилище', '..."
5c94953dc9e77c0001d5e141,"['Рециркулятор', 'Изолятор', 'Счетчик клеток']"
5c94953dc9e77c0001d5e139,"['Лабораторное оборудование', 'Синтезатор олиг..."


In [17]:
production_classes = []
for s in product_df['equipment_class']:
    processed_s = s.replace("'",'"').replace('\\xa0',' ')
    for e in json.loads(processed_s):
        if ( e not in production_classes ):
            production_classes.append(e)
production_classes.sort()
print(len(production_classes))

for nu in no_use_equipment:
    try:
        production_classes.remove(nu)
    except ValueError:
        pass
    
production_classes

98


['pH-метр',
 'Автоклав',
 'Автоматизированная система для клеточного клонирования',
 'Автоматизированная система для переноса колоний',
 'Автоматизированная система подачи плашек',
 'Автостейнер',
 'Амплификатор',
 'Анализатор биохимический',
 'Анализатор гематологический',
 'Анализатор динамического светорассеяния',
 'Анализатор жизнеспособности клеток',
 'Анализатор общего углерода',
 'Анализатор светорассеяния',
 'Аппарат для определения растворимости таблеток',
 'Биоробот',
 'Блистерная машина',
 'Блок питания',
 'Бокс химической защиты с двойной системой фильтрации',
 'Вакуумный концентратор',
 'Весы',
 'Вортекс',
 'Высокоскоростной смеситель-гранулятор',
 'Вытяжной шкаф',
 'Генератор чистого азота',
 'Генератор чистого водорода',
 'Генетический анализатор',
 'Детектор',
 'Дозатор',
 'ИК-спектрометр',
 'Изолятор',
 'Инженерное оборудование',
 'Инкубатор',
 'Источник бесперебойного питания',
 'Калориметр',
 'Камера для изоэлектрофокусирования',
 'Камера для иммуноблоттинга',
 'Каме

In [18]:
product_requirements = {}
for i in product_df.index:
    s = product_df['equipment_class'][i]
    processed_s = s.replace("'",'"').replace('\\xa0',' ')
    L = json.loads(processed_s)
    for nu in no_use_equipment:
        try:
            L.remove(nu)
        except ValueError:
            pass
    product_requirements[i] = L
product_requirements

{'5c94953dc9e77c0001d5e130': ['Хроматограф жидкостный',
  'Насос',
  'Принтер для этикеток',
  'Сухожаровой шкаф',
  'Автостейнер'],
 '5c94953dc9e77c0001d5e12b': ['Вытяжной шкаф',
  'pH-метр',
  'Система капиллярного электрофореза'],
 '5c94953dc9e77c0001d5e131': ['Манипулятор переносящий',
  'Криохранилище',
  'Высокоскоростной смеситель-гранулятор',
  'Хромато-масс-спектрометр'],
 '5c94953dc9e77c0001d5e141': ['Рециркулятор', 'Изолятор', 'Счетчик клеток'],
 '5c94953dc9e77c0001d5e139': ['Лабораторное оборудование',
  'Синтезатор олигонуклеотидов',
  'Производственное оборудование',
  'Шейкер',
  'Амплификатор',
  'Изолятор',
  'Аппарат для определения растворимости таблеток',
  'Лабораторный 3D смеситель'],
 '5c94953dc9e77c0001d5e12d': ['Сушильный шкаф',
  'Проточный цитофлуориметр',
  'Установка тангенциальной фильтрации',
  'Автоклав',
  'Микротом',
  'Анализатор общего углерода',
  'Анализатор биохимический',
  'Секвенатор',
  'Камера для электропереноса'],
 '5c94953dc9e77c0001d5e136

## EQUIPMENT HISTORY

In [19]:
eqpt_history_df = pd.read_excel('eq_hist_data_2.xlsx')
eqpt_history_df['day'] = pd.to_datetime(eqpt_history_df['day'], unit='s')

In [20]:
eqpt_history_df.head()

Unnamed: 0,day,id,work,maintenance,idle,class
0,2018-10-02,7596f724-c038-11e6-80c1-e1497160343b,0.0,0.0,24.0,Масс-спектрометр
1,2018-10-02,0ea79b45-aa16-11e5-80d6-00505692e771,0.0,0.0,24.0,Бокс химической защиты с двойной системой филь...
2,2018-10-02,e2de4578-93a6-11e7-80da-00155df02900,24.0,0.0,0.0,Хроматограф газовый
3,2018-10-02,cd806b45-26fd-11e5-80c0-00505692e771,24.0,0.0,0.0,Весы
4,2018-10-02,8392404a-f2a4-11e6-80d2-00155df02900,24.0,0.0,0.0,Хроматограф жидкостный


In [21]:
eqpt_history_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93052 entries, 0 to 93051
Data columns (total 6 columns):
day            93052 non-null datetime64[ns]
id             93052 non-null object
work           93052 non-null float64
maintenance    93052 non-null float64
idle           93052 non-null float64
class          93052 non-null object
dtypes: datetime64[ns](1), float64(3), object(2)
memory usage: 4.3+ MB


In [22]:
set(eqpt_history_df.groupby('class').size().index) == set(eqpt_classes.index)

True

In [23]:
set(eqpt_history_df.groupby('id').size().index) == set(equipment_df.index)

True

In [24]:
eqpt_history_df.describe(include=['datetime64[ns]'])

Unnamed: 0,day
count,93052
unique,172
top,2019-02-17 00:00:00
freq,541
first,2018-10-02 00:00:00
last,2019-03-22 00:00:00


In [25]:
eqpt_history_df.groupby('day').size()

day
2018-10-02    541
2018-10-03    541
2018-10-04    541
2018-10-05    541
2018-10-06    541
2018-10-07    541
2018-10-08    541
2018-10-09    541
2018-10-10    541
2018-10-11    541
2018-10-12    541
2018-10-13    541
2018-10-14    541
2018-10-15    541
2018-10-16    541
2018-10-17    541
2018-10-18    541
2018-10-19    541
2018-10-20    541
2018-10-21    541
2018-10-22    541
2018-10-23    541
2018-10-24    541
2018-10-25    541
2018-10-26    541
2018-10-27    541
2018-10-28    541
2018-10-29    541
2018-10-30    541
2018-10-31    541
             ... 
2019-02-21    541
2019-02-22    541
2019-02-23    541
2019-02-24    541
2019-02-25    541
2019-02-26    541
2019-02-27    541
2019-02-28    541
2019-03-01    541
2019-03-02    541
2019-03-03    541
2019-03-04    541
2019-03-05    541
2019-03-06    541
2019-03-07    541
2019-03-08    541
2019-03-09    541
2019-03-10    541
2019-03-11    541
2019-03-12    541
2019-03-13    541
2019-03-14    541
2019-03-15    541
2019-03-16    541
2019-0

In [26]:
eqpt_history_df.describe()

Unnamed: 0,work,maintenance,idle
count,93052.0,93052.0,93052.0
mean,7.681588,2.141937,14.176475
std,10.798441,6.263842,11.699947
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,0.0,24.0
75%,24.0,0.0,24.0
max,24.0,24.0,24.0


нормальные

In [47]:
eqpt_history_df[eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle'] > 23.9999].shape[0]

93052

все нули

In [28]:
eqpt_history_df[eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle'] == 0].shape[0]

0

ни рыба ни мясо

In [48]:
eqpt_history_df[( ( eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle'] < 23.9999 )  &
                  ( eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle'] > 0 ) )].shape[0]

0

In [30]:
good_eqpt_history_df = \
 eqpt_history_df[eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle'] == 24.0]
good_eqpt_history_df.shape

(92334, 6)

In [31]:
maintenance_analysis = eqpt_history_df.groupby('id').agg({'maintenance':[np.mean, np.std, np.sum]})

maintenance_analysis.head()

Unnamed: 0_level_0,maintenance,maintenance,maintenance
Unnamed: 0_level_1,mean,std,sum
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
00502eec-38a9-11e8-80e1-00155df02900,0.540084,3.3452,92.894444
00a1f311-9778-11e6-80fa-00505692e771,1.729464,5.535876,297.467778
011f1ac3-3ac3-11e2-b482-b614f2bbba79,2.418605,5.748054,416.0
0297342a-5e11-11e6-80e8-00505692e771,0.0,0.0,0.0
0416effa-c625-11e8-80e9-00155df02900,0.0,0.0,0.0


In [32]:
maintenance_analysis.sort_values(by=[('maintenance','sum')], ascending=False).head(10)

Unnamed: 0_level_0,maintenance,maintenance,maintenance
Unnamed: 0_level_1,mean,std,sum
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
d79b3902-8f22-11e7-80d8-00155df02900,22.697674,3.642086,3904.0
c66eb7c8-3e08-11e6-80e8-00505692e771,22.51027,4.418072,3871.766389
6fee9b9f-7a60-11e5-80d0-00505692e771,22.093023,3.418655,3800.0
1966e5e8-c622-11e3-8903-6ee664173b4c,21.942477,6.01907,3774.106111
4b002ba0-ea2c-11e3-8150-6ee664173b4c,21.128083,7.15394,3634.030278
e92ef2ea-cb0e-11e5-80d6-00505692e771,20.837209,3.922824,3584.0
571664f5-a2bb-11de-a428-005056c00008,19.860465,4.009237,3416.0
7c5fdfc8-d4ba-11e5-80d8-00505692e771,19.488372,3.978728,3352.0
5427be5a-8c69-11e6-80f6-00505692e771,18.898316,9.805505,3250.510278
2b151b3e-2550-11e1-9589-b614f2bbba79,18.0,8.657215,3096.0


In [33]:
eqpt_history_df['day'][0].weekday()

1

### оборудование, работающее в выходные

In [34]:
w_days = eqpt_history_df['day'].apply(lambda ts:ts.weekday())
eqpt_history_df[(((w_days==6)|(w_days==5))  &
                 (eqpt_history_df['work']+eqpt_history_df['maintenance']+eqpt_history_df['idle']>0)  )]

Unnamed: 0,day,id,work,maintenance,idle,class
2164,2018-10-06,7596f724-c038-11e6-80c1-e1497160343b,0.0,0.0,24.0,Масс-спектрометр
2165,2018-10-06,0ea79b45-aa16-11e5-80d6-00505692e771,0.0,0.0,24.0,Бокс химической защиты с двойной системой филь...
2166,2018-10-06,e2de4578-93a6-11e7-80da-00155df02900,24.0,0.0,0.0,Хроматограф газовый
2167,2018-10-06,cd806b45-26fd-11e5-80c0-00505692e771,24.0,0.0,0.0,Весы
2168,2018-10-06,8392404a-f2a4-11e6-80d2-00155df02900,24.0,0.0,0.0,Хроматограф жидкостный
2169,2018-10-06,0c568299-8f22-11e7-80d8-00155df02900,0.0,0.0,24.0,Магнитная мешалка
2170,2018-10-06,a2e88142-5677-11e3-a533-b614f2bbba79,0.0,0.0,24.0,Камера для электрофореза
2171,2018-10-06,405db8fb-dc53-11e8-80ee-00155df02900,0.0,0.0,24.0,Производственное оборудование
2172,2018-10-06,85a58e5b-1a4b-11e5-80be-00505692e771,0.0,0.0,24.0,Хроматограф жидкостный
2173,2018-10-06,a8cf9c8b-59a7-11df-8654-72d93bfbea9b,24.0,0.0,0.0,Спектрофотометр
