In [125]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [195]:
df = pd.read_csv("../data/raw/exploratory.csv")
df.head(5)

Unnamed: 0,id,sid,sex,cycle,childs,childbirth,dob,deadwood_days,pregancy_days,group_id,group_past,event,milking_days,date,remark
0,1064,1064,F,1,FA,1,1/8/2020,0,0,9,9,ОСЕМЕН,236,7/1/2022,1H15132
1,1064,1064,F,1,FA,1,1/8/2020,0,0,9,9,НА_СХЕМУ,236,7/1/2022,9
2,1185,1185,F,1,FA,1,1/20/2020,0,49,9,43,ОСЕМЕН,213,7/1/2022,1H15184
3,1185,1185,F,1,FA,1,1/20/2020,0,49,9,43,НА_СХЕМУ,213,7/1/2022,9
4,1260,1260,F,1,FA,1,1/27/2020,0,49,5,5,НА_СХЕМУ,205,7/1/2022,9


# Предобработка

In [196]:
df=df.drop(columns=["sid"])

## Проверка на пустые значения

In [144]:
for column in df:
    print(column, ":", len(df.loc[(df[column].isnull()) | (df[column]=='-')].index))

id : 0
sex : 0
cycle : 0
childs : 5310
childbirth : 0
dob : 0
deadwood_days : 0
pregancy_days : 0
group_id : 0
group_past : 0
event : 0
milking_days : 0
date : 0
remark : 644


В childs ставится NaN если ещё не было ребенка или животное мужского пола.
В remark стоит - если примечание не требуется

## Приведение к числовым значениям

In [145]:
df.dtypes

id                int64
sex              object
cycle             int64
childs           object
childbirth        int64
dob              object
deadwood_days     int64
pregancy_days     int64
group_id          int64
group_past        int64
event            object
milking_days      int64
date             object
remark           object
dtype: object

### Пол и дети

In [130]:
df['sex'] = df['sex'].apply(lambda x: 1 if x =='F' else 0)

In [131]:
df['childs_fa'] = df['childs'].apply(lambda x: str(x).count('FA'))
df['childs_ma'] = df['childs'].apply(lambda x: str(x).count('MA'))
df['childs_fd'] = df['childs'].apply(lambda x: str(x).count('FD'))
df['childs_md'] = df['childs'].apply(lambda x: str(x).count('MD'))

In [132]:
#df=df.drop(columns=["childs"])
df.dtypes

id                int64
sex               int64
cycle             int64
childs           object
childbirth        int64
dob              object
deadwood_days     int64
pregancy_days     int64
group_id          int64
group_past        int64
event            object
milking_days      int64
date             object
remark           object
childs_fa         int64
childs_ma         int64
childs_fd         int64
childs_md         int64
dtype: object

### Дата рождения

In [133]:
df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)
df['dob']  = pd.to_datetime(df['dob'], infer_datetime_format=True)
df['age']  = ((df['date'] - df['dob']) / np.timedelta64(1, 'D')).astype(int)

In [134]:
df=df.drop(columns=["dob"])
df.dtypes

id                        int64
sex                       int64
cycle                     int64
childs                   object
childbirth                int64
deadwood_days             int64
pregancy_days             int64
group_id                  int64
group_past                int64
event                    object
milking_days              int64
date             datetime64[ns]
remark                   object
childs_fa                 int64
childs_ma                 int64
childs_fd                 int64
childs_md                 int64
age                       int64
dtype: object

### Дата события

In [135]:
month=['jan','feb','mar','apr','may','jun', 'jul', 'aug', 'sep', 'oct', 'nov',' dec']
for m in range (12):
    df[month[m]]=df['date'].apply(lambda x: 1 if x.month == m + 1 else 0)
df.head()

Unnamed: 0,id,sex,cycle,childs,childbirth,deadwood_days,pregancy_days,group_id,group_past,event,...,mar,apr,may,jun,jul,aug,sep,oct,nov,dec
0,1064,1,1,FA,1,0,0,9,9,ОСЕМЕН,...,0,0,0,0,1,0,0,0,0,0
1,1064,1,1,FA,1,0,0,9,9,НА_СХЕМУ,...,0,0,0,0,1,0,0,0,0,0
2,1185,1,1,FA,1,0,49,9,43,ОСЕМЕН,...,0,0,0,0,1,0,0,0,0,0
3,1185,1,1,FA,1,0,49,9,43,НА_СХЕМУ,...,0,0,0,0,1,0,0,0,0,0
4,1260,1,1,FA,1,0,49,5,5,НА_СХЕМУ,...,0,0,0,0,1,0,0,0,0,0


## Обработка событий

In [197]:
import re
from enum import IntEnum

class EventType(IntEnum):
    OTHER   = 0
    #-------------
    ABORT   = 101  # 
    TOSCM   = 102  #
    NULSCM  = 103  #
    DNB     = 104  #
    BRED    = 105  #
    FRESH   = 106  #
    PREG    = 107  #
    PREGBEF = 108  #
    DRY     = 109  #
    DRY2    = 110 #
    OPEN    = 111 #
    #--------------
    VAC     = 201 #
    VACVIR  = 202 #
    FOOTRIM = 203 #
    HEALTH  = 204 #
    BROKE   = 205 #
    POT     = 206 #
    ILLMISC = 207 #
    LAME    = 208 #
    KETOS   = 209 #
    MAST    = 210 #
    METR    = 211 #
    PARES   = 212 #
    RP      = 213 #
    #-------------
    WEIGHT  = 301 #
    DEAD    = 302 #
    MOVE    = 303 #
    SOLD    = 304 #
    
    def __str__(self):
        return self.name
    
    @staticmethod
    def from_str(label):
        EventNames = {
            EventType.ABORT   : ["ABORT", "АБОРТ"],  
            EventType.TOSCM   : ["TOSCM", "НА_СХЕМУ"], 
            EventType.NULSCM  : ["NULSCM","СО_СХЕМЫ"],
            EventType.DNB     : ["DNB", "НЕОСЕМ"],
            EventType.BRED    : ["BRED", "ОСЕМЕН"], 
            EventType.FRESH   : ["FRESH", "ОТЕЛ"],  
            EventType.PREG    : ["PREG", "СТЕЛН"], 
            EventType.PREGBEF : ["PREGBEF", "СТЕЛНДО"],
            EventType.DRY     : ["DRY", "СУХОСТ"],
            EventType.DRY2    : ["DRY2", "СУХ2"],
            EventType.OPEN    : ["OPEN", "ЯЛОВАЯ"],
            #-------
            EventType.WEIGHT  : ["WEIGHT", "ВЕС"],
            EventType.DEAD    : ["DEAD", "ПАЛА"],
            EventType.MOVE    : ["MOVE", "ПЕРЕВОД"],
            EventType.SOLD    : ["SOLD", "ПРОДАНА"],
            #-------
            EventType.VAC     : ["VAC", "ВАКЦИН"],
            EventType.VACVIR  : ["VACVIR", "ВАКВИРУС"],
            EventType.FOOTRIM : ["FOOTRIM", "РАСЧКОП"],
            EventType.HEALTH  : ["HEALTH", "WELL", "ЗДОРОВА"],
            EventType.BROKE   : ["BROKE", "ДЕФЕКТ"],
            EventType.POT     : ["POT", "ПРОФОТ"],
            EventType.ILLMISC : ["ILLMISC", "БОЛЕЗНЬ"],
            EventType.LAME    : ["LAME", "ХРОМОТА"],
            EventType.KETOS   : ["KETOS", "КЕТОЗ"],
            EventType.MAST    : ["MAST", "МАСТИТ"],
            EventType.METR    : ["METR", "МЕТРИТ"],
            EventType.PARES   : ["PARES", "ПАРЕЗ"],
            EventType.RP      : ["RP", "ПОСЛЕД"],
        }
        for ev in EventNames.keys():
            if label in EventNames[ev]:
                return ev
        return EventType(0)
    

In [198]:
df['event'] = df['event'].apply(lambda x: EventType.from_str(x))
df.head()

Unnamed: 0,id,sex,cycle,childs,childbirth,dob,deadwood_days,pregancy_days,group_id,group_past,event,milking_days,date,remark
0,1064,F,1,FA,1,1/8/2020,0,0,9,9,105,236,7/1/2022,1H15132
1,1064,F,1,FA,1,1/8/2020,0,0,9,9,102,236,7/1/2022,9
2,1185,F,1,FA,1,1/20/2020,0,49,9,43,105,213,7/1/2022,1H15184
3,1185,F,1,FA,1,1/20/2020,0,49,9,43,102,213,7/1/2022,9
4,1260,F,1,FA,1,1/27/2020,0,49,5,5,102,205,7/1/2022,9


### Примечания к событиям
События делим на три группы:
1. События без примечаний
2. События, примечания к которым обрабатываются однообразно (например примечания --- номер протокола или id семени)
3. События, примечания к которым обрабытваются сложным образом.

Чтобы выбрать событие третьего типа, надо выбрать правило которым его надо обработать, а затем собственно произвести обработку.

In [138]:
for event in EventType:
    print(event, df[df['event'] == event]['remark'].unique().tolist())
    print('---------------------------------------------------------------------------')

OTHER []
---------------------------------------------------------------------------
ABORT ['94 ДНИ', '95 ДНИ', '81 ДНИ', 'БЕЗ ЖТ', '213 ДНИ', '172 ДНИ', 'ЖТ', 'ЛК', '241 ДНИ', '160 ДНИ', '83 ДНИ', '130 ДНИ', '84 ДНИ', '91 ДНИ', '7/25/2022', '214 ДНИ', 'БРАК', '54 ДНИ']
---------------------------------------------------------------------------
TOSCM ['9', '13', '40', '31', '29', '30', '38', '33', '46', '34', '36', '55', '60', '53', '37', '52', '42', '43', '58', '47', '48', '11', '2', '5', '15', '41', '49']
---------------------------------------------------------------------------
NULSCM ['-']
---------------------------------------------------------------------------
DNB ['ВЫМЯ', '-', 'МЕЛКАЯ', 'ВОСПР', 'НОГИ', 'ГИНЕКОЛ', 'НОГИПУТЫ', 'НАДОЙ', 'АТП', 'АБЦЕС', 'БРАК', 'СУСТАВ', 'ЗООТЕХ', 'ABC', 'МАСТИТ', 'ПНЕВМО', 'ЗДОРОВЬЕ']
---------------------------------------------------------------------------
BRED ['1H15132', '1H15184', '501H14018', '1H15689', '1H15461', '501H15515', '7H14578',

Некоторые замечания:
1. В примечаниях к событиям категории OPEN встречается 'БПАК' что судя по всему является опечаткой от 'БРАК'
2. В примечаниях к событиям категории OPEN встречается 'БЖТ' и 'БЕЗ ЖТ' и вероятно это одно и тоже
3. В примечаниях к событиям категории SOLD причина продажи и код причины продажи не находятся во взаимнооднозначном соответствии
4. Примечания к событиям LAME и MAST не единобразны
5. В примечании к событии ILLMISC есть протокол БУР1_?

**Что делаем:**

Фиксим пункты 1 и 2, в примечаниях к событиям SOLD и DEAD оставляем только причину продажи/смерти (без кода). 

Примечания к событиям MAST и LAME приводим к виду {Код протокола}_{пораженные соски/ноги}

In [199]:
df['remark'] = df.apply(lambda row: 'БРАК' if (row.event == EventType.OPEN and row.remark == 'БПАК') else row.remark, axis=1)
df['remark'] = df.apply(lambda row: 'БЕЗ ЖТ' if  (row.event == EventType.OPEN and row.remark == 'БЖТ') else row.remark, axis=1)
df['remark'] = df.apply(lambda row: row.remark.split(';')[1].strip().rstrip() if row.event == EventType.SOLD else row.remark, axis=1)
df['remark'] = df.apply(lambda row: row.remark.split(';')[1].strip().rstrip() if row.event == EventType.DEAD else row.remark, axis=1)


def get_protocol_id(s):
    return s[0:s.find('_'):]

def get_protocol_num(s):
    m = []
    t = s[s.find('_') + 1::]
    for i in range(len(t)):
        if t[i] == '_':
            for j in range(int(t[i - 1])+1, int(t[i + 1])):
                m.append(j)
        elif t[i].isdigit():
            m.append(int(t[i]))
    return m

df['remark'] = df.apply(lambda row: get_protocol_id(row.remark) + '_' + ''.join(list(map(str, get_protocol_num(row.remark)))) if (row.event == EventType.LAME or row.event == EventType.MAST) else row.remark, axis=1)

#### Механика парсинга:
К каждому событию составляется набор правил:

Правило это функция + регулярное выражение. Если примечание удовлетворяет регулярке, то его содержимое отправляется в функцию, а выход функции записывается в каунтер {ИМЯ СОБЫТИЯ}_{НОМЕР ПРАВИЛА}

In [140]:
class EventParsingRule:
    def __init__(self, pattern, parser):
        self.raw = pattern
        self.parse = parser
        self.pattern = re.compile(pattern)
        
        
RuleBin  = EventParsingRule('.*', lambda x: 1)
RuleNum  = EventParsingRule('[0-9]*', lambda x: int(x)) 
RuleDays = EventParsingRule('[0-9]* ДНИ', lambda x: int(x[0:-4]))

def satisfy(s, rules):
    for rule in rules:
        if rule.pattern.match(s):
            return True
    return False

def generate_unique_rules(event):
    global df
    patterns = df[df['event'] == event]['remark'].unique().tolist()
    rules = []
    for p in patterns:
        rules.append(EventParsingRule(p, lambda x: 1))
    
    return rules

def generate_combined_rules(specific_rules, event):
    global df
    rules = specific_rules.copy()
    patterns = df[df['event'] == event].loc[df['remark'].apply(lambda s: satisfy(s, specific_rules)) == False]['remark'].unique().tolist()
    for p in patterns:
        rules.append(EventParsingRule(p, lambda x: 1))

    return rules


def generate_protocol_rules(event):
    global df
    protocols = set(map(get_protocol_id, df[df['event'] == event]['remark'].unique().tolist()))
    rules = []
    for p in protocols:
        for i in range(1, 5):
            rules.append(EventParsingRule(p + '_' + f'(([0-9]+{i})|{i})[0-9]*', lambda x: 1))
    return rules

EventRules = {
    EventType.OTHER   : [RuleBin],
    EventType.ABORT   : generate_combined_rules([RuleDays], EventType.ABORT),
    EventType.TOSCM   : generate_unique_rules(EventType.TOSCM), 
    EventType.NULSCM  : [RuleBin],
    EventType.DNB     : generate_unique_rules(EventType.DNB), 
    EventType.BRED    : generate_unique_rules(EventType.BRED), 
    EventType.FRESH   : [RuleBin],  
    EventType.PREG    : [RuleDays], 
    EventType.PREGBEF : [RuleDays],
    EventType.DRY     : generate_unique_rules(EventType.DRY), 
    EventType.DRY2    : [RuleBin],
    EventType.OPEN    : generate_unique_rules(EventType.OPEN),
    #-------
    EventType.WEIGHT  : [RuleNum],
    EventType.DEAD    : generate_unique_rules(EventType.DEAD),
    EventType.MOVE    : [RuleBin],
    EventType.SOLD    : generate_unique_rules(EventType.SOLD),
    #-------
    EventType.VAC     : generate_unique_rules(EventType.VAC),
    EventType.VACVIR  : generate_unique_rules(EventType.VACVIR),
    EventType.FOOTRIM : generate_unique_rules(EventType.FOOTRIM), # Может быть тут Bin поставить?
    EventType.HEALTH  : [RuleBin],
    EventType.BROKE   : generate_unique_rules(EventType.BROKE),
    EventType.POT     : generate_unique_rules(EventType.POT),
    EventType.ILLMISC : generate_unique_rules(EventType.ILLMISC),
    EventType.LAME    : generate_protocol_rules(EventType.LAME),
    EventType.KETOS   : generate_unique_rules(EventType.KETOS),
    EventType.MAST    : generate_protocol_rules(EventType.MAST),
    EventType.METR    : generate_unique_rules(EventType.METR),
    EventType.PARES   : generate_unique_rules(EventType.PARES),
    EventType.RP      : generate_unique_rules(EventType.RP),
}

#Get All Rules:
print("Правила парсинга:")
for event in EventType:
    print(str(event)+':')
    for rule in EventRules[event]:
        print(rule.raw)
    print('------')

def ParseRemark(event, remark):
    global EventRules
    for rule in EventRules[event]:
        if rule.pattern.match(remark):
            return (rule.parse(remark))
    return 0

for event in EventType:
    df[str(event)] =  df.apply(lambda row: 1 if row.event == event else 0, axis=1)
    for number in range(len(EventRules[event])):
        df[str(event)+'_'+str(number)] = df.apply(lambda row: ParseRemark(event, row.remark) if row.event == event else 0, axis=1)

Правила парсинга:
OTHER:
.*
------
ABORT:
[0-9]* ДНИ
БЕЗ ЖТ
ЖТ
ЛК
7/25/2022
БРАК
------
TOSCM:
9
13
40
31
29
30
38
33
46
34
36
55
60
53
37
52
42
43
58
47
48
11
2
5
15
41
49
------
NULSCM:
.*
------
DNB:
ВЫМЯ
-
МЕЛКАЯ
ВОСПР
НОГИ
ГИНЕКОЛ
НОГИПУТЫ
НАДОЙ
АТП
АБЦЕС
БРАК
СУСТАВ
ЗООТЕХ
ABC
МАСТИТ
ПНЕВМО
ЗДОРОВЬЕ
------
BRED:
1H15132
1H15184
501H14018
1H15689
1H15461
501H15515
7H14578
501H15681
614H15481
507H15248
1H15879
ANSVER
FEIM
------
FRESH:
.*
------
PREG:
[0-9]* ДНИ
------
PREGBEF:
[0-9]* ДНИ
------
DRY:
-
CEBA
------
DRY2:
.*
------
OPEN:
ЖТ
БЕЗ ЖТ
ЛК
-
ФК
БРАК
ЖТ,ТОЩАЯ
АБС
ВОСПР
------
VAC:
КОГЛАВАК
ЛЕПТО
ЛТФ
СКОУ
------
VACVIR:
ВИСТА
------
FOOTRIM:
РДК
КАН
------
HEALTH:
.*
------
BROKE:
------
POT:
ПРОФ2
------
ILLMISC:
АБС1
СУСТАВ
ТОЩ
ГАСТРО3
ГАСТРО2
ПНЕВМО1
ПУТЫ
РОТА
ГАСТРО4
ТУГОДОЙ
РАНА
ГАСТРО1
УШИБ
РИН2
ТОЩ2
КОЛИ
БУР1_?
ПОНОС2
БУР1_
РИН
ПНЕВМО2
------
LAME:
V2_(([0-9]+1)|1)[0-9]*
V2_(([0-9]+2)|2)[0-9]*
V2_(([0-9]+3)|3)[0-9]*
V2_(([0-9]+4)|4)[0-9]*
N3_(([0-9]+1)|1)[0-9]*
N3_(([

Посмотрим что получилось:

In [141]:
df.head(5)

Unnamed: 0,id,sex,cycle,childs,childbirth,deadwood_days,pregancy_days,group_id,group_past,event,...,SOLD_2,SOLD_3,SOLD_4,SOLD_5,SOLD_6,SOLD_7,SOLD_8,SOLD_9,SOLD_10,SOLD_11
0,1064,1,1,FA,1,0,0,9,9,105,...,0,0,0,0,0,0,0,0,0,0
1,1064,1,1,FA,1,0,0,9,9,102,...,0,0,0,0,0,0,0,0,0,0
2,1185,1,1,FA,1,0,49,9,43,105,...,0,0,0,0,0,0,0,0,0,0
3,1185,1,1,FA,1,0,49,9,43,102,...,0,0,0,0,0,0,0,0,0,0
4,1260,1,1,FA,1,0,49,5,5,102,...,0,0,0,0,0,0,0,0,0,0


## Учёт истории и переводы
Теперь мы переходим к обработке контексто-зависимых забытий. Для этого надо иметь понимаение какое событие произошло ДО текущего события и ПОСЛЕ текущего события.

Как понять очередность событий, если они происходят в один день? Для начала надо посмотреть на примеры такого.

In [161]:
sf = df.groupby(['id', 'date']).count()
sf[sf['event'] > 3]

Unnamed: 0_level_0,Unnamed: 1_level_0,sex,cycle,childs,childbirth,dob,deadwood_days,pregancy_days,group_id,group_past,event,milking_days,remark
id,date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
4146,7/3/2022,4,4,4,4,4,4,4,4,4,4,4,4
4245,7/29/2022,4,4,4,4,4,4,4,4,4,4,4,4
6214,7/1/2022,4,4,4,4,4,4,4,4,4,4,4,4
8036,7/29/2022,4,4,4,4,4,4,4,4,4,4,4,4
11293,7/20/2022,4,4,0,4,4,4,4,4,4,4,4,4
12171,7/20/2022,4,4,0,4,4,4,4,4,4,4,4,4
20398,7/21/2022,4,4,0,4,4,4,4,4,4,4,4,4
20855,7/12/2022,4,4,0,4,4,4,4,4,4,4,4,4
803063,7/8/2022,4,4,4,4,4,4,4,4,4,4,4,4
803155,7/25/2022,4,4,4,4,4,4,4,4,4,4,4,4


Иногда (но очень редко), с коровой происходит несколько событий в один день. Как правило эти события отделены переводом, а между переводами порядок не важен.

Кстати параметр "Предыдущая группа животного" указывает на группу в предыдущем событии! Сортировка событий в течении дня происходит так:
1. Разбить события на на группы (каждая группа отвечает что делали с животным когда оно было в соотвествующей группе)
2. Упорядочить группы в соответсвии с информацией о перводах
3. Упорядочить события внутри группы по порядку из Enuma

### События перемещения:
Надо проверить, что события перемещения отображают корректную информацию

In [111]:
df['incorrect_move'] = df.apply(lambda row: 1 if row.event == EventType.MOVE and int(row.remark[1:4]) != row.group_id else 0, axis=1)
df[df['incorrect_move'] == 1].head()

Unnamed: 0,id,sid,sex,cycle,childs,childbirth,dob,deadwood_days,pregancy_days,group_id,group_past,event,milking_days,date,remark,incorrect_move


### Сортировка событий:

**TODO**:
Написано максимально криво надо подправить. К тому же есть вопросы к эффективности

Добавим для каждой записи свой id 

In [200]:
df['event_index'] = list(range(df.shape[0]))

In [215]:
import itertools
def path_sort(edge_list):
    m = len(edge_list)
    if m == 1:
        return edge_list
    
    for sigma in itertools.permutations(list(range(m))):
        bad=False
        for i in range(1, m):
            if edge_list[sigma[i]][1] != edge_list[sigma[i-1]][0]:
                bad=True
                break
        if not bad:
            edge_list_fixed = [edge_list[sigma[i]] for i in range(1, m)]
            return edge_list_fixed
    print("FUCK")
    return edge_list

def get_day_ordering(cow_id, ev_date):
    global df
    today = df[(df['id'] == cow_id) & (df['date'] == ev_date)]
    
    moves = today[today['event'] == EventType.MOVE]
    if moves.shape[0] == 0:
        today.sort_values(by=['event'])
        today['ord'] = list(range(1, today.shape[0] + 1, 1))
        return (lambda event_index: today.loc[today['event_index'] == event_index].['ord'])
    print(moves['remark'])
    moves['to']   = moves['remark'].apply(lambda x: int(x[5::]))
    moves['from'] = moves['remark'].apply(lambda x: int(x[1:4:]))
    
    edge_list   = path_sort(moves.apply(lambda row: (row['from'], row['to']), axis=1).tolist())
    vertex_list = [edge[0] for edge in edge_list]
    vertex_list.append(edge_list[-1][1])
    
    today['group_ord'] = today['group_id'].apply(lambda x: vertex_list.index(x))
    today.sort_values(by=['group_ord', 'event'])
    today['ord'] = list(range(1, today.shape[0] + 1, 1))
    
    return (lambda event_index: today.loc[today['event_index'] == event_index]['ord'])

In [216]:
lf = df[df['id'] == 900527]
lf.apply(lambda row: (get_day_ordering(row.id, row.date))(row.event_index), axis=1)


10211    F003T012
10214    F010T003
Name: remark, dtype: object
10211    F003T012
10214    F010T003
Name: remark, dtype: object
10211    F003T012
10214    F010T003
Name: remark, dtype: object
10211    F003T012
10214    F010T003
Name: remark, dtype: object
10211    F003T012
10214    F010T003
Name: remark, dtype: object
10216    F012T003
Name: remark, dtype: object
10216    F012T003
Name: remark, dtype: object
10217    F003T043
Name: remark, dtype: object


Unnamed: 0,10210,10211,10212,10213,10214,10215,10216,10217
10210,1.0,,,,,,,
10211,,2.0,,,,,,
10212,,,3.0,,,,,
10213,,,,4.0,,,,
10214,,,,,5.0,,,
10215,,,,,,1.0,,
10216,,,,,,,2.0,
10217,,,,,,,,1.0


На самом деле это имеет смысл только если нет ситуации когда животное кидают из группы в группу по циклу (например перевели из 3 в 12 потом обратно в 3), в таком случае восстановить порядок наверняка невозможно. Но судя по всему такого не происходит

###  Cобытия выздоровления и болезней:
Заболевания КЕТОЗ, МЕТРИТ, ПАРЕЗ, ПОСЛЕД, ПРОФОТ протекают в новотельный период и имеют общий критерий выписки: все послеотельные осложнения животного вылечили, корова пригодна к дальнейшей работе и воспроизводству (примечание при выписке ГИНЕКОЛ). Примечание МОЛОДНЯК к событию ЗДОРОВА имеют только животные 0-й лактации (телки и бычки). Примечание ПРОЧИЕ к событию ЗДОРОВА имеют животные, перенесшие прочие заболевания (событие БОЛЕЗНЬ).

{'V2', 'N3', 'А', 'H1', 'H2', 'N1', 'HP1', 'V3', 'HP2', 'N2', 'V1', 'M1'}
{'КМ2', 'ТМ3', 'КМ5', 'СКМ6', 'ТМ9', 'КМ4', 'КМ1', 'ТМ5', 'ТМ2', 'М', 'КМ6', 'ТМ1', 'КМ3'}


In [42]:
df.head()

Unnamed: 0,id,sex,cycle,childs,childbirth,deadwood_days,pregancy_days,group_id,group_past,event,...,MAST_КМ6_3,MAST_КМ6_4,MAST_ТМ1_1,MAST_ТМ1_2,MAST_ТМ1_3,MAST_ТМ1_4,MAST_КМ3_1,MAST_КМ3_2,MAST_КМ3_3,MAST_КМ3_4
0,1064,1,1,FA,1,0,0,9,9,BRED,...,0,0,0,0,0,0,0,0,0,0
1,1064,1,1,FA,1,0,0,9,9,TOSCM,...,0,0,0,0,0,0,0,0,0,0
2,1185,1,1,FA,1,0,49,9,43,BRED,...,0,0,0,0,0,0,0,0,0,0
3,1185,1,1,FA,1,0,49,9,43,TOSCM,...,0,0,0,0,0,0,0,0,0,0
4,1260,1,1,FA,1,0,49,5,5,TOSCM,...,0,0,0,0,0,0,0,0,0,0


### Учёт истории

# Генерация новых фичей