In [38]:
import pandas as pd
import numpy as np
import datetime
import tqdm
import operator

from fuzzywuzzy import process
from fuzzywuzzy import fuzz

from string import punctuation
exclude = set(punctuation + u'[]—«»–')

from sklearn.cluster import KMeans

pd.set_option('max_columns', 100)

-------------------------------

# Изъятия

In [113]:
data = pd.read_excel('data/Report_Database.xlsx')
data['Дата документа разрешения'] = pd.DatetimeIndex(data['Дата документа разрешения'])
data['Дата документа'] = pd.DatetimeIndex(data['Дата документа'])
data.head(1)

Unnamed: 0,Наименование товара,Производитель,Серия,Поставщик,Регион,Дата документа,Номер документа,Лаборатория,Тип,Причины забраковки,Разрешен,Дата документа разрешения,Номер документа разрешения
0,"Хлоргексидин р-р д/местн. и наружн. прим. 0,05...",Кемеровская ФФ,170817,,Регионы,2018-06-03,01И-583_18,Федеральная служба по надзору в сфере здравоох...,Приостановлена реализация,"Посторонние примеси, рН,",0,NaT,


-------------------------------

# Причины забраковки

In [114]:
# подгружаем настройки
settings = pd.read_excel('data/settings.xlsx')
num_clust = settings.num_clust.values[0]
clust_weights = [int(x) for x in settings.clust_weights.values[0].split(';')]
print('num_clust:', num_clust)
print('clust_weights:', clust_weights)
if len(clust_weights) != num_clust:
    er = 'error: clust_weights length is different from num_clust!'
    print(er)
    raise ValueError(er)

num_clust: 3
clust_weights: [1, 2, 5]


In [115]:
# собираем частые причины забраковки
def_list = []
for i, row in data.iterrows():
    if pd.isnull(row['Причины забраковки']):
        continue
    vals = [' '.join(x.lower().strip().split(' ')[:2]) for x in row['Причины забраковки'].replace('. ', ',').split(',') if x != ' ']
    vals = [''.join(ch for ch in v if ch not in exclude) for v in vals if len(v) > 3]
    def_list.extend(vals)
def_list = set(def_list)     

In [116]:
# собираем статистику для причин
def_df = pd.DataFrame()
clustering_columns = ['Тип_%', 'Зарещен_%', 'Лаборатория_%']
for def_item in def_list:
    
    group = data[(pd.notnull(data['Причины забраковки']))&(data['Причины забраковки'].str.lower().str.contains(def_item))]
    if group.shape[0] < 1:
        continue
        
    type_bad_rel = group[group['Тип'] == 'Изъятие из обращения'].shape[0] / group.shape[0]
    resolved_bad_rel = group[group['Разрешен'] == 0].shape[0] / group.shape[0]
    lab_bad_rel = group[group['Лаборатория'] == 'Федеральная служба по надзору в сфере здравоохранения и социального развития'].shape[0] / group.shape[0]
    
    def_df = def_df.append(pd.DataFrame([(def_item, type_bad_rel, resolved_bad_rel, lab_bad_rel)], columns = ['Причина забраковки'] + clustering_columns))
def_df.reset_index(inplace=True, drop = True)

In [117]:
# экспертная оценка нарушений
def_expert = {'маркировка':2, 'упаковка':1, 'описание':6, 'цветность':6, 'микробиологическ':10, 'инструкция':1, 'отмена декларации':5, 'количествен':8, 'фальсифика':4, 'отзыв по собств':7}
for item in list(def_expert.items()):
    results = pd.DataFrame(process.extract(item[0], def_df['Причина забраковки'], scorer=fuzz.token_sort_ratio, limit = 10000))
    def_df.loc[results[results[1]>25].set_index(2).index.values, 'Экспертно'] = item[1]

In [119]:
# кластеризуем
kmeans_fit = KMeans(n_clusters=num_clust, random_state=101).fit(def_df[clustering_columns])
centroid_dict = {}
for i, centroid in enumerate(kmeans_fit.cluster_centers_):
    centroid_dict.update({i:sum(centroid)})
centroid_sorted_dict = {}
for sorted_item, weight in zip(sorted(centroid_dict.items(), key=operator.itemgetter(1)), clust_weights):
    centroid_sorted_dict.update({sorted_item[0]:weight})

In [120]:
# предсказываем кластер
def_df['cluster'] = kmeans_fit.predict(def_df[clustering_columns])
def_df['cluster_label'] = def_df['cluster'].map(lambda x: centroid_sorted_dict.get(x))

In [121]:
# сохраним для визуализации
def_df.to_csv('results/clusters.csv', encoding='cp1251', sep=';', index = False)

-------------------------------

# Аггрегриуем причины забраковок

In [122]:
def_expert_reverse = {'инструкция': 'Проблемы с инструкцией.', \
 'количествен': 'Количественное определени.', \
 'маркировка': "Маркировка.", \
 'микробиологическ': "Микробиологическая чистота.",
                      'описание': "Проблема в описании.", \
 'отзыв по собств': 'Отзыв по собственной инициативе.', \
 'отмена декларации': 'Отмена декларации.', \
 'упаковка': 'Упаковка.', \
 'фальсифика': 'Фальсификация.', \
 'цветность': 'Цветность.'}

In [126]:
for i, row in tqdm.tqdm(data.iterrows(), total = data.shape[0]):
    def_v = row['Причины забраковки']
    if pd.isnull(def_v):
        continue
    def_group = def_df[[x in def_v.lower() for x in def_df['Причина забраковки'].values]]
    
    defs = ""
    defs_sum = 0
    for j, row_group in def_group.iterrows():
        if pd.notnull(row_group['Экспертно']):
            exp = def_expert_reverse.get(row_group['Причина забраковки'])
            if pd.notnull(exp):
                defs += exp + ' '
                defs_sum += row_group['Экспертно']
    if len(defs) > 0:
        defs = defs.strip(' s')
    
    cluster_max = def_group.cluster_label.max()
    data.loc[i, 'Тяжесть нарушения'] = cluster_max
    data.loc[i, 'Нарушения экспертно'] = defs
    data.loc[i, 'Тяжесть нарушения экспертно'] = defs_sum

100%|█████████████████████████████████████████████████████████████████████████████| 3299/3299 [00:07<00:00, 457.84it/s]


-------------------------------

# Статистики по производителю

In [129]:
# статистика по типу забраковки
data = data.merge(pd.get_dummies(data['Тип']), left_index=True, right_index=True).drop('Тип', 1)
# статистика по региону забраковки
data = data.merge(pd.get_dummies(data['Регион']), left_index=True, right_index=True).drop('Регион', 1)
# временные статистики - реагирование на запрет
data['Скорость реагирования'] = (data['Дата документа разрешения'] - data['Дата документа']).dt.days
data.loc[data[data['Скорость реагирования'] <= 0].index, 'Скорость реагирования'] = None
data.loc[data[data['Скорость реагирования'] <= 0].index, 'Разрешен'] = 0
# временные статистики - по году забраковки
data['Год документа'] = pd.DatetimeIndex(data['Дата документа']).year
data['Месяц документа'] = pd.DatetimeIndex(data['Дата документа']).month
data['Месяц документа'] = data['Месяц документа'].astype('str') + '.' + data['Год документа'].astype('str')
data['Месяц документа'] = data['Месяц документа'].map(lambda x: datetime.datetime.strptime(x, '%m.%Y'))
data = data.merge(pd.get_dummies(data['Год документа']), left_index=True, right_index=True)#.drop('Год документа', 1)

In [130]:
# тенденции 
for manuf, group in data.groupby(['Производитель']):
    if 2016 in group['Год документа'].unique() and 2017 in group['Год документа'].unique():
        g_17 = group[group['Год документа'] == 2017].shape[0]
        g_16 = group[group['Год документа'] == 2016].shape[0]
        if g_16 < g_17:
            data.loc[group.index, 'Тренд'] = 1
        if g_16 > g_17:
            data.loc[group.index, 'Тренд'] = -1
data['Тренд'].fillna(0, inplace = True)

In [131]:
data.head(1)

Unnamed: 0,Наименование товара,Производитель,Серия,Поставщик,Дата документа,Номер документа,Лаборатория,Причины забраковки,Разрешен,Дата документа разрешения,Номер документа разрешения,Тяжесть нарушения,Нарушения экспертно,Тяжесть нарушения экспертно,Изъятие из обращения,Приостановлена реализация,Москва,Регионы,Скорость реагирования,Год документа,Месяц документа,2015,2016,2017,2018,Тренд
0,"Хлоргексидин р-р д/местн. и наружн. прим. 0,05...",Кемеровская ФФ,170817,,2018-06-03,01И-583_18,Федеральная служба по надзору в сфере здравоох...,"Посторонние примеси, рН,",0,NaT,,5.0,,0.0,0,1,0,1,,2018,2018-06-01,0,0,0,1,1.0


In [132]:
# groupby stats
data = data.groupby(['Производитель', 'Тренд', 'Нарушения экспертно', 'Тяжесть нарушения экспертно'], as_index = False).agg({'Изъятие из обращения':'sum', 'Приостановлена реализация':'sum',
                                                      'Разрешен':'sum', 'Скорость реагирования':'mean',
                                                      'Тяжесть нарушения':'mean', 'Наименование товара':'nunique'})
data['place_total_fail'] = data['Изъятие из обращения'] + data['Приостановлена реализация']
data['Разрешен'] = data['Разрешен'] / data['place_total_fail']
data['Изъятие из обращения'] = data['Изъятие из обращения'] / data['place_total_fail']
data['Приостановлена реализация'] = data['Приостановлена реализация'] / data['place_total_fail']
data.head(1)

Unnamed: 0,Производитель,Тренд,Нарушения экспертно,Тяжесть нарушения экспертно,Изъятие из обращения,Приостановлена реализация,Разрешен,Скорость реагирования,Тяжесть нарушения,Наименование товара,place_total_fail
0,А.Наттерманн энд Сие. ГмбХ,0.0,,0.0,0.333333,0.666667,0.666667,159.0,4.0,1,3.0


-------------------------------

# Добавим информацию из государственного реестра

In [134]:
df_gos = pd.read_csv('data/gos_prepared.csv', encoding='cp1251', sep=';')
data = data[pd.notnull(data['place_id'])]
df_gos = df_gos[pd.notnull(df_gos['place_id'])]
data = data.drop_duplicates().merge(df_gos.drop_duplicates(), on = 'place_id', how = 'left')
data['place_fail_rel_size'] = data['Наименование товара'] / data['place_size']
data.loc[data[data['place_fail_rel_size'] > 1].index, 'place_fail_rel_size'] = 1
data.head(1)

Unnamed: 0,Производитель,Тренд,Нарушения экспертно,Тяжесть нарушения экспертно,Изъятие из обращения,Приостановлена реализация,Разрешен,Скорость реагирования,Тяжесть нарушения,Наименование товара,place_total_fail,lat,long,place_id,google_name,google_rating,site,reviews,world_rank,country_rank,link_numbers,place_was_nullated,place_no_end,place_time,place_size,"Юридическое лицо, на имя которого выдано регистрационное удостоверение",place_fail_rel_size
0,А.Наттерманн энд Сие. ГмбХ,0.0,,0.0,0.333333,0.666667,0.666667,159.0,4.0,1,3.0,55.773166,37.52703,ChIJ-zHoPnZJtUYR8D_m_FLE-Ec,РЛС,4.2,http://www.rlsnet.ru/,"[['Проблема с парковкой.', 4, 1485465879], ['С...",12672.0,834.0,1330.0,0.950773,0.733052,1895.826001,834.0,Яньтай Луинь Фармасьютикал Ко.Лтд,0.001199


-------------------------------

# Добавим отзывы и статистику из реестра фед. надзора

In [135]:
df_fed = pd.read_csv('data/fed_prepared.csv', encoding='cp1251', sep=';')
data = data.merge(df_fed, on = 'place_id', how = 'left')
data.head(1)

Unnamed: 0,Производитель,Тренд,Нарушения экспертно,Тяжесть нарушения экспертно,Изъятие из обращения,Приостановлена реализация,Разрешен,Скорость реагирования,Тяжесть нарушения,Наименование товара,place_total_fail,lat,long,place_id,google_name,google_rating,site,reviews,world_rank,country_rank,link_numbers,place_was_nullated,place_no_end,place_time,place_size,"Юридическое лицо, на имя которого выдано регистрационное удостоверение",place_fail_rel_size,Иностранцы,Россия,контрафактное ЛС,недоброкачественное ЛС,незарегистрированное ЛС,оригинальное ЛС,сомнительное ЛС,фальсифицированное ЛС,Партия,Брак поставщика (подтвержден),Брак производителя (изъятие без уничтожения),Брак производителя (партия),Брак производителя (территория),Брак производителя Россия,Изменение,Изъятие,Изъятие незарегистрированного ЛС,Изъятие по неподтвержденной декларации,Контрафакт,Незаконный ввоз,О переводе на предварительный контроль,Отзыв,Отзыв деклараций о соответствии,Отзыв производителем,Отзыв производителем (Ф/С),Отзыв производителем партии,Ошибка репортера,Прекращение обращения,Приостановление,Приостановление реализации,Разрешение (партия),Разрешение (серия),Разрешение реализации,Фальсификация,Фальсификация (изъятие по признакам),Фальсификация полное изъятие,Фальсификация приостановление,place_total_letters
0,А.Наттерманн энд Сие. ГмбХ,0.0,,0.0,0.333333,0.666667,0.666667,159.0,4.0,1,3.0,55.773166,37.52703,ChIJ-zHoPnZJtUYR8D_m_FLE-Ec,РЛС,4.2,http://www.rlsnet.ru/,"[['Проблема с парковкой.', 4, 1485465879], ['С...",12672.0,834.0,1330.0,0.950773,0.733052,1895.826001,834.0,Яньтай Луинь Фармасьютикал Ко.Лтд,0.001199,0.761859,0.238141,0.0,0.905131,0.0,0.019361,0.068732,0.006776,0.040658,0.0,0.020329,0.0,0.167473,0.192643,0.003872,0.050339,0.0,0.000968,0.001936,0.000968,0.0,0.068732,0.058083,0.082285,0.0,0.03001,0.0,0.016457,0.117135,0.088093,0.005808,0.031946,0.010649,0.001936,0.023233,0.001936,0.025169,1033.0


-------------------------------

# Итоговый рейтинг производителя

In [136]:
data['google_rating']=  (5 - data['google_rating']) / 5
data['Тяжесть нарушения'] = data['Тяжесть нарушения'] / max(clust_weights)
data['Итоговый рейтинг'] = (data['google_rating'].fillna(0.5) + data['Тяжесть нарушения'].fillna(0.5) + data['place_fail_rel_size'].fillna(0.5)) / 3

-------------------------------

# Сохраним результат

In [137]:
data = data[~data.duplicated('place_id', keep='first')].sort_values(['place_id'])
data[pd.notnull(data['Юридическое лицо, на имя которого выдано регистрационное удостоверение'])].to_csv('results/result.csv', encoding='cp1251', sep=';', index = False)

In [138]:
data.head()

Unnamed: 0,Производитель,Тренд,Нарушения экспертно,Тяжесть нарушения экспертно,Изъятие из обращения,Приостановлена реализация,Разрешен,Скорость реагирования,Тяжесть нарушения,Наименование товара,place_total_fail,lat,long,place_id,google_name,google_rating,site,reviews,world_rank,country_rank,link_numbers,place_was_nullated,place_no_end,place_time,place_size,"Юридическое лицо, на имя которого выдано регистрационное удостоверение",place_fail_rel_size,Иностранцы,Россия,контрафактное ЛС,недоброкачественное ЛС,незарегистрированное ЛС,оригинальное ЛС,сомнительное ЛС,фальсифицированное ЛС,Партия,Брак поставщика (подтвержден),Брак производителя (изъятие без уничтожения),Брак производителя (партия),Брак производителя (территория),Брак производителя Россия,Изменение,Изъятие,Изъятие незарегистрированного ЛС,Изъятие по неподтвержденной декларации,Контрафакт,Незаконный ввоз,О переводе на предварительный контроль,Отзыв,Отзыв деклараций о соответствии,Отзыв производителем,Отзыв производителем (Ф/С),Отзыв производителем партии,Ошибка репортера,Прекращение обращения,Приостановление,Приостановление реализации,Разрешение (партия),Разрешение (серия),Разрешение реализации,Фальсификация,Фальсификация (изъятие по признакам),Фальсификация полное изъятие,Фальсификация приостановление,place_total_letters,Итоговый рейтинг
164,НИИ медицины и стандартизации ООО/пр.РФК ЗАО,1.0,,0.0,1.0,0.0,0.0,,1.0,3,3.0,55.772303,37.575811,ChIJ-3ZWziVKtUYRM5CeMyvxCs8,"АО ""Всероссийский научно-исследовательский инс...",,http://www.vniis.ru/,[],3597289.0,317709.0,223.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.666667
248,Уралбиофарм ОАО,1.0,,0.0,0.78125,0.21875,0.0,,1.0,5,32.0,55.811562,37.523126,ChIJ-8ek18xJtUYR3JOmVnhoXCE,Уралбиофарм,,http://ubf.ru/,[],6698185.0,709699.0,34.0,0.973333,0.840175,1826.266667,103.0,Уралбиофарм ОАО,0.048544,0.0,1.0,0.0,0.957983,0.042017,0.0,0.0,0.0,0.012605,0.0,0.004202,0.0,0.067227,0.037815,0.0,0.008403,0.0,0.0,0.0,0.0,0.0,0.113445,0.004202,0.378151,0.096639,0.004202,0.0,0.033613,0.12605,0.117647,0.0,0.0,0.008403,0.0,0.0,0.0,0.0,238.0,0.516181
58,Биотест Фарма ГмбХ,0.0,,0.0,0.0,1.0,1.0,59.0,0.4,3,9.0,55.682578,37.550701,ChIJ-VjiQOxMtUYRWnZshldLBbE,Биотест Фарма ГмбХ,,,[],,,,1.0,0.826087,1826.0,23.0,Биотест Фарма ГмбХ,0.130435,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0,18.0,0.343478
173,Новартис Консьюмер Хелс С.А.,0.0,,0.0,1.0,0.0,0.0,,0.4,1,1.0,55.746685,37.537381,ChIJ-dskp91LtUYR3RHG_D4cHSE,Новартис Консьюмер,0.8,https://www.novartis.ru/,"[['', 1, 1321486984]]",2616120.0,210676.0,167.0,0.888023,0.748426,1802.555556,103.0,Новартис Консьюмер Хелс СА,0.009709,1.0,0.0,0.0,0.870968,0.0,0.0,0.129032,0.0,0.0,0.0,0.032258,0.0,0.096774,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.032258,0.0,0.612903,0.0,0.064516,0.0,0.0,0.0,0.032258,0.0,0.0,0.0,0.0,0.096774,0.0,0.032258,31.0,0.403236
0,А.Наттерманн энд Сие. ГмбХ,0.0,,0.0,0.333333,0.666667,0.666667,159.0,0.8,1,3.0,55.773166,37.52703,ChIJ-zHoPnZJtUYR8D_m_FLE-Ec,РЛС,0.16,http://www.rlsnet.ru/,"[['Проблема с парковкой.', 4, 1485465879], ['С...",12672.0,834.0,1330.0,0.950773,0.733052,1895.826001,834.0,Яньтай Луинь Фармасьютикал Ко.Лтд,0.001199,0.761859,0.238141,0.0,0.905131,0.0,0.019361,0.068732,0.006776,0.040658,0.0,0.020329,0.0,0.167473,0.192643,0.003872,0.050339,0.0,0.000968,0.001936,0.000968,0.0,0.068732,0.058083,0.082285,0.0,0.03001,0.0,0.016457,0.117135,0.088093,0.005808,0.031946,0.010649,0.001936,0.023233,0.001936,0.025169,1033.0,0.3204


In [139]:
data[['place_id', 'Нарушения экспертно', 'Тяжесть нарушения экспертно']].drop_duplicates().to_csv('data/expert.csv', index = False, encoding = 'cp1251')