## Цель
*Построить сервис (тг-канал), который будет помогать поставщику принимтаь наиболее эффективные решения для введения бизнеса*

# Теория
1. Понятия не информационного кластера
2. Понятие информационного кластера
3. Признаки, которые важны при формировани
4. Цели кластера
5. Идеи для фич

## Понятия не информационного кластера
«кластер – сконцентрированные по географическому признаку группы взаимосвязанных компаний, специализированных поставщиков, поставщиков услуг, фирм в родственных отраслях, а также связанных с их деятельностью организаций (например, университетов, агентств по стандартизации, торговых объединений) в определенных областях, конкурирующих, но при этом ведущих совместную работу»

Из определения Портера можно выделить три отличительные черты кластера, которые, в принципе, используются в качестве основополагающих практически во всех дальнейших работах, посвященных данной теме:

· концентрация производителей на одной территории;

· взаимосвязанность компаний – участников кластера;

· взаимодействие внутри кластера является комбинацией конкуренции и кооперации.

## Понятие информационного кластера

Отличительные черты цифрового кластера:

1. Ключевые трансакции производятся в цифровом виртуальном пространстве.

2. Трансакционные издержки при взаимодействии внутри кластера ниже, чем при взаимодействии с контрагентами за его пределами.

3. Независимость эффективности взаимодействия участников кластера от их географического местоположения.

Цифровой кластер преодолевает ряд проблем, присущих его традиционным формам. К ним можно отнести следующее:

1. Рост издержек, связанных с перегруженностью обслуживающей инфраструктуры. Начиная с некоторого момента, рост концентрации компаний начинает вызывать рост цен на недвижимость и вспомогательные услуги, возрастает негативное воздействие на экологию, увеличивается стоимость трудовых ресурсов и пр.

2. Компании, входящие в кластер, зачастую имеют стимулы и возможности для затруднения входа в него новых участников. В результате уровень конкуренции внутри кластера может снизиться, что негативно скажется на его эффективности. К тому же подобные барьеры замедляют смену участников кластера, что позволяет функционировать не самым успешным компаниям, которые уже находятся внутри него.

3. Ограничение доступа к ресурсам. Участники традиционного кластера привязаны к определенной территории, что ограничивает выбор поставщиков ресурсов и зачастую заставляет сотрудничать не с самыми эффективными из них.

## Признаки, которые важны при формировани

1. Но мы сейчас не о крупных торговых операторах. Им кластеризация не нужна. Как видно из определения кластера, данного Портером, там должен быть **принцип взаимодополнения**

2. **Географическое соседствование компаний**. Для бизнеса, который садится на трафик, это принципиально важно. По-другому никак. Потому что расположение в шаговой доступности друг от друга удобно клиенту, вокруг интересов которого и складывается весь процесс.

3. **это действия в определенной сфере**. Под этим будем понимать направленность интересов клиентского трафика на соответствие одной из его жизненных «озабоченностей», как например:
- заботливого родителя, ищущего что-то для ребенка 
- человека, желающего качественно провести досуг 
- человека, озабоченного празднованием значимого события

4. **это принцип взаимодополнения**. Именно он и экономит время клиента, позволяя собрать в одном месте максимальное количество операторов, удовлетворяющих спрос представителя одной из жизненных ролей, примеры которых приведены выше.

## Цели кластера

**Думаю, достойной целью в нашем случае может быть обеспечение высоких темпов развития предприятий, образующих кластер, за счет повышения их конкурентоспособности.**

- Удобство для клиента – экономия ему времени и бензина (если до кластера надо ехать). 
- Возможность экономить на продвижении, которое или хотя бы фрагменты которого могут быть общим для всех участников. 
- Возможность экономить на вспомогательных функциях, которые тоже можно сделать общими для всех участников кластера (например, послепродажный сервис, клининг или даже торговая интернет-площадка). 
- Частичное перекрывание низкого сезона для одних участников за счет высокого трафика тех, у кого сейчас сезон высокий. Эффективное взаимообогащение участников практическим опытом друг друга.

Подробнее на Retail.ru:
https://www.retail.ru/articles/klasternyy-podkhod-v-roznichnoy-torgovle/
https://www.retail.ru/articles/klasternyy-podkhod-v-roznichnoy-torgovle/

## Идеи для фич
1. Территория, где находится место закупки\продажи
2. Объём рынка + территория -> специализированные товары
3. Как-то оценить взаимодействия компаний (на местной территории)
4. Как выполняются желания потребителей поставщиком, мб построить метрику

## Что будем выдавать
1. Конкуренция
2. Адекватная цена (ценообразавние)
3. Спрос
4. Затраты на продукцию

In [34]:
import pandas as pd
import matplotlib as plt
import seaborn as sns
import numpy as np

In [35]:
data_contracts = pd.read_csv("Контракты 44ФЗ.csv", sep=';')
data_contracts.head()

Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,Драм-юнит Cet CET8997,7605.0,0%,Штука,,28.23.25.000,Части и принадлежности прочих офисных машин,6a2325da490021b46bb00834ab4a560a,156
1,Лук репчатый,48.75,Без НДС,Килограмм,Дополнительные показатели (характеристики): Ук...,01.13.43.110,Лук репчатый,c8f328b188e78a1673db8cc2db1b6828,643
2,Карандаш механический (Страна происхождения : ...,8.0,20%,Штука,,32.99.12.130,Карандаши механические,9d785973706feeff180ee96a247135e6,156
3,Имплантаты для остеосинтеза варианты исполнени...,5200.0,Без НДС,Штука,,32.50.50.190,"Изделия медицинские, в том числе хирургические...",5a35794bbd7c29420b25479364c26c7b,616
4,Говядина замороженная для детского питания,490.59,Без НДС,Килограмм,,10.11.31.130,Говядина и телятина замороженные для детского ...,91c23daf46d288344828eac627074bf3,643


In [36]:
data_contracts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 9 columns):
 #   Column                   Non-Null Count    Dtype  
---  ------                   --------------    -----  
 0   product_name             1000000 non-null  object 
 1   price                    1000000 non-null  float64
 2   product_vat_rate         1000000 non-null  object 
 3   product_msr              1000000 non-null  object 
 4   product_characteristics  211088 non-null   object 
 5   okpd2_code               1000000 non-null  object 
 6   okpd2_name               1000000 non-null  object 
 7   inn                      1000000 non-null  object 
 8   country_code             998864 non-null   object 
dtypes: float64(1), object(8)
memory usage: 68.7+ MB


In [37]:
data_contracts.describe()

Unnamed: 0,price
count,1000000.0
mean,372072.4
std,135161800.0
min,0.0
25%,123.77
50%,525.0
75%,3084.5
max,85700920000.0


In [38]:
data_contracts.shape

(1000000, 9)

Категориальные и вещественные колонки

In [39]:
cat_cols = data_contracts.loc[:, 'object' == data_contracts.dtypes].columns
num_cols = data_contracts.loc[:, 'object' != data_contracts.dtypes].columns

In [40]:
cat_cols

Index(['product_name', 'product_vat_rate', 'product_msr',
       'product_characteristics', 'okpd2_code', 'okpd2_name', 'inn',
       'country_code'],
      dtype='object')

In [41]:
num_cols

Index(['price'], dtype='object')

In [42]:
cat_cols_specific = ['product_vat_rate', 'product_msr']
print(f"Уникальные значения в колонках\n")

for cat_col in cat_cols_specific:
    print(f"{data_contracts[cat_col].unique()} - {cat_col}\n")

Уникальные значения в колонках

['0%' 'Без НДС' '20%' '10%' '18%'] - product_vat_rate

['Штука' 'Килограмм' 'Упаковка' 'Номер' 'Пара (2 шт.)' 'Набор'
 'Литр кубический дециметр' 'Киловатт-час' 'Гигакалория' 'Комплект'
 'Условная единица' 'Метр' 'Погонный метр'
 'Мегаватт-час 1000 киловатт-часов' 'Дето-день' 'Флакон' 'Киловатт'
 'Тысяча кубических метров' 'Квадратный метр' 'Кубический метр' 'Рулон'
 'Бутылка' 'Пачка' 'Бобина' 'Гигакалория в час'
 'Кубический сантиметр миллилитр' 'Тонна метрическая тонна (1000 кг)'
 'Тысяча штук' 'Особь' 'Квартира' 'Человеко-час' 'Минута' 'Единица'
 'Рубль' 'Лист' 'Ампула' 'Человек' 'Километр тысяча метров'
 'Тысяча экземпляров' 'Условная банка' 'Месяц' 'Кубический метр в час'
 'Лекарственная форма (форма выпуска): Штука' 'Квадратный дециметр'
 'Миллиграмм' 'Полугодие' 'Коробка' 'Грамм' 'Рабочее место' 'Голова'
 'Киловольт' 'Условный кубический метр' 'Штамм' 'Условная штука' 'Час'
 'Вторичная (потребительская) упаковка: Упаковка' 'Дециметр'
 'Квадратный 

In [43]:
data_contracts[data_contracts['product_msr'] == "Килограмм азота"]

Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
231635,Азот жидкий,47.33,20%,Килограмм азота,,20.11.11.140,Азот,3a980959e8382be45d148e8e97f2d0c9,643
730108,"Шпатлевка БЫСТРОЙ ШПП Финишная полимерная , ...",25.52,20%,Килограмм азота,,20.30.22.120,Шпатлевки,bcb0af35da71610606a65c24c7d9d121,643


In [44]:
data_contracts.iloc[231635]

product_name                                    Азот жидкий
price                                                 47.33
product_vat_rate                                        20%
product_msr                                 Килограмм азота
product_characteristics                                 NaN
okpd2_code                                     20.11.11.140
okpd2_name                                             Азот
inn                        3a980959e8382be45d148e8e97f2d0c9
country_code                                            643
Name: 231635, dtype: object

In [45]:
# Словари для перевода, беру в СИ

# Качественные данные, то есть в степени

# Масса в кг
# расстояние в метрах
# объём в литрах
# ватт в киловаттах
# напряжение в киловольтах
# время в часах

qualitatively_val = {
    'Мегаватт-час 1000 киловатт-часов' : 10**3,
    'Тысяча кубических метров': 1000*1000,
    'Кубический метр' : 1000,
    'Кубический сантиметр миллилитр': 10**-3,
    'Тонна метрическая тонна (1000 кг)': 1000,
    'Человеко-час' : 60,
    'Минута': 60*-1,
    'Километр тысяча метров': 1000*1,
    'Тысяча экземпляров': 1000,
    'Месяц': 31*24,
    'Кубический метр в час': 1000,
    'Квадратный дециметр': 10,
    'Миллиграмм': 0.00001,
    'Условный кубический метр': 1000,
    'Час': 60*60,
    'Дециметр': 0.1,
    'Мегаватт тысяча киловатт': 10**3,
    'Тысяча метров кубических в час': 1000*1000,
    'Тысяча условных кубических метров': 1000*1000,
    'Действующее вещество: Миллилитр': 10**-3,
    'Квадратный километр': 1000**2,
    'Год': 365*30.5*24,
    'Тонна условного топлива':1000,
    'Человеко-день': 24,
    'Кубический миллиметр' : 10**-6,
    'Условная тонна': 1000,
    'Тысяча квадратных метров': 1000,
    'Гектар':100,
    'Декалитр': 10,
    'Мегалитр': 1000,
    'Сантиметр': 0.01,
    'Тысяча рублей':1000,
    'Тысяча погонных метров':1000,
    'Центнер (метрический)(100 кг)  гектокилограмм  квинтал[*] (метрический) децитоннах': 100,
    'Тысяча тонн':1000*1000,
    'Тысяча кубических метров в сутки':1000,
    'Килокалория':10,
    'Мегабайт': 1000,
    'Неделя': 7*24,
    'Тонна в смену': 1000,
    'Кубический метр в секунду': 1000,
    'Автотонна':1000,
    'Кубический ярд (0,764555 м3)': 0.764555
}

In [83]:
def calculate_si(idx, data):
    val = data.loc[idx, ('product_msr')]
    price = data.loc[idx, ('price')]
    if val in qualitatively_val.keys():
        return data.loc[idx, ('price')]*qualitatively_val[data.loc[idx, ('product_msr')]]
    else:
        return data.loc[idx, ('price')]

In [84]:
data_clean = pd.read_csv("clean_descriptions.csv", sep=",")
data_clean.head()

Unnamed: 0.1,Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,0,"Мешки для мусора 240 л, черные, ПВД, 100 мкм, ...",24.22,20%,Штука,объем вид материал пвд длина количество упаков...,22.22.1,Изделия пластмассовые упаковочные,8862f4d4ee368febd5fac195c84f8dde,
1,1,Степ платформа,4340.98,Без НДС,Штука,описание степ платформа вид товар спортивный с...,32.30.14.129,"Оборудование для занятий физкультурой, гимнаст...",605fc8ce2b603efc77cefa563781105f,156.0
2,2,Скобы для степлера,114.0,Без НДС,Штука,описание скоба для степлер количество упаковка...,25.99.23.000,"Детали для скоросшивателей или папок, канцеляр...",766fe416835260900f67379de663439c,
3,3,"Эмаль Vika МЛ-1110 Апельсин Камаз 0,8 кг",709.0,Без НДС,Штука,тип краска однокомпонентный синтетический эмал...,29.32.30.390,Части и принадлежности для автотранспортных ср...,71b52ca820c667fb8cebd3fcf362ac79,643.0
4,4,Средство дезинфицирующее Део-бактер 1л,499.0,20%,Флакон,объем действующий вещество час алкилдеметилбен...,20.20.14.000,Средства дезинфекционные,c2c3bea3f9fe8262cea420f1b6d3772b,


In [85]:
data_clean['new_price'] = [calculate_si(idx, data_clean) for idx in list(data_clean.index)]

In [86]:
#'0%' 'Без НДС' '20%' '10%' '18%'
vocab = {
    '0%': 1,
    'Без НДС':1,
    '20%':1.2,
    '10%':1.1,
    '18%':1.18
}

In [87]:
data_clean['product_vat_rate'] = data_clean['product_vat_rate'].map(vocab)

In [88]:
data_clean['new_price'] = data_clean['new_price']*data_clean['product_vat_rate']

In [90]:
data_clean = data_clean.drop(['Unnamed: 0', 'product_vat_rate', 'price'], axis=1)

In [95]:
data_clean = data_clean.rename({'price':'new_price'})

In [98]:
data_clean.to_csv('clean_data.csv', index=False)

In [None]:
data_contracts.groupby(['okpd2_code'][:5]).agg({"okpd2_code":"count"})

In [None]:
result = data_contracts.groupby(data_contracts.okpd2_code.str[:2])\
                .agg({"okpd2_code":"count"})\
                .rename(columns = {"okpd2_code":"COUNT"})\
                .reset_index()
result

### Пометки
1. Соотнести код в контрактах с гос-ами, которые дали
2. Соотнести okpd и код страны

In [96]:
df_country = pd.read_csv("country_directory.csv", sep=";")
df_country.head()

Unnamed: 0,country_name,country_iso_code
0,Австралия,36.0
1,Австрия,40.0
2,Азербайджан,31.0
3,Аландские острова,248.0
4,Албания,8.0


In [97]:
data_sprav = pd.read_csv("Справочник пром производства.csv", sep=";")
data_sprav.head()

Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,Натрий двууглекислый,,Без НДС,Тонна метрическая тонна (1000 кг),Описание: Натрий двууглекислый || Массовая дол...,20.13.43,Карбонаты,22f5fd1c91e58e210ee693fd834b0ffa,643.0
1,Гидрокарбонат натрия. Пищевая добавка E500(ii),,Без НДС,Тонна метрическая тонна (1000 кг),Описание: Гидрокарбонат натрия. Пищевая добавк...,20.13.43.191,Водородкарбонат натрия (бикарбонат натрия),22f5fd1c91e58e210ee693fd834b0ffa,643.0
2,маневровый тепловоз ТЭМ18ДМ,,Без НДС,Штука,Описание: маневровый тепловоз ТЭМ18ДМ || Мощно...,30.20.12.120,Тепловозы маневровые и промышленные,21578d9b4a3c742d2a450e89dafe3e54,643.0
3,Тепловоз магистральный грузовой двухсекционный...,,Без НДС,Секция,Описание: Тепловоз магистральный грузовой двух...,30.20.12.110,Тепловозы магистральные,21578d9b4a3c742d2a450e89dafe3e54,643.0
4,Универсальный фронтальный мини-погрузчик с бор...,,Без НДС,Штука,Описание: Универсальный фронтальный мини-погру...,28.92.25.000,Погрузчики фронтальные одноковшовые самоходные,23dfc06d1aa3f159711b0833da1310cc,643.0


1. Частота продажи\покупки
2. Откуда наибольший импорт и экспорт
3. Страна, в которой больше производителей -> конкуренция, качество, 
4. Метрика конкуренции

Для частоты продаж можно сравнить датасет с уже сделанными покупками и датасет с предполагаемыми покупками 

In [16]:
data_post = pd.read_csv("Ценовые предложения поставщиков.csv", sep=";")
data_post.head()

Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,"Мешки для мусора 240 л, черные, ПВД, 100 мкм, ...",24.22,20%,Штука,Объем: 240.0л дм[3*] || Вид материала: ПВД || ...,22.22.1,Изделия пластмассовые упаковочные,8862f4d4ee368febd5fac195c84f8dde,
1,Степ платформа,4340.98,Без НДС,Штука,Описание: Степ платформа || Виды товаров спорт...,32.30.14.129,"Оборудование для занятий физкультурой, гимнаст...",605fc8ce2b603efc77cefa563781105f,156.0
2,Скобы для степлера,114.0,Без НДС,Штука,Описание: Скобы для степлера || Количество в у...,25.99.23.000,"Детали для скоросшивателей или папок, канцеляр...",766fe416835260900f67379de663439c,
3,"Эмаль Vika МЛ-1110 Апельсин Камаз 0,8 кг",709.0,Без НДС,Штука,Тип краски: Однокомпонентная синтетическая эма...,29.32.30.390,Части и принадлежности для автотранспортных ср...,71b52ca820c667fb8cebd3fcf362ac79,643.0
4,Средство дезинфицирующее Део-бактер 1л,499.0,20%,Флакон,Объем: 1л дм[3*] || Действующие вещества: ЧАС ...,20.20.14.000,Средства дезинфекционные,c2c3bea3f9fe8262cea420f1b6d3772b,


In [62]:
data_post[['product_name', 'country_code', 'price']]

Unnamed: 0,product_name,country_code,price
0,"Мешки для мусора 240 л, черные, ПВД, 100 мкм, ...",,24.22
1,Степ платформа,156.0,4340.98
2,Скобы для степлера,,114.00
3,"Эмаль Vika МЛ-1110 Апельсин Камаз 0,8 кг",643.0,709.00
4,Средство дезинфицирующее Део-бактер 1л,,499.00
...,...,...,...
995,"Папка-регистратор МАЛЫЙ ФОРМАТ (148?210 мм), А...",643.0,425.78
996,Средство для мытья пола ЗОЛУШКА 500мл,643.0,93.72
997,Домино репка,643.0,380.00
998,Гранитная плитка РОЯЛ ВАЙТ глянцевая G603,356.0,22000.00


In [78]:
df_to_damadan = data_post.loc[~(data_post['country_code'].isna())][['product_name', 'price', 'country_code']].head(10)

In [81]:
df_to_damadan.to_csv("damadan.csv", index=False)b

In [49]:
data_clean = pd.read_csv("clean_descriptions.csv", sep=",")
data_clean.head()

Unnamed: 0.1,Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,0,"Мешки для мусора 240 л, черные, ПВД, 100 мкм, ...",24.22,20%,Штука,объем вид материал пвд длина количество упаков...,22.22.1,Изделия пластмассовые упаковочные,8862f4d4ee368febd5fac195c84f8dde,
1,1,Степ платформа,4340.98,Без НДС,Штука,описание степ платформа вид товар спортивный с...,32.30.14.129,"Оборудование для занятий физкультурой, гимнаст...",605fc8ce2b603efc77cefa563781105f,156.0
2,2,Скобы для степлера,114.0,Без НДС,Штука,описание скоба для степлер количество упаковка...,25.99.23.000,"Детали для скоросшивателей или папок, канцеляр...",766fe416835260900f67379de663439c,
3,3,"Эмаль Vika МЛ-1110 Апельсин Камаз 0,8 кг",709.0,Без НДС,Штука,тип краска однокомпонентный синтетический эмал...,29.32.30.390,Части и принадлежности для автотранспортных ср...,71b52ca820c667fb8cebd3fcf362ac79,643.0
4,4,Средство дезинфицирующее Део-бактер 1л,499.0,20%,Флакон,объем действующий вещество час алкилдеметилбен...,20.20.14.000,Средства дезинфекционные,c2c3bea3f9fe8262cea420f1b6d3772b,


In [50]:
data_clean['price'] = data_contracts['new_price']

In [51]:
data_clean

Unnamed: 0.1,Unnamed: 0,product_name,price,product_vat_rate,product_msr,product_characteristics,okpd2_code,okpd2_name,inn,country_code
0,0,"Мешки для мусора 240 л, черные, ПВД, 100 мкм, ...",7605.00,20%,Штука,объем вид материал пвд длина количество упаков...,22.22.1,Изделия пластмассовые упаковочные,8862f4d4ee368febd5fac195c84f8dde,
1,1,Степ платформа,48.75,Без НДС,Штука,описание степ платформа вид товар спортивный с...,32.30.14.129,"Оборудование для занятий физкультурой, гимнаст...",605fc8ce2b603efc77cefa563781105f,156.0
2,2,Скобы для степлера,8.00,Без НДС,Штука,описание скоба для степлер количество упаковка...,25.99.23.000,"Детали для скоросшивателей или папок, канцеляр...",766fe416835260900f67379de663439c,
3,3,"Эмаль Vika МЛ-1110 Апельсин Камаз 0,8 кг",5200.00,Без НДС,Штука,тип краска однокомпонентный синтетический эмал...,29.32.30.390,Части и принадлежности для автотранспортных ср...,71b52ca820c667fb8cebd3fcf362ac79,643.0
4,4,Средство дезинфицирующее Део-бактер 1л,490.59,20%,Флакон,объем действующий вещество час алкилдеметилбен...,20.20.14.000,Средства дезинфекционные,c2c3bea3f9fe8262cea420f1b6d3772b,
...,...,...,...,...,...,...,...,...,...,...
222708,222708,Перчатки Saraya нитриловые неопудренные размер...,208.41,10%,Упаковка,количество упаковка материал нитриловый неопуд...,22.19.60.110,Перчатки резиновые,c2c3bea3f9fe8262cea420f1b6d3772b,704.0
222709,222709,Трубка теплоизоляционная из вспененного каучук...,637.00,20%,Метр,описание трубка теплоизоляционный вспенивать к...,23.99.19.111,Материалы и изделия минеральные теплоизоляционные,250833997ff76c7293de764098684a66,643.0
222710,222710,Картридж лазерный CANON (057H) LBP228x/226dw/2...,10.14,20%,Штука,требование оригинальность комплектующий издели...,26.20,Компьютеры и периферийное оборудование,3ce5397064adfec4f56a7eeba43325ca,392.0
222711,222711,Жидкость для создания дыма быстрого рассеивани...,171.00,Без НДС,Штука,тип дым быстрый рассеивание без запах true без...,20.59,"Продукты химические прочие, не включенные в др...",b41e770cb5f2805f7b3a00f1c8ff4348,276.0
