In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from tqdm.notebook import tqdm

import yaml

RAND = 42

In [None]:
def get_bins_target(df: pd.DataFrame, target_name: str) -> None:
    # нормирование на размер датасета
    norm_target = (df[target_name].value_counts(
        normalize=True).mul(100).rename('percent').reset_index())

    plt.figure(figsize=(15, 7))
    ax = sns.barplot(x='index', y='percent', data=norm_target)

    # Вывод значений над графиками - annotate()
    # В цикле смотрим каждый столбец графика и на нем отмечаем значения
    for p in ax.patches:
        percentage = '{:.1f}%'.format(p.get_height())
        ax.annotate(
            percentage,  # текст
            # координата xy
            (p.get_x() + p.get_width() / 2., p.get_height()),
            # центрирование
            ha='center',
            va='center',
            xytext=(0, 10),
            # точка смещения относительно координаты
            textcoords='offset points',
            fontsize=14)

    plt.title(target_name, fontsize=20)
    plt.xlabel(target_name, fontsize=14)
    plt.ylabel('Проценты', fontsize=14)

    plt.xticks(fontsize=14)
    plt.yticks(fontsize=14)
    plt.show()

In [None]:
def barplot_group(col_main: str, col_group: str, title: str = None) -> None:
    """
    Построение barplot с нормированными данными с выводом значений на графике
    """

    plt.figure(figsize=(15, 6))

    data = (df.groupby([col_group])[col_main]
            .value_counts(normalize=True)
            .rename('percentage')
            .mul(100)
            .reset_index()
            .sort_values(col_group))

    ax = sns.barplot(x=col_main, y="percentage",
                     hue=col_group, data=data, palette='rocket')

    for p in ax.patches:
        percentage = '{:.1f}%'.format(p.get_height())
        ax.annotate(percentage,  # текст
                    (p.get_x() + p.get_width() / 2.,
                     p.get_height()),  # координата xy
                    ha='center',  # центрирование
                    va='center',
                    xytext=(0, 7),
                    textcoords='offset points',  # точка смещения относительно координаты
                    fontsize=12)

    plt.title(title, fontsize=16)
    plt.ylabel('Percentage', fontsize=14)
    plt.xlabel(col_main, fontsize=14)
    plt.show()

In [16]:
def get_number(df: pd.DataFrame, name: str, sep: str) -> pd.Series:
    return df[name].apply(lambda x: x.split(sep)[1])

# Описание задачи

...

In [2]:
df_pur = pd.read_csv("../data/small_purchases.csv", sep=";")
df_sup = pd.read_csv("../data/small_suppliers.csv", sep=";")

In [3]:
df_pur[:5]

Unnamed: 0,purchase,region_code,min_publish_date,purchase_name,forsmallbiz,price,customer,okpd2_code,okpd2_names,item_descriptions
0,Закупка_1,2,2021-11-24,Услуги по проведению финансового аудита,f,190000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита
1,Закупка_2,2,2022-11-18,Услуги по проведению финансового аудита,f,271000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита
2,Закупка_3,2,2021-02-02,оказание информационных услуг с использованием...,t,290000.0,Заказчик_2,58.2,Услуги по предоставлению лицензий на право исп...,оказание информационных услуг с использованием...
3,Закупка_4,2,2021-02-02,"Услуги по дизайнерскому оформлению, изготовлен...",t,190809.0,Заказчик_2,18.1,"Услуги печатные прочие, не включенные в другие...","оказание услуг по дизайнерскому оформлению, из..."
4,Закупка_5,2,2021-02-11,поставка сувенирной продукции для проведения м...,t,278263.34,Заказчик_2,26.2,Клавиатуры || Комплектующие и запасные части д...,Комплект беспроводной клавиатуры и беспроводно...


In [4]:
df_sup[:5]

Unnamed: 0,purchase,supplier,is_winner
0,Закупка_3,Поставщик_1,1
1,Закупка_14,Поставщик_2,1
2,Закупка_14,Поставщик_3,0
3,Закупка_5,Поставщик_4,0
4,Закупка_5,Поставщик_2,0


In [6]:
df = pd.merge(df_pur, df_sup, on='purchase')
df[:5]

Unnamed: 0,purchase,region_code,min_publish_date,purchase_name,forsmallbiz,price,customer,okpd2_code,okpd2_names,item_descriptions,supplier,is_winner
0,Закупка_1,2,2021-11-24,Услуги по проведению финансового аудита,f,190000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита,Поставщик_104753,1
1,Закупка_1,2,2021-11-24,Услуги по проведению финансового аудита,f,190000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита,Поставщик_104929,0
2,Закупка_1,2,2021-11-24,Услуги по проведению финансового аудита,f,190000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита,Поставщик_37544,0
3,Закупка_2,2,2022-11-18,Услуги по проведению финансового аудита,f,271000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита,Поставщик_104753,1
4,Закупка_2,2,2022-11-18,Услуги по проведению финансового аудита,f,271000.0,Заказчик_1,69.2,Услуги по проведению финансового аудита,Услуги по проведению финансового аудита,Поставщик_11259,0


In [15]:
df['purchase'] = get_number(df, "purchase", '_')
df['customer'] = get_number(df, "purchase", '_')
df['purchase'] = get_number(df, "purchase", '_')

0              1
1              1
2              1
3              2
4              2
           ...  
958124    621032
958125    621032
958126    621032
958127    621032
958128    621032
Name: purchase, Length: 958129, dtype: object

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 958129 entries, 0 to 958128
Data columns (total 12 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   purchase           958129 non-null  object 
 1   region_code        958129 non-null  int64  
 2   min_publish_date   958129 non-null  object 
 3   purchase_name      958044 non-null  object 
 4   forsmallbiz        958129 non-null  object 
 5   price              958129 non-null  float64
 6   customer           958129 non-null  object 
 7   okpd2_code         958129 non-null  object 
 8   okpd2_names        958129 non-null  object 
 9   item_descriptions  957564 non-null  object 
 10  supplier           958129 non-null  object 
 11  is_winner          958129 non-null  int64  
dtypes: float64(1), int64(2), object(9)
memory usage: 95.0+ MB


In [8]:
df.shape

(958129, 12)

In [9]:
df.describe().iloc[1:, :]

Unnamed: 0,region_code,price,is_winner
mean,55.400983,5400899.0,0.346879
std,27.838712,144837700.0,0.475977
min,1.0,0.17,0.0
25%,33.0,166175.0,0.0
50%,68.0,599280.0,0.0
75%,77.0,2038950.0,1.0
max,92.0,57035270000.0,1.0


In [12]:
df.describe(include=object)

Unnamed: 0,purchase,min_publish_date,purchase_name,forsmallbiz,customer,okpd2_code,okpd2_names,item_descriptions,supplier
count,958129,958129,958044,958129,958129,958129,958129,957564,958129
unique,328257,714,236046,2,11680,244,21493,138985,100732
top,Закупка_424615,2021-03-31,Поставка канцелярских товаров,t,Заказчик_9582,drug,Лекарства,Бумага для офисной техники белая,Поставщик_694
freq,80,4038,5239,679555,17809,99192,99192,10213,4217
