In [1]:
import pandas as pd
from tabulate import tabulate
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
df = pd.read_csv('../data/children_products/!03&04_17_VSE.csv', encoding='cp1251', sep=';')

In [4]:
df.shape

(691539, 38)

In [5]:
stats = pd.DataFrame({
    'Название колонки': df.columns,
    'Количество уникальных': df.nunique(),
    'Количество нулей': (df == 0).sum(),
    'Количество NaN': df.isna().sum(),
    '% NaN': round(df.isna().sum() / len(df) * 100, 1),
    'Тип данных': df.dtypes
}).reset_index(drop=True)

print(tabulate(stats, headers='keys', tablefmt='orgtbl', showindex=False))

| Название колонки         |   Количество уникальных |   Количество нулей |   Количество NaN |   % NaN | Тип данных   |
|--------------------------+-------------------------+--------------------+------------------+---------+--------------|
| Дата                     |                   28887 |                  0 |                0 |     0   | object       |
| ДатаДоставки             |                     107 |                  0 |              626 |     0.1 | object       |
| НомерЗаказаНаСайте       |                  178418 |                  0 |                4 |     0   | object       |
| НовыйСтатус              |                      14 |                  0 |                0 |     0   | object       |
| СуммаЗаказаНаСайте       |                   14316 |                  0 |                0 |     0   | object       |
| СуммаДокумента           |                   14747 |                  0 |                0 |     0   | object       |
| МетодДоставки            |            

In [6]:
for column in df.columns:
    unique_values = df[column].unique()
    print(f"\nКолонка '{column}' ({len(unique_values)} уникальных значений):")
    if len(unique_values) <= 10:
        print(unique_values)
    else:
        print(list(unique_values[:10]), "... и еще", len(unique_values) - 10, "значений")


Колонка 'Дата' (28887 уникальных значений):
['01.03.2017 11:41', '01.03.2017 12:22', '01.03.2017 12:31', '01.03.2017 3:06', '01.03.2017 11:38', '01.03.2017 12:19', '01.03.2017 11:57', '01.03.2017 9:02', '01.03.2017 12:00', '01.03.2017 10:39'] ... и еще 28877 значений

Колонка 'ДатаДоставки' (108 уникальных значений):
['07.03.2017 0:00', '15.03.2017 0:00', '17.03.2017 0:00', '02.03.2017 0:00', '14.03.2017 0:00', '09.03.2017 0:00', '03.03.2017 0:00', '04.03.2017 0:00', '16.03.2017 0:00', '10.03.2017 0:00'] ... и еще 98 значений

Колонка 'НомерЗаказаНаСайте' (178419 уникальных значений):
['3998972_TR', '3999117_TR', '3999122_TR', '3999363_TR', '3999411_TR', '3999682_TR', '3999687_TR', '3999713_TR', '3999735_TR', '4000052_TR'] ... и еще 178409 значений

Колонка 'НовыйСтатус' (14 уникальных значений):
['Частичный возврат', 'Доставлен', 'К отгрузке', 'Возврат', 'Возврат из ПВЗ', 'Принят в ПВЗ', 'Расформирован ПВЗ', 'В резерве', 'Отменен', 'Скомплектован Регион'] ... и еще 4 значений

Колонк

In [7]:
df_clean = df.copy()

In [8]:
df_clean = df_clean.drop(
    [
        'ДатаДоставки',
        'НовыйСтатус',
        'СуммаЗаказаНаСайте',
        'СуммаДокумента',
        'ФормаОплаты',
        'Регион',
        'Группа4',
        'Номенклатура',
        'ТипТовара',
        'ПричинаОтмены',
        'СуммаСтроки',
        'ЦенаЗакупки',
        'МесяцДатыЗаказа',
        'ГодДатыЗаказа',
        'ПВЗ_код',
        'СуммаДоставки',
        'НомерСтроки',
        'КоличествоПроданоКлиенту',
        'ДатаЗаказаНаСайте',
        'ЭлектроннаяПочта_new',
        'Клиент',
        'ГородМагазина',
        'МагазинЗаказа'
     ],
    axis=1)


In [9]:
stats = pd.DataFrame({
    'Название колонки': df_clean.columns,
    'Количество уникальных': df_clean.nunique(),
    'Количество нулей': (df_clean == 0).sum(),
    'Количество NaN': df_clean.isna().sum(),
    '% NaN': round(df_clean.isna().sum() / len(df_clean) * 100, 1),
    'Тип данных': df_clean.dtypes
}).reset_index(drop=True)

print(tabulate(stats, headers='keys', tablefmt='orgtbl', showindex=False))

| Название колонки   |   Количество уникальных |   Количество нулей |   Количество NaN |   % NaN | Тип данных   |
|--------------------+-------------------------+--------------------+------------------+---------+--------------|
| Дата               |                   28887 |                  0 |                0 |     0   | object       |
| НомерЗаказаНаСайте |                  178418 |                  0 |                4 |     0   | object       |
| МетодДоставки      |                       7 |                  0 |                0 |     0   | object       |
| Группа2            |                      13 |                  0 |            74686 |    10.8 | object       |
| Группа3            |                      93 |                  0 |            74686 |    10.8 | object       |
| Тип                |                       5 |                  0 |                0 |     0   | object       |
| Отменено           |                       2 |                  0 |                0 |