## Установка библиотек

**Описание:**

Установка необходимых библиотек в виртуальное окружение. Эти команды выполняются в терминале VS Code, а не в Python-скрипте. Рекомендуется использовать виртуальное окружение для изоляции зависимостей проекта. Библиотека openpyxl требуется для работы с Excel-файлами, requests — для загрузки данных по URL.

In [1]:
# Шаг 1: Создание виртуального окружения (выполняется один раз)
# python -m venv venv

# Шаг 2: Активация окружения
# Windows:
# venv\Scripts\activate
# macOS / Linux:
# source venv/bin/activate

# Шаг 3: Установка библиотек через pip
# pip install pandas numpy openpyxl scikit-learn requests

# Альтернативно: установка через conda (рекомендуется для data science)
# conda install pandas numpy scikit-learn requests
# pip install openpyxl  # openpyxl может не входить в conda по умолчанию

# Проверка установки (в Python)
# import pandas as pd
# print(pd.__version__)

## Импорт модулей

**Описание:**

Импорт всех необходимых библиотек в скрипт. Стандартные псевдонимы: pd для pandas, np для numpy. Эти библиотеки предоставляют инструменты для работы с данными, вычислениями и машинным обучением. Импорт выполняется один раз в начале скрипта и необходим для всех последующих операций.

In [2]:
import pandas as pd
import numpy as np
import requests
from io import StringIO
from sklearn.datasets import make_regression

# Все необходимые модули импортированы.
# Теперь можно приступить к загрузке и анализу данных.

## Загрузка локального CSV-файла

**Описание:**

Загрузка данных из локального CSV-файла 'SalesTarget.csv'. Файл должен находиться в той же директории, где запускается скрипт. Используется обработка ошибок на случай, если файл отсутствует. Кодировка по умолчанию — UTF-8, что подходит для большинства случаев.

In [3]:
try:
    # Загружаем CSV-файл
    df_sales = pd.read_csv('SalesTarget.csv')
    
    # Выводим подтверждение и первые строки
    print("✅ CSV-файл 'SalesTarget.csv' успешно загружен.")
    print(f"Размер данных: {df_sales.shape[0]} строк, {df_sales.shape[1]} столбцов")
    print("Первые 3 строки:")
    print(df_sales.head(3))
    
except FileNotFoundError:
    print("❌ Файл 'SalesTarget.csv' не найден в текущей директории.")
    print("Поместите файл в папку с проектом или укажите полный путь.")
    df_sales = pd.DataFrame()  # пустой датафрейм для продолжения без ошибок

except pd.errors.EmptyDataError:
    print("❌ Файл 'SalesTarget.csv' пуст.")
    df_sales = pd.DataFrame()

except Exception as e:
    print(f"❌ Произошла ошибка при загрузке CSV: {e}")
    df_sales = pd.DataFrame()

✅ CSV-файл 'SalesTarget.csv' успешно загружен.
Размер данных: 4603 строк, 5 столбцов
Первые 3 строки:
   row_id         Category  Order Date      Segment  Sales Target
0       0  Office Supplies  2017-01-04     Consumer            15
1       1  Office Supplies  2017-01-05  Home Office           300
2       2  Office Supplies  2017-01-06     Consumer            21


## Загрузка локального Excel-файла

**Описание:**

Загрузка данных из Excel-файла 'online_retail_II.xlsx', содержащего два листа: 'Year 2010-2011' и 'Year 2009-2010'. Используется параметр sheet_name=None для загрузки всех листов в словарь. Библиотека openpyxl должна быть установлена.

In [4]:
try:
    # Загружаем все листы Excel-файла в словарь
    excel_sheets = pd.read_excel('online_retail_II.xlsx', sheet_name=None)
    
    # Извлекаем каждый лист в отдельный датафрейм
    df_2010_2011 = excel_sheets['Year 2010-2011']
    df_2009_2010 = excel_sheets['Year 2009-2010']
    
    # Выводим информацию о загруженных данных
    print("✅ Excel-файл 'online_retail_II.xlsx' успешно загружен.")
    print(f"Лист 'Year 2010-2011': {df_2010_2011.shape[0]} строк, {df_2010_2011.shape[1]} столбцов")
    print(f"Лист 'Year 2009-2010': {df_2009_2010.shape[0]} строк, {df_2009_2010.shape[1]} столбцов")
    
except FileNotFoundError:
    print("❌ Файл 'online_retail_II.xlsx' не найден.")
    print("Поместите файл в папку с проектом.")
    df_2010_2011 = pd.DataFrame()
    df_2009_2010 = pd.DataFrame()

except KeyError as e:
    print(f"❌ Лист не найден: {e}")
    print("Убедитесь, что названия листов точно соответствуют: 'Year 2010-2011', 'Year 2009-2010'")

except Exception as e:
    print(f"❌ Ошибка при загрузке Excel: {e}")
    df_2010_2011 = pd.DataFrame()
    df_2009_2010 = pd.DataFrame()

❌ Ошибка при загрузке Excel: [Errno 13] Permission denied: 'online_retail_II.xlsx'


## Загрузка данных по URL (имитация)

**Описание:**

Имитация загрузки данных по URL. В реальности используется requests.get() для получения файла, а затем StringIO для передачи содержимого в pandas. Здесь используется фиктивный CSV для демонстрации логики. Полезно для работы с API или внешними источниками.

In [5]:
# Имитация URL-запроса
url = 'https://example.com/data.csv'  # фиктивный URL

try:
    # В реальном сценарии:
    # response = requests.get(url)
    # if response.status_code == 200:
    #     df_url = pd.read_csv(StringIO(response.text))
    
    # Для демонстрации создадим пример данных
    dummy_csv = "row_id,Category,\"Order Date\",Segment,\"Sales Target\"\n1,Electronics,2023-01-15,Wholesale,1500\n2,Clothing,2023-01-16,Retail,800\n3,Home,2023-01-17,Wholesale,1200"
    
    df_url = pd.read_csv(StringIO(dummy_csv))
    
    print("✅ Данные по URL (имитация) успешно загружены.")
    print(f"Размер данных: {df_url.shape[0]} строк, {df_url.shape[1]} столбцов")
    print("Пример данных:")
    print(df_url.head())
    
except requests.exceptions.RequestException as e:
    print(f"❌ Ошибка сети при загрузке по URL: {e}")
    df_url = pd.DataFrame()

except Exception as e:
    print(f"❌ Ошибка при обработке данных по URL: {e}")
    df_url = pd.DataFrame()

✅ Данные по URL (имитация) успешно загружены.
Размер данных: 3 строк, 5 столбцов
Пример данных:
   row_id     Category  Order Date    Segment  Sales Target
0       1  Electronics  2023-01-15  Wholesale          1500
1       2     Clothing  2023-01-16     Retail           800
2       3         Home  2023-01-17  Wholesale          1200


## Загрузка данных из sklearn

**Описание:**

Демонстрация использования встроенных наборов данных из библиотеки scikit-learn. Функция make_regression генерирует синтетические данные для задачи регрессии. Это полезно для тестирования моделей и демонстрации возможностей библиотеки.

In [6]:
try:
    # Генерация синтетических данных
    X, y = make_regression(
        n_samples=100,      # количество строк
        n_features=3,       # количество признаков
        noise=0.1,          # уровень шума
        random_state=42     # для воспроизводимости
    )
    
    # Преобразуем в DataFrame для удобства
    df_sklearn = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(X.shape[1])])
    df_sklearn['target'] = y  # добавляем целевую переменную
    
    print("✅ Синтетические данные из sklearn успешно сгенерированы.")
    print(f"Размер данных: {df_sklearn.shape[0]} строк, {df_sklearn.shape[1]} столбцов")
    print("Первые 5 строк:")
    print(df_sklearn.head())
    
except Exception as e:
    print(f"❌ Ошибка при генерации данных из sklearn: {e}")
    df_sklearn = pd.DataFrame()

✅ Синтетические данные из sklearn успешно сгенерированы.
Размер данных: 100 строк, 4 столбцов
Первые 5 строк:
   feature_0  feature_1  feature_2      target
0  -0.792521   0.504987  -0.114736   13.510026
1   0.280992  -0.208122  -0.622700  -18.777475
2   0.791032   1.402794  -0.909387  111.265809
3   0.625667  -1.070892  -0.857158  -77.989347
4  -0.342715  -0.161286  -0.802277  -35.951738


## Просмотр данных: первичный анализ

**Описание:**

Базовые методы для первичного анализа данных: просмотр первых, последних и случайных строк, получение общей информации, статистики, типов данных и проверка пропусков. Это помогает понять структуру и качество данных перед предобработкой.

In [7]:
# Выбираем датасет для анализа (например, df_2009_2010)
df = df_2009_2010.copy() if not df_2009_2010.empty else df_sales

if df.empty:
    print("Нет данных для анализа.")
else:
    print("""=== ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ ===""")
    
    # Просмотр структуры
    print("\n🔹 Первые 3 строки:")
    print(df.head(3))
    
    print("\n🔹 Последние 2 строки:")
    print(df.tail(2))
    
    print("\n🔹 Случайные 4 строки:")
    print(df.sample(4))
    
    # Общая информация
    print("\n🔹 Общая информация о датафрейме:")
    df.info()
    
    print("\n🔹 Статистическое описание числовых столбцов:")
    print(df.describe())
    
    print("\n🔹 Типы данных каждого столбца:")
    print(df.dtypes)
    
    print(f"\n🔹 Размерность: {df.shape[0]} строк × {df.shape[1]} столбцов")
    
    print("\n🔹 Количество уникальных значений в каждом столбце:")
    print(df.nunique())
    
    print("\n🔹 Количество пропущенных значений:")
    print(df.isnull().sum())
    
    # Проверка ключевых полей
    if 'InvoiceDate' in df.columns:
        print(f"\n🔹 Тип 'InvoiceDate': {df['InvoiceDate'].dtype}")
    if 'Quantity' in df.columns:
        print(f"🔹 Тип 'Quantity': {df['Quantity'].dtype}")
    if 'UnitPrice' in df.columns:
        print(f"🔹 Тип 'UnitPrice': {df['UnitPrice'].dtype}")

=== ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ ===

🔹 Первые 3 строки:
   row_id         Category  Order Date      Segment  Sales Target
0       0  Office Supplies  2017-01-04     Consumer            15
1       1  Office Supplies  2017-01-05  Home Office           300
2       2  Office Supplies  2017-01-06     Consumer            21

🔹 Последние 2 строки:
      row_id         Category  Order Date    Segment  Sales Target
4601    4601  Office Supplies  2020-12-31   Consumer            61
4602    4602  Office Supplies  2020-12-31  Corporate            29

🔹 Случайные 4 строки:
      row_id         Category  Order Date      Segment  Sales Target
1449    1449  Office Supplies  2018-07-31     Consumer            18
643      643  Office Supplies  2017-10-06    Corporate           390
3504    3504       Technology  2020-04-18  Home Office          2805
4413    4413        Furniture  2020-11-25     Consumer           825

🔹 Общая информация о датафрейме:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4603 ent

## Предобработка данных

**Описание:**

Очистка и подготовка 'грязного' датасета (на примере online_retail_II). Включает обработку пропусков, дубликатов, приведение типов, удаление выбросов и извлечение признаков из даты. Каждый шаг критически важен для получения качественных результатов анализа.

In [8]:
# Работаем с df_2009_2010 как с основным датасетом
if df_2009_2010.empty:
    print("Нет данных для предобработки.")
else:
    df_clean = df_2009_2010.copy()
    initial_shape = df_clean.shape
    
    print("""=== ПРЕДОБРАБОТКА ДАННЫХ ===""")
    print(f"Исходный размер: {initial_shape[0]} строк")
    
    # 1. Обработка пропущенных значений
    df_clean.dropna(subset=['CustomerID', 'Description'], inplace=True)
    print("✅ Удалены строки с пропусками в CustomerID и Description")
    
    # 2. Удаление дубликатов
    duplicates_before = initial_shape[0] - df_clean.shape[0]
    df_clean.drop_duplicates(inplace=True)
    duplicates_after = df_clean.duplicated().sum()
    print(f"✅ Удалено дубликатов: {df_clean.shape[0] - duplicates_after}")
    
    # 3. Приведение типов
    # Дата
    if 'InvoiceDate' in df_clean.columns:
        df_clean['InvoiceDate'] = pd.to_datetime(df_clean['InvoiceDate'], errors='coerce')
        print("✅ Столбец 'InvoiceDate' преобразован в datetime")
    
    # Числовые поля
    for col in ['Quantity', 'UnitPrice']:
        if col in df_clean.columns:
            df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')
    df_clean.dropna(subset=['Quantity', 'UnitPrice'], inplace=True)
    print("✅ Числовые столбцы приведены к корректным типам")
    
    # 4. Очистка от выбросов
    outliers = df_clean[
        (df_clean['Quantity'] <= 0) | 
        (df_clean['UnitPrice'] <= 0)
    ].shape[0]
    df_clean = df_clean[
        (df_clean['Quantity'] > 0) & 
        (df_clean['UnitPrice'] > 0)
    ]
    print(f"✅ Удалено выбросов (Quantity≤0 или Price≤0): {outliers}")
    
    # 5. Извлечение признаков из даты
    if 'InvoiceDate' in df_clean.columns:
        df_clean['Year'] = df_clean['InvoiceDate'].dt.year
        df_clean['Month'] = df_clean['InvoiceDate'].dt.month
        df_clean['DayOfWeek'] = df_clean['InvoiceDate'].dt.dayofweek
        df_clean['Date'] = df_clean['InvoiceDate'].dt.date
        print("✅ Извлечены признаки из даты: Year, Month, DayOfWeek, Date")
    
    final_shape = df_clean.shape
    print(f"✅ Предобработка завершена. Итоговый размер: {final_shape[0]} строк")

Нет данных для предобработки.


## Трансформации данных

**Описание:**

Создание новых столбцов, удаление ненужных, переименование, сортировка и фильтрация данных. Эти операции позволяют адаптировать данные под конкретные задачи анализа. Все операции выполняются с использованием векторизованных функций pandas для максимальной производительности.

In [9]:
if 'df_clean' in locals() and not df_clean.empty:
    print("""=== ТРАНСФОРМАЦИИ ДАННЫХ ===""")
    
    # 1. Создание нового столбца
    df_clean['Total'] = df_clean['Quantity'] * df_clean['UnitPrice']
    print("✅ Создан столбец 'Total' = Quantity × UnitPrice")
    
    # 2. Удаление столбцов
    # Пример: удаляем InvoiceDate, если есть Date
    # if 'InvoiceDate' in df_clean.columns:
    #     df_clean.drop(columns=['InvoiceDate'], inplace=True)
    #     print("✅ Удалён столбец 'InvoiceDate'")
    
    # 3. Переименование столбцов
    # Пример:
    # df_clean.rename(columns={'UnitPrice': 'Price'}, inplace=True)
    # print("✅ Столбец 'UnitPrice' переименован в 'Price'")
    
    # 4. Сортировка
    # Сортировка по дате и сумме
    # if 'InvoiceDate' in df_clean.columns:
    #     df_clean.sort_values(by=['InvoiceDate', 'Total'], ascending=[True, False], inplace=True)
    #     print("✅ Данные отсортированы по дате и общей сумме")
    
    # 5. Фильтрация
    # Пример 1: заказы дороже 100
    # df_filtered = df_clean[df_clean['Total'] > 100]
    # print(f"✅ Отфильтровано: {df_filtered.shape[0]} заказов дороже 100")
    
    # Пример 2: только определённые страны
    # countries = ['United Kingdom', 'France', 'Germany']
    # df_filtered = df_clean[df_clean['Country'].isin(countries)]
    # print(f"✅ Отфильтровано: {df_filtered.shape[0]} строк из {len(countries)} стран")
    
    # Пример 3: использование query
    # df_filtered = df_clean.query('Quantity > 10 and Country == "France"')
    # print(f"✅ Отфильтровано по условию: {df_filtered.shape[0]} строк")
    
    print("✅ Трансформации выполнены.")
else:
    print("Нет данных для трансформации.")

Нет данных для трансформации.


## Группировка и агрегация

**Описание:**

Группировка данных по одному или нескольким признакам с последующей агрегацией (сумма, среднее и т.д.). Создание сводных таблиц и кросс-таблиц для анализа многомерных данных. Эти методы позволяют получить бизнес-инсайты из больших объёмов данных.

In [10]:
if 'df_clean' in locals() and not df_clean.empty:
    print("""=== ГРУППИРОВКА И АГРЕГАЦИЯ ===""")
    
    # 1. Группировка по стране
    sales_by_country = df_clean.groupby('Country')['Total'].agg([
        'sum', 'mean', 'count', 'std'
    ]).round(2)
    sales_by_country.rename(columns={
        'sum': 'TotalSales',
        'mean': 'AvgOrder',
        'count': 'NumOrders',
        'std': 'SalesStd'
    }, inplace=True)
    sales_by_country = sales_by_country.sort_values('TotalSales', ascending=False)
    
    print("📊 Продажи по странам (топ-5):")
    print(sales_by_country.head())
    
    # 2. Группировка по стране и году
    if 'Year' in df_clean.columns:
        sales_by_country_year = df_clean.groupby(['Country', 'Year'])['Total'].agg(
            TotalSales=('sum'),
            AvgOrder=('mean')
        ).round(2)
        
        print("\n📊 Продажи по странам и годам (топ-6):")
        print(sales_by_country_year.head(6))
    
    # 3. Сводная таблица: средний чек по странам и месяцам
    if 'Month' in df_clean.columns:
        pivot_sales = df_clean.pivot_table(
            values='Total',
            index='Country',
            columns='Month',
            aggfunc='mean',
            fill_value=0,
            margins=True,
            margins_name='Average'
        ).round(2)
        
        print("\n📊 Средний чек по месяцам (первые 5 стран):")
        print(pivot_sales.head())
    
    # 4. Кросс-таблица: распределение заказов по дням недели и месяцам
    if 'DayOfWeek' in df_clean.columns:
        cross_table = pd.crosstab(
            df_clean['DayOfWeek'],
            df_clean['Month'],
            normalize='index'
        ).round(3)
        
        print("\n📊 Распределение заказов по дням недели и месяцам:")
        print(cross_table.head())
    
    print("✅ Группировка и агрегация завершены.")
else:
    print("Нет данных для группировки.")

Нет данных для группировки.


## Сохранение результатов

**Описание:**

Сохранение предобработанного датасета в JSON с разными форматами (records, index, split, values). Также сохраняется сводная таблица в CSV для демонстрации. Все файлы сохраняются в текущей директории. Формат JSON с параметром force_ascii=False позволяет корректно сохранять кириллицу и другие символы.

In [11]:
if 'df_clean' in locals() and not df_clean.empty:
    print("""=== СОХРАНЕНИЕ РЕЗУЛЬТАТОВ ===""")
    
    # 1. Сохранение в JSON с разными форматами
    formats = ['records', 'index', 'split', 'values']
    
    for fmt in formats:
        filename = f'cleaned_data_{fmt}.json'
        try:
            df_clean.to_json(
                filename,
                orient=fmt,
                indent=2 if fmt != 'values' else None,
                force_ascii=False
            )
            print(f"✅ Сохранено: {filename}")
        except Exception as e:
            print(f"❌ Ошибка при сохранении {filename}: {e}")
    
    # 2. Сохранение сводной таблицы в CSV
    if 'pivot_sales' in locals():
        try:
            pivot_sales.to_csv('pivot_sales_by_month.csv', encoding='utf-8-sig')
            print("✅ Сохранено: pivot_sales_by_month.csv")
        except Exception as e:
            print(f"❌ Ошибка при сохранении CSV: {e}")
    else:
        print("⚠️  Сводная таблица не создана, пропускаем сохранение.")
    
    print("\n🎉 Все результаты успешно сохранены в текущей директории.")
else:
    print("Нет данных для сохранения.")

Нет данных для сохранения.
