In [1]:
# frame work
import pandas as pd
import numpy as np

# viz
import matplotlib.pyplot as plt
import seaborn as sns


Pandas: разбор задач с собеседований

In [None]:
# В современном анализе данных умение эффективно обрабатывать и визуализировать информацию играет ключевую роль в принятии правильных бизнес-решений. 
# Особенно это актуально при работе с временными рядами, продажами и потребительским поведением. 
# В данной статье мы рассмотрим три практические задачи, которые часто встречаются в реальных проектах анализа данных:

# Создание сводной таблицы для суммирования продаж по продуктам и месяцам с учетом регионов и категорий.
# Добавление столбцов со скользящими средними и экспоненциальным скользящим средним для выявления трендов во временных рядах.
# Частотный анализ с помощью crosstab для оценки распределения продуктов по месяцам и регионам, а также подсчет уникальных покупателей.
# Разбор этих задач позволит понять, как использовать инструменты библиотеки pandas для эффективной агрегации, анализа и визуализации данных, что существенно облегчает работу аналитика и помогает принимать обоснованные решения, 
# а также подготовит вас к прохождению собеседования.

Задача 1: Анализ продаж с учетом регионов и категорий продуктов

In [3]:
# Условие:
# Дан DataFrame с данными о продажах продуктов по месяцам, регионам и категориям продуктов. Необходимо построить сводную таблицу, где:

# строки - категории продуктов,
# столбцы - месяцы,
# в ячейках - сумма продаж по всем продуктам данной категории в каждом месяце,
# при этом нужно дополнительно разбить данные по регионам (вложенные столбцы для каждого региона),
# а также вычислить итоговые суммы по строкам и столбцам.

In [4]:
data = {
    'product': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],
    'category': ['Electronics', 'Electronics', 'Furniture', 'Electronics', 'Electronics', 'Furniture', 'Electronics', 'Electronics', 'Furniture', 'Electronics', 'Electronics', 'Furniture'],
    'month': ['Jan', 'Jan', 'Jan', 'Feb', 'Feb', 'Feb', 'Mar', 'Mar', 'Mar', 'Apr', 'Apr', 'Apr'],
    'region': ['North', 'North', 'North', 'South', 'South', 'South', 'North', 'North', 'North', 'South', 'South', 'South'],
    'sales': [200, 150, 300, 220, 180, 320, 210, 160, 310, 230, 190, 330]
}

df = pd.DataFrame(data)
df

Unnamed: 0,product,category,month,region,sales
0,A,Electronics,Jan,North,200
1,B,Electronics,Jan,North,150
2,C,Furniture,Jan,North,300
3,A,Electronics,Feb,South,220
4,B,Electronics,Feb,South,180
5,C,Furniture,Feb,South,320
6,A,Electronics,Mar,North,210
7,B,Electronics,Mar,North,160
8,C,Furniture,Mar,North,310
9,A,Electronics,Apr,South,230


Решение:

Создаем сводную таблицу с многоуровневыми столбцами (месяц и регион)

In [5]:
pivot_table = pd.pivot_table(
    df,
    values='sales',
    index='category',
    columns=['month', 'region'],
    aggfunc='sum',
    fill_value=0,
    margins=True,          # Добавляет итоговые суммы по строкам и столбцам
    margins_name='Total'   # Имя для итоговых сумм
)

print(pivot_table)

month         Apr   Feb   Jan   Mar Total
region      South South North North      
category                                 
Electronics   420   400   350   370  1540
Furniture     330   320   300   310  1260
Total         750   720   650   680  2800


Подробный разбор решения.

In [6]:
# Исходные данные содержат информацию о продажах продуктов с указанием категории, месяца, региона и суммы продаж.

# Цель - агрегировать данные по категориям продуктов (строки), месяцам и регионам (столбцы), чтобы видеть сумму продаж для каждой комбинации.

# Используем pd.pivot_table:

# values='sales' - агрегируем по сумме продаж.
# index='category' - строки - категории продуктов.
# columns=['month', 'region'] - многомерные столбцы: сначала месяц, затем регион.
# aggfunc='sum' - суммируем продажи.
# fill_value=0 - заменяем пропуски на 0.
# margins=True - добавляем итоговые суммы по строкам и столбцам.
# margins_name='Total' - задаем имя для итоговой строки и столбца.
# В результате получаем сводную таблицу с многоуровневыми столбцами и итогами, что позволяет детально анализировать продажи по категориям, месяцам и регионам.

# Такой подход позволяет не только агрегировать данные по двум измерениям (продукт и месяц), но и добавить дополнительное измерение (регион), а также получить итоги по всем категориям и месяцам. Это значительно расширяет возможности анализа и делает отчет более информативным.