# Практические примеры

## Пример 1: Загрузка и исследование данных

In [80]:
import pandas as pd
import numpy as np

# Создаем демонстрационный DataFrame
data = {
    'id': range(1, 11),
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva',
             'Frank', 'Grace', 'Henry', 'Ivy', 'Jack'],
    'age': [25, 32, 45, 27, 36, 29, 41, 33, 28, 39],
    'city': ['Moscow', 'SPb', 'Moscow', 'Kazan', 'SPb',
             'Moscow', 'Kazan', 'Moscow', 'SPb', 'Moscow'],
    'salary': [50000, 75000, 60000, 45000, 80000,
               55000, 70000, 65000, 48000, 90000],
    'department': ['IT', 'HR', 'IT', 'Finance', 'HR',
                   'IT', 'IT', 'IT', 'HR', 'IT'],
    'experience': [2, 5, 10, 3, 8, 4, 12, 6, 3, 9]
}

df = pd.DataFrame(data)
print("Исходные данные:")
print(df)

# Исследование данных
print("\nПервые 3 строки:")
print(df.head(3))

print("\nИнформация о данных:")
print(df.info())

print("\nСтатистика по числовым столбцам:")
print(df.describe())

print("\nРазмерность данных:")
print(f"Строк: {df.shape[0]}, Столбцов: {df.shape[1]}")

Исходные данные:
   id     name  age    city  salary department  experience
0   1    Alice   25  Moscow   50000         IT           2
1   2      Bob   32     SPb   75000         HR           5
2   3  Charlie   45  Moscow   60000         IT          10
3   4    David   27   Kazan   45000    Finance           3
4   5      Eva   36     SPb   80000         HR           8
5   6    Frank   29  Moscow   55000         IT           4
6   7    Grace   41   Kazan   70000         IT          12
7   8    Henry   33  Moscow   65000         IT           6
8   9      Ivy   28     SPb   48000         HR           3
9  10     Jack   39  Moscow   90000         IT           9

Первые 3 строки:
   id     name  age    city  salary department  experience
0   1    Alice   25  Moscow   50000         IT           2
1   2      Bob   32     SPb   75000         HR           5
2   3  Charlie   45  Moscow   60000         IT          10

Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entri

## Пример 2: Фильтрация данных

In [81]:
# Фильтрация по одному условию
high_salary = df[df['salary'] > 70000]
print("Сотрудники с зарплатой > 70000:")
print(high_salary)

# Фильтрация по нескольким условиям
moscow_it = df[(df['city'] == 'Moscow') & (df['department'] == 'IT')]
print("\nIT сотрудники из Москвы:")
print(moscow_it)

# Использование query
experienced_young = df.query('experience > 5 and age < 40')
print("\nОпытные молодые сотрудники:")
print(experienced_young)

# Фильтрация с isin
cities_filter = df[df['city'].isin(['Moscow', 'SPb'])]
print("\nСотрудники из Москвы и СПб:")
print(cities_filter)

# Комплексная фильтрация
complex_filter = df[
    (df['salary'] > 50000) &
    (df['age'].between(30, 40)) &
    (df['department'] != 'HR')
]
print("\nКомплексная фильтрация:")
print(complex_filter)

Сотрудники с зарплатой > 70000:
   id  name  age    city  salary department  experience
1   2   Bob   32     SPb   75000         HR           5
4   5   Eva   36     SPb   80000         HR           8
9  10  Jack   39  Moscow   90000         IT           9

IT сотрудники из Москвы:
   id     name  age    city  salary department  experience
0   1    Alice   25  Moscow   50000         IT           2
2   3  Charlie   45  Moscow   60000         IT          10
5   6    Frank   29  Moscow   55000         IT           4
7   8    Henry   33  Moscow   65000         IT           6
9  10     Jack   39  Moscow   90000         IT           9

Опытные молодые сотрудники:
   id   name  age    city  salary department  experience
4   5    Eva   36     SPb   80000         HR           8
7   8  Henry   33  Moscow   65000         IT           6
9  10   Jack   39  Moscow   90000         IT           9

Сотрудники из Москвы и СПб:
   id     name  age    city  salary department  experience
0   1    Alice   25

## Пример 3: Группировка данных

In [82]:
# Базовая группировка
city_stats = df.groupby('city')['salary'].agg(['mean', 'min', 'max', 'count'])
print("Статистика зарплат по городам:")
print(city_stats)

# Группировка по нескольким столбцам
dept_city_stats = df.groupby(['department', 'city'])['salary'].mean()
print("\nСредняя зарплата по отделам и городам:")
print(dept_city_stats)

# Множественная агрегация
detailed_stats = df.groupby('department').agg({
    'salary': ['mean', 'min', 'max', 'std'],
    'age': ['mean', 'median'],
    'experience': 'mean',
    'id': 'count'
})
print("\nДетальная статистика по отделам:")
print(detailed_stats)

# Группировка с трансформацией
df['avg_salary_by_city'] = df.groupby('city')['salary'].transform('mean')
print("\nДанные с средней зарплатой по городу:")
print(df[['name', 'city', 'salary', 'avg_salary_by_city']])

Статистика зарплат по городам:
                mean    min    max  count
city                                     
Kazan   57500.000000  45000  70000      2
Moscow  64000.000000  50000  90000      5
SPb     67666.666667  48000  80000      3

Средняя зарплата по отделам и городам:
department  city  
Finance     Kazan     45000.000000
HR          SPb       67666.666667
IT          Kazan     70000.000000
            Moscow    64000.000000
Name: salary, dtype: float64

Детальная статистика по отделам:
                  salary                                    age         \
                    mean    min    max           std       mean median   
department                                                               
Finance     45000.000000  45000  45000           NaN  27.000000   27.0   
HR          67666.666667  48000  80000  17214.335112  32.000000   32.0   
IT          65000.000000  50000  90000  14142.135624  35.333333   36.0   

           experience    id  
                 mean 

## Пример 4: Комплексный анализ

In [83]:
# Анализ эффективности сотрудников
df['efficiency'] = df['salary'] / df['experience']

# Группировка и сортировка
city_efficiency = df.groupby('city').agg({
    'efficiency': 'mean',
    'salary': 'mean',
    'experience': 'mean',
    'id': 'count'
}).round(2)

city_efficiency = city_efficiency.sort_values('efficiency', ascending=False)
print("Эффективность по городам:")
print(city_efficiency)

# Анализ по возрасту
age_bins = [20, 30, 40, 50]
age_labels = ['20-30', '31-40', '41-50']
df['age_group'] = pd.cut(df['age'], bins=age_bins, labels=age_labels)

age_analysis = df.groupby('age_group', observed=True).agg({
    'salary': ['mean', 'median'],
    'experience': 'mean',
    'efficiency': 'mean'
}).round(2)

print("\nАнализ по возрастным группам:")
print(age_analysis)

Эффективность по городам:
        efficiency    salary  experience  id
city                                        
SPb       13666.67  67666.67        5.33   3
Moscow    13116.67  64000.00        6.20   5
Kazan     10416.67  57500.00        7.50   2

Анализ по возрастным группам:
            salary          experience efficiency
              mean   median       mean       mean
age_group                                        
20-30      49500.0  49000.0        3.0   17437.50
31-40      77500.0  77500.0        7.0   11458.33
41-50      65000.0  65000.0       11.0    5916.67


# Задачи для самостоятельного решения

## Задача 1: Базовое исследование данных

In [84]:
# Данные для задачи
sales_data = {
    'order_id': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'product': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'category': ['Electronics', 'Books', 'Electronics', 'Clothing', 'Books',
                'Electronics', 'Clothing', 'Books', 'Electronics', 'Clothing'],
    'price': [1500, 500, 1700, 300, 450, 1600, 350, 480, 1550, 320],
    'quantity': [2, 1, 3, 2, 1, 2, 3, 1, 2, 2],
    'customer_city': ['Moscow', 'SPb', 'Moscow', 'Kazan', 'SPb',
                     'Moscow', 'Kazan', 'SPb', 'Moscow', 'Kazan']
}
df = pd.DataFrame(sales_data)

print('Первые 5 строк')
print(df.head(5))

print('Типы данных')
print(df.dtypes)

print('Статистика по числовым столбцам')
print(df.describe())

print('Размер')
print(df.shape)

Первые 5 строк
   order_id product     category  price  quantity customer_city
0       101       A  Electronics   1500         2        Moscow
1       102       B        Books    500         1           SPb
2       103       A  Electronics   1700         3        Moscow
3       104       C     Clothing    300         2         Kazan
4       105       B        Books    450         1           SPb
Типы данных
order_id          int64
product          object
category         object
price             int64
quantity          int64
customer_city    object
dtype: object
Статистика по числовым столбцам
        order_id        price   quantity
count   10.00000    10.000000  10.000000
mean   105.50000   875.000000   1.900000
std      3.02765   618.605062   0.737865
min    101.00000   300.000000   1.000000
25%    103.25000   375.000000   1.250000
50%    105.50000   490.000000   2.000000
75%    107.75000  1537.500000   2.000000
max    110.00000  1700.000000   3.000000
Размер
(10, 6)


## Задача 2: Фильтрация данных

In [85]:
print('Больше 1000')
print(df[df['price'] > 1000])

print('Заказы из Москвы с количеством товаров больше 1')
print(df[(df['customer_city'] == 'Moscow') & (df['quantity'] > 1)])

print('Заказы категорий "Electronics" или "Books"')
print(df[df['category'].isin(['Electronics', 'Books'])])

print('Заказы с ценой между 400 и 600')
print(df[df['price'].between(400, 600)])

print('Заказы, где город не "Moscow" и количество товаров равно 1')
print(df[(df['customer_city'] != 'Moscow') & (df['quantity'] == 1)])

Больше 1000
   order_id product     category  price  quantity customer_city
0       101       A  Electronics   1500         2        Moscow
2       103       A  Electronics   1700         3        Moscow
5       106       A  Electronics   1600         2        Moscow
8       109       A  Electronics   1550         2        Moscow
Заказы из Москвы с количеством товаров больше 1
   order_id product     category  price  quantity customer_city
0       101       A  Electronics   1500         2        Moscow
2       103       A  Electronics   1700         3        Moscow
5       106       A  Electronics   1600         2        Moscow
8       109       A  Electronics   1550         2        Moscow
Заказы категорий "Electronics" или "Books"
   order_id product     category  price  quantity customer_city
0       101       A  Electronics   1500         2        Moscow
1       102       B        Books    500         1           SPb
2       103       A  Electronics   1700         3        Moscow
4

## Задача 3: Группировка и агрегация

In [86]:
# city_stats = df.groupby('city')['salary'].agg(['mean', 'min', 'max', 'count'])
print('Общая выручка по каждому продукту')
df['total_revenue'] = df['price'] * df['quantity']
print(df.groupby('product')['total_revenue'].agg(['sum']))

print('Средняя цена по каждой категории')
print(df.groupby('category')['price'].agg(['mean']))

print('Максимальное количество товаров в заказе по каждому городу')
print(df.groupby('customer_city')['quantity'].agg(['max']))

print('Количество заказов по каждой категории и городу')
print(df.groupby(['category', 'customer_city'])['quantity'].agg(['count']))

print('Самый дорогой и самый дешевый товар в каждой категории')
print(df.groupby('category')['price'].agg(['min', 'max']))

Общая выручка по каждому продукту
           sum
product       
A        14400
B         1430
C         2290
Средняя цена по каждой категории
                    mean
category                
Books         476.666667
Clothing      323.333333
Electronics  1587.500000
Максимальное количество товаров в заказе по каждому городу
               max
customer_city     
Kazan            3
Moscow           3
SPb              1
Количество заказов по каждой категории и городу
                           count
category    customer_city       
Books       SPb                3
Clothing    Kazan              3
Electronics Moscow             4
Самый дорогой и самый дешевый товар в каждой категории
              min   max
category               
Books         450   500
Clothing      300   350
Electronics  1500  1700


## Задача 4: Комплексный анализ

In [87]:
# Добавьте данные о скидках
discount_data = {
    'order_id': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'discount': [10, 5, 15, 0, 5, 10, 0, 5, 15, 0]
}

discount_df = pd.DataFrame(discount_data)

# Объедините данные о скидках с основным DataFrame
new_df = df.merge(discount_df, on='order_id')

# Рассчитайте финальную стоимость заказа (цена * количество - скидка)
new_df['total'] = new_df['total_revenue'] - new_df['discount']

# Сгруппируйте данные по категориям и посчитайте:
result = new_df.groupby('category').agg({
    'total': 'sum',
    'discount': 'mean',
    'product': 'nunique',
    'quantity': 'mean'
})
print(result)

# Создайте сводную таблицу: города по строкам, категории по столбцам, значения - общая выручка
pivot_table = new_df.pivot_table(
    values='total',           # Можно использовать 'total_revenue' для выручки до скидок
    index='customer_city',
    columns='category',
    aggfunc='sum',
    fill_value=0
)
print(pivot_table)

# Найдите топ-3 продукта по общей выручке
result = new_df.groupby('product')['total'].agg('sum').sort_values(ascending=False)
print(result.head(3))

             total  discount  product  quantity
category                                       
Books         1415       5.0        1  1.000000
Clothing      2290       0.0        1  2.333333
Electronics  14350      12.5        1  2.250000
category       Books  Clothing  Electronics
customer_city                              
Kazan              0      2290            0
Moscow             0         0        14350
SPb             1415         0            0
product
A    14350
C     2290
B     1415
Name: total, dtype: int64


## Задача 5: Анализ эффективности

In [88]:
# Рассчитайте выручку для каждого заказа
print(new_df[['order_id', 'total_revenue']])

# Определите самый популярный продукт в каждом городе
print(new_df.groupby(['customer_city', 'product']).agg({'order_id': 'count', 'quantity': 'sum'}))

# Найдите город с наибольшей средней выручкой на заказ
city_avg_revenue = new_df.groupby('customer_city').agg({
    'total': 'mean',
    'order_id': 'count'
}).round(2).sort_values('total', ascending=False)
print(city_avg_revenue.iloc[0])

   order_id  total_revenue
0       101           3000
1       102            500
2       103           5100
3       104            600
4       105            450
5       106           3200
6       107           1050
7       108            480
8       109           3100
9       110            640
                       order_id  quantity
customer_city product                    
Kazan         C               3         7
Moscow        A               4         9
SPb           B               3         3
total       3587.5
order_id       4.0
Name: Moscow, dtype: float64
