**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 14

Набор данных: clients

Атрибуты: 'ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome','Dt_Customer', 'NumDealsPurchases'

### 1.Чтение файла (набора данных)

In [2]:
 import pandas as pd
 df = pd.read_csv(r"C:\Users\derya\Downloads\LR1_AD\clients.csv", sep =';' ) # импорт библиотек, чтение файла с помощью pandas

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [3]:
df.head(20) # применение метода 'head'

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Dt_Customer,NumDealsPurchases
0,5524,1957,Graduation,Single,58138.0,0.0,04.09.2012,3.0
1,2174,1954,Graduation,Single,46344.0,1.0,08.03.2014,2.0
2,4141,1965,Graduation,Together,71613.0,0.0,21.08.2013,1.0
3,6182,1984,Graduation,Together,26646.0,1.0,10.02.2014,2.0
4,5324,1981,PhD,Married,58293.0,1.0,19.01.2014,5.0
5,7446,1967,Master,Together,62513.0,0.0,09.09.2013,2.0
6,965,1971,Graduation,Divorced,55635.0,0.0,13.11.2012,4.0
7,6177,1985,PhD,Married,33454.0,1.0,08.05.2013,2.0
8,4855,1974,PhD,Together,30351.0,1.0,06.06.2013,1.0
9,5899,1950,PhD,Together,5648.0,1.0,13.03.2014,1.0


2.2 Оценка данных с помощью метода info.

In [4]:
df.info() # выполнение метода 'info'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 796 entries, 0 to 795
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ID                 796 non-null    int64  
 1   Year_Birth         796 non-null    int64  
 2   Education          796 non-null    object 
 3   Marital_Status     796 non-null    object 
 4   Income             784 non-null    float64
 5   Kidhome            795 non-null    float64
 6   Dt_Customer        795 non-null    object 
 7   NumDealsPurchases  795 non-null    float64
dtypes: float64(3), int64(2), object(3)
memory usage: 49.9+ KB


2.3 Оценка данных с помощью метода describe.

In [5]:
df.describe() # оценка числовых столбцов с помощью 'describe'

Unnamed: 0,ID,Year_Birth,Income,Kidhome,NumDealsPurchases
count,796.0,796.0,784.0,795.0,795.0
mean,5630.133166,1968.356784,53130.07398,0.438994,2.314465
std,3273.039715,12.022132,21818.56876,0.547252,1.94165
min,0.0,1899.0,2447.0,0.0,0.0
25%,2853.0,1959.0,36141.75,0.0,1.0
50%,5563.0,1969.5,52372.5,0.0,2.0
75%,8584.25,1977.0,69293.25,1.0,3.0
max,11191.0,1995.0,162397.0,2.0,15.0


---

## **Вывод**
**столбец ID** - это уникальный идентификатор записи. Этот столбец используется для идентификации записей, и *статистики (например, среднее или стандартное отклонение) обычно не несут практической ценности*
- mean — среднее значение ID, что не имеет практического смысла, так как ID обычно номинальный идентификатор
- std — стандартное отклонение, показывающее разброс значений ID

**столбец Year_Birth** - это год рождения клиента
- mean — средний год рождения, что указывает на средний возраст клиента - около 57 лет (2025 - 1968 ≈ 57)
- std — стандартное отклонение, показывающее разброс годов рождения
  
**столбец Income** - это доход клиента в условных единицах
- count — количество записей с данными о доходе (меньше, чем в других столбцах - это значит, что есть пропущенные значения)
- std — стандартное отклонение, показывающее значительный разброс доходов
  
**столбец Kidhome** - это количество детей в семье клиента
- mean - в среднем на одного клиента приходится 0.44 ребенка
- std - стандартное отклонение, показывающее, что большинство семей имеют 0 или 1 ребенка
  
**столбец NumDealsPurchases** - это количество совершенных покупок:
- count - количество записей с данными о покупках
- mean - в среднем клиенты совершают около 2.3 покупок
- std - стандартное отклонение, показывающее умеренный разброс
- min - некоторые клиенты не совершали покупок
  
 ---

 2.4 Оценка названий столбцов

In [6]:
df.columns # Вывод на экран названий столбцов с помощью df.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Dt_Customer', 'NumDealsPurchases'],
      dtype='object')

In [7]:
df.columns = df.columns.str.lower()
df = df.rename(columns={'kidhome': 'num_kids','dt_customer': 'registration_date', 'numdealspurchases': 'num_deals_purchases'}) # Переименование столбцов по необходимости

In [8]:
df.columns

Index(['id', 'year_birth', 'education', 'marital_status', 'income', 'num_kids',
       'registration_date', 'num_deals_purchases'],
      dtype='object')

---
## **Пояснение**

Все столбцы используют стиль *CamelCase*, который не соответствует рекомендациям PEP 8 (*snake_case* предпочтительнее в Python). Это может затруднить читаемость и единообразие кода. В соответствии с этим выводом столбцы были переименованы, некоторые аббревиатуры (*Kidhome*, *Dt_Customer*) были заменены на более лаканичные и описательные названия 

---

### 3. Проверка пропусков

In [9]:
 print(df.isna().sum()) # подсчет количества пропусков

id                      0
year_birth              0
education               0
marital_status          0
income                 12
num_kids                1
registration_date       1
num_deals_purchases     1
dtype: int64


In [10]:
 df = df.dropna(subset=[ 'income', 'num_kids', 'registration_date', 'num_deals_purchases']) # Удаление строк, в которых в указанных столбцах есть NaN

In [11]:
 print(df.isna().sum()) # Проверка на отсутствие пропусков

id                     0
year_birth             0
education              0
marital_status         0
income                 0
num_kids               0
registration_date      0
num_deals_purchases    0
dtype: int64


### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [12]:
 df[df.duplicated()] # получение дубликатов с помощью логической индексации
 print(df.duplicated().sum()) # подсчет количества дубликатов

4


In [13]:
 df = df.drop_duplicates().reset_index() # удаление дубликатов  и обновление индексации

In [14]:
df[df.duplicated()]
print(df.duplicated().sum()) # Проверка на отсутствие дубликатов

0


#### Проверка неявных дубликатов

In [15]:
print(df['education'].value_counts())

education
Graduation    432
PhD           187
Master        146
Basic          15
Name: count, dtype: int64


In [16]:
print(df['marital_status'].value_counts())

marital_status
Married     301
Together    192
Single      168
Divorced     85
Widow        29
Alone         3
MARRIED       1
SINGL         1
Name: count, dtype: int64


In [17]:
 df['marital_status'] = df['marital_status'].replace('MARRIED', 'Married').replace('SINGL', 'Single').replace('Alone', 'Single')

In [18]:
print(df['marital_status'].value_counts())

marital_status
Married     302
Together    192
Single      172
Divorced     85
Widow        29
Name: count, dtype: int64


---
## **Пояснение**

Для проверки был выбран только столбец *marital_status*, поскольку только он может иметь несколько вариаций на одно слово (Married - married - Maried). Остальные столбцы несут ту информацию, которая имеет право на дублирование (например, у клиентов могут совпадать доходы и количество детей)

---

### 5. Провека типов данных

In [19]:
df['registration_date'] = pd.to_datetime(
 df['registration_date'], format='%d.%m.%Y'
 ) #  Преобразование столбцов registration_date из формата object к формату даты
df['num_kids'] = df['num_kids'].astype(int) # Преобразование столбцов из формата float в формат int
df['num_deals_purchases'] = df['num_deals_purchases'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 780 entries, 0 to 779
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   index                780 non-null    int64         
 1   id                   780 non-null    int64         
 2   year_birth           780 non-null    int64         
 3   education            780 non-null    object        
 4   marital_status       780 non-null    object        
 5   income               780 non-null    float64       
 6   num_kids             780 non-null    int64         
 7   registration_date    780 non-null    datetime64[ns]
 8   num_deals_purchases  780 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(5), object(2)
memory usage: 55.0+ KB


### 6. Группировка данных

#### Задание 1

*`Группировка - тип образования по каждому семейному статусу (marital_status).`*

In [20]:
grouped = df.groupby('education')['marital_status'].value_counts()
print (grouped)

education   marital_status
Basic       Married             9
            Together            4
            Divorced            1
            Single              1
Graduation  Married           168
            Single             98
            Together           96
            Divorced           49
            Widow              21
Master      Married            57
            Together           41
            Single             32
            Divorced           12
            Widow               4
PhD         Married            68
            Together           51
            Single             41
            Divorced           23
            Widow               4
Name: count, dtype: int64


---
## **Вывод**

 Интерпритация - из результата данной сортировки можно увидеть, что больше всего женатых и одиноких клиентов имеют высшее образование. Наименьшее же количество отношений имеют клиенты с базовым образованием

---

#### Задание 2

*`Группировка - семейный статус (marital_status) по количеству детей. Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”`*

In [21]:
grouped = df.groupby('marital_status')['num_kids'].value_counts().reset_index(name='count')
grouped = grouped.sort_values(by='count', ascending=False)
print (grouped.to_string(index=False))

marital_status  num_kids  count
       Married         0    166
       Married         1    125
      Together         0    123
        Single         0     97
        Single         1     72
      Together         1     66
      Divorced         0     52
      Divorced         1     31
         Widow         0     24
       Married         2     11
         Widow         1      5
        Single         2      3
      Together         2      3
      Divorced         2      2


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что больше всего женатых клиентов имеют не более одного ребенка. Наибольшее количество детей имеет наименьшая группа клиентов - находящихся в отношениях или разведенных

---

#### Задание 3

*`Сводная таблица (pivot_table) - средний доход семьи по семейному
положению. Отсортировать по убыванию. Округлить до двух знаков`*

In [22]:
pivot_table = df.pivot_table(
    values='income',   
    index='marital_status', 
    aggfunc='mean').round(2).sort_values(by='income', ascending=False)
print(pivot_table)

                  income
marital_status          
Widow           55452.45
Divorced        54568.16
Together        54502.84
Married         52898.34
Single          50934.03


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что наибольший средний доход имеют овдовевшие клиенты, наименьший - одинокие

---

#### Задание 4

*`Сводная таблица (pivot_table) - среднее количество покупок по уровню
образованию - строки и году рождения - столбцы. Отсортировать по возрастанию
education. Округлить до двух знаков.`*

In [23]:
pivot_table = df.pivot_table(
    values='num_deals_purchases',
    index='education',
    columns='year_birth',
    aggfunc='mean').round(2).sort_index(ascending=True)
display(pivot_table)

year_birth,1899,1941,1943,1944,1945,1946,1947,1948,1949,1950,...,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Basic,,,,,,,,,,,...,2.0,2.0,,1.0,1.0,,,,,
Graduation,,,,1.0,,1.67,1.0,1.0,1.0,2.0,...,1.29,1.67,1.92,1.88,1.0,1.0,1.0,1.0,1.0,1.0
Master,,,1.0,1.0,1.0,1.0,1.0,1.0,2.2,5.0,...,2.5,1.0,1.0,2.0,,,1.0,,,
PhD,1.0,0.0,1.5,1.0,1.5,2.0,1.0,2.43,2.5,1.67,...,1.5,,1.0,1.0,,1.0,,,,


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что данные о среднем количестве покупок клиентов с базовым образованием отсутствует, вне зависимости от года рождения. Наибольшее среднее количество покупок совершили клиенты с образованием PhD 1949 года рождения

---

### Вывод


***`В ходе лабораторной работы был проанализирован набор данных о клиентах - маркетинговый анализ поведения потребителей. Были использованы следующие методы предобработки:исправление пути к файлу (обработка unicodeescape с помощью raw-строк), проверка статистик, переименование столбцов в snake_case (через нижний регистр), поиск неявных дубликатов в текстовых столбцах с помощью unique() и value_counts(), исправление replace(), преобразование типов, преобразование дат, удаление NaN.`***

***`Выводы из группировок и сводных таблиц:`***

***`Группировка education по marital_status: статус "married" преобладает во всех уровнях образования (basic, graduation, master, PhD), с наибольшим количеством в graduation и PhD; статус "divorced" чаще в graduation; статусы "alone" и "widow" редки, в основном в graduation и PhD.
Группировка marital_status по num_kids: клиенты со статусом "married" имеют детей (0–2, с преобладанием 1); одинокие клиенты чаще без детей, реже с двумя; разведенные и овдовевшие — в основном 0–1 детей; сортировка по count показывает клиентов со статусом "married" с наибольшим общим объемом.
Pivot table средний income по marital_status: разведенные клиенты имеет наивысший доход (~55453), за ним разведенные (~54568) и в отношениях (~54503); сортировка descending подчеркивает корреляцию статуса с доходом.
Pivot table среднее num_deals_purchases по education (строки) и year_birth (столбцы): Для клиентов с базовым образованием 1970–1980-х годов рождения среднее число покупок составляет 2.5–3.0; для клиентов с образованием "master" - 4.0–5.0 в тех же годах; PhD - 1.0 в 1990-х; NaN в пустых комбинациях указывают на неравномерность распределения, с фокусом на старшие поколения, из чего следует вывод, что высшее образование коррелирует с большим доходом и покупками, но семейный статус влияет на детей и активность.`***


### Дополнительные задания

#### Задание 1

*`Создать столбец - возраст (расчетный). Создать столбец “Категория 
возраста (Year_Birth)ˮ  (с помощью категоризации). Выделить минимум 3 
категории (молодой, старый, средний), фильтрацию для уровня возраста 
выбрать самостоятельно, аргументировать выбор. Создать сводную 
таблицу: средний и медианный Income по Marital_Status и категории 
возраста`*

In [24]:
current_date = pd.to_datetime('2025-09-16 13:01:00')
df['age'] = current_date.year - df['year_birth']
bins = [0, 35, 60, 100]
labels = ['young', 'average', 'old']
df['age_category'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)
pivot_table = pd.pivot_table(
    df,
    values='income',
    index='marital_status',
    columns='age',
    aggfunc=['mean', 'median'],
    fill_value=0
)
print(pivot_table)

                   mean                                                        \
age                 30       31       32       33       34       35       36    
marital_status                                                                  
Divorced            0.0      0.0      0.0      0.0      0.0      0.0  10979.0   
Married             0.0      0.0      0.0  34935.0  42691.0  48983.0  40471.6   
Single          52993.5      0.0  74293.0  70824.0  77081.5  26095.0  39449.0   
Together            0.0  80134.0      0.0  42670.0  79286.5      0.0  72409.0   
Widow               0.0      0.0      0.0      0.0      0.0      0.0      0.0   

                                                ...   median           \
age                 37       38            39   ...      75       76    
marital_status                                  ...                     
Divorced            0.0  81361.0  41411.000000  ...  63120.0  35681.0   
Married         67481.8  21434.0  56414.285714  ...  54432.

---
## **Вывод**

Интерпритация - из результата данной категоризации можно увидеть, что много ячеек с значением 0.0 отражают отсутствие клиентов в этих возрастных группах или семейных статусах. Высокие доходы можно отметить у одиноких клиентов и состоящих в отношениях, что указывает на активность молодых людей без семейных обязательств. Стабильный рост доходов у женатых и разведенных, с пиками в 38–39 годах. Одиночки и пары показывают колебания, что может быть связано с изменением приоритетов. К более приклонному возрасту женатые лидируют, разведенные и пары сохраняют доход, а овдовевшие и одиночки имеют разрывы, что может указывать на меньшую представленность или финансовую уязвимость.
Женатые и разведённые показывают стабильный рост дохода с возрастом, тогда как холостые и живущие вместе — более неравномерный. Вдовы менее представлены в данных. 
Возраст 126 у "Together" выглядит как аномалия данных, но оставленна для общей картины интерпритации.

---

#### Задание 2

*`Создать столбец “Категория дохода (Income)ˮ  (с помощью категоризации). 
Выделить минимум 3 категории (высокий, низкий, средний), фильтрацию 
для уровня дохода выбрать самостоятельно, аргументировать выбор. 
Создать группировки: средний, максимальный, минимальный и медианный 
NumDealsPurchases категории дохода и средний, максимальный, 
минимальный и медианный Income по категории дохода.`*

In [27]:
bins = [0, 30000, 70000, 100000]
labels = ['low', 'medium', 'high']
df['income_category'] = pd.cut(df['income'], bins=bins, labels=labels, right=False)
group_deals = df.groupby('income_category', observed=True)['num_deals_purchases'].agg(['mean', 'max', 'min', 'median'])
group_income = df.groupby('income_category', observed=True)['income'].agg(['mean', 'max', 'min', 'median'])
print(group_deals)
print(group_income)

                     mean  max  min  median
income_category                            
low              2.008333   15    0     2.0
medium           2.709746   13    1     2.0
high             1.388889    9    0     1.0
                         mean      max      min   median
income_category                                         
low              21780.541667  29999.0   2447.0  22694.5
medium           49995.341102  69882.0  30015.0  50058.5
high             78826.600000  98777.0  70165.0  78676.0


---
## **Вывод**

Интерпритация - из результата данной категоризации можно увидеть, что в категории "medium" (средний доход) клиенты совершают больше сделок, чем в "low" или "high". Это указывает на то, что клиенты со средним доходом наиболее активны в покупках по сделкам. Активность по сделкам растёт с доходом до среднего уровня, затем падает — средний класс стремится за более выгодными предложениями.
Диапазоны интервалов адекватно отражают данные, с "high" показывающим наибольшую вариацию. Исходя из этого, рост дохода коррелирует с меньшей зависимостью от сделок, что может влиять на стратегии маркетинга - таргетинг должен быть нацелен на средний класс для акций.

---

#### Задание 3

*`Создать столбец - срок с момента регистрации клиента в компании 
(расчетный).  Создать с помощью этого столбца столбец “Категория 
клиентаˮ  (с помощью категоризации). Выделить минимум 3 категории 
(новый, старый, средний), фильтрацию для уровня лет после регистрации 
выбрать самостоятельно, аргументировать выбор. Создать столбец 
“Категория дохода (Income)ˮ  (с помощью категоризации). Выделить 
минимум 3 категории (высокий, низкий, средний), фильтрацию для уровня 
дохода выбрать самостоятельно, аргументировать выбор. Выполнить 
фильтрацию: выбрать записи только со средним и высоким доходом + 
новых клиентов + топ 2 семейных статуса (Marital_Status) по среднему 
пребыванию в компании + топ 3 типа образования по среднему доходу. 
Создать сводные таблицы: средний и медианный Income по Education и 
Marital_Status; средний доход по категории клиента и Education .`*

In [37]:
import numpy as np

current_date = pd.to_datetime('2025-09-17 13:50:00')
df['years_since_registration'] = (current_date - df['registration_date']).dt.days / 365.25
bins = [0, 2, 5, 10, np.inf] #выбраны с учётом стандартных метрик лояльности
labels = ['new', 'medium', 'old', 'very_old']
df['client_category'] = pd.cut(df['years_since_registration'], bins=bins, labels=labels, right=False)

bins_income = [0, 30000, 70000, 100000] # граница 30,000 отделяет нижний квартиль (36,090), что соответствует примерно 25% клиентов с низким доходом 
#граница 100,000 выбрана как разумный верхний предел для анализа, учитывая максимальный доход.
labels_income = ['low', 'medium', 'high']
df['income_category'] = pd.cut(df['income'], bins=bins_income, labels=labels_income, right=False)

top_marital = df.groupby('marital_status', observed=True)['years_since_registration'].mean().nlargest(2).index
top_education = df.groupby('education', observed=True)['income'].mean().nlargest(3).index
filtered_df = df[(df['income_category'].isin(['medium', 'high'])) &
                 (df['client_category'] == 'new') & 
                 (df['marital_status'].isin(top_marital)) &
                 (df['education'].isin(top_education))]

pivot_edu_marital = pd.pivot_table(
    filtered_df,
    values='income',
    index='education',
    columns='marital_status',
    aggfunc=['mean', 'median'],
    fill_value=0,
    observed=True
)
pivot_client_edu = pd.pivot_table(
    filtered_df,
    values='income',
    index='client_category',
    columns='education',
    aggfunc='mean',
    fill_value=0,
    observed=True
)
print(df[['registration_date', 'years_since_registration', 'income', 'client_category', 'income_category']].describe())
print("\nTop Marital Statuses by mean years:", top_marital)
print("\nTop Educations by mean income:", top_education)

print(filtered_df.head())
print(pivot_client_edu)

         registration_date  years_since_registration         income
count                  780                780.000000     780.000000
mean   2013-07-04 08:00:00                 12.204426   53137.069231
min    2012-08-01 00:00:00                 11.219713    2447.000000
25%    2013-01-10 00:00:00                 11.741958   36090.000000
50%    2013-06-21 00:00:00                 12.240931   52614.000000
75%    2013-12-20 06:00:00                 12.684463   69398.000000
max    2014-06-29 00:00:00                 13.127995  162397.000000
std                    NaN                  0.549573   21874.294391

Top Marital Statuses by mean years: Index(['Divorced', 'Together'], dtype='object', name='marital_status')

Top Educations by mean income: Index(['PhD', 'Master', 'Graduation'], dtype='object', name='education')
Empty DataFrame
Columns: [index, id, year_birth, education, marital_status, income, num_kids, registration_date, num_deals_purchases, age, age_category, income_category, years

---

Стоит отметить, что фильтрация по client_category == 'new' всё ещё приводит к пустому filtered_df, так как все клиенты имеют years_since_registration в диапазоне от 11.22 до 13.13 лет (с 2012-08-01 до 2014-06-29 до текущей даты). Это указывает на то, что ни одна запись не попадает в категорию 'new' (0–2 года) согласно текущим bins. Все значения >10 лет, поэтому с текущими bins все записи попадают в 'very_old', и фильтр на 'new' не находит совпадений. Это связано с тем, что датасет охватывает только период 2012–2014, а текущая дата — 2025.
Было предпринято решение сдвинуть границы в соответствии с данными, чтобы разделить клиентов на более релевантные группы.
Вторым вариантом по исправлению можно было бы искусственно добавить новых клиентов, но от этого выбора было решено отказаться, поскольку задание не требует четкое наличие только новых клиентов + было решено опираться на исходный датасет и работу с ним, без изменения исходных данных.

---

In [38]:
import numpy as np

current_date = pd.to_datetime('2025-09-17 13:50:00')
df['years_since_registration'] = (current_date - df['registration_date']).dt.days / 365.25
bins = [11, 11.5, 12, 13, np.inf] # адаптация под минимальное (11.22) и максимальное (13.13)
labels = ['early_old', 'mid_old', 'late_old', 'very_old']
df['client_category'] = pd.cut(df['years_since_registration'], bins=bins, labels=labels, right=False)

bins_income = [0, 30000, 70000, 100000]
labels_income = ['low', 'medium', 'high']
df['income_category'] = pd.cut(df['income'], bins=bins_income, labels=labels_income, right=False)

top_marital = df.groupby('marital_status', observed=True)['years_since_registration'].mean().nlargest(2).index
top_education = df.groupby('education', observed=True)['income'].mean().nlargest(3).index
filtered_df = df[(df['income_category'].isin(['medium', 'high'])) &
                 (df['client_category'] == 'early_old') & # замена 'new' на 'early_old'
                 (df['marital_status'].isin(top_marital)) &
                 (df['education'].isin(top_education))]

pivot_edu_marital = pd.pivot_table(
    filtered_df,
    values='income',
    index='education',
    columns='marital_status',
    aggfunc=['mean', 'median'],
    fill_value=0,
    observed=True
)
pivot_client_edu = pd.pivot_table(
    filtered_df,
    values='income',
    index='client_category',
    columns='education',
    aggfunc='mean',
    fill_value=0,
    observed=True
)

print("Filtered DataFrame (sample):")
print(filtered_df.head())
print("\nPivot Table 2: Mean Income by Client_Category and Education")
print(pivot_client_edu)

Filtered DataFrame (sample):
     index     id  year_birth   education marital_status   income  num_kids  \
46      50   2225        1977  Graduation       Divorced  82582.0         0   
58      63   1386        1967  Graduation       Together  32474.0         1   
95     103   3267        1963      Master       Together  57288.0         0   
108    117  11051        1956         PhD       Together  77376.0         1   
146    156   5610        1965  Graduation       Together  33456.0         1   

    registration_date  num_deals_purchases  age age_category income_category  \
46         2014-06-07                    1   48      average            high   
58         2014-05-11                    1   58      average          medium   
95         2014-06-25                    3   62          old          medium   
108        2014-05-10                    4   69          old            high   
146        2014-04-21                    2   60          old          medium   

     years_sinc

---
## **Вывод**

Интерпритация - из результата данной категоризации можно увидеть, что клиенты имеют доходы от 32,474 до 82,582, с тремя из пяти относящимися к medium сегмениту и двумя к high. Это указывает на преобладание среднего и высокого сегментов, что соответствует фильтру. Четыре клиента имеют статус Together, один — Divorced. Это отражает приоритет топ-2 статусов по среднему времени пребывания, что логично для старых данных. Распределение включает Graduation (3 клиента), Master (1) и PhD (1), что соответствует топ-3 уровням образования по среднему доходу. Возраст варьируется от 48 до 69 лет, что указывает на более зрелую аудиторию, что согласуется с давностью регистрации.
Все клиенты относятся к early_old категории, что подтверждает фильтрацию по давности регистрации. Средние значения дохода стабильны и варьируются в пределах среднего и высокого сегментов, что соответствует целям анализа. Клиенты с уровнем образования Master показывают наивысший средний доход, что делает этот сегмент приоритетным для стратегий, стремящихся к аудитории с высоким доходом.

---