# Обработка данных

**Разделы:**
- [Импортируем библиотеки и загрузим данные](#импортируем-библиотеки-и-загрузим-данные)
- [Анализ и очистка данных](#анализ-и-очистка-данных)
- [Feature Enginnering](#Feature-Enginnering)
    - [Первичная-обработка](#первичная-обработка)
    - [Кодирование категориальных признаков](#кодирование-категориальных-признаков)
    - [Удаление ненужных столбцов](#удаление-ненужных-столбцов)
- [Разделение и сохранение данных](#разделение-и-сохранение-данных)

## Импортируем библиотеки и загрузим данные

In [1]:
import pandas as pd
import numpy as np
import os

from sklearn.model_selection import train_test_split

In [2]:
# Загрузка данных из data/raw/
data_path = os.path.join('..', 'data', 'raw', 'marketing_campaign.csv')
df = pd.read_csv(data_path,  sep='\t')

## Анализ и очистка данных

In [4]:
print("Проверка пропусков:")
print(df.isnull().sum())

Проверка пропусков:
ID                      0
Year_Birth              0
Education               0
Marital_Status          0
Income                 24
Kidhome                 0
Teenhome                0
Dt_Customer             0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
dtype: int64


Создадим новые признаки более понятные и логичные по сравнению с предыдущими

In [6]:
df['Age'] = 2024 - df['Year_Birth']
df['Total_Children'] = df['Kidhome'] + df['Teenhome']
df['Total_Spent'] = df[['MntWines', 'MntFruits', 'MntMeatProducts', 
                       'MntFishProducts', 'MntSweetProducts', 'MntGoldProds']].sum(axis=1)
df['Total_Purchases'] = df[['NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases']].sum(axis=1)
df['Customer_For'] = 2024 - pd.to_datetime(df['Dt_Customer'], format='%d-%m-%Y').dt.year

Обработаем выбросы в Income которые мы ранее заметили при просмотре статитстики полученных данных

In [8]:
Q1 = df['Income'].quantile(0.25)
Q3 = df['Income'].quantile(0.75)
IQR = Q3 - Q1
df = df[(df['Income'] >= Q1 - 1.5*IQR) & (df['Income'] <= Q3 + 1.5*IQR)]

## Feature Enginnering

In [9]:
pass

## Разделение и сохранение данных

In [10]:
os.makedirs('../data/processed', exist_ok=True)

df.to_csv('../data/processed/clustering.csv', index=False)