0. Описать задачу словами
1. Прочитать данные
2. Визуализировать данные и вычислить основные характеристики (среднее, разброс, корреляционную матрицу и т.д.). Интерпретировать.
3. Обработать пропущенные значения (или убедиться, что их нет)
4. Обработать категориальные признаки
5. Провести нормализацию (или объяснить, почему в вашем случае она не нужна)
6. Разбить данные на обучающую и тестовую выборки
7. Запустить классификатор ближайших соседей (попробовать разное их количество)
8. Вычислить ошибки на обучающей и тестовой выборках. Сделать выводы 
9. По желанию: запустить другие классификаторы. Сравнить результаты
10. По желанию: как-то побороться с несбалансированностью классов (если она есть)
11. По желанию: исключить коррелированные переменные (объяснить зачем)
12. Сделать общие выводы"

# Описание задачи

У компании N есть цель выбрать маркетинговую стратегию для повышения продаж продукта/услуги. Необходимо выявить эффективность каждой маркетинговой кампании на определенного потребителя.

Для решения данной задачи были собраны личные данные о потребителях (уровень образования, семейное положение, количество детей, доход), данные о поведении потребителя (траты на покупку определенной продукции, место покупки, жалобы), принятии потребителем определенного предложения (проводимым по пяти разным стратегиям + отдельно по текущей).

Задача сводится к задаче классификации: нужно предсказать, примет ли потребитель текущее предложение (1 - примет, 0 - не примет), в зависимости от определенного покупательского поведения и личных данных.

In [1]:
import numpy as np              # Массивы (матрицы, векторы, линейная алгебра)
import matplotlib.pyplot as plt # Научная графика
%matplotlib inline 
    # Говорим jupyter'у, чтобы весь графический вывод был в браузере, а не в отдельном окне
import pandas as pd             # Таблицы и временные ряды (dataframe, series)
import seaborn as sns           # Еще больше красивой графики для визуализации данных
import sklearn                  # Алгоритмы машинного обучения

# Чтение данных

In [4]:
data_raw = pd.read_csv('marketing_campaign.csv')

In [5]:
data_raw.shape

(2240, 29)

In [7]:
data_raw.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,...,5,0,0,0,0,0,0,3,11,0


##### Личные данные
- ID - номер клиента
- Year_Birth - год рождения клиента
- Education - уровень образования клиента
- Marital_Status - семейное положение клиента
- Income - доход клиента
- Kidhome - количество маленьких детей в семье
- Teenhome - количество подростков в семье
- Dt_Customer - дата регистрации клиента
- Recency - количество прошедших дней со дня последней покупки клиента
##### Траты на определенные продукты за 2 года
- MntWines - вино
- MntFruits - фрукты
- MntMeatProducts - мясо
- MntFishProducts - рыба
- MntSweetProducts - сладкое
- MntGoldProds - золотые изделия
##### Поведение потребителя
- NumDealsPurchases - количество покупок со скидкой
- NumWebPurchases - количество покупок через веб-сайт
- NumCatalogPurchases - количество покупок через каталог
- NumStorePurchases - количество покупок, совершенные в магазине
- NumWebVisitsMonth - Количество посещений веб-сайта за последний месяц
##### Ответ на предложения по определенным маркетинговым кампаниям (1 - принял, 0 - не принял)
- AcceptedCmp3
- AcceptedCmp4
- AcceptedCmp5
- AcceptedCmp1
- AcceptedCmp2
##### Жалобы
- Complain - 1, если клиент жаловался в последние 2 года
##### Пока неизвестные признаки
- Z_CostContact - неизвестный признак
- Z_Revenue - неизвестный признак
##### Ответ на текущее предложение
- Response - 1, если клиент принял предложение по последней рекламной акции, иначе 0

# Визуализация данных

In [11]:
df = pd.DataFrame(data_raw.describe())
df.to_csv('describe_data.csv')