<a href="https://colab.research.google.com/github/vit050587/course_lab_megafon/blob/master/final_project_megafon.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Финальный проект по курсу от компании "Мегафон"**
**Задача: сформировать персональные предложения абонентам компании "Мегафон"**

Задача состоит из 2-х подзадач:
1. Предсказание вероятности подключения услуги
2. Формирование индивидуальных предложений и максимизация выручки

Представлен датасет:
- откликов абонентов на те или иные продукты
- профиль потребеления абонентов

У нас появился запрос из отдела продаж и маркетинга. Как вы знаете «МегаФон» предлагает обширный набор различных услуг своим абонентам. При этом разным пользователям интересны разные услуги. Поэтому необходимо построить алгоритм, который для каждой пары пользователь-услуга определит вероятность подключения услуги.


**Данные** В качестве исходных данных вам будет доступна информация об отклике абонентов на предложение подключения одной из услуг. Каждому пользователю может быть сделано несколько предложений в разное время, каждое из которых он может или принять, или отклонить.


Отдельным набором данных будет являться нормализованный анонимизированный набор признаков, характеризующий профиль потребления абонента. Эти данные привязаны к определенному времени, поскольку профиль абонента может меняться с течением времени.

**Данные train и test разбиты по периодам – на train доступно 4 месяцев, а на test отложен последующий месяц.**

Итого, в качестве входных данных будут представлены:

* data_train.csv: id, vas_id, buy_time, target
* features.csv.zip: id, <feature_list>

**И тестовый набор:**

**data_test.csv: id, vas_id, buy_time**
* **target** - целевая переменная, где 1 означает подключение услуги, 0 - абонент не подключил услугу соответственно.
* **buy_time** - время покупки, представлено в формате timestamp, для работы с этим столбцом понадобится функция datetime. 
fromtimestamp из модуля datetime.
* **id** - идентификатор абонента
* **vas_id** - подключаемая услуга
Примечание: Размер файла features.csv в распакованном виде весит 20 гб, для работы с ним можно воспользоваться pandas.read_csv, либо можно воспользоваться библиотекой Dask.

**Метрика**

Скоринг будет осуществляться функцией f1, невзвешенным образом, как например делает функция sklearn.metrics.f1_score(…, average='macro').

**Формат представления результата**

1. Работающая модель в формате pickle, которая принимает файл data_test.csv из корневой папки и записывает в эту же папку файл answers_test.csv. В этом файле должны находится 4 столбца: buy_time, id, vas_id и target. Target можно записать как вероятность подключения услуги.
2. Код модели можно представить в виде jupyter-ноутбука.
3. Презентация в формате .pdf, в которой необходимо отразить:
* Информация о модели, ее параметрах, особенностях и основных результатах.
* Обоснование выбора модели и ее сравнение с альтернативами.
* Принцип составления индивидуальных предложений для выбранных абонентов.
Рекомендуемое количество слайдов – 5 – 10.

Файл answers_test.csv с результатами работы модели, презентацию, ноутбуки и резюме необходимо прикрепить ко второму уроку "курсовой проект".

In [2]:
!pip install pathlib2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pathlib2
  Downloading pathlib2-2.3.7.post1-py2.py3-none-any.whl (18 kB)
Installing collected packages: pathlib2
Successfully installed pathlib2-2.3.7.post1


In [5]:
!pip install lightautoml

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting lightautoml
  Downloading LightAutoML-0.3.7.3-py3-none-any.whl (319 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m319.6/319.6 KB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting autowoe>=1.2
  Downloading AutoWoE-1.3.2-py3-none-any.whl (215 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m215.7/215.7 KB[0m [31m27.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting cmaes
  Downloading cmaes-0.9.1-py3-none-any.whl (21 kB)
Collecting catboost>=0.26.1
  Downloading catboost-1.1.1-cp39-none-manylinux1_x86_64.whl (76.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.6/76.6 MB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
Collecting optuna
  Downloading optuna-3.1.0-py3-none-any.whl (365 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m365.3/365.3 KB[0m [31m24.2 MB/s[0m eta [36m0:00:00[0m
[?25hC

In [6]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from pathlib2 import Path
import sys
from datetime import date
import itertools
import logging
import pickle

from sklearn.linear_model import LinearRegression, Lasso, Ridge, LassoCV, RidgeCV, LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, precision_recall_curve, roc_curve, auc, confusion_matrix
from sklearn.model_selection import train_test_split, KFold, cross_validate
from sklearn.pipeline import Pipeline

from lightautoml.automl.presets.tabular_presets import TabularAutoML, TabularUtilizedAutoML
from lightautoml.tasks import Task

import xgboost as xgb

In [9]:
path = Path('/content/drive/MyDrive/Colab Notebooks/megafon/course_lab/')

# Загрузка данных

In [10]:
train = pd.read_csv(path.joinpath('data_train.csv')).drop(['Unnamed: 0'], axis=1)
train

Unnamed: 0,id,vas_id,buy_time,target
0,540968,8.0,1537131600,0.0
1,1454121,4.0,1531688400,0.0
2,2458816,1.0,1534107600,0.0
3,3535012,5.0,1535922000,0.0
4,1693214,1.0,1535922000,0.0
...,...,...,...,...
831648,3812226,2.0,1546203600,0.0
831649,2480469,2.0,1546203600,0.0
831650,158236,2.0,1546203600,0.0
831651,1825525,2.0,1546203600,0.0


In [11]:
test = pd.read_csv(path.joinpath('data_test.csv')).drop(['Unnamed: 0'], axis=1)
test

Unnamed: 0,id,vas_id,buy_time
0,3130519,2.0,1548018000
1,2000860,4.0,1548018000
2,1099444,2.0,1546808400
3,1343255,5.0,1547413200
4,1277040,2.0,1546808400
...,...,...,...
71226,2502453,5.0,1548018000
71227,1693213,2.0,1548018000
71228,1891350,2.0,1548018000
71229,2437172,2.0,1548018000
