Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Необходимо сделать предварительный анализ тарифов на небольшой выборке клиентов -- 500 пользователей. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

**Описание тарифов**

|**Услуги**|**Тариф «Смарт»**|**Тариф «Ультра»**|
|:------|:------|:-----|
Ежемесячная плата | 550 рублей| 1950 рублей|
Включено | 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика| Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика|
Стоимость услуг сверх тарифного пакета | минута разговора: 3 рубля; сообщение: 3 рубля; 1 Гб интернет-трафика: 200 рублей | минута разговора: 1 рубль; сообщение: 1 рубль; 1 Гб интернет-трафика: 150 рублей|

Обратите внимание: Компания всегда округляет вверх значения минут и мегабайтов. Если пользователь проговорил всего 1 секунду, в тарифе засчитывается целая минута.

**Имеются следующие таблицы**

Таблица `users` (информация о пользователях):

|Имя поля|Описание поля|
|-------------:|:------------|
|**user_id** | уникальный идентификатор пользователя|
|**first_name** | имя пользователя|
|**last_name** | фамилия пользователя|
|**age** | возраст пользователя (годы)|
|**reg_date** | дата подключения тарифа (день, месяц, год)|
|**churn_date** | дата прекращения пользования тарифом (если значение пропущено, то тариф ещё действовал на момент выгрузки данных)|
|**city** | город проживания пользователя|
|**tariff** | название тарифного плана|

Таблица `calls` (информация о звонках):

|Имя поля|Описание поля|
|-------------:|:------------|
|**id** | уникальный номер звонка|
|**call_date** | дата звонка|
|**duration** | длительность звонка в минутах|
|**user_id** | идентификатор пользователя, сделавшего звонок|

Таблица `messages` (информация о сообщениях):

|Имя поля|Описание поля|
|-------------:|:------------|
|**id** | уникальный номер сообщения|
|**message_date** | дата сообщения|
|**user_id** |  идентификатор пользователя, отправившего сообщение|

Таблица `internet` (информация об интернет-сессиях):

|Имя поля|Описание поля|
|-------------:|:------------|
|**id** | уникальный номер сессии|
|**mb_used** | объём потраченного за сессию интернет-трафика (в мегабайтах)|
|**session_date** | дата интернет-сессии|
|**user_id** | идентификатор пользователя|

Таблица `tariffs` (информация о тарифах):

|Имя поля|Описание поля|
|-------------:|:------------|
|**tariff_name** | название тарифа|
|**rub_monthly_fee** | ежемесячная абонентская плата в рублях|
|**minutes_included** | количество минут разговора в месяц, включённых в абонентскую плату|
|**messages_included** | количество сообщений в месяц, включённых в абонентскую плату|
|**mb_per_month_included** | объём интернет-трафика, включённого в абонентскую плату (в мегабайтах)|
|**rub_per_minute** | стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то со 101 минуты будет взиматься плата)|
|**rub_per_message** | стоимость отправки сообщения сверх тарифного пакета|
|**rub_per_gb** | стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)|


Инструкция по выполнению проекта

**Шаг 1. Откройте файл с данными и изучите общую информацию**

-загрузите файлы и изучите общую информацию;

**Шаг 2. Подготовьте данные**
- Приведите данные к нужным типам;
- Найдите и исправьте ошибки в данных. Обратите внимание, что длительность многих звонков — 0.0 минут.  
- Посчитайте для каждого пользователя:
    - количество сделанных звонков и израсходованных минут разговора по месяцам;
    - количество отправленных сообщений по месяцам;
    - объем израсходованного интернет-трафика по месяцам;
    - помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков, сообщений и интернет-трафика; остаток умножьте на значение из тарифного плана; прибавьте абонентскую плату, соответствующую тарифному плану).

**Шаг 3. Проанализируйте данные**

Опишите поведение клиентов оператора:
- Сколько минут разговора, сколько сообщений и какой объём интернет-трафика требуется пользователям каждого тарифа в месяц?
- Посчитайте среднее количество, дисперсию и стандартное отклонение.
- Постройте гистограммы.
- Опишите распределения.

**Шаг 4. Проверьте гипотезы**
- средняя выручка пользователей тарифов «Ультра» и «Смарт» различается;
- средняя выручка пользователей из Москвы отличается от выручки пользователей из других регионов.

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

In [2]:
#первый способ чтения данных из нескольких датафреймов
#просто считаем каждый файл в отдельный датафрейм

# df_users = pd.read_csv('/content/users.csv')
# df_calls = pd.read_csv('/content/calls.csv')
# df_messages = pd.read_csv('/content/messages.csv')
# df_internet = pd.read_csv('/content/internet.csv')
# df_tariffs = pd.read_csv('/content/tariffs.csv')

In [2]:
# считывание файлов с помощью цикла

#создаем словарь с путями к файлам
list_dict = {'Таблица "Информация пользователях"' : '/content/users.csv',
             'Таблица "Информация о звонках"' : '/content/calls.csv',
             'Таблица "Информация о сообщениях"' : '/content/messages.csv',
             'Таблица "Информация о траффике"' : '/content/internet.csv',
             'Таблица "Информация о тарифах"' : '/content/tariffs.csv'
            }
#считываем файл в датафрейм и добавляем его в список
#на выходе получили спискок датафреймов

df_list=[]
for ipath_df in list_dict.values():
    df_list.append(pd.read_csv(ipath_df))
    print('Прочитан файл {}'.format(ipath_df))
#globals()['df'+'_clients'] = df_list[0]

Прочитан файл /content/users.csv
Прочитан файл /content/calls.csv
Прочитан файл /content/messages.csv
Прочитан файл /content/internet.csv
Прочитан файл /content/tariffs.csv


In [4]:
df_list

[     user_id  age  churn_date         city first_name  last_name    reg_date  \
 0       1000   52         NaN    Краснодар     Рафаил  Верещагин  2018-05-25   
 1       1001   41         NaN       Москва       Иван       Ежов  2018-11-01   
 2       1002   59         NaN  Стерлитамак    Евгений  Абрамович  2018-06-17   
 3       1003   23         NaN       Москва      Белла   Белякова  2018-08-17   
 4       1004   68         NaN  Новокузнецк    Татьяна   Авдеенко  2018-05-14   
 ..       ...  ...         ...          ...        ...        ...         ...   
 495     1495   65         NaN      Иркутск  Авксентий      Фокин  2018-08-28   
 496     1496   36         NaN      Вологда     Трифон     Блохин  2018-01-27   
 497     1497   32         NaN    Челябинск   Каролина     Агеева  2018-10-09   
 498     1498   68  2018-10-25  Владикавказ   Всеволод    Акимчин  2018-07-19   
 499     1499   35         NaN        Пермь     Гектор   Корнилов  2018-09-27   
 
     tariff  
 0    ultra 

In [3]:
# возможность применения сразу нескольких методов к одному датафрейму
for df in df_list:
    print('----'*10)
    display(df.head(2))
    display(df.info())
    display(df.describe())
    print('----'*10)

----------------------------------------


Unnamed: 0,user_id,age,churn_date,city,first_name,last_name,reg_date,tariff
0,1000,52,,Краснодар,Рафаил,Верещагин,2018-05-25,ultra
1,1001,41,,Москва,Иван,Ежов,2018-11-01,smart


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   age         500 non-null    int64 
 2   churn_date  38 non-null     object
 3   city        500 non-null    object
 4   first_name  500 non-null    object
 5   last_name   500 non-null    object
 6   reg_date    500 non-null    object
 7   tariff      500 non-null    object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB


None

Unnamed: 0,user_id,age
count,500.0,500.0
mean,1249.5,46.588
std,144.481833,16.66763
min,1000.0,18.0
25%,1124.75,32.0
50%,1249.5,46.0
75%,1374.25,62.0
max,1499.0,75.0


----------------------------------------
----------------------------------------


Unnamed: 0,id,call_date,duration,user_id
0,1000_0,2018-07-25,0.0,1000
1,1000_1,2018-08-17,0.0,1000


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202607 entries, 0 to 202606
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         202607 non-null  object 
 1   call_date  202607 non-null  object 
 2   duration   202607 non-null  float64
 3   user_id    202607 non-null  int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 6.2+ MB


None

Unnamed: 0,duration,user_id
count,202607.0,202607.0
mean,6.755887,1253.940619
std,5.843365,144.722751
min,0.0,1000.0
25%,1.3,1126.0
50%,6.0,1260.0
75%,10.7,1379.0
max,38.0,1499.0


----------------------------------------
----------------------------------------


Unnamed: 0,id,message_date,user_id
0,1000_0,2018-06-27,1000
1,1000_1,2018-10-08,1000


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123036 entries, 0 to 123035
Data columns (total 3 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   id            123036 non-null  object
 1   message_date  123036 non-null  object
 2   user_id       123036 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 2.8+ MB


None

Unnamed: 0,user_id
count,123036.0
mean,1256.98941
std,143.523967
min,1000.0
25%,1134.0
50%,1271.0
75%,1381.0
max,1499.0


----------------------------------------
----------------------------------------


Unnamed: 0.1,Unnamed: 0,id,mb_used,session_date,user_id
0,0,1000_0,112.95,2018-11-25,1000
1,1,1000_1,1052.81,2018-09-07,1000


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149396 entries, 0 to 149395
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   Unnamed: 0    149396 non-null  int64  
 1   id            149396 non-null  object 
 2   mb_used       149396 non-null  float64
 3   session_date  149396 non-null  object 
 4   user_id       149396 non-null  int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 5.7+ MB


None

Unnamed: 0.1,Unnamed: 0,mb_used,user_id
count,149396.0,149396.0,149396.0
mean,74697.5,370.192426,1252.099842
std,43127.054745,278.300951,144.050823
min,0.0,0.0,1000.0
25%,37348.75,138.1875,1130.0
50%,74697.5,348.015,1251.0
75%,112046.25,559.5525,1380.0
max,149395.0,1724.83,1499.0


----------------------------------------
----------------------------------------


Unnamed: 0,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name
0,50,15360,500,550,200,3,3,smart
1,1000,30720,3000,1950,150,1,1,ultra


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   messages_included      2 non-null      int64 
 1   mb_per_month_included  2 non-null      int64 
 2   minutes_included       2 non-null      int64 
 3   rub_monthly_fee        2 non-null      int64 
 4   rub_per_gb             2 non-null      int64 
 5   rub_per_message        2 non-null      int64 
 6   rub_per_minute         2 non-null      int64 
 7   tariff_name            2 non-null      object
dtypes: int64(7), object(1)
memory usage: 256.0+ bytes


None

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute
count,2.0,2.0,2.0,2.0,2.0,2.0,2.0
mean,525.0,23040.0,1750.0,1250.0,175.0,2.0,2.0
std,671.751442,10861.160159,1767.766953,989.949494,35.355339,1.414214,1.414214
min,50.0,15360.0,500.0,550.0,150.0,1.0,1.0
25%,287.5,19200.0,1125.0,900.0,162.5,1.5,1.5
50%,525.0,23040.0,1750.0,1250.0,175.0,2.0,2.0
75%,762.5,26880.0,2375.0,1600.0,187.5,2.5,2.5
max,1000.0,30720.0,3000.0,1950.0,200.0,3.0,3.0


----------------------------------------


In [4]:
#запись данных в отдельные датафреймы
df_users = df_list[0]
df_calls = df_list[1]
df_messages = df_list[2]
df_internet = df_list[3]
df_tariffs = df_list[4]

In [48]:
df_internet

Unnamed: 0,id,mb_used,session_date,user_id,year_month
0,1000_0,112.95,2018-11-25,1000,2018-11
1,1000_1,1052.81,2018-09-07,1000,2018-09
2,1000_2,1197.26,2018-06-25,1000,2018-06
3,1000_3,550.27,2018-08-22,1000,2018-08
4,1000_4,302.56,2018-09-24,1000,2018-09
...,...,...,...,...,...
149391,1499_152,318.90,2018-10-03,1499,2018-10
149392,1499_153,490.13,2018-12-14,1499,2018-12
149393,1499_154,0.00,2018-10-27,1499,2018-10
149394,1499_155,1246.32,2018-11-26,1499,2018-11


In [7]:
#Этап предобработки
#просмотр заголовков

In [5]:
df_users.columns
df_calls.columns
df_messages.columns
df_internet.columns
df_tariffs.columns

Index(['messages_included', 'mb_per_month_included', 'minutes_included',
       'rub_monthly_fee', 'rub_per_gb', 'rub_per_message', 'rub_per_minute',
       'tariff_name'],
      dtype='object')

In [7]:
df_calls['duration'] = np.ceil(df_calls['duration'])
df_calls

Unnamed: 0,id,call_date,duration,user_id
0,1000_0,2018-07-25,0.0,1000
1,1000_1,2018-08-17,0.0,1000
2,1000_2,2018-06-11,3.0,1000
3,1000_3,2018-09-21,14.0,1000
4,1000_4,2018-12-15,6.0,1000
...,...,...,...,...
202602,1499_215,2018-12-26,1.0,1499
202603,1499_216,2018-10-18,19.0,1499
202604,1499_217,2018-11-10,11.0,1499
202605,1499_218,2018-10-06,5.0,1499


In [8]:
#Этап предобработки
#корректировка типов

df_users = df_users.astype({'reg_date':'datetime64'})
df_calls = df_calls.astype({'call_date':'datetime64'})
df_messages = df_messages.astype({'message_date':'datetime64'})
df_internet = df_internet.astype({'session_date':'datetime64'})

In [9]:
#Удаление столбца
df_internet.head()
#видим, что есть столбец, которые вроде бы как дублирует индексы
#его надо удалить(ниже удалим)

Unnamed: 0.1,Unnamed: 0,id,mb_used,session_date,user_id
0,0,1000_0,112.95,2018-11-25,1000
1,1,1000_1,1052.81,2018-09-07,1000
2,2,1000_2,1197.26,2018-06-25,1000
3,3,1000_3,550.27,2018-08-22,1000
4,4,1000_4,302.56,2018-09-24,1000


In [10]:
df_internet.drop(columns='Unnamed: 0', inplace=True)

In [11]:
df_internet.head()

Unnamed: 0,id,mb_used,session_date,user_id
0,1000_0,112.95,2018-11-25,1000
1,1000_1,1052.81,2018-09-07,1000
2,1000_2,1197.26,2018-06-25,1000
3,1000_3,550.27,2018-08-22,1000
4,1000_4,302.56,2018-09-24,1000


In [13]:
#количество сделанных звонков и израсходованных минут разговора по месяцам

In [12]:
df_users.head(2)

Unnamed: 0,user_id,age,churn_date,city,first_name,last_name,reg_date,tariff
0,1000,52,,Краснодар,Рафаил,Верещагин,2018-05-25,ultra
1,1001,41,,Москва,Иван,Ежов,2018-11-01,smart


In [13]:
df_calls.head(2)

Unnamed: 0,id,call_date,duration,user_id
0,1000_0,2018-07-25,0.0,1000
1,1000_1,2018-08-17,0.0,1000


Посчитайте для каждого пользователя:
количество сделанных звонков и израсходованных минут разговора по месяцам;
количество отправленных сообщений по месяцам;
объем израсходованного интернет-трафика по месяцам;
помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков, сообщений и интернет-трафика; остаток умножьте на значение из тарифного плана; прибавьте абонентскую плату, соответствующую тарифному плану).

In [12]:
#Нам нужно как-то объединить эти 2 таблицы.
#Посмотрим, какие вообще даты у нас, видим, что данные за 2018 год
#в принципе, тогда мы можем выделить месяца по номерам
df_calls.call_date.unique()

array(['2018-07-25T00:00:00.000000000', '2018-08-17T00:00:00.000000000',
       '2018-06-11T00:00:00.000000000', '2018-09-21T00:00:00.000000000',
       '2018-12-15T00:00:00.000000000', '2018-11-02T00:00:00.000000000',
       '2018-10-18T00:00:00.000000000', '2018-08-22T00:00:00.000000000',
       '2018-09-15T00:00:00.000000000', '2018-08-15T00:00:00.000000000',
       '2018-05-28T00:00:00.000000000', '2018-07-05T00:00:00.000000000',
       '2018-09-29T00:00:00.000000000', '2018-12-11T00:00:00.000000000',
       '2018-07-27T00:00:00.000000000', '2018-08-11T00:00:00.000000000',
       '2018-08-02T00:00:00.000000000', '2018-06-15T00:00:00.000000000',
       '2018-12-04T00:00:00.000000000', '2018-08-20T00:00:00.000000000',
       '2018-09-25T00:00:00.000000000', '2018-07-21T00:00:00.000000000',
       '2018-08-27T00:00:00.000000000', '2018-08-25T00:00:00.000000000',
       '2018-12-12T00:00:00.000000000', '2018-07-19T00:00:00.000000000',
       '2018-11-14T00:00:00.000000000', '2018-12-26

In [14]:
#создадим новый столбец, выделим месяц
df_calls['year_month'] = df_calls['call_date'].dt.to_period('M') #dt здесь библиотека datetime

#количество сделанных звонков и израсходованных минут разговора по месяцам
#в таблице звонков столбец user_id указывает на конкретного человека, в столбце id можно посчтитать,
#сколько звонков сделал этот человек (идентификатор звонка), а в столбце duration можно узнать, сколько времени он потратил на разговоры.
df_users_month = df_calls.groupby(['user_id','year_month']).agg(count_call_user_month=('id','count'),
                                               sum_duration_user_month=('duration','sum')).reset_index()

In [15]:
#попробуем решить эту же задачу с помощью сводной таблицы
pd.pivot_table(data=df_calls,
               index='user_id',
               columns='year_month',
               values=['id','duration'],
               aggfunc={'id':'count', 'duration':'sum'})

Unnamed: 0_level_0,duration,duration,duration,duration,duration,duration,duration,duration,duration,duration,...,id,id,id,id,id,id,id,id,id,id
year_month,2018-01,2018-02,2018-03,2018-04,2018-05,2018-06,2018-07,2018-08,2018-09,2018-10,...,2018-03,2018-04,2018-05,2018-06,2018-07,2018-08,2018-09,2018-10,2018-11,2018-12
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1000,,,,,159.0,172.0,340.0,408.0,466.0,350.0,...,,,22.0,43.0,47.0,52.0,58.0,57.0,43.0,46.0
1001,,,,,,,,,,,...,,,,,,,,,59.0,63.0
1002,,,,,,117.0,214.0,289.0,206.0,212.0,...,,,,15.0,26.0,42.0,36.0,33.0,32.0,33.0
1003,,,,,,,,380.0,961.0,855.0,...,,,,,,55.0,134.0,108.0,115.0,108.0
1004,,,,,35.0,171.0,135.0,137.0,117.0,145.0,...,,,9.0,31.0,22.0,19.0,26.0,29.0,19.0,21.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1495,,,,,,,,92.0,813.0,1030.0,...,,,,,,17.0,112.0,152.0,129.0,155.0
1496,48.0,594.0,557.0,521.0,484.0,555.0,582.0,527.0,486.0,450.0,...,79.0,67.0,63.0,74.0,73.0,88.0,68.0,72.0,80.0,80.0
1497,,,,,,,,,,490.0,...,,,,,,,,66.0,64.0,71.0
1498,,,,,,,175.0,400.0,471.0,247.0,...,,,,,23.0,57.0,59.0,41.0,,


Смотрим нашу сводную таблицу и группировку, которую сделали перед ней - данные совпадают. Эти структуры полностью идентичные.

Теперь мы хотим, чтобы вместо id_user были ФИО, а они хранятся в другой таблице. Нам нужно теперь их объединить.

In [16]:
#Посмотрим наши 2 таблицы, которые нужно совместить.
df_users.head(2)

Unnamed: 0,user_id,age,churn_date,city,first_name,last_name,reg_date,tariff
0,1000,52,,Краснодар,Рафаил,Верещагин,2018-05-25,ultra
1,1001,41,,Москва,Иван,Ежов,2018-11-01,smart


In [17]:
df_users_month.head(2)

Unnamed: 0,user_id,year_month,count_call_user_month,sum_duration_user_month
0,1000,2018-05,22,159.0
1,1000,2018-06,43,172.0


In [18]:
#Количество звонков в месяц
df_calls_month = df_users[['user_id', 'first_name','last_name', 'city', 'tariff']]\
                .merge(df_users_month[['user_id','year_month','count_call_user_month','sum_duration_user_month']],
                       on='user_id',
                       how='inner')#.drop(columns=['user_id']) #если хотим не показывать этот столбец в таблице

df_calls_month

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0
...,...,...,...,...,...,...,...,...
3169,1498,Всеволод,Акимчин,Владикавказ,smart,2018-10,41,247.0
3170,1499,Гектор,Корнилов,Пермь,smart,2018-09,9,70.0
3171,1499,Гектор,Корнилов,Пермь,smart,2018-10,68,449.0
3172,1499,Гектор,Корнилов,Пермь,smart,2018-11,74,612.0


количество сделанных звонков и израсходованных минут разговора по месяцам;

количество отправленных сообщений по месяцам;

объем израсходованного интернет-трафика по месяцам;

помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков, сообщений и интернет-трафика;

остаток умножьте на значение из тарифного плана;

прибавьте абонентскую плату, соответствующую тарифному плану).

In [19]:
#количество отправленных сообщений по месяцам;
#Берем год и месяц, потому что год может быть разный
df_messages
df_messages['year_month'] = df_messages['message_date'].dt.to_period('M')
df_messages

Unnamed: 0,id,message_date,user_id,year_month
0,1000_0,2018-06-27,1000,2018-06
1,1000_1,2018-10-08,1000,2018-10
2,1000_2,2018-08-04,1000,2018-08
3,1000_3,2018-06-16,1000,2018-06
4,1000_4,2018-12-05,1000,2018-12
...,...,...,...,...
123031,1499_179,2018-12-12,1499,2018-12
123032,1499_180,2018-09-28,1499,2018-09
123033,1499_181,2018-09-27,1499,2018-09
123034,1499_182,2018-11-15,1499,2018-11


In [20]:
#делаем группировку
df_messages_gr = df_messages.groupby(['user_id','year_month'])\
                    .agg(count_messages=('id', 'count'))\
                    .reset_index()

In [21]:
#дальше присоединяем таблицы
df_message_month = df_messages_gr.merge(df_users[['user_id','first_name','last_name','tariff']],
       on='user_id')
df_message_month

Unnamed: 0,user_id,year_month,count_messages,first_name,last_name,tariff
0,1000,2018-05,22,Рафаил,Верещагин,ultra
1,1000,2018-06,60,Рафаил,Верещагин,ultra
2,1000,2018-07,75,Рафаил,Верещагин,ultra
3,1000,2018-08,81,Рафаил,Верещагин,ultra
4,1000,2018-09,57,Рафаил,Верещагин,ultra
...,...,...,...,...,...,...
2712,1498,2018-10,42,Всеволод,Акимчин,smart
2713,1499,2018-09,11,Гектор,Корнилов,smart
2714,1499,2018-10,48,Гектор,Корнилов,smart
2715,1499,2018-11,59,Гектор,Корнилов,smart


Какие дата фреймы мы уже построили по задачам -

df_calls_month
df_message_month

In [22]:
#Следующая задача
#объем израсходованного интернет-трафика по месяцам;

df_internet
df_internet['year_month'] = df_internet['session_date'].dt.to_period('M')
df_internet.head(2)

Unnamed: 0,id,mb_used,session_date,user_id,year_month
0,1000_0,112.95,2018-11-25,1000,2018-11
1,1000_1,1052.81,2018-09-07,1000,2018-09


In [23]:
df_internet_month = df_internet.groupby(['user_id','year_month'])\
                    .agg(volume_traffic=('mb_used', 'sum'))\
                    .reset_index()\
                    .merge(df_users[['user_id','first_name','last_name','tariff']],
                           on='user_id')
df_internet_month

Unnamed: 0,user_id,year_month,volume_traffic,first_name,last_name,tariff
0,1000,2018-05,2253.49,Рафаил,Верещагин,ultra
1,1000,2018-06,23233.77,Рафаил,Верещагин,ultra
2,1000,2018-07,14003.64,Рафаил,Верещагин,ultra
3,1000,2018-08,14055.93,Рафаил,Верещагин,ultra
4,1000,2018-09,14568.91,Рафаил,Верещагин,ultra
...,...,...,...,...,...,...
3198,1498,2018-10,20579.36,Всеволод,Акимчин,smart
3199,1499,2018-09,1845.75,Гектор,Корнилов,smart
3200,1499,2018-10,17788.51,Гектор,Корнилов,smart
3201,1499,2018-11,17963.31,Гектор,Корнилов,smart


In [27]:
#Следующая задача
#помесячную выручку с каждого пользователя
#(вычтите бесплатный лимит из суммарного количества звонков,
#сообщений и интернет-трафика;
#остаток умножьте на значение из тарифного плана;
#прибавьте абонентскую плату, соответствующую тарифному плану).

In [28]:
df_tariffs

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name
0,50,15360,500,550,200,3,3,smart
1,1000,30720,3000,1950,150,1,1,ultra


In [29]:
#Вариант 1 - в каждом дф из столбца с объемом услуги вычесть бесплатный объем
#Результат умножить на стоимость и плюс абонентская плата.

#Вариант 2 - сделать отдельный дф - с помощью внешнего объединения
# объединить все таблицы и там всё посчитать по каждому пользователю,
#в зависимости от его тарифного плана (в юсерах). Вернуться ко всем созданным нами
#новым дф и создать везде где есть юзер столбец тариф.

#Написать функцию, которая будет считать общую сумму.

#помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков,
#сообщений и интернет-трафика; остаток умножьте на значение из тарифного плана; прибавьте абонентскую плату,
#соответствующую тарифному плану).

#df_calls_month
#df_message_month
#df_internet_month
#df_tariffs

In [30]:
df_calls_month.shape

(3174, 8)

In [31]:
df_message_month.shape

(2717, 6)

In [32]:
df_internet_month.shape

(3203, 6)

In [None]:
df_tariffs.shape

Cоединяем таблицы

In [34]:
###Можно удалить
#df_all_tables2 = df_calls_month.merge(df_message_month[['user_id','year_month','count_messages']],
#                                     on=['user_id','year_month'])
#df_all_tables2.head(2)

In [35]:
###Можно удалить
#df_all_tables1 = (df_all_tables2.merge(df_internet_month[['user_id','year_month','volume_traffic']],
#                                     on=['user_id','year_month']))
#df_all_tables1.head(2)

In [36]:
###Можно удалить
#df_all_tables = (df_all_tables1.merge(df_tariffs[['messages_included','mb_per_month_included','minutes_included',
#                                                  'rub_monthly_fee','rub_per_gb','rub_per_message', 'rub_per_minute','tariff_name']],
#                                                  left_on='tariff',
#                                                  right_on='tariff_name')).drop(columns=['tariff'])
#df_all_tables.head(2)

In [37]:
df_tariffs

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name
0,50,15360,500,550,200,3,3,smart
1,1000,30720,3000,1950,150,1,1,ultra


In [24]:
df_calls_month

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0
...,...,...,...,...,...,...,...,...
3169,1498,Всеволод,Акимчин,Владикавказ,smart,2018-10,41,247.0
3170,1499,Гектор,Корнилов,Пермь,smart,2018-09,9,70.0
3171,1499,Гектор,Корнилов,Пермь,smart,2018-10,68,449.0
3172,1499,Гектор,Корнилов,Пермь,smart,2018-11,74,612.0


In [None]:
#df_calls_sms = df_calls_month.merge(df_message_month[['user_id','year_month','count_messages']],
#                                      how='inner',
#                                      on=['user_id','year_month'])
#df_calls_sms

In [31]:
df_calls_month

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0
...,...,...,...,...,...,...,...,...
3169,1498,Всеволод,Акимчин,Владикавказ,smart,2018-10,41,247.0
3170,1499,Гектор,Корнилов,Пермь,smart,2018-09,9,70.0
3171,1499,Гектор,Корнилов,Пермь,smart,2018-10,68,449.0
3172,1499,Гектор,Корнилов,Пермь,smart,2018-11,74,612.0


In [32]:
df_message_month

Unnamed: 0,user_id,year_month,count_messages,first_name,last_name,tariff
0,1000,2018-05,22,Рафаил,Верещагин,ultra
1,1000,2018-06,60,Рафаил,Верещагин,ultra
2,1000,2018-07,75,Рафаил,Верещагин,ultra
3,1000,2018-08,81,Рафаил,Верещагин,ultra
4,1000,2018-09,57,Рафаил,Верещагин,ultra
...,...,...,...,...,...,...
2712,1498,2018-10,42,Всеволод,Акимчин,smart
2713,1499,2018-09,11,Гектор,Корнилов,smart
2714,1499,2018-10,48,Гектор,Корнилов,smart
2715,1499,2018-11,59,Гектор,Корнилов,smart


In [34]:
#джоин звонки и смс по аутер по юзер айди и ер манс, 3214 строк

df_calls_sms = df_calls_month.merge(df_message_month[['user_id','year_month','count_messages']],
                                      how='left',
                                      on=['user_id','year_month'])
df_calls_sms

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month,count_messages
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0,22.0
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0,60.0
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0,75.0
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0,81.0
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0,57.0
...,...,...,...,...,...,...,...,...,...
3169,1498,Всеволод,Акимчин,Владикавказ,smart,2018-10,41,247.0,42.0
3170,1499,Гектор,Корнилов,Пермь,smart,2018-09,9,70.0,11.0
3171,1499,Гектор,Корнилов,Пермь,smart,2018-10,68,449.0,48.0
3172,1499,Гектор,Корнилов,Пермь,smart,2018-11,74,612.0,59.0


In [None]:
внутренний джой при присоединении тарифа (или левый) из юзерс

In [None]:
#def month_calc(name_df):
#    calls = name_df['sum_duration_user_month']
#    messages = name_df['count_messages']
#    internet = name_df['volume_traffic']
#    tariff = name_df['tariff']
#    # достанем лимиты по тарифам на звонки, смс и интернет
#    minutes_lim = df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'minutes_included'].iloc[0]
#    messages_lim = df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'messages_included'].iloc[0]
#    internet_lim = df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'mb_per_month_included'].iloc[0]
    # переплата по звонкам
#    call_overlimit = max(calls - minutes_lim, 0)
#    call_overpay = call_overlimit * df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'rub_per_minute'].iloc[0]
# # переплата по сообщениям
#    messages_overlimit = max(messages - messages_lim, 0)
#    messages_overpay = messages_overlimit * df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'rub_per_message'].iloc[0]
    # # переплата за трафик интернета
#    internet_overlimit = max(internet - internet_lim, 0)
#    internet_overpay = np.ceil(internet_overlimit/1024)*df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'rub_per_gb'].iloc[0]
#    return (call_overpay + messages_overpay + internet_overpay+\
#           df_tariffs.loc[df_tariffs['tariff_name'] == tariff, 'rub_monthly_fee'].iloc[0])
#    df['monthly_profit_each_user'].sum()
#    df['monthly_profit_each_user'] = df.apply(month_calc, axis=1)

In [35]:
df_all_tables = (df_calls_month.merge(df_message_month[['user_id','year_month','count_messages']],
                                      how='left',
                                      on=['user_id','year_month'])\
                            .merge(df_internet_month[['user_id','year_month','volume_traffic']],
                                      how='left',
                                      on=['user_id','year_month']))\
                            .merge(df_tariffs[['messages_included','mb_per_month_included','minutes_included',
                                               'rub_monthly_fee','rub_per_gb','rub_per_message', 'rub_per_minute','tariff_name']],
                                      how='left',
                                      left_on='tariff',
                                      right_on='tariff_name').fillna(0) #.drop(columns=['tariff']

df_all_tables.shape
df_all_tables

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month,count_messages,volume_traffic,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0,22.0,2253.49,1000,30720,3000,1950,150,1,1,ultra
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0,60.0,23233.77,1000,30720,3000,1950,150,1,1,ultra
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0,75.0,14003.64,1000,30720,3000,1950,150,1,1,ultra
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0,81.0,14055.93,1000,30720,3000,1950,150,1,1,ultra
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0,57.0,14568.91,1000,30720,3000,1950,150,1,1,ultra
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3169,1498,Всеволод,Акимчин,Владикавказ,smart,2018-10,41,247.0,42.0,20579.36,50,15360,500,550,200,3,3,smart
3170,1499,Гектор,Корнилов,Пермь,smart,2018-09,9,70.0,11.0,1845.75,50,15360,500,550,200,3,3,smart
3171,1499,Гектор,Корнилов,Пермь,smart,2018-10,68,449.0,48.0,17788.51,50,15360,500,550,200,3,3,smart
3172,1499,Гектор,Корнилов,Пермь,smart,2018-11,74,612.0,59.0,17963.31,50,15360,500,550,200,3,3,smart


Посчитайте для каждого пользователя:

*   помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков, сообщений и интернет-трафика; остаток умножьте на значение из тарифного плана; прибавьте абонентскую плату, соответствующую тарифному плану).



In [39]:
df_all_tables.columns

Index(['user_id', 'first_name', 'last_name', 'city', 'tariff', 'year_month',
       'count_call_user_month', 'sum_duration_user_month', 'count_messages',
       'volume_traffic', 'messages_included', 'mb_per_month_included',
       'minutes_included', 'rub_monthly_fee', 'rub_per_gb', 'rub_per_message',
       'rub_per_minute', 'tariff_name'],
      dtype='object')

In [63]:
df_all_tables = df_all_tables.astype({'minutes_included':'float'})

In [41]:
#def viruchka(ostatok : pd.Series, plata : pd.Series):
#
#  if ostatok < 0 :
#    abs(ostatok) * plata
#    return ostatok
#  return 0
df_all_tables['sum_duration_user_month'].apply(np.ceil)

In [36]:
df_all_tables['ostatok_minut'] = (df_all_tables['minutes_included'] - (df_all_tables['sum_duration_user_month'].apply(np.ceil)))
df_all_tables['ostatok_sms'] = (df_all_tables['messages_included'] - df_all_tables['count_messages'])
df_all_tables['ostatok_internet'] = ((df_all_tables['mb_per_month_included'] - (df_all_tables['volume_traffic'].apply(np.ceil)))/1024)
df_all_tables.head(5)

Unnamed: 0,user_id,first_name,last_name,city,tariff,year_month,count_call_user_month,sum_duration_user_month,count_messages,volume_traffic,...,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name,ostatok_minut,ostatok_sms,ostatok_internet
0,1000,Рафаил,Верещагин,Краснодар,ultra,2018-05,22,159.0,22.0,2253.49,...,30720,3000,1950,150,1,1,ultra,2841.0,978.0,27.798828
1,1000,Рафаил,Верещагин,Краснодар,ultra,2018-06,43,172.0,60.0,23233.77,...,30720,3000,1950,150,1,1,ultra,2828.0,940.0,7.310547
2,1000,Рафаил,Верещагин,Краснодар,ultra,2018-07,47,340.0,75.0,14003.64,...,30720,3000,1950,150,1,1,ultra,2660.0,925.0,16.324219
3,1000,Рафаил,Верещагин,Краснодар,ultra,2018-08,52,408.0,81.0,14055.93,...,30720,3000,1950,150,1,1,ultra,2592.0,919.0,16.273438
4,1000,Рафаил,Верещагин,Краснодар,ultra,2018-09,58,466.0,57.0,14568.91,...,30720,3000,1950,150,1,1,ultra,2534.0,943.0,15.772461


In [43]:
df_all_tables.columns

Index(['user_id', 'first_name', 'last_name', 'city', 'tariff', 'year_month',
       'count_call_user_month', 'sum_duration_user_month', 'count_messages',
       'volume_traffic', 'messages_included', 'mb_per_month_included',
       'minutes_included', 'rub_monthly_fee', 'rub_per_gb', 'rub_per_message',
       'rub_per_minute', 'tariff_name', 'ostatok_minut', 'ostatok_sms',
       'ostatok_internet'],
      dtype='object')

In [37]:
df_all_tables['oplata_dop_min'] = np.where(df_all_tables['ostatok_minut']<0,abs((df_all_tables['ostatok_minut']<0) * df_all_tables['rub_per_minute']), 0)

df_all_tables['oplata_dop_min'].sum()

2262

In [38]:
df_all_tables['oplata_dop_sms'] = np.where(df_all_tables['ostatok_sms']<0,\
                                           abs(df_all_tables['ostatok_sms']<0)
                                            * df_all_tables['rub_per_message'],
                                            0)
df_all_tables['oplata_dop_sms'].sum()

1692

In [39]:
df_all_tables['oplata_dop_internet'] = np.where(df_all_tables['ostatok_internet']<0, \
                                                abs(df_all_tables['ostatok_internet']<0)
                                                * df_all_tables['rub_per_gb'], 0)
df_all_tables['oplata_dop_internet'].sum()

279200

In [40]:
#Общая сумма выручки

(df_all_tables['oplata_dop_min'] + df_all_tables['oplata_dop_sms']\
 + df_all_tables['oplata_dop_internet'] + df_all_tables['rub_monthly_fee']).sum()

3360254