# Проектная работа "Статистический анализ данных"

### Описание проекта
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.


Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

###Описание тарифов

**Тариф «Смарт»**

1.   Ежемесячная плата: 550 рублей
2.   Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика
3.   Стоимость услуг сверх тарифного пакета:
        - минута разговора: 3 рубля
        - сообщение: 3 рубля
        - 1 Гб интернет-трафика: 200 рублей

**Тариф «Ультра»**

1.   Ежемесячная плата: 1950 рублей
2.   Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика
3.   Стоимость услуг сверх тарифного пакета:
        - минута разговора: 1 рубль
        - сообщение: 1 рубль
        - 1 Гб интернет-трафика: 150 рублей

**Примечание:**

«Мегалайн» всегда округляет секунды до минут, а мегабайты — до гигабайт. Каждый звонок округляется отдельно: даже если он длился всего 1 секунду, будет засчитан как 1 минута.


Для веб-трафика отдельные сессии не считаются. Вместо этого общая сумма за месяц округляется в бо́льшую сторону. Если абонент использует 1025 Мб в этом месяце, с него возьмут плату за 2 Гб.

---
### Шаг 1. Знакомство с данными

Данные: 

1. 
/datasets/calls.csv

https://code.s3.yandex.net/datasets/calls.csv


2. 
/datasets/internet.csv

https://code.s3.yandex.net/datasets/internet.csv


3. 
/datasets/messages.csv

https://code.s3.yandex.net/datasets/messages.csv


4. 
/datasets/tariffs.csv

https://code.s3.yandex.net/datasets/tariffs.csv



5.
/datasets/users.csv

https://code.s3.yandex.net/datasets/users.csv



In [3]:
from textwrap import dedent
from IPython import get_ipython

In [5]:
import pandas as pd

## 1. Calls

# Подключаем источник данных
#df_calls = pd.read_csv('/datasets/calls.csv')
df_calls = pd.read_csv('https://code.s3.yandex.net/datasets/calls.csv')

# Получаем информацию о данных
df_calls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202607 entries, 0 to 202606
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         202607 non-null  object 
 1   call_date  202607 non-null  object 
 2   duration   202607 non-null  float64
 3   user_id    202607 non-null  int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 6.2+ MB


In [6]:
# Размер таблицы
print(f"В таблице {df_calls.shape[1]} столбцов и {df_calls.shape[0]} строк.")

В таблице 4 столбцов и 202607 строк.


In [7]:
# Выведем пять строк таблицы
df_calls.head()

Unnamed: 0,id,call_date,duration,user_id
0,1000_0,2018-07-25,0.0,1000
1,1000_1,2018-08-17,0.0,1000
2,1000_2,2018-06-11,2.85,1000
3,1000_3,2018-09-21,13.8,1000
4,1000_4,2018-12-15,5.18,1000


**Описание столбцов**

В исходных данных даны следующие параметры столбцов:

| Имя столбца | Описание данных в столбце | Размерность | Тип данных |
| --- | --- | --- | --- |
| `id` | уникальный номер звонка | - | string |
| `call_date` | дата звонка | - | date |
| `duration` | длительность звонка в минутах | мин. | integer |
| `user_id` | уникальный идентификатор пользователя | - | string |

In [25]:
df_calls.describe()

Unnamed: 0,duration,user_id
count,202607.0,202607.0
mean,6.755887,1253.940619
std,5.843365,144.722751
min,0.0,1000.0
25%,1.3,1126.0
50%,6.0,1260.0
75%,10.7,1379.0
max,38.0,1499.0


In [8]:
## 2. Internet

# Подключаем источник данных
#df_internet = pd.read_csv('/datasets/internet.csv')
df_internet = pd.read_csv('https://code.s3.yandex.net/datasets/internet.csv')

# Получаем информацию о данных
df_internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149396 entries, 0 to 149395
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   Unnamed: 0    149396 non-null  int64  
 1   id            149396 non-null  object 
 2   mb_used       149396 non-null  float64
 3   session_date  149396 non-null  object 
 4   user_id       149396 non-null  int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 5.7+ MB


In [9]:
# Размер таблицы
print(f"В таблице {df_internet.shape[1]} столбцов и {df_internet.shape[0]} строк.")

В таблице 5 столбцов и 149396 строк.


In [11]:
# Выведем пять строк таблицы
df_internet.head()

Unnamed: 0.1,Unnamed: 0,id,mb_used,session_date,user_id
0,0,1000_0,112.95,2018-11-25,1000
1,1,1000_1,1052.81,2018-09-07,1000
2,2,1000_2,1197.26,2018-06-25,1000
3,3,1000_3,550.27,2018-08-22,1000
4,4,1000_4,302.56,2018-09-24,1000


**Описание столбцов**

В исходных данных даны следующие параметры столбцов:

| Имя столбца | Описание данных в столбце | Размерность | Тип данных |
| --- | --- | --- | --- |
| `id` | уникальный номер сессии | - | string |
| `mb_used` | объём потраченного за сессию интернет-трафика | Мб | integer |
| `session_date` | длительность звонка в минутах | - | date |
| `user_id` | уникальный идентификатор пользователя | - | string |

In [12]:
## 3. Messages

# Подключаем источник данных
#df_messages = pd.read_csv('/datasets/messages.csv')
df_messages = pd.read_csv('https://code.s3.yandex.net/datasets/messages.csv')

# Получаем информацию о данных
df_messages.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123036 entries, 0 to 123035
Data columns (total 3 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   id            123036 non-null  object
 1   message_date  123036 non-null  object
 2   user_id       123036 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 2.8+ MB


In [13]:
# Размер таблицы
print(f"В таблице {df_messages.shape[1]} столбцов и {df_messages.shape[0]} строк.")

В таблице 3 столбцов и 123036 строк.


In [14]:
# Выведем пять строк таблицы
df_messages.head()

Unnamed: 0,id,message_date,user_id
0,1000_0,2018-06-27,1000
1,1000_1,2018-10-08,1000
2,1000_2,2018-08-04,1000
3,1000_3,2018-06-16,1000
4,1000_4,2018-12-05,1000


**Описание столбцов**

В исходных данных даны следующие параметры столбцов:

| Имя столбца | Описание данных в столбце | Размерность | Тип данных |
| --- | --- | --- | --- |
| `id` | уникальный номер сообщения | - | string |
| `message_date` | дата сообщения | - | date |
| `user_id` | уникальный идентификатор пользователя | - | string |

In [15]:
## 4. Tariffs

# Подключаем источник данных
#df_tariffs = pd.read_csv('/datasets/tariffs.csv')
df_tariffs = pd.read_csv('https://code.s3.yandex.net/datasets/tariffs.csv')

# Получаем информацию о данных
df_tariffs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   messages_included      2 non-null      int64 
 1   mb_per_month_included  2 non-null      int64 
 2   minutes_included       2 non-null      int64 
 3   rub_monthly_fee        2 non-null      int64 
 4   rub_per_gb             2 non-null      int64 
 5   rub_per_message        2 non-null      int64 
 6   rub_per_minute         2 non-null      int64 
 7   tariff_name            2 non-null      object
dtypes: int64(7), object(1)
memory usage: 256.0+ bytes


In [16]:
# Размер таблицы
print(f"В таблице {df_tariffs.shape[1]} столбцов и {df_tariffs.shape[0]} строк.")

В таблице 8 столбцов и 2 строк.


In [17]:
# Выведем пять строк таблицы
df_tariffs.head()

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,rub_monthly_fee,rub_per_gb,rub_per_message,rub_per_minute,tariff_name
0,50,15360,500,550,200,3,3,smart
1,1000,30720,3000,1950,150,1,1,ultra


**Описание столбцов**

В исходных данных даны следующие параметры столбцов:

| Имя столбца | Описание данных в столбце | Размерность | Тип данных |
| --- | --- | --- | --- |
| `tariff_name` | название тарифа | - | string |
| `rub_monthly_fee` | ежемесячная абонентская плата | руб. | integer |
| `minutes_included` | количество минут разговора в месяц, включённых в абонентскую плату | мин. | integer |
| `messages_included` |  количество сообщений в месяц, включённых в абонентскую плату | шт. | integer |
| `mb_per_month_included` | объём интернет-трафика, включённого в абонентскую плату | Мб | integer |
| `rub_per_minute` | стоимость минуты разговора сверх тарифного пакета | руб. | integer |
| `rub_per_message` | стоимость отправки сообщения сверх тарифного пакета | руб. | integer |
| `rub_per_gb` | стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 Гб = 1024 Мб) | руб. | integer |

In [18]:
## 5. Users

# Подключаем источник данных
#df_users = pd.read_csv('/datasets/users.csv')
df_users = pd.read_csv('https://code.s3.yandex.net/datasets/users.csv')

# Получаем информацию о данных
df_users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   age         500 non-null    int64 
 2   churn_date  38 non-null     object
 3   city        500 non-null    object
 4   first_name  500 non-null    object
 5   last_name   500 non-null    object
 6   reg_date    500 non-null    object
 7   tariff      500 non-null    object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB


In [19]:
# Размер таблицы
print(f"В таблице {df_users.shape[1]} столбцов и {df_users.shape[0]} строк.")

В таблице 8 столбцов и 500 строк.


In [20]:
# Выведем пять строк таблицы
df_users.head()

Unnamed: 0,user_id,age,churn_date,city,first_name,last_name,reg_date,tariff
0,1000,52,,Краснодар,Рафаил,Верещагин,2018-05-25,ultra
1,1001,41,,Москва,Иван,Ежов,2018-11-01,smart
2,1002,59,,Стерлитамак,Евгений,Абрамович,2018-06-17,smart
3,1003,23,,Москва,Белла,Белякова,2018-08-17,ultra
4,1004,68,,Новокузнецк,Татьяна,Авдеенко,2018-05-14,ultra


**Описание столбцов**

В исходных данных даны следующие параметры столбцов:

| Имя столбца | Описание данных в столбце | Размерность | Тип данных |
| --- | --- | --- | --- |
| `id` | уникальный идентификатор пользователя | - | integer |
| `first_name` | имя пользователя | - | string |
| `last_name` | фамилия пользователя | - | string |
| `age` | возраст пользователя | лет | integer |
| `reg_date` | дата подключения тарифа | - | date |
| `churn_date` | дата прекращения пользования тарифом | - | date |
| `city` | город проживания пользователя | - | string |
| `tariff` | название тарифного плана | - | string |

---

### Шаг 2. Подготовьте данные
  
- Приведите данные к нужным типам;
- Найдите и исправьте ошибки в данных, если они есть.



Поясните, какие ошибки вы нашли и как их исправили. В данных вы найдёте звонки с нулевой продолжительностью. Это не ошибка: нулями обозначены пропущенные звонки, поэтому их не нужно удалять.
Посчитайте для каждого пользователя:

- количество сделанных звонков и израсходованных минут разговора по месяцам;
- количество отправленных сообщений по месяцам;
- объем израсходованного интернет-трафика по месяцам;
- помесячную выручку с каждого пользователя (вычтите бесплатный лимит из суммарного количества звонков, сообщений и интернет-трафика; остаток умножьте на значение из тарифного плана; прибавьте абонентскую плату, соответствующую тарифному плану).

In [24]:
#
df_merged = df_users.merge(df_tariffs, left_on=['tariff'], right_on=['tariff_name'],  suffixes='_t')

print(df_merged.head())

   user_id  age churn_date         city first_name  last_name    reg_date  \
0     1000   52        NaN    Краснодар     Рафаил  Верещагин  2018-05-25   
1     1003   23        NaN       Москва      Белла   Белякова  2018-08-17   
2     1004   68        NaN  Новокузнецк    Татьяна   Авдеенко  2018-05-14   
3     1013   36        NaN      Иваново      Борис  Андреенко  2018-11-14   
4     1016   58        NaN         Омск     Марица   Сазонова  2018-11-21   

  tariff  messages_included  mb_per_month_included  minutes_included  \
0  ultra               1000                  30720              3000   
1  ultra               1000                  30720              3000   
2  ultra               1000                  30720              3000   
3  ultra               1000                  30720              3000   
4  ultra               1000                  30720              3000   

   rub_monthly_fee  rub_per_gb  rub_per_message  rub_per_minute tariff_name  
0             1950        

  validate=validate,


**Новые признаки. 40 минут:**


3.1 Поделю `last_price` на `total_area` и посчитаю квадртный метр (`price_per_area`) 5 минут

3.2 Извлеку из поля `first_day_exposition` день недели (`first_exposition_day_of_week`), месяц (`first_exposition_month`) и год публикации объявления (`first_exposition_year`) 10 минут

3.3 Напишу функцию `get_floor_type`, которая по floor возвращает тип: первый (first), последний (last), другой (other). И применю её к столбцу `floor`, результат запишу в столбец `floor_type`: 10 минут

3.4 Посчитаю соотношение жилой и общей площади. Для этого поделю `living_area` на `total_area`. Результат сохраню в `living_total_ratio`. 5 минут

Посчитаю отношение площади кухни к общей. Для этого поделю `kitchen_area` на `total_area`. Результат сохраню в `living_total_ratio`. 5 минут

---

### Шаг 4. Проведите исследовательский анализ данных.

#### 4.1 Изучите следующие параметры: площадь, цена, число комнат, высота потолков. Постройте гистограммы для каждого параметра.



- Построю гистограмму для `total_area`, `last_price`, `rooms` и `ceiling_height` с помощью матрицы диаграмм рассеяния. А так же построю ящик с усами. 15 минут
- Опишу в промежуточном выводе, что интересного заметил 15 минут


#### 4.2 Изучите время продажи квартиры. Постройте гистограмму. Посчитайте среднее и медиану. Опишите, сколько обычно занимает продажа. Когда можно считать, что продажи прошли очень быстро, а когда необычно долго?



- Для поля `days_exposition` построю гистограмму и ящик с усами. А также посчитаю выборочную медиану и среднее. 10 минут
- Отвечу в выводе на вопросы 15 минут



#### 4.3 Уберите редкие и выбивающиеся значения. Опишите, какие особенности обнаружили.


- Опишу все подозрения, которые возникли за это время 20 минут
- Удалю строки с аномальными значениями 10 минут

#### 4.4 Какие факторы больше всего влияют на стоимость квартиры? Изучите, зависит ли цена от площади, числа комнат, удалённости от центра. Изучите зависимость цены от того, на каком этаже расположена квартира: первом, последнем или другом. Также изучите зависимость от даты размещения: дня недели, месяца и года.


- Построю диаграмму рассеяния для пар (`last_price`, `total_area`), (`last_price`, `rooms`), (`last_price`, `cityCenters_nearest`), (`last_price`, `first_exposition_day_of_week`), (`last_price`, `first_exposition_month`), (`last_price`, `first_exposition_year`). А также пострю ящик с усами для `last_price` по всем возможным `floor_type`. 30 минут
- Опишу в выводе сначала то, где есть зависимость от цены. А далее отвечу на вопрос, какой фактор влияет сильнее. 15 минут

#### 4.5 Выберите 10 населённых пунктов с наибольшим числом объявлений. Посчитайте среднюю цену квадратного метра в этих населённых пунктах. Выделите среди них населённые пункты с самой высокой и низкой стоимостью жилья. Эти данные можно найти по имени в столбце `locality_name`.


- Через pivot_table выберу 10 населенные пунктов с наибольшим числом объявлений. Далее через filter и pivot_table рассчитаю `avg_price_per_area` по полю `price_per_area`. 15 минут
- Опишу в выводе какие из населенных пунктов имеют самую высокую и самую низкую стоимость жилья. 10 минут

#### 4.6 Изучите предложения квартир: для каждой квартиры есть информация о расстоянии до центра. Выделите квартиры в Санкт-Петербурге `locality_name`. Ваша задача — выяснить, какая область входит в центр. Создайте столбец с расстоянием до центра в километрах: округлите до целых значений. После этого посчитайте среднюю цену для каждого километра. Постройте график: он должен показывать, как цена зависит от удалённости от центра. Определите границу, где график сильно меняется, — это и будет центральная зона.


- Выделю данные для Питера в переменную `df_spb`. 5 минут
- С помощью pivot_table посчитаю среднюю `price_per_area` и среднюю `last_price` с группировкой по `center_distance_km`. Назову их `avg_price_per_area` и `avg_last_price`. 10 минут
- Построю графики зависимостей `avg_price_per_area` и `avg_last_price` от center_distance_km 10 минут
- Опишу в выводе где проходит граница. Объясню это резким увеличением в цене. 10 минут

#### 4.7 Выделите сегмент квартир в центре. Проанализируйте эту территорию и изучите следующие параметры: площадь, цена, число комнат, высота потолков. Также выделите факторы, которые влияют на стоимость квартиры (число комнат, этаж, удалённость от центра, дата размещения объявления). Сделайте выводы. Отличаются ли они от общих выводов по всему городу?


- Из переменной `df_spb` выделю только центральные объявления в переменную `df_spb_center`. 5 минут
- Построю гистограмму по `df_spb_center` для `total_area`, `last_price`, `rooms` и `ceiling_height` с помощью матрицы диаграмм рассеяния. А так же построю ящик с усами. 15 минут
- Построю по `df_spb_center` диаграмму рассеяния для пар (`last_price`, `total_area`), (`last_price`, `rooms`), (`last_price`, `cityCenters_nearest`), (`last_price`, `first_exposition_day_of_week`), (`last_price`, `first_exposition_month`), (`last_price`, `first_exposition_year`). А также пострю ящик с усами для `last_price` по всем возможным `floor_type`. 30 минут
- В выводе опишу сначала какие факторы влияют на цену. 10 минут
- А проведу сравнением с значениями по всему датасету 30 минут

---

### Шаг 5. Общий вывод

- Напишу общий вывод. Расскажу сперва про аномалии. А далее про зависимости, которые были замечены. И что с ними произошло, когда мы рассмотрели срез центральных объявлений. 1 час

---

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл
- [ ]  файлы изучены (выведены первые строки, метод info())
- [ ]  определены пропущенные значения
- [ ]  заполнены пропущенные значения
- [ ]  есть пояснение, какие пропущенные значения обнаружены
- [ ]  изменены типы данных
- [ ]  есть пояснение, в каких столбцах изменены типы и почему
- [ ]  посчитано и добавлено в таблицу: цена квадратного метра
- [ ]  посчитано и добавлено в таблицу: день недели, месяц и год публикации объявления
- [ ]  посчитано и добавлено в таблицу: этаж квартиры; варианты — первый, последний, другой
- [ ]  посчитано и добавлено в таблицу: соотношение жилой и общей площади, а также отношение площади кухни к общей
- [ ]  изучены следующие параметры: площадь, цена, число комнат, высота потолков
- [ ]  построены гистограммы для каждого параметра
- [ ]  выполнено задание: "Изучите время продажи квартиры. Постройте гистограмму. Посчитайте среднее и медиану. Опишите, сколько обычно занимает продажа. Когда можно считать, что продажи прошли очень быстро, а когда необычно долго?"
- [ ]  выполнено задание: "Уберите редкие и выбивающиеся значения. Опишите, какие особенности обнаружили."
- [ ]  выполнено задание: "Какие факторы больше всего влияют на стоимость квартиры? Изучите, зависит ли цена от квадратного метра, числа комнат, этажа (первого или последнего), удалённости от центра. Также изучите зависимость от даты размещения: дня недели, месяца и года. "Выберите 10 населённых пунктов с наибольшим числом объявлений. Посчитайте среднюю цену квадратного метра в этих населённых пунктах. Выделите населённые пункты с самой высокой и низкой стоимостью жилья. Эти данные можно найти по имени в столбце '*locality_name'*. "
- [ ]  выполнено задание: "Изучите предложения квартир: для каждой квартиры есть информация о расстоянии до центра. Выделите квартиры в Санкт-Петербурге (*'locality_name'*). Ваша задача — выяснить, какая область входит в центр. Создайте столбец с расстоянием до центра в километрах: округлите до целых значений. После этого посчитайте среднюю цену для каждого километра. Постройте график: он должен показывать, как цена зависит от удалённости от центра. Определите границу, где график сильно меняется — это и будет центральная зона. "
- [ ]  выполнено задание: "Выделите сегмент квартир в центре. Проанализируйте эту территорию и изучите следующие параметры: площадь, цена, число комнат, высота потолков. Также выделите факторы, которые влияют на стоимость квартиры (число комнат, этаж, удалённость от центра, дата размещения объявления). Сделайте выводы. Отличаются ли они от общих выводов по всему городу?"
- [ ]  в каждом этапе есть выводы
- [ ]  есть общий вывод