## Постановка задачи

Как и любой бизнес, компания «Мегафон» хочет повысить удовлетворённость своих клиентов качеством услуг. Это важная задача для удержания пользователей — как давних, так и недавно привлечённых. Ведь затраты на маркетинг и продвижение не оправдаются, если клиент уйдёт из-за низкого качества связи. Однако в реальном мире ресурсы всегда ограничены, и в единицу времени технический отдел может решить конечное количество задач. <br>
Чтобы делать это наиболее эффективно, важно определить, какие технические показатели качества связи сильнее всего влияют на удовлетворённость клиентов, и в первую очередь направить ресурсы на работу с ними. Для этого «Мегафон» провёл опрос своих клиентов, предложив им оценить уровень удовлетворённости качеством связи. По каждому клиенту, прошедшему опрос, были собраны технические показатели. <br>
Подготовьте исследование для компании «Мегафон» и проанализируйте, как зависит (и зависит ли) оценка, которую ставит клиент в опросе, от технических показателей, которые были собраны. <br><br><br>

**Более подробно о проведённом опросе:**

В ходе опроса компания «Мегафон» предложила своим клиентам оценить уровень удовлетворённости качеством связи по десятибалльной шкале (где 10 — это «отлично», а 1 — «ужасно»). Если клиент оценивал качество связи на 9 или 10 баллов, опрос заканчивался. Если клиент ставил оценку ниже 9, задавался второй вопрос — о причинах неудовлетворённости качеством связи с предоставленными пронумерованными вариантами ответа. Ответ можно было дать в свободном формате или перечислить номера ответов через запятую. Ниже вы можете ознакомиться с инфографикой по структуре опроса.<br>

*Обратите, пожалуйста, внимание, что для работы вам даны реальные данные, что может повлечь необходимость в дополнительной их обработке.*

![](https://sun9-32.userapi.com/C6vN5pHQW7hlseIt0AtTN7qNDQbDnHXdt1P2NA/ILntXqa-RrA.jpg)

## Codebook

`megafon.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `user_id` — идентификатор абонента;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Q1` — ответ на первый вопрос;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Q2` — ответ на второй вопрос;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Total Traffic(MB)` — объем трафика передачи данных <sup>1 </sup>; <br>
&nbsp;&nbsp;&nbsp;&nbsp; `Downlink Throughput(Kbps)` — средняя скорость «к абоненту» <sup>2 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Uplink Throughput(Kbps)`— средняя скорость «от абонента» <sup>3 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Downlink TCP Retransmission Rate(%)` — частота переотправок пакетов «к абоненту» <sup>4 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Video Streaming Download Throughput(Kbps)` — скорость загрузки потокового видео <sup>5 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Video Streaming xKB Start Delay(ms)` — задержка старта воспроизведения видео <sup>6 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Web Page Download Throughput(Kbps)` — скорость загрузки web-страниц через браузер <sup>7 </sup>;<br>
&nbsp;&nbsp;&nbsp;&nbsp; `Web Average TCP RTT(ms)` — пинг при просмотре web-страниц<sup>8 </sup>.<br>


<sup>1 </sup> — Насколько активно абонент использует мобильный интернет.<br>
<sup>2 </sup> — Считается по всему трафику передачи данных.<br>
<sup>3 </sup> — Считается по всему трафику передачи данных.<br>
<sup>4 </sup> — Чем выше, тем хуже. Если в канале возникает ошибка, пакет переотправляется. Снижается полезная скорость.<br>
<sup>5 </sup> — Чем выше, тем лучше — меньше прерываний и лучше качество картинки.<br>
<sup>6 </sup> — Сколько времени пройдёт между нажатием на кнопку Play и началом воспроизведения видео. Чем меньше это время, тем быстрее начинается воспроизведение.<br>
<sup>7 </sup> — Чем выше, тем лучше.<br>
<sup>8 </sup> — Чем меньше, тем лучше — быстрее загружаются web-страницы.<br>

Первый технический показатель представлен как сумма за период в одну неделю перед участием в опросе. Остальные технические показатели отображают среднее значение по данному признаку за период в одну неделю перед участием в опросе.

# Подготовка данных

In [1]:
import pandas as pd
import numpy as np
import math
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import statsmodels.stats.api as stm

In [2]:
# загружаем датасет
df = pd.read_csv('megafon.csv')
df.head(5)

Unnamed: 0,user_id,Q1,Q2,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
0,1,5,,775.48846,360.13,86.56,3.93,1859.15,2309,1007.82,83
1,2,5,4,861.96324,3023.54,411.18,1.27,667.47,2080,255.36,425
2,3,1,4,261.1186,790.96,34.2,1.79,1079.6,6367,535.85,485
3,4,8,3,179.18564,2590.97,325.88,0.8,7053.81,3218,1221.02,51
4,5,2,"2, 3, 4",351.99208,731.61,223.54,1.15,4550.38,1767,2336.56,68


In [3]:
# Проверяем датасет на пропущенные значения.
df.isna().sum() 

user_id                                         0
Q1                                              2
Q2                                           1797
Total Traffic(MB)                               0
Downlink Throughput(Kbps)                       0
Uplink Throughput(Kbps)                         0
Downlink TCP Retransmission Rate(%)             0
Video Streaming Download Throughput(Kbps)       0
Video Streaming xKB Start Delay(ms)             0
Web Page Download Throughput(Kbps)              0
Web Average TCP RTT(ms)                         0
dtype: int64

In [4]:
# Общая информация о датасете
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3112 entries, 0 to 3111
Data columns (total 11 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   user_id                                    3112 non-null   int64  
 1   Q1                                         3110 non-null   object 
 2   Q2                                         1315 non-null   object 
 3   Total Traffic(MB)                          3112 non-null   float64
 4   Downlink Throughput(Kbps)                  3112 non-null   float64
 5   Uplink Throughput(Kbps)                    3112 non-null   float64
 6   Downlink TCP Retransmission Rate(%)        3112 non-null   float64
 7   Video Streaming Download Throughput(Kbps)  3112 non-null   float64
 8   Video Streaming xKB Start Delay(ms)        3112 non-null   int64  
 9   Web Page Download Throughput(Kbps)         3112 non-null   float64
 10  Web Average TCP RTT(ms) 

In [5]:
# графики распределения для визуальной оценки данных. 
for column in df.columns:
    fig = px.histogram(df, y=df[column], title=column)
    fig.show()

In [6]:
# Просмотним на значения в Q1.
df['Q1'].unique()

array(['5', '1', '8', '2', '3', '9', '10', '7', '4', '11', '6', '2, 9',
       '0', '1, 3', '19', '15', nan, '1, 6', '***** ** ***',
       '3 - дер.Ширяево Волоколамского района, 9 - в Москве', '10, 9',
       'Чем даль ше,тем лучше.Спасибо за ваш труд.Оценка 10 !',
       'ОЦЕНКА-3/НЕВАЖНО/', 'Отвратительно',
       'Я ценой услуг не удовлетворен', 'Пока не понял', '3, 9', '5, 6',
       '0, 1, 5', '5, 7', 'Hi',
       '4. Тульская область Заокский район. Романовские дачи связи почти нет',
       'Немагу дать атценку денги незашто снимаеть скоро выклучаю',
       '10, 50',
       'Очень  хорошо. Обслуживания  я довольно. Спасибо вам.555', '?',
       'Поохое',
       'Когда в Москве-10 а когда в калужской области в деревне Бели-1',
       'Нет', 'Да', 'Ужасно',
       '3 тройка, связь отвратительная, жалко платить за такой тарив',
       'Чдтчдтччдтччч', '3, 7', '20, 89031081392', '1, 8', 'Без з',
       '10, 5', '2, 5',
       'Я в Смол. Области живу сейчас, не пользуюсь телефоном с

Как мы видим в Q1 множество значений отличающихся от стандартной оценки. И встает вопрос об их интерпритации, что представляется довольно сложной задачей исходя из низкой информативности большинства из них. Исходя из графика распределения количество таких значений не вилико. И поэтому думаю ими можно пренебречь, удалив из датасета.

In [7]:
# Cоздаем список с корректными оценками, остальные заменяем на None.
estimation = [str(i) for i in range(1,11)]
df['Q1'] = [int(i) if i in estimation else None for i in df['Q1']]
info_q1 = df.isna().sum() 
info_q1[1:3] 

Q1      54
Q2    1797
dtype: int64

In [8]:
# Посчитаем процент некорректных оценок
q1_errors = info_q1[1]/ df['Q1'].count() * 100
print(round(q1_errors, 2),'%')

1.77 %


Количество некорректных оценок всего 1,77 %. Поэтому ими можно пренебречь.

In [9]:
# Удаляем стороки со значением NaN в столбце Q1 т.к. они бесполезны для анализа
df.dropna(subset=['Q1'],inplace=True) 
df.isna().sum()[1:3] 

Q1       0
Q2    1743
dtype: int64

In [10]:
df['Q1'].unique() # остались только допустимые значения

array([ 5.,  1.,  8.,  2.,  3.,  9., 10.,  7.,  4.,  6.])

In [11]:
# Просмотним на значения в Q2.
df['Q2'].unique()

array([nan, '4', '3', '2, 3, 4', '4, 5', '1, 3, 4', '1, 3, 4, 5', '1, 3',
       '3, 4', '1, 2', '3, 5', '1', '7', '1, 4', '1, 2, 3, 4, 5', '2, 3',
       '1, 2, 3, 4', '2, 3, 4, 5', '3, 4, 5', '1, 2, 5', '1, 5',
       '1, 2, 4', '6', '1, 4, 5', '1, 2, 3', '2, 5', '2, 4, 5', '1, 2, 7',
       '5', '2', '1, 2, 3, 4, 5, 6', '0, 1, 7', '4, 7', '1, 4, 7', '0, 3',
       '1, 3, 4, 5, 7', '3, 7', '1, 3, 4, 7', '3, 4, 5, 7', '2, 4',
       '5, 6', '1, 2, 3, 5', '1, 3, 5', '1, 2, 34', '1, 2, 4, 5',
       '0, 05, 2, 27, 7', '1, 3, 7', '3, 4, 7', '1, 2, 3, 4, 7', '10',
       '0', '1, 2, 3, 7'], dtype=object)

Значения меньше 1 и больше 7 будем считать недопустимыми. Как мы видим они присутствуют.

In [12]:
# нужно почистить недопустимые значения Q2.
estimation_2 = [str(i) for i in range(1, 8)] # список допустимых значений
new_q2 = [] # итоговый список в который будем добавлять только допустимые значения

for i, sym  in enumerate(df['Q2']): # проходимся по значениям Q2
    if not pd.isna(sym):
        new_sym = [int(j) for j in sym if j !=',' and j in estimation_2 ] # выбираем допусттимые
        
        if new_sym:
            new_q2.append(new_sym) # добавляем в итоговый список
        else:
            new_q2.append(99) # обозначаем чтобы легко найти и не путать с None из Q2
            
    else:
        new_q2.append(None) # остальное обозначаем как None

df['Q2'] = new_q2 # заменяем значения Q2 на значения итогового списка.

In [13]:
# уберем строки без единого корректного значения
df[df['Q2'] == 99] # она всего одна и ее смело можно удалить

Unnamed: 0,user_id,Q1,Q2,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
2896,2897,1.0,99,602.51339,509.56,183.42,1.89,1310.71,1632,1316.65,91


In [14]:
# удаляем
drop_index = df[df['Q2'] == 99].index
df.drop(index=drop_index, axis=0, inplace=True)

In [15]:
# проверяем результат.
un_list_q2 = [j for i in df['Q2'].dropna() for j in i]

# остались только допустимые значения
pd.Series(un_list_q2).unique()

array([4, 3, 2, 5, 1, 7, 6], dtype=int64)

In [16]:
# конечный результат
df.head(5) 

Unnamed: 0,user_id,Q1,Q2,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
0,1,5.0,,775.48846,360.13,86.56,3.93,1859.15,2309,1007.82,83
1,2,5.0,[4],861.96324,3023.54,411.18,1.27,667.47,2080,255.36,425
2,3,1.0,[4],261.1186,790.96,34.2,1.79,1079.6,6367,535.85,485
3,4,8.0,[3],179.18564,2590.97,325.88,0.8,7053.81,3218,1221.02,51
4,5,2.0,"[2, 3, 4]",351.99208,731.61,223.54,1.15,4550.38,1767,2336.56,68


In [17]:
q2_data = df.copy()

# Проверяем все ли значения Q2 при ответах в Q1 равны None
q2_data[q2_data['Q1'] > 8]['Q2'].sum()

0

In [18]:
# Заменяем None на 0 чтобы видеть количество довольных пользователей.
q2_data.loc[q2_data['Q1'] >= 9, 'Q2'] = 0

# Присутствуют пропуски данных среди людей проголосовавших 1-8.
q2_data.isna().sum()[2:3]

Q2    659
dtype: int64

In [19]:
# Развернем списки Q2
df_q2_exp = q2_data.explode('Q2').reset_index(drop=True)
df_q2_exp.head(5)

Unnamed: 0,user_id,Q1,Q2,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
0,1,5.0,,775.48846,360.13,86.56,3.93,1859.15,2309,1007.82,83
1,2,5.0,4.0,861.96324,3023.54,411.18,1.27,667.47,2080,255.36,425
2,3,1.0,4.0,261.1186,790.96,34.2,1.79,1079.6,6367,535.85,485
3,4,8.0,3.0,179.18564,2590.97,325.88,0.8,7053.81,3218,1221.02,51
4,5,2.0,2.0,351.99208,731.61,223.54,1.15,4550.38,1767,2336.56,68


# Анализ опроса Q1

В этой части мы исследуем показатели csi, nps, а также посмотрим на распределение данных.

In [20]:
# посмотрим как распределены оценки Q1
fig = px.histogram(x=df['Q1'].sort_values(),
                   title='Распределение оценок Q1',
                   nbins=20,
                   labels={'x':'Оценка'})

fig.add_vline(df['Q1'].median(), line_dash="dash", line_color="red",annotation_text="median")
fig.add_vline(df['Q1'].mean(), line_dash="dash", line_color="green",annotation_text="CSI(mean)")
fig.show()

**CSI (Customer Satisfaction Index)** — это показатель, с помощью которого измеряют удовлетворенность клиентов товарами, услугами, обслуживанием и компанией в целом.

- Как мы видим из графика большинство пользователей поставило 10, но в то же время вторая по популярности оценка это 1.
- Среднее(CSI) и медианное значение 6 и 7 соответственно, что говорит о нейтральным среднем уровнем оценки качества и небольшом смещении распределения.

**NPS (Net Promoter Score)** - индекс позволяет оценить степень приверженности и лояльности клиентов, их готовности рекомендовать компанию или бренд знакомым на основе своего клиентского опыта. 

![](https://www.netpromoter.com/wp-content/uploads/2015/09/NPS-Definition-copy-04-copy.jpg)

In [21]:
# рассчитаем NPS
all_users = df['user_id'].count()
detractors = df[df['Q1'] <7]['user_id'].count()
promoters = df[df['Q1'] >8]['user_id'].count()
nps = (promoters/all_users - detractors/all_users)*100
print('NPS =',round(nps, 2),'%')

NPS = -13.02 %


В итоге маловероятно, что клиенты посоветуют данную компанию друзьям и знакомым.

**Выводы:**
- Исходя из представленных данных следует отметить очень низкий показатель NPS и достаточно средний показатель SCI.
- Множество пользователей недовольна сервисом, особенно нужно выделить 531 человек поставившие оценку 1.

# Анализ опроса Q2

Более детально исследуем причины недовольства сервисом используя результаты Q2 ответов.

In [22]:
# посчитаем количество nan в Q2
q2_na_all = df.isna().sum()[2]
# посчитаем количество ответов 9-10 в Q1
q1_good = df[df['Q1']>8]['Q1'].count()
# всего столбцов в датасете
all_q1 = df['Q1'].count()
# посчитаем разницу
na_q2 = round(((q2_na_all - q1_good) / all_q1)*100,1)

print(f'Незаполненных данных в Q2 относящихся к проголосовавшим 1-8: {q2_na_all - q1_good}')
print(f'Что составляет {na_q2}% от общего количества пользователей равному {all_q1}')

Незаполненных данных в Q2 относящихся к проголосовавшим 1-8: 659
Что составляет 21.6% от общего количества пользователей равному 3057


Достаточно большое количество людей недовольных сервисом не ответило на дополнительный опрос Q2. Это может означать либо технический сбой, либо их нежелание помогать компании в определении недостатков в сервисе, связанное с негативным опытом использования сервиса.

In [23]:
# Посмотрим на топ ответов в q2
q2_temp = df_q2_exp.groupby('Q2').count().user_id
top_q2 = q2_temp.reset_index().replace({0: 'Устраивает качество связи', 
                                        1: 'Недозвоны, обрывы при звонках',
                                        2: 'Время ожидания гудков при звонке',
                                        3: 'Плохое качество связи в зданиях',
                                        4: 'Медленный мобильный интернет',
                                        5: 'Медленная загрузка видео',
                                        6: 'Затрудняюсь ответить',
                                        7: 'Свой вариант'})

# Расчет среднего балла Q1
top_q2['mean Q1'] = df_q2_exp.groupby('Q2').agg({'Q1' : 'mean'}).round(1).values  

# Переименовываем столбец user_id 
top_q2.rename(columns = {'user_id' : 'count'}, inplace=True)

# Процент от общего количесва пользователей в датасете
top_q2['pers'] = [round(i/all_q1*100,1) for i in top_q2['count']] 
top_q2.sort_values('count', ascending=False)

Unnamed: 0,Q2,count,mean Q1,pers
0,Устраивает качество связи,1084,9.8,35.5
3,Плохое качество связи в зданиях,706,3.9,23.1
1,"Недозвоны, обрывы при звонках",648,3.7,21.2
4,Медленный мобильный интернет,626,3.8,20.5
5,Медленная загрузка видео,222,3.7,7.3
2,Время ожидания гудков при звонке,185,3.6,6.1
7,Свой вариант,87,3.0,2.8
6,Затрудняюсь ответить,13,6.1,0.4


В среднем оценки распределились ровно. Средний балл по каждому варианту Q2 примерно одинаковый 3.6 - 3.9. <br>
Выделяется вариант ответа "Свой вариант", вероятно в этой категории есть много негативно настроенных клиентов, по каким-то причинам не связанным с технической стороной качества связи.

In [24]:
# построим график Q2
fig = px.bar(top_q2.sort_values('count'),
             x='count',
             y='Q2',
             title='Наиболее часто встречающиеся ответы на Q2',
             orientation='h' )

fig.show()

Примерно у одинакового количества пользователей вызвыает недовольство:
- Плохое качество связи в зданиях
- Недозвоны, обрывы при звонках
- Медленный мобильный интернет

Проблемы с медленным интернетом и медленной загрузкой видео можно обьеденить в одну т.к. пользователь столкнувшись с проблемой при загрузке видео может указать медленный интернет как причину. Данные проблемы напрямую относятся к техническим характеристикам представленным в датасете их мы и исследуем.

**Выводы:** 
- Исходя из того что 21.6% людей c оценками Q2 не ответило на опрос, а 2.8% людей затрудняется с ответом, данные опроса Q2 нельзя использовать для каких либо значимых выводов. И для последующего анализа будет использоваться данные Q1.

# Выявление корреляций и построение гипотез

### Зависимость оценки от технических параметров связи по медианным цифрам

In [25]:
# подготовим датасет
data_median = df.drop(columns=['user_id','Q2']).groupby('Q1').median().reset_index()
data_median.head(5)

Unnamed: 0,Q1,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
0,1.0,360.2029,1170.37,107.24,1.44,3609.93,1815.0,1446.18,139.0
1,2.0,342.330545,1076.525,105.915,1.62,4191.815,1737.0,1618.72,105.5
2,3.0,348.21476,1140.21,122.72,1.46,3688.17,1848.0,1508.64,144.0
3,4.0,479.03363,1481.07,109.7,1.32,3736.21,1623.0,1557.06,112.0
4,5.0,395.77925,1273.57,122.36,1.285,3891.13,1724.0,1563.275,125.0


In [26]:
# строим график
fig = go.Figure()
start = 'Total Traffic(MB)'
fig.update_layout(title={'text': f'Визуализация медианных значений {start} в зависимости от Q1'})

# добавляем данные
for column in data_median.columns[1:]:
    visible = False
    
    if (column == start):
        visible = True
        
    fig.add_trace(go.Scatter(x=data_median['Q1'],
                             y=data_median[column],
                             visible=visible,
                             name=column))
    
# слайдер    
steps = []
for i in range(len(fig.data)):
    step = dict(method="update",
                args=[{"visible": [False] * len(fig.data)},
                      {'title.text' : f'Визуализация медианных значений {fig.data[i].name} в зависимости от Q1'}],
                label = fig.data[i].name)
    
    step["args"][0]["visible"][i] = True  
    steps.append(step)

fig.update_layout(sliders=[dict(steps=steps)])


fig.show()

- Total Traffic(MB) — объем трафика передачи данных (сумма за период в одну неделю перед участием в опросе). Можно обратить внимание, что поставившие средние оценки, более активно используют мобильный интернет; <br><br>
- Downlink Throughput(Kbps) — средняя скорость «к абоненту». Здесь видно, что медианное значение растет и вместе с ней улучшается оценка;<br><br>
- Uplink Throughput(Kbps)— средняя скорость «от абонента». Здесь также можно отметить увеличение оценки с увеличением скорости отдачи;<br><br>
- Downlink TCP Retransmission Rate(%) — частота переотправок пакетов «к абоненту». У абонентов с лучшими оценками, меньше ошибок со связью; <br><br>
- Video Streaming Download Throughput(Kbps) — скорость загрузки потокового видео. С ростом скорости загрузки, растет и оценка за сервис; <br><br>
- Video Streaming xKB Start Delay(ms) — задержка старта воспроизведения видео. Чем меньше по времени загрузка видео, тем более охотно ставят высокий бал клиенты; <br><br>
- Web Page Download Throughput(Kbps) — скорость загрузки web-страниц через браузер. С ростом скорости загрузки, растет и оценка за сервис; <br><br>
- Web Average TCP RTT(ms) — пинг при просмотре web-страниц. Чем меньше, тем лучше — быстрее загружаются web-страницы и тем более высокие оценки ставят клиенты.<br>

### Плотность распределения технических параметров связи

Исходя из графика распределения оценок выделим 2 группы данных которые будем сравнивать:
- Группа довольных сервисом. С оценкой > 6.
- Группа не довольных сервисом. С оценкой < 5.

In [27]:
# подготовим датасет
data_log = df.drop(columns=['user_id','Q2'])
# так как на графиках данные будут скошенны к нулю используем логарифм для получения более ясной картины
for column in data_log.columns[1:]:
    data_log[column] = [math.log(i) if i > 0 else i for i in data_log[column] ]
data_log.head(5)

Unnamed: 0,Q1,Total Traffic(MB),Downlink Throughput(Kbps),Uplink Throughput(Kbps),Downlink TCP Retransmission Rate(%),Video Streaming Download Throughput(Kbps),Video Streaming xKB Start Delay(ms),Web Page Download Throughput(Kbps),Web Average TCP RTT(ms)
0,5.0,6.653493,5.886465,4.460838,1.368639,7.527875,7.74457,6.915545,4.418841
1,5.0,6.759213,8.014184,6.019031,0.239017,6.503494,7.640123,5.542674,6.052089
2,1.0,5.564975,6.673247,3.532226,0.582216,6.984346,8.758884,6.283854,6.184149
3,8.0,5.188422,7.859788,5.786529,-0.223144,8.861323,8.076515,7.107442,3.931826
4,2.0,5.863609,6.595248,5.40959,0.139762,8.422966,7.477038,7.756435,4.219508


In [28]:
# функция построения графика 2х2
def plot_2x2(df, col):
    # создаем список определяющий положения графика
    nums = []
    for i in range(1,3):
        for j in range(1,3):
            nums.append([i,j])
            
    # создаем поле(фигуру) на которой будут отображаться все графики
    fig = make_subplots(rows=2, cols=2, subplot_titles=([str(i) for i in range(4)]))
    
    # создаем графики и добавляем их в список
    traces = []
    for n, column in enumerate(col):
        trace1=go.Histogram(x=df[df['Q1']>6][column], name=f'№{n} {column} > 6', nbinsx=30)
        trace2=go.Histogram(x=df[df['Q1']<5][column], name=f'№{n} {column} < 5', nbinsx=30)
        traces.append([trace1,trace2])
        
    # добовляем графики на поле
    for trace, num in zip(traces,nums):
        fig.append_trace(trace[0], num[0], num[1])
        fig.append_trace(trace[1], num[0], num[1])
        
    fig.update_layout(barmode='overlay')
    fig.update_layout(title={'text': 'Плотность распределения технических параметров связи', 'x':0.1})
    
    return fig.show()

In [29]:
# строим графики распределения первых 4х колонок тех.данных
plot_2x2(data_log, data_log.columns[1:5]) 

In [30]:
# строим графики остальных колонок тех.данных
plot_2x2(data_log, data_log.columns[5:])

Значительная часть негативных оценок заключается в проблех с использованием интернета.<br>
В качестве нулевых гипотез примем статистическое равенство средних у различных групп.<br>

**Гипотезы:**
1. Cредняя скорость «к абоненту» (Downlink Throughput(Kbps)) в двух группах не отличается.
2. Cкорость загрузки потокового видео (Video Streaming Download Throughput(Kbps)) в двух группах не отличается.
3. Объем трафика передачи данных (Total Traffic(MB)) в двух группах не отличается.
4. Частота переотправок пакетов к абоненту (Downlink TCP Retransmission Rate(%)) в двух группах не отличается.

# Проверка гипотез

In [31]:
# Функция бутстрэпа, построения графика
def bootstrap(good, bad, N=6000, size=200, title=None):
    
    # Реализация бутстрэпа
    mean_samples_a = []
    mean_samples_b = []
    diff = []
    
    for i in range(N):
        sample_a =  good.sample(size)
        mean_samples_a.append(np.mean(sample_a))
        sample_b =  bad.sample(size)
        mean_samples_b.append(np.mean(sample_b))
        diff.append(np.mean(sample_a)-np.mean(sample_b))
         
    # создаем поле(фигуру) на которой будут отображаться все графики
    fig = make_subplots(rows=1, cols=2,
                        subplot_titles=('Плотность распределения по группам','Плотность разницы средних'))
    
    # Графики распределения по группам А и Б
    trace1=go.Histogram(x=mean_samples_a, name='Хорошие', nbinsx=20)
    trace2=go.Histogram(x=mean_samples_b, name='Плохие', nbinsx=20)
    
    fig.append_trace(trace1, 1, 1)
    fig.add_vline(np.median(mean_samples_a), line_dash="dash", line_color="brown",annotation_text="X")
    fig.add_vline(np.percentile(mean_samples_a, 2.5), line_dash="dash", line_color="blue")
    fig.add_vline(np.percentile(mean_samples_a, 97.5), line_dash="dash", line_color="blue")

    fig.append_trace(trace2, 1, 1)
    fig.add_vline(np.median(mean_samples_b), line_dash="dash", line_color="brown",annotation_text="П")
    fig.add_vline(np.percentile(mean_samples_b, 2.5), line_dash="dash", line_color="red")
    fig.add_vline(np.percentile(mean_samples_b, 97.5), line_dash="dash", line_color="red")

    # График распределения разности по группам А и Б
    trace3=go.Histogram(x=diff, name='Разница среднего', nbinsx=20)
    fig.append_trace(trace3, 1, 2)

    fig.update_layout(legend=dict(orientation="h", y=-0.1,x=0.25))
    fig.update_layout(title={'text': f'{title}', 'x':0.5})
    fig.show()

### Cредняя скорость «к абоненту» (Downlink Throughput(Kbps)) в двух группах не отличается

Принимается статистическая гипотеза об отсутствии статистической разницы в двух группах по характеристике Downlink Throughput

In [32]:
good = df[df['Q1']>6]['Downlink Throughput(Kbps)']
bad = df[df['Q1']<5]['Downlink Throughput(Kbps)']
bootstrap(good, bad, N=5000, size=200, title='Downlink Throughput(Kbps)')

Доверительные интервалы пересекаются, но не накладываются. Медианные значения далеки друг от друга. Разница среднего не проходит через ноль. Нулевую гипотезу равенства отвергаем.

### Cкорость загрузки потокового видео (Video Streaming Download Throughput(Kbps)) в двух группах не отличается

Принимается статистическая гипотеза об отсутствии статистической разницы в двух группах по характеристике Video Streaming Download Throughput

In [33]:
good = df[df['Q1']>6]['Video Streaming Download Throughput(Kbps)']
bad = df[df['Q1']<5]['Video Streaming Download Throughput(Kbps)']
bootstrap(good, bad, N=5000, size=200, title='Video Streaming Download Throughput(Kbps)')

Доверительные интервалы не пересекаются. Нулевую гипотезу отвергаем.

### Объем трафика передачи данных (Total Traffic(MB)) в двух группах не отличается

Принимается статистическая гипотеза об отсутствии статистической разницы в двух группах по характеристике Total Traffic

In [34]:
good = df[df['Q1']>6]['Total Traffic(MB)']
bad = df[df['Q1']<5]['Total Traffic(MB)']
bootstrap(good, bad, N=5000, size=200, title='Total Traffic(MB)')

Выборки накладываются друг на друга полностью, разность средних близка к нулю. Нулевую гипотезу равенства принимаем.

### Частота переотправок пакетов к абоненту (Downlink TCP Retransmission Rate(%)) в двух группах не отличается

Принимается статистическая гипотеза об отсутствии статистической разницы в двух группах по характеристике Downlink TCP Retransmission Rate

In [35]:
good = df[df['Q1']>6]['Downlink TCP Retransmission Rate(%)']
bad = df[df['Q1']<5]['Downlink TCP Retransmission Rate(%)']
bootstrap(good, bad, N=5000, size=200, title='Downlink TCP Retransmission Rate(%)')

Доверительные интервалы пересекаются, но не накладываются. Медианные значения далеки друг от друга. Разница среднего не проходит через ноль (значения в основном отрицательные т.к. чем меньше целевой показатель тем лучше). Нулевую гипотезу равенства отвергаем.

## Вывод:
Исходя из проведенного анализа и доказанных гипотез можно заключить, что для того чтобы повысить удовлетворённость своих клиентов качеством услуг, для удержания пользователей и для повышения уровня оценки пользователей необходимо:
- улучшать **качество связи**, а именно снизить частоту переотправок пакетов к абоненту.
- улучшать **качество мобильного интернета**, повышать среднюю скорость «к абоненту» и скорость загрузки потокового видео.



В итоге могу заключить, что оценка зависит от технических показателей.