# Аналитика базы данных

In [1]:
import pandas as pd
import numpy as np

## 1. Выгрузим предварительно технически предобработанные базы данных

In [3]:
clean_df = pd.read_csv("reviews_data_base_clean.csv")
clean_df_company = pd.read_csv("rgs_reviews_data_base_clean.csv")

In [6]:
clean_df = clean_df.drop('Unnamed: 0', 1)
clean_df_company = clean_df_company.drop('Unnamed: 0', 1)

## 2. Анализ показателей

### 2.1. Общая статистика по рынку

Опишем статистику по рынку:

In [12]:
clean_df.describe()

Unnamed: 0,mark,class
count,12085.0,12085.0
mean,2.906744,-0.191725
std,1.720255,0.981489
min,1.0,-1.0
25%,1.0,-1.0
50%,3.0,-1.0
75%,5.0,1.0
max,5.0,1.0


И по компании:

In [13]:
clean_df_company.describe()

Unnamed: 0,mark,class
count,1471.0,1471.0
mean,1.486064,-0.853161
std,1.06441,0.521825
min,1.0,-1.0
25%,1.0,-1.0
50%,1.0,-1.0
75%,1.0,-1.0
max,5.0,1.0


**Вывод:** Из данных видим, что несмотря на то, что в целом люди больше склонны оставлять негативные отзывы на услуги, разница между рынком и компанией сильная. Компания сильно отстаёт от рынка по удовлетворенности клиентов на данном сайте.

### 2.2. Средняя оценка в разрезе продукта
Для начала рассмотрим, отзывы по скольким уникальным продуктам представлены на сайте:

In [17]:
unique_arr = clean_df["product"].unique()
unique_arr_company = clean_df_company["product"].unique()

print("Количество уникальных продуктов на рынке, на которые оставили отзывы: ", unique_arr.size)
print("Количество уникальных продуктов компании, на которые оставили отзывы: ", unique_arr_company.size)

Количество уникальных продуктов на рынке, на которые оставили отзывы:  14
Количество уникальных продуктов компании, на которые оставили отзывы:  10


Теперь рассмотрим среднюю оценку в разрезе продукта для рынка:

In [23]:
clean_df.groupby('product').mean()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,2.516224,-0.39233
Другое,3.222672,-0.068826
Инвестиционное страхование,2.988327,-0.182879
Каско,3.101999,-0.042729
ОСАГО,2.795063,-0.282188
Обслуживание,2.382647,-0.359288
Пенсионное страхование,5.0,1.0
Страхование для бизнеса,5.0,1.0
Страхование жизни,3.237774,-0.048904
Страхование имущества и недвижимости,3.304082,-0.004082


И для компании:

In [16]:
clean_df_company.groupby('product').mean()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,1.487179,-0.794872
Другое,2.071429,-1.0
Инвестиционное страхование,5.0,1.0
Каско,1.649682,-0.757962
ОСАГО,1.467197,-0.866799
Обслуживание,1.275862,-0.891626
Страхование жизни,2.166667,-1.0
Страхование имущества и недвижимости,1.857143,-0.785714
Страхование ответственности,1.0,-1.0
Туристическая страховка,2.125,-0.625


Теперь выведем наглядную таблицу с разницей по совпадающим продуктам:

In [25]:
(clean_df_company.groupby('product').mean() - clean_df.groupby('product').mean()).dropna()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,-1.029045,-0.402541
Другое,-1.151243,-0.931174
Инвестиционное страхование,2.011673,1.182879
Каско,-1.452317,-0.715233
ОСАГО,-1.327866,-0.584611
Обслуживание,-1.106785,-0.532338
Страхование жизни,-1.071107,-0.951096
Страхование имущества и недвижимости,-1.446939,-0.781633
Страхование ответственности,-2.55,-1.2
Туристическая страховка,-0.988636,-0.550325


**Вывод:** Наблюдаем отставание по всем продуктам, за исключением Инвестиционного страхования. Причем отставание более чем 1 балл из 5 (то есть 20%)!

### 2.3. Медианная оценка в разрезе продукта
Рынок:

In [27]:
clean_df.groupby('product').median()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,2.0,-1.0
Другое,3.0,-1.0
Инвестиционное страхование,3.0,-1.0
Каско,3.0,-1.0
ОСАГО,3.0,-1.0
Обслуживание,1.0,-1.0
Пенсионное страхование,5.0,1.0
Страхование для бизнеса,5.0,1.0
Страхование жизни,3.0,-1.0
Страхование имущества и недвижимости,3.0,-1.0


Компания:

In [28]:
clean_df_company.groupby('product').median()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,1.0,-1.0
Другое,2.0,-1.0
Инвестиционное страхование,5.0,1.0
Каско,1.0,-1.0
ОСАГО,1.0,-1.0
Обслуживание,1.0,-1.0
Страхование жизни,2.5,-1.0
Страхование имущества и недвижимости,1.0,-1.0
Страхование ответственности,1.0,-1.0
Туристическая страховка,1.5,-1.0


In [29]:
(clean_df_company.groupby('product').median() - clean_df.groupby('product').median()).dropna()

Unnamed: 0_level_0,mark,class
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ДМС,-1.0,0.0
Другое,-1.0,0.0
Инвестиционное страхование,2.0,2.0
Каско,-2.0,0.0
ОСАГО,-2.0,0.0
Обслуживание,0.0,0.0
Страхование жизни,-0.5,0.0
Страхование имущества и недвижимости,-2.0,0.0
Страхование ответственности,-4.0,-2.0
Туристическая страховка,-1.5,0.0


**Вывод:** Результаты сопоставимы со средним. Единственная разница – оценка обслуживания. Здесь как по рынку, так и по компании одинаково плохие результаты – 1/5.

Оценка обслуживания выбивается из общей картины. 
Рассмотрим подробнее, насколько много отзывов по обслуживанию.

Рынок:

In [45]:
clean_df.loc[clean_df['product'] == "Обслуживание"].describe()

Unnamed: 0,mark,class
count,899.0,899.0
mean,2.382647,-0.359288
std,1.773465,0.933746
min,1.0,-1.0
25%,1.0,-1.0
50%,1.0,-1.0
75%,5.0,1.0
max,5.0,1.0


In [43]:
print("Число отзывов по обслуживанию по рынку:", sum(clean_df['product'] == "Обслуживание"))
print("Доля отзывов по обслуживанию по рынку:", round(sum(clean_df['product'] == "Обслуживание")/len(clean_df.index)*100, 2), "%" )

Число отзывов по обслуживанию по рынку: 899
Доля отзывов по обслуживанию по рынку: 7.44 %


Компания: 

In [46]:
clean_df_company.loc[clean_df_company['product'] == "Обслуживание"].describe()

Unnamed: 0,mark,class
count,203.0,203.0
mean,1.275862,-0.891626
std,0.913463,0.453893
min,1.0,-1.0
25%,1.0,-1.0
50%,1.0,-1.0
75%,1.0,-1.0
max,5.0,1.0


In [93]:
print("Число отзывов по обслуживанию по компании:", sum(clean_df_company['product'] == "Обслуживание"))
print("Доля отзывов по обслуживанию по компании:", round(sum(clean_df_company['product'] == "Обслуживание")/len(clean_df_company.index)*100, 2), "%" )

Число отзывов по обслуживанию по компании: 203
Доля отзывов по обслуживанию по компании: 13.8 %


Хорошо, теперь нужно понять, много ли это. Распишем доли продуктов в рынке:

In [102]:
mass = []
for i in unique_arr:
    mass.append(round(sum(clean_df['product'] == i)/len(clean_df.index), 3))
    
d = {"product" : unique_arr, "market_share":mass}
df = pd.DataFrame(d)
df.sort_values('market_share', ascending=False)

Unnamed: 0,product,market_share
2,ОСАГО,0.466
0,Каско,0.24
6,Обслуживание,0.074
11,Туристическая страховка,0.051
3,Страхование жизни,0.049
7,Страхование имущества и недвижимости,0.041
12,ДМС,0.028
1,Инвестиционное страхование,0.021
4,Другое,0.02
10,Страхование финансовых рисков,0.004


И доли продуктов в компании:

In [103]:
mass_company = []
for i in unique_arr_company:
    mass_company.append(round(sum(clean_df_company['product'] == i)/len(clean_df_company.index), 3))
    
d_company = {"product" : unique_arr_company, "company_share":mass_company}
df_company = pd.DataFrame(d_company)
df_company.sort_values('company_share', ascending=False)

Unnamed: 0,product,company_share
0,ОСАГО,0.684
7,Обслуживание,0.138
4,Каско,0.107
9,ДМС,0.027
2,Страхование имущества и недвижимости,0.019
6,Туристическая страховка,0.011
1,Другое,0.01
3,Страхование жизни,0.004
5,Страхование ответственности,0.001
8,Инвестиционное страхование,0.001


То есть в обоих случаях «Обслуживание» входит в топ-3 показателей по частоте оставления отзывов. Показатели и там, и там плохие. Можно выделить это как потенциально важная для клиента зона роста.

### 2.4. Общая статистика: отрицательные и положительные отзывы. Рынок и компания.

In [104]:
clean_df.groupby("class").count()

Unnamed: 0_level_0,company,city,product,header,review,mark,date,link,full_review
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
-1.0,7201,7201,7201,7201,7201,7201,7201,7201,7201
1.0,4884,4884,4884,4884,4884,4884,4884,4884,4884


In [109]:
print("Доля негативных отзывов на рынке:",round(sum(clean_df['class'] == -1.0)/len(clean_df.index),3)*100,"%")
print("Доля позитивных отзывов на рынке:",round(sum(clean_df['class'] == 1.0)/len(clean_df.index),3)*100,"%")

Доля негативных отзывов на рынке: 59.599999999999994 %
Доля позитивных отзывов на рынке: 40.400000000000006 %


In [105]:
clean_df_company.groupby("class").count()

Unnamed: 0_level_0,company,city,product,header,review,mark,date,link,full_review
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
-1.0,1363,1363,1363,1363,1363,1363,1363,1363,1363
1.0,108,108,108,108,108,108,108,108,108


In [110]:
print("Доля негативных отзывов на рынке:",round(sum(clean_df_company['class'] == -1.0)/len(clean_df_company.index),3)*100,"%")
print("Доля позитивных отзывов на рынке:",round(sum(clean_df_company['class'] == 1.0)/len(clean_df_company.index),3)*100,"%")

Доля негативных отзывов на рынке: 92.7 %
Доля позитивных отзывов на рынке: 7.3 %


**Вывод:** Как мы видим, ситуация на рынке сильно лучше, чем у компании. Такое количество негативных отзывов говорит о том, что надо срочно заняться вопросом удовлетворенности клиентов.