<a href="https://colab.research.google.com/github/Darja555/Cleaning-and-analyzing-online-programming-school-data./blob/main/EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 ## Цели основного этапа EDA

Когда подготовительный этап EDA завершен, “сырые” данные преобразованы к пригодному для анализа формату, мы можем переходить к непосредственному изучению данных. Цели этого этапа:
* проверка выбросов, закономерностей и тенденций в данных
* нахождение значимых закономерностей в данных
* получение  углубленной информации о наборах данных для решения бизнес-задач

# 2.Описательная статистика данных:
2.1. Рассчитайте сводную статистику (среднее значение, медиана, режим,
диапазон) для числовых полей.

2.2. Анализируйте категориальные поля, такие как качество, стадия, источник и
продукт.**

In [None]:
# Работа с данными
import pandas as pd
import numpy as np

# Библиотеки для визуализации
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from matplotlib import cm
import matplotlib.pyplot as plt

# Настройка конфигурации
%config InlineBackend.figure_format = 'png2x'

In [None]:
# Загружаем данные из файла pickle
with open('clean_data.pkl', 'rb') as f:
    data_frames = pd.read_pickle(f)
# Теперь вы можете получить доступ к вашим DataFrame
deals = data_frames['deals']
calls = data_frames['calls']
contacts = data_frames['contacts']
spend = data_frames['spend']
# Пример вывода DataFrame
display(contacts.info(), calls.info(), spend.info(), deals.info())

<class 'pandas.core.frame.DataFrame'>
Index: 18510 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Id                  18510 non-null  object        
 1   Contact Owner Name  18510 non-null  category      
 2   Created Time        18510 non-null  datetime64[ns]
 3   Modified Time       18510 non-null  datetime64[ns]
dtypes: category(1), datetime64[ns](2), object(1)
memory usage: 596.7+ KB
<class 'pandas.core.frame.DataFrame'>
Index: 88815 entries, 3 to 95872
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Id                          88815 non-null  int64         
 1   Call Start Time             88815 non-null  datetime64[ns]
 2   Call Owner Name             88815 non-null  category      
 3   CONTACTID                   88815 non-null  object        


None

None

None

None

#Calls
**2.1.Aнализ сводной статистики числовых полей.**

In [None]:
calls.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
Id,88815.0,,,,5805028000031511552.0,5805028000000768000.0,5805028000018441216.0,5805028000032421888.0,5805028000045423616.0,5805028000056893440.0,15831530.298709
Call Start Time,88815.0,,,,2024-02-04 12:52:24.652592384,2023-06-30 09:20:00,2023-11-23 12:45:00,2024-02-16 13:23:00,2024-04-22 12:51:00,2024-06-21 15:30:00,
Call Owner Name,88815.0,32.0,Yara Edwards,8234.0,,,,,,,
CONTACTID,88815.0,15214.0,5805028000003329100,94.0,,,,,,,
Call Type,88815.0,3.0,Outbound,81146.0,,,,,,,
Call Duration (in seconds),88815.0,,,,171.030614,0.0,4.0,9.0,108.0,7625.0,408.379175
Call Status,88815.0,6.0,Attended Dialled,67502.0,,,,,,,
Outgoing Call Status,88815.0,3.0,Completed,81141.0,,,,,,,
Scheduled in CRM,88815.0,3.0,0.0,81140.0,,,,,,,


In [None]:
calls['Call Duration (in seconds)'].describe()

Unnamed: 0,Call Duration (in seconds)
count,88815.0
mean,171.030614
std,408.379175
min,0.0
25%,4.0
50%,9.0
75%,108.0
max,7625.0


Анализ звонков выявил значительную вариативность их продолжительности. Несмотря на среднюю длительность в 171 секунду, большинство вызовов кратковременны (медиана 9 секунд), с отдельными экстремально длинными звонками, что указывает на необходимость дальнейшего исследования причин такого распределения для оптимизации обслуживания.

**2.2. Анализ категориальных полей, такие как качество, стадия, источник и продукт.**

Для понимания природы аномально длинных звонков можно использовать следующие методы анализа:
- Построение гистограммы распределения длительности звонков
- Выявление выбросов  с помощью методов типа box plot или z-score


In [None]:
calls = data_frames['calls']
# Добавление столбца с логарифмической шкалой
calls['Log Duration'] = np.log1p(calls['Call Duration (in seconds)'])

#  box plot с логарифмической шкалой
fig = px.box(calls,
             y='Log Duration',
             title='Call Duration Distribution (Log Scale)',
             labels={'Log Duration': 'Log(Call Duration + 1) in seconds'},
             height=600,  # Увеличиваем высоту графика
             points='outliers')# Показываем только выбросы
             #points='all')
# Настраиваем оси
fig.update_yaxes(tickvals=np.log1p([0, 60, 300, 600, 1800, 3600, 7200]),
                 ticktext=['0', '1 min', '5 min', '10 min', '30 min', '1 hour', '2 hours'])
fig.update_xaxes(title_text='Calls')
# Добавляем медиану и среднее значение
fig.add_annotation(text=f"Median: {calls['Call Duration (in seconds)'].median():.2f} sec",
                   x=0.95, y=0.05, xanchor='right', yanchor='bottom', showarrow=False)
fig.add_annotation(text=f"Mean: {calls['Call Duration (in seconds)'].mean():.2f} sec",
                   x=0.95, y=0.1, xanchor='right', yanchor='bottom', showarrow=False)
fig.show()

In [None]:
filtered_calls = calls[calls['Call Duration (in seconds)'] > 6625]
print(filtered_calls)

                        Id     Call Start Time Call Owner Name  \
29250  5805028000021593632 2023-12-15 19:05:00       Sam Young   
56394  5805028000037508725 2024-03-14 19:46:00        John Doe   
78762  5805028000049344069 2024-05-10 17:34:00   Victor Barnes   

                 CONTACTID Call Type  Call Duration (in seconds)  \
29250  5805028000021404645  Outbound                        7625   
56394  5805028000021062552   Inbound                        6798   
78762  5805028000047779175  Outbound                        7200   

            Call Status Outgoing Call Status Scheduled in CRM  Log Duration  
29250  Attended Dialled            Completed              0.0      8.939319  
56394          Received              Unknown          Unknown      8.824531  
78762  Attended Dialled            Completed              0.0      8.881975  


###Длительность звонков:
Все три звонка имеют очень большую продолжительность (более 1,5 часов каждый). Это необычно длинные звонки, которые могут указывать на
сложные случаи, требующие детального обсуждения или
возможные проблемы с завершением звонка или потенциальные ошибки в записи длительности.
###Типы звонков:
-Два из трех звонков являются исходящими, один - входящим. Это может указывать на то, что компания активно инициирует длительные разговоры с клиентами. Оба исходящих звонка имеют статус "Completed", что говорит об успешном завершении. Входящий звонок имеет статус "Unknown",что был присвоин пропускам при очистке данных, также что может указывать на проблемы с записью или классификацией звонков.
###Временной период:
Все звонки происходили в вечернее время (после 17:00), что может быть связано с графиком работы клиентов или спецификой бизнеса.
###Предложения по оптимизации процеса обслуживания клиентов и повышение эффективности работы колл-центра.
- Провести анализ причин столь длительных звонков. Возможно, есть необходимость в оптимизации процессов обслуживания клиентов через другие каналы (email, чат) для сокращения времени телефонных разговоров.
- Проанализировать, не связаны ли длительные звонки с конкретными сотрудниками, и при необходимости провести тренинги для сотрудников по эффективному управлению временем звонка.
- Исследовать, не связаны ли длительные звонки с конкретными продуктами или услугами, которые могут требовать улучшения или дополнительной документации.
- Проверить корректность записи длительности звонков, чтобы исключить технические ошибки.
- Рассмотреть возможность внедрения системы автоматического завершения звонка после определенного времени с предупреждением участников.


In [None]:
calls['Call Status'].value_counts()

Unnamed: 0_level_0,count
Call Status,Unnamed: 1_level_1
Attended Dialled,67502
Unattended Dialled,13638
Missed,4981
Received,2688
Overdue,5
Scheduled Unattended Delay,1


In [None]:
# Анализ полей 'Call Type' и 'Call Status'
call_type_counts = calls['Call Type'].value_counts()
call_status_counts = calls['Call Status'].value_counts()

# Создание цветовой палитры для круговой диаграммы
pie_colors = px.colors.qualitative.Set3

# Создание подграфиков
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'xy'}]],
                    subplot_titles=('Distribution of Call Types', 'Distribution of Call Statuses'))

# Добавление круговой диаграммы
fig.add_trace(go.Pie(labels=call_type_counts.index, values=call_type_counts.values,
                     textinfo='label+percent', insidetextorientation='radial',
                     name='Call Types', marker=dict(colors=pie_colors)),
              1, 1)

# Вычисление процентов для столбчатой диаграммы
total_calls = call_status_counts.sum()
percentages = (call_status_counts / total_calls * 100).round(1)

# Добавление столбчатой диаграммы с количеством и процентами
fig.add_trace(go.Bar(
    x=call_status_counts.index,
    y=call_status_counts.values,
    text=[f'{count}<br><span style="color:red">{percent}%</span>' for count, percent in zip(call_status_counts.values, percentages)],
    textposition='outside',
    name='Call Statuses',
    marker_color='#1f77b4',
    hovertemplate='Status: %{x}<br>Count: %{y}<br>Percentage: %{text}<extra></extra>'
), 1, 2)

# Настройка макета
fig.update_layout(
    height=600,  # Увеличиваем высоту
    width=1200,  # Увеличиваем ширину
    showlegend=False,
    margin=dict(t=50, b=100)  # Увеличиваем нижний отступ для подписей
)

# Настройка оси Y для столбчатой диаграммы
fig.update_yaxes(title_text='Count', row=1, col=2)

# Поворот круговой диаграммы
fig.update_traces(rotation=90, selector=dict(type='pie'))

# Настройка формата текста для столбчатой диаграммы
fig.update_traces(texttemplate='%{text}', textposition='outside', selector=dict(type='bar'))

# Настройка оси X для столбчатой диаграммы
fig.update_xaxes(tickangle=45, row=1, col=2)

fig.show()

In [None]:
# Анализ полей 'Call Type' и 'Call Status'
call_type_counts = calls['Call Type'].value_counts()
call_status_counts = calls['Call Status'].value_counts()

# Создание цветовой палитры для круговой диаграммы
pie_colors = px.colors.qualitative.Set3

# Создание подграфиков
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'xy'}]],
                    subplot_titles=('Distribution of Call Types', 'Distribution of Call Statuses'))

# Добавление круговой диаграммы
fig.add_trace(go.Pie(labels=call_type_counts.index, values=call_type_counts.values,
                     textinfo='label+percent', insidetextorientation='radial',
                     name='Call Types', marker=dict(colors=pie_colors)),
              1, 1)

# Вычисление процентов для столбчатой диаграммы
total_calls = call_status_counts.sum()
percentages = (call_status_counts / total_calls * 100).round(1)

# Добавление столбчатой диаграммы с количеством и процентами
fig.add_trace(go.Bar(x=call_status_counts.index, y=call_status_counts.values,
                     text=[f'<span style="color:red">{count}</span><br><span style="color:red">{percent}%</span>' for count, percent in zip(call_status_counts.values, percentages)],
                     textposition='outside',
                     name='Call Statuses', marker_color='#1f77b4'),  # Синий цвет для столбцов
              1, 2)

# Настройка макета
fig.update_layout(
    height=600,  # Увеличиваем высоту
    width=1200,  # Увеличиваем ширину
    showlegend=False,
    margin=dict(t=50, b=100)  # Увеличиваем нижний отступ для подписей
)

# Настройка оси Y для столбчатой диаграммы
fig.update_yaxes(title_text='Count', row=1, col=2)

# Поворот круговой диаграммы
fig.update_traces(rotation=90, selector=dict(type='pie'))

# Настройка формата текста для столбчатой диаграммы
fig.update_traces(texttemplate='%{text}', textposition='outside', selector=dict(type='bar'))

# Настройка оси X для столбчатой диаграммы
fig.update_xaxes(tickangle=45, row=1, col=2)

fig.show()

Анализ коммуникационной активности компании показывает явную ориентацию на проактивное взаимодействие с клиентами: 91,4% звонков являются исходящими, что свидетельствует о стратегии активного инициирования контактов. Входящие звонки составляют лишь 3,3%, а пропущенные — 5,6%, что указывает на низкий приоритет обработки входящих запросов.

Наиболее распространённый статус звонков — "Attended Dialled" (совершенный звонок с ответом), что демонстрирует высокую эффективность исходящих коммуникаций. Однако значительное количество звонков попадает в категорию "Unattended Dialled" (несостоявшиеся звонки), что требует внимания для оптимизации процесса контактов.

Рекомендуется провести анализ причин неотвеченных звонков и рассмотреть возможность улучшения обработки входящих запросов для повышения клиентского опыта. Внедрение регулярного мониторинга данных по звонкам поможет оперативно корректировать стратегию взаимодействия с клиентами и повысить общую эффективность коммуникаций.

#Contacts
 **2.1.Aнализ сводной статистики числовых полей.**

In [None]:
print(contacts.dtypes)

Id                            object
Contact Owner Name          category
Created Time          datetime64[ns]
Modified Time         datetime64[ns]
dtype: object


In [None]:
contacts['Id'].apply(type).value_counts()

Unnamed: 0_level_0,count
Id,Unnamed: 1_level_1
<class 'str'>,18510


In [None]:
#Для проверки количества уникальных сделок:
unique_count = contacts['Id'].nunique()
print(f"Количество уникальных значений в столбце 'Id': {unique_count}")


Количество уникальных значений в столбце 'Id': 18509


###Стандартный статистический анализ неприменим к данному набору данных ввиду отсутствия релевантных числовых показателей:
- Таблица содержит только один числовой столбец: 'Id'.
- 'Id' представляет собой уникальные идентификаторы.
- Расчет сводной статистики нецелесообразен из-за природы данных.


**2.2. Анализ категориальных полей, такие как качество, стадия, источник и продукт.**

In [None]:
# Фильтруем данные, исключая FALSE
filtered_contacts = contacts[contacts['Contact Owner Name'].astype(str) != 'False']

# Подсчитываем количество контактов для каждого владельца
contact_owner_counts = filtered_contacts['Contact Owner Name'].astype(str).value_counts().sort_values(ascending=True)

# Создаем DataFrame из полученных данных
df = pd.DataFrame({'Contact Owner Name': contact_owner_counts.index,
                   'Number of Contacts': contact_owner_counts.values})

# Создаем цветовую схему
pcolors = px.colors.qualitative.Pastel2

# Создаем график
fig = go.Figure()

fig.add_trace(go.Bar(
    y=df['Contact Owner Name'],
    x=df['Number of Contacts'],
    orientation='h',
    marker=dict(
        color=df['Number of Contacts'],
        colorscale=pcolors,
        colorbar=dict(title="Number of Contacts")
    ),
    text=df['Number of Contacts'],
    textposition='outside',
))

# Настройка макета
fig.update_layout(
    title='Number of Contacts per Contact Owner',
    xaxis_title='Number of Contacts',
    yaxis_title='Contact Owner Name',
    height=800,  # Увеличиваем высоту графика для лучшей читаемости
    xaxis=dict(
        gridcolor='lightgrey',
        griddash='dash',
    ),
    plot_bgcolor='white'
)

# Настройка оси Y для отображения всех меток
fig.update_yaxes(
    tickmode='linear',
    tick0=0,
    dtick=1
)

# Отображение графика
fig.show()

Отображение владельцев контактов и соответствие их числу контактов дает представление об их уровне вовлеченности - от полного отсутствия взаимодействия до высокой активности.Есть очень активные операторы, которые принимаю основную массу звонков и также те ,кто минимально взоимодействует с клиентами, возможно напрямою не связвные с колл-центром.

#Spend
 **2.1.Aнализ сводной статистики числовых полей.**

- Impressions: Количество показов рекламы пользователям.
- Spend: Количество денег, потраченных на рекламную кампанию или
группу объявлений за указанный период.
- Clicks: Количество нажатий пользователей на рекламу.

In [None]:
spend.dtypes

Unnamed: 0,0
Date,datetime64[ns]
Source,category
Campaign,category
Impressions,int64
Spend,float64
Clicks,int64


In [None]:
# Выбор только числовых полей
numeric_columns = ['Impressions', 'Spend', 'Clicks']

# Расчет сводной статистики
summary_statistics = spend[numeric_columns].describe()

# Добавление дополнительных статистик
summary_statistics.loc['median'] = spend[numeric_columns].median()

# Округление значений
summary_statistics = summary_statistics.round(2)

# Создание таблицы с помощью plotly
fig = go.Figure(data=[go.Table(
    header=dict(values=['Statistic'] + list(summary_statistics.columns),
                fill_color='paleturquoise',
                align='left'),
    cells=dict(values=[summary_statistics.index] + [summary_statistics[col] for col in summary_statistics.columns],
               fill_color='lavender',
               align='left'))
])

fig.update_layout(title='Summary Statistics for Numeric Columns')
fig.show()

# Создание box plot с логарифмической шкалой для визуализации распределения
fig = make_subplots(rows=1, cols=len(numeric_columns), subplot_titles=numeric_columns)

for i, col in enumerate(numeric_columns, 1):
    # Фильтрация положительных значений
    positive_data = spend[spend[col] > 0][col]

    # Применение логарифма к данным
    log_data = np.log10(positive_data)

    # Создание боксплота
    fig.add_trace(go.Box(y=log_data, name=col), row=1, col=i)

    # Настройка оси Y на логарифмическую шкалу
    fig.update_yaxes(type="log", row=1, col=i)

    # Форматирование меток оси Y
    fig.update_yaxes(
        tickvals=[0, 1, 2, 3, 4, 5],  # Логарифмические значения
        ticktext=['1', '10', '100', '1K', '10K', '100K'],  # Соответствующие метки
        row=1, col=i
    )

fig.update_layout(height=600, width=300*len(numeric_columns),
                  title_text="Distribution of Numeric Variables (Log Scale)")
fig.show()

# Создание корреляционной матрицы
corr_matrix = spend[numeric_columns].corr()

fig = go.Figure(data=go.Heatmap(
                z=corr_matrix.values,
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                colorscale='Viridis',
                zmin=-1, zmax=1))

fig.update_layout(title='Correlation Matrix of Numeric Variables',
                  width=500, height=500)
fig.show()

# Вывод дополнительной информации
print("\nAdditional Insights:")
for col in numeric_columns:
    print(f"\n{col}:")
    print(f"  Missing values: {spend[col].isnull().sum()} ({spend[col].isnull().sum() / len(spend) * 100:.2f}%)")
    print(f"  Zero values: {(spend[col] == 0).sum()} ({(spend[col] == 0).sum() / len(spend) * 100:.2f}%)")
    print(f"  Negative values: {(spend[col] < 0).sum()} ({(spend[col] < 0).sum() / len(spend) * 100:.2f}%)")
    print(f"  Minimum positive value: {spend[spend[col] > 0][col].min():.2f}")
    print(f"  Maximum value: {spend[col].max():.2f}")


Additional Insights:

Impressions:
  Missing values: 0 (0.00%)
  Zero values: 527 (3.50%)
  Negative values: 0 (0.00%)
  Minimum positive value: 1.00
  Maximum value: 431445.00

Spend:
  Missing values: 0 (0.00%)
  Zero values: 1147 (7.62%)
  Negative values: 0 (0.00%)
  Minimum positive value: 0.01
  Maximum value: 774.00

Clicks:
  Missing values: 0 (0.00%)
  Zero values: 4018 (26.70%)
  Negative values: 0 (0.00%)
  Minimum positive value: 1.00
  Maximum value: 2415.00


- Impressions (Показы) демонстрируют значительную вариативность (диапазон от 0 до 431,445), что может указывать на существенные различия в масштабах и охвате рекламных кампаний.
- Spend (Расходы) колеблются в пределах от 0 до 774, свидетельствуя о наличии как бесплатных рекламных размещений, так и кампаний с существенными финансовыми вложениями.
- Clicks (Клики) варьируются от 0 до 2415, что отражает широкий спектр уровней вовлеченности пользователей - от полного отсутствия взаимодействия до высокой активности.

**2.2. Анализ категориальных полей, такие как качество, стадия, источник и продукт.**

- Source (Канал) на котором было показано объявление
- Campaign (Кампания) в рамках которой было показано объявление

In [None]:
def format_sum(value):
    return f"{value:,.2f}€"

# Подготовка данных для первого графика (Treemap)
filtered_spend = spend[(spend['Source'] != 'Unknown') & (spend['Source'] != 'Test')]
total_spend_per_source = filtered_spend.groupby('Source', observed=True)['Spend'].sum().reset_index()
total_spend_per_source = total_spend_per_source.sort_values(by='Spend', ascending=False)
total_spend = total_spend_per_source['Spend'].sum()

# Подготовка данных для второго графика
source_performance = deals.groupby('Source', observed=True).agg({
    'Id': 'count',
    'Stage': lambda x: (x == 'Payment Done').sum()
}).reset_index()
source_performance.columns = ['Source', 'Leads', 'Successful Deals']
source_performance['Conversion Rate'] = (source_performance['Successful Deals'] / source_performance['Leads'] * 100).round(1)
source_performance = source_performance.sort_values(by='Leads', ascending=False)

# Функция для создания визуализации
def create_performance_chart(df, title):
    fig = make_subplots(rows=1, cols=2, subplot_titles=('Expenses by Source', 'Leads and Conversion by Source'),
                        specs=[[{"type": "domain"}, {"secondary_y": True}]])

    # Treemap для расходов по источникам
    fig.add_trace(go.Treemap(
        labels=total_spend_per_source['Source'],
        parents=[""] * len(total_spend_per_source),
        values=total_spend_per_source['Spend'],
        textinfo="label+text",
        text=[format_sum(value) for value in total_spend_per_source['Spend']],
        hovertemplate='<b>%{label}</b><br>Spend: %{text}<br>Percentage: %{percent:.1%}',
        marker=dict(colors=px.colors.qualitative.Pastel2[:len(total_spend_per_source)]),
    ), row=1, col=1)

    # Столбчатая диаграмма для Leads и Successful Deals
    fig.add_trace(go.Bar(
        x=df['Source'],
        y=df['Leads'],
        name='Leads',
        marker_color='skyblue',
        opacity=0.8,
        hovertemplate='<b>%{x}</b><br>Leads: %{y}<br>Successful Deals: %{customdata[0]}<br>Conversion Rate: %{customdata[1]:.1f}%<extra></extra>',
        customdata=df[['Successful Deals', 'Conversion Rate']]
    ), row=1, col=2)

    fig.add_trace(go.Bar(
        x=df['Source'],
        y=df['Successful Deals'],
        name='Successful Deals',
        marker_color='green',
        hovertemplate='<b>%{x}</b><br>Leads: %{customdata[0]}<br>Successful Deals: %{y}<br>Conversion Rate: %{customdata[1]:.1f}%<extra></extra>',
        customdata=df[['Leads', 'Conversion Rate']]
    ), row=1, col=2)

    # Линия для Conversion Rate на вторичной оси Y
    fig.add_trace(go.Scatter(
        x=df['Source'],
        y=df['Conversion Rate'],
        name='Conversion Rate',
        mode='lines+markers+text',
        line=dict(color='red', width=2),
        marker=dict(size=8),
        text=df['Conversion Rate'].apply(lambda x: f'{x:.1f}%'),
        textposition='top center',
        hovertemplate='<b>%{x}</b><br>Conversion Rate: %{y:.1f}%<br>Leads: %{customdata[0]}<br>Successful Deals: %{customdata[1]}<extra></extra>',
        customdata=df[['Leads', 'Successful Deals']]
    ), row=1, col=2, secondary_y=True)

    fig.update_layout(
        title_text=title,
        height=600,
        width=1400,
        barmode='group'
    )
    fig.update_xaxes(
        title_text='Source',
        row=1,
        col=2,
        tickangle=45,
        tickfont=dict(size=10)
    )
    fig.update_yaxes(title_text='Number of Leads and Deals', row=1, col=2)
    fig.update_yaxes(title_text='Conversion Rate (%)', secondary_y=True, row=1, col=2)

    return fig

# Создание и отображение графика
fig = create_performance_chart(source_performance, "Source Analysis: Expenditure, Lead Distribution and Conversion")

# Добавление аннотаций с общими суммами
fig.add_annotation(
    x=0.25, y=-0.15,
    text=f"Total Spend: {format_sum(total_spend)}",
    showarrow=False,
    xref='paper', yref='paper'
)

fig.add_annotation(
    x=0.25, y=-0.2,
    text=f"Total Leads: {source_performance['Leads'].sum()}",
    showarrow=False,
    xref='paper', yref='paper'
)

fig.add_annotation(
    x=0.25, y=-0.25,
    text=f"Total Deals: {source_performance['Successful Deals'].sum()}",
    showarrow=False,
    xref='paper', yref='paper'
)

fig.show()

Анализируя данные по суммам Spend по каждому каналу Source, можно сделать определенные заключения его эфективности:
- *Google Ads и Facebook Ads*: Эти два источника имеют наибольшие расходы и количество сделок. Обеспечьте более детальный анализ эффективности для каждого канала, чтобы оптимизировать кампании и улучшить возврат на инвестиции (ROI).
- *YouTube Ads и TikTok Ads*: Эти каналы имеют значительные расходы, но меньшее количество сделок по сравнению с Google и Facebook. Рассмотрите возможность перераспределения бюджета для улучшения результатов.
- *Блогеры и Партнерства*: Эти источники имеют относительно низкие затраты и сделки. Проведите более детальный анализ эффективности, чтобы определить, стоит ли продолжать инвестировать в эти каналы или перераспределить бюджет.
- *Телеграм посты и Вебинары*: Эти каналы имеют меньшее количество сделок и могут быть потенциально эффективными так как клиент имеет возможность получить обратную связь и опыт.

###Рекомендации:
-Анализ показывает, что Google Ads и Facebook Ads являются основными источниками как по расходам, так и по количеству сделок. Оптимизация этих каналов и увеличение органического трафика могут значительно улучшить эффективность маркетинговых усилий. Кроме того, более детальный анализ и тестирование менее эффективных каналов могут выявить новые возможности для улучшения бизнес-процессов.
- Увеличить инвестиции в органический трафик и CRM даст снижения зависимости от платных каналов.: CRM и Органический трафик являеться эффективными и экономиными каналами, поэтому стоит увеличить усилия по SEO и контент-маркетингу.
- Пересмотреть стратегию TikTok Ads:чтобы улучшить эффективность или перераспределить бюджет на более эффективные каналы.

#Deals
 **2.1.Aнализ сводной статистики числовых полей.**

In [None]:
deals.dtypes

Unnamed: 0,0
Id,object
Deal Owner Name,object
Closing Date,datetime64[ns]
Quality,category
Stage,category
Lost Reason,category
Page,category
Campaign,category
Content,category
Term,category


In [None]:
deals['SLA_Seconds'].apply(type).value_counts()


Unnamed: 0_level_0,count
SLA_Seconds,Unnamed: 1_level_1
<class 'int'>,21495


Для анализа числовых полей выбраны следующие переменные:
- Course duration: Длительность курса на который поступает студент
- Months of study: Количество месяцев которые отучился студент
- Initial Amount Paid: Первоначальный платеж клиента.
- Offer Total Amount: Общая сумма предложения, представленного
клиенту.
- SLA: Время действия соглашения об уровне обслуживания,
указывающее на время отклика.


In [None]:
# Выбор числовых полей для анализа
numerical_columns = ['Course duration', 'Months of study', 'Initial Amount Paid', 'Offer Total Amount', 'SLA_Seconds']

# Преобразование данных в числовой формат с обработкой ошибок
for col in numerical_columns:
    deals[col] = pd.to_numeric(deals[col], errors='coerce')

# Удаление строк с NaN значениями после преобразования
deals = deals.dropna(subset=numerical_columns)

# Расчет сводной статистики
summary_stats = deals[numerical_columns].describe()

# Добавление медианы и коэффициента вариации
summary_stats.loc['median'] = deals[numerical_columns].median()
# summary_stats.loc['cv'] = deals[numerical_columns].std() / deals[numerical_columns].mean() * 100  # стандартизированная мера дисперсии

# Округление значений
summary_stats = summary_stats.round(2)

# Создание таблицы с помощью plotly
fig = go.Figure(data=[go.Table(
    header=dict(values=['Statistic'] + list(summary_stats.columns),
                fill_color='paleturquoise',
                align='left'),
    cells=dict(values=[summary_stats.index] + [summary_stats[col] for col in summary_stats.columns],
               fill_color='lavender',
               align='left'))
])

fig.update_layout(title='Summary Statistics for Numerical Columns')
fig.show()

# Создание box plot с логарифмической шкалой для визуализации распределения
fig = make_subplots(rows=len(numerical_columns), cols=1,
                    subplot_titles=numerical_columns)

for i, col in enumerate(numerical_columns, 1):
    # Фильтрация нулевых и отрицательных значений
    filtered_data = deals[deals[col] > 0][col]

    fig.add_trace(go.Box(
        y=filtered_data,
        name=col,
        boxpoints='all',  # can also be outliers, or suspectedoutliers, or False
        jitter=0.3,  # add some jitter for better separation between points
        pointpos=-1.8  # relative position of points with respect to box
    ), row=i, col=1)

    # Установка логарифмической шкалы для оси Y
    fig.update_yaxes(type="log", row=i, col=1)

    # Добавление аннотаций с базовой статистикой
    stats = deals[col].describe()
    annotation_text = (f"Mean: {stats['mean']:.2f}<br>"
                       f"Median: {stats['50%']:.2f}<br>"
                       f"Std: {stats['std']:.2f}")
    fig.add_annotation(
        x=1.1, y=0.5,
        xref="paper", yref="paper",
        text=annotation_text,
        showarrow=False,
        font=dict(size=10),
        align="left",
        xanchor="left",
        yanchor="middle",
        bgcolor="white",
        bordercolor="black",
        borderwidth=1,
        row=i, col=1
    )

fig.update_layout(height=300*len(numerical_columns), width=800,
                  title_text="Distribution of Numerical Variables (Log Scale)")
fig.show()

# Создание корреляционной матрицы
corr_matrix = deals[numerical_columns].corr()

fig = go.Figure(data=go.Heatmap(
                z=corr_matrix.values,
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                colorscale='Viridis',
                zmin=-1, zmax=1))

fig.update_layout(title='Correlation Matrix of Numerical Variables',
                  width=800, height=800)
fig.show()

- Типичная продолжительность курсов около 11 месяцев со средним периодом обучения 6 месяцев. Это указывает на стабильную и последовательную структуру образовательных программ.Наличие значений 0 может указывать на незавершенные сделки или студентов, не начавших обучение.

- Значительная вариативность в первоначальных платежах и общих суммах предложений (от 0 до 11,500) свидетельствует о широком спектре ценовых стратегий, включающих как бесплатные, так и премиальные опции.
Медианные значения платежей, равные нулю, указывают на преобладание бесплатных или отложенных платежных схем, что может потребовать пересмотра финансовой стратегии.

- Критические отклонения в SLA: Экстремальный разброс в времени выполнения SLA (от секунд до сотен дней) сигнализирует о необходимости срочной оптимизации процессов обслуживания и устранения аномалий.


###Рекомендация по сегментации:
Для повышения точности анализа и разработки целевых стратегий рекомендуется провести детальную сегментацию клиентской базы и портфеля курсов.
Этот анализ предоставляет основу для стратегических решений, направленных на оптимизацию образовательных продуктов, улучшение финансовых показателей и повышение качества обслуживания клиентов.

**2.2. Анализ категориальных полей, такие как качество, стадия, источник и продукт.**



### Обзор распределения Качество (Quality) и Стадия (Stage):

In [None]:
# Подготовка данных для круговой диаграммы
filtered_deals_quality = deals[(deals['Quality'] != 'Unknown') & (deals['Quality'] != 'F')]
value_counts = filtered_deals_quality.Quality.value_counts()

# Получение цветовой палитры Pastel2
pastel2 = cm.get_cmap('Pastel2')
pastel2_colors = pastel2(np.linspace(0, 1, len(value_counts)))
pastel2_colors = [f'rgb({int(r*255)},{int(g*255)},{int(b*255)})' for r, g, b, _ in pastel2_colors]

# Подготовка данных для столбчатой диаграммы
filtered_deals_stage = deals[~deals['Stage'].isin(['Unknown'])]
stage_counts = filtered_deals_stage['Stage'].value_counts().sort_values(ascending=False)

# Создание подграфиков
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'xy'}]])

# Добавление круговой диаграммы
fig.add_trace(go.Pie(
    labels=value_counts.index,
    values=value_counts.values,
    name="Quality",
    marker_colors=pastel2_colors,
    textinfo='label+percent',
    hoverinfo='label+value',
    textposition='inside'
), 1, 1)

# Вычисление процентов для столбчатой диаграммы
total_stages = stage_counts.sum()
percentages = (stage_counts / total_stages * 100).round(1)

# Добавление вертикальной столбчатой диаграммы с количеством и процентами
fig.add_trace(go.Bar(
    x=stage_counts.index,
    y=stage_counts.values,
    marker_color='lightblue',
    text=[f'{count}<br><span style="color:red">{percent}%</span>' for count, percent in zip(stage_counts.values, percentages)],
    textposition='outside',
    name="Stage",
    hovertemplate='Stage: %{x}<br>Count: %{y}<br>Percentage: %{text}<extra></extra>'
), 1, 2)

# Обновление макета
fig.update_layout(
    title_text="Quality and Stages Distribution",
    showlegend=False,
    height=600,  # Увеличиваем высоту графика
    width=1200,   # Увеличиваем ширину графика
)

# Обновление осей для столбчатой диаграммы
fig.update_xaxes(title_text="Stage", row=1, col=2, categoryorder='total descending')
fig.update_yaxes(title_text="Count", row=1, col=2)

# Обновление заголовков подграфиков
fig.update_annotations(font_size=12)
fig.add_annotation(x=0.15, y=1.05, xref="paper", yref="paper",
                   text="Quality Category Distribution", showarrow=False)
fig.add_annotation(x=0.95, y=1.05, xref="paper", yref="paper",
                   text="Distribution of Deals Across Different Stages", showarrow=False)

# Отображение графика
fig.show()


The get_cmap function was deprecated in Matplotlib 3.7 and will be removed two minor releases later. Use ``matplotlib.colormaps[name]`` or ``matplotlib.colormaps.get_cmap(obj)`` instead.



Анализ качества лидов и воронки продаж выявил критические области для оптимизации бизнес-процессов:

- Качество лидов: Преобладание категорий "Non Qualified" и "Non Target" указывает на неэффективность текущих методов привлечения. Возможно нужно провести детальный аудит маркетинговых каналов и критериев квалификации для повышения доли высококачественных лидов.Для повышения эффективности продаж рекомендуется провести глубокую сегментацию клиентской базы, выявив характеристики наиболее перспективных клиентов (категории A и B). Это позволит сфокусировать маркетинговые усилия на привлечении похожих лидов и персонализировать подход к разным сегментам.

- Конверсия: Высокий процент потерянных сделок 73% (стадия "Lost") свидетельствует о серьезных проблемах в процессе конвертации лидов в клиентов. Необходимо проанализировать каждый этап воронки продаж, особенно переходы между стадиями "Call Delayed", "Registered on Webinar" и финальными этапами оплаты.

- Оптимизация процесса продаж: Значительное количество сделок на стадиях "Call Delayed" и "Registered on Webinar" при низком проценте завершенных сделок указывает на потенциальные проблемы в работе отдела продаж. Рекомендуется пересмотреть скрипты продаж, обучение персонала и методы работы с возражениями.

- Анализ причин отказов: Учитывая высокий процент потерянных сделок, критически важно внедрить систему анализа причин отказов. Это поможет выявить ключевые факторы, препятствующие завершению сделок, и разработать стратегии по их устранению.

- Сегментация клиентов: Для повышения эффективности продаж рекомендуется провести глубокую сегментацию клиентской базы, выявив характеристики наиболее перспективных клиентов (категории A и B). Это позволит сфокусировать маркетинговые усилия на привлечении похожих лидов и персонализировать подход к разным сегментам.

- KPI и метрики: Внедрить систему ключевых показателей эффективности (KPI) для каждого этапа воронки продаж, что позволит оперативно отслеживать улучшения и выявлять проблемные области.


### Обзор продуктов с учетом типов обучения:
- количество сделок для каждого продукта
- количество успешных сделок для каждого продукта (со статусом "Payment Done")
- сумма оплат для успешных сделок по каждому продукту
- коэффициент конверсии для каждого продукта

In [None]:
# Рассчет количества уникальных обработанных сделок для каждого продукта и типа обучения
product_education_deals = deals.groupby(['Product', 'Education Type'], observed=True)['Id'].nunique().reset_index(name='Total Deals')

# Рассчет количества успешных сделок для каждого продукта и типа обучения
successful_product_education_deals = deals[deals['Stage'] == 'Payment Done'].groupby(['Product', 'Education Type'], observed=True)['Id'].nunique().reset_index(name='Successful Deals')

# Рассчет суммы оплат для каждого продукта и типа обучения
total_sales_product_education = deals[deals['Stage'] == 'Payment Done'].groupby(['Product', 'Education Type'], observed=True)['Offer Total Amount'].sum().reset_index()

# Объединение данных
product_education_performance = pd.merge(product_education_deals, successful_product_education_deals, on=['Product', 'Education Type'], how='left')
product_education_performance = pd.merge(product_education_performance, total_sales_product_education, on=['Product', 'Education Type'], how='left')

# Заполнение NaN значений и расчет коэффициента конверсии
product_education_performance['Successful Deals'] = product_education_performance['Successful Deals'].fillna(0)
product_education_performance['Offer Total Amount'] = product_education_performance['Offer Total Amount'].fillna(0)
product_education_performance['Conversion Rate'] = product_education_performance['Successful Deals'] / product_education_performance['Total Deals'] * 100

# Сортировка данных по убыванию количества успешных сделок
product_education_performance_sorted = product_education_performance.sort_values(by='Successful Deals', ascending=False)

# Переименование столбцов для удобства
product_education_performance_sorted.columns = ['Product', 'Education Type', 'Total Deals', 'Successful Deals', 'Offer Total Amount', 'Conversion Rate']

# Исключение пустых значений и значений "Unknown" и "#REF!"
product_education_performance_sorted = product_education_performance_sorted[
    product_education_performance_sorted['Product'].notnull() &
    (product_education_performance_sorted['Product'] != 'Unknown') &
    product_education_performance_sorted['Education Type'].notnull() &
    (product_education_performance_sorted['Education Type'] != '#REF!') &
    (product_education_performance_sorted['Education Type'] != 'Unknown')
]

# Форматирование значений в колонках
formatted_product_education_performance_sorted = product_education_performance_sorted[['Product', 'Education Type', 'Total Deals', 'Successful Deals', 'Offer Total Amount', 'Conversion Rate']].style.format({
    'Total Deals': '{:,.0f}',
    'Successful Deals': '{:,.0f}',
    'Offer Total Amount': '{:,.0f}',
    'Conversion Rate': '{:.2f}'
}).hide(axis='index')

# Применение градиентной заливки к таблице с использованием палитры YlGnBu
def highlight_gradient(s):
    """
    Применяет градиентный цвет к ячейкам на основе их значений.
    """
    normed_values = (s - s.min()) / (s.max() - s.min())
    colors = plt.cm.YlGnBu(normed_values)  # Используем палитру YlGnBu
    return [f'background-color: rgba({int(c[0]*255)}, {int(c[1]*255)}, {int(c[2]*255)}, 0.5)' for c in colors]

# Применение градиента к столбцам
styled_table = formatted_product_education_performance_sorted.apply(highlight_gradient, subset=['Conversion Rate'])
styled_table = styled_table.apply(highlight_gradient, subset=['Successful Deals'])
styled_table = styled_table.apply(highlight_gradient, subset=['Total Deals'])
styled_table = styled_table.apply(highlight_gradient, subset=['Offer Total Amount'])

# Вывод таблицы без индекса
display(styled_table)

Product,Education Type,Total Deals,Successful Deals,Offer Total Amount,Conversion Rate
Digital Marketing,Morning,1524,350,3393500,22.97
UX/UI Design,Morning,801,169,1594900,21.1
Web Developer,Morning,541,136,578100,25.14
Digital Marketing,Evening,248,112,404800,45.16
UX/UI Design,Evening,152,58,217500,38.16
Web Developer,Evening,1,0,0,0.0


In [None]:
# Преобразование категориальных полей в строки и фильтрация данных
product_education_performance_sorted['Product'] = product_education_performance_sorted['Product'].astype(str)
product_education_performance_sorted['Education Type'] = product_education_performance_sorted['Education Type'].astype(str)

filtered_data = product_education_performance_sorted[
    product_education_performance_sorted['Product'].notnull() &
    (product_education_performance_sorted['Product'] != 'Unknown') &
    product_education_performance_sorted['Education Type'].notnull() &
    (product_education_performance_sorted['Education Type'] != 'Unknown')
]

# Создание подграфиков
fig = make_subplots(rows=1, cols=2, specs=[[{"type": "bar"}, {"type": "pie"}]],
                    column_widths=[0.6, 0.4])

# Определение цветовой палитры с градиентами
colors = {
    'Morning': {'Total': '#FF9999', 'Successful': '#FFCCCC'},
    'Evening': {'Total': '#9999FF', 'Successful': '#CCCCFF'}
}

# Столбчатая диаграмма
for product in filtered_data['Product'].unique():
    morning_data = filtered_data[(filtered_data['Product'] == product) & (filtered_data['Education Type'] == 'Morning')]
    evening_data = filtered_data[(filtered_data['Product'] == product) & (filtered_data['Education Type'] == 'Evening')]

    for edu_type, data in [('Morning', morning_data), ('Evening', evening_data)]:
        total_deals = data['Total Deals'].sum()
        successful_deals = data['Successful Deals'].sum()

        # Добавление столбца для общего количества сделок
        fig.add_trace(
            go.Bar(
                x=[product],
                y=[total_deals],
                name=f"{edu_type} Total",
                marker_color=colors[edu_type]['Total'],
                text=[f"Total: {total_deals}"],
                textposition='inside',
                insidetextanchor='middle',
                showlegend=product == filtered_data['Product'].unique()[0]
            ),
            row=1, col=1
        )

        # Добавление столбца для успешных сделок
        fig.add_trace(
            go.Bar(
                x=[product],
                y=[successful_deals],
                name=f"{edu_type} Successful",
                marker_color=colors[edu_type]['Successful'],
                text=[f"Successful: {successful_deals}"],
                textposition='inside',
                insidetextanchor='middle',
                showlegend=False
            ),
            row=1, col=1
        )

# Настройка макета для столбчатой диаграммы
fig.update_layout(barmode='stack')
fig.update_xaxes(title_text="Product", row=1, col=1)
fig.update_yaxes(title_text="Number of Deals", row=1, col=1)

# Пай-чарт для долей в деньгах с учетом типа обучения
pie_colors = px.colors.sequential.YlGnBu
pie_data = filtered_data.groupby(['Product', 'Education Type'])['Offer Total Amount'].sum().reset_index()
fig.add_trace(
    go.Pie(
        labels=pie_data.apply(lambda x: f"{x['Product']} ({x['Education Type']})", axis=1),
        values=pie_data['Offer Total Amount'],
        marker=dict(colors=pie_colors),
        textposition='inside',
        textinfo='label+percent',
        insidetextorientation='radial',
        showlegend=True,
        domain=dict(x=[0.65, 1])  # Размещение круговой диаграммы
    ),
    row=1, col=2
)

# Настройка макета
fig.update_layout(
    title_text="Product Performance and Revenue Share by Education Type",
    height=600,
    width=1200,
    legend=dict(
        yanchor="top",
        y=1.1,
        xanchor="left",
        x=0.01,
        orientation="h"
    )
)

# Отображение графика
fig.show()

 - Гистограмма показывает, что утренние курсы по Digital Marketing и UX/UI Design имеют наибольшее количество сделок , причем Digital Marketing лидирует с большим отрывом. Вечерние курсы также показывают хорошие результаты, особенно для Digital Marketing. В то же время, курс Web Developer имеет значительно меньше сделок, особенно в вечернее время.

- Круговая диограмма отображает, что большая часть дохода (54.9%) приносит   Digital Marketing(Morning). Курсы по UX/UI Design (Morning) составляют 25.7% дохода, а вечерние курсы значительно уступают утренним по всем направлениям. Курсы Web Developer имеют минимальный вклад в доход, особенно вечерние курсы.

### Обзор качество сделок по источникам лидов:

In [None]:
# Фильтрация данных
filtered_deals = deals[(deals['Quality'] != 'Unknown') & (deals['Quality'] != 'F')]

# Группировка и вычисление процентного соотношения
source_quality = filtered_deals.groupby(['Source', 'Quality']).size().unstack(fill_value=0)

# Удаление столбцов 'Unknown' и 'F', если они все еще присутствуют
source_quality = source_quality.drop(columns=['Unknown', 'F'], errors='ignore')

# Нормализация значений для получения процентного соотношения
source_quality_matrix = source_quality.divide(source_quality.sum(axis=1), axis=0)

# Использование палитры YlGnBu
colorscale = 'YlGnBu'

fig = go.Figure(data=go.Heatmap(
    z=source_quality_matrix.values,
    x=source_quality_matrix.columns,
    y=source_quality_matrix.index,
    colorscale=colorscale,
    text=source_quality_matrix.values,
    texttemplate='%{text:.2%}',  # Форматируем текст как процент
    textfont={"size": 10, "color": "black"},
    hoverongaps=False,
    hovertemplate='Source: %{y}<br>Quality: %{x}<br>Value: %{z:.2%}<extra></extra>'  # Форматируем значение как процент
))

# Настройка макета
fig.update_layout(
    title={
        'text': 'Quality of Deals by Lead Sources',
        'font': {'size': 24}
    },
    xaxis_title='Qualities',
    yaxis_title='Lead Source',
    xaxis=dict(tickangle=0),
    width=1000,
    height=700,
    font=dict(family="Arial", size=14),
    plot_bgcolor='rgba(240,240,240,0.95)',
    paper_bgcolor='rgba(240,240,240,0.95)'
)

fig.show()





**(A)**Большинство источников лидов имеют низкие значения, что указывает на небольшое количество высококачественных сделок.

**(B)**Значения варьируются, но в целом остаются относительно низкими. "Facebook Ads" и "Partnership" показывают более высокие значения.

**(C)**"Offline" и "Partnership" имеют наибольшие значения, что указывает на значительное количество низкокачественных сделок. "Tiktok Ads" и "SMM" также показывают высокие значения.

**(D)**"Test" и "Partnership" имеют наибольшие значения, что указывает на значительное количество не целевых сделок. "Offline" также показывает высокое значение.
Не квалифицированные (E): "Google Ads" и "CRM" имеют наибольшие значения, что указывает на значительное количество не квалифицированных сделок. "Organic" и "Offline" также показывают высокие значения.
- Увеличить инвестиции в источники, такие как "Test" и "Organic", которые показывают наибольшее количество высококачественных сделок.
-  Анализировать и оптимизировать источники, такие как "Offline" и "Partnership", чтобы снизить количество низкокачественных сделок.
- Рассмотреть меры для улучшения целевых сделок из источников, таких как "Test" и "Partnership".
-  Улучшить процесс квалификации лидов из источников, таких как "Google Ads" и "CRM", чтобы снизить количество не квалифицированных сделок.

## 3.Анализ временных рядов:





Перед началом анализа временных рядов необходимо объединения таблиц

**Оптимальные поля для объединения:**
- CONTACTID (Calls) и Id (Contacts): для связи информации о звонках с контактами.



In [None]:
calls.head(30).to_excel('calls.xlsx')
contacts.head(10).to_excel('contacts.xlsx')

In [None]:
merged = calls.merge(contacts, left_on="CONTACTID", right_on="Id", how="left")
merged.head()

Unnamed: 0,Id_x,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM,Log Duration,Id_y,Contact Owner Name,Created Time,Modified Time
0,5805028000000787003,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6,Attended Dialled,Completed,0.0,1.94591,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
1,5805028000000768019,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11,Attended Dialled,Completed,0.0,2.484907,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
2,5805028000000790004,2023-06-30 12:09:00,John Doe,5805028000000645014,Outbound,12,Attended Dialled,Completed,0.0,2.564949,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
3,5805028000000773022,2023-06-30 14:24:00,John Doe,5805028000000645014,Outbound,4,Attended Dialled,Completed,0.0,1.609438,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
4,5805028000000942048,2023-07-04 15:35:00,Jane Smith,5805028000000645014,Outbound,20,Attended Dialled,Completed,0.0,3.044522,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00


In [None]:
calls.drop(columns=["Id"]).head(30).merge(contacts.head(10), left_on="CONTACTID", right_on="Id", how="inner")

Unnamed: 0,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM,Log Duration,Id,Contact Owner Name,Created Time,Modified Time
0,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6,Attended Dialled,Completed,0.0,1.94591,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
1,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11,Attended Dialled,Completed,0.0,2.484907,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
2,2023-06-30 12:09:00,John Doe,5805028000000645014,Outbound,12,Attended Dialled,Completed,0.0,2.564949,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
3,2023-06-30 14:24:00,John Doe,5805028000000645014,Outbound,4,Attended Dialled,Completed,0.0,1.609438,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
4,2023-07-04 15:35:00,Jane Smith,5805028000000645014,Outbound,20,Attended Dialled,Completed,0.0,3.044522,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
5,2023-07-04 15:37:00,Jane Smith,5805028000000645014,Outbound,9,Attended Dialled,Completed,0.0,2.302585,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
6,2023-07-04 15:38:00,Jane Smith,5805028000000645014,Outbound,9,Attended Dialled,Completed,0.0,2.302585,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
7,2023-07-04 15:51:00,Jane Smith,5805028000000645014,Outbound,5,Attended Dialled,Completed,0.0,1.791759,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
8,2023-07-05 19:19:00,John Doe,5805028000000872003,Missed,0,Missed,Unknown,Unknown,0.0,5805028000000872003,Charlie Davis,2023-07-03 11:31:00,2024-05-21 10:23:00
9,2023-07-06 11:55:00,Alice Johnson,5805028000000964068,Outbound,7,Attended Dialled,Completed,0.0,2.079442,5805028000000964068,Alice Johnson,2023-07-04 22:03:00,2023-07-17 19:43:00



**3.1. Проанализируйте тенденцию создания сделок с течением времени и их связь с звонками.**



In [None]:
contacts['Created Date'] = contacts['Created Time'].dt.date
calls['Call Date'] = calls['Call Start Time'].dt.date
deals['Deal Created Date'] = deals['Created Time'].dt.date

deals_per_day = deals.groupby('Deal Created Date').size().reset_index(name='Deals Count')
calls_per_day = calls.groupby('Call Date').size().reset_index(name='Calls Count')

time_series_df = pd.merge(deals_per_day, calls_per_day, left_on='Deal Created Date', right_on='Call Date', how='outer').dropna()
time_series_df.rename(columns={'Deal Created Date': 'Date'}, inplace=True)

In [None]:
contacts['Created Date'] = contacts['Created Time'].dt.date
calls['Call Date'] = calls['Call Start Time'].dt.date
deals['Deal Created Date'] = deals['Created Time'].dt.date

deals_per_day = deals.groupby('Deal Created Date').size().reset_index(name='Deals Count')
calls_per_day = calls.groupby('Call Date').size().reset_index(name='Calls Count')

time_series_df = pd.merge(deals_per_day, calls_per_day, left_on='Deal Created Date', right_on='Call Date', how='outer').dropna()
time_series_df.rename(columns={'Deal Created Date': 'Date'}, inplace=True)

In [None]:
fig = go.Figure()
time_series_df['Date'] = pd.to_datetime(time_series_df['Date'])

# цвета для графиков
colors = {
    'Deals Count': '#ffa600',
    'Calls Count': '#665191',
    'Deals Trend': '#d45087',
    'Calls Trend': '#f95d6a'
}

# Добавление Deals Count
fig.add_trace(go.Scatter(x=time_series_df['Date'], y=time_series_df['Deals Count'],
                         mode='lines', name='Deals Count', line=dict(color=colors['Deals Count'], width=2)))

# Добавление тренда Deals Count
deals_trend = px.scatter(time_series_df, x='Date', y='Deals Count', trendline='ols', template='plotly_white')
trend_data = deals_trend.data[1]
trend_data.line.color = colors['Deals Trend']
trend_data.name = 'Deals Trend'
fig.add_trace(trend_data)

# Добавление Calls Count
fig.add_trace(go.Scatter(x=time_series_df['Date'], y=time_series_df['Calls Count'],
                         mode='lines', name='Calls Count', line=dict(color=colors['Calls Count'], width=2)))

# Добавление тренда Calls Count
calls_trend = px.scatter(time_series_df, x='Date', y='Calls Count', trendline='ols', template='plotly_white')
trend_data = calls_trend.data[1]
trend_data.line.color = colors['Calls Trend']
trend_data.name = 'Calls Trend'
fig.add_trace(trend_data)

# Настройка оси X для отображения всех месяцев
start_date = time_series_df['Date'].min()
end_date = time_series_df['Date'].max()
all_months = pd.date_range(start=start_date, end=end_date, freq='MS')

fig.update_layout(
    title='Trends of Deals and Calls Over Time with Trend Lines',
    xaxis_title='Date',
    yaxis_title='Count',
    legend_title='Legend',
    xaxis=dict(
        tickmode='array',
        tickvals=all_months,
        ticktext=[d.strftime('%b %Y') for d in all_months],
        tickangle=45
    ),
    template='plotly_white'
)

fig.show()

График показывает корреляцию между активностью звонков и заключением сделок, хотя сделок меньше, что подчеркивает важность конверсии звонков.
Колебания в обоих показателях могут быть связаны с сезонными факторами или маркетинговыми кампаниями.Резкие колебания количества звонков указывают на необходимость улучшения качества обслуживания клиентов.
- **Анализ сделок**
Общая тенденция количество сделок демонстрирует медленный, но стабильный рост , что указывает на постепенное увеличение числа клиентов или сделок.
Значительные колебания наблюдаются с сентября 2023 года по июнь 2024 года, что может быть связано с сезонными факторами или маркетинговыми кампаниями.
В апреле 2024 года отмечен значительный рост сделок, за которым следует резкое снижение, что может указывать на успешную маркетинговую кампанию или временное предложение.
- **Анализ звонков**
Количество звонков показывает резкие колебания, что может свидетельствовать о высоком уровне взаимодействия с клиентами или проблемах с обслуживанием.
Значительные колебания наблюдаются с сентября 2023 года по июнь 2024 года, что может указывать на необходимость улучшения качества обслуживания.
В апреле 2024 года отмечен резкий рост звонков, что может быть связано с увеличением запросов или проблем, связанных с ростом количества сделок.

Тренд обоих показателей позволяет бизнесу лучше понять свои сильные и слабые стороны и принять меры для поддержания и увеличения роста.


In [None]:
numeric_time_series_df = time_series_df[['Date', 'Deals Count', 'Calls Count']]
weekly_time_series_df = numeric_time_series_df.resample('W', on='Date').sum().reset_index()

# Цвета для графиков
colors = {
    'Deals Count': '#ffa600',
    'Calls Count': '#665191',
    'Deals Trend': '#d45087',
    'Calls Trend': '#f95d6a'
}

fig = go.Figure()

# Добавление Deals Count
fig.add_trace(go.Scatter(x=weekly_time_series_df['Date'], y=weekly_time_series_df['Deals Count'],
                         mode='lines+markers', name='Deals Count (Weekly)',
                         line=dict(color=colors['Deals Count'])))

# Добавление тренда Deals Count
deals_trend = px.scatter(weekly_time_series_df, x='Date', y='Deals Count', trendline='ols', template='plotly_white')
trend_data = deals_trend.data[1]
trend_data.line.color = colors['Deals Trend']
trend_data.name = 'Deals Trend'
fig.add_trace(trend_data)

# Добавление Calls Count
fig.add_trace(go.Scatter(x=weekly_time_series_df['Date'], y=weekly_time_series_df['Calls Count'],
                         mode='lines+markers', name='Calls Count (Weekly)',
                         line=dict(color=colors['Calls Count'])))

# Добавление тренда Calls Count
calls_trend = px.scatter(weekly_time_series_df, x='Date', y='Calls Count', trendline='ols', template='plotly_white')
trend_data = calls_trend.data[1]
trend_data.line.color = colors['Calls Trend']
trend_data.name = 'Calls Trend'
fig.add_trace(trend_data)

# Настройка оси X для отображения всех месяцев
start_date = weekly_time_series_df['Date'].min()
end_date = weekly_time_series_df['Date'].max()
all_months = pd.date_range(start=start_date, end=end_date, freq='MS')

fig.update_layout(
    title='Weekly Trends of Deals and Calls Over Time with Trend Lines',
    xaxis_title='Date',
    yaxis_title='Count',
    legend_title='Legend',
    xaxis=dict(
        tickmode='array',
        tickvals=all_months,
        ticktext=[d.strftime('%b %Y') for d in all_months],
        tickangle=45
    ),
    template='plotly_white'
)

fig.show()

**3.2. Изучите распределение времени закрытия сделок и продолжительность периода от создания до закрытия.**
Для анализа рассчитаем продолжительность периода от создания до закрытия сделки ,а также отобразим продолжительность сделок по стадиям сделки и длительности этих периодов

In [None]:
# Предположим, что 'deals' - это ваш DataFrame с данными о сделках
# Вычисление продолжительности сделок
deals['Duration'] = (deals['Closing Date'] - deals['Created Time']).dt.days

# Фильтрация данных: исключаем сделки с отрицательной продолжительностью
filtered_deals = deals[deals['Duration'] >= 0]

# Создание подграфиков
fig = make_subplots(rows=2, cols=2,
                    subplot_titles=('Distribution of Deal Closing Dates',
                                    'Distribution of Deal Durations',
                                    'Monthly Deal Closures',
                                    'Average Duration by Deal Stage'))

# 1. Распределение дат закрытия сделок
fig.add_trace(
    go.Histogram(x=filtered_deals['Closing Date'], nbinsx=30,
                 marker_color='honeydew', marker_line_color='black', marker_line_width=1),
    row=1, col=1
)

# 2. Распределение продолжительности сделок
fig.add_trace(
    go.Histogram(x=filtered_deals['Duration'], nbinsx=30,
                 marker_color='#0868ac', marker_line_color='black', marker_line_width=1),
    row=1, col=2
)

# 3. Ежемесячное количество закрытых сделок
monthly_closures = filtered_deals.resample('M', on='Closing Date')['Id'].count()
fig.add_trace(
    go.Scatter(x=monthly_closures.index, y=monthly_closures.values, mode='lines+markers',
               marker=dict(color='#d45087')),
    row=2, col=1
)

# 4. Средняя продолжительность по стадиям сделки (по возрастанию)
avg_duration_by_stage = filtered_deals.groupby('Stage', observed=True)['Duration'].mean().sort_values(ascending=True)
avg_duration_by_stage = avg_duration_by_stage.round().astype(int)

# Убедитесь, что нет NaN значений перед преобразованием в int
avg_duration_by_stage = avg_duration_by_stage.dropna()

fig.add_trace(
    go.Bar(
        x=avg_duration_by_stage.index,
        y=avg_duration_by_stage.values,
        text=avg_duration_by_stage.values,
        textposition='outside',
        texttemplate='%{text} days',
        marker_color='#f95d6a'
    ),
    row=2, col=2
)

# Обновление макета
fig.update_layout(
    title_text="Comprehensive Deal Closing Analysis",
    height=1000,
    width=1200,
    showlegend=False
)

# Обновление осей
fig.update_xaxes(title_text="Closing Date", row=1, col=1)
fig.update_xaxes(title_text="Duration (days)", row=1, col=2)
fig.update_xaxes(title_text="Month", row=2, col=1)
fig.update_xaxes(title_text="Deal Stage", row=2, col=2)
fig.update_yaxes(title_text="Number of Deals", row=1, col=1)
fig.update_yaxes(title_text="Number of Deals", row=1, col=2)
fig.update_yaxes(title_text="Number of Closures", row=2, col=1)
fig.update_yaxes(title_text="Average Duration (days)", row=2, col=2)

# Установка диапазона для оси X на первом графике
if not filtered_deals['Closing Date'].empty:
    fig.update_xaxes(range=[filtered_deals['Closing Date'].min(), filtered_deals['Closing Date'].max()], row=1, col=1)

# Установка минимального значения оси X на втором графике
fig.update_xaxes(rangemode="tozero", row=1, col=2)

# Поворот меток на оси X для графика средней продолжительности по стадиям
fig.update_xaxes(tickangle=45, row=2, col=2)

# Отображение графика
fig.show()

# Дополнительный анализ
if not filtered_deals.empty:
    print(f"Средняя продолжительность сделки: {filtered_deals['Duration'].mean():.2f} дней")
    print(f"Медианная продолжительность сделки: {filtered_deals['Duration'].median():.2f} дней")
    print(f"Минимальная продолжительность сделки: {filtered_deals['Duration'].min()} дней")
    print(f"Максимальная продолжительность сделки: {filtered_deals['Duration'].max():.1f} дней")

    # Расчет процентилей
    percentiles = [25, 50, 75, 90, 95]
    for p in percentiles:
        print(f"{p}-й процентиль продолжительности сделки: {np.percentile(filtered_deals['Duration'], p):.2f} дней")


'M' is deprecated and will be removed in a future version, please use 'ME' instead.



Средняя продолжительность сделки: 18.27 дней
Медианная продолжительность сделки: 5.00 дней
Минимальная продолжительность сделки: 0.0 дней
Максимальная продолжительность сделки: 334.0 дней
25-й процентиль продолжительности сделки: 1.00 дней
50-й процентиль продолжительности сделки: 5.00 дней
75-й процентиль продолжительности сделки: 16.00 дней
90-й процентиль продолжительности сделки: 55.00 дней
95-й процентиль продолжительности сделки: 91.35 дней


График Распределение сделок по датам их закрытия показывает, что наибольшее количество сделок было закрыто в период с конца 2023 до марта 2024 года. Это указывает на пик активности в этот промежуток времени. После марта 2024 года наблюдается спад количества закрытых сделок.

График Распределение продолжительности сделок (в днях), то есть время от создания до закрытия сделки показывает, что большинство сделок имеют очень короткий срок выполнения — менее 55 дней. Однако встречаются и сделки с длительным периодом закрытия, вплоть до 150-334 дней, но такие случаи единичны и это относиться к аномалиям.


Call Delayed этот этап имеет самую высокую среднюю продолжительность — 29 дней, что указывает на значительные задержки в звонках.Payment Done продолжительность составляет 34 дня, что является самым длительным этапом, указывая на сложный и длительный процесс оплаты и предположительно связоный с местной бюракратией.

Рекомендации:
- Ускорить процесс квалификации и регистрации на вебинары, чтобы сократить время на этих этапах.
- Улучшить процесс отправки тестов, чтобы сократить время, затрачиваемое на этот этап.
- Рассмотреть меры для сокращения задержек на этапе "Call Delayed", чтобы ускорить процесс и улучшить общую производительность.
- Анализировать и оптимизировать процесс оплаты, чтобы сократить время на завершение этого этапа.

# 4. Анализ эффективности кампаний
**4.1. Сравните эффективность различных кампаний с точки зрения генерации лидов и коэффициента конверсии.**

In [None]:
# Группировка данных по кампаниям и подсчет количества лидов
campaign_leads = deals[deals['Campaign'] != 'Unknown'].groupby('Campaign', observed=True).size().reset_index(name='Leads')

# Группировка данных по кампаниям и подсчет количества успешных сделок
successful_deals_campaign = deals[(deals['Stage'] == 'Payment Done') & (deals['Campaign'] != 'Unknown')].groupby('Campaign', observed=True).size().reset_index(name='Successful Deals')

# Объединение данных о лидах и успешных сделках в одну таблицу
campaign_performance = pd.merge(campaign_leads, successful_deals_campaign, on='Campaign', how='left')

# Заполнение пропусков нулями, если нет успешных сделок
campaign_performance['Successful Deals'] = campaign_performance['Successful Deals'].fillna(0)

# Вычисление коэффициента конверсии для каждой кампании
campaign_performance['Conversion Rate'] = (campaign_performance['Successful Deals'] / campaign_performance['Leads'] * 100).round(2)

# Сортировка по убыванию количества лидов
campaign_performance = campaign_performance.sort_values('Leads', ascending=False)

# Выбор топ-20 кампаний по количеству лидов
top_20_campaigns = campaign_performance.head(20)

# Создание интерактивного графика
fig = px.scatter(top_20_campaigns, x='Leads', y='Conversion Rate', size='Successful Deals',
                 hover_name='Campaign', color='Conversion Rate',
                 labels={'Leads': 'Leads', 'Conversion Rate': 'Conversion Rate (%)'},
                 title='Effectiveness of top-20 campaigns: Leads vs Conversion')

fig.update_layout(height=600, width=1000)
fig.show()

# Форматирование и отображение таблицы
def color_negative_red(val):
    """
    Принимает скалярное значение и возвращает строку с цветом.
    Красный, если значение отрицательное, черный в противном случае.
    """
    color = 'red' if val < 0 else 'black'
    return f'color: {color}'

styled_performance = (campaign_performance.style
    .hide(axis='index')
    .format({
        'Leads': '{:,.0f}',
        'Successful Deals': '{:,.0f}',
        'Conversion Rate': '{:.2f}%'
    })
    .background_gradient(subset=['Conversion Rate'], cmap='YlGnBu')
    .applymap(color_negative_red, subset=['Conversion Rate'])
    .set_properties(**{'text-align': 'center'})
    .set_table_styles([
        {'selector': 'th', 'props': [('font-weight', 'bold'), ('text-align', 'center')]},
        {'selector': 'td', 'props': [('text-align', 'center')]}
    ])
    .bar(subset=['Leads'], color='#5fba7d', align='mid')
)

display(styled_performance)


Styler.applymap has been deprecated. Use Styler.map instead.



Campaign,Leads,Successful Deals,Conversion Rate
performancemax_digitalmarkt_ru_DE,2646,112,4.23%
youtube_shorts_DE,1635,53,3.24%
12.07.2023wide_DE,1574,48,3.05%
02.07.23wide_DE,971,52,5.36%
04.07.23recentlymoved_DE,744,31,4.17%
03.07.23women,609,31,5.09%
Dis_DE,580,30,5.17%
07.07.23LAL_DE,540,28,5.19%
12.09.23interests_Uxui_DE,530,27,5.09%
24.09.23retargeting_DE,478,17,3.56%


**4.2. Оцените эффективность различных маркетинговых источников (Source) в генерировании качественных лидов.**

In [None]:
# Группировка данных по источникам и подсчет количества лидов
source_leads = deals.groupby('Source', observed=True).size().reset_index(name='Leads')

# Группировка данных по источникам и подсчет количества успешных сделок
successful_deals_source = deals[deals['Stage'] == 'Payment Done'].groupby('Source', observed=True).size().reset_index(name='Successful Deals')

# Объединение данных о лидах и успешных сделках в одну таблицу
source_performance = pd.merge(source_leads, successful_deals_source, on='Source', how='left')

# Заполнение пропусков нулями, если нет успешных сделок
source_performance['Successful Deals'] = source_performance['Successful Deals'].fillna(0)

# Вычисление коэффициента конверсии для каждого источника и округление до 1 цифры после запятой
source_performance['Conversion Rate'] = round((source_performance['Successful Deals'] / source_performance['Leads']) * 100, 1)

# Сортировка по убыванию Conversion Rate
source_performance = source_performance.sort_values('Conversion Rate', ascending=False)

# Применение стилей и форматирования для таблицы
styled_performance = (source_performance.style
    .hide(axis='index')
    .format({
        'Leads': '{:,.0f}',
        'Successful Deals': '{:,.0f}',
        'Conversion Rate': '{:.1f}%'
    })
    .background_gradient(subset=['Conversion Rate'], cmap='YlGnBu')
    .set_properties(**{'text-align': 'center'})
    .set_table_styles([
        {'selector': 'th', 'props': [('font-weight', 'bold'), ('text-align', 'center')]},
        {'selector': 'td', 'props': [('text-align', 'center')]}
    ])
    .bar(subset=['Leads', 'Successful Deals'], color='#5fba7d', align='mid')
)

display(styled_performance)

# Создание пузырьковой диаграммы
fig = px.scatter(source_performance,
                 x='Leads',
                 y='Successful Deals',
                 size='Conversion Rate',
                 color='Source',
                 hover_name='Source',
                 size_max=60,
                 labels={'Leads': 'Number of Leads',
                         'Successful Deals': 'Number of Successful Deals'},
                 title='Bubble Chart of Leads and Successful Deals by Source',
                 template='plotly_white')

# Настройка макета графика
fig.update_layout(
    xaxis_title='Number of Leads',
    yaxis_title='Number of Successful Deals',
    legend_title='Source',
    plot_bgcolor='rgba(240, 240, 240, 0.95)',
)

fig.show()

Source,Leads,Successful Deals,Conversion Rate
Webinar,378,26,6.9%
Organic,2546,142,5.6%
SMM,1728,90,5.2%
Facebook Ads,4829,201,4.2%
Google Ads,4218,173,4.1%
Telegram posts,1001,40,4.0%
Bloggers,1085,39,3.6%
Youtube Ads,1657,53,3.2%
Tiktok Ads,2049,56,2.7%
Test,159,3,1.9%



- Facebook Ads и Google Ads выделяются как основные поставщики лидов, привлекая 4829 и 4218 потенциальных клиентов соответственно. Их показатели конверсии около 4% говорят о стабильной результативности, однако существует простор для оптимизации.

- Organic (2546 лидов) и Webinar (378 лидов) демонстрируют впечатляющую конверсию в 5.6% и 6.9% соответственно, несмотря на меньший объем. Эти каналы отличаются высоким качеством лидов и могут стать драйверами роста при увеличении инвестиций.

- SMM с 1728 лидами и конверсией 5.2% показывает обнадеживающие результаты. Дополнительные вложения в этот канал могут принести значительную отдачу.
Telegram posts и Tiktok Ads демонстрируют удовлетворительную конверсию(4% и 2.7%) при существенном объеме лидов. Улучшение таргетинга и оптимизация кампаний могут раскрыть потенциал этих платформ.

- Каналы с низкой эффективностью:CRM генерирует 1654 лида, но с низкой конверсией в 1.4%. Это указывает на необходимость совершенствования процесса работы с лидами для повышения числа успешных сделок.

- Offline и Unknown показывают нулевую конверсию, что требует пересмотра стратегии их использования или полного отказа от этих каналов.

- Вебинары и органический трафик сохраняют лидерство по конверсии (6.9% и 5.6%). Эти источники привлекают наиболее качественных лидов, что обосновывает их дальнейшее развитие.
***Рекомендации:**

Увеличить бюджеты на высокоэффективные каналы: Organic, Webinar, SMM для максимизации их потенциала.
Провести анализ и оптимизацию CRM и Offline каналов или перенаправить ресурсы на более продуктивные источники.
Продолжить развитие Facebook Ads и Google Ads, фокусируясь на повышении конверсии и качества привлекаемых лидов.

#5.Анализ эффективности работы отдела продаж

**5.1. Оцените эффективность отдельных владельцев сделок и рекламных кампаний с точки зрения количества обработанных сделок, коэффициента конверсии и общей суммы продаж.**

In [None]:

# Function to analyze deal owners
def analyze_deal_owners(deals):
    # Ensure necessary columns have numeric type
    deals['Offer Total Amount'] = pd.to_numeric(deals['Offer Total Amount'], errors='coerce')

    # Filter and group data
    owner_deals = deals[deals['Deal Owner Name'] != 'Unknown'].groupby('Deal Owner Name', observed=True)

    # Calculate metrics
    performance = pd.DataFrame({
        'Total Deals': owner_deals['Id'].nunique(),
        'Successful Deals': owner_deals.apply(lambda x: x[x['Stage'] == 'Payment Done']['Id'].nunique(), include_groups=False),
        'Offer Total Amount': owner_deals.apply(lambda x: x[x['Stage'] == 'Payment Done']['Offer Total Amount'].sum(), include_groups=False)
    }).reset_index()

    # Calculate conversion rate
    performance['Conversion Rate'] = (performance['Successful Deals'] / performance['Total Deals'] * 100).round(1)

    # Sort by descending total sales amount
    return performance.sort_values('Offer Total Amount', ascending=False)

# Function to analyze campaigns
def analyze_campaigns(deals):
    # Ensure necessary columns have numeric type
    deals['Offer Total Amount'] = pd.to_numeric(deals['Offer Total Amount'], errors='coerce')

    # Filter and group data by campaigns
    campaign_performance = deals[deals['Campaign'] != 'Unknown'].groupby('Campaign', observed=True).agg({
        'Id': 'count',
        'Stage': lambda x: (x == 'Payment Done').sum(),
        'Offer Total Amount': lambda x: x[deals['Stage'] == 'Payment Done'].sum()
    }).reset_index()

    # Rename columns
    campaign_performance.columns = ['Campaign', 'Total Deals', 'Successful Deals', 'Offer Total Amount']

    # Calculate conversion rate
    campaign_performance['Conversion Rate'] = (campaign_performance['Successful Deals'] / campaign_performance['Total Deals'] * 100).round(1)

    # Sort by descending total sales amount
    return campaign_performance.sort_values('Offer Total Amount', ascending=False)

# Create visualizations
def create_performance_chart(df, title):
    fig = make_subplots(rows=1, cols=2, subplot_titles=('Performance by Sales Amount', 'Conversion and Number of Deals'),
                        specs=[[{"secondary_y": False}, {"secondary_y": True}]])

    # Sales amount chart
    fig.add_trace(go.Bar(x=df.index, y=df['Offer Total Amount'], name='Sales Amount'), row=1, col=1)

    # Conversion and number of deals chart
    fig.add_trace(go.Bar(x=df.index, y=df['Total Deals'], name='Total Deals', opacity=0.5,marker_color='#a6d854'), row=1, col=2)
    fig.add_trace(go.Bar(x=df.index, y=df['Successful Deals'], name='Successful Deals', marker_color='green'), row=1, col=2)

    # Add conversion rate as a line on secondary Y-axis
    fig.add_trace(go.Scatter(x=df.index, y=df['Conversion Rate'], name='Conversion Rate',
                             mode='lines+markers', line=dict(color='red', width=2),
                             marker=dict(size=8)), row=1, col=2, secondary_y=True)

    fig.update_layout(title_text=title, height=500, width=1200, barmode='group')
    fig.update_yaxes(title_text='Sales Amount', row=1, col=1)
    fig.update_yaxes(title_text='Number of Deals', row=1, col=2)
    fig.update_yaxes(title_text='Conversion Rate (%)', secondary_y=True, row=1, col=2)

    # Add text annotations for conversion rate
    for i, value in enumerate(df['Conversion Rate']):
        fig.add_annotation(x=df.index[i], y=value, text=f"{value:.1f}%",
                           yanchor='bottom', showarrow=False, yshift=10,
                           xshift=0, row=1, col=2, secondary_y=True)

    return fig

# Analyze deal owners
owner_performance = analyze_deal_owners(deals)

# Analyze campaigns
campaign_performance = analyze_campaigns(deals)

# Visualization for top 10 deal owners
top_10_owners = owner_performance.head(10)
fig_owners = create_performance_chart(top_10_owners.set_index('Deal Owner Name'), 'Top 10 Deal Owners')
fig_owners.show()

# Visualization for top 10 campaigns (excluding 'Unknown')
top_10_campaigns = campaign_performance.head(10)
fig_campaigns = create_performance_chart(top_10_campaigns.set_index('Campaign'), 'Top 10 Campaigns')
fig_campaigns.show()

# Format and display tables
def style_dataframe(df):
    return df.style.hide(axis='index').format({
        'Total Deals': '{:,.0f}',
        'Successful Deals': '{:,.0f}',
        'Offer Total Amount': '${:,.2f}',
        'Conversion Rate': '{:.1f}%'
    }).background_gradient(subset=['Conversion Rate', 'Offer Total Amount'], cmap='YlGnBu')\
    .set_properties(**{'text-align': 'center'})\
    .set_table_styles([
        {'selector': 'th', 'props': [('font-weight', 'bold'), ('text-align', 'center')]},
        {'selector': 'td', 'props': [('text-align', 'center')]}
    ])

display(style_dataframe(owner_performance))
display(style_dataframe(campaign_performance))

Deal Owner Name,Total Deals,Successful Deals,Offer Total Amount,Conversion Rate
Charlie Davis,2950,145,"$1,040,600.00",4.9%
Ulysses Adams,2164,141,"$1,010,400.00",6.5%
Julia Nelson,2239,93,"$729,201.00",4.2%
Paula Underwood,1860,93,"$693,000.00",5.0%
Oliver Taylor,158,50,"$524,500.00",31.6%
Quincy Vincent,1877,64,"$460,000.00",3.4%
Ben Hall,1345,46,"$344,500.00",3.4%
Victor Barnes,1225,43,"$331,900.00",3.5%
Nina Scott,1281,46,"$314,900.00",3.6%
Cara Iverson,1056,27,"$218,000.00",2.6%


Campaign,Total Deals,Successful Deals,Offer Total Amount,Conversion Rate
performancemax_digitalmarkt_ru_DE,2646,112,"$839,400.00",4.2%
youtube_shorts_DE,1635,53,"$415,500.00",3.2%
02.07.23wide_DE,971,52,"$396,900.00",5.4%
12.07.2023wide_DE,1574,48,"$336,400.00",3.0%
03.07.23women,609,31,"$255,900.00",5.1%
07.07.23LAL_DE,540,28,"$243,000.00",5.2%
12.09.23interests_Uxui_DE,530,27,"$229,000.00",5.1%
Dis_DE,580,30,"$221,500.00",5.2%
04.07.23recentlymoved_DE,744,31,"$190,100.00",4.2%
24.09.23retargeting_DE,478,17,"$145,900.00",3.6%


Анализ эффективности рекламных кампаний показывает, что кампания "performancemax_digitalmarkt_ru_DE" имеет наибольшее количество сделок . Кампании youtube_shorts_DE и 02.07.23wide_DE также демонстрируют значительное количество успешных сделок. В то же время кампания web2311_DE и referral имеетют самую высокую конверсию (33.3%)

#6.Анализ платежей и продуктов
**6.1. Изучите распределение типов оплаты и их влияние на успешность сделок.**



In [None]:
# Преобразование типа данных в строковый и фильтрация данных: исключение "Unknown"
filtered_deals = deals[deals['Payment Type'].astype(str) != 'Unknown']

# Рассчет количества уникальных обработанных сделок для каждого типа оплаты
total_payments = filtered_deals.groupby('Payment Type', observed=True)['Id'].nunique().reset_index(name='Total Deals')

# Рассчет количества успешных сделок для каждого типа оплаты
successful_payments = filtered_deals[filtered_deals['Stage'] == 'Payment Done'].groupby('Payment Type', observed=True)['Id'].nunique().reset_index(name='Successful Deals')

# Объединение данных для расчета коэффициента конверсии
payment_performance = pd.merge(total_payments, successful_payments, on='Payment Type', how='left')
payment_performance['Successful Deals'] = payment_performance['Successful Deals'].fillna(0)
payment_performance['Conversion Rate'] = (payment_performance['Successful Deals'] / payment_performance['Total Deals'] * 100).round(1)

# Сортировка данных по общему количеству сделок
payment_performance = payment_performance.sort_values('Total Deals', ascending=False)

# Создание подграфиков: круговая диаграмма и столбчатая диаграмма
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'xy'}]],
                    subplot_titles=('Distribution of Payment Types', 'Successful Payment Performance'),
                    column_widths=[0.35, 0.65],  # Уменьшаем ширину первого столбца
                    horizontal_spacing=0.2)  # Увеличиваем расстояние между графиками

# Добавление круговой диаграммы
fig.add_trace(go.Pie(labels=payment_performance['Payment Type'],
                     values=payment_performance['Total Deals'],
                     hole=.3,
                     textinfo='label+percent',
                     insidetextorientation='radial',
                     marker=dict(colors=['#66c2a5', '#fc8d62', '#8da0cb', '#e78ac3', '#a6d854', '#ffd92f'])),
              1, 1)

# Добавление столбчатой диаграммы для успешных сделок и коэффициента конверсии
fig.add_trace(go.Bar(x=payment_performance['Payment Type'],
                     y=payment_performance['Successful Deals'],
                     name='Successful Deals',
                     marker_color='#a6d854'),
              1, 2)

fig.add_trace(go.Scatter(x=payment_performance['Payment Type'],
                         y=payment_performance['Conversion Rate'],
                         name='Conversion Rate',
                         mode='lines+markers+text',
                         yaxis='y2',
                         line=dict(color='red', width=2),
                         marker=dict(color='red', size=8),
                         text=payment_performance['Conversion Rate'].apply(lambda x: f'{x:.1f}%'),
                         textposition='top center',
                         textfont=dict(color='red')),  # Изменение цвета текста на красный
              1, 2)

# Обновление макета
fig.update_layout(
    title_text='Payment Type Analysis',
    height=600,
    width=1500,
    legend=dict(
        #x=0.3,  # Сдвигаем легенду левее
        #y=1.0,   # Поднимаем легенду выше
        xanchor='left',
        yanchor='top',
        bgcolor='rgba(255, 255, 255, 0.5)',  # Полупрозрачный фон
        #orientation="h"  # Горизонтальная ориентация легенды
    ),
    yaxis2=dict(title='Conversion Rate (%)', overlaying='y', side='right'),
    margin=dict(l=100, r=50, t=100, b=50)  # Увеличиваем отступы
)

# Обновление осей для столбчатой диаграммы
fig.update_xaxes(title_text="Payment Type", row=1, col=2)
fig.update_yaxes(title_text="Number of Deals", row=1, col=2)

# Добавление аннотаций для значений на столбчатой диаграмме
for i, row in payment_performance.iterrows():
    fig.add_annotation(
        x=row['Payment Type'],
        y=row['Successful Deals'],
        text=f"{row['Successful Deals']}",
        showarrow=False,
        yshift=10,
        row=1, col=2
    )

fig.show()

styled_performance = payment_performance.style.format({
    'Total Deals': '{:,.0f}',
    'Successful Deals': '{:,.0f}',
    'Conversion Rate': '{:.1f}%'
}).hide(axis='index').background_gradient(subset=['Conversion Rate'], cmap='YlGnBu')

display(styled_performance)

Payment Type,Total Deals,Successful Deals,Conversion Rate
Recurring Payments,347,247,71.2%
One Payment,139,111,79.9%
Reservation,5,1,20.0%


Наиболее эффективным типом оплаты являются "Recurring Payments", с общим числом сделок 347, из которых 247 завершились успешно, что составляет коэффициент конверсии 71.2%. Вторым по эффективности типом оплаты является "One Payment", с общим числом сделок 139 и успешными 111 сделками, что дает коэффициент конверсии 79.9%. Наименее эффективным типом оплаты является "Reservation", с всего 5 сделками и коэффициентом конверсии 20.0%.

**6.2. Проанализируйте популярность и успешность различных продуктов и типов обучения.**

In [None]:
# Фильтрация данных
filtered_deals = deals[(deals['Education Type'].astype(str).isin(['Morning', 'Evening'])) &
                       (deals['Product'] != 'Unknown')]

# Группировка и агрегация данных
education_performance = filtered_deals.groupby(['Education Type', 'Product'], observed=True).agg({
    'Id': 'nunique',
    'Stage': lambda x: (x == 'Payment Done').sum(),
    'Offer Total Amount': lambda x: x[filtered_deals['Stage'] == 'Payment Done'].sum()
}).reset_index()

# Переименование столбцов
education_performance.columns = ['Education Type', 'Product', 'Total Deals', 'Successful Deals', 'Total Sales']

# Расчет коэффициента конверсии
education_performance['Conversion Rate'] = (education_performance['Successful Deals'] / education_performance['Total Deals'] * 100).round(2)

# Расчет средней стоимости сделки
education_performance['Average Deal Value'] = (education_performance['Total Sales'] / education_performance['Successful Deals']).round(2)

# Сортировка данных
education_performance = education_performance.sort_values('Total Deals', ascending=False)

# Создание комбинированного столбца для меток оси X
education_performance['Combined'] = education_performance['Education Type'].astype(str) + ' - ' + education_performance['Product'].astype(str)

# Создание визуализации
fig = make_subplots(rows=2, cols=2,
                    specs=[[{"type": "bar"}, {"type": "pie"}],
                           [{"type": "bar"}, {"type": "bar"}]],
                    subplot_titles=("Total vs Successful Deals", "Distribution of Total Deals",
                                    "Conversion Rate", "Average Deal Value"))

# График 1: Total vs Successful Deals
fig.add_trace(go.Bar(x=education_performance['Combined'],
                     y=education_performance['Total Deals'], name='Total Deals', marker_color='lightblue'), row=1, col=1)
fig.add_trace(go.Bar(x=education_performance['Combined'],
                     y=education_performance['Successful Deals'], name='Successful Deals', marker_color='darkblue'), row=1, col=1)

# График 2: Distribution of Total Deals с темными цветами YlGnBu
darker_colors = ['#2ca25f', '#99d8c9', '#e5f5f9']  # Более темные оттенки без светло-желтого
fig.add_trace(go.Pie(labels=education_performance['Combined'],
                     values=education_performance['Total Deals'], hole=.3,
                     marker=dict(colors=darker_colors)), row=1, col=2)

# График 3: Conversion Rate
fig.add_trace(go.Bar(x=education_performance['Combined'],
                     y=education_performance['Conversion Rate'], marker_color='#5fba7d'), row=2, col=1)

# График 4: Average Deal Value
fig.add_trace(go.Bar(x=education_performance['Combined'],
                     y=education_performance['Average Deal Value'], marker_color='lightsalmon'), row=2, col=2)

# Обновление макета
fig.update_layout(height=1000, width=1200, title_text="Education Type and Product Performance Analysis")
fig.update_xaxes(tickangle=45)
fig.show()

# Форматирование таблицы с результатами
styled_performance = education_performance.style.format({
    'Total Deals': '{:,.0f}',
    'Successful Deals': '{:,.0f}',
    'Total Sales': '€{:,.2f}',
    'Conversion Rate': '{:.2f}%',
    'Average Deal Value': '€{:,.2f}'
}).hide(axis='index').background_gradient(subset=['Conversion Rate', 'Total Sales'], cmap='YlGnBu')

display(styled_performance)

Education Type,Product,Total Deals,Successful Deals,Total Sales,Conversion Rate,Average Deal Value,Combined
Morning,Digital Marketing,1524,350,"€3,393,500.00",22.97%,"€9,695.71",Morning - Digital Marketing
Morning,UX/UI Design,801,169,"€1,594,900.00",21.10%,"€9,437.28",Morning - UX/UI Design
Morning,Web Developer,541,136,"€578,100.00",25.14%,"€4,250.74",Morning - Web Developer
Evening,Digital Marketing,248,112,"€404,800.00",45.16%,"€3,614.29",Evening - Digital Marketing
Evening,UX/UI Design,152,58,"€217,500.00",38.16%,"€3,750.00",Evening - UX/UI Design
Evening,Web Developer,1,0,€0.00,0.00%,€nan,Evening - Web Developer


Анализ данных таблицы показывает, что тип обучения "Morning" привлек наибольшее количество сделок (1,524) и обеспечил наивысшую сумму продаж (3,393,500€), однако его коэффициент конверсии составляет всего 22.97%. В то же время, тип обучения "Evening" продемонстрировал меньшую общую активность с 248 сделками и суммой продаж (404,800€), но при этом его коэффициент конверсии значительно выше — 45.16%. Это указывает на то, что вечерние занятия, несмотря на меньшую популярность, имеют более высокую эффективность в преобразовании лидов в успешные сделки.

#7.Географический анализ:
**7.1. Проанализируйте географическое распределение сделок по городам.**


In [None]:
city_data = pd.read_json('city_data_google.json')
print(city_data.head())

                    Crailsheim   Dortmund  Stuttgart    München     Berlin  \
latitude             49.133735  51.513587  48.775846  48.135125  52.520007   
longitude            10.063357   7.465298   9.182932  11.581981  13.404954   
country               Германия   Германия   Германия   Германия   Германия   
formatted_address  Крайльсхайм   Дортмунд   Штутгарт     Мюнхен     Берлин   

                        Wien Offenbach am Main   Eberbach    Görlitz  \
latitude            48.20807         50.095636  49.469481  51.152455   
longitude          16.371309          8.776084   8.989844  14.968894   
country              Австрия          Германия   Германия   Германия   
formatted_address       Вена          Оффенбах    Эбербах     Гёрлиц   

                   Pfedelbach  ...       Kirn  Rosengarten      Forst  \
latitude            49.178342  ...  49.789663     53.44093  50.820297   
longitude            9.507019  ...   7.460894      9.91767    4.32584   
country              Германия

In [None]:
# Transpose the DataFrame
city_data_transposed = city_data.T.reset_index()

# Rename the columns for clarity
city_data_transposed.columns = ['City', 'Latitude', 'Longitude', 'Country', 'Formatted Address']
print(city_data_transposed.head())

         City   Latitude  Longitude   Country Formatted Address
0  Crailsheim  49.133735  10.063357  Германия       Крайльсхайм
1    Dortmund  51.513587   7.465298  Германия          Дортмунд
2   Stuttgart  48.775846   9.182932  Германия          Штутгарт
3     München  48.135125  11.581981  Германия            Мюнхен
4      Berlin  52.520007  13.404954  Германия            Берлин


In [None]:
# Merge the two DataFrames on the 'City' column
merged_data = pd.merge(deals, city_data_transposed, on='City', how='inner')

# Display the merged DataFrame
print(merged_data.head())

                    Id  Deal Owner Name Closing Date  Quality  \
0  5805028000056714532    Ulysses Adams          NaT  Unknown   
1  5805028000056731279    Ulysses Adams          NaT  Unknown   
2  5805028000056683030    Charlie Davis          NaT  C - Low   
3  5805028000056568397  Paula Underwood          NaT  Unknown   
4  5805028000056558351    Ulysses Adams          NaT  C - Low   

                   Stage Lost Reason       Page               Campaign  \
0  Registered on Webinar     Unknown   /webinar            webinar1906   
1  Registered on Webinar     Unknown   /webinar                Unknown   
2    Waiting For Payment     Unknown  /eng/test  performancemax_eng_DE   
3  Registered on Webinar     Unknown   /webinar                Unknown   
4    Waiting For Payment     Unknown       /eng                Unknown   

           Content        Term  ... Offer Total Amount         Contact Name  \
0          Unknown  invitation  ...                  0  5805028000044019127   
1     

In [None]:
deals['City'] = deals.City.replace('-', "Unknown")

  deals['City'] = deals.City.replace('-', "Unknown")


In [None]:
# Создаем DataFrame только с необходимыми столбцами
geo_deals_df = merged_data[['Id', 'City', 'Latitude', 'Longitude']]  # Убедитесь, что в merged_data есть колонка 'City'
geo_deals_df_clean = geo_deals_df.dropna(subset=['City', 'Latitude', 'Longitude'])

# Группируем по городам и считаем количество сделок
deals_by_city = geo_deals_df_clean.groupby('City').size().reset_index(name='Number of Deals')

# Сортируем по количеству сделок
deals_by_city_sorted = deals_by_city.sort_values(by='Number of Deals', ascending=False)

# Объединяем с данными о координатах для визуализации
deals_with_coords = deals_by_city_sorted.merge(geo_deals_df_clean[['City', 'Latitude', 'Longitude']], on='City', how='left').drop_duplicates()

# Создаем карту с количеством сделок по городам
fig = px.scatter_geo(
    deals_with_coords,
    lat='Latitude',
    lon='Longitude',
    text='City',  # Убираем текст с карты
    size='Number of Deals',
    title='Географическое распределение сделок по городам',
    hover_name='City',
    size_max=30,
    template='plotly_dark',
    projection='natural earth',
    scope='europe'  # Устанавливаем область карты
)

# Убираем текст с карты
fig.update_traces(text='')

# Настройка отображения точек
fig.update_traces(marker=dict(symbol='circle'), textposition='top center')

# Настройка макета графика
fig.update_layout(
    plot_bgcolor='rgba(0,0,0,0)',  # Цвет фона графика (прозрачный)
    geo=dict(
        lakecolor='rgb(68, 138, 232)',  # Цвет озер на карте
        landcolor='rgb(204, 204, 204)',  # Цвет суши на карте
        countrycolor='rgb(255, 255, 255)',  # Цвет границ стран
        coastlinecolor='rgb(0, 0, 0)',  # Цвет побережья
        countrywidth=0.5  # Толщина границ стран
    ),
    margin=dict(l=40, r=40, t=40, b=120)  # Настраиваем поля графика
)

# Отображаем карту
fig.show()

In [None]:
mode_values = deals.groupby('Contact Name')['Level of Deutsch'].agg(lambda x: x.mode()[0] if not x.mode().empty else None)
deals['Level of Deutsch'] = deals['Contact Name'].map(mode_values)

In [None]:
# Создаем DataFrame только с необходимыми столбцами
geo_deals_df = merged_data[['Id', 'City']]  # Убедитесь, что в merged_data есть колонка 'City'
geo_deals_df_clean = geo_deals_df.dropna(subset=['City'])

# Группируем по городам и считаем количество сделок
deals_by_city = geo_deals_df_clean.groupby('City').size().reset_index(name='Number of Deals')

# Сортируем по количеству сделок и выбираем топ 10
top_cities = deals_by_city.sort_values(by='Number of Deals', ascending=False).head(10)

# Calculate total number of deals
total_deals = deals_by_city['Number of Deals'].sum()

# Calculate percentage of deals for top cities
top_cities['Percentage'] = (top_cities['Number of Deals'] / total_deals) * 100

# Создаем барный график для отображения топ-10 городов по количеству сделок
fig = px.bar(top_cities,
             x='City',
             y='Number of Deals',
             title='Top 10 Cities by Number of Deals',
             labels={'Number of Deals': 'Number of Deals', 'City': 'City'},
             color='Number of Deals',
             color_continuous_scale=px.colors.sequential.YlGnBu)

# Добавляем аннотации для процентов
for index, row in top_cities.iterrows():
    fig.add_annotation(
        x=row['City'],
        y=row['Number of Deals'],
        text=f"{row['Percentage']:.1f}%",
        showarrow=True,
        arrowhead=2,
        ax=0,
        ay=-40,
        font=dict(color="black", size=12)
    )

# Отображаем график
fig.show()

Лидер по количеству сделок Берлин-283 сделки или 9.9% от общего количества всех сделок.

 **7.2. Изучите влияние уровня знания немецкого языка на успешность сделок в
разных городах**

In [None]:
# Создаем DataFrame только с необходимыми столбцами
language_deals_df = merged_data[['Id', 'City', 'Level of Deutsch', 'Stage']]

# Фильтруем только успешные сделки
successful_deals_df = language_deals_df[language_deals_df['Stage'] == 'Payment Done']

# Исключаем нежелательные значения уровня языка
excluded_levels = ['No Level', '0', '90', 'A0', 0]
successful_deals_df = successful_deals_df[~successful_deals_df['Level of Deutsch'].astype(str).isin(excluded_levels)]

# Определяем порядок уровней языка от A1 до C2
level_order = ['A1', 'A2', 'B1', 'B2', 'C1', 'C2']

# Преобразуем столбец 'Level of Deutsch' в категориальный тип с заданным порядком
successful_deals_df['Level of Deutsch'] = pd.Categorical(successful_deals_df['Level of Deutsch'], categories=level_order, ordered=True)

# Группируем по городу и уровню языка, считаем количество успешных сделок
deals_by_language_city = successful_deals_df.groupby(['City', 'Level of Deutsch']).size().reset_index(name='Number of Successful Deals')

# Сортируем данные по уровню языка и количеству успешных сделок для корректного отображения
deals_by_language_city_sorted = deals_by_language_city.sort_values(by=['Level of Deutsch', 'Number of Successful Deals'], ascending=[True, False])

# Создаем пузырьковую диаграмму
fig = px.scatter(
    deals_by_language_city_sorted,
    x='Number of Successful Deals',
    y='Level of Deutsch',
    size='Number of Successful Deals',
    color='City',
    hover_name='City',
    title='Влияние уровня знания немецкого языка на успешность сделок в разных городах',
    labels={'Number of Successful Deals': 'Количество успешных сделок',
            'Level of Deutsch': 'Уровень знания языка'},
    size_max=60  # Максимальный размер пузырьков
)

# Настройка макета графика
fig.update_layout(
    plot_bgcolor='white',  # Цвет фона графика
)

# Отображаем график
fig.show()





In [None]:
# Group data by city and language level, count the number of successful deals
deals_by_language_city = successful_deals_df.groupby(['City', 'Level of Deutsch']).size().reset_index(name='Number of Successful Deals')

# Select top 10 cities by total number of successful deals
top_10_cities = deals_by_language_city.groupby('City')['Number of Successful Deals'].sum().nlargest(10).index

# Filter data for top 10 cities only
top_10_data = deals_by_language_city[deals_by_language_city['City'].isin(top_10_cities)]

# Create a pivot table for the heatmap
heatmap_data = top_10_data.pivot(index='City', columns='Level of Deutsch', values='Number of Successful Deals')

# Sort index and columns
heatmap_data = heatmap_data.reindex(index=top_10_cities, columns=level_order)

# Create heatmap
fig = go.Figure(data=go.Heatmap(
    z=heatmap_data.values,
    x=heatmap_data.columns,
    y=heatmap_data.index,
    colorscale='Plasma',
    colorbar=dict(title='Number of Successful Deals'),
    hoverongaps=False
))

# Configure layout
fig.update_layout(
    title='Impact of German Language Proficiency on Deal Success in Top 10 Cities',
    xaxis_title='German Language Proficiency Level',
    yaxis_title='City',
    xaxis_nticks=len(level_order),
    yaxis_nticks=len(top_10_cities)
)

# Display the graph
fig.show()



