In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

In [None]:
def load_data(file_path: str, file_type: str = "csv", **kwargs) -> pd.DataFrame:
    if file_type == "csv":
        df = pd.read_csv(file_path, **kwargs)
    elif file_type in ("excel", "xlsx"):
        df = pd.read_excel(file_path, **kwargs)
    else:
        raise ValueError(f"Unsupported file type: {file_type}")
    return df

# ===================================================

# Очистка данных "Сontacts_df"
                              
# =====================================================

In [None]:
df_path = '/content/Contacts (Done).xlsx'
contacts_df = load_data(df_path, 'xlsx', dtype={'Id': str})
contacts_df.head()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,27.06.2023 11:28,22.12.2023 13:34
1,5805028000000872003,Charlie Davis,03.07.2023 11:31,21.05.2024 10:23
2,5805028000000889001,Bob Brown,02.07.2023 22:37,21.12.2023 13:17
3,5805028000000907006,Bob Brown,03.07.2023 05:44,29.12.2023 15:20
4,5805028000000939010,Nina Scott,04.07.2023 10:11,16.04.2024 16:14


In [None]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18548 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Id                  18548 non-null  object
 1   Contact Owner Name  18548 non-null  object
 2   Created Time        18548 non-null  object
 3   Modified Time       18548 non-null  object
dtypes: object(4)
memory usage: 579.8+ KB


In [None]:
contacts_df.describe()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
count,18548,18548,18548,18548
unique,18548,28,17921,16580
top,5805028000056907001,Charlie Davis,10.06.2024 09:00,13.06.2024 17:08
freq,1,2018,13,25


-----------------------------------------------------

# Преобразования типов данных  

-----------------------------------------------------

In [None]:
contacts_df["Created Time"] = pd.to_datetime(contacts_df["Created Time"], format='%d.%m.%Y %H:%M', dayfirst=True, errors="raise")
contacts_df["Modified Time"] = pd.to_datetime(contacts_df["Modified Time"], format='%d.%m.%Y %H:%M', dayfirst=True, errors="raise")

In [None]:
contacts_df.describe()

Unnamed: 0,Created Time,Modified Time
count,18548,18548
mean,2024-01-24 14:00:21.679965696,2024-02-15 07:41:24.814535168
min,2023-06-27 11:28:00,2023-07-06 10:54:00
25%,2023-11-15 16:40:45,2023-12-09 12:43:00
50%,2024-02-01 18:30:00,2024-02-28 22:21:30
75%,2024-04-12 16:37:15,2024-04-26 22:02:30
max,2024-06-21 15:30:00,2024-06-21 15:32:00


In [None]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18548 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Id                  18548 non-null  object        
 1   Contact Owner Name  18548 non-null  object        
 2   Created Time        18548 non-null  datetime64[ns]
 3   Modified Time       18548 non-null  datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 579.8+ KB


-------------------------------------

# Удаление дубликатов

-------------------------------------

In [None]:
contacts_df.duplicated(subset=contacts_df.columns[1:]).sum()

np.int64(38)

In [None]:
contacts_df[contacts_df.duplicated(keep=False, subset=contacts_df.columns[1:])]

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
203,5805028000001949074,Bob Brown,2023-07-17 18:40:00,2023-07-17 18:40:00
205,5805028000001953081,Bob Brown,2023-07-17 18:40:00,2023-07-17 18:40:00
279,5805028000002340967,Bob Brown,2023-07-18 16:53:00,2023-07-18 16:53:00
280,5805028000002344049,Bob Brown,2023-07-18 16:53:00,2023-07-18 16:53:00
334,5805028000002740077,Bob Brown,2023-07-21 12:26:00,2023-07-21 12:26:00
...,...,...,...,...
17864,5805028000054231884,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17865,5805028000054232018,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17869,5805028000054238271,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17870,5805028000054238317,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00


In [None]:
contacts_df[contacts_df.duplicated(subset=contacts_df.columns[1:])].shape

(38, 4)

In [None]:
contacts_df.drop_duplicates(subset=contacts_df.columns[1:], inplace=True)

contacts_df[contacts_df.duplicated(subset=contacts_df.columns[1:])].shape

(0, 4)

-------------------------------------

# Обработка пропущенных значений  

-------------------------------------

In [None]:
contacts_df.isna().sum()

Unnamed: 0,0
Id,0
Contact Owner Name,0
Created Time,0
Modified Time,0


-------------------------------------

# Вывод результатов

-------------------------------------

In [None]:
contacts_df.head()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
1,5805028000000872003,Charlie Davis,2023-07-03 11:31:00,2024-05-21 10:23:00
2,5805028000000889001,Bob Brown,2023-07-02 22:37:00,2023-12-21 13:17:00
3,5805028000000907006,Bob Brown,2023-07-03 05:44:00,2023-12-29 15:20:00
4,5805028000000939010,Nina Scott,2023-07-04 10:11:00,2024-04-16 16:14:00


In [None]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18510 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Id                  18510 non-null  object        
 1   Contact Owner Name  18510 non-null  object        
 2   Created Time        18510 non-null  datetime64[ns]
 3   Modified Time       18510 non-null  datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 723.0+ KB


In [None]:
contacts_df.describe()

Unnamed: 0,Created Time,Modified Time
count,18548,18548
mean,2024-01-24 14:00:21.679965696,2024-02-15 07:41:24.814535168
min,2023-06-27 11:28:00,2023-07-06 10:54:00
25%,2023-11-15 16:40:45,2023-12-09 12:43:00
50%,2024-02-01 18:30:00,2024-02-28 22:21:30
75%,2024-04-12 16:37:15,2024-04-26 22:02:30
max,2024-06-21 15:30:00,2024-06-21 15:32:00


========================================================================


# Очистка данных  "Calls_df"  


========================================================================


In [None]:
df_path = '/content/Calls (Done).xlsx'
calls_df = load_data(df_path, 'xlsx', dtype={'Id': str, "CONTACTID": str})
calls_df.head()

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Dialled Number,Outgoing Call Status,Scheduled in CRM,Tag
0,5805028000000805001,30.06.2023 08:43,John Doe,,Inbound,171.0,Received,,,,
1,5805028000000768006,30.06.2023 08:46,John Doe,,Outbound,28.0,Attended Dialled,,Completed,0.0,
2,5805028000000764027,30.06.2023 08:59,John Doe,,Outbound,24.0,Attended Dialled,,Completed,0.0,
3,5805028000000787003,30.06.2023 09:20,John Doe,5.805028000000645e+18,Outbound,6.0,Attended Dialled,,Completed,0.0,
4,5805028000000768019,30.06.2023 09:30,John Doe,5.805028000000645e+18,Outbound,11.0,Attended Dialled,,Completed,0.0,


In [None]:
calls_df["Call Start Time"] = pd.to_datetime(calls_df["Call Start Time"], errors="raise")

  calls_df["Call Start Time"] = pd.to_datetime(calls_df["Call Start Time"], errors="raise")


In [None]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95874 entries, 0 to 95873
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Id                          95874 non-null  object        
 1   Call Start Time             95874 non-null  datetime64[ns]
 2   Call Owner Name             95874 non-null  object        
 3   CONTACTID                   91941 non-null  object        
 4   Call Type                   95874 non-null  object        
 5   Call Duration (in seconds)  95791 non-null  float64       
 6   Call Status                 95874 non-null  object        
 7   Dialled Number              0 non-null      float64       
 8   Outgoing Call Status        86875 non-null  object        
 9   Scheduled in CRM            86875 non-null  float64       
 10  Tag                         0 non-null      float64       
dtypes: datetime64[ns](1), float64(4), object(6)
memory usa

In [None]:
calls_df.describe()

Unnamed: 0,Call Duration (in seconds),Dialled Number,Scheduled in CRM,Tag
count,95791.0,0.0,86875.0,0.0
mean,164.977263,,0.001635,
std,401.410826,,0.040397,
min,0.0,,0.0,
25%,4.0,,0.0,
50%,8.0,,0.0,
75%,98.0,,0.0,
max,7625.0,,1.0,


---------------------

# Удаление дубликатов

---------------------

In [None]:
calls_df[calls_df.duplicated(subset=calls_df.columns[1:])].shape

(3257, 11)

In [None]:
calls_df.drop_duplicates(subset=calls_df.columns[1:], inplace=True)

In [None]:
calls_df[calls_df.duplicated(subset=calls_df.columns[1:])].shape

(0, 11)

In [None]:
calls_df.isna().sum()

Unnamed: 0,0
Id,0
Call Start Time,0
Call Owner Name,0
CONTACTID,3802
Call Type,0
Call Duration (in seconds),79
Call Status,0
Dialled Number,92617
Outgoing Call Status,8813
Scheduled in CRM,8813


In [None]:
calls_df.duplicated(subset=calls_df.columns[1:]).sum()

np.int64(0)

In [None]:
calls_df[calls_df.duplicated(keep=False, subset=calls_df.columns[1:])]

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Dialled Number,Outgoing Call Status,Scheduled in CRM,Tag
34,5805028000001140014,06.07.2023 17:15,Alice Johnson,5805028000001129001,Outbound,0.0,Unattended Dialled,,Completed,0.0,
35,5805028000001167001,06.07.2023 17:15,Alice Johnson,5805028000001129001,Outbound,0.0,Unattended Dialled,,Completed,0.0,
101,5805028000001372054,08.07.2023 16:43,John Doe,,Missed,0.0,Missed,,,,
102,5805028000001348077,08.07.2023 16:43,John Doe,,Missed,0.0,Missed,,,,
254,5805028000001568042,12.07.2023 19:23,Jane Smith,5805028000001552025,Outbound,0.0,Unattended Dialled,,Completed,0.0,
...,...,...,...,...,...,...,...,...,...,...,...
95804,5805028000056832311,21.06.2024 14:17,Yara Edwards,,Outbound,8.0,Attended Dialled,,Completed,0.0,
95833,5805028000056845313,21.06.2024 14:47,Ulysses Adams,5805028000026041053,Outbound,0.0,Unattended Dialled,,Completed,0.0,
95834,5805028000056873560,21.06.2024 14:47,Ulysses Adams,5805028000026041053,Outbound,0.0,Unattended Dialled,,Completed,0.0,
95838,5805028000056834447,21.06.2024 14:55,John Doe,,Missed,0.0,Missed,,,,


-------------------------------------

# Обработка пропущенных значений и преобразование типов данных

-------------------------------------

In [None]:
calls_df.isna().sum()

Unnamed: 0,0
Id,0
Call Start Time,0
Call Owner Name,0
CONTACTID,3802
Call Type,0
Call Duration (in seconds),79
Call Status,0
Dialled Number,92617
Outgoing Call Status,8813
Scheduled in CRM,8813


☑ столбцы «Набранный номер» и «Тег» — удалить столбцы, так как все значения являются NaN

In [None]:
calls_df = calls_df.drop(columns=['Dialled Number', 'Tag'])

In [None]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 92617 entries, 0 to 95873
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Id                          92617 non-null  object 
 1   Call Start Time             92617 non-null  object 
 2   Call Owner Name             92617 non-null  object 
 3   CONTACTID                   88815 non-null  object 
 4   Call Type                   92617 non-null  object 
 5   Call Duration (in seconds)  92538 non-null  float64
 6   Call Status                 92617 non-null  object 
 7   Outgoing Call Status        83804 non-null  object 
 8   Scheduled in CRM            83804 non-null  float64
dtypes: float64(2), object(7)
memory usage: 7.1+ MB


In [None]:
calls_df['Call Start Time'] = pd.to_datetime(calls_df['Call Start Time'], format='%d.%m.%Y %H:%M', dayfirst=True, errors='raise')

In [None]:
category_columns = ['Call Owner Name', 'Call Type', 'Call Status', 'Outgoing Call Status', 'Scheduled in CRM']

for col in category_columns:
    calls_df[col] = calls_df[col].astype('category')

for col in ['Outgoing Call Status', 'Scheduled in CRM']:
    if 'Unknown' not in calls_df[col].cat.categories:
        calls_df[col] = calls_df[col].cat.add_categories(['Unknown'])
    calls_df[col] = calls_df[col].fillna('Unknown')

In [None]:
calls_df["CONTACTID"] = calls_df["CONTACTID"].fillna("Unknown")

-------------------------------------

# Вывод результатов  

-------------------------------------

In [None]:
calls_df.head()

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM
0,5805028000000805001,2023-06-30 08:43:00,John Doe,Unknown,Inbound,171.0,Received,Unknown,Unknown
1,5805028000000768006,2023-06-30 08:46:00,John Doe,Unknown,Outbound,28.0,Attended Dialled,Completed,0.0
2,5805028000000764027,2023-06-30 08:59:00,John Doe,Unknown,Outbound,24.0,Attended Dialled,Completed,0.0
3,5805028000000787003,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6.0,Attended Dialled,Completed,0.0
4,5805028000000768019,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11.0,Attended Dialled,Completed,0.0


In [None]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 92617 entries, 0 to 95873
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Id                          92617 non-null  object        
 1   Call Start Time             92617 non-null  datetime64[ns]
 2   Call Owner Name             92617 non-null  category      
 3   CONTACTID                   92617 non-null  object        
 4   Call Type                   92617 non-null  category      
 5   Call Duration (in seconds)  92538 non-null  float64       
 6   Call Status                 92617 non-null  category      
 7   Outgoing Call Status        92617 non-null  category      
 8   Scheduled in CRM            92617 non-null  category      
dtypes: category(5), datetime64[ns](1), float64(1), object(2)
memory usage: 4.0+ MB


In [None]:
calls_df

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM
0,5805028000000805001,2023-06-30 08:43:00,John Doe,Unknown,Inbound,171.0,Received,Unknown,Unknown
1,5805028000000768006,2023-06-30 08:46:00,John Doe,Unknown,Outbound,28.0,Attended Dialled,Completed,0.0
2,5805028000000764027,2023-06-30 08:59:00,John Doe,Unknown,Outbound,24.0,Attended Dialled,Completed,0.0
3,5805028000000787003,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6.0,Attended Dialled,Completed,0.0
4,5805028000000768019,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11.0,Attended Dialled,Completed,0.0
...,...,...,...,...,...,...,...,...,...
95869,5805028000056889515,2024-06-21 15:30:00,Ulysses Adams,5805028000056564231,Outbound,6.0,Attended Dialled,Completed,0.0
95870,5805028000056875317,2024-06-21 15:30:00,Victor Barnes,5805028000054867023,Outbound,8.0,Attended Dialled,Completed,0.0
95871,5805028000056832495,2024-06-21 15:30:00,Kevin Parker,5805028000010617278,Outbound,5.0,Attended Dialled,Completed,0.0
95872,5805028000056893619,2024-06-21 15:30:00,Victor Barnes,5805028000056839048,Outbound,0.0,Unattended Dialled,Completed,0.0


In [None]:
calls_df.to_excel("Calls (Result).xlsx", index=False)

=================================================================


# Очистка данных "Spend_df"  


=================================================================

In [None]:
df_path = '/content/Spend (Done).xlsx'
spend_df = load_data(df_path, 'xlsx')
spend_df.head()

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.0,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
2,2023-07-03,Facebook Ads,,0,0.0,0,,
3,2023-07-03,Google Ads,,0,0.0,0,,
4,2023-07-03,CRM,,0,0.0,0,,


In [None]:
spend_df["Date"] = pd.to_datetime(spend_df["Date"], errors="raise")

In [None]:
spend_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20779 entries, 0 to 20778
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         20779 non-null  datetime64[ns]
 1   Source       20779 non-null  object        
 2   Campaign     14785 non-null  object        
 3   Impressions  20779 non-null  int64         
 4   Spend        20779 non-null  float64       
 5   Clicks       20779 non-null  int64         
 6   AdGroup      13951 non-null  object        
 7   Ad           13951 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(4)
memory usage: 1.3+ MB


Удаление дубликатов

In [None]:
spend_df[(spend_df.Date == "2023-11-16") & (spend_df.Campaign == "04.07.23recentlymoved_DE")]

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
6754,2023-11-16,Facebook Ads,04.07.23recentlymoved_DE,18,0.16,0,recentlymoved,bloggersvideo3com
6758,2023-11-16,Facebook Ads,04.07.23recentlymoved_DE,2,0.02,0,recentlymoved,v9com
6763,2023-11-16,Facebook Ads,04.07.23recentlymoved_DE,940,11.35,23,recentlymoved,bloggersvideo4com
6764,2023-11-16,Facebook Ads,04.07.23recentlymoved_DE,20,0.28,0,recentlymoved,bloggersvideo2com


In [None]:
spend_dup = spend_df[spend_df.duplicated(subset=spend_df.columns[1:])]
spend_dup[spend_dup["Impressions"] !=0 ]

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
159,2023-07-08,Facebook Ads,05.07.23interests_DE,1,0.00,0,interest_dataanalytics – Copy,b3
332,2023-07-14,Facebook Ads,03.07.23women,1,0.00,0,women,b2
420,2023-07-17,Facebook Ads,05.07.23interests_DE,1,0.01,0,interest_dataanalytics,b2
421,2023-07-17,Facebook Ads,10.07.23wide_com_DE,1,0.00,0,wide,b4com
494,2023-07-18,Facebook Ads,04.07.23recentlymoved_DE,3,0.01,0,recentlymoved,b1
...,...,...,...,...,...,...,...,...
20553,2024-06-18,Facebook Ads,20.05.24interests_DE,2,0.05,0,interest_work,bloggersvideo13
20556,2024-06-18,Bloggers,,4,0.00,0,,
20576,2024-06-19,Facebook Ads,24.09.23retargeting_DE,1,0.00,0,retargeting,bloggersvideo13
20608,2024-06-19,Facebook Ads,20.05.24interests_DE,1,0.01,0,interest_work,bloggersvideo19com


In [None]:
spend_df.drop_duplicates(subset=spend_df.columns[1:], inplace=True)

In [None]:
spend_df[spend_df.duplicated(subset=spend_df.columns[1:])].shape

(0, 8)

Обработка пропусков

In [None]:
spend_df.isna().sum()

Unnamed: 0,0
Date,0
Source,0
Campaign,1253
Impressions,0
Spend,0
Clicks,0
AdGroup,2087
Ad,2087


In [None]:
spend_df[(spend_df["Campaign"].isna()) & (~spend_df.Ad.isna())]

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
4272,2023-09-26,SMM,,224,3.47,0,promoposts_b,promo2
4277,2023-09-26,SMM,,2,0.02,0,promoposts_b,promo1
4311,2023-09-27,SMM,,323,5.29,0,promoposts_b,promo1
4323,2023-09-27,SMM,,467,6.20,0,promoposts_b,promo2
4408,2023-09-28,SMM,,368,5.71,0,promoposts_b,promo2
...,...,...,...,...,...,...,...,...
10967,2024-02-06,Webinar,,59,0.50,0,wide,v2webinar
10976,2024-02-06,Webinar,,474,4.66,4,wide,v1webinar
10998,2024-02-07,Webinar,,676,9.06,7,wide,v2webinar
11037,2024-02-07,Webinar,,54,0.43,0,wide,v1webinar


In [None]:
spend_df[(~spend_df["Campaign"].isna()) & (spend_df.Ad.isna())]

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.00,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
19,2023-07-04,Google Ads,performancemax_eng_DE,35,0.01,1,,
20,2023-07-04,Google Ads,gen_analyst_DE,50,7.43,5,,
46,2023-07-05,Google Ads,gen_analyst_DE,117,6.10,7,,
...,...,...,...,...,...,...,...,...
20687,2024-06-20,Google Ads,brand_search_eng_DE,58,55.00,23,,
20711,2024-06-20,Google Ads,discovery_DE,83742,30.62,180,,
20725,2024-06-21,Google Ads,performancemax_eng_DE,1206,5.93,11,,
20732,2024-06-21,Google Ads,performancemax_wide_AT,731,5.19,7,,


In [None]:
spend_df[spend_df["Campaign"] == "performancemax_eng_DE"].sort_values(by="Spend").head(30)

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
19,2023-07-04,Google Ads,performancemax_eng_DE,35,0.01,1,,
20725,2024-06-21,Google Ads,performancemax_eng_DE,1206,5.93,11,,
905,2023-07-26,Google Ads,performancemax_eng_DE,6980,6.15,35,,
855,2023-07-25,Google Ads,performancemax_eng_DE,10952,6.26,55,,
18056,2024-05-15,Google Ads,performancemax_eng_DE,4862,8.28,27,,
6143,2023-11-02,Google Ads,performancemax_eng_DE,1714,9.29,45,,
98,2023-07-07,Google Ads,performancemax_eng_DE,3859,10.46,120,,
3703,2023-09-16,Google Ads,performancemax_eng_DE,8341,16.54,125,,
251,2023-07-11,Google Ads,performancemax_eng_DE,9316,24.44,272,,


In [None]:
spend_df.groupby(["Source", "Spend", "AdGroup"]).agg({"Campaign":'unique', "Impressions": 'sum'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Campaign,Impressions
Source,Spend,AdGroup,Unnamed: 3_level_1,Unnamed: 4_level_1
Facebook Ads,0.00,LAL1,[07.07.23LAL_DE],32
Facebook Ads,0.00,b,[15.07.23b_DE],2
Facebook Ads,0.00,berlin_wide,[09.02.24berlin_dd_DE],4
Facebook Ads,0.00,interest_all,[02.08.23interests_DE],7
Facebook Ads,0.00,interest_dataanalytics,[05.07.23interests_DE],8
...,...,...,...,...
Youtube Ads,70.38,Com_august,[youtube_shorts_DE],27751
Youtube Ads,85.11,Com_august,[youtube_shorts_DE],43308
Youtube Ads,85.85,Com_august,[youtube_shorts_DE],31777
Youtube Ads,98.34,Com_august,[youtube_shorts_DE],52459


In [None]:
group = spend_df.groupby(["Ad", "Campaign"]).agg({"Campaign":'nunique'}).drop(columns=["Campaign"]).reset_index()
group

Unnamed: 0,Ad,Campaign
0,Austria_video1,youtube_shortsin_AT
1,Austria_video2,youtube_shortsin_AT
2,Austria_video3,youtube_shortsin_AT
3,ad1,youtube_shorts_DE
4,ad2,youtube_shorts_DE
...,...,...
416,web_b1,web2408_DE
417,web_b2,web2408_DE
418,web_b3,web2408_DE
419,web_b4,web2408_DE


In [None]:
group[group["Ad"] == "v2webinar"]

Unnamed: 0,Ad,Campaign
333,v2webinar,01.02.24wide_webinar_DE
334,v2webinar,15.11.23wide_webinar_DE


===================================================================


# Очистка данных "Deals_df"   


===================================================================

In [None]:
path = '/content/Deals (Done).xlsx'
deals_df = load_data(path, 'xlsx', dtype={'Id': str, 'Contact Name': str})
deals_df.head()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,SLA,Content,...,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch
0,5805028000056864695,Ben Hall,,,New Lead,,/eng/test,03.07.23women,,v16,...,,,21.06.2024 15:30,,,,,5805028000056849495,,
1,5805028000056859489,Ulysses Adams,,,New Lead,,/at-eng,,,,...,Web Developer,Morning,21.06.2024 15:23,6.0,,0.0,2000.0,5805028000056834471,,
2,5805028000056832357,Ulysses Adams,21.06.2024,D - Non Target,Lost,Non target,/at-eng,engwien_AT,00:26:43,b1-at,...,,,21.06.2024 14:45,,,,,5805028000056854421,,
3,5805028000056824246,Eva Kent,21.06.2024,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,01:00:04,bloggersvideo14com,...,,,21.06.2024 13:32,,,,,5805028000056889351,,
4,5805028000056873292,Ben Hall,21.06.2024,D - Non Target,Lost,Non target,/eng,discovery_DE,00:53:12,website,...,,,21.06.2024 13:21,,,,,5805028000056876176,,


В столбце SLA время приведем к единому виду - секунды

In [None]:
deals_df["Created Time"] = pd.to_datetime(deals_df["Created Time"], errors="raise")
deals_df["Closing Date"] = pd.to_datetime(deals_df["Closing Date"], errors="raise")

  deals_df["Created Time"] = pd.to_datetime(deals_df["Created Time"], errors="raise")
  deals_df["Closing Date"] = pd.to_datetime(deals_df["Closing Date"], errors="raise")


In [None]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21595 entries, 0 to 21594
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   21593 non-null  object 
 1   Deal Owner Name      21564 non-null  object 
 2   Closing Date         14645 non-null  object 
 3   Quality              19340 non-null  object 
 4   Stage                21593 non-null  object 
 5   Lost Reason          16124 non-null  object 
 6   Page                 21593 non-null  object 
 7   Campaign             16067 non-null  object 
 8   SLA                  15533 non-null  object 
 9   Content              14147 non-null  object 
 10  Term                 12454 non-null  object 
 11  Source               21593 non-null  object 
 12  Payment Type         496 non-null    object 
 13  Product              3592 non-null   object 
 14  Education Type       3300 non-null   object 
 15  Created Time         21593 non-null 

In [None]:
deals_df['SLA'].value_counts()

Unnamed: 0_level_0,count
SLA,Unnamed: 1_level_1
00:10:11,6
00:10:46,6
00:11:09,6
00:15:37,5
00:17:43,5
...,...
00:03:22,1
03:52:09,1
00:04:47,1
00:00:27,1


In [None]:
deals_df["SLA"].apply(type).value_counts()

Unnamed: 0_level_0,count
SLA,Unnamed: 1_level_1
<class 'datetime.time'>,13672
<class 'float'>,6062
<class 'datetime.timedelta'>,1861


In [None]:
def convert_to_seconds(x):
    if pd.isna(x):
        return np.nan
    elif isinstance(x, datetime.time):
        return x.hour * 3600 + x.minute * 60 + x.second
    elif isinstance(x, datetime.timedelta):
        return x.total_seconds()

deals_df['SLA Seconds'] = deals_df["SLA"].apply(convert_to_seconds)
deals_df['SLA Seconds'].value_counts()

Unnamed: 0_level_0,count
SLA Seconds,Unnamed: 1_level_1
611.0,6
646.0,6
669.0,6
937.0,5
1063.0,5
...,...
202.0,1
13929.0,1
287.0,1
27.0,1


In [None]:
deals_df.drop(columns=['SLA'], inplace=True)

In [None]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21595 entries, 0 to 21594
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id                   21593 non-null  object        
 1   Deal Owner Name      21564 non-null  object        
 2   Closing Date         14645 non-null  datetime64[ns]
 3   Quality              19340 non-null  object        
 4   Stage                21593 non-null  object        
 5   Lost Reason          16124 non-null  object        
 6   Page                 21593 non-null  object        
 7   Campaign             16067 non-null  object        
 8   Content              14147 non-null  object        
 9   Term                 12454 non-null  object        
 10  Source               21593 non-null  object        
 11  Payment Type         496 non-null    object        
 12  Product              3592 non-null   object        
 13  Education Type       3300 non-n

Обработка пропусков

In [None]:
deals_df.isna().sum()

Unnamed: 0,0
Id,2
Deal Owner Name,31
Closing Date,6950
Quality,2255
Stage,2
Lost Reason,5471
Page,2
Campaign,5528
Content,7448
Term,9141


In [None]:
mode_values = deals_df.groupby('Contact Name')['City'].agg(lambda x: x.mode()[0] if not x.mode().empty else None)
deals_df['City'] = deals_df['Contact Name'].map(mode_values)
# deals_df.set_index("Contact Name", inplace=True)
# deals_df.loc[deals_df['City'].isnull(), 'City'] = deals_df['City'].fillna(mode_values)

In [None]:
mode_values = deals_df.groupby('Contact Name')['Level of Deutsch'].agg(lambda x: x.mode()[0] if not x.mode().empty else None)
deals_df['Level of Deutsch'] = deals_df['Contact Name'].map(mode_values)

In [None]:
deals_df.isna().sum()

Unnamed: 0,0
Id,2
Deal Owner Name,31
Closing Date,6950
Quality,2255
Stage,2
Lost Reason,5471
Page,2
Campaign,5528
Content,7448
Term,9141


# Анализ столбцов Offer Total Amount и Initial Amount Paid
убрать симовлы валюты, запятые, точки. привести к типу данных float

In [None]:
deals_df[deals_df['Offer Total Amount'].notna()]

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,...,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
1,5805028000056859489,Ulysses Adams,NaT,,New Lead,,/at-eng,,,,...,Morning,2024-06-21 15:23:00,6.0,,0,2000,5805028000056834471,,,
56,5805028000056683030,Charlie Davis,NaT,C - Low,Waiting For Payment,,/eng/test,performancemax_eng_DE,_{region_name}_,,...,Morning,2024-06-20 12:34:00,6.0,,1000,9000,5805028000056690015,Crailsheim,,1239.0
60,5805028000056558351,Ulysses Adams,NaT,C - Low,Waiting For Payment,,/eng,,,,...,Morning,2024-06-20 11:16:00,6.0,,1000,9000,5805028000056578244,Dortmund,в1,589.0
65,5805028000056555140,Paula Underwood,NaT,B - Medium,Waiting For Payment,,/eng,03.07.23women,v16,women,...,Morning,2024-06-20 08:48:00,11.0,,1000,11000,5805028000056576103,Stuttgart,,6911.0
71,5805028000056564131,Ben Hall,NaT,D - Non Target,Waiting For Payment,,/eng,20.05.24interests_DE,bloggersvideo14com,interest_work,...,Morning,2024-06-19 22:31:00,11.0,,1000,11000,5805028000056575100,München,A2,46299.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21574,5805028000001020028,Jane Smith,2023-11-03,C - Low,Lost,Changed Decision,eng/digital-marketing,performancemax_digitalmarkt_ru_DE,_{region_name}_,,...,,2023-07-06 04:14:00,11.0,,1000,11500,5805028000001079018,,,118014.0
21578,5805028000001040014,Quincy Vincent,2023-07-14,C - Low,Lost,Conditions are not suitable,eng/digital-marketing,02.07.23wide_DE,b3,wide,...,Morning,2023-07-05 18:06:00,11.0,,1000,11000,5805028000001073001,Brake,,757336.0
21585,5805028000000935081,Julia Nelson,NaT,D - Non Target,Call Delayed,,eng/digital-marketing,03.07.23women,b3,women,...,Morning,2023-07-04 11:46:00,11.0,,1000,11500,5805028000000971007,,,6131573.0
21586,5805028000000947046,Oliver Taylor,NaT,B - Medium,Payment Done,,eng/digital-marketing,02.07.23wide_DE,b3,wide,...,Morning,2023-07-04 10:11:00,11.0,11.0,1000,11000,5805028000000939010,Hamburg,,6137182.0


In [None]:
deals_df['Offer Total Amount'].value_counts()

Unnamed: 0_level_0,count
Offer Total Amount,Unnamed: 1_level_1
11000,1860
0,848
11500,394
5000,295
4000,252
3500,133
9000,115
2500,70
2000,63
3000,58


In [None]:
deals_df['Initial Amount Paid'].value_counts()

Unnamed: 0_level_0,count
Initial Amount Paid,Unnamed: 1_level_1
1000,2623
0,876
300,188
500,94
350,82
2000,58
11000,38
200,31
11500,25
3500,22


Изменим формат столбцов, чтоб в дальнейшем провести изменения в других столбцах

In [None]:
# deals_df['Offer Total Amount'] \
#     .replace(r'[€]', '', regex=True) \
#     .replace(r'\s+', '', regex=True) \
#     .replace(r'\.', '', regex=True) \
#     .replace(r',', '.', regex=True) \
#     .astype(float).value_counts()

In [None]:
deals_df['Initial Amount Paid'] = deals_df['Initial Amount Paid'] \
    .replace(r'[€]', '', regex=True) \
    .replace(r'\s+', '', regex=True) \
    .replace(r'\.', '', regex=True) \
    .replace(r',', '.', regex=True) \
    .astype(float)

deals_df['Offer Total Amount'] = deals_df['Offer Total Amount'] \
    .replace(r'[€]', '', regex=True) \
    .replace(r'\s+', '', regex=True) \
    .replace(r'\.', '', regex=True) \
    .replace(r',', '.', regex=True) \
    .astype(float)

In [None]:
deals_df['Offer Total Amount'].value_counts()

Unnamed: 0_level_0,count
Offer Total Amount,Unnamed: 1_level_1
11000.0,1860
0.0,848
11500.0,394
5000.0,295
4000.0,252
3500.0,133
9000.0,115
2500.0,70
2000.0,63
3000.0,58


In [None]:
deals_df['Initial Amount Paid'].value_counts()

Unnamed: 0_level_0,count
Initial Amount Paid,Unnamed: 1_level_1
1000.0,2623
0.0,876
300.0,188
500.0,94
350.0,82
2000.0,58
3500.0,38
11000.0,38
200.0,31
11500.0,25


In [None]:
deals_df['Offer Total Amount'].fillna(0,inplace=True)
deals_df['Initial Amount Paid'].fillna(0,inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  deals_df['Offer Total Amount'].fillna(0,inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  deals_df['Initial Amount Paid'].fillna(0,inplace=True)


In [None]:
import pickle

In [None]:
deals_df["Level of Deutsch"].unique()

array([None, 'б1', 'в1', 'A2', 'в2', 'b1', 'В1', 'B1', 'в1-в2', 'А2-В1',
       'А2 ( Б1 в июне)', '-', 'B2', 'C2', 'с1', 'Б1', 'Б2',
       'b1 ждет результаты', 'а2', 'Б1( может будет)', 'а1', 'С1',
       'a2 (b1 экзамен 15 июня)', 'а0', 'б2', 'А2',
       'B1 будет в феврале 2025', 'Detmold, Paulinenstraße 95, 32756',
       'Сам оценивает на B2, 13 лет живет в Германии', 'В1-В2',
       'Б1 ( ждет Б2)',
       'lэкзамен - 6 июля на В1. курсы вечером (но уверенно говорит на B1)',
       'Гражданка Германии уже год в Германии Учит немецкий и в сентябре b1 через гос-во проходит, а не через ДЖЦ, вечером учится 3 р в неделю с 18 до 21',
       'B1 в процессе обучения',
       'ЯЗ: нем В1 был экз 03.05 повтор и сейчас ждет результаты. Технический англ был. А1 сейчас. ОБР: 2 во информационные и комп сети - инженер системоте',
       'В1 в сентябре', 'Нет', 0, 'Ждем B1', 'А1 сертиф, но по факту А2',
       'a2', 'Пока А2, сдает 17 05 B1', 'окончание 13.06 курса на b1',
       'A1', 'b2', 

Deals уровень немецкого

In [None]:
replace_dict = {
    'в1': 'B1', 'б1': 'B1', 'b1': 'B1', 'B1': 'B1', 'в1-в2': 'B1-B2', 'B2': 'B2',
    'C2': 'C2', 'с1': 'C1', 'Б1': 'B1', 'а2': 'A2', 'а1': 'A1', 'а0': 'A0',
    'б2': 'B2', 'Б2': 'B2', 'В1': 'B1', 'А2': 'A2', 'B1 будет в феврале 2025': 'B1',
    'Detmold, Paulinenstraße 95, 32756': 'Неизвестно', 'Сам оценивает на B2, 13 лет живет в Германии': 'B2',
    'в2': 'B2', 'В1-В2': 'B1-B2', 'Б1 ( ждет Б2)': 'B1-B2', 'А2-В1': 'A2-B1',
    'lэкзамен - 6 июля на В1. курсы вечером (но уверенно говорит на B1)': 'B1',
    'Гражданка Германии уже год в Германии Учит немецкий и в сентябре b1 через гос-во проходит, а не через ДЖЦ, вечером учится 3 р в неделю с 18 до 21': 'B1',
    '-': 'A0', 'А2 ( Б1 в июне)': 'A2-B1', 'B1 в процессе обучения': 'B1',
    'ЯЗ: нем В1 был экз 03.05 повтор и сейчас ждет результаты. Технический англ был. А1 сейчас. ОБР: 2 во информационные и комп сети - инженер системоте': 'B1',
    'В1 в сентябре': 'B1', 'Нет': 'Неизвестно', 'С1': 'C1', 0: 'A0',
    'Ждем B1': 'B1', 'А1 сертиф, но по факту А2': 'A2', 'a2': 'A2', 'Пока А2, сдает 17 05 B1': 'A2-B1',
    'окончание 13.06 курса на b1': 'B1', 'A1': 'A1', 'b2': 'B2', 'Thorn-Prikker-Str. 30, Hagen, 58093': 'Неизвестно',
    'В2': 'B2', 'нулевой уровень, только пошел на курсы.': 'A0', 'ая в1': 'B1',
    'Ждет результат по B1': 'B1', 'А2( ждет итоги Б!)': 'A2-B1', 'b1 экзамен будет 12 апреля': 'B1',
    'b1 (b2 ждет серт)': 'B1-B2', 'С2': 'C2', 'ждем B1': 'B1', 'Paderborn 33102, Schwabenweg 10': 'Неизвестно',
    'b1 (B2 ждет серт)': 'B1-B2', 'Ждем B1 со дня на день': 'B1', 'Б2 ( учит С1)': 'B2-C1',
    'B1 еще нет результата': 'B1', '31.05.2024': 'Неизвестно', 'Lichtenfelser Straße 25, Untersiemau 96253': 'Неизвестно',
    'Учиться до сентября на B1': 'B1', 'b1 9ждет экзамен)': 'B1', 'b1+': 'B1', 'гражданка': 'B2',
    'b1 (ждет результат)': 'B1', 'Б1 (учит Б2)': 'B1-B2', 'б2+': 'B2', 'Гражданин': 'B2',
    '25 лет живет в Германии': 'C1', 'С1 -ая , Ня -а1': 'C1', 'Ждем результат по B1': 'B1',
    'b1 (b2 в июле экзамен)': 'B1-B2', 'Ждет со дня на день В1': 'B1',
    'А2 (В1 с 3 раза не сдала, бератер видела наши доки)': 'A2-B1', 'b1 (ждет результаты)': 'B1',
    'А2 ( повтор на Б1)': 'A2-B1', 'B1, сдает B2 в апреле': 'B1-B2', 'ждет сертификат B1': 'B1',
    'Б2( 16.02 экзамен С1)': 'B2-C1', 'А1-А2': 'A1-A2', 'b1 ждет серт на днях на руки': 'B1',
    'b1 24 февраля экзамен, англ b2': 'B1-B2', 'А2 ( скоро екзамен)': 'A2', 'B1 (ждет результаты В2)': 'B1-B2',
    'b1 (b2 15 марта экзамен)': 'B1-B2', 'b2 (с1 экзамен 16 февраля)': 'B2-C1', 'Б1 ( ждет итог Б2)': 'B1-B2',
    'не сдавал, но гражданин': 'B2', 'Нет сертификатов, но есть С1 англ, неоконченное высшее в ИТ (и еще одно высшее юридическое) , очень хочет в ИТ, сильно замотивирована именно н': 'Неизвестно',
    'А2, в процессе Б1': 'A2-B1', 'A0': 'A0', 'А2(Б1 в марте экз)': 'A2-B1', 'учит A2': 'A2',
    'Б1 ( проходит Б2)': 'B1-B2', 'Б1 ( ждет итог )': 'B1-B2', 'НЯ - В1, АЯ - В1': 'B1',
    'б1 (ждет рез-тат)': 'B1', 'А2(ждет итоги Б1)': 'A2-B1', 'в1-ня , в1-ая': 'B1',
    'ня-0, но англ B2+': 'A0', 'В': 'B1', 'будет B1 в июне': 'B1',
    'А2( включили нем в ангебот)': 'A2', 'а2-в1': 'A2-B1', 'в2-с1': 'B2-C1',
    'курс А2-В1 - сдача в июле, но вечерняя смена инт курсов, настроен получить гутшайн уже сейчас.': 'A2-B1',
    'B1 (B2 должна до конца февраля получить)': 'B1-B2', 'b1 (b2 экзамен 6 февраля)': 'B1-B2',
    'A1-A2': 'A1-A2', 'Б1( может будет)': 'B1', 'А2 ( в процессе Б1)': 'A2-B1',
    'b1 ждет результаты': 'B1', 'b1 ждет экзамен в феврале': 'B1', 'В1, может уже В2?': 'B1-B2',
    'A2 (идет доучивать В1 - 300 часов; предположительно до августа)': 'A2-B1', 'не учил': 'A0',
    'Без 5 минут B1 (ждет результаты экзамена)': 'B1', 'а1-а2 , ая свободный': 'A1-A2', 'b2-c2': 'B2',
    'а2, англ B1': 'A2', 'А1': 'A1', 'А2 нем -В2 англ': 'A2', 'Проходит сейчас B1': 'B1',
    'Ждет результат по B1 в феврале': 'B1', 'Проходит сейчас повторно B1': 'B1',
    'b1 экзамен в феврале': 'B1', 'Учиться на B1 во вторую смену, в первую хочет получить одобрение на обучение у нас': 'B1',
    'Б10Б2': 'B2', 'Б1?': 'B1', 'B1 есть, ждем B2 в конце месяца': 'B1-B2', 'B1-B2': 'B1-B2',
    '?': 'Неизвестно', 'b1 экзамен 26 января': 'B1', 'А0': 'A0', 'а2 (б1 в сер января)': 'A2-B1',
    'f2': 'A2', 'Учиться на B1': 'B1', 'Сдала экзамен на B1, ждет в начале февраля результат': 'B1',
    'Сдавал 8 12 на B1 - ждет результат. 3 01 - аплейт - получил B1!': 'B1', 'Б1-Б2': 'B1-B2',
    'б1 (до июля на В2)': 'B1-B2', 'А2 ( Б1 март )': 'A2-B1', 'А2 (весной - еще 300 часов В1)': 'A2-B1',
    'В январе будут результаты по экзамену на B1': 'B1', 'б2 (с1 ждет рез-тат)': 'B2-C1',
    'ня-0, ая-B1': 'A0', 'А2-Б1': 'A2-B1', 'B1 (почти, не сдала чуть) + англ В1': 'B1',
    'в1 ждем результаты': 'B1', 'А2 ( хочет просить совмещать)': 'A2', 'B1 (ждет результаты)': 'B1',
    'А2+': 'A2', 'а2 (сдавала экз В1, но не сдала похоже)': 'A2', 'в1, идет на в2': 'B1-B2',
    'b2-c1': 'B2-C1', 'C1': 'C1', 'b1-b2': 'B1-B2', 'не учила ( разговорный) сразу пошла работать': 'B2',
    'Б1 ( проходит Б2 )': 'B1-B2', 'a0-a1': 'A0', 'Б1 ( был екзамен ждет итог )': 'B1',
    'Б2-С1': 'B2-C1', 'b1 (учила, но не сдала В2)': 'B1', 'ня а2, ая в1': 'A2-B1',
    'A2 (идет на В1)': 'A2-B1', 'B2-C2': 'B2', 'немецкий - а1-а2, англ b1-b2': 'A2',
    'B2+': 'B2', 'в1, еще нет сертификата': 'B1', 'б1-б2': 'B1-B2', 'Бй': 'B1',
    'ждет результаты по B1 экзамену': 'B1', 'b2 (ждет серт)': 'B2', 'никакой': 'A0',
    'в1 , хочет совмещать с в2': 'B1-B2', 90: 'Неизвестно', '.': 'Неизвестно',
    'в1 (уже сдала В2)': 'B2', 'b1 результат экзамена в феврале': 'B1',
    'в1 , экзамен на в2 15 декабря': 'B1-B2', 'идет на А1': 'A1', 'УТОЧНИТЬ!': 'Неизвестно',
    'B2 (говорит без проблем - давно здесь)': 'B2', 'B1 (до февраля)': 'B1',
    'А2 ( Б2 в процессе)': 'B1', 'C': 'C1', 'б1 заканчивает': 'B1', 'B1 (B2 экзамен в январе)': 'B1-B2',
    '5 июля 2024 сдает экз на В2': 'B2', 'А2 (заканчив В1 в июне)': 'A2-B1',
    'a2-б1': 'A2-B1', 'В1?': 'B1', 'b1 будет в январе экзамен, готов совмещать': 'B1',
    'b1 (b2 экзамен 2 марта)': 'B1-B2', 'B1 немецкий и английский Advance': 'B1',
    'A': 'A1', 'a2 (b1 экзамен 15 июня)': 'A2-B1', 'B2 (ждет итог экзамена)': 'B2',
    'b1 (b2 не сдал экзамен)': 'B1', 'В1 (учится на В2 до авг.': 'B1-B2',
    'В2 - не сдал': 'B2', 'B2+ (не сдавал, но говорит)': 'B2', 'b1 (ждет серт)': 'B1',
    'B1 вроде был (18 лет назад сдавал)': 'B1', 'А2 (сдает B1 - 12 дек) - не сдал!': 'A2',
    'УТОЧНИТЬ': 'Неизвестно', 'b2 ждет серт': 'B2', 'разговорный из украины, без сертификата': 'B2',
    'Ждет B1': 'B1', 'сдавала А2 в сентябре': 'A2', 'В1, учится на В2 до няоб 24': 'B1-B2',
    'Б1 ( ждет результат Б2)': 'B1-B2', 'точно уровень не знаю, но говорить могу - учила сама': 'B2',
    'А2-В1 учит': 'A2-B1', 'В1 (учится на В2 уже)': 'B1', 'В январе - В2 сдает': 'B2',
    'b1 должна получить результаты в феврале': 'B1'
}
deals_df['Level of Deutsch'] = deals_df['Level of Deutsch'].replace(replace_dict).fillna("Неизвестно")

In [None]:
deals_df['Level of Deutsch'].unique()

array(['Неизвестно', 'B1', 'A2', 'B2', 'B1-B2', 'A2-B1', 'A0', 'C2', 'C1',
       'A1', 'B2-C1', 'A1-A2'], dtype=object)

In [None]:
deals_df['Level of Deutsch'].value_counts()

Unnamed: 0_level_0,count
Level of Deutsch,Unnamed: 1_level_1
Неизвестно,19963
B1,992
B2,225
A2,166
B1-B2,101
A2-B1,44
C1,36
A0,27
A1,25
B2-C1,9


In [None]:
replace_take_two = {"B1-B2": "B2", 'A2-B1': 'B1', 'B2-C1': 'C1', 'A1-A2': "A2"}
deals_df['Level of Deutsch'] = deals_df['Level of Deutsch'].replace(replace_take_two)

In [None]:
deals_df['Level of Deutsch'].unique()

array(['Неизвестно', 'B1', 'A2', 'B2', 'A0', 'C2', 'C1', 'A1'],
      dtype=object)

In [None]:
deals_df.tail()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,SLA,Content,...,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch
21590,5.805028000000945e+18,Jane Smith,29.08.2023,A - High,Lost,Changed Decision,eng/digital-marketing,02.07.23wide_DE,"56 days, 19:01:59",b3,...,,,03.07.2023 20:39,,,,,5.805028000000968e+18,,
21591,5.805028000000927e+18,Bob Brown,09.07.2023,D - Non Target,Lost,Does not speak English,eng/digital-marketing,03.07.23women,,b3,...,,,03.07.2023 20:17,,,,,5.80502800000096e+18,,
21592,5.805028000000922e+18,Bob Brown,03.07.2023,E - Non Qualified,Lost,Refugee,/,,"4 days, 22:47:14",,...,,,03.07.2023 17:03,,,0.0,0.0,5.805028000001009e+18,,
21593,,,,,,,,,,,...,,,,,,,,,,
21594,,,,,,,,,,,...,,#REF!,,,,,,,,


☑ Удалены строки с отсутствующими значениями в столбце «Id» для обеспечения целостности данных и избежания ошибок в анализе.  

In [None]:
deals_df.dropna(subset=["Id"], inplace=True)

In [None]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21593 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   21593 non-null  object 
 1   Deal Owner Name      21564 non-null  object 
 2   Closing Date         14645 non-null  object 
 3   Quality              19340 non-null  object 
 4   Stage                21593 non-null  object 
 5   Lost Reason          16124 non-null  object 
 6   Page                 21593 non-null  object 
 7   Campaign             16067 non-null  object 
 8   SLA                  15533 non-null  object 
 9   Content              14147 non-null  object 
 10  Term                 12454 non-null  object 
 11  Source               21593 non-null  object 
 12  Payment Type         496 non-null    object 
 13  Product              3592 non-null   object 
 14  Education Type       3299 non-null   object 
 15  Created Time         21593 non-null  obje

--------------------------------------

# Преобразования типов данных  

--------------------------------------

In [None]:
print(deals_df['Initial Amount Paid'].unique())
print(deals_df['Offer Total Amount'].unique())

[nan 0 1000 '€ 3.500,00' 500 100 4500 300 200 2000 11000 4000 3000 3500
 11500 1200 1500 1 5000 600 700 350 9 400 450]
[nan 2000 9000 11000 3500 4500 '€ 2.900,00' 6500 4000 3000 10000 2500 5000
 11500 1 1000 1200 0 1500 '€ 11398,00' 11111 6000]


In [None]:
def clean_currency_col(df, col_name):
    df[col_name] = (df[col_name]
                       .replace(r'[€]', '', regex=True)
                       .replace(r'\s+', '', regex=True)
                       .replace(r'\.', '', regex=True)
                       .replace(r',', '.', regex=True)
                       .astype(float))
    return df

In [None]:
deals_df = clean_currency_col(deals_df, 'Initial Amount Paid')
deals_df = clean_currency_col(deals_df, 'Offer Total Amount')

In [None]:
def convert_to_seconds(x):
    if pd.isna(x):
        return np.nan
    elif isinstance(x, datetime.time):
        return x.hour * 3600 + x.minute * 60 + x.second
    elif isinstance(x, datetime.timedelta):
        return x.total_seconds()

deals_df['SLA Seconds'] = deals_df["SLA"].apply(convert_to_seconds)
deals_df['SLA Seconds'].value_counts()

Unnamed: 0_level_0,count
SLA Seconds,Unnamed: 1_level_1
611.0,6
646.0,6
669.0,6
937.0,5
1063.0,5
...,...
202.0,1
13929.0,1
287.0,1
27.0,1


In [None]:
deals_df.drop(columns=['SLA'], inplace=True)

In [None]:
deals_df['Closing Date'] = pd.to_datetime(deals_df['Closing Date'], format='%d.%m.%Y', dayfirst=True, errors='raise')
deals_df['Created Time'] = pd.to_datetime(deals_df['Created Time'], format='%d.%m.%Y %H:%M', dayfirst=True, errors='raise')
deals_df[['Course duration', 'Months of study']] = deals_df[['Course duration',  'Months of study']].astype('Int8')

------------------------------------

# Обработка пропущенных значений и стандартизация данных  

-------------------------------------

☑ Мы заполняем столбец наиболее распространенным городом для каждого «Имени контакта», вставляя отсутствующие или несоответствующие значения города на основе режима для каждого контакта. Это помогает стандартизировать данные и повысить их надежность для анализа.

In [None]:
mode_values = deals_df.groupby(
    'Contact Name')['City'].agg(lambda x: x.mode()[0] if not x.mode()\
                           .empty else None)
deals_df['City'] = deals_df['Contact Name'].map(mode_values)

In [None]:
deals_df['Level of Deutsch'].unique()

array(['Unknown', 'B1', 'A2', 'B2', 'A0', 'C2', 'C1', 'A1'], dtype=object)

In [None]:
deals_df['Course duration'].value_counts()

Unnamed: 0_level_0,count
Course duration,Unnamed: 1_level_1
11,3012
6,575


In [None]:
mode_duration = deals_df.groupby('Product')['Course duration'].agg(lambda x: x.mode()[0] if not x.mode().empty else None)
mode_duration

Unnamed: 0_level_0,Course duration
Product,Unnamed: 1_level_1
Data Analytics,
Digital Marketing,11.0
Find yourself in IT,
UX/UI Design,11.0
Web Developer,6.0


☑ «Цифровой маркетинг» — это тот же курс «Аналитика данных». Чтобы обеспечить единообразие и избежать путаницы в анализе, я стандартизировала значения, переименовав все экземпляры «Аналитики данных» в «Цифровой маркетинг».

In [None]:
deals_df['Product'] = deals_df['Product'].replace('Data Analytics', 'Digital Marketing')

In [None]:
deals_df['Education Type'].value_counts()

Unnamed: 0_level_0,count
Education Type,Unnamed: 1_level_1
Morning,2895
Evening,404


In [None]:
deals_df[deals_df['Education Type'].isna()][['Education Type', 'Course duration', 'Offer Total Amount']].isna().sum()

Unnamed: 0,0
Education Type,18294
Course duration,17997
Offer Total Amount,17303


In [None]:
mode_education = deals_df.groupby('Product')['Education Type'].agg(lambda x: x.mode()[0] if not x.mode().empty else None)
mode_education

Unnamed: 0_level_0,Education Type
Product,Unnamed: 1_level_1
Digital Marketing,Morning
Find yourself in IT,
UX/UI Design,Morning
Web Developer,Morning


In [None]:
mode_education = deals_df.groupby(
    ['Offer Total Amount', 'Course duration', 'Product']
)['Education Type'].agg(lambda x: x.mode().iloc[0] if not x.mode().empty else None)
mode_education

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Education Type
Offer Total Amount,Course duration,Product,Unnamed: 3_level_1
0.0,11,Digital Marketing,Evening
1000.0,6,Web Developer,Morning
1200.0,11,Digital Marketing,Morning
1500.0,11,Digital Marketing,Morning
1500.0,11,UX/UI Design,Morning
2000.0,6,Web Developer,Morning
2000.0,11,UX/UI Design,Evening
2500.0,6,Web Developer,Morning
2500.0,11,Digital Marketing,Morning
2500.0,11,UX/UI Design,Evening


☑ Мы заполняем пропущенные значения в «Типе образования» наиболее частым типом для каждой комбинации «Общая сумма предложения», «Продолжительность курса» и «Продукт». Это обеспечивает единообразие данных и повышает точность анализа.

In [None]:
mode_education = deals_df.groupby(
    ['Offer Total Amount', 'Course duration', 'Product']
)['Education Type'].agg(lambda x: x.mode().iloc[0] if not x.mode().empty else None).reset_index()

deals_df = deals_df.merge(mode_education, on=['Offer Total Amount', 'Course duration', 'Product'], how='left', suffixes=('', '_mode'))

deals_df['Education Type'] = deals_df['Education Type'].fillna(deals_df['Education Type_mode'])

deals_df.drop(columns=['Education Type_mode'], inplace=True)

In [None]:
deals_df['Education Type'].isna().sum()

np.int64(17998)

In [None]:
deals_df.isna().sum()

Unnamed: 0,0
Id,2
Deal Owner Name,31
Closing Date,6950
Quality,2255
Stage,2
Lost Reason,5471
Page,2
Campaign,5528
Content,7448
Term,9141


☑ Мы заполняем пропущенные значения в «Имя контакта» для «Неизвестно». Это гарантирует, что все данные будут сохранены во время группировки и сопоставления, предотвращая ошибки и пропущенные значения. Это также упрощает фильтрацию и анализ, избегая неопределенных записей.  

In [None]:
deals_df['Contact Name'] = deals_df['Contact Name'].fillna('Unknown')

In [None]:
print(deals_df['Course duration'].unique())
print(deals_df['Months of study'].unique())

[nan  6. 11.]
[nan  1.  0.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]


In [None]:
deals_df[deals_df['Deal Owner Name'].isna()][['Deal Owner Name', 'Offer Total Amount', 'Initial Amount Paid']].isna().sum()

Unnamed: 0,0
Deal Owner Name,31
Offer Total Amount,0
Initial Amount Paid,0


In [None]:
deals_df[deals_df['Deal Owner Name'].isna()][['Deal Owner Name', 'Offer Total Amount', 'Initial Amount Paid']]

Unnamed: 0,Deal Owner Name,Offer Total Amount,Initial Amount Paid
14007,,0.0,0.0
18834,,0.0,0.0
18954,,0.0,0.0
19054,,0.0,0.0
19150,,0.0,0.0
19248,,0.0,0.0
19254,,0.0,0.0
19337,,0.0,0.0
19382,,0.0,0.0
19438,,0.0,0.0


☑ Мы удаляем строки, где имя владельца сделки — NaN, поскольку общая сумма предложения и начальная уплаченная сумма в них равны нулю, поскольку они не предоставляют полезной информации и могут исказить анализ данных.

In [None]:
deals_df = deals_df.dropna(subset=['Deal Owner Name'])

In [None]:
deals_df['Deal Owner Name'].isna().sum()

np.int64(0)

In [None]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21564 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id                   21564 non-null  object        
 1   Deal Owner Name      21564 non-null  object        
 2   Closing Date         14638 non-null  datetime64[ns]
 3   Quality              19311 non-null  object        
 4   Stage                21564 non-null  object        
 5   Lost Reason          16118 non-null  object        
 6   Page                 21564 non-null  object        
 7   Campaign             16040 non-null  object        
 8   Content              14123 non-null  object        
 9   Term                 12431 non-null  object        
 10  Source               21564 non-null  object        
 11  Payment Type         495 non-null    object        
 12  Product              3592 non-null   object        
 13  Education Type       3596 non-null  

In [None]:
deals_df['Quality'].value_counts()

Unnamed: 0_level_0,count
Quality,Unnamed: 1_level_1
E - Non Qualified,7633
D - Non Target,6248
C - Low,3442
B - Medium,1556
A - High,429
F,3


In [None]:
deals_df = deals_df[deals_df['Quality'] != 'F']

--------------------------------------

# Удаление дубликатов

--------------------------------------

In [None]:
deals_df = deals_df[deals_df['Lost Reason'] != 'Duplicate']

In [None]:
deals_df.duplicated(subset=deals_df.columns[1:]).sum()

np.int64(5)

In [None]:
deals_df[deals_df.duplicated(keep=False, subset=deals_df.columns[1:])]

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,...,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
1067,5805028000054269273,John Doe,NaT,,New Lead,,/webinar,,,,...,,2024-06-10 12:37:00,,,0.0,0.0,5805028000005448163,,Неизвестно,
1069,5805028000054269205,John Doe,NaT,,New Lead,,/webinar,,,,...,,2024-06-10 12:37:00,,,0.0,0.0,5805028000005448163,,Неизвестно,
11084,5805028000029580838,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,,,...,,2024-02-01 20:45:00,,,0.0,0.0,5805028000025816321,,Неизвестно,
11085,5805028000029576850,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,,,...,,2024-02-01 20:45:00,,,0.0,0.0,5805028000025816321,,Неизвестно,
14754,5805028000020283932,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,invitation,,...,,2023-12-08 22:06:00,,,0.0,0.0,5805028000020421099,,Неизвестно,
14755,5805028000020420273,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,invitation,,...,,2023-12-08 22:06:00,,,0.0,0.0,5805028000020421099,,Неизвестно,
14807,5805028000020313482,Diana Evans,NaT,,Registered on Webinar,,/workshop,,invitation,,...,,2023-12-08 15:44:00,,,0.0,0.0,5805028000020300454,,Неизвестно,
14808,5805028000020284716,Diana Evans,NaT,,Registered on Webinar,,/workshop,,invitation,,...,,2023-12-08 15:44:00,,,0.0,0.0,5805028000020300454,,Неизвестно,
15534,5805028000018428977,Nina Scott,NaT,,Registered on Webinar,,/workshop,14.11.23wide_webinar_DE,bloggersvideo8webinar,wide,...,,2023-11-23 14:06:00,,,0.0,0.0,5805028000018427915,,Неизвестно,
15535,5805028000018507379,Nina Scott,NaT,,Registered on Webinar,,/workshop,14.11.23wide_webinar_DE,bloggersvideo8webinar,wide,...,,2023-11-23 14:06:00,,,0.0,0.0,5805028000018427915,,Неизвестно,


In [None]:
deals_df.drop_duplicates(subset=deals_df.columns[1:], inplace=True)

deals_df[deals_df.duplicated(subset=deals_df.columns[1:])].shape

(0, 23)

In [None]:
deals_df[deals_df['Offer Total Amount'].isna()][['Offer Total Amount', 'Initial Amount Paid', 'Months of study']]

Unnamed: 0,Offer Total Amount,Initial Amount Paid,Months of study


In [None]:
category_columns = ['Deal Owner Name', 'Quality', 'Stage', 'Lost Reason', 'Page', 'Campaign', 'Content',
                     'Term', 'Source', 'Payment Type', 'Product', 'City', 'Level of Deutsch', 'Education Type']
for col in category_columns:
  deals_df[col] = deals_df[col].astype('category')

------------------------------------

# Вывод результатов  

------------------------------------

In [None]:
deals_df.head()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,...,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
0,5805028000056864695,Ben Hall,NaT,,New Lead,,/eng/test,03.07.23women,v16,women,...,,2024-06-21 15:30:00,,,0.0,0.0,5805028000056849495,,Неизвестно,
1,5805028000056859489,Ulysses Adams,NaT,,New Lead,,/at-eng,,,,...,Morning,2024-06-21 15:23:00,6.0,,0.0,2000.0,5805028000056834471,,Неизвестно,
2,5805028000056832357,Ulysses Adams,2024-06-21,D - Non Target,Lost,Non target,/at-eng,engwien_AT,b1-at,21_06_2024,...,,2024-06-21 14:45:00,,,0.0,0.0,5805028000056854421,,Неизвестно,1603.0
3,5805028000056824246,Eva Kent,2024-06-21,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,bloggersvideo14com,recentlymoved,...,,2024-06-21 13:32:00,,,0.0,0.0,5805028000056889351,,Неизвестно,3604.0
4,5805028000056873292,Ben Hall,2024-06-21,D - Non Target,Lost,Non target,/eng,discovery_DE,website,,...,,2024-06-21 13:21:00,,,0.0,0.0,5805028000056876176,,Неизвестно,3192.0


In [None]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19788 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id                   19788 non-null  object        
 1   Deal Owner Name      19788 non-null  category      
 2   Closing Date         13129 non-null  datetime64[ns]
 3   Quality              17557 non-null  category      
 4   Stage                19788 non-null  category      
 5   Lost Reason          14347 non-null  category      
 6   Page                 19788 non-null  category      
 7   Campaign             15555 non-null  category      
 8   Content              13771 non-null  category      
 9   Term                 12077 non-null  category      
 10  Source               19788 non-null  category      
 11  Payment Type         482 non-null    category      
 12  Product              3537 non-null   category      
 13  Education Type       3542 non-null  

In [None]:
deals_df.describe()

Unnamed: 0,Closing Date,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,SLA Seconds
count,13129,19788,3533.0,838.0,19788.0,19788.0,14980.0
mean,2024-01-28 16:28:52.957574656,2024-01-28 16:11:33.999393536,10.197566,5.445107,196.397312,1486.542854,111574.5
min,2022-10-11 00:00:00,2023-07-03 17:03:00,6.0,0.0,0.0,0.0,3.0
25%,2023-11-11 00:00:00,2023-11-18 23:15:30,11.0,3.0,0.0,0.0,4408.25
50%,2024-02-08 00:00:00,2024-02-06 16:15:00,11.0,5.0,0.0,0.0,19820.0
75%,2024-04-19 00:00:00,2024-04-14 23:28:45,11.0,8.0,0.0,0.0,55969.0
max,2024-12-11 00:00:00,2024-06-21 15:30:00,11.0,11.0,11500.0,11500.0,26908460.0
std,,,1.835545,2.918031,748.709887,3586.980236,726876.2


In [None]:
deals_df

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,...,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
0,5805028000056864695,Ben Hall,NaT,,New Lead,,/eng/test,03.07.23women,v16,women,...,,2024-06-21 15:30:00,,,0.0,0.0,5805028000056849495,,Неизвестно,
1,5805028000056859489,Ulysses Adams,NaT,,New Lead,,/at-eng,,,,...,Morning,2024-06-21 15:23:00,6.0,,0.0,2000.0,5805028000056834471,,Неизвестно,
2,5805028000056832357,Ulysses Adams,2024-06-21,D - Non Target,Lost,Non target,/at-eng,engwien_AT,b1-at,21_06_2024,...,,2024-06-21 14:45:00,,,0.0,0.0,5805028000056854421,,Неизвестно,1603.0
3,5805028000056824246,Eva Kent,2024-06-21,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,bloggersvideo14com,recentlymoved,...,,2024-06-21 13:32:00,,,0.0,0.0,5805028000056889351,,Неизвестно,3604.0
4,5805028000056873292,Ben Hall,2024-06-21,D - Non Target,Lost,Non target,/eng,discovery_DE,website,,...,,2024-06-21 13:21:00,,,0.0,0.0,5805028000056876176,,Неизвестно,3192.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21587,5805028000000935025,Kevin Parker,2023-07-06,E - Non Qualified,Lost,Doesn't Answer,eng/digital-marketing,02.07.23wide_DE,b3,wide,...,,2023-07-04 09:34:00,,,0.0,0.0,5805028000000983028,,Неизвестно,
21589,5805028000000948010,Jane Smith,2023-08-29,B - Medium,Lost,needs time to think,eng/digital-marketing,03.07.23women,b3,women,...,,2023-07-04 07:10:00,,,0.0,0.0,5805028000000979006,,Неизвестно,
21590,5805028000000945016,Jane Smith,2023-08-29,A - High,Lost,Changed Decision,eng/digital-marketing,02.07.23wide_DE,b3,wide,...,,2023-07-03 20:39:00,,,0.0,0.0,5805028000000968001,,Неизвестно,4906919.0
21591,5805028000000927004,Bob Brown,2023-07-09,D - Non Target,Lost,Does not speak English,eng/digital-marketing,03.07.23women,b3,women,...,,2023-07-03 20:17:00,,,0.0,0.0,5805028000000961001,,Неизвестно,


In [None]:
mask = deals_df['Initial Amount Paid'] > deals_df['Offer Total Amount']
if mask.any():
    deals_df.loc[mask, ['Initial Amount Paid', 'Offer Total Amount']] = \
        deals_df.loc[mask, ['Offer Total Amount', 'Initial Amount Paid']].values

print(deals_df[deals_df['Offer Total Amount'] < deals_df['Initial Amount Paid']])

Empty DataFrame
Columns: [Id, Deal Owner Name, Closing Date, Quality, Stage, Lost Reason, Page, Campaign, Content, Term, Source, Payment Type, Product, Education Type, Created Time, Course duration, Months of study, Initial Amount Paid, Offer Total Amount, Contact Name, City, Level of Deutsch, SLA Seconds]
Index: []

[0 rows x 23 columns]


In [None]:
deals_df.to_excel("Deals (Result).xlsx", index=False)

# ==============================================================



# Описательная статистика:


*   Рассчитать сводную статистику (среднее, медиана, мода, диапазон) для числовых полей.
*   Анализировать категориальные поля, такие как качество, стадия, источник и продукт.



In [None]:
contacts_df.describe()

Unnamed: 0,Created Time,Modified Time
count,18548,18548
mean,2024-01-24 14:00:21.679965696,2024-02-15 07:41:24.814535168
min,2023-06-27 11:28:00,2023-07-06 10:54:00
25%,2023-11-15 16:40:45,2023-12-09 12:43:00
50%,2024-02-01 18:30:00,2024-02-28 22:21:30
75%,2024-04-12 16:37:15,2024-04-26 22:02:30
max,2024-06-21 15:30:00,2024-06-21 15:32:00


--------------------------------------

# Описательная статистика:  

 1. Объем данных: 18 510 записей, что указывает на значительное количество событий, включенных в анализ.  


2. Средние значения:  

*   Средняя дата создания: 24 января 2024 г.  
*   Средняя дата изменения: 15 февраля 2024 г.


Это говорит о том, что в среднем записи изменяются примерно через 21 день после создания.


3. Минимальные и максимальные значения:  


*   Самая ранняя запись была создана 27 июня 2023 года, а самая поздняя — 21 июня 2024 года.
*   Первое изменение произошло 6 июля 2023 года, а последнее — 21 июня 2024 года.  

Данные охватывают период почти в один год.  


4. Медианные значения (50-й процентиль):  

*   Половина записей была создана до 1 февраля 2024 г.  
*   Половина изменений произошла до 29 февраля 2024 г.

Это указывает на высокую активность создания записей в конце 2023 г. и начале 2024 г.   



5. 25-й и 75-й процентили:  

*   25% записей были созданы до 15 ноября 2023 года, а 75% — до 12 апреля 2024 года.  
*   Для изменений соответствующие даты — 9 декабря 2023 года и 26 апреля 2024 года.  


Это предполагает относительно равномерное распределение с небольшим перекосом к концу периода.  

6. Время между созданием и изменением:

*   В среднем записи изменяются через несколько недель после создания.
*   Разброс значений показывает, что некоторые записи обновляются быстро, а другие остаются неизменными в течение длительных периодов.  

-------------------------------------

# Заключение:   

Данные показывают устойчивый рост активности, пик которой приходится на начало 2024 года. Среднее время изменения записи составляет несколько недель, что может указывать либо на частую необходимость в корректировке данных, либо на рабочий процесс, включающий уточнение записей после их первоначального создания.

In [None]:
deals_df.describe()

Unnamed: 0,Closing Date,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,SLA Seconds
count,13129,19788,3533.0,838.0,19788.0,19788.0,14980.0
mean,2024-01-28 16:28:52.957574656,2024-01-28 16:11:33.999393536,10.197566,5.445107,192.078583,1490.861583,111574.5
min,2022-10-11 00:00:00,2023-07-03 17:03:00,6.0,0.0,0.0,0.0,3.0
25%,2023-11-11 00:00:00,2023-11-18 23:15:30,11.0,3.0,0.0,0.0,4408.25
50%,2024-02-08 00:00:00,2024-02-06 16:15:00,11.0,5.0,0.0,0.0,19820.0
75%,2024-04-19 00:00:00,2024-04-14 23:28:45,11.0,8.0,0.0,0.0,55969.0
max,2024-12-11 00:00:00,2024-06-21 15:30:00,11.0,11.0,11000.0,11500.0,26908460.0
std,,,1.835545,2.918031,715.163483,3592.262999,726876.2


# Ключевые выводы из данных:  

1. Даты:  

  *   Средняя дата закрытия сделки: 28 января 2024 г.  
  *   Самое раннее закрытие: 11 октября 2022 г.; самое позднее: 11 декабря 2024 г.  
  *   Средняя дата создания сделки: 28 января 2024 г. (почти совпадает со средней датой закрытия).  

2. Продолжительность курса:  

  *   Средняя продолжительность курса: 10,2 месяца; медиана: 11 месяцев.
  *   Минимальная продолжительность: 6 месяцев; максимальная: 11 месяцев.  
  *   Распределение плотное, большинство курсов длятся 11 месяцев.  

3. Финансовые показатели:  

  *  Средний первоначальный взнос: 961 USD; медиана: 1000 USD.  
  *   Средняя сумма предложения: 7238 USD; медиана: 11000 USD.
  *   Минимальный взнос: 0 USD; максимум: 11500 USD, с указанием возможных пробных/бесплатных курсов.

4. SLA (время обработки сделки в секундах):  

  *   Среднее время обработки: 111 574 секунды (31 час).
  *   Медиана: 19 820 секунд (5,5 часов), что указывает на сильную асимметрию.  
  *   Максимальное значение: 26 908 460 секунд (311 дней) — потенциальные выбросы.

# Общий вывод:  

  *   Большинство курсов длятся 11 месяцев, средняя стоимость составляет 7238 долларов США.  
  *   Некоторые сделки были обработаны бесплатно или с минимальной предоплатой.  
  *   Время обработки значительно варьируется, с некоторыми экстремальными выбросами.
  *   Анализ SLA требует дальнейшего изучения аномально высоких значений.  

In [None]:
spend_df.describe()

Unnamed: 0,Date,Impressions,Spend,Clicks
count,15057,15057.0,15057.0,15057.0
mean,2024-01-09 14:58:36.078900224,3391.556884,9.91113,30.793518
min,2023-07-03 00:00:00,0.0,0.0,0.0
25%,2023-10-06 00:00:00,33.0,0.3,0.0
50%,2024-01-20 00:00:00,279.0,2.32,4.0
75%,2024-04-11 00:00:00,1050.0,8.83,17.0
max,2024-06-21 00:00:00,431445.0,774.0,2415.0
std,,13323.938126,30.994235,97.910453


# Выводы из описательной статистики данных вызовов:

1. Объем данных:  

  *   Всего записанных звонков: 92 617.  
  *   Длительность звонка доступна для 92 538 записей*, что указывает на небольшое количество звонков с отсутствующими данными о длительности.

2. Средние значения:  

  *   Среднее время начала звонка: 4 февраля 2024 г.  
  *   Средняя продолжительность звонка: 170 секунд (2 минуты 50 секунд).  
  *   Однако высокое стандартное отклонение (406,94 секунды) указывает на значительную изменчивость продолжительности звонков.  

3. Мин. и макс. значения:

  *   Самый ранний звонок в наборе данных: 30 июня 2023 г.; самый поздний: 21 июня 2024 г., охватывающий почти 1 год.  
  *   Минимальная продолжительность звонка: 0 секунд (возможно, неотвеченные звонки).  
  *   Максимальная продолжительность звонка: 7625 секунд (2 часа 7 минут), что указывает на редкие, но очень длинные звонки.  

4. Процентильный анализ (распределение длительности):  

  *   25% звонков длились до 4 секунд — очень короткие взаимодействия (возможно, пропущенные звонки или зависания).
  *  50% (медиана) звонков длились 9 секунд, что указывает на высокую долю коротких звонков.  
  *   75% звонков длились до 107 секунд (1 минута 47 секунд), приближая среднее значение к более типичной продолжительности звонков.

5. Распространение данных и характеристики:  

  *  Большинство звонков короткие (менее 10 секунд), но есть значительное количество более длинных звонков, что увеличивает среднюю продолжительность.  
  *   Высокое стандартное отклонение предполагает наличие редких, чрезвычайно длинных звонков, которые сильно влияют на среднее значение  \

# Вывод:  

*   Большинство звонков короткие, медианная продолжительность составляет 9 секунд.
*   Около 25% звонков длятся менее 4 секунд, что потенциально указывает на частые пропущенные или прерванные звонки.  
*   Длительные звонки (более 7000 секунд) редки, но значительно увеличивают среднюю продолжительность.  
*   Данные показывают тенденцию большого количества коротких звонков с небольшим количеством очень длинных.  

# 🏷️ Категория  

-- Подсчет уникальных значений --  

In [None]:
categorical_columns = ['Quality', 'Stage', 'Source', 'Product']

for col in categorical_columns:
    print(f"Уникальные значения в {col}:")
    print(deals_df[col].unique(), "\n")

Уникальные значения в Quality:
[NaN, 'D - Non Target', 'E - Non Qualified', 'B - Medium', 'C - Low', 'A - High']
Categories (5, object): ['A - High', 'B - Medium', 'C - Low', 'D - Non Target',
                         'E - Non Qualified'] 

Уникальные значения в Stage:
['New Lead', 'Lost', 'Need a consultation', 'Need To Call', 'Call Delayed', ..., 'Need to Call - Sales', 'Test Sent', 'Payment Done', 'Registered on Offline Day', 'Free Education']
Length: 13
Categories (13, object): ['Call Delayed', 'Free Education', 'Lost', 'Need To Call', ...,
                          'Registered on Offline Day', 'Registered on Webinar', 'Test Sent',
                          'Waiting For Payment'] 

Уникальные значения в Source:
['Facebook Ads', 'Organic', 'Telegram posts', 'Google Ads', 'Youtube Ads', ..., 'Bloggers', 'Webinar', 'Partnership', 'Test', 'Offline']
Length: 13
Categories (13, object): ['Bloggers', 'CRM', 'Facebook Ads', 'Google Ads', ..., 'Test', 'Tiktok Ads',
                         

#     -- Подсчет частот встречаемости --  

In [None]:
for col in categorical_columns:
    print(f"Распределение значений в {col}:")
    print(deals_df[col].value_counts(), "\n")

Распределение значений в Quality:
Quality
E - Non Qualified    6143
D - Non Target       6078
C - Low              3386
B - Medium           1535
A - High              415
Name: count, dtype: int64 

Распределение значений в Stage:
Stage
Lost                         13991
Call Delayed                  2243
Registered on Webinar         2066
Payment Done                   855
Waiting For Payment            324
Qualificated                   106
Registered on Offline Day       85
Need to Call - Sales            33
Need To Call                    31
Test Sent                       25
Need a consultation             23
New Lead                         5
Free Education                   1
Name: count, dtype: int64 

Распределение значений в Source:
Source
Facebook Ads      4711
Google Ads        4110
Tiktok Ads        2001
SMM               1668
Youtube Ads       1618
Organic           1497
CRM               1455
Bloggers          1071
Telegram posts     993
Webinar            305
Partnersh

#     -- Процентное распределение --  

In [None]:
deals_df['Quality'].value_counts(normalize=True) * 100

Unnamed: 0_level_0,proportion
Quality,Unnamed: 1_level_1
E - Non Qualified,34.988893
D - Non Target,34.618671
C - Low,19.285755
B - Medium,8.742952
A - High,2.36373


#     -- Анализ взаимосвязи между категориями и числовыми переменными --  

In [None]:
for col in categorical_columns:
    print(deals_df.groupby(col, observed=True)['Offer Total Amount'].mean(), "\n")

Quality
A - High             6852.530120
B - Medium           5973.224756
C - Low              3651.933845
D - Non Target        789.161073
E - Non Qualified      52.010418
Name: Offer Total Amount, dtype: float64 

Stage
Call Delayed                  1500.449844
Free Education                4000.000000
Lost                          1168.998571
Need To Call                     0.000000
Need a consultation              0.000000
Need to Call - Sales             0.000000
New Lead                       400.000000
Payment Done                  7415.322807
Qualificated                   978.301887
Registered on Offline Day       58.823529
Registered on Webinar            1.936108
Test Sent                     2560.000000
Waiting For Payment          10053.703704
Name: Offer Total Amount, dtype: float64 

Source
Bloggers          1466.760037
CRM                499.587629
Facebook Ads      1715.781787
Google Ads        1384.452555
Offline           5500.000000
Organic           2597.468270
Pa

In [None]:
calls_df.to_excel("Calls_clear.xlsx")
deals_df.to_excel("Deals_clear.xlsx")
contacts_df.to_excel("Contacts_clear.xlsx")
spend_df.to_excel("Spend_clear.xlsx")