In [1]:
import pandas as pd
import numpy as np
import datetime

pd.set_option('display.max_columns', None)

##Очистка и подготовка данных:
1. ***Удалите дубликаты и неактуальные столбцы***.
2. ***Соответствующим образом обработайте отсутствующие значения***.
3. ***Преобразуйте типы данных для таких столбцов, как даты и числовые значения.***

###**Анализ датасета** **contacts_df**

Загрузим датасет и посмотрим первые строки, чтобы понять структуру данных

In [2]:
contacts_df = pd.read_excel('Contacts (Done).xlsx', dtype={'Id': str})

In [3]:
contacts_df.head()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,27.06.2023 11:28,22.12.2023 13:34
1,5805028000000872003,Charlie Davis,03.07.2023 11:31,21.05.2024 10:23
2,5805028000000889001,Bob Brown,02.07.2023 22:37,21.12.2023 13:17
3,5805028000000907006,Bob Brown,03.07.2023 05:44,29.12.2023 15:20
4,5805028000000939010,Nina Scott,04.07.2023 10:11,16.04.2024 16:14


In [4]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18548 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Id                  18548 non-null  object
 1   Contact Owner Name  18548 non-null  object
 2   Created Time        18548 non-null  object
 3   Modified Time       18548 non-null  object
dtypes: object(4)
memory usage: 579.8+ KB


In [5]:
contacts_df.describe()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
count,18548,18548,18548,18548
unique,18548,28,17921,16580
top,5805028000000645014,Charlie Davis,10.06.2024 09:00,13.06.2024 17:08
freq,1,2018,13,25


###Преобразование типов данных

In [6]:
contacts_df["Created Time"] = pd.to_datetime(contacts_df["Created Time"],
                                             format='%d.%m.%Y %H:%M',
                                             dayfirst=True,
                                             errors="raise")
contacts_df["Modified Time"] = pd.to_datetime(contacts_df["Modified Time"],
                                              format='%d.%m.%Y %H:%M',
                                              dayfirst=True,
                                              errors="raise")

In [7]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18548 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Id                  18548 non-null  object        
 1   Contact Owner Name  18548 non-null  object        
 2   Created Time        18548 non-null  datetime64[ns]
 3   Modified Time       18548 non-null  datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 579.8+ KB


###Удаление дубликатов

In [8]:
contacts_df[contacts_df.duplicated(keep=False, subset=contacts_df.columns[1:])]

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
203,5805028000001949074,Bob Brown,2023-07-17 18:40:00,2023-07-17 18:40:00
205,5805028000001953081,Bob Brown,2023-07-17 18:40:00,2023-07-17 18:40:00
279,5805028000002340967,Bob Brown,2023-07-18 16:53:00,2023-07-18 16:53:00
280,5805028000002344049,Bob Brown,2023-07-18 16:53:00,2023-07-18 16:53:00
334,5805028000002740077,Bob Brown,2023-07-21 12:26:00,2023-07-21 12:26:00
...,...,...,...,...
17864,5805028000054231884,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17865,5805028000054232018,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17869,5805028000054238271,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00
17870,5805028000054238317,Rachel White,2024-06-10 09:00:00,2024-06-10 09:33:00


In [9]:
contacts_df[contacts_df.duplicated(subset=contacts_df.columns[1:])].shape

(38, 4)

In [10]:
contacts_df.drop_duplicates(subset=contacts_df.columns[1:], inplace=True)

contacts_df[contacts_df.duplicated(subset=contacts_df.columns[1:])].shape

(0, 4)

In [11]:
contacts_df.isna().sum()

Unnamed: 0,0
Id,0
Contact Owner Name,0
Created Time,0
Modified Time,0


###Выводы итогов после преобразований по датасету contacts_df

In [12]:
contacts_df.head()

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
1,5805028000000872003,Charlie Davis,2023-07-03 11:31:00,2024-05-21 10:23:00
2,5805028000000889001,Bob Brown,2023-07-02 22:37:00,2023-12-21 13:17:00
3,5805028000000907006,Bob Brown,2023-07-03 05:44:00,2023-12-29 15:20:00
4,5805028000000939010,Nina Scott,2023-07-04 10:11:00,2024-04-16 16:14:00


In [13]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18510 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Id                  18510 non-null  object        
 1   Contact Owner Name  18510 non-null  object        
 2   Created Time        18510 non-null  datetime64[ns]
 3   Modified Time       18510 non-null  datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 723.0+ KB


In [14]:
contacts_df.describe()

Unnamed: 0,Created Time,Modified Time
count,18510,18510
mean,2024-01-24 14:25:56.155591680,2024-02-15 09:11:05.273905920
min,2023-06-27 11:28:00,2023-07-06 10:54:00
25%,2023-11-15 16:49:15,2023-12-09 14:51:45
50%,2024-02-01 18:44:30,2024-02-29 01:12:30
75%,2024-04-12 16:15:45,2024-04-26 22:40:45
max,2024-06-21 15:30:00,2024-06-21 15:32:00


In [15]:
contacts_df

Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,2023-06-27 11:28:00,2023-12-22 13:34:00
1,5805028000000872003,Charlie Davis,2023-07-03 11:31:00,2024-05-21 10:23:00
2,5805028000000889001,Bob Brown,2023-07-02 22:37:00,2023-12-21 13:17:00
3,5805028000000907006,Bob Brown,2023-07-03 05:44:00,2023-12-29 15:20:00
4,5805028000000939010,Nina Scott,2023-07-04 10:11:00,2024-04-16 16:14:00
...,...,...,...,...
18543,5805028000056889209,Ulysses Adams,2024-06-21 12:11:00,2024-06-21 14:11:00
18544,5805028000056889351,Eva Kent,2024-06-21 13:32:00,2024-06-21 15:32:00
18545,5805028000056892018,Eva Kent,2024-06-21 10:21:00,2024-06-21 12:21:00
18546,5805028000056892055,Yara Edwards,2024-06-21 10:22:00,2024-06-21 12:23:00


###Сохранение очищенного датасета contacts_df

In [16]:
contacts_df.to_excel("Contacts (Result).xlsx", index=False)

###**Анализ датасета** **calls_df**

Загрузим датасет и посмотрим первые строки, чтобы понять структуру данных

In [17]:
calls_df = pd.read_excel('Calls (Done).xlsx',
                         dtype={'Id': str, "CONTACTID": str})

In [18]:
calls_df.head()

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Dialled Number,Outgoing Call Status,Scheduled in CRM,Tag
0,5805028000000805001,30.06.2023 08:43,John Doe,,Inbound,171.0,Received,,,,
1,5805028000000768006,30.06.2023 08:46,John Doe,,Outbound,28.0,Attended Dialled,,Completed,0.0,
2,5805028000000764027,30.06.2023 08:59,John Doe,,Outbound,24.0,Attended Dialled,,Completed,0.0,
3,5805028000000787003,30.06.2023 09:20,John Doe,5.805028000000645e+18,Outbound,6.0,Attended Dialled,,Completed,0.0,
4,5805028000000768019,30.06.2023 09:30,John Doe,5.805028000000645e+18,Outbound,11.0,Attended Dialled,,Completed,0.0,


In [19]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95874 entries, 0 to 95873
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Id                          95874 non-null  object 
 1   Call Start Time             95874 non-null  object 
 2   Call Owner Name             95874 non-null  object 
 3   CONTACTID                   91941 non-null  object 
 4   Call Type                   95874 non-null  object 
 5   Call Duration (in seconds)  95791 non-null  float64
 6   Call Status                 95874 non-null  object 
 7   Dialled Number              0 non-null      float64
 8   Outgoing Call Status        86875 non-null  object 
 9   Scheduled in CRM            86875 non-null  float64
 10  Tag                         0 non-null      float64
dtypes: float64(4), object(7)
memory usage: 8.0+ MB


In [20]:
calls_df.describe()

Unnamed: 0,Call Duration (in seconds),Dialled Number,Scheduled in CRM,Tag
count,95791.0,0.0,86875.0,0.0
mean,164.977263,,0.001635,
std,401.410826,,0.040397,
min,0.0,,0.0,
25%,4.0,,0.0,
50%,8.0,,0.0,
75%,98.0,,0.0,
max,7625.0,,1.0,


###Преобразование типов данных

In [21]:
calls_df['Call Start Time'] = pd.to_datetime(calls_df['Call Start Time'],
                                             format='%d.%m.%Y %H:%M',
                                             dayfirst=True,
                                             errors='raise')

In [22]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95874 entries, 0 to 95873
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Id                          95874 non-null  object        
 1   Call Start Time             95874 non-null  datetime64[ns]
 2   Call Owner Name             95874 non-null  object        
 3   CONTACTID                   91941 non-null  object        
 4   Call Type                   95874 non-null  object        
 5   Call Duration (in seconds)  95791 non-null  float64       
 6   Call Status                 95874 non-null  object        
 7   Dialled Number              0 non-null      float64       
 8   Outgoing Call Status        86875 non-null  object        
 9   Scheduled in CRM            86875 non-null  float64       
 10  Tag                         0 non-null      float64       
dtypes: datetime64[ns](1), float64(4), object(6)
memory usa

###Удаление дубликатов

In [23]:
calls_df.duplicated(subset=calls_df.columns[1:]).sum()

3257

In [24]:
calls_df[calls_df.duplicated(keep=False, subset=calls_df.columns[1:])]

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Dialled Number,Outgoing Call Status,Scheduled in CRM,Tag
34,5805028000001140014,2023-07-06 17:15:00,Alice Johnson,5805028000001129001,Outbound,0.0,Unattended Dialled,,Completed,0.0,
35,5805028000001167001,2023-07-06 17:15:00,Alice Johnson,5805028000001129001,Outbound,0.0,Unattended Dialled,,Completed,0.0,
101,5805028000001372054,2023-07-08 16:43:00,John Doe,,Missed,0.0,Missed,,,,
102,5805028000001348077,2023-07-08 16:43:00,John Doe,,Missed,0.0,Missed,,,,
254,5805028000001568042,2023-07-12 19:23:00,Jane Smith,5805028000001552025,Outbound,0.0,Unattended Dialled,,Completed,0.0,
...,...,...,...,...,...,...,...,...,...,...,...
95804,5805028000056832311,2024-06-21 14:17:00,Yara Edwards,,Outbound,8.0,Attended Dialled,,Completed,0.0,
95833,5805028000056845313,2024-06-21 14:47:00,Ulysses Adams,5805028000026041053,Outbound,0.0,Unattended Dialled,,Completed,0.0,
95834,5805028000056873560,2024-06-21 14:47:00,Ulysses Adams,5805028000026041053,Outbound,0.0,Unattended Dialled,,Completed,0.0,
95838,5805028000056834447,2024-06-21 14:55:00,John Doe,,Missed,0.0,Missed,,,,


In [25]:
calls_df.drop_duplicates(subset=calls_df.columns[1:], inplace=True)

calls_df[calls_df.duplicated(subset=calls_df.columns[1:])].shape

(0, 11)

In [26]:
calls_df.isna().sum()

Unnamed: 0,0
Id,0
Call Start Time,0
Call Owner Name,0
CONTACTID,3802
Call Type,0
Call Duration (in seconds),79
Call Status,0
Dialled Number,92617
Outgoing Call Status,8813
Scheduled in CRM,8813


Удаление ненужных столбцов

In [27]:
calls_df = calls_df.drop(columns=['Dialled Number', 'Tag'])

Преобразование некоторых столбцов в категориальный тип данных и замена отсутствующих значений на значения 'Unknown'

In [28]:
category_columns = ['Call Owner Name', 'Call Type', 'Call Status',
                    'Outgoing Call Status', 'Scheduled in CRM']

for col in category_columns:
    calls_df[col] = calls_df[col].astype('category')

for col in ['Outgoing Call Status', 'Scheduled in CRM']:
    if 'Unknown' not in calls_df[col].cat.categories:
        calls_df[col] = calls_df[col].cat.add_categories(['Unknown'])
    calls_df[col] = calls_df[col].fillna('Unknown')

In [29]:
calls_df["CONTACTID"] = calls_df["CONTACTID"].fillna("Unknown")

In [30]:
calls_df.isna().sum()

Unnamed: 0,0
Id,0
Call Start Time,0
Call Owner Name,0
CONTACTID,0
Call Type,0
Call Duration (in seconds),79
Call Status,0
Outgoing Call Status,0
Scheduled in CRM,0


###Выводы итогов после преобразований по датасету calls_df

In [31]:
calls_df.head()

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM
0,5805028000000805001,2023-06-30 08:43:00,John Doe,Unknown,Inbound,171.0,Received,Unknown,Unknown
1,5805028000000768006,2023-06-30 08:46:00,John Doe,Unknown,Outbound,28.0,Attended Dialled,Completed,0.0
2,5805028000000764027,2023-06-30 08:59:00,John Doe,Unknown,Outbound,24.0,Attended Dialled,Completed,0.0
3,5805028000000787003,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6.0,Attended Dialled,Completed,0.0
4,5805028000000768019,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11.0,Attended Dialled,Completed,0.0


In [32]:
calls_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 92617 entries, 0 to 95873
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Id                          92617 non-null  object        
 1   Call Start Time             92617 non-null  datetime64[ns]
 2   Call Owner Name             92617 non-null  category      
 3   CONTACTID                   92617 non-null  object        
 4   Call Type                   92617 non-null  category      
 5   Call Duration (in seconds)  92538 non-null  float64       
 6   Call Status                 92617 non-null  category      
 7   Outgoing Call Status        92617 non-null  category      
 8   Scheduled in CRM            92617 non-null  category      
dtypes: category(5), datetime64[ns](1), float64(1), object(2)
memory usage: 4.0+ MB


In [33]:
calls_df

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Outgoing Call Status,Scheduled in CRM
0,5805028000000805001,2023-06-30 08:43:00,John Doe,Unknown,Inbound,171.0,Received,Unknown,Unknown
1,5805028000000768006,2023-06-30 08:46:00,John Doe,Unknown,Outbound,28.0,Attended Dialled,Completed,0.0
2,5805028000000764027,2023-06-30 08:59:00,John Doe,Unknown,Outbound,24.0,Attended Dialled,Completed,0.0
3,5805028000000787003,2023-06-30 09:20:00,John Doe,5805028000000645014,Outbound,6.0,Attended Dialled,Completed,0.0
4,5805028000000768019,2023-06-30 09:30:00,John Doe,5805028000000645014,Outbound,11.0,Attended Dialled,Completed,0.0
...,...,...,...,...,...,...,...,...,...
95869,5805028000056889515,2024-06-21 15:30:00,Ulysses Adams,5805028000056564231,Outbound,6.0,Attended Dialled,Completed,0.0
95870,5805028000056875317,2024-06-21 15:30:00,Victor Barnes,5805028000054867023,Outbound,8.0,Attended Dialled,Completed,0.0
95871,5805028000056832495,2024-06-21 15:30:00,Kevin Parker,5805028000010617278,Outbound,5.0,Attended Dialled,Completed,0.0
95872,5805028000056893619,2024-06-21 15:30:00,Victor Barnes,5805028000056839048,Outbound,0.0,Unattended Dialled,Completed,0.0


###Сохранение очищенного датасета calls_df

In [34]:
calls_df.to_excel("Calls (Result).xlsx", index=False)

###**Анализ датасета** **spend_df**

Загрузим датасет и посмотрим первые строки, чтобы понять структуру данных

In [35]:
spend_df = pd.read_excel('Spend (Done).xlsx')

In [36]:
spend_df.head()

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.0,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
2,2023-07-03,Facebook Ads,,0,0.0,0,,
3,2023-07-03,Google Ads,,0,0.0,0,,
4,2023-07-03,CRM,,0,0.0,0,,


In [37]:
spend_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20779 entries, 0 to 20778
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         20779 non-null  datetime64[ns]
 1   Source       20779 non-null  object        
 2   Campaign     14785 non-null  object        
 3   Impressions  20779 non-null  int64         
 4   Spend        20779 non-null  float64       
 5   Clicks       20779 non-null  int64         
 6   AdGroup      13951 non-null  object        
 7   Ad           13951 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(4)
memory usage: 1.3+ MB


In [38]:
spend_df.describe()

Unnamed: 0,Date,Impressions,Spend,Clicks
count,20779,20779.0,20779.0,20779.0
mean,2024-01-14 22:32:40.864334080,2458.203475,7.195892,23.990616
min,2023-07-03 00:00:00,0.0,0.0,0.0
25%,2023-10-13 00:00:00,0.0,0.0,0.0
50%,2024-01-27 00:00:00,63.0,0.58,1.0
75%,2024-04-16 00:00:00,709.0,5.75,12.0
max,2024-06-21 00:00:00,431445.0,774.0,2415.0
std,,11442.528075,26.76008,85.245714


###Преобразование типов данных

In [39]:
spend_df['Campaign'] = spend_df['Campaign'].fillna('Unknown')
spend_df['Source'] = spend_df['Source'].astype('category')
spend_df['Campaign'] = spend_df['Campaign'].astype('category')
spend_df['Impressions'] = spend_df['Impressions'].astype('Int32')
spend_df['Clicks'] = spend_df['Clicks'].astype('Int16')

In [40]:
spend_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20779 entries, 0 to 20778
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         20779 non-null  datetime64[ns]
 1   Source       20779 non-null  category      
 2   Campaign     20779 non-null  category      
 3   Impressions  20779 non-null  Int32         
 4   Spend        20779 non-null  float64       
 5   Clicks       20779 non-null  Int16         
 6   AdGroup      13951 non-null  object        
 7   Ad           13951 non-null  object        
dtypes: Int16(1), Int32(1), category(2), datetime64[ns](1), float64(1), object(2)
memory usage: 855.5+ KB


In [41]:
spend_df.isna().sum()

Unnamed: 0,0
Date,0
Source,0
Campaign,0
Impressions,0
Spend,0
Clicks,0
AdGroup,6828
Ad,6828


###Удаление дубликатов

In [42]:
spend_df[spend_df.duplicated(keep=False, subset=spend_df.columns[1:])]

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
2,2023-07-03,Facebook Ads,Unknown,0,0.0,0,,
3,2023-07-03,Google Ads,Unknown,0,0.0,0,,
4,2023-07-03,CRM,Unknown,0,0.0,0,,
7,2023-07-03,Bloggers,Unknown,0,0.0,0,,
8,2023-07-03,Youtube Ads,Unknown,0,0.0,0,,
...,...,...,...,...,...,...,...,...
20764,2024-06-21,Telegram posts,Unknown,0,0.0,0,,
20770,2024-06-21,Organic,Unknown,0,0.0,0,,
20773,2024-06-21,Organic,Unknown,0,0.0,0,,
20776,2024-06-21,Partnership,Unknown,0,0.0,0,,


In [43]:
spend_df.duplicated(subset=spend_df.columns[1:]).sum()

5722

In [44]:
spend_df[spend_df.duplicated(subset=spend_df.columns[1:])].shape

(5722, 8)

In [45]:
spend_df.drop_duplicates(subset=spend_df.columns[1:], inplace=True)

spend_df[spend_df.duplicated(subset=spend_df.columns[1:])].shape

(0, 8)

In [46]:
spend_df.isna().sum()

Unnamed: 0,0
Date,0
Source,0
Campaign,0
Impressions,0
Spend,0
Clicks,0
AdGroup,2087
Ad,2087


In [47]:
(spend_df.isna().sum() + (spend_df == 0).sum())

Unnamed: 0,0
Date,0
Source,0
Campaign,0
Impressions,533
Spend,1153
Clicks,4024
AdGroup,2087
Ad,2087


In [48]:
(spend_df == 0).sum()

Unnamed: 0,0
Date,0
Source,0
Campaign,0
Impressions,533
Spend,1153
Clicks,4024
AdGroup,0
Ad,0


In [49]:
spend_df[(spend_df[['Spend', 'Impressions', 'Clicks']] == 0)\
         .all(axis=1)][['Spend', 'Impressions', 'Clicks']]

Unnamed: 0,Spend,Impressions,Clicks
2,0.0,0,0
3,0.0,0,0
4,0.0,0,0
7,0.0,0,0
8,0.0,0,0
...,...,...,...
20572,0.0,0,0
20610,0.0,0,0
20616,0.0,0,0
20642,0.0,0,0


In [50]:
spend_df = spend_df[~(spend_df[['Spend', 'Impressions', 'Clicks']
                               ] == 0).all(axis=1)]

###Выводы итогов после преобразований по датасету spend_df

In [51]:
spend_df.head()

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.0,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
5,2023-07-03,Facebook Ads,03.07.23women,187,3.3,6,women,b3
6,2023-07-03,Facebook Ads,03.07.23women,4,0.02,1,women,b1
9,2023-07-03,Facebook Ads,02.07.23wide_DE,61,0.58,0,wide,b4


In [52]:
spend_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14967 entries, 0 to 20778
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         14967 non-null  datetime64[ns]
 1   Source       14967 non-null  category      
 2   Campaign     14967 non-null  category      
 3   Impressions  14967 non-null  Int32         
 4   Spend        14967 non-null  float64       
 5   Clicks       14967 non-null  Int16         
 6   AdGroup      12894 non-null  object        
 7   Ad           12894 non-null  object        
dtypes: Int16(1), Int32(1), category(2), datetime64[ns](1), float64(1), object(2)
memory usage: 733.9+ KB


In [53]:
spend_df

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.00,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
5,2023-07-03,Facebook Ads,03.07.23women,187,3.30,6,women,b3
6,2023-07-03,Facebook Ads,03.07.23women,4,0.02,1,women,b1
9,2023-07-03,Facebook Ads,02.07.23wide_DE,61,0.58,0,wide,b4
...,...,...,...,...,...,...,...,...
20771,2024-06-21,Tiktok Ads,22.05.2024wide_DE,7,0.03,0,wide,bloggersvideo18com
20772,2024-06-21,Youtube Ads,youtube_shorts_DE,90,0.51,2,Com_august,bloggersvideo3june
20774,2024-06-21,Facebook Ads,17.03.24wide_AT,7,0.07,0,wide,bloggersvideo16com_at
20775,2024-06-21,Tiktok Ads,12.07.2023wide_DE,61,0.16,0,wide,bloggersvideo14com


###Сохранение очищенного датасета spend_df

In [54]:
spend_df.to_excel("Spend (Result).xlsx", index=False)

###**Анализ датасета** deals_df

Загрузим датасет и посмотрим первые строки, чтобы понять структуру данных

In [55]:
deals_df = pd.read_excel('Deals (Done).xlsx', dtype={'Id': str,
                                                     'Contact Name': str})

In [56]:
deals_df.head()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,SLA,Content,Term,Source,Payment Type,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch
0,5805028000056864695,Ben Hall,,,New Lead,,/eng/test,03.07.23women,,v16,women,Facebook Ads,,,,21.06.2024 15:30,,,,,5805028000056849495,,
1,5805028000056859489,Ulysses Adams,,,New Lead,,/at-eng,,,,,Organic,,Web Developer,Morning,21.06.2024 15:23,6.0,,0.0,2000.0,5805028000056834471,,
2,5805028000056832357,Ulysses Adams,21.06.2024,D - Non Target,Lost,Non target,/at-eng,engwien_AT,00:26:43,b1-at,21_06_2024,Telegram posts,,,,21.06.2024 14:45,,,,,5805028000056854421,,
3,5805028000056824246,Eva Kent,21.06.2024,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,01:00:04,bloggersvideo14com,recentlymoved,Facebook Ads,,,,21.06.2024 13:32,,,,,5805028000056889351,,
4,5805028000056873292,Ben Hall,21.06.2024,D - Non Target,Lost,Non target,/eng,discovery_DE,00:53:12,website,,Google Ads,,,,21.06.2024 13:21,,,,,5805028000056876176,,


In [57]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21595 entries, 0 to 21594
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   21593 non-null  object 
 1   Deal Owner Name      21564 non-null  object 
 2   Closing Date         14645 non-null  object 
 3   Quality              19340 non-null  object 
 4   Stage                21593 non-null  object 
 5   Lost Reason          16124 non-null  object 
 6   Page                 21593 non-null  object 
 7   Campaign             16067 non-null  object 
 8   SLA                  15533 non-null  object 
 9   Content              14147 non-null  object 
 10  Term                 12454 non-null  object 
 11  Source               21593 non-null  object 
 12  Payment Type         496 non-null    object 
 13  Product              3592 non-null   object 
 14  Education Type       3300 non-null   object 
 15  Created Time         21593 non-null 

In [58]:
deals_df.tail()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,SLA,Content,Term,Source,Payment Type,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch
21590,5.805028000000945e+18,Jane Smith,29.08.2023,A - High,Lost,Changed Decision,eng/digital-marketing,02.07.23wide_DE,"56 days, 19:01:59",b3,wide,Facebook Ads,,,,03.07.2023 20:39,,,,,5.805028000000968e+18,,
21591,5.805028000000927e+18,Bob Brown,09.07.2023,D - Non Target,Lost,Does not speak English,eng/digital-marketing,03.07.23women,,b3,women,Facebook Ads,,,,03.07.2023 20:17,,,,,5.80502800000096e+18,,
21592,5.805028000000922e+18,Bob Brown,03.07.2023,E - Non Qualified,Lost,Refugee,/,,"4 days, 22:47:14",,,Organic,,,,03.07.2023 17:03,,,0.0,0.0,5.805028000001009e+18,,
21593,,,,,,,,,,,,,,,,,,,,,,,
21594,,,,,,,,,,,,,,,#REF!,,,,,,,,


Удалим строки с пропусками в идентификаторах

In [59]:
deals_df.dropna(subset=["Id"], inplace=True)

In [60]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21593 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   21593 non-null  object 
 1   Deal Owner Name      21564 non-null  object 
 2   Closing Date         14645 non-null  object 
 3   Quality              19340 non-null  object 
 4   Stage                21593 non-null  object 
 5   Lost Reason          16124 non-null  object 
 6   Page                 21593 non-null  object 
 7   Campaign             16067 non-null  object 
 8   SLA                  15533 non-null  object 
 9   Content              14147 non-null  object 
 10  Term                 12454 non-null  object 
 11  Source               21593 non-null  object 
 12  Payment Type         496 non-null    object 
 13  Product              3592 non-null   object 
 14  Education Type       3299 non-null   object 
 15  Created Time         21593 non-null  obje

In [61]:
deals_df.describe()

Unnamed: 0,Course duration,Months of study
count,3587.0,840.0
mean,10.198495,5.442857
std,1.834681,2.91992
min,6.0,0.0
25%,11.0,3.0
50%,11.0,5.0
75%,11.0,8.0
max,11.0,11.0


###Преобразование типов данных

Вывод уникальных значений в столбце перед преобразованием, потому что там содержатся нечисловые данные, такие как '€', запятые и прочее

In [62]:
print(deals_df['Initial Amount Paid'].unique())
print(deals_df['Offer Total Amount'].unique())

[nan 0 1000 '€ 3.500,00' 500 100 4500 300 200 2000 11000 4000 3000 3500
 11500 1200 1500 1 5000 600 700 350 9 400 450]
[nan 2000 9000 11000 3500 4500 '€ 2.900,00' 6500 4000 3000 10000 2500 5000
 11500 1 1000 1200 0 1500 '€ 11398,00' 11111 6000]


Обработка нечисловых значений: удаление '€' и других посторонних символов

In [63]:
def clean_currency_col(df, col_name):
    df[col_name] = (df[col_name]
                       .replace(r'[€]', '', regex=True)
                       .replace(r'\s+', '', regex=True)
                       .replace(r'\.', '', regex=True)
                       .replace(r',', '.', regex=True)
                       .astype(float))
    return df

In [64]:
deals_df = clean_currency_col(deals_df, 'Initial Amount Paid')
deals_df = clean_currency_col(deals_df, 'Offer Total Amount')

In [65]:
mask = deals_df['Initial Amount Paid'] > deals_df['Offer Total Amount']
deals_df.loc[mask, ['Initial Amount Paid', 'Offer Total Amount']
             ] = deals_df.loc[
    mask, ['Offer Total Amount', 'Initial Amount Paid']].values

В столбце SLA время приведем к единому виду - секунды

In [66]:
def convert_to_seconds(x):
    if pd.isna(x):
        return np.nan
    elif isinstance(x, datetime.time):
        return x.hour * 3600 + x.minute * 60 + x.second
    elif isinstance(x, datetime.timedelta):
        return x.total_seconds()

deals_df['SLA Seconds'] = deals_df["SLA"].apply(convert_to_seconds)
deals_df['SLA Seconds'].value_counts()

Unnamed: 0_level_0,count
SLA Seconds,Unnamed: 1_level_1
611.0,6
669.0,6
646.0,6
697.0,5
1028.0,5
...,...
25870.0,1
54028.0,1
43761.0,1
40467.0,1


Замена произведена хорошо. Столбец SLA  можно удалить


In [67]:
deals_df.drop(columns=['SLA'], inplace=True)

Продолжим преобразования типов данных

In [68]:
deals_df['Closing Date'] = pd.to_datetime(deals_df['Closing Date'],
                                          format='%d.%m.%Y',
                                          dayfirst=True,
                                          errors='raise')
deals_df['Created Time'] = pd.to_datetime(deals_df['Created Time'],
                                          format='%d.%m.%Y %H:%M',
                                          dayfirst=True,
                                          errors='raise')
deals_df[['Course duration', 'Months of study']] = deals_df[
    ['Course duration',  'Months of study']].astype('Int8')

In [69]:
deals_df.isna().sum()

Unnamed: 0,0
Id,0
Deal Owner Name,29
Closing Date,6948
Quality,2253
Stage,0
Lost Reason,5469
Page,0
Campaign,5526
Content,7446
Term,9139


Заполнение пропущенных значений (обработаем пропуски)

In [70]:
mode_values = deals_df.groupby('Contact Name')['City']\
.agg(lambda x: x.mode()[0] if not x.mode().empty else None)
deals_df['City'] = deals_df['Contact Name'].map(mode_values)

In [71]:
mode_values = deals_df.groupby('Contact Name')['Level of Deutsch']\
.agg(lambda x: x.mode()[0] if not x.mode().empty else None)
deals_df['Level of Deutsch'] = deals_df['Contact Name'].map(mode_values)

Столбец "Уровень немецкого" приведем в удобочитаемый и понятный вид, убрав все лишние пометки и структурировав по принятым уровням владения языком

In [72]:
replace_dict = {
    'в1': 'B1', 'б1': 'B1', 'b1': 'B1', 'B1': 'B1', 'в1-в2': 'B1-B2',
    'B2': 'B2', 'C2': 'C2', 'с1': 'C1', 'Б1': 'B1', 'а2': 'A2', 'а1': 'A1',
    'а0': 'A0','б2': 'B2', 'Б2': 'B2', 'В1': 'B1', 'А2': 'A2',
    'B1 будет в феврале 2025': 'B1',
    'Detmold, Paulinenstraße 95, 32756': 'Неизвестно',
    'Сам оценивает на B2, 13 лет живет в Германии': 'B2',
    'в2': 'B2', 'В1-В2': 'B1-B2', 'Б1 ( ждет Б2)': 'B1-B2', 'А2-В1': 'A2-B1',
    'lэкзамен - 6 июля на В1. курсы вечером (но уверенно говорит на B1)': 'B1',
    'Гражданка Германии уже год в Германии Учит немецкий и в сентябре b1 через гос-во проходит, а не через ДЖЦ, вечером учится 3 р в неделю с 18 до 21': 'B1',
    '-': 'A0', 'А2 ( Б1 в июне)': 'A2-B1', 'B1 в процессе обучения': 'B1',
    'ЯЗ: нем В1 был экз 03.05 повтор и сейчас ждет результаты. Технический англ был. А1 сейчас. ОБР: 2 во информационные и комп сети - инженер системоте': 'B1',
    'В1 в сентябре': 'B1', 'Нет': 'Неизвестно', 'С1': 'C1', 0: 'A0',
    'Ждем B1': 'B1', 'А1 сертиф, но по факту А2': 'A2', 'a2': 'A2',
    'Пока А2, сдает 17 05 B1': 'A2-B1',
    'окончание 13.06 курса на b1': 'B1', 'A1': 'A1', 'b2': 'B2',
    'Thorn-Prikker-Str. 30, Hagen, 58093': 'Неизвестно',
    'В2': 'B2', 'нулевой уровень, только пошел на курсы.': 'A0', 'ая в1': 'B1',
    'Ждет результат по B1': 'B1', 'А2( ждет итоги Б!)': 'A2-B1',
    'b1 экзамен будет 12 апреля': 'B1','b1 (b2 ждет серт)': 'B1-B2', 'С2': 'C2',
    'ждем B1': 'B1', 'Paderborn 33102, Schwabenweg 10': 'Неизвестно',
    'b1 (B2 ждет серт)': 'B1-B2', 'Ждем B1 со дня на день': 'B1',
    'Б2 ( учит С1)': 'B2-C1','B1 еще нет результата': 'B1',
    '31.05.2024': 'Неизвестно',
    'Lichtenfelser Straße 25, Untersiemau 96253': 'Неизвестно',
    'Учиться до сентября на B1': 'B1', 'b1 9ждет экзамен)': 'B1',
    'b1+': 'B1', 'гражданка': 'B2',
    'b1 (ждет результат)': 'B1', 'Б1 (учит Б2)': 'B1-B2', 'б2+': 'B2',
    'Гражданин': 'B2','25 лет живет в Германии': 'C1', 'С1 -ая , Ня -а1': 'C1',
    'Ждем результат по B1': 'B1', 'b1 (b2 в июле экзамен)': 'B1-B2',
    'Ждет со дня на день В1': 'B1',
    'А2 (В1 с 3 раза не сдала, бератер видела наши доки)': 'A2-B1',
    'b1 (ждет результаты)': 'B1','А2 ( повтор на Б1)': 'A2-B1',
    'B1, сдает B2 в апреле': 'B1-B2', 'ждет сертификат B1': 'B1',
    'Б2( 16.02 экзамен С1)': 'B2-C1', 'А1-А2': 'A1-A2',
    'b1 ждет серт на днях на руки': 'B1',
    'b1 24 февраля экзамен, англ b2': 'B1-B2',
    'А2 ( скоро екзамен)': 'A2', 'B1 (ждет результаты В2)': 'B1-B2',
    'b1 (b2 15 марта экзамен)': 'B1-B2', 'b2 (с1 экзамен 16 февраля)': 'B2-C1',
    'Б1 ( ждет итог Б2)': 'B1-B2','не сдавал, но гражданин': 'B2',
    'Нет сертификатов, но есть С1 англ, неоконченное высшее в ИТ (и еще одно высшее юридическое) , очень хочет в ИТ, сильно замотивирована именно н': 'Неизвестно',
    'А2, в процессе Б1': 'A2-B1', 'A0': 'A0', 'А2(Б1 в марте экз)': 'A2-B1',
    'учит A2': 'A2', 'Б1 ( проходит Б2)': 'B1-B2', 'Б1 ( ждет итог )': 'B1-B2',
    'НЯ - В1, АЯ - В1': 'B1','б1 (ждет рез-тат)': 'B1',
    'А2(ждет итоги Б1)': 'A2-B1', 'в1-ня , в1-ая': 'B1',
    'ня-0, но англ B2+': 'A0', 'В': 'B1', 'будет B1 в июне': 'B1',
    'А2( включили нем в ангебот)': 'A2', 'а2-в1': 'A2-B1', 'в2-с1': 'B2-C1',
    'курс А2-В1 - сдача в июле, но вечерняя смена инт курсов, настроен получить гутшайн уже сейчас.': 'A2-B1',
    'B1 (B2 должна до конца февраля получить)': 'B1-B2',
    'b1 (b2 экзамен 6 февраля)': 'B1-B2', 'A1-A2': 'A1-A2',
    'Б1( может будет)': 'B1', 'А2 ( в процессе Б1)': 'A2-B1',
    'b1 ждет результаты': 'B1', 'b1 ждет экзамен в феврале': 'B1',
    'В1, может уже В2?': 'B1-B2',
    'A2 (идет доучивать В1 - 300 часов; предположительно до августа)': 'A2-B1',
    'не учил': 'A0','Без 5 минут B1 (ждет результаты экзамена)': 'B1',
    'а1-а2 , ая свободный': 'A1-A2', 'b2-c2': 'B2','а2, англ B1': 'A2',
    'А1': 'A1', 'А2 нем -В2 англ': 'A2', 'Проходит сейчас B1': 'B1',
    'Ждет результат по B1 в феврале': 'B1', 'Проходит сейчас повторно B1': 'B1',
    'b1 экзамен в феврале': 'B1',
    'Учиться на B1 во вторую смену, в первую хочет получить одобрение на обучение у нас': 'B1',
    'Б10Б2': 'B2', 'Б1?': 'B1', 'B1 есть, ждем B2 в конце месяца': 'B1-B2',
    'B1-B2': 'B1-B2','?': 'Неизвестно', 'b1 экзамен 26 января': 'B1',
    'А0': 'A0', 'а2 (б1 в сер января)': 'A2-B1','f2': 'A2',
    'Учиться на B1': 'B1',
    'Сдала экзамен на B1, ждет в начале февраля результат': 'B1',
    'Сдавал 8 12 на B1 - ждет результат. 3 01 - аплейт - получил B1!': 'B1',
    'Б1-Б2': 'B1-B2','б1 (до июля на В2)': 'B1-B2',
    'А2 ( Б1 март )': 'A2-B1', 'А2 (весной - еще 300 часов В1)': 'A2-B1',
    'В январе будут результаты по экзамену на B1': 'B1',
    'б2 (с1 ждет рез-тат)': 'B2-C1',
    'ня-0, ая-B1': 'A0', 'А2-Б1': 'A2-B1',
    'B1 (почти, не сдала чуть) + англ В1': 'B1',
    'в1 ждем результаты': 'B1', 'А2 ( хочет просить совмещать)': 'A2',
    'B1 (ждет результаты)': 'B1', 'А2+': 'A2',
    'а2 (сдавала экз В1, но не сдала похоже)': 'A2', 'в1, идет на в2': 'B1-B2',
    'b2-c1': 'B2-C1', 'C1': 'C1', 'b1-b2': 'B1-B2',
    'не учила ( разговорный) сразу пошла работать': 'B2',
    'Б1 ( проходит Б2 )': 'B1-B2', 'a0-a1': 'A0',
    'Б1 ( был екзамен ждет итог )': 'B1',
    'Б2-С1': 'B2-C1', 'b1 (учила, но не сдала В2)': 'B1',
    'ня а2, ая в1': 'A2-B1',
    'A2 (идет на В1)': 'A2-B1', 'B2-C2': 'B2',
    'немецкий - а1-а2, англ b1-b2': 'A2',
    'B2+': 'B2', 'в1, еще нет сертификата': 'B1', 'б1-б2': 'B1-B2', 'Бй': 'B1',
    'ждет результаты по B1 экзамену': 'B1', 'b2 (ждет серт)': 'B2',
    'никакой': 'A0','в1 , хочет совмещать с в2': 'B1-B2',
    90: 'Неизвестно', '.': 'Неизвестно', 'в1 (уже сдала В2)': 'B2',
    'b1 результат экзамена в феврале': 'B1',
    'в1 , экзамен на в2 15 декабря': 'B1-B2', 'идет на А1': 'A1',
    'УТОЧНИТЬ!': 'Неизвестно','B2 (говорит без проблем - давно здесь)': 'B2',
    'B1 (до февраля)': 'B1','А2 ( Б2 в процессе)': 'B1', 'C': 'C1',
    'б1 заканчивает': 'B1', 'B1 (B2 экзамен в январе)': 'B1-B2',
    '5 июля 2024 сдает экз на В2': 'B2', 'А2 (заканчив В1 в июне)': 'A2-B1',
    'a2-б1': 'A2-B1', 'В1?': 'B1',
    'b1 будет в январе экзамен, готов совмещать': 'B1',
    'b1 (b2 экзамен 2 марта)': 'B1-B2', 'B1 немецкий и английский Advance': 'B1',
    'A': 'A1', 'a2 (b1 экзамен 15 июня)': 'A2-B1',
    'B2 (ждет итог экзамена)': 'B2',
    'b1 (b2 не сдал экзамен)': 'B1', 'В1 (учится на В2 до авг.': 'B1-B2',
    'В2 - не сдал': 'B2', 'B2+ (не сдавал, но говорит)': 'B2',
    'b1 (ждет серт)': 'B1',
    'B1 вроде был (18 лет назад сдавал)': 'B1',
    'А2 (сдает B1 - 12 дек) - не сдал!': 'A2',
    'УТОЧНИТЬ': 'Неизвестно', 'b2 ждет серт': 'B2',
    'разговорный из украины, без сертификата': 'B2',
    'Ждет B1': 'B1', 'сдавала А2 в сентябре': 'A2',
    'В1, учится на В2 до няоб 24': 'B1-B2',
    'Б1 ( ждет результат Б2)': 'B1-B2',
    'точно уровень не знаю, но говорить могу - учила сама': 'B2',
    'А2-В1 учит': 'A2-B1', 'В1 (учится на В2 уже)': 'B1',
    'В январе - В2 сдает': 'B2',
    'b1 должна получить результаты в феврале': 'B1'
}
deals_df['Level of Deutsch'] = deals_df['Level of Deutsch']\
                  .replace(replace_dict).fillna("Unknown")

In [73]:
deals_df['Level of Deutsch'].unique()

array(['Unknown', 'B1', 'A2', 'B2', 'B1-B2', 'A2-B1', 'A0', 'C2', 'C1',
       'A1', 'Неизвестно', 'B2-C1', 'A1-A2'], dtype=object)

In [74]:
deals_df['Level of Deutsch'].value_counts()

Unnamed: 0_level_0,count
Level of Deutsch,Unnamed: 1_level_1
Unknown,19924
B1,992
B2,225
A2,166
B1-B2,101
A2-B1,44
Неизвестно,37
C1,36
A0,27
A1,25


In [75]:
replace_take_two = {"B1-B2": "B2", 'A2-B1': 'B1',
                    'B2-C1': 'C1', 'A1-A2': "A2", "Неизвестно": "Unknown"}
deals_df['Level of Deutsch'] = deals_df['Level of Deutsch']\
                              .replace(replace_take_two)

In [76]:
deals_df['Level of Deutsch'].unique()

array(['Unknown', 'B1', 'A2', 'B2', 'A0', 'C2', 'C1', 'A1'], dtype=object)

In [77]:
deals_df['Level of Deutsch'].value_counts()

Unnamed: 0_level_0,count
Level of Deutsch,Unnamed: 1_level_1
Unknown,19961
B1,1036
B2,326
A2,169
C1,45
A0,27
A1,25
C2,4


Заполнение пропущенных значений (обработаем пропуски)

In [78]:
mode_duration = deals_df.groupby('Product')['Course duration']\
      .agg(lambda x: x.mode()[0] if not x.mode().empty else None)
mode_duration

Unnamed: 0_level_0,Course duration
Product,Unnamed: 1_level_1
Data Analytics,
Digital Marketing,11.0
Find yourself in IT,
UX/UI Design,11.0
Web Developer,6.0


Заменим курс Data Analytics на Digital Marketing (уточнив у заказчика, что это подразумевалось одно и тоже)

In [79]:
deals_df['Product'] = deals_df['Product'].replace('Data Analytics',
                                                  'Digital Marketing')

В столбце Education Type дозаполним по возможности пропущенные значения

In [80]:
mode_education = deals_df.groupby(
    ['Offer Total Amount', 'Course duration', 'Product']
)['Education Type'].agg(lambda x: x.mode().iloc[0] if not x.mode()\
                        .empty else None).reset_index()

deals_df = deals_df.merge(mode_education, on=['Offer Total Amount',
                                              'Course duration', 'Product'],
                           how='left', suffixes=('', '_mode'))

deals_df['Education Type'] = deals_df['Education Type']\
                        .fillna(deals_df['Education Type_mode'])

deals_df.drop(columns=['Education Type_mode'], inplace=True)

In [81]:
mode_education.isna().sum()

Unnamed: 0,0
Offer Total Amount,0
Course duration,0
Product,0
Education Type,0


In [82]:
deals_df['Education Type'].isna().sum()

18154

Заменим отсутствующие значения в столбце Contact Name на Unknown

In [83]:
deals_df['Contact Name'] = deals_df['Contact Name'].fillna('Unknown')

In [84]:
deals_df[deals_df['Deal Owner Name'].isna()][['Deal Owner Name',
                                         'Offer Total Amount',
                                         'Initial Amount Paid']].isna().sum()

Unnamed: 0,0
Deal Owner Name,29
Offer Total Amount,13
Initial Amount Paid,13


In [85]:
deals_df[deals_df['Deal Owner Name'].isna()][['Deal Owner Name',
                                              'Offer Total Amount',
                                              'Initial Amount Paid']]

Unnamed: 0,Deal Owner Name,Offer Total Amount,Initial Amount Paid
14007,,0.0,0.0
18834,,,
18954,,,
19054,,,
19150,,,
19248,,,
19254,,,
19337,,,
19382,,,
19438,,,


Удалим строки, где отсутсвуют данные по столбцу Deal Owner Name

In [86]:
deals_df = deals_df.dropna(subset=['Deal Owner Name'])

In [87]:
deals_df['Deal Owner Name'].isna().sum()

0

In [88]:
deals_df['Quality'].value_counts()

Unnamed: 0_level_0,count
Quality,Unnamed: 1_level_1
E - Non Qualified,7633
D - Non Target,6248
C - Low,3442
B - Medium,1556
A - High,429
F,3


Перезапишем датасет без подкатегории F

In [89]:
deals_df = deals_df[deals_df['Quality'] != 'F']

In [90]:
deals_df['Quality'].value_counts()

Unnamed: 0_level_0,count
Quality,Unnamed: 1_level_1
E - Non Qualified,7633
D - Non Target,6248
C - Low,3442
B - Medium,1556
A - High,429


###Удаление дубликатов

In [91]:
deals_df = deals_df[deals_df['Lost Reason'] != 'Duplicate']

In [92]:
deals_df[deals_df.duplicated(keep=False, subset=deals_df.columns[1:])]

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,Source,Payment Type,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
1067,5805028000054269273,John Doe,NaT,,New Lead,,/webinar,,,,Webinar,,,,2024-06-10 12:37:00,,,,,5805028000005448163,,Unknown,
1069,5805028000054269205,John Doe,NaT,,New Lead,,/webinar,,,,Webinar,,,,2024-06-10 12:37:00,,,,,5805028000005448163,,Unknown,
11084,5805028000029580838,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,,,CRM,,,,2024-02-01 20:45:00,,,,,5805028000025816321,,Unknown,
11085,5805028000029576850,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,,,CRM,,,,2024-02-01 20:45:00,,,,,5805028000025816321,,Unknown,
14754,5805028000020283932,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,invitation,,Partnership,,,,2023-12-08 22:06:00,,,,,5805028000020421099,,Unknown,
14755,5805028000020420273,Charlie Davis,NaT,,Registered on Webinar,,/workshop,,invitation,,Partnership,,,,2023-12-08 22:06:00,,,,,5805028000020421099,,Unknown,
14807,5805028000020313482,Diana Evans,NaT,,Registered on Webinar,,/workshop,,invitation,,Partnership,,,,2023-12-08 15:44:00,,,,,5805028000020300454,,Unknown,
14808,5805028000020284716,Diana Evans,NaT,,Registered on Webinar,,/workshop,,invitation,,Partnership,,,,2023-12-08 15:44:00,,,,,5805028000020300454,,Unknown,
15534,5805028000018428977,Nina Scott,NaT,,Registered on Webinar,,/workshop,14.11.23wide_webinar_DE,bloggersvideo8webinar,wide,Facebook Ads,,,,2023-11-23 14:06:00,,,,,5805028000018427915,,Unknown,
15535,5805028000018507379,Nina Scott,NaT,,Registered on Webinar,,/workshop,14.11.23wide_webinar_DE,bloggersvideo8webinar,wide,Facebook Ads,,,,2023-11-23 14:06:00,,,,,5805028000018427915,,Unknown,


In [93]:
deals_df.duplicated( subset=deals_df.columns[1:]).sum()

5

In [94]:
deals_df[deals_df.duplicated(subset=deals_df.columns[1:])].shape

(5, 23)

In [95]:
deals_df.drop_duplicates(subset=deals_df.columns[1:], inplace=True)

deals_df[deals_df.duplicated(subset=deals_df.columns[1:])].shape

(0, 23)

In [96]:
deals_df.isna().sum()

Unnamed: 0,0
Id,0
Deal Owner Name,0
Closing Date,6659
Quality,2231
Stage,0
Lost Reason,5441
Page,0
Campaign,4233
Content,6017
Term,7711


In [97]:
deals_df[deals_df['Offer Total Amount'].isna()][['Offer Total Amount',
                                                 'Initial Amount Paid',
                                                 'Months of study']]

Unnamed: 0,Offer Total Amount,Initial Amount Paid,Months of study
0,,,
2,,,
3,,,
4,,,
5,,,
...,...,...,...
21584,,,
21587,,,
21589,,,
21590,,,


In [98]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19788 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id                   19788 non-null  object        
 1   Deal Owner Name      19788 non-null  object        
 2   Closing Date         13129 non-null  datetime64[ns]
 3   Quality              17557 non-null  object        
 4   Stage                19788 non-null  object        
 5   Lost Reason          14347 non-null  object        
 6   Page                 19788 non-null  object        
 7   Campaign             15555 non-null  object        
 8   Content              13771 non-null  object        
 9   Term                 12077 non-null  object        
 10  Source               19788 non-null  object        
 11  Payment Type         482 non-null    object        
 12  Product              3537 non-null   object        
 13  Education Type       3390 non-null  

Произведем преобразования типов данных некоторых столбцов в категориальные

In [99]:
category_columns = ['Deal Owner Name', 'Quality', 'Stage',
                    'Lost Reason', 'Page', 'Campaign', 'Content',
                     'Term', 'Source', 'Payment Type', 'Product',
                    'City', 'Level of Deutsch', 'Education Type']
for col in category_columns:
  deals_df[col] = deals_df[col].astype('category')

In [100]:
deals_df.isna().sum()

Unnamed: 0,0
Id,0
Deal Owner Name,0
Closing Date,6659
Quality,2231
Stage,0
Lost Reason,5441
Page,0
Campaign,4233
Content,6017
Term,7711


###Выводы итогов после преобразований по датасету deals_df

In [101]:
deals_df.head()

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,Source,Payment Type,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
0,5805028000056864695,Ben Hall,NaT,,New Lead,,/eng/test,03.07.23women,v16,women,Facebook Ads,,,,2024-06-21 15:30:00,,,,,5805028000056849495,,Unknown,
1,5805028000056859489,Ulysses Adams,NaT,,New Lead,,/at-eng,,,,Organic,,Web Developer,Morning,2024-06-21 15:23:00,6.0,,0.0,2000.0,5805028000056834471,,Unknown,
2,5805028000056832357,Ulysses Adams,2024-06-21,D - Non Target,Lost,Non target,/at-eng,engwien_AT,b1-at,21_06_2024,Telegram posts,,,,2024-06-21 14:45:00,,,,,5805028000056854421,,Unknown,1603.0
3,5805028000056824246,Eva Kent,2024-06-21,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,bloggersvideo14com,recentlymoved,Facebook Ads,,,,2024-06-21 13:32:00,,,,,5805028000056889351,,Unknown,3604.0
4,5805028000056873292,Ben Hall,2024-06-21,D - Non Target,Lost,Non target,/eng,discovery_DE,website,,Google Ads,,,,2024-06-21 13:21:00,,,,,5805028000056876176,,Unknown,3192.0


In [102]:
deals_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19788 entries, 0 to 21592
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id                   19788 non-null  object        
 1   Deal Owner Name      19788 non-null  category      
 2   Closing Date         13129 non-null  datetime64[ns]
 3   Quality              17557 non-null  category      
 4   Stage                19788 non-null  category      
 5   Lost Reason          14347 non-null  category      
 6   Page                 19788 non-null  category      
 7   Campaign             15555 non-null  category      
 8   Content              13771 non-null  category      
 9   Term                 12077 non-null  category      
 10  Source               19788 non-null  category      
 11  Payment Type         482 non-null    category      
 12  Product              3537 non-null   category      
 13  Education Type       3390 non-null  

In [103]:
deals_df

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,Content,Term,Source,Payment Type,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch,SLA Seconds
0,5805028000056864695,Ben Hall,NaT,,New Lead,,/eng/test,03.07.23women,v16,women,Facebook Ads,,,,2024-06-21 15:30:00,,,,,5805028000056849495,,Unknown,
1,5805028000056859489,Ulysses Adams,NaT,,New Lead,,/at-eng,,,,Organic,,Web Developer,Morning,2024-06-21 15:23:00,6,,0.0,2000.0,5805028000056834471,,Unknown,
2,5805028000056832357,Ulysses Adams,2024-06-21,D - Non Target,Lost,Non target,/at-eng,engwien_AT,b1-at,21_06_2024,Telegram posts,,,,2024-06-21 14:45:00,,,,,5805028000056854421,,Unknown,1603.0
3,5805028000056824246,Eva Kent,2024-06-21,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,bloggersvideo14com,recentlymoved,Facebook Ads,,,,2024-06-21 13:32:00,,,,,5805028000056889351,,Unknown,3604.0
4,5805028000056873292,Ben Hall,2024-06-21,D - Non Target,Lost,Non target,/eng,discovery_DE,website,,Google Ads,,,,2024-06-21 13:21:00,,,,,5805028000056876176,,Unknown,3192.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21587,5805028000000935025,Kevin Parker,2023-07-06,E - Non Qualified,Lost,Doesn't Answer,eng/digital-marketing,02.07.23wide_DE,b3,wide,Facebook Ads,,,,2023-07-04 09:34:00,,,,,5805028000000983028,,Unknown,
21589,5805028000000948010,Jane Smith,2023-08-29,B - Medium,Lost,needs time to think,eng/digital-marketing,03.07.23women,b3,women,Facebook Ads,,,,2023-07-04 07:10:00,,,,,5805028000000979006,,Unknown,
21590,5805028000000945016,Jane Smith,2023-08-29,A - High,Lost,Changed Decision,eng/digital-marketing,02.07.23wide_DE,b3,wide,Facebook Ads,,,,2023-07-03 20:39:00,,,,,5805028000000968001,,Unknown,4906919.0
21591,5805028000000927004,Bob Brown,2023-07-09,D - Non Target,Lost,Does not speak English,eng/digital-marketing,03.07.23women,b3,women,Facebook Ads,,,,2023-07-03 20:17:00,,,,,5805028000000961001,,Unknown,


###Сохранение очищенного датасета deals_df

In [104]:
deals_df.to_excel("Deals (Result).xlsx", index=False)

#**Описательная статистика**:
1. ***Рассчитайте сводную статистику (среднее значение, медиана, режим, диапазон) для числовых полей.***


In [105]:
deals_df.describe()

Unnamed: 0,Closing Date,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,SLA Seconds
count,13129,19788,3533.0,838.0,4044.0,4064.0,14980.0
mean,2024-01-28 16:28:52.957574656,2024-01-28 16:11:33.999393536,10.197566,5.445107,940.47997,7258.543061,111574.5
min,2022-10-11 00:00:00,2023-07-03 17:03:00,6.0,0.0,0.0,0.0,3.0
25%,2023-11-11 00:00:00,2023-11-18 23:15:30,11.0,3.0,300.0,3500.0,4408.25
50%,2024-02-08 00:00:00,2024-02-06 16:15:00,11.0,5.0,1000.0,11000.0,19820.0
75%,2024-04-19 00:00:00,2024-04-14 23:28:45,11.0,8.0,1000.0,11000.0,55969.0
max,2024-12-11 00:00:00,2024-06-21 15:30:00,11.0,11.0,11000.0,11500.0,26908460.0
std,,,1.835545,2.918031,1341.419686,4579.30493,726876.2


### Выводы по описательной статистике сделок:  

1. Даты:
   - Средняя дата закрытия сделок — 28 января 2024.  
   - Минимальная дата закрытия — 11 октября 2022, максимальная — 11 декабря 2024.  
   - Среднее время создания сделок — 28 января 2024 (почти совпадает со средним закрытием).  

2. Длительность обучения:  
   - В среднем курс длится 10.2 месяцев, медианное значение — 11 месяцев.  
   - Минимальная продолжительность — 6 месяцев, максимальная — 11 месяцев.  
   - Распределение сжато, большинство курсов имеют длительность 11 месяцев.  

3. Финансовые показатели:  
   - Средняя начальная оплата — 940,48 у.е., медиана — 1000 у.е..  
   - Средняя сумма предложения — 7258,54 у.е., медиана — 11000 у.е..  
   - Минимальная оплата 0, максимальная 11000 у.е., что указывает на возможные пробные/бесплатные курсы.  

4. SLA (время обработки сделки в секундах):
   - Среднее время обработки — 111,574 секунд (~31 час).  
   - Медиана — 19,820 секунд (~5.5 часов), что говорит о сильной асимметрии.  
   - Максимальное значение 26,908,460 секунд (~311 дней) — возможные выбросы.  

### Общий вывод:
- Большинство курсов длятся 11 месяцев, с высокой средней стоимостью 7,259 у.е.  
- Некоторые сделки оформлялись бесплатно, либо с минимальной предоплатой.
- Время обработки сильно варьируется, есть выбросы с очень долгими задержками.
- Анализ SLA требует дополнительной проверки на аномально высокие значения.

In [106]:
contacts_df.describe()

Unnamed: 0,Created Time,Modified Time
count,18510,18510
mean,2024-01-24 14:25:56.155591680,2024-02-15 09:11:05.273905920
min,2023-06-27 11:28:00,2023-07-06 10:54:00
25%,2023-11-15 16:49:15,2023-12-09 14:51:45
50%,2024-02-01 18:44:30,2024-02-29 01:12:30
75%,2024-04-12 16:15:45,2024-04-26 22:40:45
max,2024-06-21 15:30:00,2024-06-21 15:32:00


### Выводы по описательной статистике:

1. Объем данных – 18 510 записей, что говорит о значительном количестве событий, включенных в анализ.

2. Средние значения:  
   - Среднее время создания записей — 24 января 2024 года.  
   - Среднее время изменения — 15 февраля 2024 года.  
   Это означает, что в среднем записи редактируются примерно через 21 день после создания.

3. Минимальные и максимальные значения:  
   - Самая ранняя запись была создана 27 июня 2023 года, а последняя — 21 июня 2024 года.  
   - Первое изменение произошло 6 июля 2023 года, а последнее — 21 июня 2024 года.  
   Диапазон охвата данных — почти 1 год.

4. Медианные значения (50%):  
   - Половина всех записей была создана до 1 февраля 2024 года.  
   - Половина всех изменений произошло до 29 февраля 2024 года.  
   Это говорит о высокой активности создания записей в конце 2023 – начале 2024 года.

5. 25-й и 75-й перцентиль:  
   - 25% записей были созданы до 15 ноября 2023 года, а 75% — до 12 апреля 2024 года.  
   - По времени модификации аналогичные показатели — 9 декабря 2023 года и 26 апреля 2024 года.  
   Это указывает на равномерное распределение данных с небольшим смещением к концу периода.

6. Разница между созданием и изменением:  
   - В среднем записи модифицируются через несколько недель после создания.  
   - Разброс значений показывает, что есть как быстро редактируемые записи, так и такие, которые остаются неизменными на протяжении долгого времени.

### Итог:  
Данные показывают устойчивый рост активности с пиком в начале 2024 года. Среднее время до изменения записи – несколько недель, что может говорить либо о частой необходимости корректировки данных, либо о рабочем процессе, предполагающем доработку записей после их первичного создания.

In [107]:
calls_df.describe()

Unnamed: 0,Call Start Time,Call Duration (in seconds)
count,92617,92538.0
mean,2024-02-04 19:21:56.171329024,170.330178
min,2023-06-30 08:43:00,0.0
25%,2023-11-23 17:14:00,4.0
50%,2024-02-16 16:00:00,9.0
75%,2024-04-22 14:39:00,107.0
max,2024-06-21 15:31:00,7625.0
std,,406.944468


### Выводы по описательной статистике звонков:

1. Объем данных:  
   - Всего записано 92 617 звонков.  
   - Длительность звонков известна для 92 538 записей, то есть небольшое число звонков имеет пропущенные данные о длительности.

2. Средние значения:  
   - Среднее время начала звонков — 4 февраля 2024 года.  
   - Средняя продолжительность звонка — 170 секунд (2 минуты 50 секунд).  
   - Однако стандартное отклонение (406,94 секунды) говорит о значительном разбросе длительностей.

3. Минимальные и максимальные значения:  
   - Самый ранний звонок в выборке был 30 июня 2023 года, а последний — 21 июня 2024 года, что охватывает почти 1 год.  
   - Минимальная длительность звонка — 0 секунд (возможно, звонки без ответа).  
   - Максимальная длительность звонка — 7 625 секунд (~2 часа 7 минут), что указывает на редкие, но очень длинные разговоры.

4. Перцентильный анализ (распределение длительности):  
   - 25% звонков длились до 4 секунд — это очень короткие разговоры (возможно, пропущенные вызовы или сбросы).  
   - 50% (медиана) звонков длились 9 секунд, что говорит о высокой доле коротких вызовов.  
   - 75% звонков длились до 107 секунд (1 минута 47 секунд), что приближает среднее значение к более типичному разговору.  

5. Разброс и особенности данных:  
   - Большинство звонков короткие (до 10 секунд), но есть значительное число более длинных разговоров, что увеличивает среднюю длительность.  
   - Высокое стандартное отклонение свидетельствует о том, что в данных есть редкие, но очень долгие звонки, которые сильно влияют на среднее значение.

### Итог:
- Большинство звонков короткие, с медианной продолжительностью 9 секунд.  
- Около 25% звонков длится менее 4 секунд, что может указывать на частые недозвоны или пропущенные вызовы.  
- Длинные звонки (свыше 7 000 секунд) встречаются редко, но они значительно увеличивают среднее значение.  
- В данных прослеживается тенденция к большому количеству коротких разговоров, с небольшим числом очень долгих вызовов.

In [108]:
spend_df.describe()

Unnamed: 0,Date,Impressions,Spend,Clicks
count,14967,14967.0,14967.0,14967.0
mean,2024-01-09 18:42:18.544798464,3411.951092,9.970728,30.978686
min,2023-07-03 00:00:00,0.0,0.0,0.0
25%,2023-10-07 00:00:00,35.0,0.31,0.0
50%,2024-01-20 00:00:00,286.0,2.35,4.0
75%,2024-04-11 00:00:00,1057.0,8.89,17.0
max,2024-06-21 00:00:00,431445.0,774.0,2415.0
std,,13361.336847,31.077729,98.175199


### Выводы по описательной статистике рекламных данных:

1. Объем данных:  
   - В выборке 14 967 записей, что представляет значительный объем информации о рекламных показах, расходах и кликах.

2. Средние значения:  
   - Среднее время показа рекламы — 9 января 2024 года.  
   - В среднем на запись приходится 3 411 показов, 9,97 денежных единиц затрат и 30,98 кликов.  
   - Однако высокое стандартное отклонение (особенно у показов – 13 361, кликов – 98,18) говорит о сильном разбросе данных.

3. Минимальные и максимальные значения:  
   - Самый ранний показ рекламы — 3 июля 2023 года, а последний — 21 июня 2024 года.  
   - Минимальные значения для всех показателей равны 0 (есть записи без показов, кликов и затрат).  
   - Максимальные значения:  
     - Показы: 431 445 (очень большая разница с медианой, что указывает на редкие выбросы).  
     - Расходы: 774 единицы.  
     - Клики: 2 415.  

4. Перцентильный анализ (распределение значений):  
   - 25% записей имеют 35 или менее показов, затраты до 0,31, а кликов 0 (то есть значительная часть кампаний не получает откликов).  
   - 50% (медиана) записей имеют 286 показов, затраты 2,35, 4 клика – это более реалистичный ориентир для типичной рекламной кампании.  
   - 75% записей получают до 1 057 показов, 8,89 затрат, 17 кликов – выше среднего, но далеко от максимальных значений.  

5. Разброс данных и особенности:  
   - Распределение неравномерное, так как есть много записей с низкими показателями, но редкие записи с очень высокими показами, затратами и кликами.  
   - Большая доля записей (25%) вообще не получает кликов, что говорит о низкой вовлеченности части аудитории.  
   - Средние значения (3 411 показов, 9,97 затрат, 30,98 кликов) завышены редкими всплесками активности.

### Итог:
- Большая часть записей имеет низкие показатели показов, затрат и кликов, но редкие записи с аномально высокими значениями сильно искажают средние данные.  
- Медианные значения (286 показов, 2,35 затрат, 4 клика) лучше отражают реальную картину, чем средние.  
- Четверть записей вообще не получает кликов, что может говорить о неэффективных объявлениях или плохом таргетинге.  
- Высокая дисперсия данных свидетельствует о том, что некоторые кампании значительно превосходят другие по охвату и вовлеченности.

2. ***Анализируйте категориальные поля, такие как качество, стадия, источник и продукт.***

Подсчет уникальных значений

In [109]:
categorical_columns = ['Quality', 'Stage', 'Source', 'Product']

for col in categorical_columns:
    print(f"Уникальные значения в {col}:")
    print(deals_df[col].unique(), "\n")

Уникальные значения в Quality:
[NaN, 'D - Non Target', 'E - Non Qualified', 'B - Medium', 'C - Low', 'A - High']
Categories (5, object): ['A - High', 'B - Medium', 'C - Low', 'D - Non Target',
                         'E - Non Qualified'] 

Уникальные значения в Stage:
['New Lead', 'Lost', 'Need a consultation', 'Need To Call', 'Call Delayed', ..., 'Need to Call - Sales', 'Test Sent', 'Payment Done', 'Registered on Offline Day', 'Free Education']
Length: 13
Categories (13, object): ['Call Delayed', 'Free Education', 'Lost', 'Need To Call', ...,
                          'Registered on Offline Day', 'Registered on Webinar', 'Test Sent',
                          'Waiting For Payment'] 

Уникальные значения в Source:
['Facebook Ads', 'Organic', 'Telegram posts', 'Google Ads', 'Youtube Ads', ..., 'Bloggers', 'Webinar', 'Partnership', 'Test', 'Offline']
Length: 13
Categories (13, object): ['Bloggers', 'CRM', 'Facebook Ads', 'Google Ads', ..., 'Test', 'Tiktok Ads',
                         

Подсчет частот встречаемости

In [110]:
for col in categorical_columns:
    print(f"Распределение значений в {col}:")
    print(deals_df[col].value_counts(), "\n")

Распределение значений в Quality:
Quality
E - Non Qualified    6143
D - Non Target       6078
C - Low              3386
B - Medium           1535
A - High              415
Name: count, dtype: int64 

Распределение значений в Stage:
Stage
Lost                         13991
Call Delayed                  2243
Registered on Webinar         2066
Payment Done                   855
Waiting For Payment            324
Qualificated                   106
Registered on Offline Day       85
Need to Call - Sales            33
Need To Call                    31
Test Sent                       25
Need a consultation             23
New Lead                         5
Free Education                   1
Name: count, dtype: int64 

Распределение значений в Source:
Source
Facebook Ads      4711
Google Ads        4110
Tiktok Ads        2001
SMM               1668
Youtube Ads       1618
Organic           1497
CRM               1455
Bloggers          1071
Telegram posts     993
Webinar            305
Partnersh

Процентное распределение

In [111]:
deals_df['Quality'].value_counts(normalize=True) * 100

Unnamed: 0_level_0,proportion
Quality,Unnamed: 1_level_1
E - Non Qualified,34.988893
D - Non Target,34.618671
C - Low,19.285755
B - Medium,8.742952
A - High,2.36373


Анализ связи между категориями и числовыми переменными

In [112]:
for col in categorical_columns:
    print(deals_df.groupby(col, observed=True)['Offer Total Amount'].mean(), "\n")

Quality
A - High             7899.444444
B - Medium           8027.845884
C - Low              7790.862004
D - Non Target       8047.854027
E - Non Qualified     847.480106
Name: Offer Total Amount, dtype: float64 

Stage
Call Delayed                  9195.379781
Free Education                4000.000000
Lost                          6523.138811
Need To Call                          NaN
Need a consultation                   NaN
Need to Call - Sales                  NaN
New Lead                      2000.000000
Payment Done                  7547.739286
Qualificated                  5733.333333
Registered on Offline Day     5000.000000
Registered on Webinar         4000.000000
Test Sent                    10666.666667
Waiting For Payment          10084.829721
Name: Offer Total Amount, dtype: float64 

Source
Bloggers           8679.005525
CRM                8864.634146
Facebook Ads       7281.619820
Google Ads         6225.492341
Offline           11000.000000
Organic            8203.396