<a href="https://colab.research.google.com/github/stakunlena/ich_final_project/blob/main/01_data_preparation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Предобработка данных

## Загрузка библиотек и исходных данных

In [165]:
# Импортируем основные библиотеки
import pandas as pd
import numpy as np
from datetime import datetime

# Загружаем исходные данные
import os
from google.colab import drive # Импортируем библиотеку для работы с Google Drive

# Подключаем Google Drive
drive.mount('/content/drive')

# Путь к папке с данными
base_path = '/content/drive/MyDrive/P. Project 07.11/Data/'

# Загружаем файлы в датафреймы
df_calls = pd.read_excel(base_path + 'Calls (Done).xlsx')
df_contacts = pd.read_excel(base_path + 'Contacts (Done).xlsx')
df_deals = pd.read_excel(base_path + 'Deals (Done).xlsx')
df_spend = pd.read_excel(base_path + 'Spend (Done).xlsx')

# Определим словарь: имя переменной → объект DataFrame
# которым будем пользоваться для групповых операций с датафреймами
dfs = {
    'df_contacts': df_contacts,
    'df_calls': df_calls,
    'df_deals': df_deals,
    'df_spend': df_spend
}

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Кастомные функции

In [166]:
import re

def clean_columns_names(df: pd.DataFrame) -> pd.DataFrame:
    """
    Преобразует названия столбцов DataFrame в формат snake_case.

    В текущих датасетах выполняются следующие преобразования:
    1. Удаление лишних пробелов по краям.
    2. Замена пробелов и круглых скобок на символ подчёркивания.
    3. Приведение всех символов к нижнему регистру.

    Параметры
    ----------
    df : pandas.DataFrame
        Исходный DataFrame с оригинальными названиями столбцов.

    Возвращает
    ----------
    pandas.DataFrame
        Тот же объект DataFrame с обновлёнными названиями столбцов.
    """
    df.columns = (
        df.columns
        .map(lambda x: str(x).strip()) # обрезаем пробелы и защищаем от NaN
        .map(lambda x: re.sub(r'[\s()]+', '_', x)) # пробелы и скобки → "_"
        .str.lower() # всё в нижний регистр
    )
    return df

def normalize_id_columns(df: pd.DataFrame) -> pd.DataFrame:
    """
    Приводит все столбцы, содержащие идентификаторы (id), к строковому типу
    и очищает значения от артефактов Excel и текстовых маркеров пропусков.

    Функция автоматически находит все колонки, кроме перечисленных в списке
    исключений, в названии которых присутствует
    подстрока 'id' (без учёта регистра), и выполняет следующие преобразования:
      1. приведение к типу pandas.StringDtype() — NA-aware строковый тип;
      2. удаление пробелов по краям строк;
      3. удаление суффиксов '.0', появляющихся после экспорта в Excel;
      4. замена строковых маркеров пропусков ('nan', 'NaN', '') на pd.NA.

    Параметры
    ----------
    df : pd.DataFrame
        Входной датафрейм с данными, содержащими столбцы идентификаторов.

    Возвращает
    ----------
    pd.DataFrame
        Датафрейм с обновлёнными столбцами идентификаторов, приведёнными
        к строковому типу и очищенными от артефактов.

    Пример
    -------
    >>> df = pd.DataFrame({
    ...     "Id": [5805028000018777278.0, 5805028000018777000.0, None],
    ...     "ContactID": ["5.805028E+18", "5805028000018777000", ""]
    ... })
    >>> normalize_id_columns(df)
                id          contactid
    0  5805028000018777278  5.805028E+18
    1  5805028000018777000  5805028000018777000
    2

    Примечание
    ----------
    Функция не удаляет пропуски и не восстанавливает значения.
    Её цель — унификация типа данных и формата хранения идентификаторов
    во всех таблицах проекта перед их объединением.
    """
    # Список исключений
    skip_cols = {"initial_amount_paid"}

    # Находим все колонки, содержащие подстроку "id", кроме тех, что в списке исключений
    id_cols = [c for c in df.columns if "id" in c.lower() and c.lower() not in skip_cols]

    # Приводим найденные колонки к единому типу и формату
    for col in id_cols:
        df[col] = (
            df[col]
            .astype("string")                             # безопасный NA-aware тип
            .str.strip()                                  # удаляем пробелы по краям
            .str.replace(r"\.0$", "", regex=True)          # убираем .0 после Excel
            .replace({"nan": pd.NA, "NaN": pd.NA, "": pd.NA})  # нормализуем пропуски
        )

    return df

def analyze_missing_ratio(df: pd.DataFrame, column: str, threshold: float = 0.01) -> None:
    """
    Анализирует долю пропусков в заданной колонке датафрейма и выводит
    рекомендации по дальнейшей обработке строк с пропущенными значениями.

    Параметры
    ----------
    df : pd.DataFrame
        Исходный датафрейм для анализа.
    column : str
        Название столбца, в котором нужно проверить пропуски.
    threshold : float, optional
        Пороговое значение доли пропусков (по умолчанию 0.1 = 10%).
        Если доля пропусков меньше порога — рекомендуется удалить строки.
        Если доля выше порога — рекомендуется сохранить строки.

    Возвращает
    ----------
    None
        Функция только выводит информацию и не изменяет датафрейм.

    Пример
    -------
    >>> analyze_missing_ratio(df_calls, "contactid", threshold=0.1)
    Количество строк с пропусками в колонке 'contactid': 3933
    Доля пропусков от общего числа строк: 4.10%
    Рекомендация: доля пропусков меньше порогового значения (10.00%) → строки можно удалить.
    """
    # Проверка, что колонка существует
    if column not in df.columns:
        print(f"Ошибка: в датафрейме нет колонки '{column}'.")
        return

    # Подсчёт пропусков
    missing_rows = df[df[column].isna()]
    total_rows = len(df)
    missing_count = len(missing_rows)
    missing_share = missing_count / total_rows if total_rows > 0 else 0

    # Вывод статистики
    print(f"Количество строк с пропусками в колонке '{column}': {missing_count}")
    print(f"Доля пропусков от общего числа строк: {missing_share:.2%}")

    # Формирование рекомендации
    if missing_share < threshold:
        print(f"Рекомендация: доля пропусков меньше порогового значения ({threshold:.2%}) → строки можно удалить.")
    else:
        print(f"Рекомендация: доля пропусков превышает пороговое значение ({threshold:.2%}) → строки лучше сохранить.")

def drop_full_duplicates(df: pd.DataFrame, df_name: str = "DataFrame") -> pd.DataFrame:
    """
    Проверяет и удаляет полные дубликаты строк в переданном датафрейме.

    Функция подсчитывает количество полностью совпадающих строк,
    выводит информацию о результатах проверки и возвращает очищенный датафрейм.

    Параметры
    ----------
    df : pd.DataFrame
        Исходный датафрейм, в котором нужно найти и удалить дубликаты.
    df_name : str, optional
        Название датафрейма (для удобного вывода в логах), по умолчанию "DataFrame".

    Возвращает
    ----------
    pd.DataFrame
        Копия исходного датафрейма без полных дублей, с обновлёнными индексами.
    """
    duplicates_count = df.duplicated().sum()
    print(f"[{df_name}] Найдено полных дублей: {duplicates_count}")

    if duplicates_count > 0:
        df = df.drop_duplicates().reset_index(drop=True)
        print(f"[{df_name}] Полные дубли удалены. Размер после очистки: {df.shape}")
    else:
        print(f"[{df_name}] Полных дублей не обнаружено. Размер датафрейма: {df.shape}")

    return df

def convert_datetime_columns(df: pd.DataFrame, date_columns: list[str], df_name: str = "DataFrame") -> pd.DataFrame:
    """
    Преобразует указанные столбцы датафрейма в формат datetime64[ns].

    Функция безопасно приводит текстовые значения к типу datetime,
    используя формат '%d.%m.%Y %H:%M' (CRM-формат),
    и сообщает количество некорректных значений.

    Параметры
    ----------
    df : pd.DataFrame
        Исходный датафрейм для преобразования.
    date_columns : list[str]
        Список названий столбцов, которые нужно преобразовать.
    df_name : str, optional
        Название датафрейма (для логирования), по умолчанию "DataFrame".

    Возвращает
    ----------
    pd.DataFrame
        Копия датафрейма с обновлёнными типами указанных столбцов.
    """
    for col in date_columns:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], format="%d.%m.%Y %H:%M", errors="coerce")
            invalid = df[col].isna().sum()
            print(f"[{df_name}] Столбец '{col}' преобразован в datetime64[ns]. Некорректных значений: {invalid}")
        else:
            print(f"[{df_name}] Столбец '{col}' не найден, пропускаем.")
    return df


## Ревью исходных данных. Определение количества пропусков

In [167]:
# Вывод информации по каждому датафрейму в цикле по элементам словаря dfs
for name, df in dfs.items():
    print(f"\n{name}")
    #print(f"  Размер: {df.shape[0]} строк × {df.shape[1]} столбцов")
    #print(f"  Колонки: {df.columns.tolist()}")
    print(f"\n")
    print(f"  Информация о датасете:")
    print(df.info())
    print(f"\n")
    print(f"  Первые 5 строк датасета:")
    display(df.head())
    print(f"\n")
    print(f"  Количество пропусков в данных:")
    print(df.isna().sum())
    print(f"\n================================================")


df_contacts


  Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18548 entries, 0 to 18547
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Id                  18548 non-null  int64 
 1   Contact Owner Name  18548 non-null  object
 2   Created Time        18548 non-null  object
 3   Modified Time       18548 non-null  object
dtypes: int64(1), object(3)
memory usage: 579.8+ KB
None


  Первые 5 строк датасета:


Unnamed: 0,Id,Contact Owner Name,Created Time,Modified Time
0,5805028000000645014,Rachel White,27.06.2023 11:28,22.12.2023 13:34
1,5805028000000872003,Charlie Davis,03.07.2023 11:31,21.05.2024 10:23
2,5805028000000889001,Bob Brown,02.07.2023 22:37,21.12.2023 13:17
3,5805028000000907006,Bob Brown,03.07.2023 05:44,29.12.2023 15:20
4,5805028000000939010,Nina Scott,04.07.2023 10:11,16.04.2024 16:14




  Количество пропусков в данных:
Id                    0
Contact Owner Name    0
Created Time          0
Modified Time         0
dtype: int64


df_calls


  Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95874 entries, 0 to 95873
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Id                          95874 non-null  int64  
 1   Call Start Time             95874 non-null  object 
 2   Call Owner Name             95874 non-null  object 
 3   CONTACTID                   91941 non-null  float64
 4   Call Type                   95874 non-null  object 
 5   Call Duration (in seconds)  95791 non-null  float64
 6   Call Status                 95874 non-null  object 
 7   Dialled Number              0 non-null      float64
 8   Outgoing Call Status        86875 non-null  object 
 9   Scheduled in CRM            86875 non-null  float64
 10  Tag                 

Unnamed: 0,Id,Call Start Time,Call Owner Name,CONTACTID,Call Type,Call Duration (in seconds),Call Status,Dialled Number,Outgoing Call Status,Scheduled in CRM,Tag
0,5805028000000805001,30.06.2023 08:43,John Doe,,Inbound,171.0,Received,,,,
1,5805028000000768006,30.06.2023 08:46,John Doe,,Outbound,28.0,Attended Dialled,,Completed,0.0,
2,5805028000000764027,30.06.2023 08:59,John Doe,,Outbound,24.0,Attended Dialled,,Completed,0.0,
3,5805028000000787003,30.06.2023 09:20,John Doe,5.805028e+18,Outbound,6.0,Attended Dialled,,Completed,0.0,
4,5805028000000768019,30.06.2023 09:30,John Doe,5.805028e+18,Outbound,11.0,Attended Dialled,,Completed,0.0,




  Количество пропусков в данных:
Id                                0
Call Start Time                   0
Call Owner Name                   0
CONTACTID                      3933
Call Type                         0
Call Duration (in seconds)       83
Call Status                       0
Dialled Number                95874
Outgoing Call Status           8999
Scheduled in CRM               8999
Tag                           95874
dtype: int64


df_deals


  Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21595 entries, 0 to 21594
Data columns (total 23 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   21593 non-null  float64
 1   Deal Owner Name      21564 non-null  object 
 2   Closing Date         14645 non-null  object 
 3   Quality              19340 non-null  object 
 4   Stage                21593 non-null  object 
 5   Lost Reason          16124 non-null  object 
 6   Page

Unnamed: 0,Id,Deal Owner Name,Closing Date,Quality,Stage,Lost Reason,Page,Campaign,SLA,Content,...,Product,Education Type,Created Time,Course duration,Months of study,Initial Amount Paid,Offer Total Amount,Contact Name,City,Level of Deutsch
0,5.805028e+18,Ben Hall,,,New Lead,,/eng/test,03.07.23women,,v16,...,,,21.06.2024 15:30,,,,,5.805028e+18,,
1,5.805028e+18,Ulysses Adams,,,New Lead,,/at-eng,,,,...,Web Developer,Morning,21.06.2024 15:23,6.0,,0.0,2000.0,5.805028e+18,,
2,5.805028e+18,Ulysses Adams,21.06.2024,D - Non Target,Lost,Non target,/at-eng,engwien_AT,00:26:43,b1-at,...,,,21.06.2024 14:45,,,,,5.805028e+18,,
3,5.805028e+18,Eva Kent,21.06.2024,E - Non Qualified,Lost,Invalid number,/eng,04.07.23recentlymoved_DE,01:00:04,bloggersvideo14com,...,,,21.06.2024 13:32,,,,,5.805028e+18,,
4,5.805028e+18,Ben Hall,21.06.2024,D - Non Target,Lost,Non target,/eng,discovery_DE,00:53:12,website,...,,,21.06.2024 13:21,,,,,5.805028e+18,,




  Количество пропусков в данных:
Id                         2
Deal Owner Name           31
Closing Date            6950
Quality                 2255
Stage                      2
Lost Reason             5471
Page                       2
Campaign                5528
SLA                     6062
Content                 7448
Term                    9141
Source                     2
Payment Type           21099
Product                18003
Education Type         18295
Created Time               2
Course duration        18008
Months of study        20755
Initial Amount Paid    17430
Offer Total Amount     17410
Contact Name              63
City                   19084
Level of Deutsch       20344
dtype: int64


df_spend


  Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20779 entries, 0 to 20778
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         20779 non-null  datetim

Unnamed: 0,Date,Source,Campaign,Impressions,Spend,Clicks,AdGroup,Ad
0,2023-07-03,Google Ads,gen_analyst_DE,6,0.0,0,,
1,2023-07-03,Google Ads,performancemax_eng_DE,4,0.01,1,,
2,2023-07-03,Facebook Ads,,0,0.0,0,,
3,2023-07-03,Google Ads,,0,0.0,0,,
4,2023-07-03,CRM,,0,0.0,0,,




  Количество пропусков в данных:
Date              0
Source            0
Campaign       5994
Impressions       0
Spend             0
Clicks            0
AdGroup        6828
Ad             6828
dtype: int64



## Приведение названия колонок всех датасетов к snake_case

In [168]:
# Изменение названий колонок в датафреймах с помощью функции clean_columns_names
for name, df in dfs.items():
    clean_columns_names(df)
    print(f"\n{name}")
    print(list(df.columns))


df_contacts
['id', 'contact_owner_name', 'created_time', 'modified_time']

df_calls
['id', 'call_start_time', 'call_owner_name', 'contactid', 'call_type', 'call_duration_in_seconds_', 'call_status', 'dialled_number', 'outgoing_call_status', 'scheduled_in_crm', 'tag']

df_deals
['id', 'deal_owner_name', 'closing_date', 'quality', 'stage', 'lost_reason', 'page', 'campaign', 'sla', 'content', 'term', 'source', 'payment_type', 'product', 'education_type', 'created_time', 'course_duration', 'months_of_study', 'initial_amount_paid', 'offer_total_amount', 'contact_name', 'city', 'level_of_deutsch']

df_spend
['date', 'source', 'campaign', 'impressions', 'spend', 'clicks', 'adgroup', 'ad']


## Обработка PK и FK таблиц

Проанализируем первичные и вторичные ключи исходных таблиц:


| Датафрейм | Ключ (PK/FK) | Тип PK/FK | Количество<br>пропусков | Планируемые действия |
|-|-|-|-|-|
| df_calls | id (PK)| int64 | 0 | Преобразовать в string |
| df_calls | contactid (FK)| float64 | 3933 | Преобразовать в string с сохранением пропусков |
| df_contacts | id (PK) | int64 | 0 | Преобразовать в string |
| df_deals | id (PK) | float64 | 2 | Удалить строки с пропусками, затем преобразовать в string |
| df_spend | — | — | — | Отсутствует. Добавить? |

Выводы:
* в датафрейме df_calls обнаружены 3933 строк с пропусками во вторичном ключе contactid — их слишком много, чтобы удалить данные строки и надо преобразовать поле в формат string с сохранением пропусков;
* в датафрейме df_deals обнаружены 2 строки с пропусками в первичном ключе, скорее всего это «мусор» в данных, перед преобразованием в тип string их надо проанализировать и удалить, если они не содержат значимой информации;
* в датафрейме df_spend специальных полей с идентификаторами нет, возможно понадобится впоследствии добавить в нее первичный ключ.

### Анализ и обработка пропусков в contactid (FK) датафрейма df_calls

In [169]:
analyze_missing_ratio(df_calls, "contactid")

Количество строк с пропусками в колонке 'contactid': 3933
Доля пропусков от общего числа строк: 4.10%
Рекомендация: доля пропусков превышает пороговое значение (1.00%) → строки лучше сохранить.


Выводы:
* доля строк с пропущенным contactid слишком велика, чтобы удалять их исходных данных;
* следует преобразовать это поле к типу strig с сохранением пропусков.

### Анализ и обработка пропусков в PK датафрейма df_deals

In [170]:
# Отфильтровать строки с пропусками в Id
missing_deals_id_rows = df_deals[df_deals['id'].isna()]

# Посмотреть количество, их долю и сами строки
analyze_missing_ratio(df_calls, "id")
#print(f"Количество строк в df_deals с пропущенным Id: {len(missing_deals_id_rows)}\n")
#print(f"Доля строк с пропущенным Id: {len(missing_deals_id_rows) / len(df_deals):.2%}\n")
print(f"Содержимое строк с пропущенным Id:\n\n{missing_deals_id_rows}")

Количество строк с пропусками в колонке 'id': 0
Доля пропусков от общего числа строк: 0.00%
Рекомендация: доля пропусков меньше порогового значения (1.00%) → строки можно удалить.
Содержимое строк с пропущенным Id:

       id deal_owner_name closing_date quality stage lost_reason page  \
21593 NaN             NaN          NaN     NaN   NaN         NaN  NaN   
21594 NaN             NaN          NaN     NaN   NaN         NaN  NaN   

      campaign  sla content  ... product education_type created_time  \
21593      NaN  NaN     NaN  ...     NaN            NaN          NaN   
21594      NaN  NaN     NaN  ...     NaN          #REF!          NaN   

      course_duration months_of_study initial_amount_paid  offer_total_amount  \
21593             NaN             NaN                 NaN                 NaN   
21594             NaN             NaN                 NaN                 NaN   

       contact_name city level_of_deutsch  
21593           NaN  NaN              NaN  
21594          

Выводы по результатам анализа пропусков в PK в df_deals:
* в таблице df_deals есть 2 строки, в которых одновременно пропущены все ключевые поля: Id, Stage, Page, Source, Created Time (и фактически не содержат ни одного полезного значени);
* индексы этих строк: 21593 и 21594;
* это типичные артефакты Excel-выгрузки — «пустые строки внизу файла»;
* эти строки следует удалить как технический мусор;
* строка 21594 содержит в колонке Education Type содержится значение #REF! — это помешает удалить её методом dropna и перед этим надо заменить текстовые «артефакты Excel» (#REF!, #N/A, #VALUE!, nan, и т.д.) на настоящие пропуски (pd.NA)

In [171]:
# Заменяем текстовые артефакты Excel на NaN
df_deals = df_deals.replace(['#REF!', '#N/A', '#VALUE!', 'NaN', 'nan', ''], np.nan)

# Удаляем строки с пропусками в PK из df_deals
df_deals = df_deals.dropna(how='all').reset_index(drop=True)

# Проверяем результат
print(df_deals.isna().sum())

id                         0
deal_owner_name           29
closing_date            6948
quality                 2253
stage                      0
lost_reason             5469
page                       0
campaign                5526
sla                     6060
content                 7446
term                    9139
source                     0
payment_type           21097
product                18001
education_type         18294
created_time               0
course_duration        18006
months_of_study        20753
initial_amount_paid    17428
offer_total_amount     17408
contact_name              61
city                   19082
level_of_deutsch       20342
dtype: int64


### Преобразование первичных ключей таблиц к типу string

In [172]:
# Преобразуем столбцы-ключи в таблицах к типу string
for name, df in dfs.items():
    df = normalize_id_columns(df)
    id_cols = [c for c in df.columns if "id" in c.lower()]
    print(name.lower())
    print(f"{df[id_cols].dtypes}\n")

# Проверяем, что в преобразованном столбце сохранились строки с пропусками в contactid
analyze_missing_ratio(df_calls, "contactid")

df_contacts
id    string[python]
dtype: object

df_calls
id           string[python]
contactid    string[python]
dtype: object

df_deals
id                     string[python]
initial_amount_paid            object
dtype: object

df_spend
Series([], dtype: object)

Количество строк с пропусками в колонке 'contactid': 3933
Доля пропусков от общего числа строк: 4.10%
Рекомендация: доля пропусков превышает пороговое значение (1.00%) → строки лучше сохранить.


## Предобработка df_contacts (таблица Contacts (Done).xlsx)

|Этап предобработки|Необходимые действия|Ожидаемый результат|
|--|--|--|
|1. Проверка и удаление полных дублей|Проверить датафрейм на наличие полностью идентичных строк с помощью кастомной функции drop_full_duplicates(). Удалить найденные дубликаты|Удалены повторяющиеся записи, каждая строка представляет уникальный контакт|
|2. Преобразование формата дат|Преобразовать столбцы created_time и modified_time к типу datetime64[ns] с указанием формата "%d.%m.%Y %H:%M"|Корректные типы данных, позволяющие выполнять сортировку и анализ по времени|
|3. Проверка логики дат|Проверить, что modified_time не раньше created_time, при нарушениях зафиксировать или удалить строки|Данные согласованы по времени, отсутствуют нелогичные даты|
|4. Очистка имён владельцев контактов и проверка на неявные дубли|Удалить лишние пробелы, заменить двойные пробелы одним, привести к единому регистру методом .str.title(). Сравнить уникальные значения contact_owner_name, при необходимости создать словарь нормализации|Единый формат имён владельцев, готовых для дальнейшего сопоставления с другими таблицами. Исправлены возможные опечатки и вариации написания, снижено количество уникальных значений|
|5. Финальная проверка типов данных|Убедиться, что id имеет строковый тип, contact_owner_name — строковый, даты — datetime|Все столбцы имеют корректные типы данных для анализа и объединений|
|6. Выгрузка очищенного датасета в .csv |Экспортировать датафрейм в файл .csv. Если в папке проекта нет подкаталога /csv то создать его|Файл сохранен в подкаталоге /csv в папке проекта|


In [173]:
print("=== 1. Проверка и удаление полных дублей ===\n")
df_contacts = drop_full_duplicates(df_contacts, "df_contacts")

print("\n=== 2. Преобразование формата дат ===\n")
df_contacts = convert_datetime_columns(
    df_contacts,
    ["created_time", "modified_time"],
    df_name="df_contacts"
)

print("\n=== 3. Проверка логики дат ===\n")
invalid_dates = df_contacts[df_contacts["modified_time"] < df_contacts["created_time"]]
invalid_count = len(invalid_dates)

if invalid_count == 0:
    print("Все строки корректны: modified_time не раньше created_time.")
else:
    print(f"Найдено строк с нарушением логики дат: {invalid_count}")
    display(invalid_dates)
# df_contacts = df_contacts[df_contacts["modified_time"] >= df_contacts["created_time"]].reset_index(drop=True)

print("\n=== 4. Очистка имён владельцев контактов и проверка на неявные дубли ===\n")
unique_count = df_contacts["contact_owner_name"].nunique()
print(f"Количество уникальных имён владельцев контактов: {unique_count}")
print(df_contacts["contact_owner_name"].unique())
print("\nОчистка имен владельцев контактов не требуется.")
print("Неявные дубли отсутствуют.")
print("Обнаружен 1 артефакт — значение False.")

count_false = (df_contacts["contact_owner_name"] == False).sum()
print(f"Количество строк с артефактом: {count_false}")
print("Доля пропусков меньше порогового значения (1%) → строки можно удалить.")

df_contacts = df_contacts[df_contacts["contact_owner_name"] != False].reset_index(drop=True)
# Преобразование имен к типу string
df_contacts["contact_owner_name"] = df_contacts["contact_owner_name"].astype("string")

print("\n=== 5. Финальная проверка типов данных ===\n")
print("Текущие типы данных столбцов:\n")
print(f"[df_contacts] Размер датафрейма: {df_contacts.shape}\n")
print(df_contacts.dtypes)

print("\n=== 6. Выгрузка очищенного датасета в .csv ===\n")
# Берем текущую дату/время для имени файла
timestamp = datetime.now().strftime("%Y%m%d_%H%M")

# Путь к папке проекта
project_path = "/content/drive/MyDrive/P. Project 07.11/csv/"

# Создаём папку, если её нет
os.makedirs(project_path, exist_ok=True)

# Добавляем метку времени в имя файла
timestamp = datetime.now().strftime("%Y%m%d_%H%M")
output_path = os.path.join(project_path, f"df_contacts_clean_{timestamp}.csv")

# Сохраняем CSV
df_contacts.to_csv(output_path, index=False, sep=";", encoding="utf-8-sig")

print(f"Файл успешно сохранён по пути:\n{output_path}")

=== 1. Проверка и удаление полных дублей ===

[df_contacts] Найдено полных дублей: 0
[df_contacts] Полных дублей не обнаружено. Размер датафрейма: (18548, 4)

=== 2. Преобразование формата дат ===

[df_contacts] Столбец 'created_time' преобразован в datetime64[ns]. Некорректных значений: 0
[df_contacts] Столбец 'modified_time' преобразован в datetime64[ns]. Некорректных значений: 0

=== 3. Проверка логики дат ===

Все строки корректны: modified_time не раньше created_time.

=== 4. Очистка имён владельцев контактов и проверка на неявные дубли ===

Количество уникальных имён владельцев контактов: 28
['Rachel White' 'Charlie Davis' 'Bob Brown' 'Nina Scott' 'Alice Johnson'
 'Ian Miller' 'Jane Smith' 'Julia Nelson' 'George King' 'Quincy Vincent'
 'Diana Evans' 'Kevin Parker' 'Ulysses Adams' 'Victor Barnes'
 'Yara Edwards' 'Paula Underwood' 'Mason Roberts' 'Ben Hall' 'Amy Green'
 'Cara Iverson' 'Oliver Taylor' 'Eva Kent' False 'Zachary Foster'
 'Sam Young' 'Wendy Clark' 'Tina Zhang' 'Derek J

## Предобработка df_calls (таблица Calls (Done).xlsx)

|Этап предобработки|Необходимые действия|Ожидаемый результат|
|--|--|--|
|1. Проверка и удаление полных дублей|Проверить датафрейм на наличие полностью идентичных строк с помощью кастомной функции drop_full_duplicates(). Удалить найденные дубликаты|Удалены повторяющиеся строки, каждая запись соответствует уникальному звонку|
|2. Преобразование формата даты и времени|Преобразовать столбец call_start_time в формат datetime64[ns] с указанием формата "%d.%m.%Y %H:%M". Проверить корректность диапазона дат и отсутствие будущих значений|Корректный тип данных, позволяющий сортировать и анализировать звонки по времени|
|3. Очистка имён владельцев звонков|Удалить лишние пробелы, заменить двойные пробелы одним, привести значения к единому регистру методом .str.title(). Проверить список уникальных имён на наличие опечаток и дублей|Единый формат имён сотрудников, готовый для анализа активности и объединений с другими таблицами|
|4. Восстановление пропусков contactid|Попытаться восстановить пропуски contactid по таблице contacts при совпадении владельца звонка с владельцем контакта|Максимально заполненные идентификаторы контактов без потери точности значений|
|5. Проверка и очистка категориальных значений|Проверить уникальные значения столбцов call_type, call_status, outgoing_call_status на опечатки и различия в регистре. Привести к унифицированному набору категорий|Корректные и стандартизированные категориальные значения, готовые к агрегации|
|6. Обработка длительности звонков|Проверить столбец call_duration_in_seconds_ на наличие пропусков и нулевых значений. Заменить NaN на 0. Проверить согласованность длительности с call_status (attended не может иметь 0 секунд)|Отсутствуют пропуски, длительность соответствует логике состояний звонков|
|7. Проверка несогласованных статусов|Проверить случаи, где одновременно присутствуют inbound и outbound звонки для одного контакта и времени. Добавить флаг is_multi_type_call для таких строк|Зафиксированы и помечены технические дубликаты событий CRM|
|8. Удаление полностью пустых столбцов|Удалить столбцы dialled_number и tag, содержащие 100% пропусков|Исключены неинформативные поля, датафрейм содержит только полезные данные|
|9. Проверка типов данных|Проверить, что id и contactid имеют строковый тип, call_start_time — datetime, количественные поля — числовой тип|Все поля имеют корректные типы для анализа и объединений|
|10. Выгрузка очищенного датасета в .csv|Экспортировать df_calls в файл .csv. Если в папке проекта отсутствует подкаталог /csv, создать его|Файл сохранён в подкаталоге /csv в папке проекта|

In [174]:
print("=== 1. Проверка и удаление полных дублей ===\n")

# Применяем кастомную функцию для очистки дублей
df_calls = drop_full_duplicates(df_calls, "df_calls")

print("\n=== 2. Преобразование формата даты и времени ===\n")

# Преобразуем столбец call_start_time в формат datetime
df_calls = convert_datetime_columns(
    df_calls,
    date_columns=["call_start_time"],
    df_name="df_calls"
)

print("\n=== 3. Проверка уникальных имён владельцев звонков ===\n")

unique_count = df_calls["call_owner_name"].nunique()
print(f"Количество уникальных имён владельцев звонков: {unique_count}")
print(df_calls["call_owner_name"].unique())
print("\nОчистка имен владельцев контактов не требуется.")
print("Неявные дубли отсутствуют.")
print("Артефакты не обнаружены.")

print("\n=== 4. Восстановление пропусков contactid ===\n")

# Считаем количество пропусков до восстановления
missing_before = df_calls["contactid"].isna().sum()
print(f"Пропусков до восстановления: {missing_before}")

# Создаём словарь соответствий: владелец контакта → id
owner_to_contactid = (
    df_contacts[["contact_owner_name", "id"]]
    .drop_duplicates(subset=["contact_owner_name"])
    .set_index("contact_owner_name")["id"]
    .to_dict()
)

# Маска строк с пропущенными contactid
mask_missing = df_calls["contactid"].isna()

# Заполняем пропуски contactid по совпадению владельцев
df_calls.loc[mask_missing, "contactid"] = (
    df_calls.loc[mask_missing, "call_owner_name"].map(owner_to_contactid)
)

# Проверяем результат
missing_after = df_calls["contactid"].isna().sum()
filled = missing_before - missing_after

print(f"Восстановлено contactid: {filled}")
print(f"Осталось пропусков: {missing_after}")

print("\n=== Контроль не найденных соответствий contactid ===\n")

# Находим строки, где contactid всё ещё отсутствует
missing_contacts = df_calls[df_calls["contactid"].isna()]

# Считаем количество владельцев звонков без contactid
owners_without_contactid = missing_contacts["call_owner_name"].unique()
count_owners = len(owners_without_contactid)
count_calls = len(missing_contacts)

print(f"Всего звонков без contactid: {count_calls}")
print(f"Количество уникальных владельцев без contactid: {count_owners}\n")

# Выводим список имён владельцев, у которых не найден contactid
print("Владельцы звонков без соответствующего contactid:")
print(sorted(owners_without_contactid))

print("\n=== 5. Проверка и очистка категориальных значений ===")

# Список категориальных столбцов
cat_cols = ["call_type", "call_status", "outgoing_call_status", "scheduled_in_crm"]

for col in cat_cols:
    if col in df_calls.columns:
        print(f"\n--- {col} ---")
        print(f"Уникальных значений: {df_calls[col].nunique(dropna=True)}")
        print("Список уникальных значений:")
        print(sorted(df_calls[col].dropna().unique()))

# Очистка строковых категорий: удаляем пробелы и унифицируем регистр
cols_to_clean = ["call_type", "call_status", "outgoing_call_status"]
for col in cols_to_clean:
    if col in df_calls.columns:
        df_calls[col] = (
            df_calls[col]
            .astype("string")
            .str.strip()
            .str.lower()
            .str.replace(r"\s+", " ", regex=True)
        )

# Проверим результат очистки
print("\nПосле нормализации регистра и пробелов и преобразования scheduled_in_crm в логический формат:")
for col in cols_to_clean:
    if col in df_calls.columns:
        print(f"\n--- {col} ---")
        print(sorted(df_calls[col].dropna().unique()))

# Преобразование scheduled_in_crm в логический формат ---
df_calls["scheduled_in_crm"] = (
    df_calls["scheduled_in_crm"]
    .fillna(0)        # на случай пропусков
    .astype("int8")   # компактный логический тип
)
print("\nСтолбец 'scheduled_in_crm' преобразован в логический формат (0/1)")
print(df_calls["scheduled_in_crm"].value_counts(dropna=False))

print("\n=== 6. Обработка длительности звонков ===\n")

# 6.1 Диагностика пропусков и базовой статистики
col = "call_duration_in_seconds_"

total_rows = len(df_calls)
missing = df_calls[col].isna().sum()
zero_dur = (df_calls[col] == 0).sum()

print(f"Всего строк: {total_rows}")
print(f"Пропусков в '{col}': {missing} ({missing / total_rows:.2%})")
print(f"Нулевая длительность: {zero_dur} ({zero_dur / total_rows:.2%})")

print("\nОсновные статистики по длительности (сек):")
print(df_calls[col].describe(percentiles=[0.5, 0.75, 0.9, 0.95, 0.99]).round(2))


# 6.2 Замена пропусков
# Пропуски заменяем на 0, так как они означают, что звонок не состоялся
df_calls[col] = df_calls[col].fillna(0)

print("\nПропуски заменены на 0. Проверим:")
print(df_calls[col].isna().sum(), "пропусков осталось")


# 6.3 Проверка логических аномалий
# Аномалия 1: статус completed, но длительность = 0
mask_completed_zero = (df_calls["call_status"] == "attended dialled") & (df_calls[col] == 0)
n_completed_zero = mask_completed_zero.sum()

# Аномалия 2: статус unattended, но длительность > 0
mask_unattended_positive = (df_calls["call_status"] == "unattended dialled") & (df_calls[col] > 0)
n_unattended_positive = mask_unattended_positive.sum()

print("\nПроверка логических несоответствий:")
print(f"Звонков со статусом 'attended dialled' и нулевой длительностью: {n_completed_zero}")
print(f"Звонков со статусом 'unattended dialled' и положительной длительностью: {n_unattended_positive}")


# 6.4 Проверка аномально длинных звонков
threshold = df_calls[col].quantile(0.99)
outliers = df_calls[df_calls[col] > threshold]

print(f"\nАномально длинные звонки (> 99 перцентиля = {threshold:.0f} сек): {len(outliers)}")
print(outliers[[col, "call_type", "call_status"]].head(10)) # подумать про выгрузку в отдельный файл

print("=== 7. Проверка несогласованных статусов (разные call_type при одинаковом времени и контакте) ===\n")

print("=== 8. Удаление полностью пустых столбцов (dialled_number и tag) ===\n")

# Удаляем неинформативные столбцы
df_calls = df_calls.drop(columns=["dialled_number", "tag"], errors="ignore")

print("Столбцы 'dialled_number' и 'tag' удалены. Текущий список колонок:")
print(df_calls.columns.tolist())

print("\n=== 9. Финальная проверка типов данных ===\n")

print("Текущие типы данных столбцов:\n")
print(f"[df_calls] Размер датафрейма: {df_calls.shape}\n")
print(df_calls.dtypes)

print("\n=== 10. Выгрузка очищенного датасета в .csv ===\n")
# Берем текущую дату/время для имени файла
timestamp = datetime.now().strftime("%Y%m%d_%H%M")

# Путь к папке проекта
project_path = "/content/drive/MyDrive/P. Project 07.11/csv/"

# Создаём папку, если её нет
os.makedirs(project_path, exist_ok=True)

# Добавляем метку времени в имя файла
output_path = os.path.join(project_path, f"df_calls_clean_{timestamp}.csv")

# Сохраняем CSV
df_calls.to_csv(output_path, index=False, sep=";", encoding="utf-8-sig")

print(f"Файл успешно сохранён по пути:\n{output_path}")

=== 1. Проверка и удаление полных дублей ===

[df_calls] Найдено полных дублей: 0
[df_calls] Полных дублей не обнаружено. Размер датафрейма: (95874, 11)

=== 2. Преобразование формата даты и времени ===

[df_calls] Столбец 'call_start_time' преобразован в datetime64[ns]. Некорректных значений: 0

=== 3. Проверка уникальных имён владельцев звонков ===

Количество уникальных имён владельцев звонков: 33
['John Doe' 'Jane Smith' 'Alice Johnson' 'Bob Brown' 'Charlie Davis'
 'Diana Evans' 'Ethan Harris' 'Fiona Jackson' 'George King' 'Hannah Lee'
 'Ian Miller' 'Julia Nelson' 'Kevin Parker' 'Laura Quinn' 'Mason Roberts'
 'Nina Scott' 'Oliver Taylor' 'Paula Underwood' 'Quincy Vincent'
 'Rachel White' 'Sam Young' 'Tina Zhang' 'Ulysses Adams' 'Victor Barnes'
 'Wendy Clark' 'Xander Dean' 'Yara Edwards' 'Zachary Foster' 'Amy Green'
 'Ben Hall' 'Cara Iverson' 'Derek James' 'Eva Kent']

Очистка имен владельцев контактов не требуется.
Неявные дубли отсутствуют.
Артефакты не обнаружены.

=== 4. Восстан

In [175]:
print("=== Таблица сопоставления владельцев контактов и звонков ===\n")

# Получаем уникальные имена из обеих таблиц
contacts_owners = pd.Series(df_contacts["contact_owner_name"].unique(), name="contact_owner_name")
calls_owners = pd.Series(df_calls["call_owner_name"].unique(), name="call_owner_name")

# Приведём к DataFrame и объединим для анализа
mapping_df = (
    pd.DataFrame(contacts_owners)
    .merge(pd.DataFrame(calls_owners), left_on="contact_owner_name", right_on="call_owner_name", how="outer", indicator=True)
)

# Сортировка для удобства
mapping_df = mapping_df.sort_values(by="contact_owner_name", na_position="last").reset_index(drop=True)

# Выведем итоги
print(f"Всего уникальных имён в Contacts: {df_contacts['contact_owner_name'].nunique()}")
print(f"Всего уникальных имён в Calls: {df_calls['call_owner_name'].nunique()}")
print("\nПримеры несопоставленных записей:")
print(mapping_df[mapping_df["_merge"] != "both"].head(10))

# Показываем итоговую таблицу
print("\nТаблица сопоставления владельцев контактов и звонков\n")
mapping_df.head(35)

=== Таблица сопоставления владельцев контактов и звонков ===

Всего уникальных имён в Contacts: 27
Всего уникальных имён в Calls: 33

Примеры несопоставленных записей:
   contact_owner_name call_owner_name      _merge
27                NaN    Ethan Harris  right_only
28                NaN   Fiona Jackson  right_only
29                NaN      Hannah Lee  right_only
30                NaN        John Doe  right_only
31                NaN     Laura Quinn  right_only
32                NaN     Xander Dean  right_only

Таблица сопоставления владельцев контактов и звонков



Unnamed: 0,contact_owner_name,call_owner_name,_merge
0,Alice Johnson,Alice Johnson,both
1,Amy Green,Amy Green,both
2,Ben Hall,Ben Hall,both
3,Bob Brown,Bob Brown,both
4,Cara Iverson,Cara Iverson,both
5,Charlie Davis,Charlie Davis,both
6,Derek James,Derek James,both
7,Diana Evans,Diana Evans,both
8,Eva Kent,Eva Kent,both
9,George King,George King,both


### Проверка логики показателя scheduled_in_crm

В большинстве CRM-систем:
* 1 — звонок был запланирован в календаре или задаче CRM (назначен заранее менеджером);
* 0 — звонок не был запланирован, а создан постфактум (например, ручной звонок или входящий).

Тем не менее, чтобы делать корректные выводы о статистике запланированных звонков требуется убедиться, что в нашем случае эта логика работает.

Для этого построим кросстабы по типам звонков и scheduled_in_crm и по статусам звонков и scheduled_in_crm.

In [176]:
print("=== Проверка логики scheduled_in_crm ===\n")

# Пересечение по типам звонков
print("=== Пересечение по типам звонков ===")
print(pd.crosstab(df_calls["call_type"], df_calls["scheduled_in_crm"]))

# Пересечение по статусам
print("\n=== Пересечение по статусам ===")
print(pd.crosstab(df_calls["call_status"], df_calls["scheduled_in_crm"]))


=== Проверка логики scheduled_in_crm ===

=== Пересечение по типам звонков ===
scheduled_in_crm      0    1
call_type                   
inbound            3078    0
missed             5921    0
outbound          86733  142

=== Пересечение по статусам ===
scheduled_in_crm                0   1
call_status                          
attended dialled            70703   0
cancelled                       0  20
missed                       5922   0
overdue                         0  60
received                     3077   0
scheduled                       0   3
scheduled attended              0  14
scheduled attended delay        0  22
scheduled unattended            0   6
scheduled unattended delay      0  17
unattended dialled          16030   0


Видим, что scheduled_in_crm = 1:
*   встречаются только у исходящих (outbound) звонков;
*   только у звонков со статусами отменено (cancelled), просроченный (overdue) и разнообразные виды запланировано (scheduled).

Вывод: логика значений scheduled_in_crm:
*   0 = «Нет»;
*   1 = «Да».

