# Обработка датасета

## Библиотеки и скрипты

In [1]:
import numpy as np
import pandas as pd
import re
from transliterate import translit, get_available_language_codes

# Библиотека для предобработки датасетов
import os, sys
module_path = os.path.abspath(os.path.join(os.pardir))
if module_path not in sys.path:
    sys.path.append(module_path)
from data_preprocessing import DataPreprocessor
dp = DataPreprocessor()

# Отключаем предупреждения
import warnings
warnings.simplefilter('ignore')

In [18]:
# Получение ClientID
def get_id(x):
    id = re.search('YA:.*', x).group(0)
    return re.sub('YA:', '', id).strip()

## Обзор данных

In [2]:
# Загружаем датасеты
df1 = pd.read_csv('../data/td_metrika.csv', ';')
df2 = pd.read_csv('../data/td_site.csv', ';')
df3 = pd.read_csv('../data/td_crm.csv', ';')

In [3]:
df1.head()

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,ym_vremja_na_sajte,ym_novye_posetiteli,ym_dnej_mezhdu_vizitami,ym_vernuvshiesja_1_den,ym_vernuvshiesja_2_7_dnej,ym_dostizhenija_ljuboj_tseli,ym_dostignutaja_tsel,ym_put_polnyj_stranitsy_vhoda,ym_put_polnyj_stranitsy_vyhoda,ym_mobilnost
0,15785624736522097,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-11,15.0,...,00:21:41,0,0.0,0.933333,0.066667,57,undefined,undefined,undefined,undefined
1,158240803283368197,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-02-23,0.0,...,00:00:00,15,0.0,0.0,0.0,4,undefined,undefined,undefined,undefined
2,1594782414605357519,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-07-21,15.0,...,00:00:00,0,0.357143,0.928571,0.071429,0,undefined,undefined,undefined,undefined
3,1595636421722944149,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,Нур-Султан,2020-07-25,15.0,...,00:00:00,1,0.0,0.928571,0.0,0,undefined,/#secondPage,/#secondPage,1
4,1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-20,15.0,...,00:00:10,1,0.0,0.909091,0.0,0,undefined,undefined,undefined,undefined


In [4]:
df1.shape

(58882, 24)

In [5]:
df2.head()

Unnamed: 0,st_id_ym,st_id_ga,st_created,st_location,st_branch,st_direction,st_amount,st_price
0,1609586985682049430,GA1.2.934928888.1609586985,2021-01-02 14:30:42,Kazan,Мобильные сотрудники,Строительные бригады,3,5000.0
1,1609610415617206319,GA1.2.233829537.1609610416,2021-01-02 21:01:43,Barnaul,Телекоммуникации и ИТ,Выездной ИТ-сервис,5,5000.0
2,1609623797665217591,GA1.2.52594619.1609623797,2021-01-03 00:46:09,Minsk,"Управление самозанятыми, ИП и подрядчиками",Управление ИП и самозанятыми,3,5000.0
3,160964815239544789,GA1.2.1046709437.1609648153,2021-01-03 07:30:46,Barnaul,Выездное обслуживание оборудования,Кондиционирование и вентиляция,3,5000.0
4,1609662851665134598,GA1.2.300748215.1609662851,2021-01-03 11:35:45,Shakhty,Выездное обслуживание оборудования,Технологическое оборудование,1,5000.0


In [6]:
df2.shape

(943, 8)

In [7]:
df3.head()

Unnamed: 0,crm_client_id,crm_id,crm_data_sozdanija,crm_status,crm_nazvanie_lida,crm_obraschenie,crm_imja,crm_otchestvo,crm_familija,crm_dolzhnost,...,crm_valjuta,crm_povtornyj_lid,crm_utm_source,crm_utm_medium,crm_utm_campaign,crm_utm_content,crm_utm_term,crm_klassifikator_otrasli,crm_otrasl,crm_otrasl_spisok
0,1615817020919653525,10071,01.04.2021 1:01,Некачественный лид,Алтимо UA R,undefined,Дмитрий,undefined,undefined,Директор,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
1,1615817020919653525,10069,01.04.2021 1:00,Обработан,Алтимо UA R,undefined,Дмитрий,undefined,undefined,Директор,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Выездное обслуживание оборудования - Спецтехника,undefined
2,1617218182652379262,10067,31.03.2021 22:18,Обработан,One&Double,undefined,Милехина Надежда,undefined,undefined,Руководитель,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
3,undefined,10065,31.03.2021 14:52,Обработан,Тимур UA,undefined,Тимур,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
4,1617186237647777106,10063,31.03.2021 13:59,Обработан,Лебедев Николай Юрьевич,undefined,Лебедев Николай Юрьевич,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined


In [8]:
df3.shape

(1407, 31)

## Обработка данных

In [9]:
# Переименование и сортировка
df2.rename(columns={'st_id_ym': 'ym_clientid'}, inplace=True)
df2 = df2[df2['ym_clientid'] != 'undefined']
df2

Unnamed: 0,ym_clientid,st_id_ga,st_created,st_location,st_branch,st_direction,st_amount,st_price
0,1609586985682049430,GA1.2.934928888.1609586985,2021-01-02 14:30:42,Kazan,Мобильные сотрудники,Строительные бригады,3,5000.0
1,1609610415617206319,GA1.2.233829537.1609610416,2021-01-02 21:01:43,Barnaul,Телекоммуникации и ИТ,Выездной ИТ-сервис,5,5000.0
2,1609623797665217591,GA1.2.52594619.1609623797,2021-01-03 00:46:09,Minsk,"Управление самозанятыми, ИП и подрядчиками",Управление ИП и самозанятыми,3,5000.0
3,160964815239544789,GA1.2.1046709437.1609648153,2021-01-03 07:30:46,Barnaul,Выездное обслуживание оборудования,Кондиционирование и вентиляция,3,5000.0
4,1609662851665134598,GA1.2.300748215.1609662851,2021-01-03 11:35:45,Shakhty,Выездное обслуживание оборудования,Технологическое оборудование,1,5000.0
...,...,...,...,...,...,...,...,...
938,1617219379343036650,GA1.2.55417926.1617219379,2021-03-31 22:37:09,Moscow,Выездное обслуживание оборудования,Оргтехника и ИТ-оборудование,10,9500.0
939,16172198711052056724,GA1.2.1103031021.1617219872,2021-03-31 22:46:41,Almaty,Мобильные сотрудники,Выездной сервис IT,20,17500.0
940,1617237997505730112,GA1.2.1716267377.1617237997,2021-04-01 05:07:58,Chelyabinsk,Выездное обслуживание оборудования,Технологическое оборудование,5,5000.0
941,1617250473558704891,GA1.2.158390038.1617250473,2021-04-01 07:17:17,Almaty,Мобильные сотрудники,Водители,5,3700.0


In [10]:
# Слияние датасетов
df4 = pd.merge(df1, df2, how='left')
df4

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,ym_put_polnyj_stranitsy_vhoda,ym_put_polnyj_stranitsy_vyhoda,ym_mobilnost,st_id_ga,st_created,st_location,st_branch,st_direction,st_amount,st_price
0,15785624736522097,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-11,15.0,...,undefined,undefined,undefined,,,,,,,
1,158240803283368197,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-02-23,0.0,...,undefined,undefined,undefined,,,,,,,
2,1594782414605357519,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-07-21,15.0,...,undefined,undefined,undefined,,,,,,,
3,1595636421722944149,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,Нур-Султан,2020-07-25,15.0,...,/#secondPage,/#secondPage,1,,,,,,,
4,1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-20,15.0,...,undefined,undefined,undefined,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58877,16172709101051592622,Ad-Traffic,yandex > kontrol_mobile_stuff,undefined,undefined,yandex,kontrol_mobile_stuff,undefined,2021-04-01,15.0,...,/,/,1,,,,,,,
58878,16172727801073292667,Ad-Traffic,yandex > dispetcherisatzia,undefined,undefined,yandex,dispetcherisatzia,Краснодар,2021-04-01,15.0,...,/,/,0,,,,,,,
58879,16172753631015177105,Search,yandex,undefined,Яндекс,undefined,undefined,Шадринск,2021-04-01,48.5,...,/uchet-oborudovaniya-i-upravlenie-remontami/ch...,/#cost,0,,,,,,,
58880,16172780011038921256,Ad-Traffic,yandex > kontrol_mobile_stuff,undefined,undefined,yandex,kontrol_mobile_stuff,Челябинск,2021-04-01,15.0,...,/,/,1,,,,,,,


In [11]:
df4.shape

(58882, 31)

In [12]:
df_test = df4.loc[(~df4['ym_data_vizita'].isnull()) & (~df4['st_created'].isnull())]
df_test

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,ym_put_polnyj_stranitsy_vhoda,ym_put_polnyj_stranitsy_vyhoda,ym_mobilnost,st_id_ga,st_created,st_location,st_branch,st_direction,st_amount,st_price
6,1544792334967355948,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-06-26,0.0,...,undefined,undefined,undefined,GA1.2.1713812683.1549898347,2021-02-04 18:45:53,Armavir,Выездное обслуживание оборудования,"Постаматы, вендинг, банкоматы",150.0,118700.0
30,1594305260967432217,Site-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2021-01-12,0.0,...,undefined,undefined,undefined,GA1.2.1818583493.1602833721,2021-01-19 10:57:04,St Petersburg,Мобильные сотрудники,Клининг,5.0,7000.0
52,1599476927749455055,Sites,hubex.cloud,hubex.cloud,undefined,undefined,undefined,undefined,2020-11-10,0.0,...,undefined,undefined,undefined,GA1.2.1341876302.1599476926,2021-02-18 18:24:24,St Petersburg,Выездное обслуживание оборудования,"Постаматы, вендинг, банкоматы",244.0,5000.0
65,1611327138987509272,Ad-Traffic,yandex > sistema_obslyzhivanie,undefined,undefined,yandex,sistema_obslyzhivanie,undefined,2021-01-27,15.0,...,undefined,undefined,undefined,GA1.2.2122525885.1611327141,2021-01-22 17:52:49,Tambov,Выездное обслуживание оборудования,Технологическое оборудование,10.0,9500.0
73,160974333838123157,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2021-01-04,0.0,...,undefined,undefined,undefined,GA1.2.1511795731.1609743339,2021-01-04 10:01:11,Moscow,Телекоммуникации и ИТ,Контроль выездных монтажников,3.0,5000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58843,16169975541064824206,Search,yandex,undefined,Яндекс,undefined,undefined,Благовещенск,2021-03-29,48.5,...,/platform/,/#cost,0,GA1.2.1256306549.1616997554,2021-03-29 08:59:58,Blagoveshchensk,Мобильные сотрудники,GPS-мониторинг персонала,90.0,32200.0
58852,16170938571008150421,Sites,helpdeski.ru,helpdeski.ru,undefined,undefined,undefined,undefined,2021-03-30,0.0,...,/,/,0,undefined,2021-03-30 11:45:11,Cherepovets,"Управление самозанятыми, ИП и подрядчиками","Управление самозанятыми, ИП и подрядчиками",10.0,0.0
58859,16171720051030854837,Search,google,undefined,Google,undefined,undefined,Сатка,2021-03-31,48.5,...,/,/,1,GA1.2.903918022.1617172006,2021-03-31 09:27:12,Kropachëvo,Телекоммуникации и ИТ,Телекоммуникации и ИТ,1.0,0.0
58866,16171943301044869869,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,Баку,2021-03-31,0.0,...,/,/,0,GA1.2.2057556913.1617194330,2021-03-31 15:43:37,Baku,Выездное обслуживание оборудования,Технологическое оборудование,120.0,95600.0


In [13]:
# Переименование столбца и добавление префиксов
df3.rename(columns={'crm_client_id': 'ym_clientid'}, inplace=True)
df3.loc[df3['ym_clientid'] != 'undefined', 'ym_clientid'] = 'YA:' + df3['ym_clientid'].astype(str)
df3

Unnamed: 0,ym_clientid,crm_id,crm_data_sozdanija,crm_status,crm_nazvanie_lida,crm_obraschenie,crm_imja,crm_otchestvo,crm_familija,crm_dolzhnost,...,crm_valjuta,crm_povtornyj_lid,crm_utm_source,crm_utm_medium,crm_utm_campaign,crm_utm_content,crm_utm_term,crm_klassifikator_otrasli,crm_otrasl,crm_otrasl_spisok
0,YA:1615817020919653525,10071,01.04.2021 1:01,Некачественный лид,Алтимо UA R,undefined,Дмитрий,undefined,undefined,Директор,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
1,YA:1615817020919653525,10069,01.04.2021 1:00,Обработан,Алтимо UA R,undefined,Дмитрий,undefined,undefined,Директор,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Выездное обслуживание оборудования - Спецтехника,undefined
2,YA:1617218182652379262,10067,31.03.2021 22:18,Обработан,One&Double,undefined,Милехина Надежда,undefined,undefined,Руководитель,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
3,undefined,10065,31.03.2021 14:52,Обработан,Тимур UA,undefined,Тимур,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
4,YA:1617186237647777106,10063,31.03.2021 13:59,Обработан,Лебедев Николай Юрьевич,undefined,Лебедев Николай Юрьевич,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1402,undefined,545,25.04.2019 11:31,Качественный лид,FlexNep,undefined,FlexNep,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Производство печатных плат,undefined
1403,undefined,531,20.04.2019 9:43,Качественный лид,ЛокоТех Сервис,undefined,Одинаев Амаль Зайнидинович,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Сервисное локомотивное депо,"Сервис (депо, жд техника)"
1404,undefined,527,18.04.2019 21:44,Некачественный лид,ИП Гончаров,undefined,Vladislav Goncharov,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
1405,undefined,523,17.04.2019 19:00,Некачественный лид,ААГ (+2 часа),undefined,Романов Алексей,undefined,undefined,undefined,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined


In [14]:
df4.loc[df4['ym_clientid'] != 'undefined', 'ym_clientid'] = 'YA:' + df4['ym_clientid'].astype(str)
df4

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,ym_put_polnyj_stranitsy_vhoda,ym_put_polnyj_stranitsy_vyhoda,ym_mobilnost,st_id_ga,st_created,st_location,st_branch,st_direction,st_amount,st_price
0,YA:15785624736522097,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-11,15.0,...,undefined,undefined,undefined,,,,,,,
1,YA:158240803283368197,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-02-23,0.0,...,undefined,undefined,undefined,,,,,,,
2,YA:1594782414605357519,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-07-21,15.0,...,undefined,undefined,undefined,,,,,,,
3,YA:1595636421722944149,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,Нур-Султан,2020-07-25,15.0,...,/#secondPage,/#secondPage,1,,,,,,,
4,YA:1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-20,15.0,...,undefined,undefined,undefined,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58877,YA:16172709101051592622,Ad-Traffic,yandex > kontrol_mobile_stuff,undefined,undefined,yandex,kontrol_mobile_stuff,undefined,2021-04-01,15.0,...,/,/,1,,,,,,,
58878,YA:16172727801073292667,Ad-Traffic,yandex > dispetcherisatzia,undefined,undefined,yandex,dispetcherisatzia,Краснодар,2021-04-01,15.0,...,/,/,0,,,,,,,
58879,YA:16172753631015177105,Search,yandex,undefined,Яндекс,undefined,undefined,Шадринск,2021-04-01,48.5,...,/uchet-oborudovaniya-i-upravlenie-remontami/ch...,/#cost,0,,,,,,,
58880,YA:16172780011038921256,Ad-Traffic,yandex > kontrol_mobile_stuff,undefined,undefined,yandex,kontrol_mobile_stuff,Челябинск,2021-04-01,15.0,...,/,/,1,,,,,,,


In [15]:
# Слияние датасетов
df = pd.merge(df4, df3, how='outer')
df.head(10)

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,crm_valjuta,crm_povtornyj_lid,crm_utm_source,crm_utm_medium,crm_utm_campaign,crm_utm_content,crm_utm_term,crm_klassifikator_otrasli,crm_otrasl,crm_otrasl_spisok
0,YA:15785624736522097,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-11,15.0,...,,,,,,,,,,
1,YA:158240803283368197,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-02-23,0.0,...,,,,,,,,,,
2,YA:1594782414605357519,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-07-21,15.0,...,,,,,,,,,,
3,YA:1595636421722944149,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,Нур-Султан,2020-07-25,15.0,...,,,,,,,,,,
4,YA:1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-20,15.0,...,,,,,,,,,,
5,YA:1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-28,15.0,...,,,,,,,,,,
6,YA:1603390261565159009,Ad-Traffic,yad > 240x400,undefined,undefined,yad,240x400,undefined,2020-10-26,15.0,...,,,,,,,,,,
7,YA:1603390261565159009,Ad-Traffic,yad > 240x400,undefined,undefined,yad,240x400,undefined,2020-10-22,15.0,...,,,,,,,,,,
8,YA:1544792334967355948,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-06-26,0.0,...,,,,,,,,,,
9,YA:1580315607562323972,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-29,15.0,...,,,,,,,,,,


In [16]:
df.shape

(60108, 61)

In [17]:
df_test = df.loc[(~df['ym_data_vizita'].isnull()) & (~df['crm_data_sozdanija'].isnull())]
df_test

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,crm_valjuta,crm_povtornyj_lid,crm_utm_source,crm_utm_medium,crm_utm_campaign,crm_utm_content,crm_utm_term,crm_klassifikator_otrasli,crm_otrasl,crm_otrasl_spisok
177,YA:1608109343263058676,Sites,helpdeski.ru,helpdeski.ru,undefined,undefined,undefined,undefined,2020-12-16,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,1. Сервисное выездное обслуживание\t/\tДругое,Сервис банкоматов,undefined
178,YA:1608109343263058676,Sites,helpdeski.ru,helpdeski.ru,undefined,undefined,undefined,undefined,2020-12-17,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,1. Сервисное выездное обслуживание\t/\tДругое,Сервис банкоматов,undefined
182,YA:1611506869820188371,Sites,helpdeski.ru,helpdeski.ru,undefined,undefined,undefined,undefined,2021-02-08,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
183,YA:1611506869820188371,Sites,helpdeski.ru,helpdeski.ru,undefined,undefined,undefined,undefined,2021-01-24,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
191,YA:1614355048925217154,Search,google,undefined,Google,undefined,undefined,undefined,2021-03-01,48.5,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,6. Телекоммуникации и ИТ\t/\tДругое,undefined,undefined
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58571,YA:16141083841028982888,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,Липецк,2021-02-23,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
58653,YA:16150038881044475721,Search,yandex,undefined,Яндекс,undefined,undefined,Красноярск,2021-03-06,48.5,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,"5. Промышленность, нефтегаз, ТЭК\t/\tОбслужива...",undefined,undefined
58711,YA:16154795451028730737,Sites,livebusiness.ru,livebusiness.ru,undefined,undefined,undefined,Тюмень,2021-03-11,0.0,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,1. Сервисное выездное обслуживание\t/\tСпецтех...,Предоставление услуг эвакуатора,undefined
58715,YA:16155322781071508900,Search,google,undefined,Google,undefined,undefined,Москва,2021-03-12,48.5,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,1. Сервисное выездное обслуживание\t/\tСпецтех...,Нагрудные видеорегистраторы,undefined


In [19]:
# Корректируем ClientID
df['ym_clientid'] = df['ym_clientid'].apply(lambda x: get_id(x) if 'YA' in x else 'undefined', 1)
df

Unnamed: 0,ym_clientid,ym_pervyj_istochnik_trafika,ym_source,ym_pervyj_perehod_s_sajtov,ym_pervaja_poiskovaja_sistema,ym_utm_source,ym_utm_content,ym_gorod,ym_data_vizita,ym_cost,...,crm_valjuta,crm_povtornyj_lid,crm_utm_source,crm_utm_medium,crm_utm_campaign,crm_utm_content,crm_utm_term,crm_klassifikator_otrasli,crm_otrasl,crm_otrasl_spisok
0,15785624736522097,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-01-11,15.0,...,,,,,,,,,,
1,158240803283368197,Browser-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-02-23,0.0,...,,,,,,,,,,
2,1594782414605357519,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,undefined,2020-07-21,15.0,...,,,,,,,,,,
3,1595636421722944149,Ad-Traffic,undefined,undefined,undefined,undefined,undefined,Нур-Султан,2020-07-25,15.0,...,,,,,,,,,,
4,1600595766306691164,Ad-Traffic,yad > 300x300,undefined,undefined,yad,300x300,undefined,2020-09-20,15.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60103,undefined,,,,,,,,,,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Производство печатных плат,undefined
60104,undefined,,,,,,,,,,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,Сервисное локомотивное депо,"Сервис (депо, жд техника)"
60105,undefined,,,,,,,,,,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined
60106,undefined,,,,,,,,,,...,Рубль,N,undefined,undefined,undefined,undefined,undefined,undefined,undefined,undefined


In [20]:
# Сохранение в файл
df.to_csv('../data/df_final.csv', index=False, encoding='utf-8', sep=';')