In [1]:
import requests
import pandas as pd
import numpy as np
import os
from datetime import datetime, date, timedelta
from dateutil import relativedelta
import time
import pyarrow as pa
from urllib.parse import quote_plus
from pandas.api.types import is_string_dtype
import gc
import warnings

import config
import config_media_costs
from normalize_funcs import *
from db_funcs import createDBTable, downloadTableToDB, get_mssql_table, removeRowsFromDB
from create_dicts import get_cleaning_dict, get_media_discounts

# start_of_the_time = config_tv_invest.start_of_the_time # указываем дату начала сбора данных, для преобразования номера месяца

start_date = '2023-01-01'
start_date = datetime.strptime(start_date, '%Y-%m-%d').date()

end_date = '2023-01-02'
end_date = datetime.strptime(end_date, '%Y-%m-%d').date()

print(f'start_date: {start_date} / end_date: {end_date}')

# filters_lst = [config.article_lev_4_id_str, config.subbrand_id_str]


start_date: 2023-01-01 / end_date: 2023-01-02


In [2]:
# Включаем отображение всех колонок
pd.set_option('display.max_columns', None)
# Задаем ширину столбцов по контенту
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

warnings.simplefilter(action='ignore', category=FutureWarning)
# убираем лишние предупреждения
pd.set_option('mode.chained_assignment', None)

sep_str = '*' * 50

In [3]:
# создаем функцию, которая вернет номер месяца от начальной даты отсчета
def get_mon_num_from_date(curr_date):
    # с помощью метода relativedelta получаем кол-во лет и месяцев от даты начала до текущей даты
    relative_date = relativedelta.relativedelta(curr_date, config_media_costs.start_of_the_time)
    # теперь нужно получить номер текущего месяца от даты начала
    months_count = relative_date.years * 12 + relative_date.months
    
    return months_count

In [None]:
def get_investments_reports(start_date='', end_date='', media_type='tv', flag='regular'):
    start_time = datetime.now()
    print(f'Скрипт запущен {start_time}')
    
    if flag.lower()=='first':
        table_name = config_media_costs.media_dicts[media_type][0]
        vars_lst = config_media_costs.media_dicts[media_type][1]
        
        createDBTable(config.db_name, table_name, vars_lst, flag='create')

In [None]:
# ТВ расходы - создаем функцию, которая 
# - забирает расходы по месяцам
# - переименовывает поля (приводит к стандарту ТВ Индекс
# Функция принимает на вход
# *normalize_lst - передаем, как отдельные параметры - Список полей с типом int / Список полей с типом float
# start_mon - дата начала месяца, за который забираем статистику
# mon_num - номер месяца по летоисчислению Медиаскоп
# media_type - тип медиа, по которому забираем расходы

def get_investments_costs(*normalize_lst, start_mon='2023-01-01', mon_num=396, media_type='tv'):
    # для запроса к БД приводим тип медиа к нижнему регистру
    media_type = media_type.lower()
    # Формируем запрос к БД
    # В зависимости от типа медиа меняется первая строка в запросе - поля, которые нам нужны для таблицы Фактов
    # названия полей находятся в справочнике config_tv_investments.first_row_query_dict
    # Фильтрация строк для ВСЕХ одинаковая производится по условиям config_tv_investments.main_filter_str
    query = f"""select 
    {config_tv_investments.first_row_query_dict[media_type]}
    from {media_type}_Ad_month t1 left join {media_type}_Appendix t10 
    on t1.vid=t10.vid
    left join {media_type}_Ad t3
    on t1.vid=t3.vid
    where t1.mon={str(mon_num)} and t1.vid='4404947'  and 
    ({config_tv_investments.main_filter_str})"""
    # отправляем запрос в БД Медиа инвестиции
    df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)
    
    # переименовываем поля - приводим их в соответсвии с названиями из ТВ Индекс
    # перебираем справочник config_tv_investments.rename_cols_dict
    # если название поля из Медиа инвестиции есть в ключах, то забираем пару ключ-значение
    # чтобы передать для присвоения нового названия
    new_cols_name = {key: value for (key, value) in config_tv_investments.rename_cols_dict.items() if key in list(df.columns)}
    df = df.rename(columns=new_cols_name)
    df['researchDate'] = start_mon
    df['ConsolidatedCostRUB'] = df['ConsolidatedCostRUB'].astype('int64')
    # вызываем функцию, чтобы добавить новые поля, дисконт и расходы с дисконтом
    # Добавляем в датаФрейм - год, тип медиа, тип медиа+ИД объявления, расходы с дисконтом
    df = append_custom_columns(df, report='investments', media_type=media_type)
    # нормализуем типы данных
    df = normalize_columns_types(df, normalize_lst[0], normalize_lst[1])
    return df

In [None]:
df = get_investments_costs(config_tv_investments.investments_tv_costs_int_lst, 
                           config_tv_investments.investments_tv_costs_float_lst, 
                           start_mon='2023-01-01', 
                           mon_num=396, 
                           media_type='tv')

In [None]:
df.shape

In [None]:
df.head(1)

In [None]:
createDBTable(config.db_name, config_tv_investments.investments_tv_costs , config_tv_investments.investments_tv_costs_vars_list, flag='create')

In [None]:
downloadTableToDB(config.db_name, config_tv_investments.investments_tv_costs, df)

In [None]:
query = f"""select 
    t1.vid, t2.bid, t3.blid
    from tv_Ad_month t1 left join tv_Appendix t2 
    on t1.vid=t2.vid
    left join tv_Ad t3
    on t1.vid=t3.vid
    where t1.mon='396' and t1.vid='4404947'  and 
    (t2.sid2 in (2408, 4780, 4926, 5028) or t2.sbid in (137166, 489562, 494633, 556193, 872285, 966983, 1155675, 1245528))
    """
    df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
query = f"""select 
t1.vid, t2.bid, t3.blid
from tv_Ad_month t1 left join tv_Appendix t2 
on t1.vid=t2.vid
left join tv_Ad t3
on t1.vid=t3.vid
where t1.mon='396' and t1.vid='4404947'  and (t2.sid2 in ({config.article_lev_4_id_str}) or t2.sbid in ({config.subbrand_id_str}))
"""
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df.shape

In [None]:
# Включаем отображение всех колонок
pd.set_option('display.max_columns', None)
# Задаем ширину столбцов по контенту
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

warnings.simplefilter(action='ignore', category=FutureWarning)
# убираем лишние предупреждения
pd.set_option('mode.chained_assignment', None)

sep_str = '*' * 50

In [None]:
print(get_mon_num_from_date(start_date, start_of_the_time))

In [None]:
query = f"select * from tv_Ad where vid='4404947'"

In [None]:
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df

In [None]:
query = f"select * from BrandList where blid='2046493'"
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df

In [None]:
query = f"select * from tv_Appendix where vid='4404947'"
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df

In [None]:
query = f"select * from Brand where bid='568656'"
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df

In [None]:
query = f"""select 
* 
from tv_Ad_month t1 
where t1.mon='396' and t1.vid='4404947'  
"""
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df.shape

In [None]:
left join tv_Appendix t2 
on t1.vid=t2.vid
(t2.sid2 in (2408, 4780, 4926, 5028) or t2.sbid in (137166, 489562, 494633, 556193, 872285, 966983, 1155675, 1245528))
and t2.bid='568656'

In [None]:
query = f"""select 
t1.vid, t2.bid, t3.blid
from tv_Ad_month t1 left join tv_Appendix t2 
on t1.vid=t2.vid
left join tv_Ad t3
on t1.vid=t3.vid
where t1.mon='396' and t1.vid='4404947'  and 
(t2.sid2 in (2408, 4780, 4926, 5028) or t2.sbid in (137166, 489562, 494633, 556193, 872285, 966983, 1155675, 1245528))
"""
df = get_mssql_table(config.investments_db_name, query=query, conn_lst=config.conn_lst)

In [None]:
df.shape

In [None]:
df.head(2)

In [None]:
df['bid'].drop_duplicates()

In [None]:

segments_main_link = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vR2WJjY1kEsKluiXddRiFrqKFOVGO06eJY4CVt33OhJ7KdALHHr3sYsqXyeoVxmNI08VNUP6mAlnQKt/pub?gid=0&single=true&output=csv'

media_type_detail_link = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vTmkq1SXPqmHqCx9MfiMlbf3nV3PRKctT0r1RItnLxnKt7MYzBg56V99obmqbjWek3ux8gdjhvLQR8E/pub?gid=0&single=true&output=csv'

tv_net_group_link = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vTvelFTRLTMGnlLWLmXvLXRLVdBe7magXnTfncl72nXYN0l6s2NfPLLe-M2ipdpV94JesJ-ZuA6lejj/pub?gid=0&single=true&output=csv'

In [None]:
df = get_mssql_table(db_name, table_name='', query='')