In [1]:
import pandas as pd
import numpy as np
import requests
from io import BytesIO

base_link = 'https://docs.google.com/spreadsheets/d/1Y0cGuXZQ4AUCSlE9t4Nd3APcTsEAg9QcurHEM7_4_d8/edit?usp=sharing'

url = 'https://docs.google.com/spreadsheets/export?exportFormat=xlsx&id='

In [2]:
# Включаем отображение всех колонок
pd.set_option('display.max_columns', None)

# Задаем ширину столбцов по контенту
pd.set_option('display.max_colwidth', None)

pd.set_option('display.max_rows', None)

pd.options.mode.chained_assignment = None

In [3]:
def get_sheet_id(google_link):
    start_index = str(google_link).find('/d/')
    end_index = str(google_link).find('/edit?')
    spreadsheetId = google_link[start_index+3:end_index]
    
    return spreadsheetId

In [4]:
def get_data_from_sheet(base_link):
    spreadsheetId = get_sheet_id(base_link)
    final_url = url + spreadsheetId
    res = requests.get(final_url)
    
    return BytesIO(res.content)

In [5]:
def parse_check_list_report(content, target_sheet, name):
    
    df_tmp = pd.read_excel(content, sheet_name=target_sheet)
    df_tmp = df_tmp.fillna('')
    df_tmp.columns = df_tmp.iloc[0].str.lower().str.strip().str.replace('\n', ' ') # забираем название полей из файла
    weight_index = list(df_tmp[df_tmp['фио менеджера'].str.lower()=='вес вопроса'].index)[0] # берем индекс окончания таблицы с данными
    start_index = weight_index + 1
    df_weight = df_tmp.iloc[weight_index:start_index]
    # df_weight = df_tmp.iloc[3:4]
    df_tmp = df_tmp[df_tmp['дата звонка']!='']
    df_tmp = df_tmp.iloc[start_index:]
    df_tmp['дата звонка'] = pd.to_datetime(df_tmp['дата звонка']).dt.date # приводим в формат даты
    df_tmp = df_tmp.reset_index(drop=True)
    final_df = pd.concat([df_weight, df_tmp])
    final_df['client'] = name
    if 'калининград' in name.lower():
        dashboard_name = report
    else:
        dashboard_name = target_sheet
    final_df['dashboard'] = dashboard_name

    return final_df

In [31]:
def get_parse_reports(df, name, report):
    tmp_dict = {}
    content = get_data_from_sheet(df['report_link'][0])
    target_sheet_names = pd.ExcelFile(content)
    for target_sheet in target_sheet_names.sheet_names:
        if 'Чек-лист' in target_sheet:
            final_df = parse_check_list_report(content, target_sheet, name)
            if 'калининград' in name.lower():
                tmp_dict[report]= final_df
            else:
                tmp_dict[target_sheet] = final_df
    return tmp_dict

In [7]:
content = get_data_from_sheet(base_link)
sheet_names = pd.ExcelFile(content)

In [8]:
sheet_names.sheet_names

['Калининград МореАвто(ЮтоКарс)', 'Екатеринбург АтлантикПРО', 'АвтоБелогорье']

In [32]:
for name in sheet_names.sheet_names[:2]:
    print(name)
    tmp_reports_dict = {}
    cols_range = 'A:B' # задаем диапазон полей, которые нам нужны
    df = pd.read_excel(content, sheet_name=name, usecols=cols_range, names=['report_name', 'report_link'])
    df['report_name'] = df['report_name'].str.lower().str.strip().str.replace('\n', ' ')
    
    reports_list = list(df['report_name'])
    for report in reports_list:
        parse_info = df[df['report_name']==report].reset_index(drop=True)

        if 'чек' in report.lower():
            # if 'калининград' in name.lower():
            #     print(report)
            #     tmp_reports_dict[report] = get_parse_reports(parse_info, name, report) 'екатеринбург' in name.lower() or 
            if 'калининград' in name.lower():
                print(report)
                tmp_reports_dict[report] = get_parse_reports(parse_info, name, report)


Калининград МореАвто(ЮтоКарс)
чек-лист калининград ап
чек-лист калининград оп
чек-лист калининград выкуп
чек-лист калининград парсинг
Екатеринбург АтлантикПРО


In [30]:
df

Unnamed: 0,report_name,report_link
0,чек-лист,https://docs.google.com/spreadsheets/d/1wKHVQgIJFm9jjcURsZcFLmyNzwEeHO988ZjwafW2fbE/edit?usp=drive_link
1,срм чаты_звонки,https://docs.google.com/spreadsheets/d/1Wmke4n61KTyaer5BlgsAk8L7Bwdagp9hmC1PwD6IIWY/edit?usp=drive_link
2,цели,https://docs.google.com/spreadsheets/d/1gklvOlb7DWLg47owMgx-7c6-Y8WXp6mqBzJRgP62ZSg/edit?usp=drive_link
3,сотрудники,https://docs.google.com/spreadsheets/d/1znqwckeyY3OZovxZkELaKenBB8XPUzP3G7ljj-DDnAs/edit?usp=drive_link
4,срм ап,https://docs.google.com/spreadsheets/d/1QV1x2l5MGLOI9XtaLlmOkSyHXQTiRG9Jb5fyLAOvHGc/edit?usp=drive_link
5,файлы дашбордов,https://drive.google.com/drive/folders/15uJn1vIl7kIEk41DQ5d9uCBEwcRkPbra?usp=drive_link


In [34]:
tmp_reports_dict

{}

In [33]:
for key in tmp_reports_dict.keys():
    print(key)

In [13]:
tmp_reports_dict['чек-лист']['Чек-лист АП'].head(3)

Unnamed: 0,ссылка на рабочий лист,ссылка на звонок,автосалон,дата звонка,марка авто,фио менеджера,менеджер представился по имени,менеджер назвал компанию,менеджер уточнил сроки покупки,менеджер предложил traid-in( с выгодой),менеджер предложил кредит(с выгодой),"менеджер создал срочность (много интересуются, акция)",предложил альтернативу или рассказал о широком ассортименте авто,формат ответа на вопрос о цене,менеджер спросил мнение клиента о предложении,фиксация возражения клиента,менеджер аргументирует возражение клиента,менеджер предложил визит в салон сегодня,менеджер договорился о следующем шаге с клиентом,менеджер рассказал как добраться до салона,менеджер уточнил контактный номер телефона?,менеджер предложил отправить визитку?,оценка звонка,клиент согласился на визит,по сделке стоит актуальная задача,"причины, почему не согласился на визит",комментарии,статус,client,dashboard
3,,,,,,Вес вопроса,0.01,0.01,0.05,0.05,0.05,0.08,0.06,0.1,0.1,да (какое?)/нет,0.1,0.14,0.1,0.05,0.05,0.05,1.0,да/нет,да/нет,,,,Екатеринбург АтлантикПРО,Чек-лист АП
0,https://atlantikpro.autocrm.ru/yii/sale/case/view/102128/,https://vpbx000098249b.domru.biz/api/v2/call-records/record/2024-06-21/9bb55888-aa43-41a2-a09f-e0689dcb9763/73432240223_in_2024_06_21-11_55_21_79538237557_675n.mp3,"Репина, 13",2024-06-21,SKODA Octavia,Федяшов Артем,0.01,0.01,0.0,0.05,0.05,0.08,0.06,0.1,0.0,,0.0,0.0,0.1,0.05,0.05,0.05,0.61,да,да,,,Одобрен,Екатеринбург АтлантикПРО,Чек-лист АП
1,https://atlantikpro.autocrm.ru/yii/sale/case/view/102113/,https://vpbx000098249b.domru.biz/api/v2/call-records/record/2024-06-21/a2e587c2-83db-4e3a-a640-db6a846e3ac9/73432242224_in_2024_06_21-10_43_40_79671431025_72sm.mp3,"Таганская, 77",2024-06-21,,Шамыков Андрей,,,,,,,,,,,,,,,,,0.0,,,,нет разговора,Удалить,Екатеринбург АтлантикПРО,Чек-лист АП


In [None]:
tmp_reports_dict['чек-лист']['dashboard'].drop_duplicates()

In [None]:
['чек-лист калининград ап', 'чек-лист калининград оп', 'чек-лист калининград выкуп', 'чек-лист калининград парсинг']

In [None]:
tmp_reports_dict['чек-лист'][tmp_reports_dict['чек-лист']['dashboard']=='Чек-лист АП'].head(3)

In [None]:
df.head(2)

In [None]:
df['report_link'][0]

In [35]:
google_link = df['report_link'][0]

In [36]:
start_index = str(google_link).find('/d/')
end_index = str(google_link).find('/edit?')
spreadsheetId = google_link[start_index+3:end_index]

In [None]:
content

In [37]:
final_url = url + spreadsheetId
res = requests.get(final_url)

In [38]:
content = BytesIO(res.content)

In [39]:
sheet_names = pd.ExcelFile(content)

In [40]:
sheet_names.sheet_names

['Чек-лист АП',
 'Чек-лист Чаты-Звонки',
 'Чек-лист Комиссия',
 'Чек-лист Чаты',
 'Учет_лидов',
 'Критерии Оценки']

In [None]:
spreadsheetId

In [44]:
target_sheet_names = pd.ExcelFile(content)

In [46]:
for target_sheet in target_sheet_names.sheet_names:
        if 'Чек-лист' in target_sheet:
            print(target_sheet)
            if target_sheet=='Чек-лист АП':
                final_df = parse_check_list_report(content, target_sheet, name)

Чек-лист АП
Чек-лист Чаты-Звонки
Чек-лист Комиссия
Чек-лист Чаты


In [None]:
df_tmp = pd.read_excel(content, sheet_name=target_sheet)
df_tmp = df_tmp.fillna('')
df_tmp.columns = df_tmp.iloc[0].str.lower().str.strip().str.replace('\n', ' ') # забираем название полей из файла
weight_index = list(df_tmp[df_tmp['фио менеджера'].str.lower()=='вес вопроса'].index)[0] # берем индекс окончания таблицы с данными
df_weight = df_tmp.iloc[weight_index:weight_index+1]
# df_tmp = df_tmp[df_tmp['дата звонка']!='']

In [None]:
df_weight

In [None]:
df_tmp.head()

In [None]:
for target_sheet in target_sheet_names.sheet_names[:1]:
    print(target_sheet)
    if 'Чек-лист' in target_sheet:
        df_tmp = pd.read_excel(content, sheet_name=target_sheet)
        df_tmp = df_tmp.fillna('')
        df_tmp.columns = df_tmp.iloc[0].str.lower().str.strip().str.replace('\n', ' ') # забираем название полей из файла
        weight_index = list(df_tmp[df_tmp['фио менеджера'].str.lower()=='вес вопроса'].index)[0] # берем индекс окончания таблицы с данными
        start_index = weight_index + 1
        df_weight = df_tmp.iloc[weight_index:start_index]
        # df_weight = df_tmp.iloc[3:4]
        df_tmp = df_tmp[df_tmp['дата звонка']!='']
        df_tmp = df_tmp.iloc[start_index:]
        df_tmp['дата звонка'] = pd.to_datetime(df_tmp['дата звонка']).dt.date # приводим в формат даты
        df_tmp = df_tmp.reset_index(drop=True)
        final_df = pd.concat([df_weight, df_tmp])
        final_df['client'] = name
        final_df['dashboard'] = report
