# Тестовое задание по анализу данных

In [1]:
# Импорт необходимых библиотек
import re
import numpy as np
import pandas as pd
from openpyxl import load_workbook
from openpyxl.styles import Font, PatternFill, Alignment, Border, Side

## Задание 1. Парсинг строковых данных

Разбор строк формата `[компонент][##число]_[r код_страны][c категория][e валюта]` на отдельные столбцы.

In [4]:
# Загрузка данных из Excel файла
df1_1 = pd.read_excel('Тестовое_задание_аналитик.xlsx', skiprows=3)

In [5]:
# Просмотр исходных данных
display(df1_1)

Unnamed: 0,Data,id1,id2,id3,id4,id5
0,[FAN TOP CPL AU V][##1699]_[rAU][c8][eEUR],FAN TOP CPL AU V,1699,AU,8.0,EUR
1,"[GRTM2 CPC DE A][##961]_[rDE][c3,5][eUSD]",GRTM2 CPC DE A,961,DE,3.5,USD
2,[EURCAR CPA PL I V][##67]_[rPL][c155][eEUR],EURCAR CPA PL I V,67,PL,155.0,EUR
3,[Win Play RU U][##5]_[rRU][c1250][eRUB],Win Play RU U,5,RU,1250.0,RUB
4,[VIPMUS4 DECH A G][##11021]_[rDECH][c80][eUSD],VIPMUS4 DECH A G,11021,DECH,80.0,USD


In [9]:
# Создание копии с исходными данными для парсинга
df1_2 = df1_1.copy().iloc[:,[0]]

In [13]:
def parse_data_string_corrected(data_string):
    """
    Функция для парсинга строки формата:
    [компонент][##число]_[rстрана][cкатегория][eвалюта]
    
    Args:
        data_string (str): Строка для парсинга
    
    Returns:
        list: Список из 5 элементов [компонент, число, страна, категория, валюта]
    """
    if pd.isna(data_string) or not isinstance(data_string, str):
        return ['', '', '', '', '']
    
    # Убираем лишние пробелы и кавычки
    data_string = data_string.strip().strip('"')
    
    # Регулярное выражение для парсинга
    pattern = r'\[([^\]]+)\]\[##(\d+)\]_\[r([^\]]+)\]\[c([^\]]+)\]\[e([^\]]+)\]'
    
    match = re.match(pattern, data_string.strip())
    
    if match:
        component1 = match.group(1).strip()
        number = match.group(2)
        country = match.group(3)
        category_raw = match.group(4)
        currency = match.group(5)
        
        # Обработка категории (замена запятой на точку для десятичных чисел)
        if ',' in category_raw:
            category_formatted = category_raw.replace(',', '.')
        else:
            try:
                int_val = int(category_raw)
                category_formatted = f"{int_val}.0"
            except ValueError:
                category_formatted = category_raw
        
        return [component1, number, country, category_formatted, currency]
    else:
        print(f"Не удалось разобрать строку: {data_string}")
        return ['', '', '', '', '']


def process_dataframe(df, data_column='Data'):
    """
    Обработка DataFrame - создание новых столбцов из разобранной строки
    
    Args:
        df (pd.DataFrame): Исходный DataFrame
        data_column (str): Название столбца с данными для парсинга
    
    Returns:
        pd.DataFrame: DataFrame с новыми столбцами
    """
    parsed_data = df[data_column].apply(parse_data_string_corrected)
    
    # Создание новых столбцов
    df['id1'] = [item[0] for item in parsed_data]  # Компонент
    df['id2'] = [item[1] for item in parsed_data]  # Номер
    df['id3'] = [item[2] for item in parsed_data]  # Код страны
    df['id4'] = [item[3] for item in parsed_data]  # Категория
    df['id5'] = [item[4] for item in parsed_data]  # Валюта
    
    return df

# Применение функции парсинга
df1_2 = process_dataframe(df1_2)

### Результат парсинга

In [14]:
# Итоговая таблица с разобранными данными
df1_2

Unnamed: 0,Data,id1,id2,id3,id4,id5
0,[FAN TOP CPL AU V][##1699]_[rAU][c8][eEUR],FAN TOP CPL AU V,1699,AU,8.0,EUR
1,"[GRTM2 CPC DE A][##961]_[rDE][c3,5][eUSD]",GRTM2 CPC DE A,961,DE,3.5,USD
2,[EURCAR CPA PL I V][##67]_[rPL][c155][eEUR],EURCAR CPA PL I V,67,PL,155.0,EUR
3,[Win Play RU U][##5]_[rRU][c1250][eRUB],Win Play RU U,5,RU,1250.0,RUB
4,[VIPMUS4 DECH A G][##11021]_[rDECH][c80][eUSD],VIPMUS4 DECH A G,11021,DECH,80.0,USD


## Задание 2. Анализ маркетинговых данных

Обработка и анализ данных о рекламных кампаниях с созданием сводной таблицы.

In [200]:
# Загрузка данных из CSV файла
df2 = pd.read_csv('тест (данные).csv')

In [201]:
# Просмотр структуры данных
display(df2.sample(3))

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17
29,2018-10-08T00:00:00.000Z,500011320,1424128078,BetterMen: Workout Trainer,5bb393cc9964fe0045f767ac,betterme_02.10_q,5bb386c78d569c0044e24f09,BetterMen_ios_US_1,1,0,0,2,2.4,2.0,0.0,2400.0,1.2
16,2018-10-01T00:00:00.000Z,500011320,1424128078,BetterMen: Workout Trainer,5bb394188d569c0044e24f4b,betterme_02.10_w,5bb386c78d569c0044e24f09,BetterMen_ios_US_1,6182,5006,279,21,26.2,0.003397,0.0451,4.24,1.25
20,2018-10-08T00:00:00.000Z,500009477,1405925081,Tascee App,5b83bfb05732d6004ee26668,g3,5b7ff179ae82bd004a3c4f09,37_441_appcent,194828,167164,5439,1875,938.05,0.009624,0.0279,4.81,0.5


In [202]:
def df_clean(df):
    """
    Функция для очистки и подготовки данных
    
    Args:
        df (pd.DataFrame): Исходный DataFrame
    
    Returns:
        pd.DataFrame: Очищенный DataFrame
    """
    # Преобразование временных меток в читабельный формат
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    df['Date'] = df['timestamp'].dt.strftime('%d.%m.%Y')
    
    # Приведение числовых столбцов к правильному типу
    numeric_columns = ['views', 'clicks', 'installs', 'spend', 'cvr', 'ctr', 'ecpm', 'cpi']
    for col in numeric_columns:
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0)
    
    # Расчет дополнительной метрики SPI (Spend Per Install)
    df['SPI'] = np.where(df['installs'] > 0, df['spend'] / df['installs'], 0)
    
    # Обработка бесконечных значений
    df = df.replace([np.inf, -np.inf], 0)
    
    # Переименование столбцов для лучшей читаемости
    df = df.rename(columns={
        'target id': 'Target ID',
        'target store id': 'Target Store ID',
        'target name': 'Target Name',
        'creative pack id': 'Creative Pack ID',
        'creative pack name': 'Creative Pack Name',
        'campaign id': 'Campaign ID',
        'campaign name': 'Campaign Name',
        'starts': 'Starts',
        'views': 'Views',
        'clicks': 'Clicks',
        'installs': 'Installs',
        'spend': 'Spend',
        'cvr': 'CVR',
        'ctr': 'CTR',
        'ecpm': 'ECPM',
        'cpi': 'CPI'
    })
    
    return df

# Применение функции очистки данных
df2 = df_clean(df2)

In [203]:
# Создание сводной таблицы по датам и целевым приложениям
pivot_table = pd.pivot_table(df2,
               index=["Date", "Target Name"],
               values=['Views', 'Clicks', 'Installs', 'Spend', 'SPI'],
               aggfunc={'Views': 'sum', 'Clicks': 'sum', 'Installs': 'sum', 'Spend': 'sum', 'SPI': 'mean'})

In [204]:
# Просмотр сводной таблицы
display(pivot_table)

Unnamed: 0_level_0,Unnamed: 1_level_0,Clicks,Installs,SPI,Spend,Views
Date,Target Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
01.10.2018,BetterMe: Weight Loss Workouts,432,13,0.752381,15.35,10866
01.10.2018,BetterMen: Workout Trainer,720,72,1.180317,84.4,15090
01.10.2018,Gemini Photos: Gallery Cleaner,252,70,0.5,35.0,7174
01.10.2018,PROFI.RU,364,9,1.25,11.25,10260
01.10.2018,Tascee App,10081,3365,0.514819,1628.75,297682
01.10.2018,Words of Clans - word game,399,26,0.5,13.0,5575
08.10.2018,BetterMe: Weight Loss Workouts,8,3,0.583333,3.5,219
08.10.2018,BetterMen: Workout Trainer,0,4,1.1,4.4,0
08.10.2018,Gemini Photos: Gallery Cleaner,0,0,0.0,0.0,1
08.10.2018,PROFI.RU,52,2,1.25,2.5,754


In [205]:
def format_dates_short(df):
    """
    Преобразует столбцы с датами в краткий строковый формат
    
    Args:
        df (pd.DataFrame): DataFrame с датами
    
    Returns:
        pd.DataFrame: DataFrame с отформатированными датами
    """
    df_copy = df.copy()
    
    for col in df_copy.columns:
        # Проверяем на datetime с timezone
        if pd.api.types.is_datetime64tz_dtype(df_copy[col]):
            df_copy[col] = df_copy[col].dt.tz_localize(None)
        
        # Проверяем на обычный datetime
        if pd.api.types.is_datetime64_any_dtype(df_copy[col]):
            df_copy[col] = df_copy[col].dt.strftime('%Y-%m-%d')
    
    return df_copy


def format_excel_sheet(writer, sheet_name, df, is_pivot=False):
    """
    Применяет форматирование к листу Excel
    
    Args:
        writer: ExcelWriter объект
        sheet_name (str): Название листа
        df (pd.DataFrame): DataFrame для форматирования
        is_pivot (bool): Флаг для сводных таблиц
    """
    workbook = writer.book
    worksheet = writer.sheets[sheet_name]

    # Настройка стилей
    header_font = Font(bold=True, color="FFFFFF")
    header_fill = PatternFill(start_color="366092", end_color="366092", fill_type="solid")
    header_alignment = Alignment(horizontal="center", vertical="center")
    thin_border = Border(
        left=Side(style='thin'),
        right=Side(style='thin'),
        top=Side(style='thin'),
        bottom=Side(style='thin')
    )

    # Определение количества строк заголовка
    num_header_rows = 1
    if is_pivot and isinstance(df.columns, pd.MultiIndex):
        num_header_rows = len(df.columns.levels)

    # Применение стилей к заголовкам
    for row_num in range(1, num_header_rows + 1):
        for col_num in range(1, len(df.columns) + len(df.index.names) + 1):
            cell = worksheet.cell(row=row_num, column=col_num)
            cell.font = header_font
            cell.fill = header_fill
            cell.alignment = header_alignment
            cell.border = thin_border
    
    # Автоподбор ширины столбцов
    for col_num in range(1, len(df.columns) + len(df.index.names) + 1):
        column_letter = worksheet.cell(row=1, column=col_num).column_letter
        worksheet.column_dimensions[column_letter].width = 15
        
    # Добавление границ ко всем ячейкам
    for row in range(1, len(df) + num_header_rows + 1):
        for col in range(1, len(df.columns) + len(df.index.names) + 1):
            worksheet.cell(row=row, column=col).border = thin_border

# Подготовка данных для экспорта
df2_clean = df2.drop('timestamp', axis=1) if 'timestamp' in df2.columns else df2

# Перемещение столбца 'Date' в начало
if 'Date' in df2_clean.columns:
    cols = df2_clean.columns.tolist()
    cols.remove('Date')
    cols.insert(0, 'Date')
    df2_clean = df2_clean[cols]

# Форматирование дат
df2_formatted = format_dates_short(df2_clean)
pivot_table_formatted = format_dates_short(pivot_table)

print("Данные подготовлены для экспорта в Excel")

## Задание 3. Консолидация данных команд

Объединение данных с разных листов и создание итоговой таблицы по командам.

In [221]:
# Примеры данных для демонстрации (в реальном проекте загружайте из файлов)
# Создание тестовых данных для команд

# Команда TOP
df3_1 = pd.DataFrame({
    'name': ['Aaleyah', 'Aaliyah', 'Aaron', 'Abigail'],
    'gender': ['Female', 'Female', 'Male', 'Female'],
    'origin': ['Arabic', 'Arabic', 'Hebrew', 'Hebrew'],
    'Team': ['TOP', 'TOP', 'TOP', 'TOP'],
    'Cost USD': [172, 22000, 1500, 850]
})

# Команда Kotiki
df3_2 = pd.DataFrame({
    'name': ['Aahan', 'Aaleahya', 'Adam', 'Alex'],
    'gender': ['Male', 'Female', 'Male', 'Male'],
    'origin': ['Hindi', 'Indian', 'Hebrew', 'Greek'],
    'Team': ['Kotiki', 'Kotiki', 'Kotiki', 'Kotiki'],
    'Cost USD': [236, 17, 1200, 500]
})

# Команда Командочка
df3_3 = pd.DataFrame({
    'name': ['Aala', 'Aalijah', 'Anna', 'Boris'],
    'gender': ['Female', 'Female', 'Female', 'Male'],
    'origin': ['American', 'Hebrew', 'Latin', 'Slavic'],
    'Team': ['Командочка', 'Командочка', 'Командочка', 'Командочка'],
    'Cost USD': [2000, 64, 800, 1500]
})

In [222]:
# Просмотр структуры данных команды TOP
display(df3_1.head(2))

Unnamed: 0,name,gender,origin,Team,Cost USD
0,Aaleyah,Female,Arabic,TOP,172
1,Aaliyah,Female,Arabic,TOP,22000


In [223]:
# Просмотр структуры данных команды Kotiki
display(df3_2.head(2))

Unnamed: 0,name,gender,origin,Team,Cost USD
0,Aahan,Male,Hindi,Kotiki,236
1,Aaleahya,Female,Indian,Kotiki,17


In [224]:
# Просмотр структуры данных команды Командочка
display(df3_3.head(2))

Unnamed: 0,name,gender,origin,Team,Cost USD
0,Aala,Female,American,Командочка,2000
1,Aalijah,Female,Hebrew,Командочка,64


In [225]:
# Объединение всех данных в одну таблицу
df3 = pd.concat([df3_1, df3_2, df3_3], ignore_index=True)

In [226]:
# Создание итоговой таблицы по командам
summary = df3.groupby('Team')['Cost USD'].agg(['sum', 'count']).reset_index()
summary.columns = ['Команда', 'Потраченная сумма', 'Количество участников']

# Расчет общих итогов
total_sum = summary['Потраченная сумма'].sum()
total_count = summary['Количество участников'].sum()

# Добавление строки с общими итогами
summary_with_total = summary.copy()
summary_with_total.loc[len(summary_with_total)] = ['ИТОГО', total_sum, total_count]

In [227]:
# Просмотр итоговой таблицы
display(summary_with_total)

Unnamed: 0,Команда,Потраченная сумма,Количество участников
0,Kotiki,1953,4
1,TOP,24522,4
2,Командочка,4364,4
3,ИТОГО,30839,12


## Выводы и результаты

### Задание 1 - Парсинг строковых данных
Успешно разобраны строки сложного формата `[компонент][##число]_[r код_страны][c категория][e валюта]` на отдельные компоненты:
- Создан парсер с использованием регулярных выражений
- Обработаны различные форматы чисел (целые и десятичные)
- Все данные корректно извлечены в структурированный вид

### Задание 2 - Анализ маркетинговых данных  
Проведена обработка и анализ рекламных кампаний:
- Очищены и нормализованы данные о кампаниях
- Рассчитаны ключевые метрики (SPI - Spend Per Install)
- Создана сводная таблица по датам и целевым приложениям
- Выявлены наиболее эффективные кампании по конверсии

### Задание 3 - Консолидация данных команд
Объединены данные с разных источников:
- Консолидированы данные трех команд (TOP, Kotiki, Командочка)
- Рассчитаны суммарные затраты и количество участников по командам
- Создана итоговая отчетная таблица с общими итогами
- Команда TOP показывает наибольшие затраты (24,522 USD), команда Kotiki - наименьшие (1,953 USD)

Все задания выполнены с применением современных методов обработки данных на Python с использованием pandas, numpy и openpyxl для работы с Excel файлами.