# Проведение оценки эффективности маркетинга салона красоты
- **Задача:**
<br>Необходимо провести оценку эффективности маркетинга.
- **Описание:**
<br>У салона есть реклама в онлайне и сайт, через который можно оставить заявку на услугу. 
<br>При помощи сквозной аналитики нужно проследить путь от клика по <br>рекламному объявлению до покупки и, таким образом, оценить эффективность маркетинга. 
<br>Клик по рекламе трансформируется в лид (заявку), а лид превращается в клиента, <br>который уже может совершить некоторое количество покупок.
<br>Необходимо подготовить данные для отчета по сквозной аналитике.
- **Связи**
  - Связь между рекламой и заявкой определяется через utm метки - <br>если набор меток из рекламного объявления совпадает с тем набором, который есть в заявке, <br>то мы можем определить сколько денег было потрачено на привлечение этого лида 
  - Связь между лидом и продажами определяется через client_id.
- **План выполнения**
  - Поднятие базы данных PostgreSQL
  - Загрузка таблиц в базу данных
  - Написание запроса к базе
  - Формирование выходной таблицы
  - Визуализация в Looker Studio
  - Выводы по исследованию

## Импорт библиотек

In [1]:
import os
import warnings
import pandas as pd

from dotenv import load_dotenv
from sqlalchemy import create_engine, MetaData

warnings.filterwarnings('ignore')

## Подключение к базе данных PostgreSQL

In [2]:
load_dotenv()
db_name = os.getenv("DB_NAME")
db_password = os.getenv("DB_PASSWORD")
db_username = os.getenv("DB_USERNAME")

engine = create_engine(f"postgresql://{db_username}:{db_password}@localhost:5432/{db_name}")

### Проверка наличия таблиц в базе

In [3]:
metadata = MetaData()
metadata.reflect(bind=engine)
print(f"существующие в базе таблицы: {list(metadata.tables.keys())}")

существующие в базе таблицы: ['leads', 'purchases', 'ads']


### Формирование аналитической таблицы

In [4]:
# формирование sql запроса

query_xo = '''

-- создание временной таблицы из объединённых таблиц leads и purchases
WITH leads_purchases AS (
SELECT
  lead_created_at,
  lead_id,
  d_lead_utm_source,
  d_lead_utm_medium,
  d_lead_utm_campaign,
  d_lead_utm_content,
  leads.client_id,
  purchase_created_at,
  purchase_id,
  m_purchase_amount
FROM
  leads
  LEFT JOIN purchases
  ON (purchases.purchase_created_at BETWEEN leads.lead_created_at AND leads.lead_created_at + INTERVAL '15 days')
  AND (leads.client_id = purchases.client_id)),
  
-- создание временной таблицы из объединённых ads и leads_purchases
main_table AS (
SELECT
  MIN(created_at) AS campaign_launch_date,
  d_utm_source,
  d_utm_medium,
  d_utm_campaign,
  SUM(m_clicks)::INT AS number_of_clicks,
  ROUND(SUM(m_cost)::DECIMAL, 2) AS total_ads_expenses,
  COUNT(lead_id) AS number_of_leads,
  COUNT(purchase_id) AS number_of_purchases,
  COALESCE(SUM(m_purchase_amount), 0) AS sales_revenue
FROM
  ads
  LEFT JOIN leads_purchases lp 
  ON (ads.created_at = lp.lead_created_at)
  AND (ads.d_utm_source = lp.d_lead_utm_source)
  AND (ads.d_utm_medium = lp.d_lead_utm_medium)
  AND (ads.d_utm_campaign = lp.d_lead_utm_campaign)
  AND (ads.d_utm_content = lp.d_lead_utm_content)
GROUP BY
  d_utm_campaign,
  d_utm_source,
  d_utm_medium)

-- формирование окончательной таблицы
SELECT
  campaign_launch_date,
  d_utm_source,
  d_utm_medium,
  d_utm_campaign,
  number_of_clicks,
  total_ads_expenses,
  number_of_leads,
  number_of_purchases,
  sales_revenue,
  CASE
    WHEN number_of_leads = 0 THEN 0
    ELSE ROUND(total_ads_expenses / number_of_leads::DECIMAL, 2)
  END AS cpl,
  ROUND(sales_revenue::DECIMAL / total_ads_expenses, 2) AS roas
FROM
  main_table
ORDER BY
  campaign_launch_date
'''

# создание датафрейма на основе sql запроса

df_query_xo = pd.read_sql_query(query_xo, con=engine)
df_query_xo.info()
df_query_xo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   campaign_launch_date  10 non-null     datetime64[ns]
 1   d_utm_source          10 non-null     object        
 2   d_utm_medium          10 non-null     object        
 3   d_utm_campaign        10 non-null     object        
 4   number_of_clicks      10 non-null     int64         
 5   total_ads_expenses    10 non-null     float64       
 6   number_of_leads       10 non-null     int64         
 7   number_of_purchases   10 non-null     int64         
 8   sales_revenue         10 non-null     float64       
 9   cpl                   10 non-null     float64       
 10  roas                  10 non-null     float64       
dtypes: datetime64[ns](1), float64(4), int64(3), object(3)
memory usage: 1008.0+ bytes


Unnamed: 0,campaign_launch_date,d_utm_source,d_utm_medium,d_utm_campaign,number_of_clicks,total_ads_expenses,number_of_leads,number_of_purchases,sales_revenue,cpl,roas
0,2022-01-03,yandex,cpc,48306435,2237,54043.93,162,52,239798.0,333.6,4.44
1,2022-01-03,yandex,cpc,48306450,14322,382616.48,952,345,1904151.0,401.91,4.98
2,2022-03-10,yandex,cpc,48306494,2958,61222.2,187,45,160203.0,327.39,2.62
3,2022-03-10,yandex,cpc,48306518,726,14157.84,66,12,36626.0,214.51,2.59
4,2022-03-10,yandex,cpc,48306473,2514,46266.6,126,15,75616.0,367.2,1.63
5,2022-03-10,yandex,cpc,48306487,3137,69445.54,214,30,138044.0,324.51,1.99
6,2022-03-11,yandex,cpc,48306461,51,3915.29,1,1,290.0,3915.29,0.07
7,2022-03-11,yandex,cpc,60279528,67,4311.66,1,0,0.0,4311.66,0.0
8,2022-03-11,yandex,cpc,48306469,56,3873.34,3,0,0.0,1291.11,0.0
9,2022-03-12,yandex,cpc,72000794,315,7186.24,23,11,48990.0,312.45,6.82


### Экспорт полученной таблицы в эксель

In [5]:
df_query_xo.to_excel("beauty_saloon_marketing.xlsx")

**Набор полей в отчете**:

**Dimensions**

- Дата `campaign_launch_date`
- UTM source `d_utm_source`
- UTM medium `d_utm_medium`
- UTM campaign `d_utm_campaign`
    
**Metrics**
    
- Количество кликов `number_of_clicks`
- Расходы на рекламу `total_ads_expenses`
- Количество лидов `number_of_leads`
- Количество покупок `number_of_purchases`
- Выручка от продаж `sales_revenue`
- CPL  - Расходы/Количество лидов `cpl`
- ROAS - Выручка/Расходы `roas`

## Выводы:
- Наблюдения по таблице `ads`:
    - полных повторов строк не обнаружено
    - признак `d_utm_term` состоит из пропусков, можно исключить из дальнейшего исследования
    - данные предоставлены с января по середину сентября 2022 года
    - источник рекламы - один, рекламный канал - один
    - количество рекламных компаний - 10
    - количество различного рекламного контента - 121
- Наблюдения по таблице `leads`:
    - данные по лидам представлены с января по середину октября 2022
    - повторов среди лидов не обнаружено
    - источники рекламы разные - необходимо оставить только 'yandex'
    - рекламные каналы также различны, нас интересует только 'cpc'
    - рекламные компании и контент также нужно будет отфильтровать
    - в данных имеются пропущенные значения, восстановить которые в рамках <br>текущего исследования не представляется возможным, принимаю решение их удалить
- Наблюдения по таблице `purchases`:
    - данные о покупках клиентов представлены с января по середину октября 2022
    - покупки не повторяются
    - количество уникальных клиентов значительно меньше количества покупок, <br>соответственно, клиенты совершали не одну покупку
    - дубликатов строк не обнаружено
- Проверки и защиты в скрипте:
    - Применена функция COALESCE для перевода nan в 0
    - Использован оператор CASE, чтобы избежать ситуации деления на 0