# Проведение оценки эффективности маркетинга салона красоты
- **Задача:**
<br>Необходимо провести оценку эффективности маркетинга.
- **Описание:**
<br>У салона есть реклама в онлайне и сайт, через который можно оставить заявку на услугу. 
<br>При помощи сквозной аналитики нужно проследить путь от клика по <br>рекламному объявлению до покупки и, таким образом, оценить эффективность маркетинга. 
<br>Клик по рекламе трансформируется в лид (заявку), а лид превращается в клиента, <br>который уже может совершить некоторое количество покупок.
<br>Необходимо подготовить данные для отчета по сквозной аналитике.
- **Связи**
  - Связь между рекламой и заявкой определяется через utm метки - <br>если набор меток из рекламного объявления совпадает с тем набором, который есть в заявке, <br>то мы можем определить сколько денег было потрачено на привлечение этого лида 
  - Связь между лидом и продажами определяется через client_id.
- **План выполнения**
  - Поднятие базы данных PostgreSQL
  - Загрузка таблиц в базу данных
  - Написание запроса к базе
  - Формирование выходной таблицы
  - Визуализация в Looker Studio
  - Выводы по исследованию

## Импорт библиотек

In [1]:
import os
import warnings
import pandas as pd

from dotenv import load_dotenv
from sqlalchemy import create_engine, MetaData

warnings.filterwarnings('ignore')

## Подключение к базе данных PostgreSQL

In [2]:
load_dotenv()
db_name = os.getenv("DB_NAME")
db_password = os.getenv("DB_PASSWORD")
db_username = os.getenv("DB_USERNAME")

engine = create_engine(f"postgresql://{db_username}:{db_password}@localhost:5432/{db_name}")

### Проверка наличия таблиц в базе

In [3]:
metadata = MetaData()
# Отражение таблиц из базы данных
metadata.reflect(bind=engine)
# Получение списка наименований таблиц
existing_tables = metadata.tables.keys()
print(f"существующие в базе таблицы: {existing_tables}")

существующие в базе таблицы: dict_keys(['leads', 'purchases', 'ads'])


### Формирование аналитической таблицы

In [13]:
# формирование sql запроса

query_xo = '''
-- создание временной таблицы из объединённых таблиц leads и purchases
WITH leads_purchases AS (
SELECT
  lead_created_at,
  lead_id,
  d_lead_utm_source,
  d_lead_utm_medium,
  d_lead_utm_campaign,
  d_lead_utm_content,
  leads.client_id,
  purchase_created_at,
  purchase_id,
  m_purchase_amount
FROM
  leads
  LEFT JOIN purchases
  ON (purchases.purchase_created_at BETWEEN leads.lead_created_at AND leads.lead_created_at + INTERVAL '15 days')
  AND (leads.client_id = purchases.client_id)),
  
-- создание временной таблицы из объединённых ads и leads_purchases
main_table AS (
SELECT
  created_at,
  d_utm_source,
  d_utm_medium,
  d_utm_campaign,
  m_clicks,
  m_cost,
  lead_id,
  purchase_id,
  m_purchase_amount
FROM
  ads
  LEFT JOIN leads_purchases lp 
  ON (ads.created_at = lp.lead_created_at)
  AND (ads.d_utm_source = lp.d_lead_utm_source)
  AND (ads.d_utm_medium = lp.d_lead_utm_medium)
  AND (ads.d_utm_campaign = lp.d_lead_utm_campaign)
  AND (ads.d_utm_content = lp.d_lead_utm_content))

SELECT
  *
FROM
  main_table
ORDER BY
  created_at
'''

# создание датафрейма на основе sql запроса

df_query_xo = pd.read_sql_query(query_xo, con=engine)
df_query_xo.info()
df_query_xo.head(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9259 entries, 0 to 9258
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   created_at         9259 non-null   datetime64[ns]
 1   d_utm_source       9259 non-null   object        
 2   d_utm_medium       9259 non-null   object        
 3   d_utm_campaign     9259 non-null   object        
 4   m_clicks           9259 non-null   float64       
 5   m_cost             9259 non-null   float64       
 6   lead_id            1735 non-null   object        
 7   purchase_id        511 non-null    object        
 8   m_purchase_amount  511 non-null    float64       
dtypes: datetime64[ns](1), float64(3), object(5)
memory usage: 651.1+ KB


Unnamed: 0,created_at,d_utm_source,d_utm_medium,d_utm_campaign,m_clicks,m_cost,lead_id,purchase_id,m_purchase_amount
0,2022-01-03,yandex,cpc,48306435,0.0,0.0,,,
1,2022-01-03,yandex,cpc,48306435,1.0,11.952,,,
2,2022-01-03,yandex,cpc,48306450,1.0,15.48,,,
3,2022-01-03,yandex,cpc,48306435,0.0,0.0,,,
4,2022-01-03,yandex,cpc,48306435,0.0,0.0,,,


**Набор полей в отчете**:

**Dimensions**

- Дата `created_at`
- UTM source `d_utm_source`
- UTM medium `d_utm_medium`
- UTM campaign `d_utm_campaign`
    
**Metrics**
    
- Количество кликов `m_clicks`
- Расходы на рекламу `m_cost`
- Количество лидов
- Количество покупок
- Выручка от продаж
- CPL  - Расходы/Количество лидов
- ROAS - Выручка/Расходы

## Выводы:
- Наблюдения по таблице `ads`:
    - полных повторов строк не обнаружено
    - признак `d_utm_term` состоит из пропусков, можно исключить из дальнейшего исследования
    - данные предоставлены с января по середину сентября 2022 года
    - источник рекламы - один, рекламный канал - один
    - количество рекламных компаний - 10
    - количество различного рекламного контента - 121
- Наблюдения по таблице `leads`:
    - данные по лидам представлены с января по середину октября 2022
    - повторов среди лидов не обнаружено
    - источники рекламы разные - необходимо оставить только 'yandex'
    - рекламные каналы также различны, нас интересует только 'cpc'
    - рекламные компании и контент также нужно будет отфильтровать
    - в данных имеются пропущенные значения, восстановить которые в рамках <br>текущего исследования не представляется возможным, принимаю решение их удалить
- Наблюдения по таблице `purchases`:
    - данные о покупках клиентов представлены с января по середину октября 2022
    - покупки не повторяются
    - количество уникальных клиентов значительно меньше количества покупок, <br>соответственно, клиенты совершали не одну покупку
    - дубликатов строк не обнаружено