## Итоговое задание
Вы получили данные от интернет-магазина, который продает товары онлайн. Вашей задачей является анализ данных, выявление инсайтов и предоставление рекомендаций для улучшения показателей магазина.

#### Данные

База данных (SQL):

__Orders__ — информация о заказах (ID заказа, ID клиента, дата заказа, сумма заказа, способ оплаты).  
__Customers__ — информация о клиентах (ID клиента, возраст, пол, город).  
__Products__ — информация о товарах (ID товара, название товара, категория, цена).  
__OrderItems__ — информация о товарах в заказах (ID заказа, ID товара, количество).  
__Visits__ — данные о посещениях сайта (ID клиента, дата визита, источник трафика, версия сайта).  
-- версия сайта используется только для проведения АВ теста

CSV файлы:

__Promotions.csv__ — данные о маркетинговых акциях (ID акции, ID товара, дата начала акции, дата окончания акции).  
__Weather.csv__ — данные о погоде (дата, город, температура, осадки) для анализа влияния погодных условий на продажи.


### Задания

#### Исследование данных:

Проведите первичный анализ всех доступных данных (SQL, CSV).  
Проверьте наличие пропусков и дубликатов. Опишите структуру данных, выделите ключевые переменные.


#### Обогащение данных:

- Загрузите данные о маркетинговых акциях из CSV файла и присоедините их к основным данным.  
- Извлеките данные о погоде для городов, представленных в базе данных. Присоедините их к данным о заказах по дате и городу.


#### Анализ продаж:

- Определите влияние маркетинговых акций на продажи. Какие товары лучше продавались во время акций?  
- Выявите, как погодные условия влияли на количество заказов в разных городах. Например, увеличивались ли продажи в дождливые дни?


#### Сегментация клиентов:

- Проведите сегментацию клиентов по частоте покупок и сумме потраченных средств. Определите, какие сегменты наиболее ценны для бизнеса.  
- Проанализируйте влияние акций на поведение клиентов из разных сегментов.


#### Анализ трафика:

Проанализируйте, какие источники трафика приводят наиболее платежеспособных клиентов. Влияют ли маркетинговые акции на привлечение клиентов через определенные каналы?


#### Поведение клиентов:

- Найдите среднее количество дней между заказами для активных клиентов. Как меняется этот показатель в зависимости от участия в акциях?
- Проведите анализ по возрастным группам: какие товары и категории чаще покупают разные возрастные категории? Как на это влияют акции?


#### Визуализация данных:

Постройте графики, которые визуализируют директору ключевые метрики: динамику продаж по месяцам, влияние погоды и акций на продажи, распределение возрастов клиентов и т.д. Покажите все, что по вашему мнению, важно подсветить директору для принятия управленческих решений.


#### Продуктовые метрики:

Рассчитайте основные продуктовые метрики: DAU, CAC (стоимость привлечения клиента), LTV (пожизненная ценность клиента).


#### A/B тестирование:

Компания тестирует две разные версии главной страницы своего сайта — версию A (стандартная страница) и версию B (страница с обновленным дизайном, где более активно представлены рекламные акции).  
Для каждой версии страницы собираются данные о визитах пользователей и их конверсии в заказы. Ваша задача — провести A/B тест и определить, есть ли статистически значимая разница в конверсии между этими двумя версиями.


#### Рекомендации:

На основе анализа данных, предложите три ключевые рекомендации по улучшению показателей магазина, учитывая влияние акций и внешних факторов (например, погоды).


### Дополнительно:  

Все расчеты должны сопровождаться пояснениями.  
Используйте SQL для извлечения данных, Python для обработки, обогащения и визуализации, статистические методы для проведения A/B тестов.

In [1]:
# Пример подключение к базе данных

import sqlite3
import pandas as pd

# Подключение к базе данных
conn = sqlite3.connect('ecommerce_data.db')

# Создание курсора для выполнения SQL-запросов
cursor = conn.cursor()

# Пример SQL-запроса для получения всех заказов
# query = '''
# SELECT * FROM orders
# LIMIT 10;
# '''

# Выполнение запроса и получение данных в DataFrame
# orders_df = pd.read_sql_query(query, conn)

# # Показать первые строки результата
# print(orders_df.head())

# # Выполнение более сложного запроса (например, соединение двух таблиц)
# query = '''
# SELECT o.order_id, o.order_date, c.city, c.gender, o.order_amount
# FROM orders o
# JOIN customers c ON o.customer_id = c.customer_id
# WHERE c.city = 'Moscow'
# AND o.order_amount > 1000
# ORDER BY o.order_date DESC
# LIMIT 10;
# '''

# # Получение результата
# result_df = pd.read_sql_query(query, conn)

# # Показать результат запроса
# print(result_df)

# Закрытие подключения к базе данных
# conn.close()

In [None]:
df_pm = pd.read_csv('Promotions.csv')
df_wt = pd.read_csv('Weather.csv')
df_pm.head(5)
#df_wt.head(5)

In [None]:
# Проверка на пропущенные значения
print(f"Пропущенных значений Promotions: {df_pm.isna().sum().sum()}")
# Проверка на дубликаты
print(f"Дубликатов Promotions: {df_pm.duplicated().sum()}")

print(f"Пропущенных значений Weather: {df_wt.isna().sum().sum()}")
# Проверка на дубликаты
print(f"Дубликатов Weather: {df_wt.duplicated().sum()}")
# Заполняем строки с отсутвием осадков
df_wt['precipitation'].fillna('No', inplace=True)

Исследование данных:

Проведите первичный анализ всех доступных данных (SQL, CSV).  

Проверьте наличие пропусков и дубликатов. Опишите структуру данных, выделите ключевые переменные.

In [None]:
# Получаем информацию о имеющихся таблицах
query = '''
SELECT name FROM sqlite_master WHERE type='table';
'''
tables_df = pd.read_sql_query(query, conn)
for i, row in tables_df.iterrows():
    query = f'''
    SELECT * FROM {row['name']}
    LIMIT 2;
    '''
    result_df = pd.read_sql_query(query, conn)
    print(f"Название таблицы: {row['name']}")
    print(result_df)

In [None]:
# Проверяем пропуски
query_list = ['SELECT COUNT(*) FROM orders WHERE customer_id IS NULL;',\
'SELECT COUNT(*) FROM customers WHERE age IS NULL OR city IS NULL;',\
'SELECT COUNT(*) FROM products WHERE product_name IS NULL OR category IS NULL;',\
'SELECT COUNT(*) FROM order_items WHERE order_id IS NULL OR product_id IS NULL;',\
'SELECT COUNT(*) FROM visits WHERE customer_id IS NULL OR visit_date IS NULL;']

for i in query_list:
    query = i
    result_df = pd.read_sql_query(query, conn)
    print(result_df)

In [None]:
# Проверяем дубликаты 
query_list = ['SELECT customer_id, COUNT(*) FROM customers GROUP BY customer_id HAVING COUNT(*) > 1;',\
'SELECT order_id, product_id, SUM(quantity) FROM order_items GROUP BY order_id, product_id HAVING SUM(quantity) > 0;']

for i in query_list:
    query = i
    result_df = pd.read_sql_query(query, conn)
    print(result_df)

Обогащение данных:

Загрузите данные о маркетинговых акциях из CSV файла и присоедините их к основным данным.  

Извлеките данные о погоде для городов, представленных в базе данных. Присоедините их к данным о заказах по дате и городу.

In [7]:
# Обеденяем таблици orders и order_items
orders = pd.read_sql_query("SELECT * FROM Orders", conn)
order_items = pd.read_sql_query("SELECT * FROM order_items", conn)
merged_orders_order_items = orders.merge(order_items, on='order_id', how='left')

In [None]:
# Присоединение данных о маркетинговых акциях
merged_orders_promotions = merged_orders_order_items.merge(df_pm, on='product_id', how='left')
merged_orders_promotions

In [None]:
# Присоединение данных о погоде
customers = pd.read_sql_query("SELECT * FROM customers", conn)
merged_customers_weather = customers.merge(df_wt, on='city', how='left')
merged_orders_weather_promo = merged_orders_promotions.merge(merged_customers_weather, on='customer_id', how='left')
#merged_customers_weather
#merged_visits
#merged_orders_weather_promo['precipitation'].fillna('No', inplace=True)
merged_orders_weather_promo

Анализ продаж:

Определите влияние маркетинговых акций на продажи. Какие товары лучше продавались во время акций?  

Выявите, как погодные условия влияли на количество заказов в разных городах. Например, увеличивались ли продажи в дождливые дни?

In [None]:
# Влияние маркетинговых акций на продажи
grouped_sales = merged_orders_weather_promo.groupby(['promotion_id']).agg({'order_amount': 'sum'})
top_sold_products = grouped_sales.sort_values(by=['order_amount'], ascending=False)
print(top_sold_products.head())

In [None]:
# Влияние погодных условий на продажи
#grouped_orders = merged_orders_weather_promo.groupby(['date', 'city', 'temperature']).agg({'order_amount': 'sum'})
#grouped_orders.head(20)

grouped_orders = merged_orders_weather_promo.groupby(['city','precipitation']).agg({'order_id': 'count'})
grouped_orders.head(20)