## Даны выгрузки:
- warehouses
- products
- orders
- order_lines

В выгрузках рандомные данные, но стоит воспринимать их как фактические. 
Используя библиотеку pandas загрузи данные через Jupyter notebook. Всю обработку нужно делать внутри Jupyter notebook - исходные файлы оставь как есть.

## Задание 1
Выгрузи список user_id тех пользователей, кто купил за период 1-15 августа 2 любых корма для животных, кроме "Корм Kitekat для кошек, с кроликом в соусе, 85 г". 
Отправить файл .xls со списком клиентов и Jupyter notebook.


In [11]:
import pandas as pd
import chardet
import warnings
# Отключение всех предупреждений
warnings.filterwarnings('ignore')

# Определение кодировки файла products.csv
with open('data/products.csv', 'rb') as f:
    result = chardet.detect(f.read())
    encoding = result['encoding']
print(f"Определена кодировка файла products.csv: {encoding}")

# Чтение файла с найденной кодировкой
orders = pd.read_csv('data/orders.csv')
products = pd.read_csv('data/products.csv', encoding=encoding)
warehouses = pd.read_csv('data/warehouses.csv')
order_lines = pd.read_csv('data/order_lines.txt', delimiter='\t')

# Вывод типов данных загруженных таблиц
print("\nТипы данных в таблице orders:")
print(orders.dtypes)

print("\nТипы данных в таблице products:")
print(products.dtypes)

print("\nТипы данных в таблице warehouses:")
print(warehouses.dtypes)

print("\nТипы данных в таблице order_lines:")
print(order_lines.dtypes)


Определена кодировка файла products.csv: MacCyrillic

Типы данных в таблице orders:
order_date      object
order_id         int64
warehouse_id     int64
user_id          int64
dtype: object

Типы данных в таблице products:
product_id     int64
product       object
category      object
dtype: object

Типы данных в таблице warehouses:
city            object
warehouse_id     int64
address         object
dtype: object

Типы данных в таблице order_lines:
order_id       int64
product_id    object
price         object
quantity       int64
dtype: object


In [12]:
orders['order_date'] = pd.to_datetime(orders['order_date'])

order_lines['product_id'] = pd.to_numeric(order_lines['product_id'], errors='coerce')
order_lines['price'] = pd.to_numeric(order_lines['price'], errors='coerce')

order_lines

Unnamed: 0,order_id,product_id,price,quantity
0,47772,1929.0,110.25,1
1,47772,3785.0,16.50,1
2,47772,3967.0,39.00,1
3,47772,5837.0,36.75,1
4,56496,2591.0,171.75,1
...,...,...,...,...
975166,228485,1993.0,179.25,1
975167,228485,2334.0,71.25,1
975168,228485,2738.0,66.75,1
975169,228485,2928.0,96.75,1


In [13]:
# Грузим еще раз в новую переменную чтобы посмотреть откуда взялись отсутствующие значения
order_lines_helper = pd.read_csv('data/order_lines.txt', delimiter='\t')

# Идентификация и вывод строк с отсутствующими значениями product_id
rows_with_na_product_id = order_lines.index[order_lines['product_id'].isna()]
print("\nСтроки с отсутствующими значениями в product_id:")
print(order_lines_helper.iloc[rows_with_na_product_id])

# Идентификация и вывод строк с отсутствующими значениями price
rows_with_na_price = order_lines.index[order_lines['price'].isna()]
print("\nСтроки с отсутствующими значениями в price:")
print(order_lines_helper.iloc[rows_with_na_price])


Строки с отсутствующими значениями в product_id:
        order_id product_id  price  quantity
397378   1006273    error:)  112.5         1

Строки с отсутствующими значениями в price:
        order_id product_id price  quantity
611227   1059446       7048  16,5         1


In [14]:
order_lines.loc[rows_with_na_price, 'price'] = order_lines_helper.iloc[rows_with_na_price]['price'].str.replace(',', '.').astype(float)
print(order_lines.iloc[rows_with_na_price])

order_lines = order_lines.dropna(subset=['product_id'])
order_lines['product_id'] = order_lines['product_id'].astype(int)
order_lines


        order_id  product_id  price  quantity
611227   1059446      7048.0   16.5         1


Unnamed: 0,order_id,product_id,price,quantity
0,47772,1929,110.25,1
1,47772,3785,16.50,1
2,47772,3967,39.00,1
3,47772,5837,36.75,1
4,56496,2591,171.75,1
...,...,...,...,...
975166,228485,1993,179.25,1
975167,228485,2334,71.25,1
975168,228485,2738,66.75,1
975169,228485,2928,96.75,1


In [15]:
# Объединение таблиц orders, order_lines, products и warehouses
orders_merged = pd.merge(orders, order_lines, on='order_id', how='left')
orders_merged = pd.merge(orders_merged, products, on='product_id', how='left')
orders_merged = pd.merge(orders_merged, warehouses, on='warehouse_id', how='left')

# Вывод типов данных в объединенной таблице
print("\nТипы данных в объединенной таблице orders_merged:")
orders_merged #один из user_id отрицательный, неизвестно с чем это связно и нужно ли его удалять


Типы данных в объединенной таблице orders_merged:


Unnamed: 0,order_date,order_id,warehouse_id,user_id,product_id,price,quantity,product,category,city,address
0,2017-08-01,910381,38,11473,5570.0,44.25,1.0,"Пирожное Kinder Pingui кокос, бисквитное, 30 г",Детское питание,Санкт-Петербург,"Комсомольская, ул. 10"
1,2017-08-01,918510,276,52410,9845.0,54.00,1.0,"Сахар Русский белый, кусковой, 500 г",Бакалея,Москва,"Сосновая, ул. 21"
2,2017-08-01,918510,276,52410,19071.0,44.25,1.0,Сыр Бри Самокат 180 г,Сыры,Москва,"Сосновая, ул. 21"
3,2017-08-01,909015,208,10155,451.0,83.25,1.0,"Чайный напиток АйсКро Нечайный чай, апельсин, ...",Чай,Санкт-Петербург,"Подгорная, ул. 23"
4,2017-08-01,915064,2,60635,1054.0,69.75,1.0,"Молоко Домик в деревне отборное, пастеризованн...",Молочная продукция,Санкт-Петербург,"Молодежная, ул. 14"
...,...,...,...,...,...,...,...,...,...,...,...
1011648,2017-08-30,1172063,121,1475682,,,,,,Санкт-Петербург,"Озерная, ул. 25"
1011649,2017-08-30,1190480,46,1397795,,,,,,Москва,"Северная, ул. 22"
1011650,2017-08-30,1192942,94,1476069,,,,,,Санкт-Петербург,"Нагорная, ул. 20"
1011651,2017-08-30,1185630,2,1498906,,,,,,Санкт-Петербург,"Молодежная, ул. 14"


In [40]:
# Фильтрация данных по заданным условиям
filtered_orders = orders_merged[
    (orders_merged['order_date'].dt.month == 8) &
    (orders_merged['order_date'].dt.day >= 1) &
    (orders_merged['order_date'].dt.day <= 15) &
    (orders_merged['product'] != 'Корм Kitekat для кошек, с кроликом в соусе, 85 г') &
    (orders_merged['category'] == 'Продукция для животных')
    ]
filtered_orders

Unnamed: 0,order_date,order_id,warehouse_id,user_id,product_id,price,quantity,product,category,city,address
8,2017-08-01,915064,2,60635,2113.0,22.50,1.0,"Корм Nature’s Table для кошек, с курицей в соу...",Продукция для животных,Санкт-Петербург,"Молодежная, ул. 14"
12,2017-08-01,914110,38,17185,928.0,45.00,1.0,"Корм Cesar для собак, паучи из тушеной телятин...",Продукция для животных,Санкт-Петербург,"Комсомольская, ул. 10"
28,2017-08-01,904227,35,21089,2113.0,22.50,1.0,"Корм Nature’s Table для кошек, с курицей в соу...",Продукция для животных,Санкт-Петербург,"Луговая, ул. 15"
33,2017-08-01,914793,32,69964,1832.0,36.75,1.0,"Корм Whiskas для кошек, рагу с кроликом и инде...",Продукция для животных,Санкт-Петербург,"Полевая, ул. 27"
51,2017-08-01,903738,54,45093,2368.0,65.25,2.0,"Корм Cesar для собак, паучи ягненок с овощами,...",Продукция для животных,Санкт-Петербург,"Степная, ул. 27"
...,...,...,...,...,...,...,...,...,...,...,...
525783,2017-08-15,1032050,174,308564,3947.0,18.75,1.0,"Лакомство Dreamies для кошек, с лососем, 60 г",Продукция для животных,Санкт-Петербург,"Дорожная, ул. 19"
525788,2017-08-15,1033681,98,309418,4009.0,66.75,1.0,"Лакомство Dreamies для кошек, с курицей, 60 г",Продукция для животных,Санкт-Петербург,"Пушкина, пер. 7"
525800,2017-08-15,1040271,208,1194749,3947.0,18.75,1.0,"Лакомство Dreamies для кошек, с лососем, 60 г",Продукция для животных,Санкт-Петербург,"Подгорная, ул. 23"
525806,2017-08-15,1049350,24,304226,3638.0,45.75,1.0,"Корм Whiskas для кошек, с курицей в желе, 85 г",Продукция для животных,Москва,"Заречная, ул. 24"


In [35]:
# Группировка и фильтрация пользователей, которые купили 2 или более корма для животных
user_purchases = filtered_orders.groupby('user_id').filter(lambda x: x['product_id'].count() >= 2)#если хотя бы 2 /различных/ корма, то заменить count на nunique
user_purchases

Unnamed: 0,order_date,order_id,warehouse_id,user_id,product_id,price,quantity,product,category,city,address
8,2017-08-01,915064,2,60635,2113.0,22.50,1.0,"Корм Nature’s Table для кошек, с курицей в соу...",Продукция для животных,Санкт-Петербург,"Молодежная, ул. 14"
51,2017-08-01,903738,54,45093,2368.0,65.25,2.0,"Корм Cesar для собак, паучи ягненок с овощами,...",Продукция для животных,Санкт-Петербург,"Степная, ул. 27"
58,2017-08-01,896239,163,17138,941.0,34.50,1.0,"Корм Felix для кошек, аппетитные кусочки, с ку...",Продукция для животных,Санкт-Петербург,"Дружбы, ул. 14"
114,2017-08-01,908993,2,60635,4264.0,194.25,1.0,"Корм для котят Whiskas рагу с ягнёнком, 85 г",Продукция для животных,Санкт-Петербург,"Молодежная, ул. 14"
140,2017-08-01,914973,38,9820,928.0,45.00,1.0,"Корм Cesar для собак, паучи из тушеной телятин...",Продукция для животных,Санкт-Петербург,"Комсомольская, ул. 10"
...,...,...,...,...,...,...,...,...,...,...,...
525610,2017-08-15,1036006,43,303415,4009.0,66.75,1.0,"Лакомство Dreamies для кошек, с курицей, 60 г",Продукция для животных,Санкт-Петербург,"Гагарина, ул. 21"
525735,2017-08-15,1044015,30,1193774,1048.0,34.50,1.0,"Корм Felix для кошек, сухой, двойная вкуснятин...",Продукция для животных,Санкт-Петербург,"Ленина, ул. 30"
525754,2017-08-15,1051067,330,304406,2020.0,93.75,1.0,"Корм Whiskas для кошек, паштет курица с индейк...",Продукция для животных,Санкт-Петербург,"Мичурина, ул. 9"
525782,2017-08-15,1032050,174,308564,928.0,45.00,1.0,"Корм Cesar для собак, паучи из тушеной телятин...",Продукция для животных,Санкт-Петербург,"Дорожная, ул. 19"


In [36]:
user_ids = user_purchases[['user_id']].drop_duplicates()

# Выгрузка списка user_id в файл .xlsx
user_ids.to_excel('data/user_ids_august_1_15.xlsx', index=False)#xls давно устаревший формат вероятно в задании имелся ввиду xlsx
user_ids

Unnamed: 0,user_id
8,60635
51,45093
58,17138
140,9820
192,54719
...,...
524239,302694
524913,301568
525402,303254
525588,309382


# SQL

Для удобства создадим базу postgresql, и загрузим туда таблицы

In [ ]:
from sqlalchemy import create_engine

# Создание подключения к базе данных PostgreSQL
engine = create_engine('postgresql+psycopg2://postgres:admin@localhost:5432/testovoe_samokat')

# Загрузка данных в таблицы PostgreSQL
orders.to_sql('orders', engine, if_exists='replace', index=False)
products.to_sql('products', engine, if_exists='replace', index=False)
order_lines.to_sql('order_lines', engine, if_exists='replace', index=False)
warehouses.to_sql('warehouses', engine, if_exists='replace', index=False)


## Задание 2
Напиши SQL запрос 
Запрос должен вернуть топ 5 самых часто встречающихся товаров в первых заказах пользователей в СПб за период 15-30 августа.

In [21]:
%%sql
WITH first_orders AS (
    SELECT
        o.user_id,
        MIN(o.order_date) AS first_order_date,
        MIN(o.order_id) AS first_order_id,
        o.warehouse_id
    FROM
        orders o
    JOIN
        warehouses w ON o.warehouse_id = w.warehouse_id
    WHERE
        w.city = 'Санкт-Петербург'
      AND o.order_date BETWEEN '2017-08-15' AND '2017-08-30'
    GROUP BY
        o.user_id, o.warehouse_id
),
first_order_lines AS (
    SELECT
        ol.product_id,
        ol.order_id
    FROM
        order_lines ol
    JOIN
        first_orders fo ON ol.order_id = fo.first_order_id
)
SELECT
    p.product,
    COUNT(*) AS product_count
FROM
    first_order_lines fol
JOIN
    products p ON fol.product_id = p.product_id
GROUP BY
    p.product
ORDER BY
    product_count DESC
LIMIT 5;


Unnamed: 0,product,product_count
0,"Корм Kitekat для кошек, с кроликом в соусе, 85 г",1483
1,"Йогурт Чудо питьевой, с вишней и черешней, 2,4...",1047
2,"Крабовые палочки Бухта Изобилия имитация, замо...",1010
3,"Икра трески Санта Бремор Pate, деликатесная, 90 г",998
4,"Свекла вареная очищенная, 500 г",958


## Задание 3
Напиши SQL запрос 
Время первого заказа каждого клиента


In [50]:
%%sql
WITH first_orders AS (
    SELECT
        user_id,
        MIN(order_date) AS first_order_date
    FROM
        orders
    GROUP BY
        user_id
),
first_order_uniq AS (
    SELECT
        fo.user_id,
        fo.first_order_date,
        MIN(o.order_id) AS first_order_id
    FROM
        first_orders fo
    JOIN
        orders o ON fo.user_id = o.user_id AND fo.first_order_date = o.order_date
    GROUP BY
        fo.user_id, fo.first_order_date
)
SELECT
    fou.user_id,
    fou.first_order_date,
    w.city AS warehouse_city
FROM
    first_order_uniq fou
JOIN
    orders o ON fou.user_id = o.user_id AND fou.first_order_date = o.order_date AND fou.first_order_id = o.order_id
JOIN
    warehouses w ON o.warehouse_id = w.warehouse_id
ORDER BY
    fou.first_order_date;

Unnamed: 0,user_id,first_order_date,warehouse_city
0,11473,2017-08-01 00:00:00.000000,Санкт-Петербург
1,10155,2017-08-01 00:00:00.000000,Санкт-Петербург
2,60455,2017-08-01 00:00:00.000000,Москва
3,91612,2017-08-01 00:00:00.000000,Москва
4,56385,2017-08-01 00:00:00.000000,Санкт-Петербург
...,...,...,...
72587,303069,2017-08-30 00:00:00.000000,Москва
72588,321813,2017-08-30 00:00:00.000000,Москва
72589,321723,2017-08-30 00:00:00.000000,Санкт-Петербург
72590,321815,2017-08-30 00:00:00.000000,Москва
