## **1 кейс**

**ETL продажи**

**Важно**

Перед началом решения выполните следующую ячейку, чтобы загрузить необходимый для работы файл.

In [89]:
!wget https://gist.github.com/Vs8th/c1550e322588b735752bf2a7ccd1cdd0/raw/sales_data.csv

--2025-04-03 09:00:46--  https://gist.github.com/Vs8th/c1550e322588b735752bf2a7ccd1cdd0/raw/sales_data.csv
Resolving gist.github.com (gist.github.com)... 140.82.114.4
Connecting to gist.github.com (gist.github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://gist.githubusercontent.com/Vs8th/c1550e322588b735752bf2a7ccd1cdd0/raw/sales_data.csv [following]
--2025-04-03 09:00:46--  https://gist.githubusercontent.com/Vs8th/c1550e322588b735752bf2a7ccd1cdd0/raw/sales_data.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 31844 (31K) [text/plain]
Saving to: ‘sales_data.csv’


2025-04-03 09:00:47 (3.03 MB/s) - ‘sales_data.csv’ saved [31844/31844]



Чтобы посмотреть как он выглядит выполните следующую ячейку.

In [12]:
import pandas as pd

df = pd.read_csv('sales_data.csv')
df

Unnamed: 0,id,date,amount,product
0,1,2023-04-25,35.21,Product 6
1,2,2022-08-31,359.19,Product 9
2,3,2023-01-22,117.53,Product 5
3,4,2022-12-15,366.68,Product 4
4,5,2023-03-06,628.65,Product 2
...,...,...,...,...
995,996,2022-07-10,653.66,Product 3
996,997,2023-01-13,691.89,Product 3
997,998,2023-01-31,207.24,Product 1
998,999,2023-01-16,653.59,Product 2


### **Решения**

#### **Задача 1**

Ваша задача написать класс `Extraction`, и определить в нем метод `from_csv`, который принимал бы путь к файлу и вытаскивал данные в виде списка объектов.

Для этого, здесь же, определите класс `Sale`.

**Решение**

Напишите свое решение ниже

In [38]:
import csv
from datetime import datetime

In [105]:
class Sale:
  """
  Класс для возврата данных из массива продаж (id, дата, сумма продаж, товар)
  """
  def __init__(self, row) -> None:
     self._sales = row # Храним всю строку данных

  def get_id(self):
    return self._sales[0]

  def get_date(self):
    return self._sales[1]

  def get_amount(self):
    return float(self._sales[2])

  def get_product(self):
    return self._sales[3]

class Extraction:
  """
  Класс для импорта данных о продажах в CSV
  """
  def __init__(self, sales_data, header=None) -> None:
    self._sales_data = sales_data  # Список объектов Sale
    self._header = header

  @classmethod
  def from_csv(cls, path):
    with open(path, newline='') as file:
      reader = csv.reader(file, delimiter=',')
      header = next(reader)
      sales_objects = [Sale(row) for row in reader]
      return cls(sales_objects)
        # Возвращаем экземпляр Extraction

  def __getitem__(self, index):
    return self._sales_data[index]

  @property
  def header(self):
    """Возвращает заголовки столбцов"""
    return self._header

  # Для обратной совместимости (если где-то использовался как список)
  def __iter__(self):
    return iter(self._sales_data)

  def __len__(self):
    return len(self._sales_data)


✏️ ✏️ ✏️

**Проверка**

Чтобы проверить свое решение, запустите код в следующих ячейках

In [106]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
a = Extraction.from_csv('sales_data.csv')
res = []
for i in a[5:105:25]:
  id = i.get_id()
  date = i.get_date()
  amount = i.get_amount()
  product = i.get_product()
  res.append((id, date, amount, product))

try:
    assert res == [('6', '2022-08-04', 843.69, 'Product 3'),
                   ('31', '2022-11-06', 131.6, 'Product 8'),
                   ('56', '2023-06-24', 747.08, 'Product 8'),
                   ('81', '2023-05-09', 658.02, 'Product 10')]
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

Поздравляем, Вы справились!


#### **Задача 2**

Напишите класс `Transformation`, который содержит два метода: `filter_by_date(sales_data, start_date, end_date)` и `filter_by_amount(sales_data, min_amount, max_amount)`.

**Решение**

Напишите свое решение ниже

In [107]:
class Transformation:
  """
  Класс для фильтрации данных
  по установленным параметрам
  """
  @staticmethod # статистический метод применен для упрощения кода
  def filter_by_date(sales_data, start_date, end_date):
    start = datetime.strptime(start_date, '%Y-%m-%d')
    end = datetime.strptime(end_date, '%Y-%m-%d')

    filtered = []
    for sale in sales_data:
      sale_date = datetime.strptime(sale.get_date(), '%Y-%m-%d')
      if start <= sale_date <= end:
        filtered.append(sale)
    return filtered

  @staticmethod
  def filter_by_amount(sales_data, min_amount, max_amount):

    filtered = []
    for sale in sales_data:
      amount = sale.get_amount()
      if min_amount <= amount <= max_amount:
        filtered.append(sale)
    return filtered


✏️ ✏️ ✏️

**Проверка**

Чтобы проверить свое решение, запустите код в следующих ячейках

In [108]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
sales_data = Extraction.from_csv('sales_data.csv')
filtered_sales1 = Transformation.filter_by_date(sales_data, '2023-01-01', '2023-06-30')
res2 = []
for i in filtered_sales1[5:105:36]:
  id = i.get_id()
  date = i.get_date()
  amount = i.get_amount()
  product = i.get_product()
  res2.append((id, date, amount, product))

try:
    assert res2 == [('10', '2023-02-04', 530.21, 'Product 1'),
                    ('97', '2023-03-16', 518.75, 'Product 8'),
                    ('163', '2023-06-12', 706.27, 'Product 9')]
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

Поздравляем, Вы справились!


In [109]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
sales_data = Extraction.from_csv('sales_data.csv')
filtered_sales2 = Transformation.filter_by_amount(filtered_sales1, 100, 1000)
res3 = []
for i in filtered_sales2[5:105:36]:
  id = i.get_id()
  date = i.get_date()
  amount = i.get_amount()
  product = i.get_product()
  res3.append((id, date, amount, product))

try:
    assert res3 == [('11', '2023-01-04', 974.04, 'Product 10'),
                    ('104', '2023-06-19', 680.99, 'Product 9'),
                    ('178', '2023-01-28', 417.43, 'Product 7')]
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

Поздравляем, Вы справились!


#### **Задача 3**

Напишите класс `Analysis`, содержащий два метода: `calculate_total_sales` и `calculate_average_sales`. Возвращаемые значения округлите до двух знаков после запятой.

**Решение**

Напишите свое решение ниже

In [110]:
# вычисляет общую сумму и среднее значение продаж
class Analysis:
  """
  Класс для вычисления общей суммы продаж
  и среднего значения продаж
  """
  @staticmethod
  def calculate_total_sales(sales_data):
    total_sales = 0
    for sale in sales_data:
      total_sales += sale.get_amount()
    return total_sales

  @staticmethod
  def calculate_average_sales(sales_data):
    total_sales = 0
    len_data = 0
    for sale in sales_data:
      total_sales += sale.get_amount()
      len_data += 1
    return total_sales / len_data


✏️ ✏️ ✏️

**Проверка**

Чтобы проверить свое решение, запустите код в следующих ячейках

In [111]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
res4 = round(Analysis.calculate_total_sales(sales_data), 2)

try:
    assert res4 == 522581.97
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

Поздравляем, Вы справились!


In [112]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
res5 = round(Analysis.calculate_average_sales(sales_data), 2)

try:
    assert res5 == 522.58
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

Поздравляем, Вы справились!


#### **Задача 4**

Напишите класс `Loading` с методом `to_csv(sales_data, file_path)`, который запишет данные в `csv` файл.

**Решение**

Напишите свое решение ниже

In [113]:
class Loading:
  """
  Класс для экспорта данных о продажах в CSV
  """

  @staticmethod
  def to_csv(sales_data, file_path):
    load_data = [
            (sale.get_id(), sale.get_date(),
             sale.get_amount(), sale.get_product())
            for sale in sales_data
        ]
    with open(file_path, 'w', newline='') as file:
      writer = csv.writer(file, delimiter=',')
      # Используем сохраненные заголовки или стандартные, если их нет
      header = getattr(
          sales_data,
          'header',
           ['id', 'date', 'amount', 'product']
          )
      writer.writerow(header)
      for row in load_data:
        writer.writerow(row)


✏️ ✏️ ✏️

**Проверка**

Чтобы проверить свое решение, запустите код в следующих ячейках

In [114]:
Loading.to_csv(filtered_sales2, 'filtered_sales.csv')

In [100]:
# Здесь будет скачиваться файл с эталонным ответом

!wget https://gist.github.com/Vs8th/533f827cc337efe288a5064604fe4e56/raw/filtered_sales_cor.csv

import pandas as pd

user_answer = pd.read_csv('filtered_sales.csv')
correct_answer = pd.read_csv('filtered_sales_cor.csv')

--2025-04-03 09:01:23--  https://gist.github.com/Vs8th/533f827cc337efe288a5064604fe4e56/raw/filtered_sales_cor.csv
Resolving gist.github.com (gist.github.com)... 140.82.113.4
Connecting to gist.github.com (gist.github.com)|140.82.113.4|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://gist.githubusercontent.com/Vs8th/533f827cc337efe288a5064604fe4e56/raw/filtered_sales_cor.csv [following]
--2025-04-03 09:01:23--  https://gist.githubusercontent.com/Vs8th/533f827cc337efe288a5064604fe4e56/raw/filtered_sales_cor.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 14847 (14K) [text/plain]
Saving to: ‘filtered_sales_cor.csv’


2025-04-03 09:01:23 (12.4 MB/s) - ‘filtered_sales_cor.csv’ saved [14847/14847]



In [115]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
try:
  assert (user_answer == correct_answer).all().all(), 'Ответы не совпадают'
  assert user_answer.columns.equals(correct_answer.columns), 'Названия столбцов не совпадают'
except Exception as err:
  raise AssertionError(f'При проверке возникла ошибка {repr(err)}')
else:
  print('Поздравляем, Вы справились и успешно прошли все проверки!')

Поздравляем, Вы справились и успешно прошли все проверки!
