# Домашнее задание №3
## Знакомство с языком обработки данных SAS Base
### Набегающие суммы. Агрегирование данных. Сортировка. Циклы. Массивы.

_[Гончаренко Дмитрий Александрович, Жуков Павел Николаевич, Слабоузова Анна Константиновна]_

### 0. Подготовка файлов для выполнения ДЗ.
Вместе с данным файлом в архиве находятся данные для выполнения ДЗ: 
- 4 набора данных SAS: **orion.orders_midyear**, **orion.order_qtrsum**, **orion.order_fact**, **orion.test_answers**;

**_Перед выполнением каждого задания познакомьтесь со структурой соответствующего входного набора - это должно ускорить выполнение! _**

Скопируйте данные в директорию на вашем компьютере, которая связана с виртуальной машиной. Далее всю работу мы будем проводить в этой директории. 

C помощью оператора `libname` создайте библиотеку SAS с именем *_Orion_*, которая "смотрит"/"является ссылкой" на директорию, в которую вы скопировали данные для выполнения задания.


In [None]:
libname Orion "/folders/myfolders/SASHW/Task3"

### 1.  Использование массивов для повторяющихся вычислений 
В наборе данных **`orion.orders_midyear`** хранится информация о сумме покупок для каждого клиента, сгруппированная по месяцам первой половины года. Менеджер по продажам Orion Star хочет на основании этих данных оценить, сколько бы потратили клиенты с учётом **5% скидки** на все товары. Требуется создать таблицу с прогнозами трат для каждого клиента в разбивке по месяцам. 

##### a.   Создайте набор данных **`discount_sales`**, учитывающий 5% скидку. 
- Создайте массив `Mon` для доступа к переменным с `Month1` по `Month6`. 
- Используйте цикл `DO` для пересчёта старых значений сумм покупок в новые. (Служебная переменная, используемая в цикле, не должна оказаться в результирующем наборе.)
- Заодно, расчитайте ожидаемую сумму покупок за все 6 месяцев для каждого клиента.

##### b.   Напечатайте первые 5 наблюдений из полученного набора SAS. 
- Добавьте подходящий заголоков к результату (оператор `title "...";`);
- Сумму покупок за 6 месяцев выведите в формате `DOLLAR12.2`;  

In [None]:
data work.discount_sales;
    set orion.orders_midyear;
    title "Customers' purchases with 5% discount";
    array Mon {*} Month1 - Month6;
    format new_sum DOLLAR12.2;
    do i = 1 to DIM(Mon);
        if Mon{i} then do;
            Mon{i} = Mon{i} * 0.95;
        end;    
    end;
    new_sum = sum(of Month1 - Month6);
    drop i;
run;    

proc print data=work.discount_sales (obs=5);
run;   

### 2.  Агрегирование и группировка данных на шаге DATA 
Набор данных **`orion.order_qtrsum`** содержит информацию о продажах за определённый год для каждого клиента. Информация разбита по месяцам.
- В какие-то месяцы (и кварталы) клиент мог не разместить ни одного заказа.  
- Переменная `Order_Qtr` содержит соответствующий квартал.

##### a.   Создайте набор данных **`work.qtrcustomers`**, в котором подсчитывается сумма стоимости заказов каждого клиента за квартал.   
- Переменная `Total_Sales` должна содержать сумму стоимости заказов за каждый квартал для каждого значения `Customer_ID`.   
- Создайте переменную `Num_Months`, содержащую число месяцев, за которые клиент размещал хотя бы один заказ, для каждого квартала. 
- Распечатайте первые 5 наблюдений из полученного набора SAS.

In [None]:
proc sort data=orion.order_qtrsum out=work.proof_order_qtrsum; 
    by Customer_ID Order_Qtr Order_Month;
run;

data work.proof_order_qtrsum;
    set work.proof_order_qtrsum;
    
    retain Prev_Order_Month;
    retain Prev_Customer_ID;
    
    if Order_Month = Prev_Order_Month and Customer_ID = Prev_Customer_ID
    then Is_Duplicate = "YES";
    else Is_Duplicate = "NO";
    
    output;
    Prev_Order_Month = Order_Month;
    Prev_Customer_ID = Customer_ID;
run;

proc sql;
create table work.proof_count as
select count(distinct Is_Duplicate) as Unique_Values_In_Is_Duplicate
from work.proof_order_qtrsum;
run;

proc print data=work.proof_order_qtrsum(obs=3 drop=Sale_Amt Prev_Customer_ID Order_QTR);
    title "This table shows, that there are some NO values in Is_Duplicate";
run;

proc print data=work.proof_count;
    title "And this one proofs that there are ONLY NO values";
run;

In [None]:
proc sort data=orion.order_qtrsum out=work.sorted_order_qtrsum; 
    by Customer_ID;
run;       

data work.qtrcustomers;
    set work.sorted_order_qtrsum;
    title "Quarterly statistics";

    by Customer_ID;
    if first.Customer_ID then do;
        array _total_sales{*} Total_Sales1 - Total_Sales4 (4*0);
        array _num_months{*}  Num_Months1 - Num_Months4   (4*0);
    end;
     
    _total_sales{Order_Qtr} = _total_sales{Order_Qtr} + Sale_Amt;
    _num_months{Order_Qtr} = _num_months{Order_Qtr} + 1;

    if last.Customer_ID then do;
        output;
        do i = 1 to 4;
            _total_sales{i} = 0; 
            _num_months{i}  = 0;
        end;    
    end;
    
    keep Customer_ID
         Total_Sales1-Total_Sales4 
         Num_Months1-Num_Months4;
run;

proc print data=work.qtrcustomers (obs=5);
run;   

### 3.   Создание набегающих сумм по месяцам 
Набор данных **`orion.order_fact`** содержит группу заказов за несколько лет, отсортированных по `Order_Date`. 
Требуется создать набор данных, содержащий все заказы, сделанные в Orion Star за 2011 год, и набегающий итог для них: 
- Этот итог должен _сбрасываться в ноль_ в начале каждого месяца.  
- Обратите внимание, что нужно обработать только строки, в которых `Order_Date` относится к 2011 году. 
- Распечатайте первые 5 наблюдений из полученного набора SAS.

In [None]:
data work.cumsum_2011 (drop = months_passed);
    set orion.order_fact;
    title "Accumulative amount for 2011";

    format Month_Cumsum DOLLAR13.2;
    if year(Order_Date) ^= 2011 then DELETE;

    months_passed = intck('month', Lag(Order_Date), Order_Date);
    if months_passed > 0 then
        Month_Cumsum = 0;
    Month_Cumsum + Total_Retail_Price;
    output;    
run;

proc print data=work.cumsum_2011 (obs=5); 
run;

### 4. Использование текстового массива для табличного поиска
Отделу общественной безопасности нужно, чтобы все сотрудники ознакомились с новыми правилами и процедурами в отношении инцидентов с клиентами в розничных магазинах. 
- Каждый сотрудник должен пройти веб-тренинг, а затем сдать тест, состоящий из 10 вопросов.  
- Каждый вопрос имеет пять вариантов ответа (от A до E).  
- Результаты тестирования находятся в наборе данных SAS **`orion.test_answers`**.  
- Каждое наблюдение в **`orion.test_answers`** содержит ответы одного человека (переменные `Q1` - `Q10`). 
- Правильные ответы на вопросы теста приведены ниже:


    Вопрос: 1 2 3 4 5 6 7 8 9 10 
    Ответ:  A C C B E E D B B A 
    
##### a. Определите, кто из сотрудников прошёл или не прошёл этот тест.  
- Вычислите число баллов за тест как число правильных ответов для каждого человека. 
    _**Замечание:** Создайте временный массив для хранения правильных ответов к тесту._  
- Если число баллов, полученных сотрудником, 7 или выше, запишите это наблюдение в набор данных **`passed`**. 
- Если сотрудник набрал менее 7 баллов, запишите это наблюдение в набор данных **`failed`**.  

##### b. Напечатайте набор данных **`passed`**, чтобы проверить наличие в нём 12 наблюдений. 

In [None]:
data work.passed work.failed;
    set orion.test_answers;
    title "Passed result";
    array _true_answers {10}  $ _temporary_ ('A', 'C', 'C', 'B', 'E', 'E', 'D', 'B', 'B', 'A');
    array _answers {10} $ Q1-Q10;
    res = 0;
    do i = 1 to 10;
        if _true_answers{i} = _answers{i} then
            res = res + 1;
    end;
    if res >= 7 then output work.passed;
    else output work.failed;
    drop i res;
run;    

proc print data=passed;
run;