![](https://ludi.by/wp-content/uploads/2023/01/desktop_69d8542e39243e90f0bff7de2014dbbb91cdb65a.png)

# Анализ обработки данных «СберАвтоподписка»

## Требования к работе
Корректность создания объектов в БД:
1. Корректность создания объектов в БД:
- Корректная типизация данных.
- Настройка первичных и внешних ключей.

2. Корректность добавления новых данных в БД:
- Обработка и типизация новых данных.
- Имеется механизм разрешения конфликтов при записи.

3. Реализация Airflow-пайплайна:
- Наличие и корректность всех зависимостей между DAG’ами / task’ами
- Качество реализации (чистота кода, идемпотентность, использование переменных, наличие обращений в БД вне task’ов).

## Описание данных
Данные из Google Analytics (last-click attribution model) по сайту «СберАвтоподписка».

### GA_Sessions 

Одна строка = один визит на сайт.
Описание атрибутов:
 session_id — ID визита;
 client_id — ID посетителя;
 visit_date — дата визита;
 visit_time — время визита;
 visit_number — порядковый номер визита клиента;
 utm_source — канал привлечения;
 utm_medium — тип привлечения;
 utm_campaign — рекламная кампания;
 utm_keyword — ключевое слово;
 device_category — тип устройства;
 device_os — ОС устройства;
 device_brand — марка устройства;
 device_model — модель устройства;
 device_screen_resolution — разрешение экрана;
 device_brand — марка устройства;
 device_model — модель устройства;
 device_screen_resolution — разрешение экрана;
 device_browser — браузер;
 geo_country — страна;
 geo_city — город.

### GA_Hits

Одна строка = одно событие в рамках одного визита на сайт.
Описание атрибутов:
 session_id — ID визита;
 hit_date — дата события;
 hit_time — время события;
 hit_number — порядковый номер события в рамках сессии;
 hit_type — тип события;
 hit_referer — источник события;
 hit_page_path — страница события;
 event_category — тип действия;
 event_action — действие;
 event_label — тег действия;
 event_value — значение результата действия.

## Что нужно сделать
### Проведите подготовительную работу:
-  Прочитайте предоставленный датасет.
-  Ознакомьтесь с описаниями представленных атрибутов.
-  Оцените полноту и чистоту данных. Попытайтесь понять, что стоит за этими данными в реальном мире. Приведите данные в удобный/нормальный вид для дальнейшей работы.
    
### Проведите разведочный анализ данных:
-  Проведите базовую чистку (дубликаты, пустые значения, типизация данных, ненужные атрибуты).
-  Посмотрите на распределение ключевых атрибутов, их отношения.
    
###  Выполните задание согласно вашей специализации:
-  Настройте и запустите локальную БД, подходящую для хранения и исполнения запросов к данным в предоставленном датасете.
-  Создайте объекты в БД для хранения данных исходного файла.
-  Обработайте и поместите в БД данные из предоставленного основного датасета.
-  Настройте пайплайн сбора, обработки и записи в БД новых .json-файлов. 

## Подготовительные работы

### Распаковка архива
Архив необходимо скачать и распаковать его в домашний каталог пользователя. Домашний каталог пользователя в командной строке обозначается символом "~". В результате распаковки архива в Вашем домашнем каталоге должен появиться каталог "airflow_hw". 

### Настройка окружения
В корневом каталоге  "~/airflow_hw" создайте файл .env c содержимым:
- dbname=<название схемы>
- user=<имя пользователя для доступа к БД>
- password=<пароль пользователя для доступа к БД>
- host=<Имя хоста или IP адрес сервера с БД>

### Установка сервера PostGreSql
Установка сервера выполняется согласно документации по установке, с учетом операционной системы. Если имеется готовый, уже развернутый сервер, то можно выполнить просто его настройку:
1. Создать рабочую схему, например dbtest;
2. Выполнить создание таблиц, выполнив скрипт create_tables.sql
3. Далее выполняем загрузку в таблицы GA_Sessions и GA_Hits первоначальной базы из CSV-файлов. Заказчиком были предоставлены следующие файлы:
 - ga_sessions.csv;
 - ga_hits.csv.
 Файлы отсутствуют в проекте в связи с тем, что занимают много места. Структура их совпадает со структурой таблиц, поэтому загрузку необходимо проивести стандартными средствами, через "импорт таблицы". Для проверки проекта можно и не загружать эти файлы, а загружать данные из JSON-файлов в пустые таблицы.
4. Создаем индексы и ключи по таблицам. Целесообразнее это делать после загрузки первоначальных данных. Для создания индексов и ключей используем скрипт Make_Index.sql.

### Для операционной системы Windows необходимо установить Git Bash
Скачать модуль можно по адресу:  [Git Bash](https://gitforwindows.org/)
Послу скачивания необходимо запустить инсталлятор и отвечать положительно на все его запросы. По окончании процедуры для использования утилиты необходимо запустить интерпретатор команднйо строки:
![](https://content.codecademy.com/courses/freelance-1/unit-3/git%20bash%20setup/annotated_gitbash_start.png)


### Устанавливаем AitFlow.
Установку делаем на базе докера
#### Полезные ссылки
-  [Как установить Docker на Window](https://docs.google.com/document/d/1yLN5i_PHEhWHz3dfQ2Vy6hEMQQ4UHtuKPv_0IVfqtqw/edit#heading=h.1cug9uepbjq1)
-  [Как установить Docker на macOS](https://docs.docker.com/desktop/install/mac-install)
-  [Как установить Docker на Linux](https://docs.docker.com/desktop/install/linux-install)
#### Установка AirFlow  с помощью Docker Compose на Windows

Airflow — это инструмент для построения потоков данных и управления ими. Он используется для автоматизации выполнения рутинных задач. 

В этой инструкции мы рассмотрим, как установить Airflow на компьютер с операционной системой Windows. Перед установкой убедитесь, что у вас — подсистема Windows для Linux (WSL), содержащая Docker Compose. 

#### Почему используем Docker Compose

Docker Compose — это инструмент для описания и запуска многоконтейнерных приложений Docker. Его часто используют для установки таких приложений, как Apache Airflow, так как он позволяет просто управлять приложением: масштабировать его вместе с зависимостями, например, с базами данных и брокерами сообщений.

Использование Docker Compose для установки Apache Airflow в Windows имеет несколько преимуществ:

- Позволяет запускать Airflow в согласованной и воспроизводимой среде независимо от операционной системы хоста или системных зависимостей.
- Упрощает установку и обновление Airflow, а также любых других зависимостей, таких как база метаданных или брокер сообщений.
- Позволяет запускать Airflow и его зависимости в отдельных контейнерах, которые могут масштабироваться и управляться независимо.

В целом, использование Docker Compose для установки Apache Airflow в Windows может сэкономить ваше время и усилия, позволяя использовать простой метод управления приложением и его зависимостями.

##### Шаг 1
Создайте папку для Airflow в корне пользовательской папки (путь ~/):
cd ~
mkdir airflow-docker
cd airflow-docker

##### Шаг 2
Подготовьте окружение — создайте папки, в которых будут храниться даги, логи и плагины:
mkdir ./dags ./logs ./plugins

Важно учесть, что в Linux смонтированные тома в контейнере используют собственные разрешения файловой системы Linux, поэтому контейнер и хост должны иметь одинаковые права доступа к файлам:
echo -e "AIRFLOW_UID=$(id -u)\nAIRFLOW_GID=0" > .env

##### Шаг 3

Окружение подготовлено! Теперь поднимите airflow-init с помощью Docker Сompose — этот контейнер выполнит инициализацию базы данных, а также зарегистрирует первую учётную запись пользователя:

docker-compose up airflow-init

Когда база проинициализирована и пользователь создан, можно поднимать Docker Compose для Airflow:

docker-compose up

Отлично! Теперь можете зайти в веб-интерфейс Airflow по адресу localhost:8080, ввести стандартные логин и пароль (airflow/airflow) и убедиться, что всё работает.

#### Подсказки по установке работе

В этом блоке вы рассмотрите моменты, которые могут вызвать сложности при выполнении практической работы к модулю.

##### Подсказка 1. Обязательно скопируйте даг из папки со скриптами практической работы в папку для дагов, которую вы создали в шаге 2:

cp ~/airflow_hw/dags/hw_dag.py ~/airflow-docker/dags

##### Подсказка 2. Когда скрипт получения предсказаний готов и отлажен локально, вам нужно положить его и скрипт пайплайна в контейнер worker, чтобы они были видны для Airflow. Ещё их нужно положить в контейнер scheduler, иначе веб-интерфейс будет показывать ошибку при импорте дага.

Узнайте ID контейнеров worker и scheduler:

docker ps | grep worker
docker ps | grep scheduler

Скопируйте исполняемый код и данные в контейнеры, указав вместо worker_id и scheduler_id идентификационные номера ваших контейнеров:

docker cp ~/airflow_hw worker_id:/home/airflow/airflow_hw
docker cp ~/airflow_hw scheduler_id:/home/airflow/airflow_hw

Напоминаю, что ~/ — это обозначение для корня пользовательской папки. Если вы работали со скриптами прямо в WSL, то менять путь не нужно. Если вы работали с файлами в Windows, то вам нужно указать абсолютный путь к файлам в хранилище Windows. Диск C доступен по адресу /mnt/c/, проследуйте от него к директории с проектом. Например, если директория с проектом лежит в пользовательской папке Windows, то путь будет таким:

/mnt/c/Users/%username%/airflow_hw

После команды docker cp сначала укажите, откуда скопировать, а затем — куда скопировать (копируйте в /home/airflow/airflow_hw).

Далее зайдите в командную строку контейнеров и установите нужные для работы пайплайна/предикта пакеты (например, scikit-learn):

docker exec -it worker_id bash
pip install scikit-learn

docker exec -it scheduler_id bash
pip install scikit-learn


##### Подсказка 3. Иногда при запуске пайплайна может возникать ошибка при сохранении pkl-дампа модели. Такое бывает при копировании папки проекта с Windows. Чтобы исправить это поведение, нужно зайти в контейнеры worker и scheduler от имени root-пользователя и дать права командой chmod:

docker exec -it -u root worker_id bash
cd /home/airflow/airflow_hw
chmod -R 777 data dags modules

docker exec -it -u root scheduler_id bash
cd /home/airflow/airflow_hw
chmod -R 777 data dags modules

### Прием JSON-файлов
Для обработки файлов, т.е. для их загрузки в таблицы, необходимо файлы формата JSON положить по пути: 
 worker_id:/home/airflow/airflow_hw/data/jsons командами:
 docker cp <место раположения файлов на локальном компьютере> worker_id:/home/airflow/airflow_hw/data/jsons
docker cp <место раположения файлов на локальном компьютере>w scheduler_id:/home/airflow/airflow_hw/data/jsons,
где индексы worker_id: и scheduler_id: можно узнать выполнив команды:

docker ps | grep worker

docker ps | grep scheduler

Данные команды должны выполняться в командном интерпретаторе Git Bash, если у Вас операционная система на базе Windows.
После обработкой JSON-файлы переносятся в каталог 
  id:/home/airflow/airflow_hw/data/jsons/arch соответственно.
