# Описание задачи

1. Пусть имеется книжный Интернет-магазин с простой структурой:  
index.phtml - главная страница  
|--catalog.phtml - сценарий просмотра каталога  
|--search.phtml - сценарий поиска  
|--addbasket.phtml?id_book=NN - сценарий добавления в корзину книги с номером NN  
|--order.phtml - сценарий оформления заказа
2. Пусть имеется лог-файл web-сервера Apache с данными за месяц работы интернет-магазина access.log.
3. Необходимо выполнить следующие задачи:
    1. Распарсить данные файла _access.log_ используя python;
    2. Создать БД, используя СУБД _Postgresql_;
    3. Залить распарсенные данные в БД;
    4. Подключиться к БД через Python;
    5. Ответить на вопросы из списка ниже:
        - Сколько посетителей было на сайте за месяц?
        - Сколько в среднем посетителей бывает за час?
        - Сколько посетителей сделало заказы?
        - Сколько страниц просмотрел посетитель в среднем, максимум, минимум?
        - Сколько времени прошло с момента входа на сайт до оформления заказа, в среднем, максимум, минимум?
        - Сколько в среднем заказов оформляется за день?
        - Имеются ли какие-то взаимозависимые товары, которые покупатель кладет в корзину (например, с уровнем поддержки выше 0.01 и достоверностью выше 0.6)? (Задача поиск ассоциативных правил).


# Подготовка к работе

1. Создали новую директорию: <code>mkdir exercise_1</code>;
2. Создали виртуальное окружение для python: <code>python -m venv venv</code>;
3. Активируем виртульное окружение venv: <code>sourse venv/bin/activate</code>;
4. Создали файл _requirements.txt_: <code>touch requirements.txt</code>;
5. Добавили необходимые библиотеки в _requirements.txt_:
    - <code>vim requirements.txt</code>;
    - pandas == 1.5.0  
    numpy == 1.23.4  
    mlxtend == 0.21.0  
    openpyxl == 3.0.10  
    psycopg2-binary == 2.9.4  
    sqlalchemy == 1.4.42  
6. Устанавливаем все библиоки из _requirements.txt_: <code>pip install -r requirements.txt</code>;
7. Скачиваем и переносим файл access.log в нашу директорию _exercise_1_;
8. Переходим на github и создаем новый репозиторий, копируем SSH-ключ;
9. Инициализируем git в нашей директории:<code>git init</code>;
10. Создаем файл _.gitignore_: <code>touch .gitignore</code>;
10. Добавляем в файл _.gitignore_ файлы и папки, которые не будут передаваться в github:
    - <code>vim .gitignore</code>;
    - venv/
11. Добавляем файлы в коммит: <code>git add .</code>
12. Убеждаемся, что все прошло хорошо: <code>git status</code>
13. Коммитим указанные изменения и подготавливаем к отправке в удаленный репозиторий: <code>git commit -m "First commit"</code>
14. Указываем на новый удаленный репозиторий: <code>git remote -v</code>
15. Проверяем новый удаленный адрес: <code>git remote add origin ссылка на удаленный репозиторий</code>
16. Отправляем изменения локального репозитория в удаленный, помеченный как источник: <code>git push origin master</code>




# Парсинг файла access.log

Создаем новый файл для парсинга файла _access.log_: <code>touch parse_.ipynb<code>

In [1]:
import sys
sys.executable # убеждаемся, что используем верное вирутальное окружение

import warnings
warnings.filterwarnings('ignore') # отключаем warnings

In [2]:
# Исходя из структуры файла, очищаем файл access.log

full_data = []
with open("access.log", "r") as f:
    for line in f:
        line = line.replace(" - - ", " ")\
            .replace(" HTTP 1.1", "")\
            .replace("[", "")\
            .replace("]", "")\
            .replace('"', '')\
            .replace("ID", "")\
            .split()
        full_data.append(line)

In [3]:
import pandas as pd

# В pandas удобно работать с табличными данными, поэтому превращаем наши данные в DataFrame
data = pd.DataFrame(full_data, columns=['ip', 'date', 'utc', 'method', 'query', 'status', 'doc_size', 'id']) 

# Удаляем ненужные колонки - они неизменяются и не несут никакой полезной информации для нашей задачи
data = data.drop(['utc', 'status'], axis=1)

# Переводим признак date в формат datetime, так как изначально pandas воспринимал их как string
data['date'] = pd.to_datetime(data['date'], format='%d/%b/%Y:%H:%M:%S')

In [4]:
data.head(3)

Unnamed: 0,ip,date,method,query,doc_size,id
0,69.215.29.74,2015-12-01 00:00:12,POST,/search.phtml,3491,4923
1,69.215.29.74,2015-12-01 00:00:29,POST,/catalog.phtml,2143,4923
2,151.186.168.158,2015-12-01 00:00:44,POST,/catalog.phtml,2633,4736


In [5]:
data.to_csv('clear.csv', header=False) # записываем наши обработанные данные в csv файл

# Работа с БД

1. Для работы я буду использовать pgAdmin 4;
2. Открываем pgAdmin 4;
3. Разворачиваем localhost в левой части экрана;
4. Нажимаем правой кнопкой мыши по вкладке localhost/Databases и нажимаем кнопку Create/Database...;
5. В открывшемся окне задаю наименование "University" и нажимаю кнопку "Save";
6. Развворачиваем localhost/Databases/University/Schemas/Tables и нажимаем кнопку Create/Table...;
7. Во вкладке General в поле name задаем "shopnew";

<h2>Создание таблицы: первый способ</h2>

1. Переходим во вкладку Columns и добавляем следующие колонки:
      <table border="1">
      <caption>Заполнение вкладки Columns</caption>
      <tr>
        <th>Name</th>
        <th>Data type</th>
        <th>Length/Precision</th>
        <th>Not NULL?</th>
        <th>Primary Key</th>
        <th>Constraints/Type</th>
      </tr>
        <tr><td>id</td><td>integer</td><td>-</td><td>yes</td><td>yes</td><td>IDENTITY</td></tr>
        <tr><td>ip</td><td>character varying</td><td>-</td><td>yes</td><td>-</td><td>NONE</td></tr>
        <tr><td>date</td><td>timestamp without timezone</td><td>-</td><td>yes</td><td>-</td><td>NONE</td></tr>
        <tr><td>method</td><td>character varying</td><td>4</td><td>yes</td><td>-</td><td>NONE</td></tr>
        <tr><td>query</td><td>character varying</td><td>-</td><td>yes</td><td>-</td><td>NONE</td></tr>
        <tr><td>doc_size</td><td>integer</td><td>-</td><td>yes</td><td>-</td><td>NONE</td></tr>
        <tr><td>user_id</td><td>integer</td><td>-</td><td>yes</td><td>-</td><td>NONE</td></tr>
      </table>
      Нажимаем кнопку "Save";
    
2. Нажимаем правой кнопкой мыши по localhost/Databases/University/Schemas/Tables/shopnew и выбираем кнопку "Import/Export Data...";
3. В открывшемся окне в поле "Import/Export" перечключаемся на кладку "Import" и в поле Filename выбираем наш обработанный файл <i>clear.csv</i>.

<h2>Создание таблицы: второй способ</h2>

1. Нажимаем правой кнопкой мыши по localhost/Databases/University/Schemas/Tables/shopnew и выбираем кнопку "Query Tool";
2. В октрывшемся окне прописываем скприт из файла <i>create_table.txt</i> и запускаем его;
2. Нажимаем правой кнопкой мыши по localhost/Databases/University/Schemas/Tables/shopnew и выбираем кнопку "Import/Export Data...";
3. В открывшемся окне в поле "Import/Export" перечключаемся на кладку "Import" и в поле Filename выбираем наш обработанный файл <i>clear.csv</i>.

# Подключение к БД через Python. Запросы - анализ данных.

In [6]:
# В библиотеке Pandas имеется функция read_sql, котороая позволяет удобно поодлючиться к БД,
# проводить запросы и воводить данные в виде DataFrame

# Пример работы
data = pd.read_sql(
    """
    SELECT * FROM shopnew;
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data.head()

Unnamed: 0,id,ip,date,method,query,doc_size,user_id
0,0,69.215.29.74,2015-12-01 00:00:12,POST,/search.phtml,3491,4923
1,1,69.215.29.74,2015-12-01 00:00:29,POST,/catalog.phtml,2143,4923
2,2,151.186.168.158,2015-12-01 00:00:44,POST,/catalog.phtml,2633,4736
3,3,69.215.29.74,2015-12-01 00:00:51,POST,/catalog.phtml,2466,4923
4,4,156.197.248.14,2015-12-01 00:01:06,POST,/search.phtml,2243,4920


In [7]:
# Сколько посетителей было на сайте за месяц?
data = pd.read_sql(
    """
    SELECT DISTINCT
        EXTRACT(month from date) as month, COUNT(*)
    FROM shopnew
    GROUP BY EXTRACT(month from date);
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data.head()

Unnamed: 0,month,count
0,12.0,239434


In [8]:
# Сколько в среднем посетителей бывает за час?
data = pd.read_sql(
    """
    SELECT
        ROUND(AVG(number_of_users), 2) as mean
    FROM
    (SELECT
        EXTRACT(hour from date) as hour, count(*) as number_of_users
    FROM shopnew
    GROUP BY EXTRACT(hour from date)) as t;
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data

Unnamed: 0,mean
0,9976.42


In [9]:
# Сколько посетителей сделало заказы?
data = pd.read_sql(
    """
    SELECT
        COUNT(*)
    FROM shopnew
    WHERE query LIKE '/order.phtml%%';
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data

Unnamed: 0,count
0,1786


In [10]:
# Сколько страниц просмотрел посетитель в среднем, максимум, минимум?
data = pd.read_sql(
    """
    SELECT
        MIN(number_of_views),
        ROUND(AVG(number_of_views), 2) as mean,
        MAX(number_of_views)
    FROM
    (SELECT
        ip, COUNT(*) as number_of_views
    FROM shopnew
    WHERE query LIKE '/catalog.phtml%%'
    GROUP BY ip) as t;
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data

Unnamed: 0,min,mean,max
0,1,2.66,23


In [11]:
# Сколько времени прошло с момента входа на сайт до оформления заказа, в среднем, максимум, минимум?
data = pd.read_sql(
    """
    SELECT
        MIN(time),
        AVG(time),
        MAX(time)
    FROM
    (SELECT
        ip, MAX(date) - MIN(date) as time
    FROM shopnew
    WHERE ip in (SELECT ip FROM shopnew WHERE query LIKE '/order.phtml%%')
    GROUP BY ip) as t;
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data

Unnamed: 0,min,avg,max
0,0 days 00:00:17,0 days 00:26:29.026876,0 days 14:20:11


In [12]:
# Сколько в среднем заказов оформляется за день?
data = pd.read_sql(
    """
    SELECT
        ROUND(AVG(cnt), 2) as mean
    FROM
    (SELECT
        EXTRACT(day from date) as day, count(*) as cnt
    FROM shopnew
    WHERE query LIKE '/order.phtml%%'
    GROUP BY EXTRACT(day from date)) as t;
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data

Unnamed: 0,mean
0,57.61


# Априорный алгоритм

In [18]:
data = pd.read_sql(
    """
    SELECT * FROM shopnew WHERE query LIKE '/addbasket.phtml%%';
    """,
    con="postgresql://postgres:password@localhost:5432/University"
)

data.head()

Unnamed: 0,id,ip,date,method,query,doc_size,user_id
0,9,156.197.248.14,2015-12-01 00:01:54,GET,/addbasket.phtml?id_book=20,4273,4920
1,18,156.197.248.14,2015-12-01 00:02:44,GET,/addbasket.phtml?id_book=78,3002,4920
2,22,81.205.211.49,2015-12-01 00:03:13,GET,/addbasket.phtml?id_book=25,2877,4925
3,27,110.49.61.147,2015-12-01 00:03:36,GET,/addbasket.phtml?id_book=25,4284,4926
4,37,214.40.50.218,2015-12-01 00:06:03,GET,/addbasket.phtml?id_book=8,2752,4930


In [19]:
from mlxtend.frequent_patterns import apriori, association_rules
pd.set_option('display.max_columns', 500)


df = data.copy()


In [20]:
df = df.groupby(['user_id', 'query'])['query'].count().unstack().reset_index().fillna(0).set_index('user_id')

In [21]:
def hot_encode(x):
    if(x<= 0):
        return False
    if(x>= 1):
        return True
  
# Encoding the datasets
encoded = df.applymap(hot_encode)

In [22]:
frq_items = apriori(encoded, min_support = 0.01, use_colnames = True)
  
# Collecting the inferred rules in a dataframe
rules = association_rules(frq_items, metric ="confidence", min_threshold = 0.6)
rules = rules.sort_values(['confidence', 'support'], ascending =[False, False])
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
2,(/addbasket.phtml?id_book=60),(/addbasket.phtml?id_book=31),0.020986,0.086479,0.014648,0.697987,8.07118,0.012833,3.02477
4,(/addbasket.phtml?id_book=96),(/addbasket.phtml?id_book=90),0.020352,0.08669,0.014085,0.692042,7.982932,0.01232,2.965692
1,(/addbasket.phtml?id_book=59),(/addbasket.phtml?id_book=25),0.021338,0.086549,0.014577,0.683168,7.893401,0.012731,2.883079
3,(/addbasket.phtml?id_book=93),(/addbasket.phtml?id_book=8),0.019437,0.091338,0.013239,0.681159,7.457567,0.011464,2.849894
0,(/addbasket.phtml?id_book=78),(/addbasket.phtml?id_book=20),0.020986,0.084437,0.014225,0.677852,8.027943,0.012453,2.842061


Результаты показывают, что в наших данных действительно имеются взаимосвязные товары. Например, из первой строчки полученного резульата видим, что если клиент покупает книгу с индексом id_book = 60, то он купит и книгу id_book = 31 с уровнем поддержки 0.015 и достоверностью 0.7.

# Выводы

В данной работе, мы постарались провести полный путь обрабки анализа Web-логов. В работе вы можете встретить следующее:
- Работа с Jupyter Notebook;
- Работа с Терминалом;
- Создание виртуального окружения для Python и requirements.txt для установки библиотек;
- Работа с pgAdmin 4 и СУБД Postgres - создание и заполнение таблиц для БД;
- Написание SQL-запросов;
- Парсинг средствами Python;
- Работа с библиотекой Pandas;
- Работа с библиотекой mlxtend для выявления априорных отношений в данных;
- Работа с git;