<h1> Материалы курса "Анализ данных в инфромационной безопасности" </h1>

<h2> Практическое занятие № 2.1 </h2>

<h2> Тема: "Python+SQLite" </h2>

<h2>Автор:</h2>

<p>Синадский Алексей</p>
<p>Исследователь исследовательского центра UDV Group</p>
<p>aleksei.sinadskiy@udv.group</p>


Содержание:
- Чтение данных из Excel
- Создание БД
- Проектирование и создание таблиц
- Вставка данных
- Получение данных
- Анализ имеющихся данных
- Построение модели прогнозирования средствами SQL

# Импорт нужных модулей

In [None]:
import pandas as pd  # для обработки данных в Python
import sqlite3  # лёгкая БД - подробнее посмотреть можно тут: https://habr.com/ru/articles/754400/
import contextlib  # для удобного открытия и закрытия подключеия к БД

# Чтение и запись данных XLSX

## Чтение

Путь к файлу

In [None]:
xlsx_file_path = './Автосалон_амбарная_книга.xlsx'
sheet_name = 'Sheet1'

Прочитайте данные из файла с помощью Pandas

In [None]:
df = pd.

Посмотрите результат

In [None]:
df

## Запись

Запишите данные в файл XLSX с другим названием

In [None]:
df.

## Предобработка

Выделите марку машины и её идентификатор в отдельные поля. Столбцы назовите `car_model` и `car_vin`

In [None]:
df['car_model'] = ...
df['car_vin'] = ...

Посмотрите результат

In [None]:
df.head(5)

Выделите результат продажи в виде числа в формате float.

Напишите функцию, которая по значению столбца Result возвращает численное значение, а затем примените её в `map`

In [None]:
def user_readable_result_to_numbers(result_str):
    """
    Возваращает численное значение результата продажи по строковому из амбарной книги

    Parameters
    ----------
    result_str : str
        Строковое описание результата продажи из амбарной книги

    Returns
    -------
    numeric_result : float
        Численное значение результата продажи

    Raises
    ------
    ValueError
        Вызывается в случае, если встречено не интерпретируемое значение
    """
    numeric_result = 0
    ...
    return numeric_result

df['trade_result'] = df['Result'].map(user_readable_result_to_numbers)

In [None]:
df

Выделите сотрудников в отдельный датафрейм. В нём должны быть колонки `name`, `age`, `marital_status`

In [None]:
def user_readable_worker_to_details(worker_str):
    """
    Возвращает информационные поля по строковому описанию сотрудника из амбарной книги

    Parameters
    ----------
    worker_str : str
        Описание сотрудника из амбарной книги

    Returns
    -------
    tuple
        Набор свойств сотрдуника: имя, возраст, семейное положение
    """
    ...
    return name, age, marital_status

df_workers = pd.DataFrame(columns=['name', 'age', 'marital_status'])
df_workers[['name', 'age', 'marital_status']] = df['Worker']. ... (user_readable_worker_to_details).apply(pd.Series)
df_workers = ...  # удаление полных дубликатов

In [None]:
df_workers

# Проектирование и создание таблиц

Общий синтаксис:
```
connection = sqlite3.connect('my_database.db')
cursor = connection.cursor()
cursor.execute('SQL statement')
connection.commit()
connection.close()
```
Для автозакрытия можно использовать 
```with contextlib.closing(sqlite3.connect(path_to_file)) as conn```

Для автокоммита:
```with contextlib.closing(conn.cursor()) as cursor```

В итоге с автозакрытием подключения и автокоммитом:
```
with contextlib.closing(sqlite3.connect(path_to_file)) as conn:
    with contextlib.closing(conn.cursor()) as cursor:
        cursor.execute(SQL statement)
```

Не требуется в каждой записи хранить информацию о сотруднике - вынесем его в отдельную таблицу.

Также не будем хранить старые поля - сохраним только вновь выделенные.

Создадим две таблицы: "Сотрудники" и "Продажи".

В таблице "Сотрудники" создайте поля "Имя", "Возраст", "Семейное положение"

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute('''
            ...
            '''
        )

В таблице "Продажи" создайте поля "Модель машины", "Идентификатор машины", "Результат продажи", "Идентификатор продавца"

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute('''
            ...
            '''
        )


# Вставка данных

Добавьте данные о сотрудниках из `df_workers` в таблицу `Workers` БД

In [None]:
data = list(zip(df_workers['name'], df_workers['age'], df_workers['marital_status']))  # преобразуем столбцы DataFrame в кортежи

with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    cursor = connection.cursor()
    cursor.executemany(  # executemany - для набора данных
        '''
        '''
    )
    connection.commit()
data


Добавьте данные о продажах в таблицу `Sales` (для каждой продажи нужно добавить ссылку на сотрудника в таблице сотрудников)

In [None]:
workers_saved = ...  # список всех работников, по которому можно будет выбрать индекс

data = list(zip(df['car_model'], df['car_vin'], df['trade_result'],
                ...идентификатор работника...))

with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    cursor = connection.cursor()
    cursor.executemany(
        '''
        ...
        '''
    )
    connection.commit()
data

# Получение данных

Получите все данные из таблицы сотрудников

In [None]:
...

Получите все данные из таблицы продаж

In [None]:
...

# Анализ имеющихся данных

Посмотрите, попробуйте разные запросы (в т.ч. группировку по моделям, продавцам). Попробуйте какие-нибудь выводы.

Примеры:

Выведите среднее значение результата продаж

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute('''
                       ...
                       ''')
        data = cursor.fetchall()
data

Выведите среднее значение результата продаж для каждого работника в отдельности

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute(
            '''
            '''
        )
        data = cursor.fetchall()
data

Выведите среднее значение результата продаж для каждого работника в отдельности, и для каждого результата выведите данные о работнике из таблицы `Workers`

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute(
            '''
            '''
        )
        data = cursor.fetchall()
data

# Построение модели прогнозирования средствами SQL

Собственник предприятия хотел бы выбрать наиболее перспективного сотрудника. Показатель успешности - вероятное значение продаж на следующий период.

Спрогнозируйте следующее значение продажи каждого сотрдуника. Используйте оконное скользящее среднее (поэкспериментируйте с размером окна).

In [None]:
with contextlib.closing(sqlite3.connect('dealership.db')) as connection:
    with contextlib.closing(connection.cursor()) as cursor:
        cursor.execute(
            '''
            '''
        )
        data = cursor.fetchall()
data

# Выводы

Здесь напишите выводы по выполненной работе.