**Table of contents**<a id='toc0_'></a>    
- [Чистка данных](#toc1_)    
  - [Чистка таблицы employees](#toc1_1_)    
  - [Чистка таблицы salary](#toc1_2_)    
    - [удаление дубликатов](#toc1_2_1_)    
    - [удаление NaN и ненужных столбцов](#toc1_2_2_)    
    - [изменение типов данных](#toc1_2_3_)    
  - [Чистка таблицы emails](#toc1_3_)    
- [Создание таблиц и заливка исходных данных](#toc2_)    
  - [Функции для работы](#toc2_1_)    
  - [Создание и заполнение таблицы employee](#toc2_2_)    
  - [Создание и заполнение таблицы salary](#toc2_3_)    
  - [Создание и заполнение таблицы email](#toc2_4_)    
- [Отчет](#toc3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

Написать программу на языке Python, которая формирует отчет о средней ЗП по сотрудникам за 2020 год. БД состоит из следующих таблиц:
 
Table_1: 
Employees(
ID int, -- ID сотрудника
NAME1 str, -- Фамилия сотрудника
NAME2 str, -- Имя сотрудника
NAME3 str -- Отчество сотрудника
)

Table_2: 
Salary(
ID int, -- ID сотрудника
dt date, -- Дата выплаты
Salary_Type str, -- Тип суммы (salary, bonus)
Amount double -- выплаченная сумма
)
 
Table_3: 
Emails(
ID int, -- ID Email
Empl_ID int, -- ID сотрудника
Email str -- Email адрес
)
 
Условия: 
1.	Отчет должен содержать колонки Empl_ID, FIO, Salary, Bonus, Email и соответствовать данным, представленным в разделе "Ожидаемый результат отчета"
2.	Средние значения для Salary и Bonus вычисляются раздельно
3.	Если у сотрудника есть несколько email, в отчете должны быть представлены строки отдельно для каждого email
4.	Отчет НЕ должен содержать дубликатов строк
 
Дополнительно: 
1.	Вывод производится через функцию print
2.	Для формирования отчета необходимо максимально использовать преимущества основных типов коллекций Python (list, dict, tuple, set), без использования pandas 
 
Пример строки ожидаемого формата результата отчета: 
1, Шершуков Виктор Кузьмич, 51750.0, 9583.333333333334, shershuko@mail.ru

In [5]:
import sqlite3 
from sqlite3 import Error 
import pandas as pd

Несмотря на то, что в задании есть указание обходиться без Pandas, но по-моему, с Pandas гораздо удобнее видеть и удалять ненужные столбцы и строки, проверять на дубликаты, менять типы данных. После такой обработки можно заливать чистые данные в базу

# <a id='toc1_'></a>[Чистка данных](#toc0_)

## <a id='toc1_1_'></a>[Чистка таблицы employees](#toc0_)

In [129]:
df_1 = pd.read_csv('data/employess_dict.txt')
df_1

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,employees = [
(1,'Шершуков','Виктор','Кузьмич',),
(2,'Битова','Анастасия','Юрьевна',),
(3,'Кириллов','Валентин','Владиславович',),
(4,'Игнатьев','Игорь','Дмитриевич',),
],,,,,


In [125]:
print(df_1.iloc[1])

employees = [   NaN
Name: (    (2,  'Битова',  'Анастасия',  'Юрьевна', )), dtype: float64


К сожалению, не успеваю справиться с парсингом этих данных

## <a id='toc1_2_'></a>[Чистка таблицы salary](#toc0_)

In [27]:
df_2 = pd.read_csv('data/salary.csv', delimiter=';')
df_2

Unnamed: 0,ID,DATE,TYPE,VALUE,Unnamed: 4
0,1.0,2019-12-01,salary,50000.0,
1,,,,,
2,1.0,2020-01-01,salary,50000.0,
3,1.0,2020-02-01,salary,50000.0,
4,1.0,2020-03-01,salary,50000.0,
...,...,...,...,...,...
98,4.0,2020-09-01,bonus,7000.0,
99,4.0,2020-10-01,bonus,7000.0,
100,4.0,2020-11-01,bonus,7000.0,
101,4.0,2020-12-01,bonus,7000.0,


### <a id='toc1_2_1_'></a>[удаление дубликатов](#toc0_)

In [7]:
df_2.duplicated().sum()

4

In [28]:
df_2 = df_2.drop_duplicates()
df_2

Unnamed: 0,ID,DATE,TYPE,VALUE,Unnamed: 4
0,1.0,2019-12-01,salary,50000.0,
1,,,,,
2,1.0,2020-01-01,salary,50000.0,
3,1.0,2020-02-01,salary,50000.0,
4,1.0,2020-03-01,salary,50000.0,
...,...,...,...,...,...
98,4.0,2020-09-01,bonus,7000.0,
99,4.0,2020-10-01,bonus,7000.0,
100,4.0,2020-11-01,bonus,7000.0,
101,4.0,2020-12-01,bonus,7000.0,


### <a id='toc1_2_2_'></a>[удаление NaN и ненужных столбцов](#toc0_)

In [105]:
df_2.isna().sum()

ID             1
DATE           1
TYPE           1
VALUE          1
Unnamed: 4    99
dtype: int64

In [29]:
df_2 = df_2.drop(1, axis='index').reset_index()
df_2 = df_2.drop(columns=['index', 'Unnamed: 4'], axis=1)
df_2

Unnamed: 0,ID,DATE,TYPE,VALUE
0,1.0,2019-12-01,salary,50000.0
1,1.0,2020-01-01,salary,50000.0
2,1.0,2020-02-01,salary,50000.0
3,1.0,2020-03-01,salary,50000.0
4,1.0,2020-04-01,salary,50000.0
...,...,...,...,...
93,4.0,2020-09-01,bonus,7000.0
94,4.0,2020-10-01,bonus,7000.0
95,4.0,2020-11-01,bonus,7000.0
96,4.0,2020-12-01,bonus,7000.0


In [144]:
df_2.isna().sum()

ID       0
DATE     0
TYPE     0
VALUE    0
dtype: int64

### <a id='toc1_2_3_'></a>[изменение типов данных](#toc0_)

In [145]:
df_2.dtypes

ID       float64
DATE      object
TYPE      object
VALUE    float64
dtype: object

In [30]:
df_2['DATE'] = pd.to_datetime(df_2['DATE'])
df_2['ID'] = df_2['ID'].astype(int)
df_2['VALUE'] = df_2['VALUE'].astype(int)
df_2.dtypes

ID                int32
DATE     datetime64[ns]
TYPE             object
VALUE             int32
dtype: object

In [31]:
df_2

Unnamed: 0,ID,DATE,TYPE,VALUE
0,1,2019-12-01,salary,50000
1,1,2020-01-01,salary,50000
2,1,2020-02-01,salary,50000
3,1,2020-03-01,salary,50000
4,1,2020-04-01,salary,50000
...,...,...,...,...
93,4,2020-09-01,bonus,7000
94,4,2020-10-01,bonus,7000
95,4,2020-11-01,bonus,7000
96,4,2020-12-01,bonus,7000


Данные по salary готовы, 98 строк, типы данных соответствуют назначению

## <a id='toc1_3_'></a>[Чистка таблицы emails](#toc0_)

In [18]:
df_3 = pd.read_parquet('data/emails.gzip', engine='pyarrow')
df_3

Unnamed: 0,ID,PERSON_ID,EMAIL
0,1,1,shershuko@mail.ru
1,2,1,shershuko-v@mail.ru
2,3,2,bitova@mail.ru
3,4,2,bitova@mail.ru
4,5,3,kirillov@mail.ru
5,6,3,kirillov@mail.ru


Если удалить столбец ID, появляются дубликаты данных. Видимо, они появились в результате каких-то объединений данных, но практического смысла не несут. Удалим столбец и затем дубликаты

In [19]:
df_3 = df_3.drop(columns=['ID'], axis=1)
df_3 = df_3.drop_duplicates()

In [147]:
df_3.dtypes

ID           object
PERSON_ID    object
EMAIL        object
dtype: object

In [20]:
df_3['PERSON_ID'] = df_3['PERSON_ID'].astype(int)
df_3.dtypes

PERSON_ID     int32
EMAIL        object
dtype: object

In [21]:
df_3

Unnamed: 0,PERSON_ID,EMAIL
0,1,shershuko@mail.ru
1,1,shershuko-v@mail.ru
2,2,bitova@mail.ru
4,3,kirillov@mail.ru


Таблица emails готова, 4 строки, типы данных соответствуют назначению

# <a id='toc2_'></a>[Создание таблиц и заливка исходных данных](#toc0_)

## <a id='toc2_1_'></a>[Функции для работы](#toc0_)

In [35]:
# подключение к базе

def create_connection(path):

    connection = None
    try:
        connection = sqlite3.connect(path)
        print("Connection successful to DB")
     
    except Error as e:
        print(f"The error '{e}' occurred")

    return connection

In [36]:
# создаем базу dar_bd

db = 'dar_bd.db'
connection = create_connection(db)

Connection successful to DB


In [37]:
# запрос к базе execute
def execute_query(connection, query):

    cursor = connection.cursor()
    try:
        cursor.execute(query)
        connection.commit()
        print("The execute query is successful")
    except Error as e:
        print(f"The error '{e}' occurred")

In [38]:
# запрос к базе executemany
def executemany_query(connection, query, values):

    cursor = connection.cursor()
    try:
        cursor.executemany(query, values)
        connection.commit()
        print("The execute_many query is successful")
    except Error as e:
        print(f"The error '{e}' occurred")

In [39]:
# ф-я выполнения скрипта и вывода результата

def sql_fetch(con, sql_script):
    cur = con.cursor()
    cur.execute(sql_script)
    rows = cur.fetchall()
    for row in rows:
        print(row)

## <a id='toc2_2_'></a>[Создание и заполнение таблицы employee](#toc0_)

Названия таблиц и столбцов будут даны по стандарту SQL (названия таблиц в ед.ч. с маленькой буквы, названия столбцов с маленькой буквы)

In [None]:
create_table = f"""
CREATE TABLE IF NOT EXISTS (employee) (
  empl_id INTEGER PRIMARY KEY AUTOINCREMENT,
  name1 STRING,
  name2 STRING,
  name3 STRING
);
"""

execute_query(connection, create_table)

In [None]:
df_1.to_sql('employee', connection, if_exists='replace', index=False)

In [None]:
sql_fetch(connection, "select * from employee limit 5;")

In [None]:
sql_fetch(connection, "pragma table_info(employee);")   

## <a id='toc2_3_'></a>[Создание и заполнение таблицы salary](#toc0_)

In [41]:
create_table = f"""
CREATE TABLE IF NOT EXISTS salary (
  id INTEGER PRIMARY KEY AUTOINCREMENT,
  dt DATETIME,
  salary_type STRING,
  amount DOUBLE
);
"""

execute_query(connection, create_table)

The execute query is successful


In [43]:
df_2.to_sql('salary', connection, if_exists='replace', index=False)

98

In [44]:
sql_fetch(connection, "select * from salary limit 5;")

(1, '2019-12-01 00:00:00', 'salary', 50000)
(1, '2020-01-01 00:00:00', 'salary', 50000)
(1, '2020-02-01 00:00:00', 'salary', 50000)
(1, '2020-03-01 00:00:00', 'salary', 50000)
(1, '2020-04-01 00:00:00', 'salary', 50000)


In [46]:
sql_fetch(connection, "pragma table_info(salary);")   

(0, 'ID', 'INTEGER', 0, None, 0)
(1, 'DATE', 'TIMESTAMP', 0, None, 0)
(2, 'TYPE', 'TEXT', 0, None, 0)
(3, 'VALUE', 'INTEGER', 0, None, 0)


## <a id='toc2_4_'></a>[Создание и заполнение таблицы email](#toc0_)

In [47]:
create_table = f"""
CREATE TABLE IF NOT EXISTS email (
  id INTEGER PRIMARY KEY AUTOINCREMENT,
  person_id INTEGER,
  email STRING
);
"""

execute_query(connection, create_table)

The execute query is successful


In [48]:
df_3.to_sql('email', connection, if_exists='replace', index=False)

4

In [49]:
sql_fetch(connection, "select * from email limit 5;")

(1, 'shershuko@mail.ru')
(1, 'shershuko-v@mail.ru')
(2, 'bitova@mail.ru')
(3, 'kirillov@mail.ru')


In [50]:
sql_fetch(connection, "pragma table_info(email);")   

(0, 'PERSON_ID', 'INTEGER', 0, None, 0)
(1, 'EMAIL', 'TEXT', 0, None, 0)


# <a id='toc3_'></a>[Отчет](#toc0_)

В отчете называем поля так, как указано в задании, с заглавными буквами

In [None]:
sql_fetch(connection, "select e.empl_id as Empl_ID, \
                CONCAT (e.name1, ' ', e.name2, ' ', e.name3) as FIO, \
                avg(VALUE) FILTER (WHERE type = 'salary') as Salary, \
                avg(VALUE) FILTER (WHERE type = 'bonus') as Bonus,  \
                em.email as Email\
                from employee e left join salary s on e.empl_ID =  s.id \
                left join email em on em.person_id = e.empl_id \
            ;")

In [None]:
connection.close()