# Содержание

* [config.py](#config.py)
* [db.py](#db.py)
* [okved.py](#okved.py)
* [Тестирование](#Тестирование)

# config.py

In [2]:
%%writefile config.py
import os
from sqlalchemy.engine.url import make_url

# Параметры базы данных

# Строка подключения в виде
# postgresql+psycopg2://username:password@host:port/database
# сохранена в качестве переменной среды
db_uri_env_name = "MIDDLE_PYTHON_EDU_DB_SQLALCHEMY_CONN"
DB_URI = os.getenv(db_uri_env_name)
if not DB_URI:
    raise ImportError(
        f"Необходимо добавить переменную среды '{db_uri_env_name}' "
        "со значением вида 'postgresql+psycopg2://username:password@host:port/database', "
        "где username, password, host, port, database - параметры подключения к БД."
        )
db_dict = make_url(DB_URI)
DB_CREDENTIALS = dict(
    host=db_dict.host,
    port=db_dict.port,
    dbname=db_dict.database,
    user=db_dict.username,
    password=db_dict.password,
    )
    
schema = 'hw1'
okved_table = 'okved'

# Параметры файловой системы
bulk_data_dir = 'bulk_data'
okved_filename = 'okved_2.json.zip'
egrul_filename = 'egrul.json.zip'

okved_filepath = os.path.join(bulk_data_dir, okved_filename)
egrul_filepath = os.path.join(bulk_data_dir, egrul_filename)

Overwriting config.py


# psql.py

In [2]:
%%writefile psql.py
import psycopg2
import psycopg2.extras
from sqlalchemy import create_engine

import pandas as pd
from numpy import NaN

import config

class HW1_db():
    """Класс для работы с базой данных 'hw1'"""
    
    # -------- Initialize ---------------------------------------
    def __init__(self):
        self.db_credentials = config.DB_CREDENTIALS
        self.db_uri = config.DB_URI
    
    def replace_nans(self, df):
        """Замена пустот на None, под формат баз данных PostgreSQL.
        В т.ч. заменяются пустые строки ''.
        
        Аргументы
        ----------
        df : pandas.DataFrame
            Датафрейм для заливки в БД.

        Возвращается
        ----------
        df : pandas.DataFrame
            Датафрейм для заливки в БД с "отформатированными" пустотами.
        """
        df = df.where(pd.notna(df), None)
        df = df.replace({'': None})
        df = df.replace({pd.NaT: None})
        df = df.replace({NaN: None})
        
        return df

    def connect(self):
        """Создание подключения к базе данных PostgreSQL."""
        conn = None
        try:
            if isinstance(self.db_credentials, str):
                conn = psycopg2.connect(self.db_credentials)
            else:
                conn = psycopg2.connect(**self.db_credentials)
        except(Exception, psycopg2.DatabaseError) as error:
            print(error)
            raise error
        return conn
            
    def insert_values(self, df, schema, table, on_conflict_clause=None):
        """Обертка для метода
        psycopg2.extras.execute_values с обработкой подключения.
        
        Аргументы
        ----------
        df : pandas.DataFrame
            Датафрейм для заливки в БД.
        schema: str
            Название схемы БД.
        table : str
            Название таблицы БД.
        on_conflict_clause: str
            Выражение для выполнения т.н. "UPSERT" - игнорирование или обработка данных при возникновении дубликатов.
            Например:
                "ON CONFLICT ON (name) DO NOTHING"
                или
                "ON CONFLICT (name) DO 
                UPDATE SET email = EXCLUDED.email"
        """
        if not on_conflict_clause:
            on_conflict_clause = ''
        
        conn = self.connect()
        cursor = conn.cursor()
        
        try:
            df = self.replace_nans(df)
            tuples = [tuple(x) for x in df.to_numpy()]
            cols = ','.join(list(df.columns))
            query  = f"INSERT INTO {schema}.{table}({cols}) VALUES %s {on_conflict_clause}"
            psycopg2.extras.execute_values(cursor, query, tuples)
            conn.commit()
        except(Exception, psycopg2.DatabaseError) as error:
            print(f"Error: {error}")
            conn.rollback()
            raise error
        finally:
            cursor.close()
            conn.close()

    def read_query(self, query):
        """Обертка для метода pd.read_sql_query
        с обработкой подключения
        
        Аргументы
        ----------
        query : str
            SELECT SQL-запрос.
        """
        engine = create_engine(self.db_uri)
        try:
            df = pd.read_sql_query(query, engine)
            return df
        finally:
            engine.dispose()

    def execute_query(self, query):
        """Метод для выполнения различных запросов, 
        не возвращающих таблицы
        
        Аргументы
        ----------
        query : str
            Любой SQL-запрос.
        """
        conn = self.connect()
        cursor = conn.cursor()
        try:
            cursor.execute(query)
            conn.commit()
        except(Exception, psycopg2.DatabaseError) as error:
            print(f"Error: {error}")
            conn.rollback()
            cursor.close()
            raise error
        finally:
            conn.close()
            
    def execute_sql(self, filepath, encoding='cp1251'):
        """Надстройка на методом self.execute_query
        для выполнения различных запросов из .sql файлов.
        
        Аргументы
        ----------
        filepath : str
            Путь к файлу .sql с запросом.
        encoding: str, default: 'cp1251'
            Кодировка .sql файла.
        """
        with open(filepath, 'r', encoding=encoding) as q:
            query = q.read()
        self.execute_query(query)
            
    def truncate_table(self, schema, table, restart_identity=True):
        """Метод для полной очистки таблицы.
        
        Аргументы
        ----------
        schema: str
            Название схемы БД.
        table : str
            Название таблицы БД.
        restart_identity: bool, default: True
            Удаление с перезапуском счетчика генерируемого идентификатора.
        """
        if restart_identity:
            restart_identity_statement = 'RESTART IDENTITY'
        else:
            restart_identity_statement = ''
        self.execute_query(f"""TRUNCATE TABLE {schema}.{table} {restart_identity_statement}""")

Overwriting psql.py


# okved.py

In [20]:
%%writefile okved.py
import pandas as pd

import config
import psql

db = psql.HW1_db()

db.execute_sql('sql/create_schema_hw1.sql')
db.execute_sql('sql/create_table_hw1.okved.sql')

okved = pd.read_json(config.okved_filepath, compression='zip')
db.insert_values(okved, schema=config.schema, table=config.okved_table)

Writing okved.py


# Тестирование

In [None]:
okved = pd.read_json(config.okved_filepath, compression='zip')
db.truncate_table(schema=config.schema, table=config.okved_table)
db.insert_values(okved, schema=config.schema, table=config.okved_table)

In [18]:
db.read_query(f'SELECT * FROM {config.schema}.{config.okved_table} LIMIT 10')

Unnamed: 0,id,code,parent_code,section,name,comment,load_dttm
0,1,01,A,A,"Растениеводство и животноводство, охота и пред...",Эта группировка включает:\n- два основных вида...,2023-06-19 20:01:19.825611
1,2,01.1,01,A,Выращивание однолетних культур,Эта группировка включает:\n- выращивание однол...,2023-06-19 20:01:19.825611
2,3,01.11,01.1,A,"Выращивание зерновых (кроме риса), зернобобовы...",Эта группировка включает:\n- все формы выращив...,2023-06-19 20:01:19.825611
3,4,01.11.1,01.11,A,Выращивание зерновых культур,,2023-06-19 20:01:19.825611
4,5,01.11.11,01.11.1,A,Выращивание пшеницы,,2023-06-19 20:01:19.825611
5,6,01.11.12,01.11.1,A,Выращивание ячменя,,2023-06-19 20:01:19.825611
6,7,01.11.13,01.11.1,A,Выращивание ржи,,2023-06-19 20:01:19.825611
7,8,01.11.14,01.11.1,A,Выращивание кукурузы,,2023-06-19 20:01:19.825611
8,9,01.11.15,01.11.1,A,Выращивание овса,,2023-06-19 20:01:19.825611
9,10,01.11.16,01.11.1,A,Выращивание гречихи,,2023-06-19 20:01:19.825611


In [19]:
db.read_query(f'SELECT COUNT(*) total FROM {config.schema}.{config.okved_table}')

Unnamed: 0,total
0,2818


In [16]:
test = okved.sample()
test

Unnamed: 0,code,parent_code,section,name,comment
2527,78.1,78,N,Деятельность агентств по подбору персонала,


In [33]:
import zipfile


for line in reader:
    display(line)
    break

'code'

In [34]:
reader

Unnamed: 0,code,parent_code,section,name,comment
0,01,A,A,"Растениеводство и животноводство, охота и пред...",Эта группировка включает:\n- два основных вида...
1,01.1,01,A,Выращивание однолетних культур,Эта группировка включает:\n- выращивание однол...
2,01.11,01.1,A,"Выращивание зерновых (кроме риса), зернобобовы...",Эта группировка включает:\n- все формы выращив...
3,01.11.1,01.11,A,Выращивание зерновых культур,
4,01.11.11,01.11.1,A,Выращивание пшеницы,
...,...,...,...,...,...
2813,Q,,Q,ДЕЯТЕЛЬНОСТЬ В ОБЛАСТИ ЗДРАВООХРАНЕНИЯ И СОЦИА...,Этот раздел включает:\n- предоставление деятел...
2814,R,,R,"ДЕЯТЕЛЬНОСТЬ В ОБЛАСТИ КУЛЬТУРЫ, СПОРТА, ОРГАН...",Данный раздел включает:\n- широкий спектр видо...
2815,S,,S,ПРЕДОСТАВЛЕНИЕ ПРОЧИХ ВИДОВ УСЛУГ,Этот раздел включает:\n- деятельность обществе...
2816,T,,T,ДЕЯТЕЛЬНОСТЬ ДОМАШНИХ ХОЗЯЙСТВ КАК РАБОТОДАТЕЛ...,


In [20]:
print(okved.line())

AttributeError: 'JsonReader' object has no attribute 'line'

In [28]:
with zipfile.ZipFile(config.egrul_filepath) as z:
    print(len(z.namelist()))

11457
