In [1]:
import psycopg2
import getpass
import pandas as pd
import numpy as np
from dateutil.relativedelta import relativedelta

In [2]:
# Задание 1
# подключение к БД
usr = 'postgres'
dbs = 'postgres'
host = 'localhost'
port = '5432'
conn = psycopg2.connect(user=usr,
                      database=dbs,
                      host=host,
                      port=port,
                      password=getpass.getpass('Insert password: ')
                    )

Insert password: ········


In [3]:
print(conn.get_dsn_parameters())

{'user': 'postgres', 'dbname': 'postgres', 'host': 'localhost', 'port': '5432', 'tty': '', 'options': '', 'sslmode': 'prefer', 'sslcompression': '0', 'krbsrvname': 'postgres', 'target_session_attrs': 'any'}


In [151]:
# Задание 3
# возвращает параметры, матрицу рейтинга и матрицу дюраций
# даты должны быть в формате YYYY-MM-DD
def get_rating_matrix(rat_id, start_date, end_date):
    # Задание 4
    # запрос к БД, откуда исключаются рейтинги "Снят" и "Присотановлен"
    query="SELECT * FROM ratings_task2 where rat_id = %d and date >= \'%s\' and date <= \'%s\'" % \
                 (rat_id, start_date, end_date)
    ratings=pd.read_sql_query(query,conn)

    # список уникальных значений рейтингов, встречающихся в таблице рейтингов 
    rat_list = ratings[(ratings['grade'] != "Снят") & (ratings['grade'] != "Приостановлен")]['grade'].unique().tolist()
    rat_list.sort() # сортировка рейтинга по алфавиту

    # шаблон матрицы для расчета матрицы рейтингов
    # где названия колонок и строк - значения рейтинга
    zer_matrix = np.zeros((len(rat_list), len(rat_list)), dtype =int)
    rating_matrix = pd.DataFrame(zer_matrix, columns = rat_list, index=rat_list)

    # фильтрация нужных полей
    ratings = ratings[['grade', 'date', 'ent_name', 'okpo']]

    # сортировка рейтингов по  окпо компании и дате присвоения
    sorted_rating = ratings.sort_values(by=['okpo', 'date'], ascending=[True, True]).copy(deep=True)
    okpo_list = sorted_rating['okpo'].unique().tolist()

    # присвоение ключа списку в соответсвии с порядком возрастания даты в пределах 1 компании
    for i in range(len(okpo_list)):
        k = len(sorted_rating[sorted_rating['okpo'] == okpo_list[i]])
        sorted_rating.loc[sorted_rating['okpo'] == okpo_list[i], 'key'] = range(k)

    # присвоения записям в пределах компании максимального ключа
    sorted_rating['key_max'] = sorted_rating.groupby(['okpo'])['key'].transform(max)
    # выбор первого рейтинга по дате в пределах компании
    sorted_rating1 = sorted_rating[sorted_rating['key'] == 0].copy(deep=True)
    # выбор последнего рейтинга по дате в пределах компании
    sorted_rating2 = sorted_rating[sorted_rating['key'] == sorted_rating['key_max']].copy(deep=True)

    # матрица с переходом из первого рейтинга в последний в пределах компании
    trans_rat = pd.merge(sorted_rating1,sorted_rating2, on='okpo',how='left',suffixes=('_bef','_aft'))

    # наполненние матрицы рейтингов
    for i in range(len(rat_list)):
        for j in range(len(rat_list)):
            rating_matrix[rat_list[j]][rat_list[i]] = trans_rat[(trans_rat['grade_bef'] == rat_list[i]) & \
                                                                 (trans_rat['grade_aft'] == rat_list[j])].shape[0]
    # расчет процентов по строкам
    rating_matrix = rating_matrix.apply(lambda x: 100 * x/x.sum(), axis=1)
    rating_matrix = rating_matrix.fillna(0)
    
    # расчет метода дюраций
    # шаблон матрицы для расчета матрицы дюраций
    # где названия колонок и строк - значения рейтинга
    zer_matrix = np.zeros((len(rat_list), len(rat_list)), dtype =int)
    duration_matrix = pd.DataFrame(zer_matrix, columns = rat_list, index=rat_list)
    
    # Для получения маршрута перехода рейтингов в порядке следования дат необходимо техническое решение.
    # Можно присвоить идентификатор записям в порядке возрастания дат. И чтобы понять, какая дата будет следующей,
    # взять тот же список и присваивать то же значение идентификатора, но уже начиная со второй даты.
    sorted_rating3 = sorted_rating[sorted_rating['key'] > 0] # убрать запись с минимальной датой
    sorted_rating3 = sorted_rating3.copy(deep=True)
    # присвоение ключа списку в соответсвии с порядком возрастания даты в пределах 1 компании
    for i in range(len(okpo_list)):
        k = len(sorted_rating3[sorted_rating['okpo'] == okpo_list[i]])
        sorted_rating3.loc[sorted_rating['okpo'] == okpo_list[i], 'key'] = range(k)

    # матрица с маршрутами переходов из одного рейтинга в другой
    jn_ratings = pd.merge(sorted_rating,sorted_rating3, left_on=['okpo', 'key'], right_on=['okpo', 'key'], how='left',suffixes=('_bef','_aft'))
    
    # итерация по всем переходам для разных оценок
    for i in range(len(rat_list)):
        for j in range(len(rat_list)):
            if i != j:
                # таблица со всеми переходами для пары перехода рейтинг1-рейтинг2
                ex_mat = jn_ratings[(jn_ratings['grade_bef'] == rat_list[i]) & \
                                                                     (jn_ratings['grade_aft'] == rat_list[j])]
                # расчет значений для перехода из одной оценки в другую 
                if (ex_mat.shape[0] > 0):
                    dur_sum = np.sum(ex_mat['date_aft'] - ex_mat['date_bef']).days             
                    if (dur_sum > 0):
                        duration_matrix[rat_list[j]][rat_list[i]] = ex_mat.shape[0] / (dur_sum / 365)
    
    # сумма всех рассчитанных значений по строкам для получения дюрации оценки
    sum_of_vals = duration_matrix.sum(axis=1)
    # расчет дюрации для какждой оценки
    for i in range(len(rat_list)):
        duration_matrix[rat_list[i]][rat_list[i]] = sum_of_vals[i] * (-1)
    
    # вывод аргументов и матриц
    print('rat_id: %s\n' % rat_id)
    print('start_date: %s\n' % start_date)
    print('end_date: %s\n' % end_date)
    
    print('rating_matrix:')
    print(rating_matrix)
            
    print('\n')
    print('duration_matrix:')
    print(duration_matrix)
    
    results={'rat_id': rat_id, 'start_date': start_date, 'end_date': end_date, \
             'rating_matrix': rating_matrix, 'duration_matrix': duration_matrix}
    
    return results

In [152]:
start_date = "2010-08-04"
end_date = "2016-04-18"
rat_id = 1

In [158]:
# Задание 2
# Предупреждение Boolean Series key will be reindexed to match DataFrame index возникает из-за того,
# что дважды присваивается ключ по дате присвоения рейтинга
results = get_rating_matrix(rat_id, start_date, end_date)

rat_id: 1

start_date: 2000-01-01

end_date: 2099-04-18

rating_matrix:
       A    B    B++
A    0.0  0.0  100.0
B    0.0  0.0    0.0
B++  0.0  0.0    0.0


duration_matrix:
     A  B  B++
A   -6  1    5
B    0  0    0
B++  0  0    0




In [159]:
results['rating_matrix']

Unnamed: 0,A,B,B++
A,0.0,0.0,100.0
B,0.0,0.0,0.0
B++,0.0,0.0,0.0


In [160]:
results['duration_matrix']

Unnamed: 0,A,B,B++
A,-6,1,5
B,0,0,0
B++,0,0,0


In [None]:
# Фидбэк:
# 1.Соединить Python c БД по API. + 1 балл
# 2.Из Python запросить информацию, необходимую для пункта 3. +2 балл
# Следовадло бы также исполнить два запрос из ДЗ1 для даты начала и конца наблюдений, чтобы у всех компаний с рейтингами в 
# в рассматрваемом интервале, были наблюдания на начало и конец периода, даже если внутри его с ними не было никаких действий.
# 3.Написать функцию, которая строит матричные характеристики рейтинговых переходов. Аргументы функции: вид рейтинга, границы периода наблюдения. На выходе функция должна выдавать не только матрицу, но и значения аргументов. Привести иллюстрационный пример использования. 
#  Функция написана. И логика написания функции верная, но результат оцевидно неадекватный + для дюраций не вычислили время. 1 баллов.
# 4. Предусмотреть исполнение SQL запроса из п.2 внутри функции из п. 3. Запрос должен храниться в выходных данных функции. 
#  1 балл.
# Текущая сумма: 5 балла.