In [1]:
# импорт необходимых библиотек
import pandas as pd
from prettytable import PrettyTable

In [2]:
# загрузка данных из csv-файла в Python
data = pd.read_csv('Тестовое задание 1.csv', sep=';')

In [3]:
data

Unnamed: 0,SUBJID,VISITN,VISIT,PARAMCD,PARAM,AVAL,TRTGRPN,ITTFL,PPFL
0,Subject unique number,Visit sequence number,Visit name,Parameter code,Parameter name,Parameter result,Treatment group number,Intention to treat population flag,Per protocol pupulation flag
1,111,1,Visit 1,EFF01,Efficacy Parameter 1,15.3,1,1,1
2,111,2,Visit 2,EFF01,Efficacy Parameter 1,75,1,1,1
3,111,3,Visit 3,EFF01,Efficacy Parameter 1,62,1,1,1
4,111,1,Visit 1,EFF02,Efficacy Parameter 2,97.89,1,1,1
5,111,3,Visit 3,EFF02,Efficacy Parameter 2,23.1,1,1,1
6,112,1,Visit 1,EFF01,Efficacy Parameter 1,17.4,2,1,1
7,112,2,Visit 2,EFF01,Efficacy Parameter 1,84.2,2,1,1
8,112,3,Visit 3,EFF01,Efficacy Parameter 1,5.4,2,1,1
9,112,1,Visit 1,EFF02,Efficacy Parameter 2,82.33,2,1,1


Загрузка файла прошла успешно.

#### Комментарий относительно выбора инструментов:
- библиотека pandas была выбрана в качестве инструмента анализа информации, поскольку она содержит все необходимые для этого функции и методы (группировка, агрегация, статистические функции, отбор записей по условию) + бибилиотека содержит функционал для предобработки данных
- библиотека PrettyTable была выбрана в качестве инструмента создания таблицы, поскольку она является специализированным инструментом для создания аккуратных таблиц 

## Предобработка данных

In [4]:
# очищение столбцов, содержащих числа, от буквенных символов
data.PARAM = data.PARAM.str.strip('Eficay Prmet')
data.VISIT = data.VISIT.str.strip('Vist')
data.PARAMCD = data.PARAMCD.str.strip('EF')

In [5]:
# удаление первой строки датафрейма (т.к. она содержала расшифровки заголовков столбцов; эти данные не понадобятся для анализа)
data.drop([0], axis=0, inplace=True)

In [6]:
data

Unnamed: 0,SUBJID,VISITN,VISIT,PARAMCD,PARAM,AVAL,TRTGRPN,ITTFL,PPFL
1,111,1,1,1,1,15.3,1,1,1
2,111,2,2,1,1,75.0,1,1,1
3,111,3,3,1,1,62.0,1,1,1
4,111,1,1,2,2,97.89,1,1,1
5,111,3,3,2,2,23.1,1,1,1
6,112,1,1,1,1,17.4,2,1,1
7,112,2,2,1,1,84.2,2,1,1
8,112,3,3,1,1,5.4,2,1,1
9,112,1,1,2,2,82.33,2,1,1
10,112,3,3,2,2,54.34,2,1,1


In [7]:
# просмотр информации о типах данных
data.dtypes

SUBJID     object
VISITN     object
VISIT      object
PARAMCD    object
PARAM      object
AVAL       object
TRTGRPN    object
ITTFL      object
PPFL       object
dtype: object

In [8]:
# сохранение названия всех колонок датафрейма в список 
columns_name = data.columns.tolist()

In [9]:
# преобразование каждой колонки датафрейма к типу int или float
for name in columns_name:
    data[name] = pd.to_numeric(data[name], errors='ignore')

In [10]:
# повторный просмотр информации о типах данных
data.dtypes

SUBJID       int64
VISITN       int64
VISIT       object
PARAMCD      int64
PARAM        int64
AVAL       float64
TRTGRPN      int64
ITTFL        int64
PPFL         int64
dtype: object

Преобразование типов данных прошло успешно (за исключением столбца VISIT, т.к. он содержит строковое значение).

#### Комментарий относительно выбора инструментов:
- инструменты, использованные для предобработки данных, были выбраны исходя из их применимости к конкретным задачам: нужно удалить строку - используется метод DataFrame.drop, который для этого и предназначен. Другими словами, я использовала встроенные функции Python и pandas для решения поставленных задач, а не реализовывала что-то с нуля самостоятельно, т.к. это бессмысленная работа.
- для преобразования типа данных каждой колонки был использован цикл for (в ячейке 9). Его использование обусловлено тем, что тип данных КАЖДОЙ колонки должен был быть изменен, т.е. нужно было итерироваться по списку и производить преобразование типа данных. 

## Создание таблицы

Далее комментарии относительно выбора инструментов будут размещаться непосредственно после каждой ячейки с кодом/нескольких ячеек с кодом, т.к. данный раздел требует существенно больше пояснений. 

In [11]:
# создание таблицы
table = PrettyTable()

In [12]:
# создание заголовка таблицы
table.title = 'Table: Summary of Efficacy Parameter 1 by Visit. Intention-to-Treat population.'

#### Комментарии относительно выбора инструментов:
- были использованы методы библиотеки PrettyTable, т.к. они позволяют быстро и просто создать таблицу и заголовок к ней; не нужно ничего писать с нуля

In [13]:
# отбор записей из исходного датасета, которые соответствуют условиям 
# Efficacy Parameter = 1 и Treatment group number = 1(2)
param_1_treat_1 = data.query('(TRTGRPN == 1) & (PARAM == 1)')
param_1_treat_2 = data.query('(TRTGRPN == 2) & (PARAM == 1)')

# подсчет количества записей в каждой группе
n_1 = param_1_treat_1.agg({'SUBJID':'count'}).SUBJID
n_2 = param_1_treat_2.agg({'SUBJID':'count'}).SUBJID


#### Комментарии относительно выбора инструментов
Отбор записей из исходного датасета  и подсчет количества записей осуществлялся с помощью методов библиотеки pandas, т.к.:
- данные методы имеют простой синтаксис => сложно запутаться в коде и написать что-то не так; этот подход даже зафиксирован в философии Python (Простое лучше, чем сложное)
- данные методы позволяют решить поставленные задачи наилучшим образом: нужно отобрать записи из датафрейма по условию - используется метод query, который для этого и был создан
- нет смысла писать код, дублирующий уже существующие методы

In [14]:
# создание переменных, содержащих названия заголовков столбцов таблицы
field_tr_1 = 'Treatment group 1 (N=' + str(n_1) + ')'
field_tr_2 = 'Treatment group 2 (N=' + str(n_2) + ')'

# создание заголовков столбцов таблицы
table.field_names = ['Visit', field_tr_1, field_tr_2]

In [15]:
# добавление ряда в таблицу 
table.add_row(['Statistics', '', ''])

#### Комментарии относительно выбора инструментов:
вновь были использованы методы библиотеки PrettyTable по описанным выше причинам

In [16]:
# обработка исключения KeyError, возникающего при заполнении количества испытуемых в каждой группе
def exception_work_num():
    try:
        return param_1_treat_2.groupby('VISITN').agg({'SUBJID':'count'}).SUBJID[num]
    except KeyError:
        return 0

In [17]:
# обработка исключения KeyError, возникающего при заполнении среднего значения параметра в каждой группе
def exception_work_mean():
    try:
        return round(param_1_treat_2.groupby('VISITN').agg({'AVAL':'mean'}).AVAL[num], 1)
    except KeyError:
        return 0

In [18]:
# обработка исключения KeyError, возникающего при заполнении стандартного отклонения параметра в каждой группе
def exception_work_std():
    try:
        return round(param_1_treat_2.groupby('VISITN').agg({'AVAL':'std'}).AVAL[num], 2)
    except KeyError:
        return 0

In [19]:
# обработка исключения KeyError, возникающего при заполнении минимального значения параметра в каждой группе
def exception_work_min():
    try:
        return round(param_1_treat_2.groupby('VISITN').agg({'AVAL':'min'}).AVAL[num])
    except KeyError:
        return 0

In [20]:
# обработка исключения KeyError, возникающего при заполнении максимального значения параметра в каждой группе
def exception_work_max():
    try:
        return round(param_1_treat_2.groupby('VISITN').agg({'AVAL':'max'}).AVAL[num])
    except KeyError:
        return 0

#### Комментарии относительно выбора инструментов:
- для отлова и обработки исключений использовалась конструкция try-except, т.к. она позволяет модифицировать поведение программы при возникновении исключения. В данном случае при попытке заполнить таблицу статистиками генерировалось исключение KeyError => для корректной работы программы нужно было его обработать
- для каждой отдельной статистики была написана своя функция обработки исключения, т.к. это позволило лучше контролировать процесс заполнения таблицы

In [21]:
# добавление в таблицу строк, содержащих номер визита и статистику по визитам
for num in data.VISITN.unique().tolist():
    visit_num = 'Visit ' + str(num)
    table.add_row([visit_num, '', ''])
    
    table.add_row(['n', param_1_treat_1.groupby('VISITN').agg({'SUBJID':'count'}).SUBJID[num], exception_work_num()])
    table.add_row(['Mean', round(param_1_treat_1.groupby('VISITN').agg({'AVAL':'mean'}).AVAL[num], 1) , exception_work_mean()])
    table.add_row(['Standard Deviation', round(param_1_treat_1.groupby('VISITN').agg({'AVAL':'std'}).AVAL[num], 2), exception_work_std()])
    table.add_row(['Minimum', round(param_1_treat_1.groupby('VISITN').agg({'AVAL':'min'}).AVAL[num]), exception_work_min()])
    table.add_row(['Maximum', round(param_1_treat_1.groupby('VISITN').agg({'AVAL':'max'}).AVAL[num]), exception_work_max()])
    table.add_row(['', '', ''])             

#### Комментарии относительно выбора инструментов:
- для заполнения таблицы значениями статистик был использован цикл for, т.к. нужно было итерироваться по списку со значениями номеров визитов
- для заполнения строк таблицы был использован метод add_row модуля PrettyTable, т.к. данный метод предназначен для решения этой задачи

In [22]:
# настройка выравнивания значений в ячейках (выравнивание по левому краю)
table.align = 'l'

In [23]:
# отключение видимости границ таблицы
table.border = False

#### Комментарии относительно выбора инструментов:
вновь были использованы методы библиотеки PrettyTable (причины выбора данных инструментов были описаны выше)

In [24]:
# просмотр получившейся таблицы
print(table)

| Table: Summary of Efficacy Parameter 1 by Visit. Intention-to-Treat population. |
 Visit                  Treatment group 1 (N=17)     Treatment group 2 (N=15)    
 Statistics                                                                      
 Visit 1                                                                         
 n                      6                            5                           
 Mean                   43.0                         25.7                        
 Standard Deviation     29.33                        25.89                       
 Minimum                15                           4                           
 Maximum                90                           63                          
                                                                                 
 Visit 2                                                                         
 n                      5                            5                           
 Mean         

In [25]:
# запись таблицы в txt-файл
with open('statistics_table.txt', 'w') as w:
    w.write(str(table))

### Комментарии относительно выбора инструментов:
запись в файл осуществлялась с помощью специализированной конструкции with .. as: write, т.к. это позволило сохранить таблицу в файл, используя минимальное количество строк кода