# Дипломная работа по курсу DataScience компании Нетология 
#### Антошкин Павел, январь 2023

## Тема: Сопровождение кураторской методики
##### Анализ и поиск закономерностей для построения рекомендательной системы для поддержки процесса обучения


### Содержание документа:
1. [Структура каталога проекта](#structure)
2. [Краткое описание Кураторской методики](#about_curators_methodic)
3. [Особенности данных проекта](#about_data_source)
4. [Задачи основного проекта и цели дипломной работы](#goals)
5. [Рабочие ноутбуки](#notebooks)
6. [Результаты](#results)  
    6.1 Загрузка, очистка и нормализация данных  
    6.2 Первичный анализ данных  
    6.3 Расширенный анализ данных  
    6.4 Кластеризация  
    6.5 Интонационный анализ  
    6.6 Главные результаты
7. [Планы](#plans)

___
<a id='structure' name='structure'></a>
### 1. Структура каталога проекта

- data - каталог с данными
    -  external - "сырые данные" проекта
    -  intermid - фильтрованные данные, готовые для анализа
        - [data/intermid/full_df_stand.csv](data/intermid/full_df_stand.csv) - датафрейм с анонимизированными исходными данными по протоколам
        - [data/intermid/full_df_stand.csv](data/intermid/full_df_stand.csv) - датафрейм с анонимизированными исходными данными по протоколам
        
    -  processed - обработанные данные
- docs - документация по проекту (презентация, описания, комментарии)
    - raw_data_examples - каталог с примерами протоколов уроков - файлами в формате Excel
    - [Kuratorskaya_for_school.pdf.ipynb](docs/Kuratorskaya_for_school.pdf) - Промо-презентация проекта «Кураторская методика» (используется на лэндинге проекта)
    - [diploma_antoshkin.pptx](docs/diploma_antoshkin.pptx) - Презентация для защиты диплома
- images - изображения, сгенерированные в рабочих ноутбуках (диаграммы для отчета и презентации)
- lib - каталог с библиотеками, автоматизирующими работу с данными проекта
- Readme.ipynb - этот файл с информацией о проекте
- [data_prepare.ipynb](data_prepare.ipynb) - загрузка и подготовка данных
- [data_analysis.ipynb](data_analysis.ipynb) - первичный анализ данных
- [data_analysis_step_2.ipynb](data_analysis_step_2.ipynb) - углубленный анализ данных
- [clustering_organizations.ipynb](clustering_organizations.ipynb) - кластеризация организаций
- [text_analysis.ipynb](text_analysis.ipynb) - интонационный анализ комментариев учителей



___
<a id="about_curators_methodic" name="about_curators_methodic"></a>
### 2. Краткое описание Кураторской методики  

##### О проекте
Кураторская методика - это проект, развиваемый Издательской фирмой «Сентябрь» на своей образовательной платформе «Академия Директории», являющейся частью информационной системы Директория ([Лэндинг проекта ->](https://direktoria.org/academy/kompleksnye-programmy-vnedreniya-izmeneniy-v-shkolakh.php)).

##### Кто учится
Обучение по этой программе организуется для **руководителей школ**, администраторов и методистов школ, выполняющих функции **кураторов**, а также **педагогов**, которые выбраны руководством школы для участия в проекте. Сотрудники каждой из этих групп обучаются на отдельных курсах Академии Директории в течение 8 месяцев и во время обучения занимаются внедрением кураторской методики в своей школе.

##### Цели обучения
- Повышение профессионального уровня педагогов;
- Повышение осознанности педагогов во время уроков, равномерное распределение внимания ко всем ученикам и, как следствие, повышение среднего уровня качества обучения;
- Формирование горизонтальных профессиональных связей внутри организации - повышение уровня социального капитала организации.

##### Суть методики
Суть методики заключается в том, что в школе, которая принимает участие в проекте, создаются **тройки** (одна или больше), включающие в себя **куратора** и **двух педагогов**. Куратор выполняет роль модератора и помощника, а педагоги, имея равные права, по очереди посещают уроки друг друга. Для каждого такого урока пара педагогов совместно с куратором определяют один из доступных в рамках проекта **протоколов наблюдения**. Такой протокол позволяет зафиксировать отдельные параметры урока, соответствующие тому педагогическому навыку, который на уроке должен отработать проводящий урок учитель. 

После проведения урока и заполнения протокола учителя совместно с куратором, основываясь на данных, зафиксированных в протоколе, обсуждают урок, фиксируют проблемы, отмечают удачи и планируют свои дальнейшие действия.

В настоящее время в рамках проекта школьным командам предлагается **7 групп протоколов**, в первых шести группах имеются протоколы трех уровней сложности - **базовые**, **усложненные** и **прицельные**. В седьмой группе имеется протокол только базового уровня.

Предполагается, что в ходе обучения педагоги сами выбирают протоколы, с которыми они хотят работать, жестких требований по составу протоколов и их количеству нет, но есть рекомендация проводить уроки с наблюдениями не реже одного раза в две недели.


___
<a id="about_data_source" name="about_data_source"></a>
### 3. Особенности данных проекта «Кураторская методика»

В **2021** году в рамках этого проекта было проведено обучение школ с низкими образовательными результатами **Новосибирской области**. Руководство регионального министерства образования, убедившись в эффективности методики, приняло решение продлить взаимодействие с «Сентябрем» в 2022 году. Начиная с **января 2022** года команды из **67 школ** Новосибирской области включились в проект, и в течение всего 2022 года учителя и кураторы этих школ провели в общей сложности около **3000 уроков**.

Весной 2022 года началась работа над созданием административной панели проекта «Кураторская методика», первоначальная цель создания которой - автоматизация работы по сбору результатов наблюдений на уроках, формирования инструментов для анализа накапливаемых данных и предоставления участникам обучения аналитики по результатам апробации кураторской методики.

Благодаря созданию сайта ([http://kurators.direktoria.org](http://kurators.direktoria.org)) в течение 2022 года был накоплен объем данных, обработка и анализ которого и являются основной целью выполнения этой дипломной работы.

##### Исходные данные
Исходными данными проекта являются xlsx-файлы с протоколами наблюдений.
Участники проекта имеют доступ к 19 шаблонам протоколов. После проведения урока берется шаблон, соответствующий задачам наблюдений для этого урока, и происходит его заполнение.

Все шаблоны имеют общую кодировку. Первая цифра кода - группа протоколов (меняется от 1 до 7), вторая цифра - уровень протокола (1 - базовый, 2 - усложненный, 3 - прицельный). 

Названия всех групп:
1. Распределение внимания учителя
2. Время на размышление
3. Тип вопроса
4. Качество обратной связи
5. Время речи учеников
6. Правила речи
7. Время речи педагога

Например Протокол 3.1 - это базовый протокол из группы "Тип вопроса".

Все шаблоны протоколов имеют общую структуру с одинаковой "шапкой", в которой фиксируются:
- Фамилия и инициалы учителя
- Фамилия и инициалы наблюдателя
- Фамилия и инициалы куратора
- Дата проведения урока
- Дата обсуждения протокола
- Параллель класса (выбор из значений "1 класс", "2 класс", ... , "11 класс")

Вторая часть шаблона содержит ячейки для внесения информации о результатах наблюдений по конкретным параметрам, соответствующим задачам наблюдения. 
Каждый шаблон содержит свой набор параметров, однако часть из них повторяется от шаблона к шаблону и может быть получена или прямо, или косвенно, как комбинация других параметров. 
Примеры полей:
- Количество учеников на уроке
- Количество отвечавших учеников
- Количество ответов
- Текстовый комментарий о проведенном уроке: что получилось, что - нет, есть ли желание что-то изменить и т.д.

Примеры заполненных шаблонов (анонимизированные):
- [Протокол 1.1](docs/raw_data_examples/protocol_1_1_example.xlsx)
- [Протокол 2.1](docs/raw_data_examples/protocol_2_1_example.xlsx)
- [Протокол 2.2](docs/raw_data_examples/protocol_2_2_example.xlsx)
- [Протокол 2.3](docs/raw_data_examples/protocol_2_3_example.xlsx)

В течение 2022 года в каждый из протоколов вносились изменения, которые как правило касались повышения юзабилити (добавление комментариев о работе с шаблоном, проверка формата вводимых данных и т.п.), но также в некоторые протоколы вносились дополнительные поля. В этой связи данные по каждому из типов шаблонов могут отличаться в зависимости от даты проведения уроков.

##### База данных
Весной 2022 года руководством была поставлена задача проанализировать накопившиеся к тому моменту данные по протоколам, которые были заполнены участниками проекта. В результате было принято решение о необходимости создания веб-сервиса, который на первом этапе позволил бы команде Академии Директории собрать в удобном для работы формате все данные по проекту, а на втором предоставил бы доступ к этой системе и школьным командам, внедряющим кураторскую методику в своих школах.

По состоянию на декабрь 2022 года реализована только первая задача. Создана база данных на MySql (далее - БД) и сайт http://kurators.direktoria.org (далее - Сайт), на котором администраторы проекта имеют возможность загружать в БД протоколы и отчеты участников проекта. Пока в БД находятся данные только по 67 школьным командам из Новосибирской области.


##### Механизм импорта
На уровне скриптов Сайта реализована функция экспорта данных в форматы csv или Excel. Данные о параметрах генерации передаются библиотеке экспорта в формате GET-запросов. Специально для реализации задач в рамках настоящей дипломной работы для импорта данных в локальный репозиторий создан ключ для возможности получения данных о заполненных протоколах без авторизации. После подготовки дипломной работы эта возможность получения данных проекта будет закрыта.
В результате импорта, который реализуется [в этом ноутбуке](data_analysis.ipynb), в каталоге проекта data/external создаются датафреймы с "сырыми" данными по заполненным протоколам по каждому из 19 шаблонов, имеющихся в системе.



___
<a id="goals" name="goals"></a>
### 4.  Задачи основного проекта и цели дипломной работы

В поиске Google при вводе запроса "кураторская методика системы Директория" появляется следующее короткое определение:  
Кураторская методика — относительно простой в реализации способ повышения профессионализма учителей. Она основана на сотрудничестве учителей друг с другом и эта ее особенность позволяет легче преодолеть сопротивление коллектива к изменениям.

Однако с точки зрения реализации проект "Кураторская методика" - это сложная технология, включающая в себя комплекс последовательных действий, которые позволяют в течение нескольких месяцев заложить основы формирования новых профессиональных навыков и привычек, которые по мнению авторов этой методики должны привести к следующим результатам:
- учителя более сознательно начинают относиться к проводимым ими урокам и получают набор некоторых метрик своей эффективности, которые они начинают отслеживать при работе на уроке;
- благодаря этому внимание учителя начинает более "справедливо" распределяться между учениками, и слабые ученики получают больше учительской поддержки. Успеваемость как минимум слабых учеников, а также мотивированных "середняков" может начать улучшаться;
- благодаря работе троек «куратор - два учителя» в организации формируются дополнительные профессиональные связи, улучшается процесс обмена опытом, снижается уровень напряжения у учителей, внутренний климат в организации смягчается.

При запуске проекта обучения членам школьных команд озвучиваются эти цели, а также даются рекомендации по выбору протоколов и методике работы с ними. В частности, кураторы проекта получают возможность использовать Базовый план куратора - "упакованный" в удобном формате набор методических рекомендаций по работе с протоколами, организацией и проведением встреч с учителями пары и т.д.

Также важно отметить, что не все школьные команды или отдельные участники этих команд принимают участие в проекте по своему желанию, кому-то приходится выполнять указания начальства. Это может приводить к появлению в протоколах неточных данных, а также к непринятию учителями решаемых задач. Есть основания полагать, что эта проблема к концу годичного цикла обучения для учителей из школ Новосибирской области потеряла актуальность, участники проекта почувствовали "вкус процесса".

Поскольку конкретные метрики, по которым можно оценивать эффективность обучения, явным образом для школьных команд не формулировались или упоминались лишь вскользь, есть вероятность, что не все школьные команды старались этих метрик достигать. Кроме того, пока у нас, у команды проекта «Кураторская методика», нет уверенности в том, что все метрики понятны нам самим. 

В этой связи **главными задачами дипломной работы** являются следующие :
- Общий анализ данных, поиск закономерностей;
- Выделение метрик, достижение которых можно считать положительным результатом внедрения кураторской методики.

Также фиксируются **две** более конкретных **подзадачи**, которым будет уделено большее внимание:
- Кластеризация школ и анализ корреляции между принадлежностью к группе и найденным в ходе анализа метрикам. Это позволит в дальнейшем пытаться предсказывать эффективность внедрения методики в школах на ранних этапах проекта.
- Интонационный анализ текстовых комментариев из протоколов для формирования метрики, позволяющей измерять степень удовлетворенности учителя при проведении уроков и динамики изменения отношения к процессу со временем.




___
<a id="notebooks" name="notebooks"></a>
### 5. Рабочие ноутбуки

##### 1. Загрузка, очистка и нормализация данных осуществляются [в ноутбуке data_prepare.ipynb](data_prepare.ipynb)

В этом ноутбуке выполняются следующие операции:
- Загружаются "сырые" данные с сайта kurators.direktoria.org
- Формируется датасет с шаблонами протоколов
- Создается единый датафрейм с данными по заполненным протоколам

##### 2. Первичный анализ данных осуществляется [в ноутбуке data_analisis.ipynb](data_analisis.ipynb)

В этом ноутбуке решаются следующие задачи:
- Загружаются библиотеки и данные, подготовленные на предыдущем шаге (словарь шаблонов и датасет с анонимизированными данными по протоколам)
- Анализируется структура базового датафрейма
- Обрабатываются пропуски
- Анализируется статистика по использованию шаблонов протоколов
- Анализируется статистика по школам
- Анализируется статистика по учителям


##### 3. Добавление вторичных колонок и расширенный анализ данных осуществляется [в ноутбуке data_analisis_2.ipynb](data_analisis_2.ipynb)

В этом ноутбуке решаются следующие задачи:
- На основе первичного анализа осуществляется поиск идей по вторичным данным
- Загружаются библиотеки и очищенные данные, полученные после первичного анализа
- Осуществляется преобразование и анализ основного датафрейма с протоколами
- Осуществляется преобразование и анализ датафрейма с организациями
- Осуществляется преобразование и анализ датафрейма с учителями


##### 4. Кластеризация организаций осуществляется [в ноутбуке clustering_organizations.ipynb](clustering_organizations.ipynb)

В этом ноутбуке решаются следующие задачи:
- Проводится кластеризация на основе параметров школ, которые **не зависели** от качества работы учителей
- Проводится кластеризация на основе параметров школ, которые **зависели** от качества работы учителей
- Визуальный анализ взаимного влияния параметров ДО и параметров ПОСЛЕ

##### 5. Интонационный анализ комментариев учителей осуществляется [в ноутбуке texts_analysis.ipynb](texts_analysis.ipynb)

В этом ноутбуке решаются следующие задачи:
- Формируется выборка с полными данными
- Проводится очистка текстов (лемматизация, стоп-слова)
- Формируюется верификационная выборка из 200 текстовых комментариев (для экспертной оценки)
- Формируются обучающая и тестовая выборки
- На основе TF-IDF и логистической регрессии формируется модель для предсказания степени удовлетворенности
- На основе TF-IDF и логистической регрессии формируется модель для предсказания степени желания что-то изменить
- Осуществляется верификация моделей + верификация экспертных оценок
- Генерируется облако слов (funny)


___
<a id="results" name="results"></a>
### 6. Результаты

Ниже приведены лишь текстовые комментарии по поводу полученных результатов. В каждом из ноутбуков, на которые даются ссылки, можно найти коды и дополнительные комментарии, позволяющие более глубоко погрузиться в предметную область.

___
#### 6.1 Загрузка, очистка и нормализация данных
[см. data_prepare.ipynb](data_prepare.ipynb)

- Инициализируется словарь шаблонов протоколов (df_templates) 
- Загружаются "сырые" данные с сохраненными протоколами. По каждому шаблону формируется отдельный файл csv. Все файлы сохраняются в папке data/external. Имена файлов содержат в себе коды протоколов. К примеру, все данные по протоколам 1.1 хранятся в файле protocols_1_1_raw.csv.
- Для каждого шаблона датасеты стандартизируются по набору столбцов. При этом из каждого исходного датасета в стандартизированный датасет копируются только соответствующие столбцы, имена всех столбцов переименовываются в короткие имена на латинице, без пробелов. Полученные датасеты сохранятюся в папке data/intermid. Названия файлов соответствуют паттерну protocols_1_1_stand.csv
- Все датафреймы по разным протоколам объединяются в единый датафрейм и анонимизируются. Его содержимое сохраняется в файле [data/intermid/full_df_stand.csv](data/intermid/full_df_stand.csv)
- Исходные данные, содержащие персональные данные по школам и учителям, удаляются (сейчас они в рамках проекта не доступны).

___
#### 6.2 Первичный анализ данных

см. [data_analisis.ipynb](data_analisis.ipynb)

- В проекте приняли участие 282 учителя из 67 школ.
- В общей сложности было заполнено 3001 протоколов.
- Каждый из протоколов заполнялся с использованием одного из 19 шаблонов.

**Резюме по шаблонам протоколов**
- Все шаблоны протоколов использовались, но с разной частотой (разница - более чем в три раза)
- Не было ни одного шаблона, который использовали бы в каждой школе
- Не было ни одного шаблона, который использовал бы каждый учитель
- Самая популярная группа протоколов - Распределение внимания учителя
- Чаще всего использовались усложненные протоколы.
- Высокая доля учителей, которые НЕ попробовали протоколы отдельных уровней

**Структура основного датафрейма с протоколами**
- В анализируемом датафрейме 23 колонки
- Первая группа полей - мета-информация протокола, хранящая информацию о том, кто, когда, что и где делал.
- Вторая группа полей - параметры урока, которые измерялись в ходе урока и которые совпадают для большинства протоколов
- Третья группа полей - рефлексия учителя по результатам урока
(подробнее см. [data_analisis.ipynb](data_analisis.ipynb))

**Резюме по школам**
- Для анализа данных о школах был сгенерирован датафрейм из семи колонок:
    - org_id - идентификатор организации
    - protocols - количество протоколов, заполненных в школе
    - teachers - количество учителей в школьной команде
    - curators -  количество кураторов в школьной команде
    - pupils_mean - среднее количество учеников на уроках в школе (косвенный признак размера школы)
    - prot_templates - количество шаблонов протоколов, использованных в школе
    - protocols_per_teacher - среднее количество протоколов на одного учителя в школе
- Количество протоколов, заполненных в каждой из школ проекта, очень разное, максимум и минимум отличаются почти на порядок (16 vs 128)
- Разброс значений среднего количеству протоколов, заполненных каждым учителем в школе, меньше, но тоже заметный (4.5 vs 22)
- Небольшой размер школьных команд в рамках проекта — не обязательно следствие размера школы
- Среднее количество учеников в классах может быть одним из надежных показателей, характеризующих размер школы. В основном в проекте принимали участие небольшие школы
- Похоже, что среди небольших школ нашлись как скептики (мало протоколов), так и энтузиасты (много протоколов). Более крупные школы обошлись без крайностей!

**Резюме по учителям**
- Для анализа данных об учителях был сформирован датафрейм из 10 колонок:
    - teacher_id - идентификатор учителя
    - org_id - идентификатор организации
    - protocols - количество протоколов, заполненных в школе
    - base_prot - количество базовых протоколов учителя
    - complicated_prot - количество усложненных протоколов учителя
    - targeted_prot - количество прицельных протоколов учителя
    - used_templates_groups - количество групп шаблонов, использованных учителем
    - pupils_mean - среднее количество учеников на уроках учителя
    - class - параллель класса, с которой чаще всего работал учитель
    - satisfaction - степень удовлетворения учителя от проведенного урока
- Базовые распределения по организациям похожи на распределения по учителям
- Распределение количества протоколов на одного учителя похоже на нормальное, но с длинным правым крылом
- Можно считать позитивным средний уровень количества групп протоколов, которые попробовал каждый из учителей
- Вопрос о степени удовлетворенности учителей от проведенного урока мало информативный, нужно менять формулировку
- Неожиданных  корреляций для текущего набора данных выявить не удалось
- Необходимо искать дополнительные параметры для анализа

___
#### 6.3 Расширенный анализ данных

см. [data_analisis_step_2.ipynb](data_analisis_step_2.ipynb)

**Добавляем в датафрейм с протоколами вторичные колонки**

По шаблонам протоколов:
- group – номер группы шаблона протокола
- level - 1, 2, 3, т.е. базовый, усложненный или прицельный

По времени:
- period - 1 – весна, 2 - осень
- day - порядковый номер дня с даты первого урока, зафиксированного в системе
- day_of_period – порядковый номер дня с даты первого урока, зафиксированного в системе для текущего периода - весна или осень
- interval – nan для первого протокола учителя в текущем периоде или разница в днях текущего протокола и предыдущего!

По группам учеников:
- scope - доля учеников, с которыми было взаимодействие
- pupils_m - средний уровень учеников на уроке
- pupils_d - дисперсия уровня учеников на уроке
- Interactions_m - матожидание уровня для взаимодействий
- Interactions_d - дисперсия уровня для взаимодействий
- attention_m - матожидание уровня учеников, с которыми было взаимодействие
- attention_d - дисперсия этого уровня
- vector_interact - вектор взаимодействия (pupils_m – interactions_m
- vector_intention - вектор намерения (pupils_m – attention_m)
- vector_attention - вектор внимания (attention_m – interactions_m)

**Анализ данных из протоколов с информацией о группах учеников (сильные, средние, слабые)**

В **усложненных** и **прицельных** протоколах, которые использовались в школах, присутствуют вопросы, которые позволяют оценивать как среднюю успешность учеников каждого класса, так и то, как распределяется внимание учителя при работе с каждой из групп. Важно отметить, что оценки уровня успешности каждого ученика весьма субъективны, и разные учителя, возможно, один и тот же класс оценивали бы по-разному. НО в контексте этого проекта точность оценок силы ученика не столь важна. Важно то, что один и тот же учитель не только оценивает уровень успешности ученика, но и фиксирует реальное количество взаимодействий с ним. Это позволяет построить систему оценки уровня распределения внимания учителя между учениками разных уровней успешности, основывающуюся не на абсолютных значениях, а на относительных.

Исходя из задач обучения мы считаем, что учитель изменил к лучшему качество своих уроков, если:
- большее количество учеников стали оказываться в зоне его внимания
- если распределение внимания учителя либо равномерное по ученикам разного уровня успешности, либо сместилось в сторону поддержки более слабых учеников.

**Подробнее - о формировании колонок с префиксами _m и _d**

Предположим, что на уроке было $Y_{1}$ сильных учеников, $Y_{2}$ средних учеников и $Y_{3}$ слабых учеников.  

Общее количество учеников в классе $Y = Y_{1} + Y_{2} + Y_{3}$.  

Будем считать среднюю успеваемость по формуле:

$${M} = \frac{Y_{1}*1 + Y_{2}*0.5 + Y_{3}*0}{Y}$$

Параметр, который будем считать дисперсией, будем вычислять по формуле:  
$$ D= \sqrt{\frac{Y_{1}(M-1)^2 + Y_{2}(M-0.5)^2 + Y_{3}(M-0)^2}{Y}}  $$

- Если все ученики в классе сильные, средние или слабые, $D=0$. 
- Если в классе поровну сильных, средних и слабых, $M=0.5$, а $D\approx 0.42$
- Если в классе половина учеников - сильная, а половина - слабая, $M=0.5$, а $D=0.5$
- Если в классе половина сильных и половина средних учеников, $M=0.75$, а $D=0.25$
(подробнее см. [data_analisis_step_2.ipynb](data_analisis_step_2.ipynb))

**Результаты расширенного анализа**
- по колонкам с периодами времени
    - Распределения по дням проведения уроков помимо случайных флуктуаций имеют неравномерности, связанные с сезонностью учебных периодов, каникулами, праздниками
    - Интервалы между уроками различаются, но хорошо заметны циклы в одну, две, три, четыре недели. Это может быть связано с методическими рекомендациями о соблюдении строгой периодичности проведения уроков, а также с желанием учителя работать постоянно с одним классом, в соответствии с еженедельным расписанием уроков
- по колонкам с успеваемостью
    - Поскольку школы в проекте малокомплектные, параметр score сложно анализировать. Этот параметр становится значимым при количестве учеников от 10 и выше (цифра ориентировочная).
    - Средняя успеваемость учеников в школах, проводивших исследование – средняя, однако есть как школы, где успевающих учеников больше, так и школы с преобладанием отстающих учеников
    - Крайне мало школ, в которых все ученики имеют близкий уровень успеваемости. Вероятно, это как правило школы со средним количеством учеников 3 и менее
    - Учителя при работе с учениками в среднем равномерно распределяют свое внимание между учениками разных уровней, но есть школы, которые делают акцент на слабых, и есть те, которые больше работают с сильными учениками
    - Интересных, неожиданных корреляций между параметрами не видно
- по индивидуальной динамике учителей (на основе анализа метрик нескольких случайно выбранных учителей)
    - Данные по протоколам разных периодов не полные, поэтому по каждому учителю наблюдается выпадение данных
    - Паттерны метрик разных учителей очень отличаются, однако в среднем имеется некоторое смещение внимания учителя в сторону более сильных учеников несмотря на то, что задачи проекта подразумевали, что учителям было бы правильно научиться смещать внимание в сторону слабых.
    - Вероятность случайных флуктуаций изменения векторов из-за влияния параметров отдельного урока может быть значительной
    - Учитывая результаты анализа корреляций разных параметров, которые выявились при просмотре корреляционной матрицы, кажется перспективным попытаться восстановить параметры удовлетворенности и желания изменений по текстовым отчетам учителей.

___
#### 6.4 Кластеризация

см. [clustering_organizations.ipynb](clustering_organizations.ipynb)

- Были проведены эксперименты с кластеризацией организаций, принявших участие в проекте, отдельно по двум группам признаков, и проведено сравнение распределения организаций по кластерам в первом и во втором случаях.
- Первая группа параметров характеризует свойства организации, не связанные с конкретными действиями учителей в проекте. Это - те параметры, которые скорее являются особенностями школ независимо от того, как именно они организовали потом работу в проекте.
- Вторая группа параметров характеризует то, какие показатели продемонстрировала организация во время работы в рамках проекта.
- Сравнение этих двух альтернативных наборов кластеров позволило проверить, есть ли влияние параметров ДО на параметры ПОСЛЕ (дисклеймер: нет)

**Параметры школ для первого датафрейма (общие параметры школы)** 
- Количество учителей в команде
- Среднее количество учеников в классах
- Средний уровень учеников (матожидание)
- Разрыв уровня учеников (дисперсия)

**Параметры школ для второго датафрейма (по результатам работы в рамках проекта)** 
- Количество протоколов на одного учителя
- Периодичность уроков
- Взаимодействия по уровням (матожидание)
- Смещение внимания учителя (изменение вектора намерения от весны к осени)

В каждом датасете - по 67 строк.

Для оценки качества моделей использовалась метрика Sillhouette (далее - М) [см. Википедию](https://en.wikipedia.org/wiki/Silhouette_(clustering))

Для первого датафрейма были проведены эксперименты с пятью кластеризациями:
- DBSCAN - по полному датафрейму из 4 колонок (4 кластера, 41 выброс, М = -0.11)
- DBSCAN - по сокращенному датафрейму из 2 колонок (2 кластера, 18 выбросов, М = -0.04)
- AffinityPropagation -  (10 кластеров, 0 выбросов, М = 0.28)
- **KMeans** - лучший результат - (3 кластера, 0 выбросов, М = 0.368
- AgglomerativeClustering - (3 кластера, 0 выбросов, М = 0.356)

Результаты кластеризации на три колонки с помощью KMeans могут быть описаны словами:
- Первый   кластер – это школы с обычной наполняемостью классов.
- Второй кластер – это малокомплектные школы с учениками разного уровня успеваемости
- Третий кластер – это три малокомплектные школы, уровень успеваемости учеников в которых примерно одинаков.

При этом для подбора оптимального количества кластеров для метода KMeans использовался стандартный подход с вычислением метрик качества для KMeans с количеством кластеров от 1 до 10 и выбором лучших (подробности см. [clustering_organizations.ipynb](clustering_organizations.ipynb))

Для второго датафрейма были проведены эксперименты только с **KMeans**:
- **KMeans** - лучший результат - (2 кластера, 0 выбросов, М = 0.272
- KMeans - (4 кластера, 0 выбросов, М = 0.258

Результаты кластеризации с помощью KMeans  на 2 кластера могут быть описаны словами:
- Первый   кластер – это школы, в которых учителя в среднем провели больше уроков.  В этих школах внимание от весны к осени изменилось в пользу более слабых учеников.
- Второй кластер – это школы, где учителя заполнили меньше протоколов и больше поддерживали сильных учеников. 

**Общие выводы по кластеризации школ**
- Для визуального анализа результатов кластеризации датафреймов, состоящих из 4 колонок, была написана функция, которая выводила 6 отдельных диаграмм (отдельная диаграмма на каждую пару колонок).
- Кластеризация школ по параметрам, не связанным с тем, как именно они проводили работу в рамках проекта, позволила выделить 3 кластера, которые могут быть описаны.
- Кластеризация школ по результатам работы учителей в проекте позволила разбить школы на две примерно равные по количеству группы, при описании которых выявилась интересная закономерность: чем интенсивнее педагоги работали в рамках проекта, тем стабильнее были их уроки (дисперсия интервалов между уроками была меньше) и тем больше внимания они уделяли более слабым ученикам.
- Это может свидетельствовать о том, что эти школы более осмысленно работали в рамках проекта.
- Визуальный анализ не позволил обнаружить корреляций между результатами кластеризации школ ДО и ПОСЛЕ.

___
#### 6.5 Интонационный анализ

см. [texts_analisis.ipynb](texts_analisis.ipynb)

**Постановка задачи**
- В каждом протоколе, который заполняется после посещения урока, есть текстовое поле с вопросом:  
«Выводы и идеи. (Вы удовлетворены? Нужно ли что-то изменить? Какую достижимую цель вы хотели бы себе поставить? Понимаете ли вы, как ее достичь?)»
- Ответы на этот вопрос могут быть одним из критериев оценки эффективности внедрения кураторской методики
- С осени 2022 года в протоколах появились «параллельные» вопросы со шкалой значений Да – Скорее да – Скорее нет – Нет:
    - «Удовлетворенность уроком»
    - «Нужно ли что-то изменить»
- Задачей интонационного анализа является предсказание ответов на эти два вопроса на основании анализа текстового комментария учителя.
- Кроме того, в качестве параллельного эксперимента была сформирована верификационная выборка из 200 вопросов, для которой ответы на два шкалированных вопроса попытался предсказать эксперт. Это позволило сравнить точности предсказаний модели и эксперта.

**Подготовка данных**
- Загружаем исходный датафрейм с 3001 протоколом и оставляем в нем четыре колонки:
    - prot_id, 
    - satisfaction, 
    - wish_to_change, 
    - teacher_comment
- Удаляем строки, в которых поле teacher_comment не заполнено (2890 записей)
- Создаем еще две колонки с очищенными комментариями:
    - text_without_stopwords, 
    - text_with_stopwords
- Очистка подразумевает:
    -  Удаление служебных символов, знаков препинания;
    -  Удаление стоп-слов (для колонки text_without_stopwords)
    -  Выделение лексем (pymorphy2) 
    
**Верификационная, обучающая и тестовая выборки**
- Верификационная выборка – 200 случайных записей из 2890 (независимо от того, содержатся или нет в выборке ответы на вопросы satisfaction, wish_to_change)
- Из оставшихся 2690 записей формируются два датафрейма. В одном содержатся все записи, для которых заполнено поле satisfaction (919 строк), в другом – все записи, для которых заполнено поле wish_to_change (859 строк).
- Для датафрейма S (satisfaction) формируем обучающую и тестовую выборки:
    - train_S (735 записей), 
    - test_S (184 записи)
- Для датафрейма W (wish_to_change) формируем обучающую и тестовую выборки:
    - train_W (687 записей), 
    - test_W (172 записи)
- Целевые колонки содержат 0 и 1.
    - Для satisfaction 1 соответствует ответу Да, 0 – всем остальным вариантам
    - Для wish_to_change 1 соответствует вариантам Да, Скорее да, 0 - остальным
- Отличие в правиле выбора 0 и 1 для этих двух колонок связано с тем, что, предположительно, ответ на вопрос о степени удовлетворения провоцировал людей чаще выбирать позитивные ответы, и поэтому только ответ Да будем считать положительным, а любой другой - отрицательным. Со второй колонкой ситуация мягче.   
  
**Выбор модели**  
Для предсказания использовались TF-IDF и модель логистической регрессии. Предполагалось, что если экспертные предсказания покажут более высокие результаты, чем результаты этой модели, можно будет провести эксперименты с другими алгоритмами предсказания ответов на интересующие нас вопросы, но в чем-то метрики, продемонстрированные с использованием TF-IDF, оказались лучше экспертных.

**Предсказания степени удовлетворенности**

Предсказания на исходных текстах (accuracy = **0.64**):

       precision    recall  f1-score   support
    0       0.49      0.69      0.57        64
    1       0.79      0.62      0.69       120

Предсказания на лемматизированных текстах со стоп-словами (accuracy = 0.61):

       precision    recall  f1-score   support
    0       0.47      0.65      0.54        65
    1       0.76      0.60      0.67       119

Предсказания на лемматизированных текстах без стоп-слов (accuracy = 0.59):

       precision    recall  f1-score   support
    0       0.42      0.61      0.50        62
    1       0.74      0.57      0.65       122


**Предсказания необходимости что-то изменить**

Предсказания на исходных текстах (accuracy = 0.73):

       precision    recall  f1-score   support
    0       0.93      0.73      0.82       147
    1       0.30      0.68      0.42        25

Предсказания на лемматизированных текстах со стоп-словами (accuracy = **0.75**):

       precision    recall  f1-score   support
    0       0.95      0.75      0.84       147
    1       0.34      0.76      0.47        25

Предсказания на лемматизированных текстах без стоп-слов (accuracy = **0.75**):

       precision    recall  f1-score   support
    0       0.96      0.74      0.84       149
    1       0.32      0.78      0.46        23


**Верификация моделей vs Верификация эксперта**

На этом этапе рассматриваем верификационную выборку из 200 протоколов, в которых заполнено поле teacher_comments
Часть протоколов из этих двухсот - с заполненными полями satisfaction и wish_to_change, а часть - с незаполненными.

Есть отдельный файл, в котором эксперт попытался, читая текстовые комментарии в этих 200 протоколах, дать ответы на вопросы о степени удовлетворения и желании что-то изменить, ориентируясь на текст комментария и свою интуицию.

Мы можем для всех 200 протоколов сравнить оценки эксперта и предсказаний моделей.

Модель vs Выбор учителя (satisfaction) (accuracy = **0.7**):

       precision    recall  f1-score   support
    0       0.47      0.84      0.60        19
    1       0.92      0.65      0.76        51

Модель vs Выбор учителя (wish_to_change) (accuracy = 0.72):

       precision    recall  f1-score   support
    0       0.94      0.73      0.82        60
    1       0.24      0.62      0.34         8

Эксперт vs Выбор учителя (satisfaction) (accuracy = 0.6):

       precision    recall  f1-score   support
    0       0.50      0.61      0.55        28
    1       0.69      0.60      0.64        42

Эксперт vs Выбор учителя (wish_to_change) (accuracy = **0.76**):

       precision    recall  f1-score   support
    0       0.83      0.83      0.83        47
    1       0.62      0.62      0.62        21

Эксперт vs Модель (satisfaction) (accuracy = 0.67):

       precision    recall  f1-score   support
    0       0.69      0.40      0.50        86
    1       0.66      0.87      0.75       114

Эксперт vs Модель (wish_to_change) (accuracy = 0.71):

       precision    recall  f1-score   support
    0       0.70      0.96      0.81       126
    1       0.81      0.30      0.44        74


**Общие выводы по интонационному анализу**
- Метрики моделей оказались низкими
- Экспертные оценки оказались не лучше

Есть основания полагать, что на эти результаты оказали влияние многие факторы, и главным является неточность формулировок вопросов, на которые отвечали учителя.

Итак:
- Предсказывать шкалированные данные по весне  на основании текстовых комментариев нецелесообразно из-за низкой точности
- Необходимо переработать протоколы и изменить формулировки или даже состав вопросов.

___
#### 6.6 Главные результаты
- На этапе очистки данных выявился ряд проблем, связанных с отсутствием данных или некорректными значениями. Необходимо изменить процедуру сбора первичных данных.
- Состав вопросов для протоколов и их формулировок требует внимательного анализа и доработки - ряд результатов, полученных в ходе исследования, может свидетельствовать о проблемах в текущем наборе и качестве вопросов.
- В ходе кластеризации организаций по результатам работы в рамках проекта выявился ряд закономерностей, которые могут позволить выработать критерии для генерации метрик качества работы учителей и школ и раннего выявления проблем.
- В ходе исследования не раскрыт потенциал анализа динамики по протоколам учителей из одной группы протоколов. В каждой группе протоколов содержится дополнительный набор параметров, которые не анализировались в рамках настоящей работы. Помимо того, что эти параметры могут характеризовать отработку учителем конкретного навыка, они могут оказать влияние и на общую оценку эффективности работы учителя.


___
#### 6.7 Использованные библиотеки и отдельные классы
**общесистемные библиотеки**
- pandas
- numpy
- re
- StandardScaler (из sklearn.preprocessing)
- datetime

**графика**
- seaborn
- matplotlib

**sklearn**
- KMeans 
- AgglomerativeClustering 
- DBSCAN
- AffinityPropagation
- adjusted_rand_score
- silhouette_score
- train_test_split
- TfidfVectorizer
- LogisticRegression

**тексты**
- nltk
- stopwords (nltk.corpus)
- word_tokenize (nltk.tokenize)
- MorphAnalyzer (pymorphy2)


___
<a id="plans" name="plans"></a>
### 7. Планы

1. Создание на сайте kurators.direktoria.org личных кабинетов для всех участников школьных команд с возможностями:
- загрузки протоколов (без необходимости использования xlsx-файлов);
- планирования уроков, настройки уведомлений, получения рекомендаций;
- просмотра статистики и анализа динамики развития процесса внедрения кураторской методики;

2. Реализация алгоритмов для формирования рекомендаций (список приблизительный):

для учителей:
- после загрузки протокола - оценка текущей динамики изменения базовых показателей (для каждой группы протоколов - свой набор показателей);
- рекомендации по выбору следующего протокола наблюдения;

для кураторов:
- после загрузки протокола - оценка текущей динамики изменений базовых показателей у учителя;
- сравнение динамик двух учителей, находящихся в одной паре;
- рекомендации по ближайшим протоколам пары учителей;

для старших кураторов:
- то же, что для кураторов;
- рекомендации по совместному обсуждению с кураторами проблемы рассинхронизации результатов учителей (если работа разных пар отличается, а общие, стратегические задачи у всех кураторов и учителей при этом одинаковые)

для организаторов обучения:
- выявление проблем в периодичности проведения уроков отдельными учителями;
- выявление противоречий в данных (непротиворечивость параметров);
- выявление учителей или школ с аномальной динамикой в данных и анализ таких кейсов.
