In [55]:
import os
import pandas as pd
import chardet
import string
import warnings

warnings.simplefilter('ignore')

# Задание 1: Имена

**Исходные данные:**

[names.txt](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/c47a2634-d6cf-4b2b-9229-95fbdbe92cae/names.txt?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20200812%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20200812T192332Z&X-Amz-Expires=86400&X-Amz-Signature=e4a9d1cc62e088c1da085b96a21298ca673e0e52a7be2dc18efaedf60accdd27&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22names.txt%22)

В текстовом файле содержится набор имён.

## Задача

Нужно выполнить следующие действия и вывести результат вычислений:

1. Отсортировать все имена в лексикографическом порядке.
2. Посчитать для каждого имени алфавитную сумму – сумму порядковых номеров букв (MAY: 13 + 1 + 25 = 39).
3. Умножить алфавитную сумму каждого имени на порядковый номер имени в отсортированном списке (индексация начинается с 1). Например, если MAY находится на 63 месте в списке, то результат для него будет 63 * 39 = 2457.
4. Сложить произведения из п. 3 для всех имен из файла и получить число.
5. Вывести полученную сумму.

In [2]:
!chardetect names.txt
os.listdir()

names.txt: ascii with confidence 1.0


['.ipynb_checkpoints',
 'hits.txt',
 'names.txt',
 'tech_quality',
 'Test Tasks.ipynb']

In [3]:
with open('names.txt') as file:
    names = file.read().split(',')
    names = sorted([name.replace('"', '') for name in names])
    
    letters = list(string.ascii_letters[26:])
    letters_dict = dict(zip(letters,
                            [letters.index(letter) + 1 for letter in letters]))   
    names_and_sum = {}
    for name in names:
        names_and_sum[name] = sum([letters_dict[letter] for letter in list(name)])

    mult_sum = 0
    for k, v in names_and_sum.items():
        mult_sum += names_and_sum[k] * (names.index(k) + 1)
        
    print(f'Финальный результат: {mult_sum}')

Финальный результат: 871853874


# Задание 2: IP-адреса

**Исходные данные:**

[hits.txt](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/f4f86e5b-f716-478a-9750-5960998f852f/hits.txt?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20200812%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20200812T192522Z&X-Amz-Expires=86400&X-Amz-Signature=f8eee541dce492bd87ae57e8e86c2e69cdba7f366e9bfa1d42278eb7a5355203&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22hits.txt%22)

Файл состоит из строк вида: `<host>\t<ip>\t<page>\n`, где host — корневой домен, ip — IP-адрес, page — «хвост» ссылки.

## Задача

Необходимо вывести 5 IP-адресов, которые встречаются в файле чаще других.

In [4]:
!chardetect hits.txt

hits.txt: ascii with confidence 1.0


In [5]:
df = pd.read_csv('hits.txt', sep='\t', header=None)
df.head()

Unnamed: 0,0,1,2
0,https://wikipedia.org,72.110.191.15,/friends/files
1,rambler.ru,142.93.168.247,/universe.php
2,ftp://info.itar-tass.com,90.68.118.69,/login/monitors/static/me
3,http://altavista.com,18.79.197.236,/friends/tasks/universe
4,ftp://tetrika-school.ru,115.26.250.226,/translate/anekdots/my-files/monday


Изменим названия колонок для удобства:

In [6]:
df.columns = ['host', 'ip', 'page']
df.head()

Unnamed: 0,host,ip,page
0,https://wikipedia.org,72.110.191.15,/friends/files
1,rambler.ru,142.93.168.247,/universe.php
2,ftp://info.itar-tass.com,90.68.118.69,/login/monitors/static/me
3,http://altavista.com,18.79.197.236,/friends/tasks/universe
4,ftp://tetrika-school.ru,115.26.250.226,/translate/anekdots/my-files/monday


Посмотрим на базовую информацию по датасету:

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1247036 entries, 0 to 1247035
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   host    1247036 non-null  object
 1   ip      1247036 non-null  object
 2   page    1247036 non-null  object
dtypes: object(3)
memory usage: 28.5+ MB


Можно увидеть, что в датасете 1247036 наблюдений, нет пропусков, типы всех переменных - строковые объекты.

Нас интересует колонка 'ip', поэтому имеет смысл рассмотреть ее отдельно:

In [8]:
print(f"Уникальных значений ip-адресов: {len(df['ip'].unique())}")
print(f'IP-адреса:\n\n {pd.Series(df.ip.unique())}')

Уникальных значений ip-адресов: 2000
IP-адреса:

 0         72.110.191.15
1        142.93.168.247
2          90.68.118.69
3         18.79.197.236
4        115.26.250.226
             ...       
1995    255.237.161.177
1996     164.222.238.94
1997      146.23.162.19
1998       222.82.41.97
1999    143.107.107.234
Length: 2000, dtype: object


Выведем топ-5 IP-адресов, которые встречаются в данном файле чаще всех остальных:

In [9]:
df['ip'].value_counts()[:5]

154.157.157.156    1531
82.146.232.163     1505
194.78.107.33      1494
226.247.119.128    1494
21.143.243.182     1479
Name: ip, dtype: int64

# Задание 3: Оценка уроков

*В нашей школе ученики и репетиторы занимаются в специальном онлайн-классе, в котором они могут общаться друг с другом, рисовать на доске, переписываться в чате, обмениваться файлами и решать различные задачки. Информацию о каждом уроке мы записываем в базу данных в таблицу lessons. На каждом таком уроке присутствует один репетитор и один ученик. В конце урока, когда учитель и ученик покидают класс, им предлагается по желанию оценить качество пройденного урока по пятибальной шкале. Оценки мы записываем в таблицу quality.*

**Исходные данные:**

[tech_quality.zip](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f35472a4-8bd2-49fa-b69b-a86349b6040b/tech_quality.zip)

В архиве содержится четыре файла с выгрузкой строк из базы.

Файл **users.txt** хранит информацию о пользователях:

- id – уникальный идентификатор пользователя
- role – указывает, является ли пользователь учеником (pupil) или учителем (tutor)

Файл **lessons.txt** содержит следующие поля:

- id – уникальный идентификатор урока
- event_id – идентификатор, связывающий уроки с файлом participants. У нескольких уроков может быть один и тот же event_id
- subject – предмет урока, строка
- scheduled_time – время начала урока, в формате ГГГГ-ММ-ДД чч:мм:сс (иногда есть еще миллисекунды). Время указано в UTC

Файл **participants.txt** позволяет связать урок с его участниками. Он содержит следующие поля:

- user_id – идентификатор пользователя (указывает на запись в файле users.txt)
- event_id – идентификатор, связывающий урок с участником. Чтобы понять, какие пользователи были на уроке Х, нужно найти в файле participants.txt строки, у которых event_id совпадает с event_id урока Х.

Файл **quality.txt** содержит следующие поля:

- lesson_id – идентификатор урока, указывающий на запись в таблице lessons.txt. У нескольких строчек из этого файла может быть один и тот же lesson_id, потому что оценок за урок может быть несколько (в случае, когда и ученик, и репетитор оценили качество урока)
- tech_quality – оценка качества урока. Это число от 1 до 5. Иногда его может не быть, если пользователь не выставил оценку.

## Задача

Нужно найти, какой из репетиторов получал самую низкую среднюю оценку качества после уроков по физике за каждый день, и вывести эту оценку.

Примечания:

- Необходимо учитывать оценки и учителей, и учеников.
- Нужно учитывать только тех учителей, за уроки по физике которых в этот день стоит хотя бы одна оценка.
- Начало урока для решения задачи должно учитываться по московскому времени.
- При расчёте среднего значения не нужно учитывать ситуации, когда пользователь не выставил оценку.
- Если у нескольких учителей после расчёта совпадают средние значения, можно вывести любого из них.

Решение должно выглядеть примерно так:

![image.png](attachment:image.png)

Проверим кодировки файлов:

In [10]:
!chardetect tech_quality/users.txt
!chardetect tech_quality/lessons.txt
!chardetect tech_quality/participants.txt
!chardetect tech_quality/quality.txt

tech_quality/users.txt: ascii with confidence 1.0
tech_quality/lessons.txt: ascii with confidence 1.0
tech_quality/participants.txt: ascii with confidence 1.0
tech_quality/quality.txt: ascii with confidence 1.0


In [11]:
folder = 'tech_quality/'
files = list(os.walk('tech_quality'))[0][2]
files

['lessons.txt', 'participants.txt', 'quality.txt', 'users.txt']

Прочитаем по очереди каждый файл из папки архива:

In [12]:
lessons = pd.read_csv(folder + files[0], sep='|')
lessons.head()

Unnamed: 0,id,event_id,subject,scheduled_time
0,--------------------------------------+-------...,,,
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114.0,phys,2020-01-19 12:00:00
2,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,51568.0,it,2020-01-19 13:00:00
3,62e1a078-33de-47c1-99d2-845b1daca56f,52790.0,hist,2020-01-19 13:00:00
4,00fc6685-f53a-49bb-b960-5e0042fd3852,51341.0,phys,2020-01-17 12:00:00


In [13]:
participants = pd.read_csv(folder + files[1], sep='|')
participants.head()

Unnamed: 0,event_id,user_id
0,----------+--------------------------------------,
1,38114,e28351f5-4ccb-4549-8647-d43f2b15e7b8
2,38114,4df2832a-1d63-4453-9659-43993fc35996
3,51568,bb1c0bc8-1212-452b-97a0-439d4a2169e2
4,51568,63441abe-c4da-4275-ba26-66f7dbd65dde


In [14]:
quality = pd.read_csv(folder + files[2], sep='|')
quality.head()

Unnamed: 0,lesson_id,tech_quality
0,--------------------------------------+-------...,
1,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,5.0
2,62e1a078-33de-47c1-99d2-845b1daca56f,5.0
3,62e1a078-33de-47c1-99d2-845b1daca56f,5.0
4,00fc6685-f53a-49bb-b960-5e0042fd3852,5.0


In [15]:
users = pd.read_csv(folder + files[3], sep='|')
users.head()

Unnamed: 0,id,role
0,--------------------------------------+-------,
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,4df2832a-1d63-4453-9659-43993fc35996,tutor
3,bb1c0bc8-1212-452b-97a0-439d4a2169e2,pupil
4,63441abe-c4da-4275-ba26-66f7dbd65dde,tutor


Посмотрим информацию по каждому датасету отдельно:

### lessons

In [16]:
lessons.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380 entries, 0 to 379
Data columns (total 4 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0                     id                    380 non-null    object 
 1    event_id                               378 non-null    float64
 2    subject                                378 non-null    object 
 3          scheduled_time                   378 non-null    object 
dtypes: float64(1), object(3)
memory usage: 12.0+ KB


Видим, что имеются по два NaN-значения в 3-х колонках. Посмотрим на датасет и попробуем избавиться от пропусков.

Однако для начала имеет смысл изменить названия колонок, поскольку вызов по текущим названиям выдает ошибку из-за некорректности.

In [17]:
lessons.columns = ['lesson_id', 'event_id', 'subject', 'scheduled_time']

In [18]:
lessons

Unnamed: 0,lesson_id,event_id,subject,scheduled_time
0,--------------------------------------+-------...,,,
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114.0,phys,2020-01-19 12:00:00
2,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,51568.0,it,2020-01-19 13:00:00
3,62e1a078-33de-47c1-99d2-845b1daca56f,52790.0,hist,2020-01-19 13:00:00
4,00fc6685-f53a-49bb-b960-5e0042fd3852,51341.0,phys,2020-01-17 12:00:00
...,...,...,...,...
375,056c3d91-dce7-4071-91d3-1de816ee63a3,51001.0,hist,2020-01-17 12:45:00
376,c64a1daf-d7f5-4c8c-ac9f-df634d77327b,50304.0,bio,2020-01-11 11:00:00
377,aa7702bc-5271-469c-a1c2-b7e814fd7e20,49880.0,bio,2020-01-16 15:00:00
378,8643fa00-217a-42ae-a27d-e6f47c0501f1,55449.0,bio,2020-01-19 12:15:00


Взглянув на датасет можно заметить те самые 2 пропуска в колонках event_id, subject, scheduled_time (в первой и последней строчках).

Кроме того в колонке id имеется некорректное значение, от которого также можем избавиться без особой потери информативности, поскольку в общей сложности будет удалено всего 2 из 380 строчки.

In [19]:
lessons.drop([0, 379], axis=0, inplace=True)
lessons.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 378 entries, 1 to 378
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   lesson_id       378 non-null    object 
 1   event_id        378 non-null    float64
 2   subject         378 non-null    object 
 3   scheduled_time  378 non-null    object 
dtypes: float64(1), object(3)
memory usage: 14.8+ KB


Изменим нелогичный числовой формат колонки event_id на строковый:

In [20]:
lessons.event_id = lessons.event_id.astype(int)
lessons.event_id = lessons.event_id.astype(str)

Датасет lessons теперь не имеет пропусков.

Посмотрим на уникальные значения колонок:

In [21]:
for column in lessons.columns:
    print(f'\nУникальные значения для {column}:\n {lessons[column].unique()}')


Уникальные значения для lesson_id:
 [' 1e7bb408-cfef-4a9f-8328-351c9483a64c '
 ' 6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a '
 ' 62e1a078-33de-47c1-99d2-845b1daca56f '
 ' 00fc6685-f53a-49bb-b960-5e0042fd3852 '
 ' 4cadf623-82e6-422f-a342-acf978302fb2 '
 ' f3f15fee-ad91-429c-8b1e-faeb42f78f58 '
 ' e597a79a-3f68-4d15-bc77-c7000bcf8e52 '
 ' 44e2e74c-8481-41a2-bd64-f6af688169b7 '
 ' ea6f0bf3-bcfc-4555-9b16-cc2cfe722e17 '
 ' 7d56b43a-d137-446d-8570-8d7d5ccbaee9 '
 ' 38a8b0ea-ff54-42cf-ab5b-742700ffcd0a '
 ' b1a122d7-b1c3-43c9-86e1-ec5e40456a3b '
 ' d8816fa1-dd30-4a4b-8bd1-32285dec279f '
 ' ec953406-b4a3-416a-b1b6-4c4853995047 '
 ' 952674d6-5d00-4797-95f7-6686014a6b65 '
 ' 7c60dff9-7145-4a89-8310-e5ad951f7758 '
 ' 84adb28c-182d-4c9f-b5ef-4f8138368d85 '
 ' 36e05c76-2e4d-46d8-bd3b-fdcfa98b962b '
 ' 59e1a7df-46bf-4415-a711-67912df0f64a '
 ' 4fd4f095-a793-4375-82e8-7250dd5036b0 '
 ' cf2dcbaf-06fb-4365-b34a-9c0858aa8098 '
 ' 25387158-4669-405f-b5e5-c9bb00b82686 '
 ' d55749ed-5c0f-45f0-ad82-d3f908b31750

Видно, что в значениях имеются лишние пробелы, которые могут помешать в дальнейшей обработке данных.

Методом strip() избавимся от пробелов вокруг значений колонок. Для этого напишем функцию:

In [22]:
def del_spaces(dataset):
    for column in dataset.columns:
        dataset[column] = dataset[column].str.strip()

In [23]:
del_spaces(lessons)

Для удобства работы с данными изменим формат колонки scheduled_time на datetime соответственно:

In [24]:
lessons.scheduled_time = pd.to_datetime(lessons.scheduled_time)
lessons.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 378 entries, 1 to 378
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   lesson_id       378 non-null    object        
 1   event_id        378 non-null    object        
 2   subject         378 non-null    object        
 3   scheduled_time  378 non-null    datetime64[ns]
dtypes: datetime64[ns](1), object(3)
memory usage: 14.8+ KB


### participants

Проделаем аналогичные операции с оставшимися датасетами:

In [25]:
participants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 745 entries, 0 to 744
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0    event_id                               745 non-null    object
 1                  user_id                  743 non-null    object
dtypes: object(2)
memory usage: 11.8+ KB


In [26]:
participants

Unnamed: 0,event_id,user_id
0,----------+--------------------------------------,
1,38114,e28351f5-4ccb-4549-8647-d43f2b15e7b8
2,38114,4df2832a-1d63-4453-9659-43993fc35996
3,51568,bb1c0bc8-1212-452b-97a0-439d4a2169e2
4,51568,63441abe-c4da-4275-ba26-66f7dbd65dde
...,...,...
740,49880,8476b612-223f-4c86-9b0b-14bc04759233
741,49880,582e6abb-dd9a-42fa-b441-455eac28327e
742,55449,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb
743,55449,d3364cf3-46cc-4e64-ad11-70a069f7c049


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [27]:
participants.columns = ['event_id', 'user_id']
participants.drop([0, 744], axis=0, inplace=True)
del_spaces(participants)

In [28]:
participants.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 743 entries, 1 to 743
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   event_id  743 non-null    object
 1   user_id   743 non-null    object
dtypes: object(2)
memory usage: 17.4+ KB


### Quality

In [29]:
quality.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 367 entries, 0 to 366
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0                 lesson_id                 367 non-null    object
 1    tech_quality                           365 non-null    object
dtypes: object(2)
memory usage: 5.9+ KB


In [30]:
quality

Unnamed: 0,lesson_id,tech_quality
0,--------------------------------------+-------...,
1,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,5
2,62e1a078-33de-47c1-99d2-845b1daca56f,5
3,62e1a078-33de-47c1-99d2-845b1daca56f,5
4,00fc6685-f53a-49bb-b960-5e0042fd3852,5
...,...,...
362,aa7702bc-5271-469c-a1c2-b7e814fd7e20,5
363,8643fa00-217a-42ae-a27d-e6f47c0501f1,5
364,7a15af58-39d0-4207-bfdf-3fa176b7fb4e,5
365,7a15af58-39d0-4207-bfdf-3fa176b7fb4e,5


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [31]:
quality.columns = ['lesson_id', 'tech_quality']
quality.drop([0, 366], axis=0, inplace=True)
del_spaces(quality)

Избавимся от пропусков:

Для дальнейших вычислений лучше сразу преобразовать колонку с оценками (tech_quality) в числовой формат:

In [32]:
quality.tech_quality = quality.tech_quality.apply(lambda x: int(x) if x else 0)
quality.tech_quality.unique()

array([5, 2, 4, 0, 3, 1], dtype=int64)

In [33]:
quality.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 365 entries, 1 to 365
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   lesson_id     365 non-null    object
 1   tech_quality  365 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 8.6+ KB


### users

In [34]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 745 entries, 0 to 744
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0                     id                    745 non-null    object
 1    role                                   743 non-null    object
dtypes: object(2)
memory usage: 11.8+ KB


In [35]:
users

Unnamed: 0,id,role
0,--------------------------------------+-------,
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,4df2832a-1d63-4453-9659-43993fc35996,tutor
3,bb1c0bc8-1212-452b-97a0-439d4a2169e2,pupil
4,63441abe-c4da-4275-ba26-66f7dbd65dde,tutor
...,...,...
740,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb,tutor
741,d3364cf3-46cc-4e64-ad11-70a069f7c049,pupil
742,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb,tutor
743,f76609c8-ba5d-4818-9b57-097debc90cab,pupil


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [36]:
users.columns = ['user_id', 'role']
users.drop([0, 744], axis=0, inplace=True)
del_spaces(users)

In [37]:
print(f'Уникальные пользователи:\n {users.role.unique()}')

Уникальные пользователи:
 ['pupil' 'tutor' 'admin']


Согласно поставленной задаче, учитывать необходимо оценки учителей и учеников, но не админов, поэтому можно удалить данных пользователей:

In [38]:
users.drop(users.loc[users.role == 'admin'].index, axis=0, inplace=True)

In [39]:
users.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 741 entries, 1 to 743
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  741 non-null    object
 1   role     741 non-null    object
dtypes: object(2)
memory usage: 17.4+ KB


**Теперь приступим к объединению датафреймов для выполнения задачи.**

Для начала объединим участников и пользователей по общей колонке **user_id**:

In [40]:
merged = users.merge(participants, on='user_id', how='inner')
merged

Unnamed: 0,user_id,role,event_id
0,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114
2,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114
3,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114
4,4df2832a-1d63-4453-9659-43993fc35996,tutor,38114
...,...,...,...
6610,9a192e4d-473f-4f81-af68-1b422bd814f6,tutor,54327
6611,720868c1-3d34-44a7-a23e-6c4a0fac609a,pupil,51001
6612,582e6abb-dd9a-42fa-b441-455eac28327e,pupil,49880
6613,d3364cf3-46cc-4e64-ad11-70a069f7c049,pupil,55449


Далее необходимо объединить полученный датафрейм с датафреймом **lessons** по общей колонке **event_id**:

In [41]:
merged = merged.merge(lessons, on='event_id', how='inner')
merged

Unnamed: 0,user_id,role,event_id,lesson_id,subject,scheduled_time
0,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,1e7bb408-cfef-4a9f-8328-351c9483a64c,phys,2020-01-19 12:00:00.000000
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000
2,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,1e7bb408-cfef-4a9f-8328-351c9483a64c,phys,2020-01-19 12:00:00.000000
3,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000
4,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,1e7bb408-cfef-4a9f-8328-351c9483a64c,phys,2020-01-19 12:00:00.000000
...,...,...,...,...,...,...
8464,dbc0ff98-e23b-4bbb-b735-a398618bdcd0,pupil,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17 16:00:00.000000
8465,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc,tutor,55324,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc,phys,2020-01-17 09:19:43.203535
8466,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc,tutor,55324,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc,phys,2020-01-17 09:19:43.203535
8467,4758da03-f56d-4cf6-a58d-17dd3d7d8445,tutor,55572,4758da03-f56d-4cf6-a58d-17dd3d7d8445,hist,2020-01-17 20:02:55.436034


Последнее объединение с датафреймом **quality** по общей колонке **lesson_id**:

In [44]:
merged = merged.merge(quality, on='lesson_id', how='inner')
merged

Unnamed: 0,user_id,role,event_id,lesson_id,subject,scheduled_time,tech_quality
0,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000,5
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000,5
2,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000,5
3,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000,5
4,4df2832a-1d63-4453-9659-43993fc35996,tutor,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12 12:00:00.000000,5
...,...,...,...,...,...,...,...
9521,eb47bfc8-ff11-42cd-a48b-1c88aca067f7,tutor,48696,e3b40613-d6ca-41f2-a7b4-d6eabe3247e0,phys,2020-01-18 08:00:00.000000,0
9522,eb47bfc8-ff11-42cd-a48b-1c88aca067f7,tutor,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17 16:00:00.000000,5
9523,eb47bfc8-ff11-42cd-a48b-1c88aca067f7,tutor,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17 16:00:00.000000,5
9524,dbc0ff98-e23b-4bbb-b735-a398618bdcd0,pupil,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17 16:00:00.000000,5


In [45]:
merged.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9526 entries, 0 to 9525
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   user_id         9526 non-null   object        
 1   role            9526 non-null   object        
 2   event_id        9526 non-null   object        
 3   lesson_id       9526 non-null   object        
 4   subject         9526 non-null   object        
 5   scheduled_time  9526 non-null   datetime64[ns]
 6   tech_quality    9526 non-null   int64         
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 595.4+ KB


Нас интересуют данные по учителям по физике, где есть хотя бы 1 оценка.

Также надо извлечь только дату (без времени) для группировки:

In [56]:
new_df = merged.loc[(merged.subject == 'phys') & (merged.tech_quality != 0)]
new_df.scheduled_time = new_df.scheduled_time.dt.date
new_df

Unnamed: 0,user_id,role,event_id,lesson_id,subject,scheduled_time,tech_quality
0,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12,5
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12,5
2,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12,5
3,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12,5
4,4df2832a-1d63-4453-9659-43993fc35996,tutor,38114,2e3b1173-7edb-4737-9500-a23d7b852518,phys,2020-01-12,5
...,...,...,...,...,...,...,...
9517,c31d06f1-b667-489f-af70-d2c88402826c,tutor,52019,6cadb935-594f-407b-b60d-706c0e09d408,phys,2020-01-14,5
9518,c31d06f1-b667-489f-af70-d2c88402826c,tutor,52019,6cadb935-594f-407b-b60d-706c0e09d408,phys,2020-01-14,5
9522,eb47bfc8-ff11-42cd-a48b-1c88aca067f7,tutor,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17,5
9523,eb47bfc8-ff11-42cd-a48b-1c88aca067f7,tutor,44383,84fa104f-4f17-4277-b281-809c80755355,phys,2020-01-17,5


In [74]:
mean_scores = new_df.groupby(['scheduled_time', 'event_id']).\
                     tech_quality.\
                     mean()
mean_scores

scheduled_time  event_id
2020-01-11      38199       3.0
                41959       5.0
                44081       5.0
                44082       4.5
                44503       5.0
                           ... 
2020-01-20      53356       5.0
                53917       4.0
                53969       5.0
                54196       5.0
                55811       4.5
Name: tech_quality, Length: 123, dtype: float64