In [1]:
import os
import pandas as pd
import chardet
import string
import warnings

warnings.simplefilter('ignore')

# Задание 1: Имена

**Исходные данные:**

[names.txt](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/c47a2634-d6cf-4b2b-9229-95fbdbe92cae/names.txt?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20200812%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20200812T192332Z&X-Amz-Expires=86400&X-Amz-Signature=e4a9d1cc62e088c1da085b96a21298ca673e0e52a7be2dc18efaedf60accdd27&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22names.txt%22)

В текстовом файле содержится набор имён.

## Задача

Нужно выполнить следующие действия и вывести результат вычислений:

1. Отсортировать все имена в лексикографическом порядке.
2. Посчитать для каждого имени алфавитную сумму – сумму порядковых номеров букв (MAY: 13 + 1 + 25 = 39).
3. Умножить алфавитную сумму каждого имени на порядковый номер имени в отсортированном списке (индексация начинается с 1). Например, если MAY находится на 63 месте в списке, то результат для него будет 63 * 39 = 2457.
4. Сложить произведения из п. 3 для всех имен из файла и получить число.
5. Вывести полученную сумму.

In [2]:
!chardetect names.txt
os.listdir()

names.txt: ascii with confidence 1.0


['.git',
 '.ipynb_checkpoints',
 'hits.txt',
 'names.txt',
 'README.md',
 'tech_quality',
 'Tetrika Test Tasks.ipynb']

In [3]:
with open('names.txt') as file:
    names = file.read().split(',')
    names = sorted([name.replace('"', '') for name in names])
    
    letters = list(string.ascii_letters[26:])
    letters_dict = dict(zip(letters,
                            [letters.index(letter) + 1 for letter in letters]))   
    names_and_sum = {}
    for name in names:
        names_and_sum[name] = sum([letters_dict[letter] for letter in list(name)])

    mult_sum = 0
    for k, v in names_and_sum.items():
        mult_sum += names_and_sum[k] * (names.index(k) + 1)
        
    print(f'Финальный результат: {mult_sum}')

Финальный результат: 871853874


# Задание 2: IP-адреса

**Исходные данные:**

[hits.txt](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/f4f86e5b-f716-478a-9750-5960998f852f/hits.txt?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20200812%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20200812T192522Z&X-Amz-Expires=86400&X-Amz-Signature=f8eee541dce492bd87ae57e8e86c2e69cdba7f366e9bfa1d42278eb7a5355203&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22hits.txt%22)

Файл состоит из строк вида: `<host>\t<ip>\t<page>\n`, где host — корневой домен, ip — IP-адрес, page — «хвост» ссылки.

## Задача

Необходимо вывести 5 IP-адресов, которые встречаются в файле чаще других.

In [4]:
!chardetect hits.txt

hits.txt: ascii with confidence 1.0


In [5]:
df = pd.read_csv('hits.txt', sep='\t', header=None)
df.head()

Unnamed: 0,0,1,2
0,https://wikipedia.org,72.110.191.15,/friends/files
1,rambler.ru,142.93.168.247,/universe.php
2,ftp://info.itar-tass.com,90.68.118.69,/login/monitors/static/me
3,http://altavista.com,18.79.197.236,/friends/tasks/universe
4,ftp://tetrika-school.ru,115.26.250.226,/translate/anekdots/my-files/monday


Изменим названия колонок для удобства:

In [6]:
df.columns = ['host', 'ip', 'page']
df.head()

Unnamed: 0,host,ip,page
0,https://wikipedia.org,72.110.191.15,/friends/files
1,rambler.ru,142.93.168.247,/universe.php
2,ftp://info.itar-tass.com,90.68.118.69,/login/monitors/static/me
3,http://altavista.com,18.79.197.236,/friends/tasks/universe
4,ftp://tetrika-school.ru,115.26.250.226,/translate/anekdots/my-files/monday


Посмотрим на базовую информацию по датасету:

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1247036 entries, 0 to 1247035
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   host    1247036 non-null  object
 1   ip      1247036 non-null  object
 2   page    1247036 non-null  object
dtypes: object(3)
memory usage: 28.5+ MB


Можно увидеть, что в датасете 1247036 наблюдений, нет пропусков, типы всех переменных - строковые объекты.

Нас интересует колонка 'ip', поэтому имеет смысл рассмотреть ее отдельно:

In [8]:
print(f"Уникальных значений ip-адресов: {len(df['ip'].unique())}")
print(f'IP-адреса:\n\n {pd.Series(df.ip.unique())}')

Уникальных значений ip-адресов: 2000
IP-адреса:

 0         72.110.191.15
1        142.93.168.247
2          90.68.118.69
3         18.79.197.236
4        115.26.250.226
             ...       
1995    255.237.161.177
1996     164.222.238.94
1997      146.23.162.19
1998       222.82.41.97
1999    143.107.107.234
Length: 2000, dtype: object


Выведем топ-5 IP-адресов, которые встречаются в данном файле чаще всех остальных:

In [9]:
df['ip'].value_counts()[:5]

154.157.157.156    1531
82.146.232.163     1505
194.78.107.33      1494
226.247.119.128    1494
21.143.243.182     1479
Name: ip, dtype: int64

# Задание 3: Оценка уроков

*В нашей школе ученики и репетиторы занимаются в специальном онлайн-классе, в котором они могут общаться друг с другом, рисовать на доске, переписываться в чате, обмениваться файлами и решать различные задачки. Информацию о каждом уроке мы записываем в базу данных в таблицу lessons. На каждом таком уроке присутствует один репетитор и один ученик. В конце урока, когда учитель и ученик покидают класс, им предлагается по желанию оценить качество пройденного урока по пятибальной шкале. Оценки мы записываем в таблицу quality.*

**Исходные данные:**

[tech_quality.zip](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f35472a4-8bd2-49fa-b69b-a86349b6040b/tech_quality.zip)

В архиве содержится четыре файла с выгрузкой строк из базы.

Файл **users.txt** хранит информацию о пользователях:

- id – уникальный идентификатор пользователя
- role – указывает, является ли пользователь учеником (pupil) или учителем (tutor)

Файл **lessons.txt** содержит следующие поля:

- id – уникальный идентификатор урока
- event_id – идентификатор, связывающий уроки с файлом participants. У нескольких уроков может быть один и тот же event_id
- subject – предмет урока, строка
- scheduled_time – время начала урока, в формате ГГГГ-ММ-ДД чч:мм:сс (иногда есть еще миллисекунды). Время указано в UTC

Файл **participants.txt** позволяет связать урок с его участниками. Он содержит следующие поля:

- user_id – идентификатор пользователя (указывает на запись в файле users.txt)
- event_id – идентификатор, связывающий урок с участником. Чтобы понять, какие пользователи были на уроке Х, нужно найти в файле participants.txt строки, у которых event_id совпадает с event_id урока Х.

Файл **quality.txt** содержит следующие поля:

- lesson_id – идентификатор урока, указывающий на запись в таблице lessons.txt. У нескольких строчек из этого файла может быть один и тот же lesson_id, потому что оценок за урок может быть несколько (в случае, когда и ученик, и репетитор оценили качество урока)
- tech_quality – оценка качества урока. Это число от 1 до 5. Иногда его может не быть, если пользователь не выставил оценку.

## Задача

Нужно найти, какой из репетиторов получал самую низкую среднюю оценку качества после уроков по физике за каждый день, и вывести эту оценку.

Примечания:

- Необходимо учитывать оценки и учителей, и учеников.
- Нужно учитывать только тех учителей, за уроки по физике которых в этот день стоит хотя бы одна оценка.
- Начало урока для решения задачи должно учитываться по московскому времени.
- При расчёте среднего значения не нужно учитывать ситуации, когда пользователь не выставил оценку.
- Если у нескольких учителей после расчёта совпадают средние значения, можно вывести любого из них.

Решение должно выглядеть примерно так:

![image.png](attachment:image.png)

Проверим кодировки файлов:

In [10]:
!chardetect tech_quality/users.txt
!chardetect tech_quality/lessons.txt
!chardetect tech_quality/participants.txt
!chardetect tech_quality/quality.txt

tech_quality/users.txt: ascii with confidence 1.0
tech_quality/lessons.txt: ascii with confidence 1.0
tech_quality/participants.txt: ascii with confidence 1.0
tech_quality/quality.txt: ascii with confidence 1.0


In [51]:
folder = 'tech_quality/'
files = list(os.walk('tech_quality'))[0][2]
files

['lessons.txt', 'participants.txt', 'quality.txt', 'users.txt']

Прочитаем по очереди каждый файл из папки архива:

In [52]:
lessons = pd.read_csv(folder + files[0], sep='|')
lessons.head()

Unnamed: 0,id,event_id,subject,scheduled_time
0,--------------------------------------+-------...,,,
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114.0,phys,2020-01-19 12:00:00
2,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,51568.0,it,2020-01-19 13:00:00
3,62e1a078-33de-47c1-99d2-845b1daca56f,52790.0,hist,2020-01-19 13:00:00
4,00fc6685-f53a-49bb-b960-5e0042fd3852,51341.0,phys,2020-01-17 12:00:00


In [53]:
participants = pd.read_csv(folder + files[1], sep='|')
participants.head()

Unnamed: 0,event_id,user_id
0,----------+--------------------------------------,
1,38114,e28351f5-4ccb-4549-8647-d43f2b15e7b8
2,38114,4df2832a-1d63-4453-9659-43993fc35996
3,51568,bb1c0bc8-1212-452b-97a0-439d4a2169e2
4,51568,63441abe-c4da-4275-ba26-66f7dbd65dde


In [54]:
quality = pd.read_csv(folder + files[2], sep='|')
quality.head()

Unnamed: 0,lesson_id,tech_quality
0,--------------------------------------+-------...,
1,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,5.0
2,62e1a078-33de-47c1-99d2-845b1daca56f,5.0
3,62e1a078-33de-47c1-99d2-845b1daca56f,5.0
4,00fc6685-f53a-49bb-b960-5e0042fd3852,5.0


In [55]:
users = pd.read_csv(folder + files[3], sep='|')
users.head()

Unnamed: 0,id,role
0,--------------------------------------+-------,
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,4df2832a-1d63-4453-9659-43993fc35996,tutor
3,bb1c0bc8-1212-452b-97a0-439d4a2169e2,pupil
4,63441abe-c4da-4275-ba26-66f7dbd65dde,tutor


Посмотрим информацию по каждому датасету отдельно:

### lessons

In [56]:
lessons.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380 entries, 0 to 379
Data columns (total 4 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0                     id                    380 non-null    object 
 1    event_id                               378 non-null    float64
 2    subject                                378 non-null    object 
 3          scheduled_time                   378 non-null    object 
dtypes: float64(1), object(3)
memory usage: 12.0+ KB


Видим, что имеются по два NaN-значения в 3-х колонках. Посмотрим на датасет и попробуем избавиться от пропусков.

Однако для начала имеет смысл изменить названия колонок, поскольку вызов по текущим названиям выдает ошибку из-за некорректности.

In [57]:
lessons.columns = ['lesson_id', 'event_id', 'subject', 'scheduled_time']

In [58]:
lessons

Unnamed: 0,lesson_id,event_id,subject,scheduled_time
0,--------------------------------------+-------...,,,
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114.0,phys,2020-01-19 12:00:00
2,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,51568.0,it,2020-01-19 13:00:00
3,62e1a078-33de-47c1-99d2-845b1daca56f,52790.0,hist,2020-01-19 13:00:00
4,00fc6685-f53a-49bb-b960-5e0042fd3852,51341.0,phys,2020-01-17 12:00:00
...,...,...,...,...
375,056c3d91-dce7-4071-91d3-1de816ee63a3,51001.0,hist,2020-01-17 12:45:00
376,c64a1daf-d7f5-4c8c-ac9f-df634d77327b,50304.0,bio,2020-01-11 11:00:00
377,aa7702bc-5271-469c-a1c2-b7e814fd7e20,49880.0,bio,2020-01-16 15:00:00
378,8643fa00-217a-42ae-a27d-e6f47c0501f1,55449.0,bio,2020-01-19 12:15:00


Взглянув на датасет можно заметить те самые 2 пропуска в колонках event_id, subject, scheduled_time (в первой и последней строчках).

Кроме того в колонке id имеется некорректное значение, от которого также можем избавиться без особой потери информативности, поскольку в общей сложности будет удалено всего 2 из 380 строчки.

In [59]:
lessons.drop([0, 379], axis=0, inplace=True)
lessons.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 378 entries, 1 to 378
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   lesson_id       378 non-null    object 
 1   event_id        378 non-null    float64
 2   subject         378 non-null    object 
 3   scheduled_time  378 non-null    object 
dtypes: float64(1), object(3)
memory usage: 14.8+ KB


Изменим нелогичный числовой формат колонки event_id на строковый:

In [60]:
lessons.event_id = lessons.event_id.astype(int)
lessons.event_id = lessons.event_id.astype(str)

Датасет lessons теперь не имеет пропусков.

Посмотрим на уникальные значения колонок:

In [61]:
for column in lessons.columns:
    print(f'\nУникальные значения для {column}:\n {lessons[column].unique()[:5]}')


Уникальные значения для lesson_id:
 [' 1e7bb408-cfef-4a9f-8328-351c9483a64c '
 ' 6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a '
 ' 62e1a078-33de-47c1-99d2-845b1daca56f '
 ' 00fc6685-f53a-49bb-b960-5e0042fd3852 '
 ' 4cadf623-82e6-422f-a342-acf978302fb2 ']

Уникальные значения для event_id:
 ['38114' '51568' '52790' '51341' '55048']

Уникальные значения для subject:
 [' phys    ' ' it      ' ' hist    ' ' bio     ']

Уникальные значения для scheduled_time:
 [' 2020-01-19 12:00:00' ' 2020-01-19 13:00:00' ' 2020-01-17 12:00:00'
 ' 2020-01-19 14:00:00' ' 2020-01-19 15:00:00']


Видно, что в значениях имеются лишние пробелы, которые могут помешать в дальнейшей обработке данных.

Методом strip() избавимся от пробелов вокруг значений колонок. Для этого напишем функцию:

In [62]:
def del_spaces(dataset):
    for column in dataset.columns:
        dataset[column] = dataset[column].str.strip()

In [63]:
del_spaces(lessons)

Для удобства работы с данными изменим формат колонки scheduled_time на datetime и отберем только уроки по физике:

In [64]:
lessons.scheduled_time = pd.to_datetime(lessons.scheduled_time)
lessons = lessons[lessons.subject == 'phys']
lessons.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 184 entries, 1 to 372
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   lesson_id       184 non-null    object        
 1   event_id        184 non-null    object        
 2   subject         184 non-null    object        
 3   scheduled_time  184 non-null    datetime64[ns]
dtypes: datetime64[ns](1), object(3)
memory usage: 7.2+ KB


### participants

Проделаем аналогичные операции с оставшимися датасетами:

In [65]:
participants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 745 entries, 0 to 744
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0    event_id                               745 non-null    object
 1                  user_id                  743 non-null    object
dtypes: object(2)
memory usage: 11.8+ KB


In [66]:
participants

Unnamed: 0,event_id,user_id
0,----------+--------------------------------------,
1,38114,e28351f5-4ccb-4549-8647-d43f2b15e7b8
2,38114,4df2832a-1d63-4453-9659-43993fc35996
3,51568,bb1c0bc8-1212-452b-97a0-439d4a2169e2
4,51568,63441abe-c4da-4275-ba26-66f7dbd65dde
...,...,...
740,49880,8476b612-223f-4c86-9b0b-14bc04759233
741,49880,582e6abb-dd9a-42fa-b441-455eac28327e
742,55449,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb
743,55449,d3364cf3-46cc-4e64-ad11-70a069f7c049


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [67]:
participants.columns = ['event_id', 'user_id']
participants.drop([0, 744], axis=0, inplace=True)
del_spaces(participants)

In [28]:
participants.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 743 entries, 1 to 743
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   event_id  743 non-null    object
 1   user_id   743 non-null    object
dtypes: object(2)
memory usage: 17.4+ KB


### Quality

In [68]:
quality.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 367 entries, 0 to 366
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0                 lesson_id                 367 non-null    object
 1    tech_quality                           365 non-null    object
dtypes: object(2)
memory usage: 5.9+ KB


In [69]:
quality

Unnamed: 0,lesson_id,tech_quality
0,--------------------------------------+-------...,
1,6d8e59d9-a7c8-4bb3-8ff3-99cd07acdf1a,5
2,62e1a078-33de-47c1-99d2-845b1daca56f,5
3,62e1a078-33de-47c1-99d2-845b1daca56f,5
4,00fc6685-f53a-49bb-b960-5e0042fd3852,5
...,...,...
362,aa7702bc-5271-469c-a1c2-b7e814fd7e20,5
363,8643fa00-217a-42ae-a27d-e6f47c0501f1,5
364,7a15af58-39d0-4207-bfdf-3fa176b7fb4e,5
365,7a15af58-39d0-4207-bfdf-3fa176b7fb4e,5


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [70]:
quality.columns = ['lesson_id', 'tech_quality']
quality.drop([0, 366], axis=0, inplace=True)
del_spaces(quality)

Избавимся от пропусков:

Для дальнейших вычислений лучше сразу преобразовать колонку с оценками (tech_quality) в числовой формат:

In [71]:
quality.tech_quality = quality.tech_quality.apply(lambda x: int(x) if x else 0)
quality.tech_quality.unique()

array([5, 2, 4, 0, 3, 1], dtype=int64)

Не учитываем записи без оценок:

In [72]:
quality = quality[quality.tech_quality > 0]

In [73]:
quality.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 349 entries, 1 to 365
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   lesson_id     349 non-null    object
 1   tech_quality  349 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 8.2+ KB


### users

In [35]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 745 entries, 0 to 744
Data columns (total 2 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0                     id                    745 non-null    object
 1    role                                   743 non-null    object
dtypes: object(2)
memory usage: 11.8+ KB


In [36]:
users

Unnamed: 0,id,role
0,--------------------------------------+-------,
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,4df2832a-1d63-4453-9659-43993fc35996,tutor
3,bb1c0bc8-1212-452b-97a0-439d4a2169e2,pupil
4,63441abe-c4da-4275-ba26-66f7dbd65dde,tutor
...,...,...
740,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb,tutor
741,d3364cf3-46cc-4e64-ad11-70a069f7c049,pupil
742,ad7199dd-3bf6-4d6d-8ae7-448ecf90a4eb,tutor
743,f76609c8-ba5d-4818-9b57-097debc90cab,pupil


Изменим названия колонок на корректные, удалим пропуски и пробелы:

In [74]:
users.columns = ['user_id', 'role']
users.drop([0, 744], axis=0, inplace=True)
del_spaces(users)

In [75]:
print(f'Уникальные пользователи:\n {users.role.unique()}')

Уникальные пользователи:
 ['pupil' 'tutor' 'admin']


Отберем только учителей и учеников:

In [76]:
users = users[users.role != 'admin']

In [77]:
users.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 741 entries, 1 to 743
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  741 non-null    object
 1   role     741 non-null    object
dtypes: object(2)
memory usage: 17.4+ KB


**Теперь приступим к объединению датафреймов для выполнения задачи.**

Посмотрим на наличие дубликатов в датафрейме с пользователями (users) и удалим их при наличии:

In [78]:
print(f'Дублирующихся записей пользователей: {users.duplicated().sum()}')
print(f'При этом уникальных идентификаторов пользователей: {users.user_id.nunique()}')

Дублирующихся записей пользователей: 474
При этом уникальных идентификаторов пользователей: 267


In [79]:
users.drop_duplicates(inplace=True)
users

Unnamed: 0,user_id,role
1,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,4df2832a-1d63-4453-9659-43993fc35996,tutor
3,bb1c0bc8-1212-452b-97a0-439d4a2169e2,pupil
4,63441abe-c4da-4275-ba26-66f7dbd65dde,tutor
5,a1323b68-c82c-429a-8e2c-65597e648c1a,tutor
...,...,...
730,9a192e4d-473f-4f81-af68-1b422bd814f6,tutor
734,720868c1-3d34-44a7-a23e-6c4a0fac609a,pupil
739,582e6abb-dd9a-42fa-b441-455eac28327e,pupil
741,d3364cf3-46cc-4e64-ad11-70a069f7c049,pupil


Посмотрим на наличие дубликатов в датафрейме с уроками (lessons) и участниками (participants) и удалим их при наличии:

In [80]:
print(f'Дублирующихся записей уроков: {lessons.duplicated().sum()}')
print(f'Уникальных идентификаторов уроков: {lessons.lesson_id.nunique()}')

Дублирующихся записей уроков: 0
Уникальных идентификаторов уроков: 184


In [83]:
merged = lessons.merge(participants, on='event_id', how='inner')
merged

Unnamed: 0,lesson_id,event_id,subject,scheduled_time,user_id
0,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19 12:00:00,e28351f5-4ccb-4549-8647-d43f2b15e7b8
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19 12:00:00,4df2832a-1d63-4453-9659-43993fc35996
2,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19 12:00:00,e28351f5-4ccb-4549-8647-d43f2b15e7b8
3,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19 12:00:00,4df2832a-1d63-4453-9659-43993fc35996
4,2e3b1173-7edb-4737-9500-a23d7b852518,38114,phys,2020-01-12 12:00:00,e28351f5-4ccb-4549-8647-d43f2b15e7b8
...,...,...,...,...,...
482,459ed706-9310-477f-9f51-7a290b28b6a8,53917,phys,2020-01-20 08:00:00,9fb1e9b4-9765-486f-ac51-4444213e39ca
483,e90f529b-1061-4efd-9bba-f73ecee2ef27,55490,phys,2020-01-19 08:00:00,43efce48-94b2-4412-857f-223d45969008
484,e90f529b-1061-4efd-9bba-f73ecee2ef27,55490,phys,2020-01-19 08:00:00,b323a494-40c0-4522-8d63-4d4d591a1def
485,8a1bac54-c5c6-47c9-8fdb-36d01384eaae,55881,phys,2020-01-19 15:00:00,c6718d0e-976c-4d6c-b0e0-32c770776567


In [85]:
merged.duplicated().sum()

124

In [86]:
merged = merged.merge(users, on='user_id', how='inner')
merged.scheduled_time = merged.scheduled_time.dt.date
merged

Unnamed: 0,lesson_id,event_id,subject,scheduled_time,user_id,role
0,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
1,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
2,2e3b1173-7edb-4737-9500-a23d7b852518,38114,phys,2020-01-12,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
3,2e3b1173-7edb-4737-9500-a23d7b852518,38114,phys,2020-01-12,e28351f5-4ccb-4549-8647-d43f2b15e7b8,pupil
4,1e7bb408-cfef-4a9f-8328-351c9483a64c,38114,phys,2020-01-19,4df2832a-1d63-4453-9659-43993fc35996,tutor
...,...,...,...,...,...,...
482,45a4ff5c-8778-4ddc-99c4-e4a9cca3e1aa,55281,phys,2020-01-19,6ebdc246-e8a3-43b6-8a55-40c4789000ad,pupil
483,2f3c2e0a-e188-420e-ae83-8673ea692d66,47780,phys,2020-01-19,7b913e7a-cfb4-4383-93c7-ddccbafc8850,pupil
484,459ed706-9310-477f-9f51-7a290b28b6a8,53917,phys,2020-01-20,9fb1e9b4-9765-486f-ac51-4444213e39ca,pupil
485,e90f529b-1061-4efd-9bba-f73ecee2ef27,55490,phys,2020-01-19,b323a494-40c0-4522-8d63-4d4d591a1def,pupil


Отберем только репетиторов и удалим уже ненужные колонки:

In [87]:
merged = merged[merged.role == 'tutor'].drop(['event_id', 'subject',
                                              'role'], axis=1)
merged

Unnamed: 0,lesson_id,scheduled_time,user_id
4,1e7bb408-cfef-4a9f-8328-351c9483a64c,2020-01-19,4df2832a-1d63-4453-9659-43993fc35996
5,1e7bb408-cfef-4a9f-8328-351c9483a64c,2020-01-19,4df2832a-1d63-4453-9659-43993fc35996
6,2e3b1173-7edb-4737-9500-a23d7b852518,2020-01-12,4df2832a-1d63-4453-9659-43993fc35996
7,2e3b1173-7edb-4737-9500-a23d7b852518,2020-01-12,4df2832a-1d63-4453-9659-43993fc35996
8,0e30fdbd-2af7-40c7-8f38-336c9d8512f3,2020-01-11,4df2832a-1d63-4453-9659-43993fc35996
...,...,...,...
466,e3b40613-d6ca-41f2-a7b4-d6eabe3247e0,2020-01-18,eb47bfc8-ff11-42cd-a48b-1c88aca067f7
467,84fa104f-4f17-4277-b281-809c80755355,2020-01-17,eb47bfc8-ff11-42cd-a48b-1c88aca067f7
468,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc,2020-01-17,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc
469,58cf91d3-5179-4adb-be4e-cd097eba8fa3,2020-01-18,1c39e78f-6ded-4b2e-83d6-036ca34ecfdc


In [88]:
merged.duplicated().sum()

62

В датафрейме с оценками найдем среднюю оценку по каждому уроку:

In [47]:
quality = pd.DataFrame(quality.groupby(['lesson_id']).tech_quality.mean()).reset_index()
quality

Unnamed: 0,lesson_id,tech_quality
0,00fc6685-f53a-49bb-b960-5e0042fd3852,5.0
1,01f717d8-baaf-427d-a927-08c79713ae79,3.5
2,024d415a-4543-4e73-88c6-f4609e1bf1ed,4.5
3,03f4f4a8-c60c-41d7-a1cb-17b2d36ee183,5.0
4,056c3d91-dce7-4071-91d3-1de816ee63a3,4.0
...,...,...
234,fe5e055f-6615-488f-88a7-8bcc1a9cf8aa,5.0
235,fed2a11f-7be2-489b-9e69-80adec286c3c,5.0
236,ff0bded7-5a4b-4733-87af-55f77810ebd1,4.0
237,ffb6ceb7-7c34-497b-80d5-c997ec696bd4,5.0


Объединим датафреймы со средними оценками и репетиторами по столбцу идентификатора уроков:

In [48]:
final_df = merged.merge(quality, on='lesson_id', how='inner')
final_df.drop(['lesson_id'], axis=1, inplace=True)
final_df = final_df.sort_values(by='scheduled_time')
final_df.columns = ['day', 'tutor_id', 'average_score']
final_df

Unnamed: 0,day,tutor_id,average_score
57,2020-01-11,8fe03f08-8581-430c-a590-9888ab36deb3,5.0
140,2020-01-11,603b8641-c6f6-4d89-ac89-88e50d45aa0d,5.0
141,2020-01-11,603b8641-c6f6-4d89-ac89-88e50d45aa0d,5.0
67,2020-01-11,8fe03f08-8581-430c-a590-9888ab36deb3,5.0
27,2020-01-11,43efce48-94b2-4412-857f-223d45969008,5.0
...,...,...,...
91,2020-01-20,696c838e-c054-4e9f-a51a-50bf5660f364,5.0
155,2020-01-20,2fa2ab62-f1b0-4036-872f-bcfd9a8686ff,5.0
154,2020-01-20,2fa2ab62-f1b0-4036-872f-bcfd9a8686ff,5.0
122,2020-01-20,b37ccae8-fc31-4ad8-8f55-ca855b23fbf6,5.0


In [49]:
final_df = final_df.groupby(['day', 'tutor_id']).average_score.mean().\
                                                 reset_index().set_index('tutor_id')
final_df

Unnamed: 0_level_0,day,average_score
tutor_id,Unnamed: 1_level_1,Unnamed: 2_level_1
2fa2ab62-f1b0-4036-872f-bcfd9a8686ff,2020-01-11,5.000000
30a19496-bdaf-461c-abbc-2709ae520201,2020-01-11,5.000000
43efce48-94b2-4412-857f-223d45969008,2020-01-11,5.000000
603b8641-c6f6-4d89-ac89-88e50d45aa0d,2020-01-11,4.900000
8fe03f08-8581-430c-a590-9888ab36deb3,2020-01-11,4.428571
...,...,...
30a19496-bdaf-461c-abbc-2709ae520201,2020-01-20,4.666667
43efce48-94b2-4412-857f-223d45969008,2020-01-20,4.500000
696c838e-c054-4e9f-a51a-50bf5660f364,2020-01-20,5.000000
b37ccae8-fc31-4ad8-8f55-ca855b23fbf6,2020-01-20,5.000000


Итого следующие репетиторы получили самую низкую среднюю оценку качества уроков по физике за каждый день:

In [50]:
tutors = final_df.groupby(['day']).idxmin()
tutors['score'] = final_df.groupby(['day']).average_score.min()
tutors.columns = ['tutor_id', 'average_score']
tutors

Unnamed: 0_level_0,tutor_id,average_score
day,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-11,8fe03f08-8581-430c-a590-9888ab36deb3,4.428571
2020-01-12,696c838e-c054-4e9f-a51a-50bf5660f364,4.9375
2020-01-13,2fa2ab62-f1b0-4036-872f-bcfd9a8686ff,5.0
2020-01-14,c6718d0e-976c-4d6c-b0e0-32c770776567,4.0
2020-01-15,603b8641-c6f6-4d89-ac89-88e50d45aa0d,5.0
2020-01-16,2fa2ab62-f1b0-4036-872f-bcfd9a8686ff,4.0
2020-01-17,696c838e-c054-4e9f-a51a-50bf5660f364,4.5
2020-01-18,43efce48-94b2-4412-857f-223d45969008,4.4
2020-01-19,be676776-8366-4c71-8a35-d58014806eb5,4.5
2020-01-20,43efce48-94b2-4412-857f-223d45969008,4.5
