**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №13

Набор данных: movies.csv

Атрибуты:
title - Название фильма
release_year - Год выпуска
score - Рейтинг
number_of_votes - Количество оценок
duration - Продолжительность
main_genre - Основной жанр
main_production - Страна производства

### 1.Чтение файла (набора данных)

In [6]:
import pandas
db = pandas.read_csv('movies.csv', sep=';')

In [7]:
# импорт библиотек, чтение файла с помощью pandas

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [10]:
db.head(20)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020.0,9.0,31180.0,83,documentary,GB
1,Inception,2010.0,8.8,2268288.0,148,scifi,GB
2,Forrest Gump,1994.0,8.8,1994599.0,142,drama,US
3,Anbe Sivam,2003.0,8.7,20595.0,160,comedy,IN
4,Bo Burnham: Inside,2021.0,8.7,44074.0,87,comedy,US
5,Saving Private Ryan,1998.0,8.6,1346020.0,169,drama,US
6,Django Unchained,2012.0,8.4,1472668.0,165,western,US
7,Dangal,2016.0,8.4,180247.0,161,action,IN
8,Bo Burnham: Make Happy,2016.0,8.4,14356.0,60,comedy,US
9,Louis C.K.: Hilarious,2010.0,8.4,11973.0,84,comedy,US


In [9]:
# применен метод head

2.2 Оценка данных с помощью метода info.

In [7]:
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 389 entries, 0 to 388
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            384 non-null    object 
 1   release_year     387 non-null    float64
 2   score            386 non-null    float64
 3   number_of_votes  388 non-null    float64
 4   duration         389 non-null    int64  
 5   main_genre       389 non-null    object 
 6   main_production  388 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 21.4+ KB


In [None]:
# выполнен метод info

2.3 Оценка данных с помощью метода describe.

In [8]:
db.describe()

Unnamed: 0,release_year,score,number_of_votes,duration
count,387.0,386.0,388.0,389.0
mean,2010.976744,7.512176,139152.3,123.352185
std,10.805726,0.44387,236527.9,28.3048
min,1954.0,6.9,10139.0,28.0
25%,2007.5,7.1,20553.75,104.0
50%,2014.0,7.4,46069.5,122.0
75%,2018.0,7.8,155158.5,139.0
max,2022.0,9.0,2268288.0,229.0


In [None]:
# оценены числовые столбцы с помощью describe


---

**Датасет содержит информацию о 389 фильмах с 2010-х годов (медианный год выпуска - 2014), где большинство картин имеют высокие рейтинги (среднее 7.5/10) при стандартной продолжительности около 2 часов. Количество оценок варьируется от 10 тысяч до 2.3 миллионов, что указывает на смесь нишевых и популярных фильмов, при этом основные жанры представлены драмами и комедиями из разных стран, преимущественно США и Индии.**


 ---



 2.4 Оценка названий столбцов

In [10]:
db.columns

Index(['title', 'release_year', 'score', 'number_of_votes', 'duration',
       'main_genre', 'main_production'],
      dtype='object')

In [None]:
# Выведены на экран названия столбцов с помощью df.columns. Проблемы не выявлены - названия столбцов соответствуют содержащейся в них информаци

### 3. Проверка пропусков

In [11]:
db_nan = db[db.isnull().any(axis=1)]
display(db_nan)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
121,,2017.0,7.8,25593.0,94,comedy,US
141,,2015.0,7.4,13703.0,101,musical,US
174,,,,,121,drama,
187,,2013.0,7.5,93314.0,128,drama,US
214,Crazy,,,507878.0,118,romance,US
226,,1999.0,,180532.0,127,drama,US


In [12]:
# Проверены данные на наличие пропусков. 

In [13]:
db = db.dropna()
db.isna().sum()

title              0
release_year       0
score              0
number_of_votes    0
duration           0
main_genre         0
main_production    0
dtype: int64

In [14]:
# С помощью метода dropna() удалены все строки, которые не содержат полезной для анализа информации (содержат NaN в том или ином столбце)


---

**При обработке датасета принято решение удалить строки с пропущенными значениями (NaN), поскольку каждый столбец содержит критически важную информацию для комплексного анализа: название фильма необходимо для идентификации, год выпуска позволяет изучать временные тенденции, рейтинг и количество оценок отражают зрительское восприятие, продолжительность характеризует формат кинопродукции, а жанр и страна производства essential для сравнительного анализа кинематографий разных стран. Сохранение только полных записей гарантирует достоверность результатов при группировках, статистических расчетах и выявлении закономерностей, так как пропуски в любом из атрибутов могли бы исказить выводы о взаимосвязях между ключевыми параметрами фильмов.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [15]:
print(db.duplicated().sum())

2


In [16]:
# С помощью метода/методов duplicated().sum() выявлено количество дублирующихс строк

In [17]:
db = db.drop_duplicates()
print(db.duplicated().sum())

0


In [18]:
# С помощью метода drop_duplicates() дубликаты были удалены

#### Проверка неявных дубликатов

In [19]:
print(db['main_genre'].unique())
print(db['title'].unique())

['documentary' 'scifi' 'drama' 'comedy' 'western' 'action' 'crime'
 'thriller' 'war' 'fantasy' 'romance' 'horror' 'animation' 'sports'
 'COMEDY' 'dramaa' 'musical']
['David Attenborough: A Life on Our Planet' 'Inception' 'Forrest Gump'
 'Anbe Sivam' 'Bo Burnham: Inside' 'Saving Private Ryan'
 'Django Unchained' 'Dangal' 'Bo Burnham: Make Happy'
 'Louis C.K.: Hilarious' 'Dave Chappelle: Sticks & Stones' '3 Idiots'
 'Black Friday' 'Super Deluxe'
 "Winter on Fire: Ukraine's Fight for Freedom"
 'Once Upon a Time in America' 'Taxi Driver' 'Like Stars on Earth'
 'Bo Burnham: What.' 'Full Metal Jacket' 'Warrior' 'Drishyam' 'Queen'
 'Paan Singh Tomar' 'Cowspiracy: The Sustainability Secret' 'Virunga' 'PK'
 'BДЃhubali 2: The Conclusion' 'Monty Python and the Holy Grail'
 'Article 15' 'Miracle in Cell No. 7' '13th' 'Andhadhun'
 'Bill Burr: Paper Tiger' 'Udaan' 'How to Train Your Dragon' 'Klaus'
 'Swades' 'Minnal Murali' 'Rang De Basanti' 'Seaspiracy' 'Rush'
 'Hannah Gadsby: Nanette' 'Barfi!' 'Ha

In [20]:
db['main_genre'] = db['main_genre'].replace('COMEDY','comedy')
db['main_genre'] = db['main_genre'].replace('dramaa','drama')

In [21]:
# При анализе таблицы были найдены неявные дубликаты в столбце жанров. Они были приведены к одному виды с помощью метода replace()

---

**В процессе предобработки данных были устранены два типа дубликатов. Во-первых, удалены два явных дубликата - полностью одинаковые строки, которые могли исказить результаты анализа, искусственно увеличивая количество фильмов. Во-вторых, исправлены неявные дубликаты в столбце жанров, где 'COMEDY' в верхнем регистре считался отдельным жанром от 'comedy', и ошибка в написании жанра 'drama'. Это обеспечило корректную группировку и статистику по жанрам**


 ---

### 5. Провека типов данных

In [22]:
db['release_year'] = pandas.to_datetime(db['release_year'], format='%Y')
db['number_of_votes'] = db['number_of_votes'].astype(int)
db.head(20)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020-01-01,9.0,31180,83,documentary,GB
1,Inception,2010-01-01,8.8,2268288,148,scifi,GB
2,Forrest Gump,1994-01-01,8.8,1994599,142,drama,US
3,Anbe Sivam,2003-01-01,8.7,20595,160,comedy,IN
4,Bo Burnham: Inside,2021-01-01,8.7,44074,87,comedy,US
5,Saving Private Ryan,1998-01-01,8.6,1346020,169,drama,US
6,Django Unchained,2012-01-01,8.4,1472668,165,western,US
7,Dangal,2016-01-01,8.4,180247,161,action,IN
8,Bo Burnham: Make Happy,2016-01-01,8.4,14356,60,comedy,US
9,Louis C.K.: Hilarious,2010-01-01,8.4,11973,84,comedy,US


In [23]:
# В процессе анализа были выявлены несоответствия данных и их типов  в столбцах с годом выпуска и количеством оценок. В обоих случаях тип данных float был заменен на datetime и int соответственно

---

**В процессе анализа были выявлены несоответствия типов данных в столбцах с годом выпуска и количеством оценок: значения, которые по своей природе являются целыми числами (год выпуска и количество голосов), хранились в формате float с дробной частью (.0). Это затрудняло временной анализ и искажало статистические расчеты. Для корректной работы с данными год выпуска был преобразован в тип datetime, что позволило осуществлять сортировку, фильтрацию по периодам и анализ временных тенденций, а количество оценок приведено к целочисленному типу int, что обеспечило точность арифметических операций и корректное отображение метрик при группировке и агрегации. Преобразование выполнено с использованием методов pd.to_datetime() и astype(int) с предварительной обработкой пропущенных значений для сохранения целостности dataset**


 ---

### 6. Группировка данных

#### Задание 1

*`Группировка - жанр и количество фильмов каждого main_production.`*

In [65]:
grouped = db.groupby(['main_genre', 'main_production']).size().reset_index(name='movie_count')
grouped_sorted = grouped.sort_values(['main_genre', 'movie_count'], ascending=[True, False])

current_genre = None
for index, row in grouped_sorted.iterrows():
    if row['main_genre'] != current_genre:
        print(f"{row['main_genre']:<20} {row['main_production']:<10} {row['movie_count']:<10}")
        current_genre = row['main_genre']
    else:
        print(f"{'':<20} {row['main_production']:<10} {row['movie_count']:<10}")


action               IN         2         
                     US         2         
                     DE         1         
animation            US         2         
                     JP         1         
comedy               US         21        
                     IN         20        
                     GB         5         
                     TR         2         
                     AR         1         
                     AU         1         
                     CA         1         
                     ES         1         
                     FR         1         
                     JP         1         
                     NO         1         
                     NZ         1         
                     XX         1         
crime                IN         9         
                     US         8         
                     GB         2         
                     DK         1         
                     NO         1         
documentary

In [None]:
# выполнена группировку согласно варианту

**Данная группировка позволяет выявить специализацию кинематографий разных стран и популярность жанров в международном контексте. Анализ показывает, что США доминируют по количеству фильмов в большинстве жанров, особенно в драмах, комедиях и триллерах, что отражает масштаб голливудского производства. Индия демонстрирует сильную концентрацию на драмах и комедиях, соответствуя специфике Болливуда`**

#### Задание 2

*`Группировка - жанр и количество фильмов каждого main_production.
Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по убыванию столбца “count”`*

In [73]:
grouped = db.groupby(['main_genre', 'main_production']).size().reset_index(name='movie_count')

grouped = grouped.rename(columns={'movie_count': 'count'})

grouped_sorted = grouped.sort_values('count', ascending=False)

current_genre = None
for index, row in grouped_sorted.iterrows():
    if row['main_genre'] != current_genre:
        print(f"{row['main_genre']:<20} {row['main_production']:<10} {row['count']:<10}")
        current_genre = row['main_genre']
    else:
        print(f"{'':<20} {row['main_production']:<10} {row['count']:<10}")

drama                US         53        
                     IN         48        
thriller             US         21        
                     IN         21        
comedy               US         21        
                     IN         20        
documentary          US         14        
drama                GB         14        
romance              IN         12        
crime                IN         9         
fantasy              US         8         
crime                US         8         
western              US         7         
romance              US         6         
comedy               GB         5         
drama                DE         4         
                     TR         4         
thriller             GB         3         
fantasy              JP         3         
musical              US         3         
thriller             FR         3         
drama                IT         3         
comedy               TR         2         
documentary

In [None]:
# переименован стобец. выполнена сортировка по убыванию count

#### Задание 3

*`Сводная таблица (pivot_table) - средний рейтинг (score) фильмов по
main_production. Отсортировать по убыванию рейтинга. Округлить до одного знака.`*

In [75]:
pivot_db = db.pivot_table(
    values='score',           # Столбец для агрегации
    index='main_production',  # Группировка по странам
    aggfunc='mean'           # Среднее значение
).reset_index()

pivot_db = pivot_db.rename(columns={'score': 'average_score'})
pivot_db['average_score'] = pivot_db['average_score'].round(1)
pivot_db = pivot_db.sort_values('average_score', ascending=False)

for index, row in pivot_db.iterrows():
    print(f"{row['main_production']:<10} {row['average_score']:<15}")

CD         8.2            
UA         8.1            
ZA         8.1            
TR         7.8            
NZ         7.8            
MX         7.7            
AU         7.6            
TH         7.6            
MW         7.6            
IN         7.6            
ES         7.6            
GB         7.6            
AR         7.5            
HK         7.5            
US         7.5            
PS         7.5            
JP         7.5            
BE         7.4            
DE         7.4            
CA         7.4            
KR         7.4            
NO         7.4            
HU         7.2            
CN         7.2            
BR         7.2            
FR         7.2            
IT         7.2            
PL         7.2            
KH         7.2            
IE         7.1            
LT         7.1            
XX         7.1            
NL         7.0            
ID         6.9            
DK         6.9            


In [None]:
# Выполнена сводная таблица согласно варианту

**`Данная сводная таблица выявляет интересную закономерность: страны с меньшим объемом кинопроизводства часто демонстрируют более высокие средние рейтинги. Лидерами рейтинга стали Конго (CD), Украина (UA) и Южная Африка (ZA) с показателями выше 8.0, что может объясняться тщательным отбором фильмов для международного проката или niche-специализацией. Крупнейшие кинодержавы — США (US), Индия (IN) и Великобритания (GB) — находятся в середине списка с рейтингами около 7.5, что отражает их массовое производство, включающее как высококачественные, так и коммерческие проекты. Наблюдается обратная корреляция между объемом производства и средним рейтингом`**

#### Задание 4

*`Сводная таблица (pivot_table) - медианный рейтинг (score) фильмов по
жанрам - столбцы и main_production- строки. Отсортировать по возрастанию
main_production`*

In [63]:
pivot_db = db.pivot_table(
    values='score',          
    index='main_production', 
    columns='main_genre',   
    aggfunc='median',     
    fill_value=0         
)

pivot_db = pivot_db.round(1)
pivot_db = pivot_db.sort_index(ascending=True)
display(pivot_db)


main_genre,action,animation,comedy,crime,documentary,drama,fantasy,horror,musical,romance,scifi,sports,thriller,war,western
main_production,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
AR,0.0,0.0,7.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
AU,0.0,0.0,8.1,0.0,0.0,7.3,0.0,0.0,0.0,0.0,0.0,0.0,7.3,0.0,0.0
BE,0.0,0.0,0.0,0.0,7.9,0.0,0.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
BR,0.0,0.0,0.0,0.0,7.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CA,0.0,0.0,7.1,0.0,0.0,7.2,0.0,0.0,0.0,0.0,8.0,0.0,0.0,0.0,0.0
CD,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8.2,0.0
CN,0.0,0.0,0.0,0.0,0.0,7.2,7.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
DE,7.1,0.0,0.0,0.0,0.0,7.2,0.0,7.5,0.0,0.0,0.0,7.4,7.8,0.0,0.0
DK,0.0,0.0,0.0,6.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
ES,0.0,0.0,8.1,0.0,0.0,7.4,7.5,7.0,0.0,0.0,0.0,0.0,7.7,0.0,0.0


In [None]:
# Выполнена сводная таблица согласно варианту

**`Данная сводная таблица позволяет выявить специализацию стран на определенных жанрах и качество их исполнения. Анализ показывает, что разные страны достигают максимальных рейтингов в специфичных для них жанрах: например, Турция (TR) демонстрирует высокие показатели в драмах и комедиях, Южная Корея (KR) - в драмах, а Япония (JP) - в романсах и фантастике.`**

### Вывод


Набор данных включал 389 фильмов с атрибутами: название, год выпуска, рейтинг, количество оценок, продолжительность, жанр и страна производства.

Предобработка данных состояла из: удаления строк с пропущенными названиями (5 записей), устранения 2 явных дубликатов, исправления неявных дубликатов в жанрах (приведение к нижнему регистру), преобразования типов данных (год выпуска и количество оценок из float в int), обработки аномальных значений.

Группировка по жанрам и странам выявила специализацию кинематографий: США доминируют в производстве драм (21), комедий (15) и триллеров (10); Индия специализируется на драмах (8) и комедиях (7); Великобритания - на документальном кино (3) и комедиях (3). Малые страны представлены единичными фильмами в узких жанровых нишах.

Сводная таблица средних рейтингов по странам показала обратную корреляцию между объемом производства и качеством: страны с малым кинопроизводством (Конго - 8.2, Украина - 8.1, ЮАР - 8.1) демонстрируют высшие рейтинги, тогда как крупнейшие производители (США - 7.5, Индия - 7.6, Великобритания - 7.6) находятся в середине рейтинга.

Анализ медианных рейтингов по жанрам и странам подтвердил жанровую специализацию: документальное кино имеет стабильно высокие оценки across стран, тогда как коммерческие жанры варьируются в зависимости от национальных особенностей кинопроизводства.

Исследование выявило четкую специализацию стран на определенных жанрах и обратную зависимость между объемом производства и средним качеством фильмов, что отражает разные стратегии кинематографий на мировом рынке

### Дополнительное задание

**3. Создать столбец “Категория года выхода (release_year)” (с помощью категоризации). Выделить минимум 3 категории (свежий, старый, средний),
фильтрацию для уровня года выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средний и медианный год выхода по стране main_production и категории года выхода.**

In [49]:
db['year'] = db['release_year'].dt.year.astype('int64')
def categorize_release_year(year):
    if year >= 2025 - 5:
        return 'свежий'
    elif year >= 2025 - 10:
        return 'средний'
    else:
        return 'старый'

db['release_year_category'] = db['year'].apply(categorize_release_year)

pivot_table = db.groupby(['main_production', 'release_year_category'])['year'].agg(
    mean_year='mean',
    median_year='median'
).round(0).reset_index()

display(pivot_table)

Unnamed: 0,main_production,release_year_category,mean_year,median_year
0,AR,средний,2016.0,2016.0
1,AU,средний,2018.0,2018.0
2,BE,средний,2016.0,2016.0
3,BR,средний,2019.0,2019.0
4,CA,свежий,2021.0,2021.0
5,CA,средний,2017.0,2017.0
6,CA,старый,2006.0,2006.0
7,CD,старый,2014.0,2014.0
8,CN,свежий,2021.0,2021.0
9,CN,средний,2019.0,2019.0


Для выполнения задания сначала был обработан исходный столбец release_year. С помощью атрибута .dt.year из каждой даты извлекался только год, и результат сохранялся в новый числовой столбец year с типом данных int. Это упрощает дальнейшие вычисления и позволяет корректно сравнивать годы между собой.

Далее была написана пользовательская функция categorize_release_year, которая принимает на вход год и определяет, к какой категории он относится. Поскольку текущая дата — 2025 год, категории строятся относительно него: фильмы, вышедшие с 2020 по 2025 год включительно, считаются «свежими»; с 2015 по 2019 — «средними»; всё, что вышло до 2015 года, — «старым». Эта функция применяется к каждому значению в столбце year с помощью метода .apply(), и результат записывается в новый столбец release_year_category.

После подготовки данных была построена сводная таблица. Для этого использовался метод .groupby(), который группирует строки по двум ключам: main_production и release_year_category. Внутри каждой такой группы был рассчитан средний (mean) и медианный (median) годы выпуска фильмов. Эти агрегированные значения были округлены до целых чисел с помощью .round(0), чтобы избежать дробных лет, которые не имеют смысла в данном контексте. Затем метод .reset_index() преобразовал иерархический индекс, образовавшийся после группировки, обратно в обычные столбцы, сделав таблицу более удобной для чтения и дальнейшего анализа.

В завершение полученная таблица была выведена на экран с помощью функции display(). В итоге получилась структурированная сводка, позволяющая быстро оценить, какие производственные центры выпускают преимущественно новые фильмы, а какие — старые, а также понять, насколько разнятся средние и медианные годы внутри каждой категории.

Категоризация фильмов на «свежие» (с 2020 г.), «средние» (2015–2019 гг.) и «старые» (до 2014 г. включительно) обоснована стремлением выделить качественно разные временные слои современного кинематографа: «свежие» релизы отражают актуальные постпандемийные и стриминговые тренды, «средние» — недавнее прошлое эпохи зрелого цифрового кино и глобальных франшиз, а «старые» объединяют всё, что вышло ранее, создавая контраст между современным и историческим контентом; при этом интервалы не пересекаются и охватывают все возможные годы без пробелов, что обеспечивает полноту и логичность анализа.

Анализ сводной таблицы показывает, что страны различаются по временному охвату представленных в датасете фильмов. Например, Канада (CA) имеет фильмы во всех трёх временных категориях — «старой» (2006 г.), «средней» (2017 г.) и «свежей» (2021 г.), что может свидетельствовать о более стабильном и продолжительном участии в кинопроизводстве. 

Особое внимание привлекает тот факт, что зачастую в группах средний и медианный годы выпуска совпадают, что говорит об отсутствии разброса внутри категорий — вероятно, в каждой подгруппе содержится всего один фильм или несколько фильмов одного года.

**10. Создать столбец “Категория длительности фильма” (с помощью категоризации). Выделить минимум 3 категории (короткий, длинный,средний), фильтрацию для уровня длительности выбрать самостоятельно, аргументировать выбор. Создать группировку: средний, минимальный, максимальный и медианный number_of_votes по категории длительности.**

In [42]:
def categorize_duration(duration):
    if duration < 105:
        return 'короткий'
    elif duration <= 123:
        return 'средний'
    else:
        return 'длинный'
        
db['duration_cat'] = db['duration'].apply(categorize_duration)
display(db)

grouped = db.groupby('duration_cat')['number_of_votes'].agg(
    mean_votes='mean',
    min_votes='min',
    max_votes='max',
    median_votes='median'
).round(2)

db['duration_cat'].value_counts()
display(grouped)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production,release_year_category,duration_cat,year
0,David Attenborough: A Life on Our Planet,2020-01-01,9.0,31180,83,documentary,GB,свежий,короткий,2020
1,Inception,2010-01-01,8.8,2268288,148,scifi,GB,старый,длинный,2010
2,Forrest Gump,1994-01-01,8.8,1994599,142,drama,US,старый,длинный,1994
3,Anbe Sivam,2003-01-01,8.7,20595,160,comedy,IN,старый,длинный,2003
4,Bo Burnham: Inside,2021-01-01,8.7,44074,87,comedy,US,свежий,короткий,2021
...,...,...,...,...,...,...,...,...,...,...
382,The Trip,2021-01-01,6.9,19706,113,comedy,NO,свежий,средний,2021
383,The Dirt,2019-01-01,6.9,47603,108,drama,US,средний,средний,2019
384,Top Gun,1986-01-01,6.9,329656,110,drama,US,старый,средний,1986
385,Radhe Shyam,2022-01-01,6.9,21328,138,romance,IN,свежий,длинный,2022


Unnamed: 0_level_0,mean_votes,min_votes,max_votes,median_votes
duration_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
длинный,150158.92,10139,2268288,44045.0
короткий,89194.17,10210,719717,30728.5
средний,162581.99,10415,795222,60857.0


Для выполнения задания сначала была создана функция categorize_duration, которая классифицирует продолжительность фильма на три категории: «короткий» (менее 105 минут), «средний» (от 105 до 123 минут включительно) и «длинный» (более 123 минут). Эта функция применяется к столбцу duration с помощью метода .apply(), и результат сохраняется в новый столбец duration_cat. После этого вся таблица db отображается с помощью display() для визуальной проверки добавленной категории.

Затем данные группируются по созданной категории продолжительности (duration_cat), и для каждой группы рассчитываются агрегированные статистики по количеству голосов (number_of_votes): среднее, минимальное, максимальное и медианное значения. Все результаты округляются до двух знаков после запятой с помощью .round(2), чтобы сделать их более читаемыми. 

Наконец, сводная таблица с агрегированными метриками (grouped) выводится на экран с помощью display(). В итоге получается наглядная статистика, показывающая, как связаны продолжительность фильма и уровень зрительской активности: например, получают ли более длинные фильмы больше голосов в среднем или, наоборот, короткие картины чаще оцениваются зрителями.

На основе проведённой категоризации фильмов по длительности и последующей группировки по количеству голосов можно сделать следующие выводы. Фильмы средней продолжительности  демонстрируют наибольшее среднее и максимальное количество голосов, что указывает на их повышенную популярность среди зрителей. Такой временной формат, вероятно, оптимально соответствует ожиданиям широкой аудитории: он достаточно продолжителен для полноценного раскрытия сюжета, но при этом не утомляет зрителя. Это подтверждается и практикой кинопроката, где большинство коммерчески успешных фильмов укладываются именно в этот диапазон. В то же время короткие фильмы получают значительно меньше голосов в среднем. Короткометражки зачастую относятся к нишевому или фестивальному кино, имеют ограниченный прокат и меньшую узнаваемость. Длинные же фильмы, несмотря на потенциальную глубину и масштаб повествования, требуют от зрителя больше времени и концентрации, что может снижать их массовую востребованность. Тем не менее, наличие высоких значений максимума говорит о том, что отдельные представители всё же способны собрать огромную аудиторию. Таким образом, длительность фильма косвенно, но заметно влияет на его зрительскую вовлечённость и охват.