**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №12

Набор данных: movies.csv

Атрибуты:
1. название фильма
2. год выхода фильма
3. оценка
4. количество голосов
5. длительность фильма
6. жанр
7. производство

### 1.Чтение файла (набора данных)

In [110]:
import pandas as pd
import numpy as np
df = pd.read_csv('./movies.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [111]:
df.head(20)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020.0,9.0,31180.0,83,documentary,GB
1,Inception,2010.0,8.8,2268288.0,148,scifi,GB
2,Forrest Gump,1994.0,8.8,1994599.0,142,drama,US
3,Anbe Sivam,2003.0,8.7,20595.0,160,comedy,IN
4,Bo Burnham: Inside,2021.0,8.7,44074.0,87,comedy,US
5,Saving Private Ryan,1998.0,8.6,1346020.0,169,drama,US
6,Django Unchained,2012.0,8.4,1472668.0,165,western,US
7,Dangal,2016.0,8.4,180247.0,161,action,IN
8,Bo Burnham: Make Happy,2016.0,8.4,14356.0,60,comedy,US
9,Louis C.K.: Hilarious,2010.0,8.4,11973.0,84,comedy,US


2.2 Оценка данных с помощью метода info.

In [112]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 389 entries, 0 to 388
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            384 non-null    object 
 1   release_year     387 non-null    float64
 2   score            386 non-null    float64
 3   number_of_votes  388 non-null    float64
 4   duration         389 non-null    int64  
 5   main_genre       389 non-null    object 
 6   main_production  388 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 21.4+ KB


2.3 Оценка данных с помощью метода describe.

In [113]:
df.describe(include=[np.number])

Unnamed: 0,release_year,score,number_of_votes,duration
count,387.0,386.0,388.0,389.0
mean,2010.976744,7.512176,139152.3,123.352185
std,10.805726,0.44387,236527.9,28.3048
min,1954.0,6.9,10139.0,28.0
25%,2007.5,7.1,20553.75,104.0
50%,2014.0,7.4,46069.5,122.0
75%,2018.0,7.8,155158.5,139.0
max,2022.0,9.0,2268288.0,229.0


`count` - число объектов

`mean` - среднее арифметическое

`std` - стандартное отклонение

`min, max` - минимальное и максимальное знаения

`25-75%` - квартили


---

**Сделать выводы. Вы должны понимать, что означает тот или иной столбец, чтобы
 ответить на вопросы на защите.**


 ---


 2.4 Оценка названий столбцов

In [114]:
df = df.rename(columns={'main_production': 'country'})
df.columns

Index(['title', 'release_year', 'score', 'number_of_votes', 'duration',
       'main_genre', 'country'],
      dtype='object')

---

**Столбец main_production был переименован в country для ясности.**

---

### 3. Проверка пропусков

In [115]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
# print(df.isna().sum())

cc = df.isna()
rows_with_na = df[cc.any(axis=1)]  # строки, где есть хотя бы один NaN
print(rows_with_na)

     title  release_year  score  number_of_votes  duration main_genre country
121    NaN        2017.0    7.8          25593.0        94     comedy      US
141    NaN        2015.0    7.4          13703.0       101    musical      US
174    NaN           NaN    NaN              NaN       121      drama     NaN
187    NaN        2013.0    7.5          93314.0       128      drama      US
214  Crazy           NaN    NaN         507878.0       118    romance      US
226    NaN        1999.0    NaN         180532.0       127      drama      US


In [116]:
df.dropna(axis=0, subset=['score'], inplace=True)


---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [117]:
df[df.duplicated()]

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,country
387,The Bourne Ultimatum,2007.0,8.0,627009.0,115,thriller,DE
388,The Bourne Ultimatum,2007.0,8.0,627009.0,115,thriller,DE


In [118]:
df = df.drop_duplicates().reset_index(drop=True)

#### Проверка неявных дубликатов

In [119]:
print(df['main_genre'].unique())

['documentary' 'scifi' 'drama' 'comedy' 'western' 'action' 'crime'
 'thriller' 'war' 'fantasy' 'romance' 'horror' 'musical' 'animation'
 'sports' 'COMEDY' 'dramaa']


In [120]:
df['main_genre'] = df['main_genre'].replace('dramaa', 'drama')
df['main_genre'] = df['main_genre'].replace('COMEDY', 'comedy')

---

**Явные дубликаты были удалены, индексация датафрейма обновлена. Неявные дубликаты названий жанров были корректно переименованы.**


 ---

### 5. Провека типов данных

In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384 entries, 0 to 383
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            381 non-null    object 
 1   release_year     384 non-null    float64
 2   score            384 non-null    float64
 3   number_of_votes  384 non-null    float64
 4   duration         384 non-null    int64  
 5   main_genre       384 non-null    object 
 6   country          384 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 21.1+ KB


In [122]:
df['release_year'] = df['release_year'].astype('int')
df['number_of_votes'] = df['number_of_votes'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384 entries, 0 to 383
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            381 non-null    object 
 1   release_year     384 non-null    int64  
 2   score            384 non-null    float64
 3   number_of_votes  384 non-null    int64  
 4   duration         384 non-null    int64  
 5   main_genre       384 non-null    object 
 6   country          384 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 21.1+ KB


---
**Приводим поля `release_year` и `number_of_votes` к типу int, так как поля в действительности содержат целочисленные значения**


 ---

### 6. Группировка данных

#### Задание 1

*`Группировка - год выхода и количество фильмов каждого жанра
(main_genre).`*

In [138]:
df.groupby(['release_year', 'main_genre'])['title'].count()

release_year  main_genre
1954          romance       1
1961          war           1
1964          drama         1
1966          western       1
1967          drama         1
                           ..
2021          thriller      2
2022          comedy        1
              crime         1
              drama         2
              romance       1
Name: title, Length: 165, dtype: int64

`Группировка позволяет увидеть, какие жанры были популярны в каждый период времени.`

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*` Группировка - год выхода и количество фильмов каждого жанра
(main_genre). Создать датафрейм. Переименовать столбец с количеством в
“сountˮ. Отсортировать по убыванию столбца “countˮ.`*

In [137]:
ff = df.groupby(['release_year', 'main_genre'])['title'].count().reset_index(name='count')
ff.sort_values(by='count', ascending=False)

Unnamed: 0,release_year,main_genre,count
140,2019,drama,13
122,2017,drama,13
103,2015,drama,9
148,2020,drama,9
156,2021,drama,9
...,...,...,...
158,2021,scifi,1
162,2022,crime,1
161,2022,comedy,1
164,2022,romance,1


**`Из результата группировки можно увидеть, какой жанр был наиболее востребован в определённое время. Так, наибольшее число фильмов, снятых в последних двух десятилетиях, относится к жанру драма.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - средний рейтинг (score) фильмов по
жанрам. Отсортировать по убыванию рейтинга. Округлить до двух знаков.`*

In [146]:
df.pivot_table(index='main_genre', values='score', aggfunc='mean').round(2).sort_values(by='score', ascending=False)

Unnamed: 0_level_0,score
main_genre,Unnamed: 1_level_1
war,7.8
scifi,7.77
documentary,7.76
action,7.7
comedy,7.61
western,7.56
fantasy,7.48
drama,7.48
crime,7.47
thriller,7.47


**`Из результата данной сводной таблицы можно увидеть наиболее высоко оценённые жанры: военные, научная фантастика, документальные.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*` Сводная таблица (pivot_table) - средний рейтинг (score) фильмов по
жанрам - строки и годам - столбцы. Отсортировать по возрастанию main_genre.`*

In [149]:
df.pivot_table(index='main_genre', columns='release_year', values='score', aggfunc='mean').round(2).sort_values(by='main_genre', ascending=True)

release_year,1954,1961,1964,1966,1967,1971,1973,1975,1976,1979,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
main_genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
action,,,,,,,,,,,...,,,7.8,8.4,,,,,8.1,
animation,,,,,,,,,,,...,,,,7.1,,,,,7.6,
comedy,,,,,,,,8.2,,7.8,...,7.6,7.38,7.2,7.62,7.5,7.97,7.75,6.9,7.75,7.3
crime,,,,,,,,,8.3,,...,,7.8,,7.27,7.2,,8.2,7.4,7.15,7.2
documentary,,,,,,,,,,,...,,8.05,8.3,8.2,7.73,7.6,7.3,8.02,7.95,
drama,,,7.8,,7.7,,,,,,...,7.64,7.54,7.28,7.18,7.27,7.26,7.47,7.21,7.21,7.5
fantasy,,,,,,,,,,,...,,7.8,,7.5,7.85,7.1,7.5,,7.2,
horror,,,,,,,8.1,,,,...,,,,7.0,,7.6,7.0,,,
musical,,,,,,,,,,,...,7.1,,7.4,,7.0,,,6.9,,
romance,7.5,,,,,,,,,,...,6.9,,,7.7,7.45,7.2,7.2,,,6.9


**`Из результата выполнения данного кода можно увидеть, фильмы какого жанра высоко или низко оценивались в каждый год.`**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


***
В ходе выполнения лабораторной работы были получены навыки предварительной обработки данных. Устранены проблемы в этих данных.

Был проанализирован набор данных `movies.csv`, содержащий информацию о фильмах, их оценках, жанре, дате и стране производства. В процессе предобработки были произведены проверка и
устранение пропусков, выявлены явные и неявные дубликаты, которые также были устранены. Были проверены типы данных, некоторые данные были приведены в соответствующим типам.

Группировка - год выхода и количество фильмов каждого жанра позволила увидеть популярность конкретных жанров в каждый период времени.

Сводная таблица со средним рейтингом фильмов по жанрам позволила определить, фильмы каких жанров наиболее высоко оценены. 

Наконец, сводная таблица со средним рейтингом по жанрам и годам позволила увидеть, фильмы какого жанра высоко или низко оценивались в каждый год.
***

Вывод должен описывать результаты исследования: какой набор данных вы анализировали (предметная область), какие методы предобработки применили, какие выводы из группировок и сводных таблиц можно сделать (они могут повторять выводы выше) и т.п. Объём вывода, как правило не более 0.5-0.75 страницы А4, всё таки вывод должен быть конкретным (без теории и “воды”).


### Дополнительное задание

**`Подробная формулировка задания`**

In [127]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***