**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №13

Набор данных: movies.csv

Атрибуты:
1. название фильма
2. год выхода фильма
3. оценка
4. количество голосов
5. длительность фильма
6. жанр
7. производство

### 1.Чтение файла (набора данных)

In [1]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd
df = pd.read_csv('movies.csv', sep=';')
df

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020.0,9.0,31180.0,83,documentary,GB
1,Inception,2010.0,8.8,2268288.0,148,scifi,GB
2,Forrest Gump,1994.0,8.8,1994599.0,142,drama,US
3,Anbe Sivam,2003.0,8.7,20595.0,160,comedy,IN
4,Bo Burnham: Inside,2021.0,8.7,44074.0,87,comedy,US
...,...,...,...,...,...,...,...
384,Top Gun,1986.0,6.9,329656.0,110,drama,US
385,Radhe Shyam,2022.0,6.9,21328.0,138,romance,IN
386,Sorry to Bother You,2018.0,6.9,75653.0,111,fantasy,US
387,The Bourne Ultimatum,2007.0,8.0,627009.0,115,thriller,DE


Как выяснилось, CSV файл обладает нестандартным разделителем значений: `;` вместо `,`.
К счастью, для читателя CSV в Pandas есть возможность определить разделитель с помощью аргумента.
Интересно то, что если в Python вывод датафрейма Pandas - это просто выровненный текст, в Jupyter Notebook
выровненный вывод визуально представлен в виде таблицы.

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [2]:
# применить метод head
df.head(20)

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020.0,9.0,31180.0,83,documentary,GB
1,Inception,2010.0,8.8,2268288.0,148,scifi,GB
2,Forrest Gump,1994.0,8.8,1994599.0,142,drama,US
3,Anbe Sivam,2003.0,8.7,20595.0,160,comedy,IN
4,Bo Burnham: Inside,2021.0,8.7,44074.0,87,comedy,US
5,Saving Private Ryan,1998.0,8.6,1346020.0,169,drama,US
6,Django Unchained,2012.0,8.4,1472668.0,165,western,US
7,Dangal,2016.0,8.4,180247.0,161,action,IN
8,Bo Burnham: Make Happy,2016.0,8.4,14356.0,60,comedy,US
9,Louis C.K.: Hilarious,2010.0,8.4,11973.0,84,comedy,US


В пункте 1 вывод датафрейма был сокращён: из 389 записей показаны лишь 10, для краткого обзора.
Тут же, так как мы буквально производим операцию вывода первых 20 строк, они выводятся все, без сокращений.

2.2 Оценка данных с помощью метода info.

In [3]:
# выполнить метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 389 entries, 0 to 388
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   title            384 non-null    object 
 1   release_year     387 non-null    float64
 2   score            386 non-null    float64
 3   number_of_votes  388 non-null    float64
 4   duration         389 non-null    int64  
 5   main_genre       389 non-null    object 
 6   main_production  388 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 21.4+ KB


Метод выводит тип датафрейма в Python, его индексацию, сведения о каждом столбце,
подсчёт типов и использование оперативной памяти датафреймом.
Индексация `df`, в нашем случае - диапазон от 0 до 388 с шагом 1.
Для каждого столбца указано количество ненулевых значений: оно не везде равно размеру датафрейма - значит,
датасет имеет пропущенные данные.
Также, для каждого столбца указан тип. `float64` и `int64`, думаю, в представлении не нуждаются;
интересен тип `object`, используемый в Pandas для хранения строк.

2.3 Оценка данных с помощью метода describe.

In [4]:
# оцените числовые столбцы с помощью describe
df.describe()

Unnamed: 0,release_year,score,number_of_votes,duration
count,387.0,386.0,388.0,389.0
mean,2010.976744,7.512176,139152.3,123.352185
std,10.805726,0.44387,236527.9,28.3048
min,1954.0,6.9,10139.0,28.0
25%,2007.5,7.1,20553.75,104.0
50%,2014.0,7.4,46069.5,122.0
75%,2018.0,7.8,155158.5,139.0
max,2022.0,9.0,2268288.0,229.0


По умолчанию, метод `pandas.DataFrame.describe()` анализирует лишь числовые столбцы.
Это поведение можно изменить, задав аргумент `include='all'`, но в рамках этой работы не нужно.
Значения строк:
- `count`: подсчёт ненулевых (и не NaN) значений;
- `mean`: мат. ожидание значения в столбце
  (так как в датасете дискретные величины, то мат. ожидание = среднее значение);
- `std`: стандартное отклонение значения в столбце;
- `min`, `max`: тут, думаю, очевидно;
- `%`: процентили. *n*-й процентиль обозначает значение, которое все значения в столбце не превышают с вероятностью *n*%.


---

**Сделать выводы. Вы должны понимать, что означает тот или иной столбец, чтобы
 ответить на вопросы на защите.**


 ---


 2.4 Оценка названий столбцов

In [5]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['title', 'release_year', 'score', 'number_of_votes', 'duration',
       'main_genre', 'main_production'],
      dtype='object')

Столбцы типа `object` - как я ранее говорил, этот тип используется для строк.
Названия столбцов грамматически правильные и соответствуют содержанию каждого столбца;
проблем с названиями нет.

### 3. Проверка пропусков

In [6]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
df = df.dropna().reset_index(drop=True)
df

Unnamed: 0,title,release_year,score,number_of_votes,duration,main_genre,main_production
0,David Attenborough: A Life on Our Planet,2020.0,9.0,31180.0,83,documentary,GB
1,Inception,2010.0,8.8,2268288.0,148,scifi,GB
2,Forrest Gump,1994.0,8.8,1994599.0,142,drama,US
3,Anbe Sivam,2003.0,8.7,20595.0,160,comedy,IN
4,Bo Burnham: Inside,2021.0,8.7,44074.0,87,comedy,US
...,...,...,...,...,...,...,...
378,Top Gun,1986.0,6.9,329656.0,110,drama,US
379,Radhe Shyam,2022.0,6.9,21328.0,138,romance,IN
380,Sorry to Bother You,2018.0,6.9,75653.0,111,fantasy,US
381,The Bourne Ultimatum,2007.0,8.0,627009.0,115,thriller,DE


Метод `pandas.DataFrame.dropna()` возвращает датафрейм, из которого удалены все строки,
в которых хотя бы одно значение `None` или `NaN`.

Индексы, однако, не обновляются, и каждая строка остаётся с индексом, принадлежащим ей в исходном датафрейме.
Эту проблему можно решить, используя `pandas.DataFrame.reset_index()`, возвращающий датафрейму `RangeIndex`.
Без вызова этого метода, скорее всего, последние строки в датафрейме будут иметь индекс, превышающий длину датафрейма.
Аргумент `drop=True` нужен для того, чтобы не вставлять новый столбец "index" в датафрейм.

Пропуски было решено удалить: я не представляю, какое значение по умолчанию можно поставить в пропусках на
`title`, `release_year`, `score`, `number_of_votes` или `main_production`.


---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [7]:
df.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
378    False
379    False
380    False
381     True
382     True
Length: 383, dtype: bool

In [8]:
# удалите дубликаты, если они есть
if df.duplicated().sum() > 0:
    df = df.drop_duplicates().reset_index(drop=True)

Сумма над результатом `pandas.DataFrame.duplicated()` даёт количество значений `True` в последовательности значений.
Это используется для определения того, есть ли дубликаты в датафрейме.

#### Проверка неявных дубликатов

In [9]:
sorted(df['main_genre'].unique())

['COMEDY',
 'action',
 'animation',
 'comedy',
 'crime',
 'documentary',
 'drama',
 'dramaa',
 'fantasy',
 'horror',
 'musical',
 'romance',
 'scifi',
 'sports',
 'thriller',
 'war',
 'western']

Неявные дубликаты определить чисто алгоритмически не получится - придётся всматриваться собственными глазами.
Для удобства, были взяты все уникальные значения жанра, затем отсортированы, чтобы было проще заменить ошибки.

In [10]:
# удалите дубликаты, если они есть
df.loc[:, 'main_genre'] = df.loc[:, 'main_genre'].replace('COMEDY', 'comedy').replace('dramaa', 'drama')
sorted(df['main_genre'].unique())

['action',
 'animation',
 'comedy',
 'crime',
 'documentary',
 'drama',
 'fantasy',
 'horror',
 'musical',
 'romance',
 'scifi',
 'sports',
 'thriller',
 'war',
 'western']

---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [11]:
df.dtypes

title               object
release_year       float64
score              float64
number_of_votes    float64
duration             int64
main_genre          object
main_production     object
dtype: object

- Строковые типы расставлены верно.
- Год - не целое число? Это бы заметно усложнило отсчёт времени в жизни.
- Оценка вполне может быть не целым числом.
- Количество голосов - не целое число;
  0.5 голоса я могу себе представить только, если зритель сомвневается в своём мнении.
- Длительность можно, по идее, представить в виде не целого числа, чтобы считать доли минут,
  но для отсчёта времени фильма проще и логичнее оставить её целым количеством минут.

In [12]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df['release_year'] = df['release_year'].astype('int')
df['number_of_votes'] = df['number_of_votes'].astype('int')
df.dtypes

title               object
release_year         int64
score              float64
number_of_votes      int64
duration             int64
main_genre          object
main_production     object
dtype: object

---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

### 6. Группировка данных

#### Задание 1

*Группировка - жанр и количество фильмов каждого `main_production`*

In [13]:
# выполните группировку согласно варианту
grouped_series = df.groupby(['main_genre', 'main_production'])['title'].count()
grouped_series

main_genre  main_production
action      DE                  1
            IN                  2
            US                  2
animation   JP                  1
            US                  2
                               ..
thriller    TH                  1
            US                 21
war         CD                  1
            US                  2
western     US                  7
Name: title, Length: 93, dtype: int64

**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной группировки?`**

Судя по стандартному выводу, группировка датафрейма даёт новый тип, отличный от `pandas.DataFrame`.
Из результата можно увидеть статистику: кто снимал фильмы и в каком количестве для каждого жанра.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*Группировка - жанр и количество фильмов каждого main_production.
Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по убыванию столбца “count”.*

In [14]:
# выполните группировку согласно варианту
grouped_series.to_frame().rename(columns={'title': 'count'}).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,count
main_genre,main_production,Unnamed: 2_level_1
drama,US,53
drama,IN,48
thriller,US,21
thriller,IN,21
comedy,US,21
...,...,...
sports,DE,1
thriller,IE,1
thriller,PS,1
thriller,TH,1


**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной группировки?`**

Результат группировки совсем несложно перевести в датафрейм.
Информация отображается та же, что и выше, но благодаря сортировке можно наглядно увидеть,
какое производство больше/меньше всего производит фильмы определённого жанра.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*Сводная таблица (pivot_table) - средний рейтинг (score) фильмов по
main_production. Отсортировать по убыванию рейтинга. Округлить до одного знака.*

In [15]:
# выполните сводную таблицу согласно варианту
# mean = мат. ожидание = среднее значение для дискретных величин
df.pivot_table(values=['score'], index=['main_production'], aggfunc='mean').sort_values(by='score', ascending=False).round(1)

Unnamed: 0_level_0,score
main_production,Unnamed: 1_level_1
CD,8.2
UA,8.1
ZA,8.1
TR,7.8
NZ,7.8
MX,7.7
TH,7.6
MW,7.6
IN,7.6
GB,7.6


**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной сводной таблицы?`**

Сводная таблица наглядно представляет сведения о том, у каких производств фильмы набирают в среднем больше всего и меньше всего рейтинга.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*Сводная таблица (pivot_table) - медианный рейтинг (score) фильмов по
жанрам - столбцы и main_production- строки. Отсортировать по возрастанию
main_production.*

In [16]:
# выполните сводную таблицу согласно варианту
df.pivot_table(values=['score'], columns=['main_genre'], index=['main_production'], aggfunc='median').sort_values(by='main_production')

Unnamed: 0_level_0,score,score,score,score,score,score,score,score,score,score,score,score,score,score,score
main_genre,action,animation,comedy,crime,documentary,drama,fantasy,horror,musical,romance,scifi,sports,thriller,war,western
main_production,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
AR,,,7.5,,,,,,,,,,,,
AU,,,8.1,,,7.3,,,,,,,7.3,,
BE,,,,,7.9,,,7.0,,,,,,,
BR,,,,,7.2,,,,,,,,,,
CA,,,7.1,,,7.15,,,,,8.0,,,,
CD,,,,,,,,,,,,,,8.2,
CN,,,,,,7.25,7.2,,,,,,,,
DE,7.1,,,,,7.15,,7.5,,,,7.4,7.75,,
DK,,,,6.9,,,,,,,,,,,
ES,,,8.1,,,7.4,7.5,7.0,,,,,7.7,,


**`Сделайте вывод - интерпретацию - что можно увидеть из результата выполнения данного кода?`**

В 2-мерной сводной таблице можно просматривать оценку фильмов отдельно по 2-м критериям:
производству и жанру. Для тех сочетаний критериев, для которых нет ни одного фильма, значение NaN.
Сортировка по производству привела к алфавитному упорядочению кодов стран, от A до Z.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод

<!-- Вывод должен описывать результаты исследования: какой набор данных вы анализировали (предметная область), какие методы предобработки # применили, какие выводы из группировок и сводных таблиц можно сделать (они могут повторять выводы выше) и т.п. Объём вывода, как правило не более 0.5-0.75 страницы А4, всё таки вывод должен быть конкретным (без теории и “воды”). -->

В ходе этой работы был произведён анализ набора данных о фильмах: их количество просмотров, оценка, производство и т. п.
Для устранения ошибок в датасете, над ним были осуществлены операции:
- проверка пропусков;
- проверка дубликатов;
- проверка типов данных.

Для анализа данных были произведены:
- группировка;
- создание сводных таблиц.

По результату анализа данных можно сказать, что:
1. всего различных сочетаний производителя и жанра фильма существует 93;
1. группируя по жанру и производителю, больше всего фильмов заснято в США в жанре "драма".
1. в среднем, самые высокооцениваемые фильмы засняли в Конго, а самые низкооцениваемые - в Дании;
1. больше всего жанров покрывает кинематограф США: у них нет ни одного фильма только в жанре "спорт".

Для осуществления анализа была изучена библиотека Pandas, специально предназначенная для анализа данных на Python.
Хотя анализ данных спокойно можно делать, пользуясь стандартными типами Python, Pandas:
- имеет интерфейс с хорошей документацией;
- реализован на C, что повышает производительность операций.

Наконец, для написания кода был использован Jupyter Notebook.
Редактирование текста в нём совершенно базовое и не интересное, но блокнот позволяет неплохо совмещать фрагменты кода,
выполняющиеся последовательно, с документацией на Markdown.

### Дополнительное задание

**`Подробная формулировка задания`**

In [17]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***