# Лабораторная работа
## Знакомство с основными библиотеками языка Python для работы с данными: numpy, pandas, matplotlib, seaborn

In [None]:
# Импорт необходимых библиотек
# Успешное выполнение этой ячейки кода подтверждает правильную настройку среды разработки

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Следующая строка позволяет встраивать графики в сохранённый файл jupyter notebook
%matplotlib inline

**NumPy** — это базовая библиотека для научных вычислений в Python. Она предлагает оптимальные по производительности и времени методы работы с многомерными массивами. Кроме того, существует большая система других библиотек, которые принимают массивы NumPy в качестве входных данных. В аэрокосмической отрасли NumPy широко используется для численного моделирования, анализа данных, обработки сигналов и многого другого.

Двумя наиболее распространенными способами создания массивов NumPy являются:

* Преобразование других объектов перечисления Python (например, списков, кортежей) с использованием функции np.array().
* Вызов одной из встроенных функций NumPy.

В следующих ячейках представлен синтаксис для создания массивов и некоторые распространенные встроенные функции NumPy.

In [None]:
### Преобразование других объектов Python

# Одномерный массив из списка, размерность = shape (4, ).
x_1d = np.array([1, 3, 5, 7])

# Двумерный массив из комбинации списков и кортежей, размерность (3, 3).
x_2d = np.array([(1, 1, 1), [2, 2, 2], (3, 3, 3)])

# Вывод сохранённых массивов.
print(f'x_1d:\n{x_1d}\n')
print(f'x_2d:\n{x_2d}\n')

In [None]:
### Использование встроенных функций NumPy.

# Двумерный массив из нулей, 2 строки, 3 столбца.
x_zeros = np.zeros((2, 3))

# Трёхмерный массив из единиц, размерность (2, 3, 4) - 2 матрицы из 3 строк и 4 столбцов.
x_ones = np.ones((2, 3, 4))

# Единичная матрица ранга 4.
x_identity = np.eye(4)

# Последовательность чисел в интервале от 5 до 11 с шагом 2 (не включая 11)
x_seq = np.arange(5, 11, 2)

# Массив из единиц той же размерности, что и `x_zeros`
x_ones_as_zeros = np.ones_like(x_zeros)


# Вывод сохранённых массивов.
print(f'x_zeros:\n{x_zeros}\n')
print(f'x_ones:\n{x_ones}\n')
print(f'x_identity:\n{x_identity}\n')
print(f'x_seq:\n{x_seq}\n')
print(f'x_ones_as_zeros:\n{x_ones_as_zeros}\n')

In [None]:
# Трёхмерный массив.
x_3d = np.array([[[1, 2, 3, 4], [4, 7, 1, 9], [0, 4, 6, 8]],
                 [[5, 2, 8, 0], [2, 4, 3, 1], [1, 0, 4, 9]]])

# Проверка количества измерений, количества элементов, размерности (формы) и типа данных
print(f'Количество изерений: {x_3d.ndim}')
print(f'Количество элементов: {x_3d.size}')
print(f'Размерность (форма): {x_3d.shape}')
print(f'Тип данных: {x_3d.dtype}')

# Вывод массива
print(x_3d)

In [None]:
# Использование функции reshape() для изменения размерности (формы) массива:

# Двумерный массив, заполненный последовательными целыми числами
x_seq_2d = np.arange(12).reshape(4, 3)

# Трёхмерный массив, заполненный единицами, -1 на единственном месте в задании формы массива позволяет автоматически подобрать подходящую размерность
x_ones_3d = np.ones(12).reshape((2, 2, -1))

# Print the results.
print(f'x_seq_2d:\n{x_seq_2d}\n')
print(f'x_ones_3d:\n{x_ones_3d}\n')

## **Задание 1: Анализ значений датчика**
Сгенерируем массив случайных значений, считанный с условного датчика.

Выведите среднее значение показателя и его максимальное значение.

In [None]:
np.random.seed(42) # Для воспроизводимости результатов

sensor_data = np.random.randint(0, 35, size=20)

#### ВСТАВЬТЕ КОД СЮДА
average = ...
max_val = ...
####

print(f"Среднее значение: {average}")
print(f"Максимальное значение: {max_val}")

Постройте линейный график изменения показателей датчика со временем и обозначьте оси с помощью методов библиотеки для визуализации данных [matplotlib](https://matplotlib.org/stable/users/explain/quick_start.html)

In [None]:
time = np.arange(len(sensor_data))  # Создаем массив временных значений

#### ВСТАВЬТЕ КОД СЮДА
...
####
plt.title("Изменение показателя")
plt.xlabel("Время (с)")
plt.ylabel("Датчик")

## Задание 2: Матрица поворота

Примените матрицу поворота в двумерном пространстве на угол 83 градуса (правосторонняя система координат и положительное направление вращения против часовой стрелки) к вектору (1, 0).

Подсказка: используйте функцию np.dot() для вычисления произведения матриц.

In [None]:
angle = np.radians(83)  # Преобразуем угол в радианы
rotation_matrix = np.array([[np.cos(angle), -np.sin(angle)],
                             [np.sin(angle), np.cos(angle)]])

vector = np.array([1, 0])

#### ВСТАВЬТЕ КОД СЮДА
rotated_vector = ...
####

print(f"Матрица поворота:\n{rotation_matrix}")
print(f"Повернутый вектор: {rotated_vector}")

In [None]:
# Визуализация
plt.figure(figsize=(6, 6))
plt.quiver(0, 0, vector[0], vector[1], angles='xy', scale_units='xy', scale=1, color='blue', label='Исходный вектор')
plt.quiver(0, 0, rotated_vector[0], rotated_vector[1], angles='xy', scale_units='xy', scale=1, color='red', label='Повернутый вектор')
plt.xlim(-1.5, 1.5)
plt.ylim(-1.5, 1.5)
plt.title('Вектор и его поворот')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.legend()
plt.show()

## Задание 3:  Обработка сигналов

Условие:  Имеется зашумлённый сигнал, представленный в виде массива numpy.
Применить к сигналу операцию фильтрации с использованием скользящего среднего с окном размера 5.

Подсказка: используйте функцию np.convolve() для вычисления результата фильтрации (свёртки)

In [None]:
x = np.linspace(-np.pi, np.pi, 101)
mu, sigma = 0, 0.1 # среднее и стандартное отклонение
s = np.random.normal(mu, sigma, 101)
y = np.sin(x) + s
plt.plot(x, y)
window_size = 5
filter = np.ones(window_size)/ window_size

#### ВСТАВЬТЕ КОД СЮДА
filtered_signal = ...
####

In [None]:
# Визуализация
plt.figure(figsize=(8,6))
plt.plot(y, label='Исходный сигнал')
plt.plot(np.arange(len(filtered_signal)), filtered_signal, label='Отфильтрованный сигнал')
plt.title('Исходный и отфильтрованный сигнал')
plt.xlabel("Время")
plt.ylabel("Амплитуда")
plt.grid(True)
plt.legend()
plt.show()

## **Задание 4: Работа с таблицами**
**Pandas** - библиотека, которая применяется для обработки и анализа табличных данных. В этой библиотеке используется numpy для удобного хранения данных и вычислений.

Далее мы будем работать с реальным историческим датасетом, содержащим информацию о десяти самых кассовых фильмах Голливуда за каждый год до 2018.

In [None]:
# Читаем файл blockbusters.csv из папки Data, которая должна быть в одной директории с этим ноутбуком
# Не обращаем внимание на предупреждение, если таблица отображается корректно

data_folder = './Data/'
movies = pd.read_csv(data_folder+'blockbusters.csv')

# movies = pd.read_csv('blockbusters.csv')
movies['worldwide_gross'] = movies['worldwide_gross'].str.replace('$', '').str.replace(',', '').astype(float)
movies = movies.rename(columns={"Main_Genre": "основной_жанр", "Genre_2": "жанр_2", "Genre_3": "жанр_3", "imdb_rating": "рейтинг",
                                "length": "продолжительность_мин", "rank_in_year": "место_в_топе", "rating": "возрастное_ограничение",
                                "studio": "студия_производства", "title": "название", "worldwide_gross": "кассовые_сборы", "year": "год"})
# Вывести первые 7 строк таблицы
movies.head(7)

In [None]:
# Ввод фильмов, с рейтингом выше 8.7
movies[movies['рейтинг'] > 8.7]


Выведите только строки с фильмами производства студии Pixar.
[Документация](https://pandas.pydata.org/docs/user_guide/indexing.html)

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

Теперь выведите только строки с фильмами, которые длятся больше 3 часов и были выпущены до 2001 года включительно. (Используйте метод loc() для фильтрации таблицы https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

## **Задание 5: Графики распределения одной переменной**

Типы графиков, которые можно построить:
https://matplotlib.org/stable/plot_types/index.html

Постройте гистограмму распределения переменной "кассовые_сборы" с помощью функций библиотеки matplotlib (количество столбцов = 100). Для каждого значения уровня кассовых сборов по оси **x** она должна показывать соответствующее количество фильмов по оси **y**.

Функции plt.xlabel(), plt.ylabel(), plt.title() нужны, чтобы подписать оси и заголовок гистограммы.

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####
plt.xlabel('Мировые кассовые сборы, в долларах')
plt.ylabel('Количество фильмов')
plt.title('Кассовые сборы, гистограмма');

Постройте также boxplot ("ящик с усами") для этой переменной.
<img src="Boxplot.jpg" style="width: 500px;" align="left">

Медиана - это значение, которое разделяет упорядоченный набор данных на две равные части, ее еще можно назвать Q2. Половина данных лежит ниже медианы, а другая половина — выше. На графике boxplot это линия внутри прямоугольника.

Первый квартиль — это значение, которое отделяет 25% наименьших значений в наборе данных. На графике boxplot это нижняя граница прямоугольника.

Третий квартиль — это значение, которое отделяет 25% наибольших значений в наборе данных. На графике boxplot это верхняя граница прямоугольника.

Интерквартильный размах - это разница между третьим и первым квартилями, то есть это прямоугольник, в котором лежит медиана, а по краям находятся Q1 и Q2. Он показывает разброс центральной половины данных. Внутри него лежит 50% данных.

Для кассовых сборов получите значения медианы "median", 1-го квартиля "Q1" (Q1, 25-й перцентиль) 3-го квартиля "Q3" (Q3, 75-й перцентиль), интерквартильного размаха "IQR" (Q3 - Q1). Сравните полученные значения и построенный boxplot.

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####
plt.title('Кассовые сборы, ящик с усами');
plt.ylabel('Мировые кассовые сборы, в долларах')
plt.xticks([])
plt.grid(True)

#### ВСТАВЬТЕ КОД СЮДА
median = ...
Q1 = ...
Q3 = ...
IQR = ...
####

# Определяем границы для выбросов
whis = 1.5
upper_outlier_threshold = Q3 + whis * IQR
lower_outlier_threshold = Q1 - whis * IQR
# Находим верхний ус (максимальное значение, не превышающее верхнюю границу)
upper_whisker = movies['кассовые_сборы'][movies['кассовые_сборы'] <= upper_outlier_threshold].max()
# Находим нижний ус (минимальное значение, не меньшее нижней границы)
lower_whisker = movies['кассовые_сборы'][movies['кассовые_сборы'] >= lower_outlier_threshold].min()

print("Медиана списка : ", median)
print(f"Q1 (25-й перцентиль): {Q1}")
print(f"Q3 (75-й перцентиль): {Q3}")
print(f"IQR (Интерквартильный размах): {IQR}")
print(f"Верхняя граница выбросов: {upper_outlier_threshold}")
print(f"Нижняя граница выбросов: {lower_outlier_threshold}")
print(f"Верхний ус: {upper_whisker}")
print(f"Нижний ус: {lower_whisker}")

Для самопроверки и получения дополнительной информации о данных в таблице можно использовать метод describe(). Функция describe оценивает столбцы с числовым типом данных (int или float) и возвращает статистические данные, которые дают представление о распределении значений.


In [None]:
movies.describe()

## **Задание 6: графики двух переменных**


**Seaborn** - это библиотека Python, которая дополняет функции matplotlib и придает графикам более приятный вид. Она добавляет красивые цветовые карты по умолчанию и имеет встроенные опции для построения необычных графиков, например, таких как [heatmap](https://seaborn.pydata.org/examples/spreadsheet_heatmap.html).

Примеры графиков, которые можно построить с помощью методов библиотеки seaborn: https://seaborn.pydata.org/examples/index.html

Используя метод sns.scatterplot() постройте график зависимости рейтинга фильма от его кассовых сборов.

Можно использвать атрибут hue="основной_жанр", чтобы добавить информацию о жанре фильма для каждой точки.

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####



## **Задание 7: Heatmap**

Какие студии и в каком жанре снимают блокбастеры?

В таблице представлено множество различных студий и жанров. При работе с двумя категориальными переменными, которые обе имеют много разных значений, часто не хватает места для представления каждой комбинации двух категорий таким графиком, как barplot или boxplot. В таком случае полезно использовать тепловые карты (heatmaps) для быстрого понимания данных.

Представьте цветом количество фильмов, снятых каждой студией в каждом жанре с помощью тепловой карты. Подсказка: используйте функции pandas crosstab() и Seaborn heatmap(..., annot=True).

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####
plt.title('Количество фильмов каждого жанра, снятых каждой студией')

Теперь аналогичным образом постройте тепловую карту для разных студий и жанров, где цветом будут обозначаться **суммарные** кассовые сборы, полученные студией за фильмы в выбранном жанре.
Подсказка: используйте аргументы values = movies['кассовые_сборы']  и aggfunc = 'sum' функции crosstab().  

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

plt.title('Суммарные кассовые сборы разных студией по жанрам')

# Конец :)