In [1]:
# Импортирование необходимых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Пример 1: Создание датафрейма в Pandas

В этом примере мы создали два датафрейма:

1. Пустой датафрейм `df_empty` без каких-либо данных.
2. Датафрейм `df` с некоторыми тестовыми данными, включающими имена, возраст и профессию четырех людей.

```python
# Создание пустого датафрейма
df_empty = pd.DataFrame()

# Создание датафрейма с данными
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Artist']
}
df = pd.DataFrame(data)
```

#### Теперь ваша очередь:

1. Создайте свой датафрейм с колонками "City", "Population", и "Area".
2. Выведите ваш датафрейм на экран.

In [None]:
import pandas as pd

# Создание датафрейма с данными о городах
city_data = {
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'],
    'Population': [8537673, 3979576, 2693976, 2320268, 1680992],
    'Area': [468.9, 1213.9, 606.1, 669.2, 1340.6]
}
df_cities = pd.DataFrame(city_data)

# Вывод датафрейма на экран
print(df_cities)


### Пример 2: Выбор и удаление колонок

Часто вам нужно будет работать только с определенными колонками датафрейма. В этом примере мы рассмотрим, как выбрать и удалить колонки.

```python
#Выбор одной колонки
age_column = df['Age']

#Выбор нескольких колонок
selected_columns = df[['Name', 'Occupation']]

#Удаление колонки
df_dropped = df.drop('Age', axis=1)
```

#### Теперь ваша очередь:

1. Выберите колонку "Occupation" и сохраните ее в переменную.
2. Удалите колонку "Name" из датафрейма и выведите результат на экран.

In [None]:
# Выбор колонки "Occupation" и сохранение ее в переменную
occupation_column = df['Occupation']

# Удаление колонки "Name" из датафрейма
df_dropped_name = df.drop('Name', axis=1)

# Вывод результата на экран
print(df_dropped_name)


### Пример 3: Выбор и удаление строк

Кроме работы с колонками, вы также будете выбирать и удалять строки. В этом примере мы рассмотрим, как это делается.

```python
#Выбор строки по индексу
row_1 = df.loc[0]

#Выбор нескольких строк по индексу
selected_rows = df.loc[1:3]

#Удаление строки по индексу
df_dropped = df.drop(0)
```

#### Теперь ваша очередь:

1. Выберите строки с индексами от 1 до 2 и сохраните их в переменную.
2. Удалите строку с индексом 3 из датафрейма и выведите результат на экран.

### Пример 4: Работа с пропущенными данными

Пропущенные данные — распространенная проблема в реальных наборах данных. В этом примере мы рассмотрим, как обрабатывать пропущенные значения.

```python
#Создание датафрейма с пропущенными значениями
df_with_nan = pd.DataFrame({
    'Name': ['Alice', None, 'Charlie', 'David'],
    'Age': [25, 30, None, 40]
})

#Заполнение пропущенных значений
df_filled = df_with_nan.fillna('Unknown')

#Удаление строк с пропущенными значениями
df_dropped = df_with_nan.dropna()
```

#### Теперь ваша очередь:

1. Создайте датафрейм с пропущенными значениями в колонке "Occupation".
2. Заполните пропущенные значения этой колонки словом "Unknown" и выведите результат на экран.

In [None]:
import pandas as pd

# Создание датафрейма с пропущенными значениями в колонке "Occupation"
df_with_nan_occupation = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'Occupation': ['Engineer', None, None, 'Artist']
})

# Заполнение пропущенных значений в колонке "Occupation" словом "Unknown"
df_filled_occupation = df_with_nan_occupation.fillna({'Occupation': 'Unknown'})

# Вывод результата на экран
print(df_filled_occupation)


### Пример 5: Фильтрация данных

Фильтрация данных — одна из самых частых операций при анализе данных. В этом примере мы рассмотрим, как фильтровать строки в датафрейме.

```python
# Фильтрация по условию (возраст больше 30)
filtered_df = df[df['Age'] > 30]

# Фильтрация по нескольким условиям
filtered_df_multiple = df[(df['Age'] > 30) & (df['Occupation'] == 'Teacher')]
```

#### Теперь ваша очередь:

1. Фильтруйте датафрейм так, чтобы остались только строки с профессией "Engineer".
2. Фильтруйте датафрейм так, чтобы остались только строки с возрастом меньше 35 и профессией "Doctor".

In [None]:
# Фильтрация для оставления только строк с профессией "Engineer"
engineer_df = df[df['Occupation'] == 'Engineer']

# Вывод результата на экран
print(engineer_df)

# Фильтрация для оставления только строк с возрастом меньше 35 и профессией "Doctor"
doctor_under_35_df = df[(df['Age'] < 35) & (df['Occupation'] == 'Doctor')]

# Вывод результата на экран
print(doctor_under_35_df)


### Пример 6: Сортировка данных

Сортировка данных часто необходима для лучшего понимания распределения значений или для подготовки данных к анализу.

```python
# Сортировка по возрасту (по возрастанию)
sorted_df = df.sort_values('Age')

# Сортировка по возрасту и профессии (по убыванию)
sorted_df_multiple = df.sort_values(['Age', 'Occupation'], ascending=[False, True])
```

#### Теперь ваша очередь:

1. Отсортируйте датафрейм по колонке "Name" в алфавитном порядке.
2. Отсортируйте датафрейм по возрасту в порядке убывания и выведите результат на экран.

In [None]:
# Сортировка по колонке "Name" в алфавитном порядке
sorted_by_name_df = df.sort_values('Name')

# Вывод результата на экран
print(sorted_by_name_df)

# Сортировка по возрасту в порядке убывания
sorted_by_age_descending_df = df.sort_values('Age', ascending=False)

# Вывод результата на экран
print(sorted_by_age_descending_df)


### Пример 7: Агрегация данных

Агрегация данных включает в себя операции, которые преобразуют набор данных в одно число — например, среднее значение, максимум или минимум.

```python
# Вычисление среднего возраста
average_age = df['Age'].mean()

# Вычисление максимального и минимального возраста
max_age = df['Age'].max()
min_age = df['Age'].min()
```

#### Теперь ваша очередь:

1. Найдите средний возраст в вашем датафрейме и сохраните его в переменную.
2. Найдите профессию самого молодого человека в датафрейме и выведите её на экран.

In [None]:
# Нахождение среднего возраста и сохранение его в переменную
average_age = df['Age'].mean()

# Вывод среднего возраста на экран
print("Средний возраст:", average_age)

# Нахождение профессии самого молодого человека
youngest_person = df[df['Age'] == df['Age'].min()]
youngest_person_occupation = youngest_person['Occupation'].iloc[0]

# Вывод профессии самого молодого человека на экран
print("Профессия самого молодого человека:", youngest_person_occupation)


### Пример 8: Применение функций к данным

Вы можете применять различные функции к данным для их преобразования или анализа.

```python
#Применение функции к одной колонке (преобразование возраста в категории)

df['Age_Category'] = df['Age'].apply(lambda x: 'Young' if x < 30 else 'Old')

# Применение функции ко всему датафрейму (перевод всех строк в верхний регистр)
df_upper = df.applymap(str.upper)
```

#### Теперь ваша очередь:

1. Создайте новую колонку "Name_Length", в которой будет храниться длина каждого имени.
2. Преобразуйте все строки в колонке "Occupation" в нижний регистр и выведите результат на экран.

In [None]:
# Создание новой колонки "Name_Length" с длиной каждого имени
df['Name_Length'] = df['Name'].apply(len)

# Вывод датафрейма с новой колонкой на экран
print(df)

# Преобразование всех строк в колонке "Occupation" в нижний регистр
df['Occupation'] = df['Occupation'].str.lower()

# Вывод результата на экран
print(df)


### Пример 9: Чтение и запись данных в CSV-файлы

Чтение и запись данных в файлы — базовые операции, которые вам нужно уметь выполнять.

```python
# Чтение данных из CSV-файла
df_from_csv = pd.read_csv('your_file.csv')

# Запись данных в CSV-файл
df.to_csv('new_file.csv', index=False)
```

#### Теперь ваша очередь:

1. Считайте данные из CSV-файла (который я прикреплю позже) и сохраните их в новый датафрейм.
2. Запишите только колонки "Name" и "Age" из текущего датафрейма в новый CSV-файл.

In [None]:
import pandas as pd

# Чтение данных из CSV-файла
df_from_csv = pd.read_csv('example_data.csv')

# Запись только колонок "Name" и "Age" в новый CSV-файл
df_from_csv[['Name', 'Age']].to_csv('new_file.csv', index=False)


### Пример 10: Слияние и соединение датафреймов

Слияние и соединение датафреймов часто необходимы при работе с большими наборами данных.

```python
# Создание второго датафрейма
df2 = pd.DataFrame({
    'Name': ['Eve', 'Frank'],
    'Age': [45, 50],
    'Occupation': ['Manager', 'CEO']
})

# Слияние двух датафреймов
merged_df = pd.concat([df, df2])

# Соединение двух датафреймов по колонке 'Name'
joined_df = pd.merge(df, df2, on='Name', how='outer')
```

#### Теперь ваша очередь:

1. Создайте второй датафрейм с колонками "Name", "Salary" и двумя или тремя строками.
2. Соедините ваш новый датафрейм с исходным по колонке "Name" и выведите результат на экран.

In [None]:
import pandas as pd

# Создание второго датафрейма
df2 = pd.DataFrame({
    'Name': ['Eve', 'Frank'],
    'Salary': [60000, 75000],
})

# Соединение двух датафреймов по колонке 'Name'
joined_df = pd.merge(df, df2, on='Name', how='outer')

# Вывод результата на экран
print(joined_df)


### Пример 11: Чтение данных из CSV-файла

Считывание данных из CSV-файла является одной из наиболее распространенных задач. В этом примере мы считаем CSV-файл и выводим первые 5 строк.

```python
# Чтение данных из CSV-файла
csv_file_path = '/path/to/your/csv/file.csv'
df_from_csv = pd.read_csv(csv_file_path)

# Вывод первых 5 строк
df_from_csv.head()
```

#### Теперь ваша очередь:

1. Считайте данные из прикрепленного CSV-файла и сохраните их в новую переменную.
2. Выведите на экран первые 10 строк вашего датафрейма.

In [None]:
import pandas as pd

# Считывание данных из прикрепленного CSV-файла
csv_file_path = 'example_data.csv'
df_from_csv = pd.read_csv(csv_file_path)

# Вывод первых 10 строк датафрейма
print(df_from_csv.head(10))


### Пример 12: Основная информация о датасете

После того как данные считаны, полезно получить общую информацию о датасете: типы данных, количество пропущенных значений и так далее.

```python
# Получение информации о датасете
df_from_csv.info()

# Основные статистические показатели
df_from_csv.describe()
```

#### Теперь ваша очередь:

1. Получите информацию о вашем датафрейме с помощью метода `info()`.
2. Выведите основные статистические показатели для числовых колонок с помощью метода `describe()`.

In [None]:
# Получение информации о датафрейме
print(df_from_csv.info())

# Вывод основных статистических показателей для числовых колонок
print(df_from_csv.describe())


### Пример 13: Выбор и фильтрация данных

В реальных данных часто нужно выбирать определенные строки или колонки. В этом примере мы рассмотрим, как это сделать на примере считанного CSV-файла.

```python
# Выбор определенных колонок
selected_columns = df_from_csv[['Title', 'Genre', 'IMDB Score']]

# Фильтрация данных по условию (IMDB Score > 8)
high_score_movies = df_from_csv[df_from_csv['IMDB Score'] > 8]
```

#### Теперь ваша очередь:

1. Выберите колонки 'Title', 'Year' и 'IMDB Score' и сохраните их в новую переменную.
2. Фильтруйте датафрейм так, чтобы остались только фильмы с рейтингом IMDB выше 9.

In [None]:
# Выбор определенных колонок 'Title', 'Year' и 'IMDB Score' и сохранение их в новую переменную
selected_columns = df_from_csv[['Title', 'Year', 'IMDB Score']]

# Вывод первых нескольких строк нового датафрейма
print(selected_columns.head())

# Фильтрация данных по условию (IMDB Score > 9)
high_score_movies = df_from_csv[df_from_csv['IMDB Score'] > 9]

# Вывод первых нескольких строк отфильтрованного датафрейма
print(high_score_movies.head())


### Пример 14: Обработка пропущенных данных

Пропущенные данные — частая проблема. В этом примере мы рассмотрим, как находить и обрабатывать пропущенные значения в датафрейме.

```python
# Поиск колонок с пропущенными значениями
missing_data_columns = df_from_csv.columns[df_from_csv.isnull().any()]

# Заполнение пропущенных значений в колонке 'IMDB Score'
df_filled = df_from_csv['IMDB Score'].fillna(df_from_csv['IMDB Score'].mean())
```

#### Теперь ваша очередь:

1. Найдите все колонки в вашем датафрейме, которые имеют пропущенные значения.
2. Заполните пропущенные значения в колонке 'IMDB Score' медианным значением этой колонки.

In [None]:
# Нахождение колонок с пропущенными значениями
missing_data_columns = df_from_csv.columns[df_from_csv.isnull().any()]
print("Колонки с пропущенными значениями:", missing_data_columns)

# Заполнение пропущенных значений в колонке 'IMDB Score' медианным значением этой колонки
median_imdb_score = df_from_csv['IMDB Score'].median()
df_from_csv['IMDB Score'].fillna(median_imdb_score, inplace=True)

# Проверка, что пропущенные значения были заполнены
print("Пропущенные значения в колонке 'IMDB Score' были заполнены медианным значением:", df_from_csv['IMDB Score'].isnull().any())


### Пример 15: Преобразование данных

Преобразование данных необходимо для подготовки их к анализу или визуализации. В этом примере мы создадим новую колонку на основе существующих данных.

```python
# Создание новой колонки на основе существующих
df_from_csv['IMDB Score Category'] = df_from_csv['IMDB Score'].apply(lambda x: 'High' if x > 8 else 'Low')
```

#### Теперь ваша очередь:

1. Создайте новую колонку 'Decade', в которой будет указано десятилетие выхода фильма на основе колонки 'Year'.
2. Выведите на экран первые 5 строк датафрейма с новой колонкой.

In [None]:
# Создание новой колонки 'Decade' на основе колонки 'Year'
df_from_csv['Decade'] = (df_from_csv['Year'] // 10) * 10

# Вывод первых 5 строк датафрейма с новой колонкой
print(df_from_csv.head())

### Пример 16: Агрегация и группировка данных

Агрегация и группировка данных полезны для суммирования и анализа. В этом примере мы рассмотрим, как получить средний рейтинг IMDB для каждого жанра.

```python
# Группировка данных по жанру и вычисление среднего рейтинга IMDB
average_scores_by_genre = df_from_csv.groupby('Genre')['IMDB Score'].mean()
```

#### Теперь ваша очередь:

1. Группируйте данные по десятилетиям (колонка 'Decade') и вычислите средний рейтинг IMDB для каждого десятилетия.
2. Выведите на экран полученные результаты.

In [None]:
# Группировка данных по десятилетиям и вычисление среднего рейтинга IMDB
average_scores_by_decade = df_from_csv.groupby('Decade')['IMDB Score'].mean()

# Вывод результатов
print(average_scores_by_decade)


### Пример 17: Сортировка и ранжирование данных

Сортировка и ранжирование данных полезны для лучшего понимания и анализа. В этом примере мы отсортируем фильмы по рейтингу IMDB.

```python
# Сортировка фильмов по рейтингу IMDB
sorted_by_score = df_from_csv.sort_values('IMDB Score', ascending=False)
```

#### Теперь ваша очередь:

1. Отсортируйте фильмы по году выпуска, начиная с самых новых.
2. Выведите на экран первые 5 строк отсортированного датафрейма.

In [None]:
# Сортировка фильмов по году выпуска, начиная с самых новых
sorted_by_year = df_from_csv.sort_values('Year', ascending=False)

# Вывод первых 5 строк отсортированного датафрейма
print(sorted_by_year.head())


### Пример 18: Визуализация данных

Визуализация данных помогает лучше их понять и проанализировать. В этом примере мы создадим простую гистограмму рейтингов IMDB.

```python
import matplotlib.pyplot as plt

#  Гистограмма рейтингов IMDB
plt.hist(df_from_csv['IMDB Score'], bins=20)
plt.xlabel('IMDB Score')
plt.ylabel('Frequency')
plt.title('Histogram of IMDB Scores')
plt.show()
```

#### Теперь ваша очередь:

1. Создайте гистограмму для колонки 'Year', чтобы увидеть распределение фильмов по годам.
2. Добавьте подписи к осям и заголовок к графику.

In [None]:
import matplotlib.pyplot as plt

# Гистограмма распределения фильмов по годам
plt.hist(df_from_csv['Year'], bins=30, color='skyblue', edgecolor='black')
plt.xlabel('Year')
plt.ylabel('Frequency')
plt.title('Distribution of Movies by Year')
plt.grid(True)
plt.show()


### Пример 19: Сохранение обработанных данных

После всех преобразований и анализа, важно сохранить обработанные данные. В этом примере мы сохраним датафрейм в новый CSV-файл.

```python
# Сохранение датафрейма в новый CSV-файл
df_from_csv.to_csv('processed_data.csv', index=False)
```

#### Теперь ваша очередь:

1. Сохраните датафрейм, отфильтрованный по рейтингу IMDB (выше 9), в новый CSV-файл.
2. Проверьте, что файл успешно сохранен, считав его обратно в новый датафрейм и выведя первые строки.

In [None]:
# Отфильтрованный датафрейм по рейтингу IMDB (выше 9)
high_score_movies.to_csv('high_score_movies.csv', index=False)

# Проверка, что файл успешно сохранен, считывание его обратно в новый датафрейм и вывод первых строк
df_high_score = pd.read_csv('high_score_movies.csv')
print(df_high_score.head())


### Пример 20: Соединение с исходным датафреймом

Иногда нужно соединить новые данные с исходным датафреймом. В этом примере мы добавим новую колонку к существующему датафрейму.

```python
# Создание нового датафрейма с дополнительной информацией
additional_info = pd.DataFrame({
    'Title': ['Movie A', 'Movie B'],
    'Additional Info': ['Info A', 'Info B']
})

# Соединение с исходным датафреймом
merged_df = pd.merge(df_from_csv, additional_info, on='Title', how='left')
```

#### Теперь ваша очередь:

1. Создайте новый датафрейм с колонками 'Title' и 'Your Rating' (ваш рейтинг фильмов).
2. Соедините этот новый датафрейм с вашим основным датафреймом и выведите результат на экран.

In [None]:
# Создание нового датафрейма с вашим рейтингом фильмов
your_ratings = pd.DataFrame({
    'Title': ['Movie A', 'Movie B', 'Movie C'],
    'Your Rating': [8.5, 9.0, 7.5]
})

# Соединение с основным датафреймом
merged_df = pd.merge(df_from_csv, your_ratings, on='Title', how='left')

# Вывод результатов
print(merged_df)


### Пример 21: Работа с текстовыми данными

Работа с текстовыми данными часто требуется для очистки и подготовки данных. В этом примере мы научимся применять базовые строковые функции к колонкам.

```python
# Преобразование названий фильмов к верхнему регистру
df_from_csv['Title_upper'] = df_from_csv['Title'].str.upper()
```

#### Теперь ваша очередь:

1. Преобразуйте названия фильмов к нижнему регистру и сохраните в новую колонку.
2. Выведите на экран первые 5 строк вашего датафрейма.

In [None]:
# Преобразование названий фильмов к нижнему регистру и сохранение в новую колонку
df_from_csv['Title_lower'] = df_from_csv['Title'].str.lower()

# Вывод первых 5 строк датафрейма с новой колонкой
print(df_from_csv.head())


### Пример 22: Удаление дубликатов

Дубликаты в данных могут исказить результаты анализа. В этом примере мы узнаем, как их находить и удалять.

```python
# Удаление дубликатов по колонке 'Title'
df_from_csv.drop_duplicates(subset=['Title'], inplace=True)
```

#### Теперь ваша очередь:

1. Найдите и удалите дубликаты по колонке 'Year'.
2. Выведите количество оставшихся строк в датафрейме.

In [None]:
# Удаление дубликатов по колонке 'Year'
df_from_csv.drop_duplicates(subset=['Year'], inplace=True)

# Вывод количества оставшихся строк в датафрейме
print("Количество строк после удаления дубликатов:", len(df_from_csv))

### Пример 23: Переименование колонок

Иногда необходимо переименовать колонки для удобства анализа или визуализации. В этом примере мы рассмотрим, как это сделать.

```python
# Переименование колонок
df_from_csv.rename(columns={'Title': 'Movie Title', 'Year': 'Release Year'}, inplace=True)
```

#### Теперь ваша очередь:

1. Переименуйте колонку 'IMDB Score' в 'IMDB_Rating'.
2. Выведите на экран первые 5 строк вашего датафрейма.

In [None]:

# Переименование колонки 'IMDB Score' в 'IMDB_Rating'
df_from_csv.rename(columns={'IMDB Score': 'IMDB_Rating'}, inplace=True)

# Вывод первых 5 строк датафрейма
print(df_from_csv.head())


### Пример 24: Преобразование типов данных

Типы данных в колонках влияют на возможные операции и анализ. В этом примере мы узнаем, как изменить типы данных.

```python
# Преобразование типа данных колонки 'Year' в datetime
df_from_csv['Release Year'] = pd.to_datetime(df_from_csv['Release Year'], format='%Y')
```

#### Теперь ваша очередь:

1. Преобразуйте тип данных колонки 'IMDB_Rating' в float, если это ещё не сделано.
2. Проверьте типы данных всех колонок, используя метод `info()`.

In [None]:
# Преобразование типа данных колонки 'IMDB_Rating' в float
df_from_csv['IMDB_Rating'] = df_from_csv['IMDB_Rating'].astype(float)

# Проверка типов данных всех колонок
print(df_from_csv.info())


### Пример 25: Вычисление новых статистик

Создание новых статистических метрик из существующих данных полезно для дальнейшего анализа. В этом примере мы создадим новую колонку, которая будет показывать, является ли фильм "хитом".

```python
# Создание новой колонки 'Is_Hit' на основе рейтинга IMDB
df_from_csv['Is_Hit'] = df_from_csv['IMDB_Rating'].apply(lambda x: 'Yes' if x > 8 else 'No')
```

#### Теперь ваша очередь:

1. Создайте новую колонку 'Is_Old', которая будет показывать, является ли фильм старым (выпущен до 2000 года).
2. Выведите на экран первые 5 строк вашего датафрейма.

In [None]:
# Создание новой колонки 'Is_Old' на основе года выпуска
df_from_csv['Is_Old'] = df_from_csv['Release Year'].apply(lambda year: 'Yes' if year < 2000 else 'No')

# Вывод первых 5 строк датафрейма
print(df_from_csv.head())


### Пример 26: Создание сводных таблиц

Сводные таблицы полезны для агрегации и анализа данных. В этом примере мы создадим сводную таблицу, которая покажет средний рейтинг IMDB по жанрам.

```python
# Создание сводной таблицы
pivot_table_genre = pd.pivot_table(df_from_csv, values='IMDB_Rating', index='Genre', aggfunc=np.mean)
```

#### Теперь ваша очередь:

1. Создайте сводную таблицу, которая покажет максимальный рейтинг IMDB по годам выпуска.
2. Выведите сводную таблицу на экран.

In [None]:
# Создание сводной таблицы
pivot_table_year = pd.pivot_table(df_from_csv, values='IMDB_Rating', index='Release Year', aggfunc=np.max)

# Вывод сводной таблицы на экран
print(pivot_table_year)


### Пример 27: Линейные графики с Seaborn

Линейные графики полезны для анализа временных рядов или отслеживания изменений в данных. В этом примере мы создадим линейный график для анализа изменения среднего рейтинга IMDB по годам.

```python
import seaborn as sns

# Линейный график среднего рейтинга IMDB по годам
sns.lineplot(x='Release Year', y='IMDB_Rating', data=df_from_csv)
```

#### Теперь ваша очередь:

1. Создайте линейный график, который покажет изменение количества выпущенных фильмов по годам.
2. Добавьте подписи к осям и заголовок к графику.

In [None]:
# Линейный график количества выпущенных фильмов по годам
sns.lineplot(x='Release Year', y=df_from_csv.groupby('Release Year').size(), data=df_from_csv)
plt.xlabel('Release Year')
plt.ylabel('Number of Movies Released')
plt.title('Number of Movies Released per Year')
plt.show()


### Пример 28: Тепловые карты с Seaborn

Тепловые карты полезны для визуализации корреляции или распределения значений между разными переменными. В этом примере мы создадим тепловую карту для корреляционной матрицы.

```python
# Тепловая карта корреляционной матрицы
corr_matrix = df_from_csv.corr()
sns.heatmap(corr_matrix, annot=True)
```

#### Теперь ваша очередь:

1. Создайте тепловую карту для подмножества колонок (например, 'IMDB_Rating', 'Year').
2. Измените цветовую палитру тепловой карты.

In [None]:
# Создание подмножества данных
subset = df_from_csv[['IMDB_Rating', 'Release Year']]

# Тепловая карта для подмножества данных с измененной цветовой палитрой
sns.heatmap(subset.corr(), annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap for IMDB Rating and Release Year')
plt.show()


### Пример 29: Визуализация географических данных

Если ваши данные содержат географическую информацию, вы можете использовать специализированные библиотеки для её визуализации. В этом примере мы рассмотрим, как создать простую карту. (Примечание: этот пример может быть не применим, если в исходных данных нет географической информации.)

```python
# Пример создания карты (применим, если есть географические данные)
# import geopandas as gpd
# gdf = gpd.GeoDataFrame(df_from_csv, geometry=gpd.points_from_xy(df_from_csv.Longitude, df_from_csv.Latitude))
# gdf.plot()
```

#### Теперь ваша очередь:

1. Если у вас есть географические данные, создайте простую карту.
2. Добавьте на карту метки или другие элементы для большей информативности.

In [None]:
import folium

# Создание базовой карты
m = folium.Map(location=[51.5074, 0.1278], zoom_start=10)

# Добавление маркеров
for index, row in df_from_csv.iterrows():
    folium.Marker([row['Latitude'], row['Longitude']], popup=row['Title']).add_to(m)

# Вывод карты
m


### Пример 30: Интерактивные графики с Plotly

Интерактивные графики позволяют более детально изучить данные. В этом примере мы создадим интерактивный график с помощью библиотеки Plotly.

```python
# Пример создания интерактивного графика с Plotly
 import plotly.express as px
 fig = px.scatter(df_from_csv, x='Release Year', y='IMDB_Rating', title='IMDB Rating Over the Years')
 fig.show()
```

#### Теперь ваша очередь:

1. Создайте интерактивный график, который покажет распределение фильмов по жанрам.
2. Добавьте возможность выбора жанра из выпадающего списка.

In [None]:
import plotly.express as px

# Создание интерактивного графика
fig = px.histogram(df_from_csv, x='Genre', title='Distribution of Movies by Genre')

# Отображение интерактивного графика
fig.show()
