<a href="https://colab.research.google.com/github/hypo69/selenium_examples/blob/master/docs/colab_cheat_sheet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Jupyter Notebook: Руководство по использованию интерактивной среды для анализа данных, машинного обучения и не только


## Что такое Jupyter Notebook?

Jupyter Notebook — это **веб-приложение с открытым исходным кодом**, которое позволяет создавать интерактивные документы, объединяющие код (например, Python, R, Julia), визуализации, текст и мультимедиа. Изначально проект назывался *IPython Notebook* и был создан в 2014 году как часть экосистемы Python. Сегодня Jupyter поддерживает **более 40 языков программирования**, а его название образовано от комбинации **Ju**lia, **Pyt**hon и **R**.

### Ключевые особенности:
- **Интерактивное выполнение кода** по ячейкам.
- Поддержка **Markdown** и **LaTeX** для документации.
- Визуализация данных прямо в документе (графики, таблицы, анимации).
- Экспорт в форматы HTML, PDF, LaTeX, презентации.
- **Виджеты** для создания интерактивных интерфейсов.
- Интеграция с облачными сервисами и инструментами Big Data.

---

## Установка и настройка

1. **Установка через pip** (требуется Python 3.3+):
   ```bash
   pip install jupyter
   ```

2. **Запуск сервера**:
   ```bash
   jupyter notebook
   ```
   После этого в браузере откроется интерфейс Jupyter на `http://localhost:8888`.

3. **Jupyter Lab** (расширенная версия):
   ```bash
   pip install jupyterlab
   jupyter lab
   ```

---


## Интерфейс и базовое использование

### Основные элементы:
1. **Панель управления** (Dashboard): список файлов и директорий.
2. **Блокнот (Notebook)**: состоит из ячеек двух типов:
   - **Code** — для написания кода.
   - **Markdown** — для текста, формул, изображений.

### Горячие клавиши:
- **Shift + Enter** — выполнить ячейку.
- **Esc + A/B** — добавить ячейку выше/ниже.
- **Esc + M/Y** — сменить тип ячейки на Markdown/Code.

### Горячие клавиши (в Colab):

*   **Ctrl+Enter** (или **Shift+Enter**): Выполнить ячейку и перейти к следующей.
*   **Ctrl+M A**: Вставить ячейку выше текущей.
*   **Ctrl+M B**: Вставить ячейку ниже текущей.
*   **Ctrl+M M**: Преобразовать ячейку в Markdown.
*   **Ctrl+M Y**: Преобразовать ячейку в Code.
*   **Ctrl+M D**: Удалить ячейку.


## Примеры использования

## 1. Анализ данных о пассажирах Титаника с Pandas и Seaborn


### Поля таблицы данных о пассажирах Титаника
---
#### **PassengerId**: Уникальный идентификатор для каждого пассажира. Это просто номер пассажира в базе данных.
#### **Survived**: Указывает, выжил пассажир (1) или нет (0).
- 0: Пассажир погиб.
- 1: Пассажир выжил.

#### **Pclass**: Класс билета пассажира. Обычно это соответствует уровню комфорта и расположению каюты.
- 1: Первый класс (самый дорогой и комфортный).
- 2: Второй класс.
- 3: Третий класс (самый дешевый).

#### **Name**: Имя пассажира (включая звание, например, Mr., Mrs., Miss.).
### **Sex**: Пол пассажира (male - мужской, female - женский).
### **Age**: Возраст пассажира в годах. Обратите внимание, что в реальных данных часто бывают пропущенные значения возраста (NaN).
#### **SibSp**: Количество братьев/сестер (siblings) и супругов (spouses) на борту судна.
#### **Parch**: Количество родителей (parents) и детей (children) на борту судна.
#### **Ticket**: Номер билета пассажира.
#### **Fare**: Стоимость билета пассажира (в британских фунтах того времени).
#### **Cabin**: Номер каюты пассажира (если известен). Многие значения пропущены.
#### **Embarked**: Порт, в котором пассажир сел на корабль.
- C: Cherbourg (Шербур, Франция).
- Q: Queenstown (Квинстаун, Ирландия).
- S: Southampton (Саутгемптон, Англия).

### Загузка данных

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Загрузка данных с GitHub
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic_df = pd.read_csv(url)

# Вывод первых строк таблицы
print("Первые 5 строк данных:")
print(titanic_df.head())

### Основная статистика

In [None]:
# Основная статистика
print("\nОписательная статистика:")
print(titanic_df.describe())


### Визуализация распределения выживших

In [None]:
# Визуализация распределения выживших
sns.countplot(x='Survived', data=titanic_df)
plt.title('Распределение выживших')
plt.show()


### Зависимость выживания от класса билета

In [None]:
# Зависимость выживания от класса билета

# x='Pclass': Этот аргумент указывает, что значения столбца Pclass (класс билета) будут отображены на оси X. Pclass принимает значения 1, 2 или 3 (первый, второй и третий класс, соответственно).
# hue='Survived': hue добавляет еще одно измерение к графику. Он группирует столбцы по значению столбца Survived (выжил или нет). В результате, для каждого класса билета (Pclass) будет два столбца: один для тех, кто выжил (1), и один для тех, кто не выжил (0). Эти столбцы будут отличаться по цвету.
# data=titanic_df: Этот аргумент указывает, что данные для графика берутся из DataFrame с именем titanic_df.

sns.countplot(x='Pclass', hue='Survived', data=titanic_df)
plt.title('Выживаемость по классам билетов')
plt.show()


### Гистограмма возраста

In [None]:
# Гистограмма возраста
sns.histplot(titanic_df['Age'].dropna(), kde=True) # Dropna чтобы избавиться от отсутствующих значений

"""kde=True: аргумент функции sns.histplot указывает, что на гистограмме должна быть нарисована линия оценки плотности ядра
(Kernel Density Estimate - KDE). KDE - это сглаженная кривая, которая аппроксимирует распределение данных.
Она помогает визуально оценить форму распределения, особенно если данные не идеально соответствуют какой-либо известной форме,
например, нормальному распределению)
"""

plt.title('Распределение возраста пассажиров')
plt.show()

## Рассмотрим другой набор данных.
Будем использовать набор данных "Diamonds", который содержит информацию о бриллиантах
(размер, цвет, чистота, цена и т.д.). Этот набор данных доступен в библиотеке Seaborn.

### Объяснение колонок:
- **carat**: Вес бриллианта в каратах.
- **cut**: Качество огранки (Fair, Good, Very Good, Premium, Ideal).
- **color**: Цвет бриллианта (от J - наименее желательный, до D - бесцветный и самый желательный).
- **clarity**: Чистота бриллианта.  
(мера отсутствия включений и пятен, от I1 - худшая, до IF - безупречная).
- **depth**: Общая высота бриллианта (измеряется от верха до калетты) деленная на средний диаметр.
- **table**: Ширина верхней плоской грани бриллианта относительно его ширины.
- **price**: Цена бриллианта в долларах США.
- **x**: Длина в мм.
- **y**: Ширина в мм.
- **y**: Ширина в мм.
- **z**: Глубина в мм.



### Код

In [None]:
import seaborn as sns
import pandas as pd

# Загрузка набора данных Diamonds
diamonds = sns.load_dataset('diamonds')

# Вывод первых 5 строк
print("Первые 5 строк данных:")
print(diamonds.head())

# Информация о типах данных и пропущенных значениях
print("\nИнформация о типах данных и пропущенных значениях:")
print(diamonds.info())

# Описательная статистика
print("\nОписательная статистика:")
print(diamonds.describe())

In [None]:
# 1. Фильтрация: Выбор бриллиантов с ценой больше 5000 долларов
expensive_diamonds = diamonds[diamonds['price'] > 5000]
print("\nБриллианты с ценой больше 5000 долларов:")
print(expensive_diamonds.head())


In [None]:
# 2. Группировка: Средняя цена бриллиантов по качеству огранки

# Группировка: Средняя цена бриллиантов по качеству огранки
average_price_by_cut = diamonds.groupby('cut')['price'].mean()
print("\nСредняя цена бриллиантов по качеству огранки:")
print(average_price_by_cut)

# 2.1. Столбчатая диаграмма (Bar plot)
plt.figure(figsize=(8, 6))
average_price_by_cut.sort_values().plot(kind='bar', color='skyblue')  # Сортировка для наглядности
plt.title('Средняя цена бриллиантов по качеству огранки', fontsize=14)
plt.xlabel('Качество огранки', fontsize=12)
plt.ylabel('Средняя цена', fontsize=12)
plt.xticks(rotation=45, ha='right')  # Поворот меток оси X
plt.tight_layout()
plt.show()

In [None]:
# 2.2. Горизонтальная столбчатая диаграмма (Horizontal bar plot)
plt.figure(figsize=(8, 6))
average_price_by_cut.sort_values().plot(kind='barh', color='lightcoral') # Горизонтальная версия
plt.title('Средняя цена бриллиантов по качеству огранки', fontsize=14)
plt.xlabel('Средняя цена', fontsize=12)
plt.ylabel('Качество огранки', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# 2.3. Точечная диаграмма (Point plot)
plt.figure(figsize=(8, 6))
sns.pointplot(x=average_price_by_cut.index, y=average_price_by_cut.values, color='mediumseagreen')
plt.title('Средняя цена бриллиантов по качеству огранки', fontsize=14)
plt.xlabel('Качество огранки', fontsize=12)
plt.ylabel('Средняя цена', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
# 3. Создание нового столбца: Плотность бриллианта (масса/объем, приближенно)
diamonds['density'] = diamonds['carat'] / (diamonds['x'] * diamonds['y'] * diamonds['z'])
print("\nПервые 5 строк с добавленной колонкой 'density':")
print(diamonds.head())

In [None]:
# 4. Визуализация: Распределение цены бриллиантов
import matplotlib.pyplot as plt
sns.histplot(diamonds['price'])
plt.title('Распределение цены бриллиантов')
plt.show()

In [None]:
# 5. Гистограммы для числовых признаков
numerical_features = ['carat', 'depth', 'table', 'price', 'x', 'y', 'z']
plt.figure(figsize=(15, 10))
for i, feature in enumerate(numerical_features):
    plt.subplot(3, 3, i+1)
    sns.histplot(diamonds[feature], kde=True)
    plt.title(f'Распределение {feature}', fontsize=14)
plt.tight_layout()
plt.show()


In [None]:
# 6. Ящики с усами (Boxplots) для числовых признаков по качеству огранки (cut)
plt.figure(figsize=(15, 10))
for i, feature in enumerate(numerical_features):
    plt.subplot(3, 3, i+1)
    sns.boxplot(x='cut', y=feature, data=diamonds)
    plt.title(f'{feature} по качеству огранки', fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# 7. Тепловая карта корреляции
correlation_matrix = diamonds[numerical_features].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Тепловая карта корреляции', fontsize=16)
plt.show()

In [None]:
# 8. Диаграммы рассеяния (Scatter plots) между ценой и другими числовыми признаками
plt.figure(figsize=(15, 5))
plt.subplot(1, 3, 1)
sns.scatterplot(x='carat', y='price', data=diamonds, alpha=0.5)
plt.title('Цена vs. Вес (carat)', fontsize=14)

plt.subplot(1, 3, 2)
sns.scatterplot(x='x', y='price', data=diamonds, alpha=0.5)
plt.title('Цена vs. Длина (x)', fontsize=14)

plt.subplot(1, 3, 3)
sns.scatterplot(x='y', y='price', data=diamonds, alpha=0.5)
plt.title('Цена vs. Ширина (y)', fontsize=14)

plt.tight_layout()
plt.show()

In [None]:
# 9. Столбчатые диаграммы (Countplots) для категориальных признаков
categorical_features = ['cut', 'color', 'clarity']
plt.figure(figsize=(15, 5))
for i, feature in enumerate(categorical_features):
    plt.subplot(1, 3, i+1)
    sns.countplot(x=feature, data=diamonds, palette='viridis')
    plt.title(f'Распределение {feature}', fontsize=14)
plt.tight_layout()
plt.show()