### Markdown в Jupyter Notebook

Markdown — это язык разметки, который используется для форматирования текста. В Jupyter Notebook вы можете создавать ячейки с текстом, написанным на Markdown, чтобы документировать код и делать ваши блокноты более информативными и удобными для чтения.

Markdown позволяет добавлять заголовки, списки, ссылки, изображения и выделение текста, делая ваши рабочие документы более структурированными и наглядными.

#### Зачем использовать Markdown?

- **Документирование кода**: вы можете писать пояснения к своему коду, чтобы сделать его понятнее для других и для себя.
- **Структурирование данных**: с помощью заголовков и списков можно логически разделить данные и шаги анализа.
- **Отчеты**: Markdown упрощает создание отчетов прямо в Jupyter Notebook, что позволяет сочетать код, результаты анализа и текстовые описания.

Markdown — это простой, но мощный инструмент для создания понятных и структурированных ноутбуков, которые делают ваши аналитические работы более ясными и профессиональными.

#### Основные возможности Markdown

1. **Заголовки**
   Вы можете использовать заголовки разных уровней для разделения вашего документа на логические части. В Markdown заголовки создаются с помощью символа решетки `#`. Чем больше символов решетки, тем ниже уровень заголовка:
   - Пример:
     ```
     # Заголовок первого уровня
     ## Заголовок второго уровня
     ### Заголовок третьего уровня
     ```
   Результат:
   # Заголовок первого уровня  
   ## Заголовок второго уровня  
   ### Заголовок третьего уровня

2. **Списки**
   Markdown поддерживает как нумерованные, так и ненумерованные списки:
   - Ненумерованный список создается с помощью символов `-` или `*`:
     ```
     - Первый элемент
     - Второй элемент
     - Третий элемент
     ```
   Результат:
   - Первый элемент  
   - Второй элемент  
   - Третий элемент  

   - Нумерованный список создается с помощью чисел:
     ```
     1. Первый элемент
     2. Второй элемент
     3. Третий элемент
     ```
   Результат:
   1. Первый элемент  
   2. Второй элемент  
   3. Третий элемент  

3. **Выделение текста**
   В Markdown вы можете выделить текст курсивом или жирным шрифтом:
   - Курсив: текст заключается в одиночные символы подчеркивания или звездочки:
     ```
     _Это курсив_
     *Это курсив*
     ```
     Результат: _Это курсив_

   - Жирный шрифт: текст заключается в двойные символы подчеркивания или звездочки:
     ```
     __Это жирный текст__
     **Это жирный текст**
     ```
     Результат: **Это жирный текст**

4. **Код**
   Чтобы вставить фрагмент кода, вы можете использовать обратные кавычки (``):
   - Встроенный код:  
     ```  
     `print("Пример")`  
     ```  
     Результат: `print("Пример")`

   - Блок кода:
     ```
     ```
     print("Это блок кода")
     ```
     ```
     Результат:
     ```python
     print("Это блок кода")
     ```

# Синтаксис Python

Правильное понимание синтаксиса Python и умение использовать комментарии — это основа хорошего кода, особенно при работе с большими проектами. Понимание структуры кода помогает не только вам, но и другим аналитикам, работающим с вашим кодом.

#### Синтаксис Python

Python отличается своей простотой и понятностью. Одной из ключевых особенностей Python является использование **отступов** для обозначения блоков кода, вместо фигурных скобок `{}`, как это принято в других языках программирования. Это делает код более читаемым, но также требует внимательности.

##### Пример правильного отступа:
```python
x = 10
if x > 5:
    print("x больше 5")  # Эта строка выполнится, если условие истинно
else:
    print("x меньше или равно 5")  # Эта строка выполнится в противном случае
```

Отступы обычно составляют 4 пробела или 1 табуляцию. Важно следить, чтобы весь код в блоке имел одинаковый отступ. Ошибки в отступах могут привести к синтаксическим ошибкам.

##### Пример с ошибкой в отступе:
```python
x = 10
if x > 5:
    print("x больше 5")
   print("Эта строка вызовет ошибку")  # Ошибка из-за неправильного отступа
```


#### Комментарии в Python

Комментарии — это важная часть любого кода. Они помогают объяснить, что делает тот или иной фрагмент кода, что особенно полезно при работе над большими проектами или для совместной работы с другими аналитиками. Python поддерживает два типа комментариев:

##### Однострочные комментарии

Однострочные комментарии начинаются с символа `#`. Все, что написано после `#`, игнорируется Python.

##### Пример:
```python
# Это однострочный комментарий
x = 10  # Комментарий в конце строки кода
```

##### Многострочные комментарии

Для многострочных комментариев можно использовать тройные кавычки `"""` или `'''`. Важно отметить, что тройные кавычки также могут использоваться для создания многострочных строк, поэтому многострочные комментарии — это лишь один из вариантов использования тройных кавычек.

##### Пример:
```python
"""
Это многострочный комментарий.
Он может занимать несколько строк.
"""
x = 10
```

#### Как писать читаемый код

Для поддержания высокого качества кода и его читабельности важно придерживаться некоторых общих рекомендаций:
- Используйте **говорящие имена переменных**. Переменные должны ясно отражать, какие данные они содержат. Например, `x` — это плохо, а `средний_возраст` — это хорошо.
- **Разделяйте блоки кода пустыми строками** для лучшей читаемости.
- Используйте **комментарии** для сложных участков кода или бизнес-логики, которую может быть трудно понять с первого взгляда.
- Соблюдайте **единообразие отступов** (4 пробела или 1 табуляция).

##### Пример хорошего стиля кода:
```python
# Рассчитываем средний возраст сотрудников
age_sum = 30 + 25 + 40  # Sum of employee ages
employee_count = 3  # Total number of employees

average_age = age_sum / employee_count
print("Средний возраст сотрудников:", average_age)
```

#### Выбор имен переменных

В Python, как и в любом другом языке программирования, вы можете использовать русские названия переменных. Однако **лучше избегать использования кириллических символов**, поскольку это может вызвать путаницу при работе с кодом, особенно если в команде есть разработчики, привыкшие к английским названиям.

##### Причины избегать русских названий переменных:
1. **Смешивание языков**: При написании кода с русскими переменными может быть сложно поддерживать единообразие, особенно в международных командах.
2. **Похожие символы**: Некоторые кириллические и латинские буквы выглядят одинаково, но на самом деле различны. Например:
   - **а (кириллическая "а")** и **a (латинская "a")**
   - **о (кириллическая "о")** и **o (латинская "o")**
   - **р (кириллическая "р")** и **p (латинская "p")**

Использование похожих символов может привести к ошибкам, которые сложно отследить, особенно если среда разработки не поддерживает кодировки кириллицы.

##### Буквы, которых стоит избегать, даже в латинице:

1. **l** (маленькая латинская "L") и **1** (цифра один) — эти символы выглядят почти одинаково, особенно в некоторых шрифтах.
2. **b** (маленькая латинская "b") и **6** (цифра шесть) — могут быть спутаны, особенно в курсивных шрифтах.
3. **n** и **m** — часто схожи визуально, если написаны слишком близко.
4. **l** и **I** (маленькая "L" и заглавная "i") — могут быть перепутаны в некоторых шрифтах.

##### Рекомендации:

- **Используйте понятные английские названия переменных**: Это помогает избежать путаницы и сделать код более читаемым для других разработчиков.
- **Проверяйте, на каком языке вводите переменные**: Будьте внимательны, особенно с похожими символами.
- **Избегайте букв, которые могут выглядеть схоже**: Это снизит вероятность ошибок и улучшит читаемость кода.

## Основы Python: Типы данных и операции

Python — это язык программирования, известный своей простотой и интуитивностью. Для работы с данными важно понимать основные типы данных, операции, которые можно с ними выполнять, и как организовать данные в структуре, с которыми удобно работать.

#### Основные типы данных в Python

Python поддерживает несколько базовых типов данных, которые часто используются в аналитике:

- **int** (целые числа): это числа без дробной части, например 5, 10, -3.
- **float** (числа с плавающей запятой): это числа с дробной частью, например 3.14, -0.001.
- **str** (строки): это последовательность символов, например "Python", "Аналитика".
- **bool** (логические значения): это тип данных, который может иметь только два значения: `True` (истина) и `False` (ложь).

##### Пример кода:
```python
# Примеры основных типов данных
a = 10  # int
b = 3.14  # float
name = "Аналитик"  # str
is_active = True  # bool

print(a)  # Выводит 10
print(b)  # Выводит 3.14
print(name)  # Выводит "Аналитик"
print(is_active)  # Выводит True
```

##### Комментирование кода:

Испольуйте знак `#` - все что идет после него в строке, не воспринимается интерпретатором как команда.

#### Операции с основными типами данных

##### Арифметические операции

Python позволяет выполнять все стандартные арифметические операции с числами:

- Сложение: `+`
- Вычитание: `-`
- Умножение: `*`
- Деление: `/`
- Возведение в степень: `**`

##### Пример кода:
```python
x = 5
y = 3

# Арифметические операции
print(x + y)  # Сложение: 8
print(x - y)  # Вычитание: 2
print(x * y)  # Умножение: 15
print(x / y)  # Деление: 1.6667
print(x ** y)  # Возведение в степень: 125
```

##### Операции со строками

- **Конкатенация (объединение строк)**: Строки можно объединять с помощью оператора `+`.
- **Повторение строк**: Строку можно умножить на число для её повторения.
- **Длина строки**: Функция `len()` возвращает количество символов в строке.

##### Пример кода:
```python
first_name = "Аналитик"
last_name = "Данных"

# Конкатенация строк
full_name = first_name + " " + last_name
print(full_name)  # Выводит "Аналитик Данных"

# Повторение строк
print(first_name * 3)  # Выводит "АналитикАналитикАналитик"

# Длина строки
print(len(full_name))  # Выводит 14
```

##### Операции с логическими значениями

- **Логическое И (and)**: возвращает `True`, если оба значения истинны.
- **Логическое ИЛИ (or)**: возвращает `True`, если хотя бы одно значение истинно.
- **Логическое НЕ (not)**: меняет значение на противоположное.

##### Пример кода:
```python
x = True
y = False

# Логические операции
print(x and y)  # Выводит False
print(x or y)  # Выводит True
print(not x)  # Выводит False
```

#### Преобразование типов данных

Иногда требуется преобразовать значение одного типа данных в другой. Python поддерживает преобразование типов с помощью встроенных функций:

- `int()`: преобразование в целое число.
- `float()`: преобразование в число с плавающей запятой.
- `str()`: преобразование в строку.
- `bool()`: преобразование в логическое значение.

##### Пример кода:
```python
# Преобразование типов
a = "10"
b = 3.14

# Преобразование строки в число
a_int = int(a)
print(a_int)  # Выводит 10

# Преобразование числа в строку
b_str = str(b)
print(b_str)  # Выводит "3.14"
```

### Списки и их адресация

Списки (или массивы) в Python — это упорядоченные коллекции элементов, которые могут быть любого типа данных. Списки удобны для хранения и обработки больших наборов данных, что делает их одним из самых популярных инструментов для работы в аналитике.

#### 1. Создание списка

Список создается с помощью квадратных скобок `[]`, а его элементы разделяются запятыми. В одном списке можно хранить данные разных типов, хотя чаще всего в аналитике используются списки с элементами одного типа, например, числовые данные.

##### Пример кода:
```python
# Создание списка
numbers = [1, 2, 3, 4, 5]  # Список целых чисел
mixed_list = [10, "Аналитик", 3.14, True]  # Список с разными типами данных

print(numbers)  # Выводит: [1, 2, 3, 4, 5]
print(mixed_list)  # Выводит: [10, 'Аналитик', 3.14, True]
```

#### Доступ к элементам списка (индексация)

Каждый элемент списка имеет свой индекс, начиная с 0. Для доступа к элементу можно использовать его индекс, записывая его в квадратных скобках. Индексация в Python начинается с 0, что означает, что первый элемент имеет индекс 0, второй — 1, и так далее.

##### Пример кода:
```python
# Доступ к элементам списка
numbers = [1, 2, 3, 4, 5]

print(numbers[0])  # Первый элемент: 1
print(numbers[2])  # Третий элемент: 3
print(numbers[-1])  # Последний элемент: 5
```
В Python можно использовать отрицательные индексы для доступа к элементам с конца списка. Например, индекс `-1` означает последний элемент, `-2` — предпоследний и так далее.

#### Изменение элементов списка

Вы можете изменять значения элементов списка, обращаясь к ним по индексу и присваивая новые значения.

##### Пример кода:
```python
# Изменение элемента списка
numbers = [1, 2, 3, 4, 5]
numbers[1] = 10  # Изменяем второй элемент

print(numbers)  # Выводит: [1, 10, 3, 4, 5]
```

#### Добавление и удаление элементов списка

Python предоставляет несколько встроенных методов для работы со списками:

- **append()**: добавляет элемент в конец списка.
- **insert()**: вставляет элемент по указанному индексу.
- **remove()**: удаляет первое вхождение элемента в список.
- **pop()**: удаляет элемент по индексу и возвращает его.

##### Пример кода:
```python
# Добавление и удаление элементов списка
numbers = [1, 2, 3, 4, 5]

# Добавление элемента в конец списка
numbers.append(6)
print(numbers)  # Выводит: [1, 2, 3, 4, 5, 6]

# Вставка элемента на второй позиции (индекс 1)
numbers.insert(1, 10)
print(numbers)  # Выводит: [1, 10, 2, 3, 4, 5, 6]

# Удаление элемента со значением 10
numbers.remove(10)
print(numbers)  # Выводит: [1, 2, 3, 4, 5, 6]

# Удаление последнего элемента и его возвращение
last_number = numbers.pop()
print(last_number)  # Выводит: 6
print(numbers)  # Выводит: [1, 2, 3, 4, 5]
```

#### Срезы (slicing)

Срезы позволяют выбрать несколько элементов из списка, указывая диапазон индексов. Синтаксис среза: `[start:stop]`, где `start` — начальный индекс, а `stop` — индекс, на котором нужно остановиться (не включается в результат).

##### Пример кода:
```python
numbers = [1, 2, 3, 4, 5, 6]

# Срез от 2-го до 4-го элемента (индексы 1 и 4)
print(numbers[1:4])  # Выводит: [2, 3, 4]

# Срез с начала до третьего элемента
print(numbers[:3])  # Выводит: [1, 2, 3]

# Срез с третьего элемента до конца списка
print(numbers[3:])  # Выводит: [4, 5, 6]

# Срез всего списка
print(numbers[:])  # Выводит: [1, 2, 3, 4, 5, 6]
```

#### Циклы для работы со списками

Часто возникает необходимость пройти по всем элементам списка и выполнить над ними какие-то действия. Для этого можно использовать цикл `for`.

##### Пример кода:
```python
numbers = [1, 2, 3, 4, 5]

# Пройдем по каждому элементу и умножим его на 2
for num in numbers:
    print(num * 2)
```

#### Вложенные списки (списки в списках)

Python поддерживает вложенные списки, что позволяет создавать двумерные структуры данных, аналогичные таблицам.

##### Пример кода:
```python
# Вложенные списки
matrix = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

# Доступ к элементам вложенного списка
print(matrix[0][0])  # Первый элемент первой строки: 1
print(matrix[1][2])  # Третий элемент второй строки: 6
```

#### Пример практического использования

Предположим, у вас есть список чисел, и вам нужно вывести только те числа, которые больше 3:

```python
numbers = [1, 2, 3, 4, 5, 6]

# Фильтрация списка
filtered_numbers = []
for num in numbers:
    if num > 3:
        filtered_numbers.append(num)

print(filtered_numbers)  # Выводит: [4, 5, 6]
```

Таким образом, списки являются универсальным инструментом для работы с наборами данных и предоставляют множество возможностей для их обработки.


# Работа с DataFrame

Одним из самых важных инструментов для аналитиков в Python является библиотека `pandas`, которая предоставляет возможность работать с данными в табличном формате через структуру **DataFrame**. DataFrame можно представить как таблицу, где строки — это записи, а столбцы — это разные переменные (фичи).

#### 1. Импорт библиотеки pandas

Первое, что нужно сделать для работы с DataFrame, — это импортировать библиотеку `pandas`. В большинстве примеров используется сокращение `pd`, чтобы упростить доступ к функциям библиотеки.

##### Пример кода:
```python
import pandas as pd
```

#### Создание DataFrame

DataFrame можно создать несколькими способами: вручную, загрузив данные из файла (например, Excel), или на основе существующих данных, таких как списки или словари.

##### Пример создания DataFrame вручную:
```python
# Создание DataFrame вручную с помощью словаря
data = {
    'Имя': ['Алексей', 'Мария', 'Иван'],
    'Возраст': [29, 22, 35],
    'Должность': ['Аналитик', 'Маркетолог', 'Разработчик']
}

df = pd.DataFrame(data)
df
```
Вывод:
```
       Имя  Возраст    Должность
0  Алексей       29     Аналитик
1   Мария       22  Маркетолог
2    Иван       35  Разработчик
```

##### Получение данных о структуре таблицы DataFrame

Используйте команду:
```python
df.info()
```

Где `df` - название таблицы.
Эту информацию можно загружать в Mistral, чтобы он знал названия столбцов.

#### Загрузка данных из Excel

В реальных задачах чаще всего данные хранятся в файлах, таких как Excel. `pandas` позволяет легко загружать такие данные и работать с ними.

##### Пример загрузки данных из Excel:
```python
# Загрузка данных из Excel
df = pd.read_excel('railway_freight_data.xlsx') # измените название файла

# Просмотр первых 5 строк DataFrame
df.head()
```

Функция `head()` выводит первые несколько строк таблицы, что помогает быстро оценить содержимое DataFrame.

#### Основные операции с DataFrame

##### Просмотр информации о данных

`pandas` предоставляет полезные методы для получения общей информации о данных.

- **`info()`**: показывает информацию о структуре DataFrame, включая количество строк, столбцов и типы данных.
- **`describe()`**: выводит статистическое описание числовых столбцов, включая среднее, стандартное отклонение и диапазон значений.

##### Пример:
```python
# Общая информация о DataFrame
df.info()

# Статистическое описание числовых данных
df.describe()
```

##### Доступ к данным по столбцам

Для того чтобы получить доступ к определённому столбцу DataFrame, можно использовать его название в квадратных скобках.

##### Пример:
```python
# Доступ к столбцу
Weight_Tons = df['Weight_Tons']
Weight_Tons
```

##### Индексация строк и столбцов

`pandas` поддерживает индексацию с помощью методов **`loc`** (доступ по меткам) и **`iloc`** (доступ по индексам).

##### Пример использования `loc`:
```python
# Доступ к строке с меткой 1 и столбцу "Departure_City"
df.loc[1, 'Departure_City']
```

##### Пример использования `iloc`:
```python
# Доступ к элементу во второй строке и втором столбце
df.iloc[1, 2]
```

#### Фильтрация данных

Вы можете фильтровать данные в DataFrame, используя условия. Например, можно выбрать только те строки, где возраст больше 30 лет.

##### Пример фильтрации данных:
```python
# Фильтрация данных: вес больше 8000
filtered_df = df[df['Weight_Tons'] > 8000]
filtered_df
```

#### Добавление и удаление столбцов

Вы можете легко добавлять новые столбцы в DataFrame, создавая вычисляемые поля, или удалять ненужные столбцы.

##### Пример добавления нового столбца:
```python
# Добавление нового столбца расстояния в тысячах киллометров
df['Дистанция в тыс км'] = df['Distance_KM']/1000
df
```

##### Пример удаления столбца:
```python
# Удаление столбца "Train_ID"
df = df.drop(columns=['Train_ID'])
df
```

#### Группировка данных

Метод **`groupby()`** позволяет группировать данные по определённому признаку и выполнять над ними агрегирующие функции, такие как сумма, среднее и т.д.

##### Пример группировки данных:
```python
# Группировка по должности и расчет среднего возраста
grouped_df = df.groupby('Arrival_City')['Weight_Tons'].mean()
print(grouped_df)
```