# Анализ количественных данных при помощи Python

## Почему Python — ключевой инструмент для аналитиков

### Языки программирования и их роль в современном мире данных

Сегодня существует множество языков программирования, которые используются для различных задач в сфере IT и анализа данных. Вот несколько примеров:

- **C/C++**: Используется для разработки системного программного обеспечения, игр и высокопроизводительных приложений.
- **Java**: Часто применяется для создания крупных корпоративных систем и мобильных приложений.
- **R**: Популярен среди статистиков и используется для анализа данных и визуализации.
- **SQL**: Применяется для работы с базами данных и извлечения данных.
- **JavaScript**: Основной язык для создания веб-приложений и интерфейсов.
- **Python**: Один из самых универсальных языков, который активно используется для анализа данных, машинного обучения, автоматизации задач и создания приложений.

Из всех этих языков **Python** занимает особое место в аналитике данных благодаря своему простому синтаксису, широким возможностям и богатой экосистеме библиотек.

### Преимущества Python для анализа данных и машинного обучения

Python стал основным инструментом для анализа данных и машинного обучения по ряду причин:

1. **Простота и читабельность кода**: Python легко учить и использовать даже для начинающих аналитиков. Его синтаксис интуитивно понятен, а большое количество готовых библиотек делает работу с данными более эффективной.
2. **Широкий выбор библиотек и фреймворков**: Python предоставляет такие мощные инструменты, как:
   - **pandas** для работы с таблицами данных (DataFrame);
   - **numpy** для числовых вычислений;
   - **matplotlib** и **seaborn** для визуализации данных;
   - **scikit-learn** для машинного обучения;
   - **TensorFlow** и **PyTorch** для глубинного обучения.
3. **Гибкость и масштабируемость**: Python можно использовать как для небольших аналитических задач, так и для сложных проектов в области больших данных и искусственного интеллекта.
4. **Сообщество и поддержка**: Python имеет большое и активное сообщество, которое помогает развивать язык и создавать новые библиотеки. Это означает, что вы всегда найдете поддержку и решения для своих задач.

### Специализации аналитиков и использование Python

Python используется во многих аналитических специальностях. Вот несколько примеров:

1. **Бизнес-аналитики**: Используют Python для анализа данных о продажах, поведении клиентов, а также для автоматизации отчетов и создания прогнозов.
2. **Аналитики данных**: Основное применение Python — обработка больших объемов данных, их очистка, преобразование и визуализация.
3. **Стратегические аналитики**: Применяют Python для анализа рыночных данных и конкурентной разведки, что позволяет делать точные прогнозы и принимать обоснованные решения.
4. **Финансовые аналитики**: Используют Python для моделирования финансовых данных, прогнозирования прибыли и управления рисками.
5. **Аналитики данных в области машинного обучения и ИИ**: Основное применение Python — разработка и обучение моделей машинного обучения для создания прогнозных моделей, классификации данных и автоматизации процессов.

### Преимущества Python перед Excel и дашбордами

Excel и визуальные дашборды, такие как Tableau или Power BI, — отличные инструменты для визуализации данных и выполнения базовых аналитических операций. Однако, у Python есть несколько ключевых преимуществ:

1. **Работа с большими объемами данных**: Excel и дашборды могут не справляться с большими объемами данных или сложными расчетами. Python позволяет обрабатывать данные в больших объемах, автоматизировать процессы и оптимизировать ресурсы.
2. **Автоматизация**: Python позволяет автоматизировать рутинные задачи, такие как сбор данных, их обработка и создание отчетов. В Excel такие задачи часто требуют ручного выполнения или использования сложных макросов.
3. **Гибкость и расширяемость**: В то время как Excel и дашборды предлагают ограниченные возможности для программирования, Python предоставляет практически неограниченные возможности благодаря множеству библиотек и фреймворков.
4. **Машинное обучение и прогнозирование**: В Excel нет встроенных инструментов для машинного обучения, в то время как Python предлагает множество инструментов для создания прогнозных моделей и анализа данных с использованием искусственного интеллекта.

### Почему важно изучать Python, если вы работаете в аналитике

1. **Адаптация к будущему**: Все больше компаний переходят на Python для автоматизации аналитики и работы с большими данными. Знание Python открывает больше возможностей для карьерного роста и позволяет оставаться конкурентоспособным на рынке труда.
2. **Широкие возможности анализа**: С помощью Python вы сможете не только работать с данными, но и применять их для создания прогнозов, разработки моделей машинного обучения и проведения сложных исследований.
3. **Повышение эффективности**: Python помогает автоматизировать рутинные задачи, что сокращает время на выполнение операций и снижает вероятность ошибок. Это делает процесс анализа данных более точным и эффективным.
4. **Доступ к передовым технологиям**: Python используется в передовых технологиях, таких как машинное обучение, искусственный интеллект и анализ больших данных. Знание Python поможет вам быть в авангарде этих инноваций.


## Задание: Личный анализ применения Python в вашей работе

**Инструкция:**

За 15 минут попробуйте самостоятельно ответить на следующие вопросы. Это поможет вам осознать, как Python может быть полезен лично для вас и вашего подразделения, а также какие задачи вы сможете решать эффективнее. Важно подумать о вашей текущей работе, задачах и аналитических процессах.

1. **Для чего мне лично может быть полезен Python?**
   - Подумайте о своих текущих рабочих задачах. Какие из них можно автоматизировать? Какие процессы могут быть ускорены или упрощены с помощью Python? 
   - Подумайте, какие аналитические инструменты или данные вы используете сейчас. Как Python может помочь вам работать с этими данными?

2. **Какие задачи я могу решать эффективнее при помощи Python?**
   - Примерьте на себя использование Python для анализа данных, автоматизации отчетов, создания прогнозных моделей. Какие задачи в вашей текущей работе могут выполняться быстрее и эффективнее с использованием этого языка программирования?
   - Подумайте о рутинных задачах, которые занимают у вас много времени. Какие из них можно было бы автоматизировать с помощью Python?

3. **Как Python может улучшить аналитику в моем подразделении?**
   - Как применение Python может повлиять на общие процессы в вашем подразделении? Например, как это может улучшить обработку данных, отчетность или принятие решений?
   - Сможет ли Python помочь вашему подразделению быстрее получать аналитические данные и лучше интерпретировать их? Подумайте, как это может повысить качество и скорость аналитики.

## Разведывательный анализ данных (EDA) и описание данных
### Введение в библиотеки Pandas и NumPy

**Pandas** — одна из основных библиотек для работы с табличными данными в Python. Она предоставляет удобные структуры данных, такие как **DataFrame**, для эффективной работы с большими объемами данных.

**NumPy** — это библиотека для работы с многомерными массивами и матрицами, которая также полезна при проведении числовых операций.

Пример кода для импорта библиотек и загрузки датасета:

```python
import pandas as pd
import numpy as np

# Загрузка ранее созданного датасета
df = pd.read_csv('railway_freight_data.csv')

# Вывод первых 5 строк датасета
df.head()
```

### Пояснение:
1. **`pd.read_csv()`** — эта функция позволяет загружать данные из файла CSV в DataFrame.
2. **`df.head()`** — выводит первые 5 строк для того, чтобы убедиться, что данные загружены корректно.

### Описание датасета:
Датасет будет содержать информацию о перевозках грузов по железной дороге. В нем будут такие столбцы:
- `Train_ID`: уникальный идентификатор поезда
- `Date`: дата отправления поезда
- `Departure_City`: город отправления
- `Arrival_City`: город прибытия
- `Cargo_Type`: тип груза (уголь, зерно, металл, контейнеры)
- `Weight_Tons`: вес груза в тоннах
- `Distance_KM`: расстояние перевозки в километрах
- `Cost_USD`: стоимость перевозки в долларах США
- `Delay_Hours`: задержка в часах при доставке

### Чтение данных из Excel

В дополнение к CSV, библиотека **Pandas** также поддерживает чтение данных из файлов Excel с использованием функции **`pd.read_excel()`**. Для этого вам потребуется установить библиотеку `openpyxl` (для работы с файлами формата .xlsx). Для установки библиотеки можно использовать команду:

```
!pip install openpyxl
```

#### Пример чтения данных из Excel:

```python
import pandas as pd

# Чтение данных из Excel файла
df_excel = pd.read_excel('timeseries.xlsx')

# Вывод первых 5 строк
df_excel.head()
```

#### Пояснение:

1. **`pd.read_excel()`** — функция для чтения данных из Excel файла. По умолчанию читается первый лист в файле, но если у вас несколько листов, вы можете указать нужный лист с помощью параметра **`sheet_name`**.

   ```python
   df_excel = pd.read_excel('railway_freight_data.xlsx', sheet_name='Sheet1')
   ```

2. **`df.head()`** — выводит первые 5 строк для быстрой проверки структуры данных.

### Сохранение данных в Excel и CSV

Для сохранения данных из DataFrame в Excel или CSV используется следующие функции:

#### Сохранение в CSV:
```python
# Сохранение DataFrame в файл CSV
df.to_csv('railway_freight_data_saved.csv', index=False)
```

#### Пояснение:

- **`index=False`** — это параметр, который указывает Pandas не сохранять индексы строк в файле CSV (по умолчанию Pandas добавляет индекс в CSV файл).

#### Сохранение в Excel:
```python
# Сохранение DataFrame в файл Excel
df.to_excel('railway_freight_data_saved.xlsx', index=False, engine='openpyxl')
```

### Пояснение:
- **`engine='openpyxl'`** — для работы с файлами Excel формата .xlsx используется этот движок.
- Аналогично, **`index=False`** указывает не сохранять индекс строк в итоговый файл.

### Пример использования:
Допустим, вы провели предварительный анализ данных и хотите сохранить измененный DataFrame:

```python
# Пример фильтрации данных по типу груза 'Coal'
df_filtered = df[df['Cargo_Type'] == 'Coal']

# Сохранение отфильтрованного DataFrame в новый Excel файл
df_filtered.to_excel('filtered_coal_freight_data.xlsx', index=False)

# Сохранение в CSV
df_filtered.to_csv('filtered_coal_freight_data.csv', index=False)
```

## Основы работы с DataFrame

### Создание DataFrame

**DataFrame** — это основная структура данных в Pandas, представляющая собой таблицу, состоящую из строк и столбцов. Давайте создадим простой DataFrame с помощью словаря.

##### Пример создания DataFrame:

```python
import pandas as pd

# Создание DataFrame из словаря
data = {
    'Train_ID': [1, 2, 3, 4, 5],
    'Cargo_Type': ['Coal', 'Grain', 'Metal', 'Containers', 'Coal'],
    'Weight_Tons': [1000, 2500, 3000, 1500, 2000],
    'Cost_USD': [50000, 125000, 150000, 75000, 100000]
}

df = pd.DataFrame(data)

# Вывод созданного DataFrame
print(df)
```

### Пояснение:
- **Словарь** содержит ключи (имена столбцов) и значения (данные).
- **`pd.DataFrame()`** преобразует словарь в таблицу.

### Фильтрация данных

Фильтрация — это операция, при которой выбираются строки, соответствующие определенным условиям. Например, давайте отфильтруем данные, чтобы отобразить только те записи, где тип груза — "Coal".

##### Пример фильтрации:

```python
# Фильтрация по типу груза 'Coal'
coal_data = df[df['Cargo_Type'] == 'Coal']

# Вывод отфильтрованных данных
print(coal_data)
```

### Пояснение:
- **`df['Cargo_Type'] == 'Coal'`** — условие для фильтрации. Pandas возвращает все строки, в которых столбец `Cargo_Type` имеет значение "Coal".
- **`df[условие]`** — позволяет выбрать строки, удовлетворяющие условию.

### Фильтрация по нескольким условиям:

Допустим, мы хотим найти все записи, где тип груза "Coal" и вес груза больше 2000 тонн.

```python
# Фильтрация по типу груза и весу
filtered_data = df[(df['Cargo_Type'] == 'Coal') & (df['Weight_Tons'] > 2000)]

# Вывод отфильтрованных данных
print(filtered_data)
```

### Пояснение:
- **`&`** — логический оператор "и", который соединяет несколько условий.
- **`()`** — каждое условие должно быть заключено в скобки.

### Сортировка данных

Pandas предоставляет удобный метод **`sort_values()`** для сортировки данных по одному или нескольким столбцам.

##### Пример сортировки данных:

```python
# Сортировка данных по весу груза (по возрастанию)
sorted_data = df.sort_values(by='Weight_Tons')

# Вывод первых строк отсортированных данных
print(sorted_data.head())
```

### Пояснение:
- **`sort_values(by='Weight_Tons')`** — сортирует DataFrame по столбцу `Weight_Tons`.

### Сортировка по нескольким столбцам:

Вы можете сортировать по нескольким столбцам, указав порядок сортировки для каждого из них.

```python
# Сортировка по типу груза и весу (сначала по возрастанию типа груза, затем по весу по убыванию)
sorted_data_multi = df.sort_values(by=['Cargo_Type', 'Weight_Tons'], ascending=[True, False])

# Вывод первых строк отсортированных данных
print(sorted_data_multi.head())
```

### Пояснение:
- **`ascending=[True, False]`** — указывает, что первый столбец будет отсортирован по возрастанию, а второй — по убыванию.

### Группировка данных

Группировка (grouping) позволяет объединять строки по значениям в одном или нескольких столбцах и выполнять над ними агрегатные функции.

##### Пример группировки данных:

Давайте сгруппируем данные по типу груза и посчитаем суммарный вес для каждого типа.

```python
# Группировка данных по типу груза и расчет суммарного веса
grouped_data = df.groupby('Cargo_Type')['Weight_Tons'].sum()

# Вывод результатов группировки
print(grouped_data)
```

### Пояснение:
- **`groupby('Cargo_Type')`** — группирует данные по столбцу `Cargo_Type`.
- **`sum()`** — вычисляет сумму для каждой группы.

### Агрегирование и сводные таблицы

Агрегирование — это применение различных функций (например, сумма, среднее, количество) к каждой группе.

##### Пример применения нескольких агрегатных функций:

Мы можем применить несколько функций одновременно, используя метод **`agg()`**.

```python
# Группировка по типу груза и применение нескольких функций: сумма и среднее
agg_data = df.groupby('Cargo_Type').agg({
    'Weight_Tons': ['sum', 'mean'],
    'Cost_USD': ['sum', 'mean']
})

# Вывод результатов агрегирования
print(agg_data)
```

### Пояснение:
- **`agg()`** — метод для применения нескольких агрегатных функций.
- Для каждого столбца можно указать набор функций, которые нужно применить.

### Пример сводной таблицы:

Pandas также поддерживает создание сводных таблиц (pivot tables), которые позволяют просматривать данные по нескольким измерениям.

```python
# Создание сводной таблицы с типом груза и городом отправления
pivot_table = pd.pivot_table(df, values='Cost_USD', index='Cargo_Type', columns='Departure_City', aggfunc='sum')

# Вывод сводной таблицы
print(pivot_table)
```

### Пояснение:
- **`pd.pivot_table()`** — создаёт сводную таблицу, где `values` — это агрегируемый столбец, `index` — строки таблицы, а `columns` — столбцы.
- **`aggfunc='sum'`** — указывает, что нужно суммировать значения.

## Разведывательный анализ данных (EDA)

### Введение в EDA
**Разведывательный анализ данных (Exploratory Data Analysis, EDA)** — это важный этап подготовки данных для последующего моделирования и принятия решений. EDA помогает лучше понять структуру данных, выявить скрытые закономерности, аномалии, выбросы и подготовить данные для дальнейшего анализа. В этом блоке мы рассмотрим основные принципы EDA и ключевые методы.

---

### Основные понятия разведывательного анализа данных

EDA предполагает следующие ключевые шаги:

1. **Знакомство с данными**:
   - Какую информацию представляют данные?
   - Какие переменные (столбцы) присутствуют в наборе данных?
   - Какого типа эти переменные (числовые, категориальные и т.д.)?

2. **Описательная статистика**:
   - Какова структура данных?
   - Что можно сказать о распределении переменных?
   - Какие ключевые статистические показатели (среднее, медиана, мода, стандартное отклонение и т.д.) можно вычислить?

3. **Оценка качества данных**:
   - Содержат ли данные пропуски?
   - Есть ли в данных выбросы (аномалии)?
   - Корректны ли типы данных для каждого столбца?

4. **Визуализация данных**:
   - Как визуализировать данные для лучшего понимания их структуры?
   - Какие графики подходят для каждого типа данных (гистограммы, диаграммы рассеяния, коробчатые диаграммы и т.д.)?

Теперь рассмотрим каждый из этих шагов на конкретных примерах с кодом.

---

### Применение статистических методов для описания данных

#### Шаг 1: Знакомство с данными

Первым шагом всегда является изучение структуры данных. В этом случае полезно узнать, какие столбцы (переменные) есть в наборе данных, каков их тип и сколько строк (наблюдений) представлено в датасете.

##### Пример:
Мы используем ранее созданный датасет о грузоперевозках по железной дороге.

```python
import pandas as pd

# Загрузка датасета
df = pd.read_csv('railway_freight_data.csv')

# Общая информация о данных
df.info()
```

### Пояснение:
1. **`df.info()`** — предоставляет обзор структуры данных:
   - Количество строк и столбцов.
   - Тип данных каждого столбца.
   - Количество ненулевых значений в каждом столбце (это полезно для выявления пропусков).

### Шаг 2: Описательная статистика

Для количественных переменных крайне полезно получить сводку статистических показателей. Это включает в себя среднее значение, медиану, минимальное и максимальное значения, а также распределение значений через квартильные интервалы.

##### Пример получения описательной статистики:

```python
# Описательная статистика для количественных переменных
df.describe()
```

### Пояснение:
1. **`describe()`** выводит стандартные статистические параметры для всех числовых переменных в наборе данных:
   - **count**: количество ненулевых значений.
   - **mean**: среднее значение переменной.
   - **std**: стандартное отклонение.
   - **min**: минимальное значение.
   - **25%, 50%, 75%**: квартильные значения (25-й, 50-й, 75-й процентили), которые показывают распределение значений.
   - **max**: максимальное значение.

##### Интерпретация результатов:

Допустим, в столбце `Weight_Tons` среднее значение составляет 4500 тонн, минимальное значение — 500 тонн, а максимальное — 9500 тонн. Это дает представление о том, что большинство грузов варьируются по весу между 500 и 9500 тонн, а средний груз весит около 4500 тонн. Стандартное отклонение поможет оценить, насколько широко варьируются значения относительно среднего.

### Шаг 3: Визуализация распределения данных

Визуализация данных помогает наглядно увидеть распределение переменных. Например, для числовых данных гистограмма (histogram) позволяет оценить частотное распределение значений.

##### Пример построения гистограммы:

```python
import matplotlib.pyplot as plt
# Построение гистограммы для столбца 'Weight_Tons'
plt.figure(figsize=(8, 5))
plt.hist(df['Weight_Tons'], bins=20, color='blue', edgecolor='black')
plt.title('Распределение веса грузов')
plt.xlabel('Вес, тонн')
plt.ylabel('Частота')
plt.show()
```

### Пояснение:
- **`hist()`** — строит гистограмму, которая показывает, сколько раз данные попадают в определенные интервалы (bins).
- Гистограмма помогает оценить, как распределены данные (нормально ли, есть ли перекосы и т.д.).

##### Интерпретация:
Допустим, гистограмма показала, что большинство грузов весит между 3000 и 7000 тонн, но есть несколько грузов весом более 9000 тонн. Это может указывать на возможные выбросы или специфику структуры данных.

Для изменения цвета графика по палитре RGB в Matplotlib вы можете передать значение цвета в формате RGB или HEX. В Matplotlib для RGB используется нормализованная палитра, где значения компонентов цвета (R, G, B) находятся в диапазоне от 0 до 1.

Вот пример, как изменить цвет гистограммы на определённый цвет с использованием RGB палитры:

```python
import matplotlib.pyplot as plt

# Цвет в формате RGB (например, светло-синий: RGB = 173, 216, 230)
rgb_color = (226/255, 25/255, 25/255)  # Нормализуем до значений от 0 до 1

# Построение гистограммы с указанием цвета
plt.figure(figsize=(8, 5))
plt.hist(df['Weight_Tons'], bins=20, color=rgb_color, edgecolor='black')
plt.title('Распределение веса грузов')
plt.xlabel('Вес, тонн')
plt.ylabel('Частота')
plt.show()
```

### Пояснение:
- **`color=rgb_color`** — передает нормализованные значения RGB в диапазоне от 0 до 1. Например, цвет RGB = (173, 216, 230) преобразован в (0.68, 0.85, 0.9).
- **`edgecolor='black'`** — цвет границ столбцов.

Вы можете заменить значения `rgb_color` на любые другие, чтобы получить нужный цвет.

В **Pandas** также можно строить базовые графики, используя встроенные методы для визуализации, основанные на **Matplotlib**. Это удобно для быстрого анализа данных без необходимости импортировать и настраивать дополнительные библиотеки. Ниже приведены основные графики, которые можно строить с помощью Pandas, а также способы изменения цветов и добавления названий осей.

### Построение базовых графиков с использованием Pandas

#### Гистограмма (Histogram)

```python
# Построение гистограммы для столбца 'Weight_Tons' с использованием Pandas
df['Weight_Tons'].plot(kind='hist', bins=20, color='skyblue', edgecolor='black', figsize=(8, 5))

# Добавление названий осей и заголовка
plt.title('Распределение веса грузов')
plt.xlabel('Вес, тонн')
plt.ylabel('Частота')
plt.show()
```

### Пояснение:
- **`plot(kind='hist')`** — указывает тип графика (гистограмма).
- **`bins`** — количество интервалов (столбцов) для гистограммы.
- **`color='skyblue'`** — задаёт цвет столбцов.
- **`edgecolor='black'`** — цвет границ столбцов.
- **`figsize=(8, 5)`** — размер графика.

#### Линейный график (Line Plot)

```python
# Построение линейного графика для столбцов 'Date' и 'Cost_USD'
df.plot(kind='line', x='Date', y='Cost_USD', color='green', figsize=(8, 5))
```

### Пояснение:
- **`plot(kind='line')`** — строит линейный график.
- **`x='Date'`**, **`y='Cost_USD'`** — указывают, какие столбцы использовать для осей.
- **`color='green'`** — цвет линии.

#### Диаграмма рассеяния (Scatter Plot)

```python
# Построение диаграммы рассеяния для веса грузов и стоимости перевозки
df.plot(kind='scatter', x='Weight_Tons', y='Cost_USD', color='red', figsize=(8, 5))
```

### Пояснение:
- **`plot(kind='scatter')`** — строит диаграмму рассеяния.
- **`x`**, **`y`** — указывают переменные для осей.
- **`color='red'`** — цвет точек на графике.

#### Box Plot

```python
# Построение коробчатой диаграммы для стоимости перевозок
df['Cost_USD'].plot(kind='box', color='blue', patch_artist=True, figsize=(8, 5))
```

### Пояснение:
- **`plot(kind='box')`** — строит коробчатую диаграмму.
- **`patch_artist=True`** — позволяет изменять цвет внутренней части коробки.
- **`color='blue'`** — цвет линий коробки.

---

### Изменение цветов в графиках Pandas

Pandas позволяет использовать разные способы задания цветов для графиков:

- **По названию цвета** (например, `'blue'`, `'green'`):
  ```python
  df.plot(kind='line', y='Cost_USD', color='blue')
  ```

- **По HEX-коду**:
  ```python
  df.plot(kind='line', y='Cost_USD', color='#FF5733')  # Оранжевый цвет
  ```

- **По RGB значению**:
  Для этого используется `tuple`, где значения RGB нормализованы в диапазоне от 0 до 1:
  ```python
  df.plot(kind='line', y='Cost_USD', color=(0.1, 0.5, 0.8))  # Синий цвет
  ```

### Поиск выбросов (аномалий)

Выбросы — это значения, которые значительно отклоняются от остальных наблюдений. Такие значения могут оказать негативное влияние на статистический анализ и модели машинного обучения.

##### Пример поиска выбросов:

Выбросы можно обнаружить с помощью статистических методов, например, через коробчатые диаграммы (boxplots), или с использованием квартильных значений.

```python
import matplotlib.pyplot as plt

# Построение коробчатой диаграммы для столбца 'Weight_Tons'
plt.figure(figsize=(8, 5))
plt.boxplot(df['Weight_Tons'], vert=False, patch_artist=True)
plt.title('Коробчатая диаграмма для веса грузов')
plt.xlabel('Вес, тонн')
plt.show()
```

### Пояснение:
- **`boxplot()`** — строит коробчатую диаграмму, которая показывает медиану (линия в середине коробки), первый и третий квартиль (границы коробки), а также выбросы (точки за пределами "усов" диаграммы).
- Выбросы (точки за пределами диаграммы) могут указывать на аномалии в данных.

### Частота категориальных признаков в DataFrame: `value_counts()` и `unique()`

Когда вы работаете с данными в формате DataFrame, часто возникает необходимость проанализировать категориальные признаки (столбцы, которые содержат дискретные значения, например, категории, названия, статусы). Для этого в библиотеке `pandas` существуют две полезные функции — **`value_counts()`** и **`unique()`**.

#### Функция `value_counts()`

Функция `value_counts()` используется для подсчета частоты значений в столбце DataFrame. Она возвращает количество каждого уникального значения в виде отсортированной таблицы, что позволяет легко оценить распределение категориальных данных.

##### Пример использования `value_counts()`:
```python
# Используем value_counts для подсчета частоты значений в столбце Department
cargo_counts = df['Cargo_Type'].value_counts()
print(cargo_counts)
```

#### Параметры `value_counts()`:
- **`normalize=True`**: Если хотите получить относительные частоты (доли), а не абсолютные значения, добавьте параметр `normalize=True`.
- **`dropna=False`**: Чтобы включить в расчет отсутствующие значения (`NaN`), используйте `dropna=False`.

#### Функция `unique()`

Функция `unique()` возвращает массив всех уникальных значений в столбце DataFrame. Это полезно, когда нужно узнать, какие категории (или уникальные значения) присутствуют в данных.

##### Пример использования `unique()`:
```python
# Используем unique для получения уникальных значений в столбце Department
unique_cargo = df['Cargo_Type'].unique()
print(unique_cargo)
```

#### Заключение

- **`value_counts()`** полезен, когда нужно понять распределение категорий в данных.
- **`unique()`** помогает быстро получить список уникальных значений в столбце.

Обе функции часто используются в предварительном анализе данных для того, чтобы быстро оценить структуру и распределение категориальных переменных.