# Исследование Polars и Pandas: выбор лучшей библиотеки для анализа и обработки данных
Воронкин Р.А., Криворот В.Г.


**Постановка задачи:** в современном мире анализ данных стал ключевым элементом в принятии стратегических решений и достижении конкурентных преимуществ в различных областях. Для успешного `анализа данных` необходимо использование эффективных инструментов, способных обрабатывать и анализировать большие объемы информации. В этой связи, библиотеки `Polars` и `Pandas` становятся важными инструментами для работы с данными в языке программирования `Python`.

**Цель работы:** сравнение библиотек `Polars` и `Pandas` в контексте их функциональности, производительности и практической применимости. Для достижения этой цели были поставлены следующие задачи:

1. Изучить основные возможности и синтаксис библиотек Polars и Pandas.
2. Сравнить производительность двух библиотек на различных операциях и в зависимости от объема данных.
3. Продемонстрировать примеры использования Polars и Pandas для решения типичных задач анализа данных.
4. Выявить преимущества и недостатки каждой библиотеки и дать рекомендации по выбору на основе конкретных потребностей.

**Используемые методы:** анализ документации, выполнениу кода и анализ результатов. Результаты работы представлены в виде сравнительного анализа функциональности, производительности и применимости Polars и Pandas на различных задачах анализа данных.

**Практическая значимость:** помощи исследователям данных и специалистам в выборе наиболее подходящей библиотеки для своих задач анализа данных. Корректный выбор инструментов может значительно повысить эффективность работы и ускорить процесс анализа данных.

**Результаты:** данная работа позволит исследователям данных и специалистам сделать информированный выбор между библиотеками Polars и Pandas в зависимости от своих конкретных потребностей. Анализ функциональности и производительности данных библиотек, а также примеры использования помогут определить, какая библиотека лучше подходит для различных задач анализа данных. Кроме того, предоставленные рекомендации помогут оптимизировать процесс работы с данными и повысить эффективность анализа.

**Ключевые слова:** ***библиотеки Polars, Pandas, сравнение, анализ данных, производительность, функциональность, синтаксис, структуры данных, выбор инструментов.***

## Установка и импорт
Обе библиотеки `Polars` и `Pandas` являются открытым исходным кодом и поддерживаются активными сообществами разработчиков. В этом разделе мы рассмотрим процесс установки и импорта обеих библиотек, а также отметим некоторые различия между ними.

### Установка Polars
Для установки библиотеки Polars необходимо выполнить следующие шаги:

1. Установите Python на вашу систему, если у вас его еще нет. Polars поддерживает Python 3.7 и выше.
2. Откройте терминал или командную строку и выполните следующую команду для установки Polars с помощью пакетного менеджера pip:
```
pip install polars
```
Установка Polars может потребовать установки дополнительных зависимостей, таких как Rust или CMake. В таком случае, следуйте инструкциям, предоставляемым при установке.
3. После завершения установки вы можете импортировать Polars в свой проект Python с помощью следующей строки кода:
```
import polars as pl
```

### Установка Pandas
Установка библиотеки Pandas аналогична установке Polars. Вот несколько шагов, которые нужно выполнить:

1. Убедитесь, что Python установлен на вашей системе.
2. Откройте терминал или командную строку и выполните следующую команду для установки Pandas:
```
pip install pandas
```
3. После завершения установки вы можете импортировать Pandas в свой проект Python:
```
import pandas as pd
```

### Различия в процессе установки и импорта
Хотя процесс установки и импорта Polars и Pandas в основном схож, есть некоторые различия:

1. Зависимости: Polars может потребовать установки дополнительных зависимостей, таких как Rust или CMake, в то время как Pandas не требует этого.
2. Импорт: При импорте Polars используется import polars as pl, а при импорте Pandas используется import pandas as pd.

## Структура данных

В этом разделе мы рассмотрим основные структуры данных, используемые в библиотеках Polars и Pandas, а также обсудим различия в их представлении и манипуляции данными.

### DataFrame
*DataFrame* является одной из основных структур данных в обеих библиотеках. Он представляет собой двумерную таблицу, состоящую из рядов и столбцов. DataFrame в Polars и Pandas предоставляют мощные средства для работы с данными, включая индексацию, фильтрацию, сортировку, группировку и объединение данных.

Однако есть несколько различий в представлении DataFrame в Polars и Pandas. В Polars DataFrame является неизменяемой структурой данных, что означает, что после создания DataFrame его содержимое нельзя изменить. Вместо этого, большинство операций над DataFrame в Polars возвращают новый DataFrame с примененными изменениями. В Pandas же DataFrame является изменяемой структурой данных, и его содержимое может быть изменено непосредственно.

### Series
*Series* представляет собой одномерный массив данных, который используется для представления столбцов в DataFrame. Как и DataFrame, Series также имеет некоторые различия в представлении и манипуляции в Polars и Pandas.

В Polars Series является неизменяемой структурой данных, аналогично DataFrame. Операции над Series в Polars создают новые Series с примененными изменениями. В Pandas же Series является изменяемой структурой данных, и его содержимое может быть изменено напрямую.

### Различия в манипуляции данными
Помимо различий в представлении данных, Polars и Pandas также имеют некоторые различия в синтаксисе и подходах к манипуляции данными.

Например, в Polars операции фильтрации, сортировки и группировки могут быть выполнены с использованием метода chaining (цепочки методов), что делает код более компактным и читаемым:

In [None]:
df.filter(pl.col("age") > 30).sort("name").groupby("gender").agg({"income": "mean"})

В Pandas же эти операции выполняются с использованием отдельных функций:

In [None]:
df[df["age"] > 30].sort_values("name").groupby("gender").agg({"income": "mean"})