<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_Polars.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотека Polars

Polars — это мощная библиотека для обработки и анализа данных, которая предлагает высокую производительность и эффективное использование памяти. Она разработана на языке Rust и предоставляет Python-обертку, что позволяет использовать преимущества компилированного кода для выполнения операций с данными. Polars особенно подходит для работы с большими наборами данных и выполняет задачи, связанные с манипуляцией данными, агрегацией и визуализацией.

## Установка

Перед тем как начать, необходимо установить библиотеку Polars. Это можно сделать с помощью pip:

```bash
pip install polars
```

После успешной установки можно переходить к изучению основных возможностей библиотеки.

## Основные понятия Polars

Polars использует два основных типа данных для хранения информации:

1. **DataFrame**: Двумерная структура данных, аналогичная таблице, где строки представляют наблюдения, а столбцы — переменные.
2. **Series**: Одномерный массив данных, который может содержать данные любого типа, включая числа, строки и даты.



# Основы и возможности библиотеки Polars Series

## Введение


`Series` в Polars представляет собой одномерный массив, который может хранить данные различных типов, таких как целые числа, числа с плавающей запятой, строки, логические значения и даже сложные структуры данных. Основное назначение `Series` — хранение и манипуляция данными в табличном формате, а также выполнение различных операций, таких как фильтрация, агрегация и преобразование.

## Установка Polars

Прежде чем углубляться в теорию, давайте установим библиотеку Polars. Если вы еще не установили Polars, вы можете сделать это с помощью следующей команды:

```bash
pip install polars
```

После успешной установки вы можете импортировать библиотеку в вашем Python-коде:

```python
import polars as pl
```


## Создание Series

### Простой пример создания Series

Создание объекта `Series` в Polars — это простая задача. Вы можете создать `Series` из списка, массива NumPy или других объектов. Рассмотрим пример создания `Series` из обычного списка:

```python
import polars as pl

# Создаем Series из списка
data = [1, 2, 3, 4, 5]
series = pl.Series("numbers", data)
print(series)
```

**Объяснение:**  
В данном примере мы создали `Series` с именем "numbers" и передали список целых чисел. Метод `print` выводит информацию о созданном объекте `Series`, включая его название и тип данных.

### Создание Series из других источников

Вы также можете создать `Series` из других источников данных, таких как массивы NumPy или даже DataFrame. Например:

```python
import numpy as np

# Создаем Series из массива NumPy
np_array = np.array([10, 20, 30, 40])
series_from_np = pl.Series("from_numpy", np_array)
print(series_from_np)
```

**Объяснение:**  
Здесь мы создали `Series` из массива NumPy, что позволяет интегрировать Polars с существующими проектами на NumPy.

## Основные операции с Series

### Доступ к элементам

Вы можете получить доступ к элементам `Series` по индексу:

```python
# Получаем элемент по индексу
first_element = series[0]
print("Первый элемент:", first_element)
```

**Объяснение:**  
Используя квадратные скобки, мы можем извлекать элементы по их индексам, как в стандартных списках Python.

### Срезы и фильтрация

Полярные `Series` поддерживают операции срезов и фильтрации. Рассмотрим пример:

```python
# Создаем Series
data = [10, 20, 30, 40, 50]
series = pl.Series("data", data)

# Срез: получаем первые три элемента
slice_series = series[:3]
print("Срез первых трех элементов:", slice_series)

# Фильтрация: выбираем элементы больше 25
filtered_series = series[series > 25]
print("Элементы больше 25:", filtered_series)
```

**Объяснение:**  
В этом примере мы сначала создали `Series` и использовали срез, чтобы извлечь первые три элемента. Затем мы отфильтровали `Series`, выбрав только элементы, превышающие 25.

### Преобразование данных

Polars предоставляет множество функций для преобразования данных в `Series`. Например, вы можете преобразовать типы данных:

```python
# Создаем Series с целыми числами
int_series = pl.Series("integers", [1, 2, 3, 4])

# Преобразуем в Series с плавающей запятой
float_series = int_series.cast(pl.Float32)
print("Преобразованная Series:", float_series)
```

**Объяснение:**  
Здесь мы используем метод `cast`, чтобы преобразовать `Series` с целыми числами в `Series` с числами с плавающей запятой.

### Агрегация данных

Вы можете выполнять агрегацию данных в `Series`, используя такие функции, как `sum`, `mean`, `min`, `max` и другие:

```python
# Создаем Series
data = [5, 10, 15, 20]
series = pl.Series("values", data)

# Вычисляем сумму
total = series.sum()
print("Сумма:", total)

# Вычисляем среднее
average = series.mean()
print("Среднее:", average)
```

**Объяснение:**  
В этом примере мы вычисляем сумму и среднее значение элементов `Series` с использованием встроенных функций агрегации.

## Применение функций к Series

### Применение функций

Вы можете применять функции к каждому элементу в `Series` с помощью метода `apply`:

```python
# Создаем Series
data = [1, 2, 3, 4]

# Применяем функцию, чтобы возвести в квадрат
squared_series = series.apply(lambda x: x ** 2)
print("Возведенные в квадрат элементы:", squared_series)
```

**Объяснение:**  
В этом примере мы используем `apply`, чтобы возвести каждый элемент `Series` в квадрат с помощью лямбда-функции.

## Работа с пропущенными значениями

### Обработка пропущенных значений

Polars предоставляет удобные методы для работы с пропущенными значениями, такие как `fill_null` и `is_null`:

```python
# Создаем Series с пропущенными значениями
data = [1, None, 3, None, 5]
series_with_nulls = pl.Series("data_with_nulls", data)

# Заполняем пропущенные значения нулями
filled_series = series_with_nulls.fill_null(0)
print("Заполненные нулями пропуски:", filled_series)

# Проверяем на наличие пропущенных значений
null_mask = series_with_nulls.is_null()
print("Маска пропущенных значений:", null_mask)
```

**Объяснение:**  
В этом примере мы создаем `Series` с пропущенными значениями, заполняем их нулями с помощью метода `fill_null`, а затем используем `is_null`, чтобы создать маску, указывающую, где находятся пропущенные значения.




## 1. Типы данных в Series

### Разнообразие типов

В библиотеке Polars `Series` поддерживает широкий спектр типов данных, что обеспечивает гибкость в хранении и манипуляции данными различных форматов. Основные типы данных включают:

- **Целые числа**: Представлены типами `Int8`, `Int16`, `Int32`, `Int64`, что позволяет использовать как маленькие, так и большие целые числа в зависимости от потребностей приложения.
- **Числа с плавающей запятой**: Типы `Float32` и `Float64` обеспечивают возможность работы с дробными значениями, что важно для научных и финансовых расчетов.
- **Строки**: Тип `Utf8` позволяет хранить текстовые данные, что необходимо для обработки информации в естественном языке.
- **Логические значения**: Тип `Boolean` поддерживает булеву логику, что позволяет выполнять фильтрацию данных.
- **Даты и временные метки**: Типы `Date` и `Datetime` обеспечивают возможности для работы с временными данными, что особенно важно в временных рядах.

### Пример создания Series с различными типами

Ниже представлен код, демонстрирующий создание `Series` для различных типов данных:

```python
import polars as pl

# Создаем Series разных типов
int_series = pl.Series("integers", [1, 2, 3, 4])
float_series = pl.Series("floats", [1.1, 2.2, 3.3, 4.4])
str_series = pl.Series("strings", ["a", "b", "c", "d"])
bool_series = pl.Series("booleans", [True, False, True, False])

print(int_series)
print(float_series)
print(str_series)
print(bool_series)
```

**Объяснение:**  
В этом примере мы создаем четыре `Series` различных типов и выводим их на экран. Это позволяет продемонстрировать, как Polars обрабатывает разные форматы данных, что важно для понимания типов данных и их использования в последующих операциях.

## 2. Методы агрегации и статистики

### Расширенные статистические функции

Polars предлагает богатый набор методов для агрегации и статистического анализа данных в `Series`. Эти функции позволяют пользователям выполнять сложные вычисления, такие как получение среднего, медианы, стандартного отклонения и других статистических характеристик. Такие операции необходимы для понимания распределения данных и выявления закономерностей.

### Пример вычисления статистики

Рассмотрим следующий код, который демонстрирует использование методов агрегации для вычисления различных статистических показателей:

```python
# Создаем Series
data = [1, 2, 3, 4, 5, 6]
series = pl.Series("values", data)

# Вычисляем различные статистические показатели
sum_value = series.sum()
mean_value = series.mean()
median_value = series.median()
std_value = series.std()

print(f"Сумма: {sum_value}, Среднее: {mean_value}, Медиана: {median_value}, Стандартное отклонение: {std_value}")
```

**Объяснение:**  
В этом примере мы создаем `Series` и вычисляем сумму, среднее значение, медиану и стандартное отклонение элементов. Эти статистические функции важны для анализа данных, так как они позволяют исследовать центральные тенденции и вариабельность данных.

## 3. Работа с временными рядами

### Создание временных Series

Временные ряды — это особый вид данных, в котором значения индексируются по времени. Polars предоставляет мощные инструменты для работы с временными рядами, что позволяет эффективно обрабатывать и анализировать данные, зависящие от времени, такие как финансовые и погодные данные.

### Пример создания временной Series

Следующий код демонстрирует создание временной `Series` с использованием диапазона дат:

```python
# Создаем временные данные
date_series = pl.Series("dates", pl.date_range("2023-01-01", "2023-01-10", "1d"))
print(date_series)
```

**Объяснение:**  
В данном примере мы создаем `Series`, состоящую из последовательности дат, с помощью функции `date_range`. Это позволяет легко работать с временными данными, что является важным аспектом анализа временных рядов.

### Ресемплинг временных рядов

Ресемплинг — это процесс изменения частоты временных рядов, который может включать агрегацию или интерполяцию значений. Это особенно полезно, когда необходимо упростить или изменить частоту данных для анализа.

```python
# Создаем временные ряды
data = [1, 2, 3, 4, 5, 6]
date_series = pl.Series("dates", pl.date_range("2023-01-01", "2023-01-06", "1d"))
value_series = pl.Series("values", data)

# Создаем DataFrame
df = pl.DataFrame({"date": date_series, "value": value_series})

# Ресемплинг данных
resampled = df.set_index("date").resample("2D").sum()
print(resampled)
```

**Объяснение:**  
В этом примере мы создаем DataFrame с временными рядами и выполняем ресемплинг данных, агрегируя значения по каждые два дня. Это позволяет исследовать изменения данных во времени и получать сводные значения.

## 4. Преобразования Series

### Функции map и filter

Методы `map` и `filter` в Polars позволяют пользователям применять функции к элементам `Series`, что дает возможность выполнять сложные преобразования и фильтрацию данных. Это особенно полезно для обработки данных перед анализом.

### Пример применения функций

Ниже представлен код, который демонстрирует использование методов `map` и `filter` для выполнения операций над данными:

```python
# Создаем Series
data = [1, 2, 3, 4, 5]
series = pl.Series("numbers", data)

# Применяем функцию возведения в квадрат
squared_series = series.map(lambda x: x ** 2)
print("Возведенные в квадрат:", squared_series)

# Фильтруем значения больше 10
filtered_series = series.filter(series > 2)
print("Значения больше 2:", filtered_series)
```

**Объяснение:**  
В данном примере мы используем метод `map` для возведения каждого элемента `Series` в квадрат и метод `filter` для выбора значений, превышающих 2. Эти операции позволяют быстро и эффективно обрабатывать данные, что значительно упрощает анализ.

## 5. Сравнение с другими библиотеками

### Сравнение с Pandas

Понимание различий между Polars и Pandas может помочь пользователям выбрать подходящую библиотеку в зависимости от специфических требований их задач. Polars часто демонстрирует более высокую производительность, особенно при работе с большими наборами данных.

### Пример производительности

Следующий код сравнивает производительность методов вычисления среднего значения для больших массивов данных в Pandas и Polars:

```python
import pandas as pd
import numpy as np
import time

# Создаем большие Series
n = 10**6
data = np.random.rand(n)

# Использование Pandas
start_time = time.time()
pd_series = pd.Series(data)
pd_mean = pd_series.mean()
print("Pandas Mean:", pd_mean, "Time:", time.time() - start_time)

# Использование Polars
start_time = time.time()
pl_series = pl.Series(data)
pl_mean = pl_series.mean()
print("Polars Mean:", pl_mean, "Time:", time.time() - start_time)
```

**Объяснение:**  
В этом примере мы измеряем время, необходимое для вычисления среднего значения в большом наборе данных, используя как Pandas, так и Polars. Как правило, Polars обеспечивает более быстрое выполнение операций, что делает его предпочтительным выбором для обработки больших объемов данных.

## 6. Визуализация данных

### Интеграция с библиотеками визуализации

Polars интегрируется с популярными библиотеками визуализации, такими как Matplotlib и Seaborn, что позволяет пользователям визуализировать данные из `Series` и делать выводы на основе графического анализа.

### Пример визуализации данных

Следующий код демонстрирует, как визуализировать данные из `Series` с помощью Matplotlib:

```python
import matplotlib.pyplot as plt

# Создаем Series
data = [1, 2, 3, 4, 5]
series = pl.Series("values", data)

# Визуализация данных
plt.plot(series.to_list())
plt.title("Визуализация Series")
plt.xlabel("Индекс")
plt.ylabel("Значение")
plt.show()
```

**Объяснение:**  
В этом примере мы используем библиотеку Matplotlib для визуализации значений из `Series`. Мы преобразуем данные в список с помощью метода `to_list`, что необходимо для передачи данных в Matplotlib.

## 7. Оптимизация и производительность

### Параллельные вычисления

Одной из ключевых особенностей Polars является поддержка параллельных вычислений, что позволяет значительно ускорить операции над большими наборами данных. Эта особенность реализуется автоматически при выполнении многих операций, что делает Polars более производительной библиотекой по сравнению с другими инструментами обработки данных.

### Пример использования многопоточности

Пример кода ниже демонстрирует, как Polars автоматически использует параллельные вычисления для выполнения операций над большими `Series`:

```python
# Создаем большой Series
data = pl.Series("large_series", np.random.rand(10**7))

# Применяем операции
mean_value = data.mean()
print("Среднее значение большого Series:", mean_value)
```

**Объяснение:**  
В данном примере создается `Series`, содержащий 10 миллионов случайных чисел, и вычисляется их среднее значение. Polars использует параллельные вычисления для выполнения этой операции быстрее, чем это возможно с однопоточными библиотеками.

## 8. Импорт и экспорт данных

### Чтение и запись данных

Polars поддерживает несколько популярных форматов для чтения и записи данных, включая CSV, Parquet и JSON. Это делает Polars удобным инструментом для интеграции с другими системами и обработки данных в различных форматах.

### Пример чтения и записи в CSV

Пример кода ниже демонстрирует процесс записи и последующего чтения `Series` в/из CSV-файла:

```python
# Записываем Series в CSV
data = pl.Series("numbers", [1, 2, 3, 4, 5])
data.write_csv("numbers.csv")

# Читаем Series из CSV
loaded_series = pl.read_csv("numbers.csv")
print("Загруженная Series:", loaded_series)
```

**Объяснение:**  
Здесь мы сначала записываем данные из `Series` в файл формата CSV с использованием метода `write_csv`, а затем загружаем данные из этого файла обратно в `Series`, используя метод `read_csv`.

## 9. Обработка текстовых данных

### Работа с строками

Polars предоставляет мощные инструменты для работы со строковыми данными в `Series`, такие как преобразование регистра и фильтрация по длине строк. Эти возможности полезны при работе с текстом, особенно в задачах анализа данных и обработки естественного языка.

### Пример обработки строк

Пример кода ниже демонстрирует применение различных операций над строковыми данными в `Series`:

```python
# Создаем Series строк
str_series = pl.Series("strings", ["apple", "banana", "cherry", "date"])

# Применяем операции
upper_series = str_series.str.to_uppercase()
print("Строки в верхнем регистре:", upper_series)

# Фильтруем строки по длине
filtered_strings = str_series.filter(str_series.str.lengths() > 5)
print("Строки длиной больше 5:", filtered_strings)
```

**Объяснение:**  
В этом примере мы используем методы для преобразования строк в верхний регистр и фильтрации строк по длине. Такие операции полезны для подготовки данных перед более глубоким анализом текстов.






# Основы и возможности библиотеки Polars DataFrame
## Введение в Polars DataFrame

Polars — это высокопроизводительная библиотека для работы с данными в формате DataFrame, которая поддерживает язык программирования Python. Основное предназначение Polars — это обработка больших объемов данных с высокой скоростью, что делает ее отличной альтернативой таким библиотекам, как pandas.

DataFrame — это основная структура данных в Polars, позволяющая хранить табличные данные, где каждая колонка может содержать данные разных типов (например, числа, строки и даты). DataFrame в Polars отличается от других библиотек своей архитектурой и механизмом выполнения, которые обеспечивают большую производительность за счет использования многопоточности и оптимизированных алгоритмов.


## Создание DataFrame

### Создание из словаря

Один из самых простых способов создать DataFrame — это использование словаря, где ключи представляют собой названия колонок, а значения — списки значений.

```python
import polars as pl

# Создаем DataFrame из словаря
data = {
    "name": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "city": ["New York", "Los Angeles", "Chicago"]
}

df = pl.DataFrame(data)
print(df)
```

#### Объяснение:

- Импортируем библиотеку `polars` как `pl`.
- Определяем словарь `data`, где каждый ключ представляет название колонки, а его значение — список значений.
- Создаем DataFrame с помощью `pl.DataFrame(data)` и выводим его на экран.

### Создание из CSV-файла

Polars также поддерживает чтение данных из CSV-файлов, что делает загрузку данных простой и удобной.

```python
# Чтение DataFrame из CSV-файла
df_csv = pl.read_csv("path/to/your/file.csv")
print(df_csv)
```

#### Объяснение:

- Используем функцию `pl.read_csv`, чтобы прочитать CSV-файл и загрузить его в DataFrame.
- Необходимо указать путь к файлу. После чтения выводим полученный DataFrame.

## Основные операции с DataFrame

### Просмотр данных

Polars предоставляет удобные методы для просмотра данных. Например, `head()` и `tail()` позволяют посмотреть первые и последние строки DataFrame соответственно.

```python
# Просмотр первых 2 строк DataFrame
print(df.head(2))

# Просмотр последних 2 строк DataFrame
print(df.tail(2))
```

#### Объяснение:

- `df.head(2)` возвращает первые две строки DataFrame.
- `df.tail(2)` возвращает последние две строки.

### Выбор столбцов

Чтобы выбрать один или несколько столбцов, можно использовать синтаксис с квадратными скобками.

```python
# Выбор одного столбца
ages = df["age"]
print(ages)

# Выбор нескольких столбцов
selected_columns = df[["name", "city"]]
print(selected_columns)
```

#### Объяснение:

- `df["age"]` возвращает столбец с возрастом.
- `df[["name", "city"]]` возвращает DataFrame, состоящий только из указанных столбцов.

### Фильтрация данных

Фильтрация данных позволяет отбирать строки, которые соответствуют определенным условиям.

```python
# Фильтрация данных: выбираем строки, где возраст больше 28
filtered_df = df.filter(pl.col("age") > 28)
print(filtered_df)
```

#### Объяснение:

- Используем метод `filter()` и условие `pl.col("age") > 28`, чтобы выбрать строки, где возраст больше 28.

### Изменение данных

Polars позволяет изменять значения в DataFrame с помощью метода `with_columns()`.

```python
# Увеличиваем возраст каждого человека на 1
df_updated = df.with_columns((pl.col("age") + 1).alias("age"))
print(df_updated)
```

#### Объяснение:

- Мы используем `with_columns()`, чтобы создать новую колонку, увеличивая значения в колонке `age` на 1. Используем метод `alias()`, чтобы задать новое имя для колонки.

### Добавление новых колонок

Новые колонки можно добавлять в DataFrame с помощью метода `with_columns()`.

```python
# Добавляем новую колонку с длиной имени
df_with_length = df.with_columns(pl.col("name").str.lengths().alias("name_length"))
print(df_with_length)
```

#### Объяснение:

- Используем `str.lengths()`, чтобы вычислить длину каждого имени и добавить новую колонку с помощью `alias()`.

### Группировка и агрегация данных

Polars позволяет группировать данные и выполнять агрегирующие операции, такие как `mean()`, `sum()`, `count()` и т.д.

```python
# Группируем по городу и считаем средний возраст
grouped_df = df.groupby("city").agg(pl.col("age").mean().alias("average_age"))
print(grouped_df)
```

#### Объяснение:

- Метод `groupby("city")` позволяет группировать строки по значению в колонке `city`.
- Метод `agg()` применяется для вычисления среднего возраста в каждой группе.

## Работа с отсутствующими данными

Polars имеет встроенные методы для работы с отсутствующими значениями.

### Проверка на наличие отсутствующих данных

```python
# Проверка наличия отсутствующих значений в DataFrame
missing_values = df.null_count()
print(missing_values)
```

#### Объяснение:

- Метод `null_count()` возвращает количество отсутствующих значений в каждом столбце.

### Удаление строк с отсутствующими данными

```python
# Удаляем строки с отсутствующими значениями
df_dropped = df.drop_nulls()
print(df_dropped)
```

#### Объяснение:

- Метод `drop_nulls()` удаляет все строки, в которых есть отсутствующие значения.

### Заполнение отсутствующих данных

```python
# Заполнение отсутствующих значений
df_filled = df.fill_null("unknown")
print(df_filled)
```

#### Объяснение:

- Метод `fill_null("unknown")` заполняет отсутствующие значения в DataFrame строкой `"unknown"`.

## Сохранение DataFrame

Polars позволяет сохранять DataFrame в различных форматах, включая CSV.

```python
# Сохранение DataFrame в CSV-файл
df.write_csv("output.csv")
```

#### Объяснение:

- Используем метод `write_csv()`, чтобы сохранить DataFrame в CSV-файл. Необходимо указать имя выходного файла.




## 1. Более сложные операции с DataFrame

### 1.1. Комбинирование DataFrame

Одним из основных аспектов работы с данными является возможность их комбинирования. В Polars эта функциональность реализуется через операции объединения (join) и конкатенации. Объединение позволяет соединять два DataFrame на основе общих колонок, а конкатенация — объединять их по вертикали или горизонтали.

#### Объединение (join)

Объединение DataFrame осуществляется с использованием метода `join()`, который позволяет комбинировать данные на основе ключевых колонок. Полярные DataFrame поддерживают различные типы объединений, такие как `inner`, `outer`, `left`, и `right`. Эти типы определяют, как будет происходить слияние данных.

```python
import polars as pl

# Создаем два DataFrame для объединения
df1 = pl.DataFrame({
    "id": [1, 2, 3],
    "name": ["Alice", "Bob", "Charlie"]
})

df2 = pl.DataFrame({
    "id": [1, 2, 4],
    "age": [25, 30, 40]
})

# Объединяем DataFrame по колонке 'id'
joined_df = df1.join(df2, on="id", how="inner")
print(joined_df)
```

#### Объяснение кода:

- В данном примере мы создаем два DataFrame: `df1` с информацией о пользователях и `df2`, содержащий информацию о возрасте.
- Метод `join()` объединяет данные по колонке `id`, сохраняя только те строки, которые имеют совпадения в обоих DataFrame. В результате мы получаем новый DataFrame, который содержит только тех пользователей, для которых имеется информация о возрасте.

#### Конкатенация

Конкатенация представляет собой процесс объединения нескольких DataFrame путем добавления строк. Это позволяет эффективно комбинировать данные из различных источников.

```python
# Конкатенация двух DataFrame
df_concat = pl.concat([df1, df2], how="vertical")
print(df_concat)
```

#### Объяснение кода:

- Метод `pl.concat()` позволяет объединить несколько DataFrame в один. В данном случае мы используем параметр `how="vertical"`, что означает, что строки из обоих DataFrame будут добавлены вертикально. Это полезно, когда данные имеют схожую структуру и необходимо собрать их в единую таблицу.

### 1.2. Сортировка

Сортировка данных является ключевым этапом в анализе, позволяя пользователю организовать данные по определенному критерию. В Polars это можно сделать с помощью метода `sort()`, который упрощает упорядочение строк по одной или нескольким колонкам.

```python
# Сортировка по возрасту
sorted_df = df2.sort("age")
print(sorted_df)
```

#### Объяснение кода:

- Метод `sort()` сортирует DataFrame по указанной колонке. В данном примере мы сортируем `df2` по возрасту, что позволяет организовать пользователей в порядке возрастания их возраста.

## 2. Работа с временными данными

Временные данные представляют собой особый класс информации, который часто используется в аналитике. Polars предлагает мощные инструменты для работы с временными метками, позволяя пользователю эффективно обрабатывать, анализировать и визуализировать временные ряды.

### 2.1. Обработка временных меток

Одним из важных аспектов работы с временными данными является создание и манипуляция временными метками. Polars позволяет создавать временные диапазоны и манипулировать ими.

```python
# Создаем DataFrame с временными метками
date_data = pl.DataFrame({
    "date": pl.date_range(start="2024-01-01", end="2024-01-10", interval="1d"),
    "value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

print(date_data)
```

#### Объяснение кода:

- В данном примере мы создаем DataFrame, который содержит диапазон дат с 1 по 10 января 2024 года. Метод `pl.date_range()` позволяет легко генерировать временные метки с заданным интервалом. Параллельно мы создаем колонку `value`, которая содержит числовые значения, соответствующие каждой дате.

### 2.2. Извлечение компонентов даты

Извлечение различных компонентов временной метки, таких как год, месяц и день, может быть полезным при анализе данных.

```python
# Извлечение года и месяца из временных меток
date_data = date_data.with_columns([
    pl.col("date").dt.year().alias("year"),
    pl.col("date").dt.month().alias("month")
])

print(date_data)
```

#### Объяснение кода:

- Метод `dt.year()` позволяет извлекать год из временной метки, а `dt.month()` — месяц. Мы используем метод `with_columns()` для добавления новых колонок `year` и `month` к существующему DataFrame `date_data`.

## 3. Применение функций

Polars предоставляет возможность создавать пользовательские функции и применять их к DataFrame, что значительно расширяет функциональность анализа данных.

### 3.1. Функции-агрегаторы

Агрегация данных позволяет свести информацию к более компактным формам, что облегчает анализ. Polars поддерживает множество агрегирующих функций, таких как сумма, среднее и др.

```python
# Создаем DataFrame для агрегации
sales_data = pl.DataFrame({
    "product": ["A", "B", "A", "B"],
    "sales": [100, 150, 200, 250]
})

# Создаем агрегирующую функцию
agg_df = sales_data.groupby("product").agg(pl.col("sales").sum().alias("total_sales"))
print(agg_df)
```

#### Объяснение кода:

- В данном примере мы создаем DataFrame `sales_data`, который содержит информацию о продажах по продуктам.
- Метод `groupby()` используется для группировки данных по колонке `product`, после чего мы применяем метод `agg()` для вычисления суммы продаж по каждому продукту. Результат сохраняется в новый DataFrame `agg_df`.

### 3.2. Методы обработки строк

Работа с текстовыми данными является важной частью анализа данных, особенно когда нужно производить манипуляции со строками, такие как поиск и замена.

```python
# Создаем DataFrame с текстовыми данными
text_data = pl.DataFrame({
    "text": ["hello", "world", "hello world"]
})

# Замена подстроки
text_data = text_data.with_columns(pl.col("text").str.replace("hello", "hi").alias("new_text"))
print(text_data)
```

#### Объяснение кода:

- В данном примере мы используем метод `str.replace()`, чтобы заменить слово "hello" на "hi" в колонке `text`. Это показывает, как Polars может эффективно манипулировать текстовыми данными.

## 4. Визуализация данных

Визуализация данных — важный аспект анализа, позволяющий пользователю представлять информацию в наглядной форме. Polars можно интегрировать с библиотеками визуализации, такими как Matplotlib, для создания графиков и диаграмм.

```python
import matplotlib.pyplot as plt

# Смотрим на агрегированные данные по продажам
plt.bar(agg_df["product"].to_list(), agg_df["total_sales"].to_list())
plt.title("Total Sales by Product")
plt.xlabel("Product")
plt.ylabel("Total Sales")
plt.show()
```

#### Объяснение кода:

- В данном примере мы используем Matplotlib для создания столбчатого графика, отображающего общие продажи по продуктам. Метод `to_list()` преобразует Series в список для удобства визуализации.

## 5. Оптимизация производительности

### 5.1. Управление памятью

Polars оптимизирован для работы с большими наборами данных и эффективного использования памяти. Важно понимать, как управлять памятью при работе с большими DataFrame.

```python
# Создание большого DataFrame
large_df = pl.DataFrame({
    "numbers": pl.arange(0, 10**6)
})

print(large_df)
```

#### Объяснение кода:

- Метод `pl.arange()` позволяет создать DataFrame с миллионом строк. Это демонстрирует, как Polars справляется с большими объемами данных и управляет памятью эффективно.

### 5.2. Параллелизм

Polars автоматически использует многопоточность для ускорения операций над DataFrame, что является одним из ключевых факторов его высокой производительности.

```python
# Пример параллельной обработки
result = large_df.with_columns((pl.col("numbers") * 2).alias("doubled"))
print(result)
```

#### Объяснение кода:

- В данном примере Polars автоматически распределяет вычисления между несколькими потоками для ускорения операций, таких как умножение значений в колонке `numbers`.


 Таким образом, Polars DataFrame предлагает мощные возможности для работы с табличными данными, включая создание, изменение, фильтрацию, группировку и агрегацию данных. Его высокая производительность делает Polars отличным выбором для анализа больших наборов данных. В этом руководстве мы рассмотрели основные функции и возможности Polars, что позволит вам эффективно использовать эту библиотеку в своих проектах.



#Вопросы для самопроверки

###Polars Series

1. **Что такое Polars Series и в чем его основная функция?**

2. **Как создать новую Series из списка? Приведите пример кода.**

3. **Как получить доступ к элементам Series по индексу?**

4. **Какие методы можно использовать для фильтрации элементов в Series?**

5. **Как выполнить агрегацию данных (например, найти сумму или среднее значение) в Series?**

6. **Как обрабатывать пропущенные значения в Series? Назовите методы.**

7. **Что такое типы данных в Polars, и как их можно менять в Series?**

8. **Как объединить две Series в одну? Приведите пример.**

9. **Какие методы доступны для преобразования данных в Series (например, преобразование типов или применение функций)?**

10. **Как получить статистическую информацию о Series, такую как минимальное и максимальное значение?**

11. **Как можно создать Series с временными данными? Какие функции для этого используются?**

12. **Что такое метод `.len()` и как он используется в контексте Series?**

13. **Как можно визуализировать данные из Series с помощью библиотеки Matplotlib? Приведите пример.**

14. **Что такое срезы в Series и как их использовать?**

15. **Как сравнивать две Series и получать результат в виде новой Series, содержащей логические значения (True/False)?**

## Polars DataFrame

1. **Как создать DataFrame из словаря в Polars?**  
   (Пример: создайте DataFrame с именами, возрастами и городами людей.)

2. **Какие методы в Polars можно использовать для просмотра первых и последних строк DataFrame?**  
   (Пример: как посмотреть первые 3 строки и последние 2 строки DataFrame?)

3. **Как выбрать один или несколько столбцов из DataFrame?**  
   (Пример: как выбрать только столбцы "name" и "age" из DataFrame?)

4. **Как отфильтровать строки DataFrame по условию?**  
   (Пример: как выбрать только те строки, где возраст больше 30 лет?)

5. **Какие методы существуют для работы с отсутствующими значениями в Polars?**  
   (Пример: как удалить строки с отсутствующими значениями?)

6. **Как можно изменить значения в колонке DataFrame?**  
   (Пример: как увеличить все значения в колонке "age" на 5?)

7. **Какие виды объединений (join) поддерживает Polars?**  
   (Пример: как объединить два DataFrame по общему столбцу "id" с типом объединения "inner"?)

8. **Какие методы в Polars можно использовать для группировки данных и выполнения агрегирующих операций?**  
   (Пример: как посчитать средний возраст для каждой группы по городу?)

9. **Как добавить новую колонку в DataFrame на основе существующей?**  
   (Пример: как добавить колонку, которая будет содержать длину строк в колонке "name"?)

10. **Как отсортировать строки в DataFrame по значению в колонке?**  
    (Пример: как отсортировать DataFrame по возрастанию значения в колонке "age"?)

11. **Какие типы данных поддерживаются Polars при создании DataFrame?**  
    (Пример: можно ли смешивать типы данных в одном DataFrame?)

12. **Как создать и работать с временными метками в Polars?**  
    (Пример: как создать колонку с датами от 1 января 2023 года до 10 января 2023 года?)

13. **Как извлечь год, месяц и день из временной метки в Polars?**  
    (Пример: как добавить отдельные колонки с годом и месяцем из колонки с датами?)

14. **Какие способы сохранения данных из DataFrame предоставляет Polars?**  
    (Пример: как сохранить DataFrame в CSV-файл?)

15. **Какие преимущества имеет Polars по сравнению с pandas при работе с большими объемами данных?**  
    (Пример: в чем состоит различие в архитектуре и производительности между Polars и pandas?)


#Задачи для самостоятеьной работы



### Задачи на создание Series

1. **Создание Series из списка целых чисел**: Создайте `Series`, содержащую числа от 1 до 10. Выведите его на экран.

2. **Создание Series из списка строк**: Создайте `Series`, содержащую названия пяти цветов. Выведите результат.

3. **Создание Series из массива NumPy**: Импортируйте NumPy и создайте `Series` из массива, содержащего десять случайных чисел.

4. **Создание Series с логическими значениями**: Создайте `Series`, содержащую чередующиеся логические значения `True` и `False` на десять элементов.

5. **Создание Series с пропущенными значениями**: Создайте `Series`, содержащую три целых числа и два пропущенных значения (`None`). Заполните пропуски нулями.

### Задачи на доступ и фильтрацию

6. **Доступ к элементам по индексу**: Создайте `Series` с числами от 5 до 15 и выведите третий элемент.

7. **Срез Series**: Создайте `Series` с числами от 1 до 20 и получите срез из первых десяти элементов.

8. **Фильтрация Series**: Создайте `Series` с числами от 1 до 30 и выберите только четные числа.

9. **Фильтрация строк**: Создайте `Series` из строк и отфильтруйте те, которые содержат больше трех символов.

10. **Доступ по маске**: Создайте `Series` с целыми числами от 1 до 100 и создайте маску для значений, которые больше 50.

### Задачи на преобразование данных

11. **Преобразование типа данных**: Создайте `Series` с целыми числами и преобразуйте его в `Float32`.

12. **Применение функции**: Создайте `Series` с числами и примените функцию для вычисления квадратов этих чисел.

13. **Агрегация данных**: Создайте `Series` с десятью случайными целыми числами и вычислите их сумму и среднее значение.

14. **Применение нескольких функций**: Создайте `Series` с числами и примените функции для нахождения минимума, максимума и медианы.

15. **Обработка пропущенных значений**: Создайте `Series` с пропущенными значениями и используйте метод `fill_null`, чтобы заполнить их средним значением.

### Задачи на временные ряды

16. **Создание временной Series**: Создайте `Series`, содержащую даты с 1 по 10 января 2023 года.

17. **Ресемплинг временных рядов**: Создайте временной ряд с дневными значениями и выполните ресемплинг на уровне недели, вычисляя сумму.

18. **Выбор временных данных**: Создайте `Series` с датами и значениями, затем выберите все значения за определенный период.

19. **Преобразование даты**: Создайте `Series` с временными метками и преобразуйте их в формат только даты.

20. **Сравнение дат**: Создайте `Series` с датами и выберите те, которые находятся после определенной даты.

### Задачи на интеграцию и визуализацию

21. **Запись и чтение CSV**: Создайте `Series`, содержащую числа, и запишите ее в CSV файл. Затем загрузите данные обратно и выведите их.

22. **Визуализация данных**: Создайте `Series` с произвольными значениями и постройте график с использованием Matplotlib.

23. **Визуализация временных рядов**: Создайте временную `Series` и постройте график, отображающий изменения значений во времени.

24. **Параллельные вычисления**: Создайте `Series` с 10 миллионами случайных чисел и вычислите их среднее значение, чтобы увидеть, как Polars справляется с большими объемами данных.

25. **Сравнение с Pandas**: Создайте аналогичный `Series` в Pandas и сравните время выполнения агрегации с Polars.

### Задачи на текстовые данные и сравнения

26. **Обработка строк**: Создайте `Series` с названиями фруктов и преобразуйте их в нижний регистр.

27. **Фильтрация строк**: Создайте `Series` с названиями стран и отфильтруйте те, которые начинаются с буквы "A".

28. **Подсчет длины строк**: Создайте `Series` с разными строками и создайте новую `Series`, содержащую длины этих строк.

29. **Поиск подстроки**: Создайте `Series` с текстами и отфильтруйте те, которые содержат определенную подстроку.

30. **Сравнение текстов**: Создайте две `Series` со строками и сравните их на равенство, создавая маску с результатами.



### Основы работы с PolarsDataFrame

1. **Создание DataFrame из словаря**:
   - Создайте DataFrame, содержащий данные о трех студентах (имя, возраст, оценка).

2. **Создание DataFrame из CSV-файла**:
   - Скачайте и загрузите CSV-файл с данными о продаже автомобилей. Выведите первые 5 строк.

3. **Просмотр данных**:
   - Используйте методы `head()` и `tail()` для просмотра первых и последних 3 строк DataFrame, созданного в задаче 1.

4. **Выбор столбцов**:
   - Извлеките и выведите только столбцы с именами студентов и их оценками из DataFrame.

5. **Фильтрация данных**:
   - Отфильтруйте DataFrame, чтобы получить только тех студентов, чей возраст больше 20 лет.

### Преобразования данных

6. **Изменение данных**:
   - Создайте новый DataFrame, увеличив оценки всех студентов на 5 баллов.

7. **Добавление новых колонок**:
   - Добавьте колонку, которая будет содержать статус студента (например, "проходит", "не проходит"), основанный на оценке.

8. **Группировка и агрегация**:
   - Сгруппируйте данные по статусу и посчитайте количество студентов в каждой группе.

9. **Сортировка**:
   - Отсортируйте DataFrame по возрасту студентов в порядке возрастания.

10. **Работа с отсутствующими данными**:
    - Создайте DataFrame с отсутствующими значениями в нескольких колонках и проверьте, сколько отсутствующих значений в каждом столбце.

### Работа с временными данными

11. **Создание временных меток**:
    - Создайте DataFrame с временными метками, представляющими даты с 1 по 10 октября 2023 года, и добавьте случайные значения для каждой даты.

12. **Извлечение компонентов даты**:
    - Извлеките год и месяц из временной метки и добавьте эти значения в новый DataFrame.

13. **Фильтрация по дате**:
    - Отфильтруйте DataFrame, чтобы получить только записи с октября 2023 года.

### Применение функций и агрегация

14. **Создание и применение пользовательской функции**:
    - Напишите функцию, которая принимает оценку и возвращает категорию (например, "низкая", "средняя", "высокая"), и примените её к DataFrame.

15. **Агрегация с использованием нескольких функций**:
    - Группируйте данные по статусу и посчитайте среднюю и максимальную оценку для каждой группы.

16. **Обработка строк**:
    - Создайте DataFrame с текстовыми данными и выполните замену подстроки (например, замените "не проходит" на "не сдал").

### Визуализация данных

17. **Построение графиков**:
    - Постройте столбчатый график, показывающий количество студентов по статусу.

18. **Сохранение графика**:
    - Сохраните созданный график в файл формата PNG.

### Оптимизация и производительность

19. **Создание большого DataFrame**:
    - Создайте DataFrame с 1 миллионом строк, содержащим случайные числа и текст.

20. **Проверка использования памяти**:
    - Оцените, сколько памяти занимает ваш DataFrame с 1 миллионом строк.

21. **Параллелизм**:
    - Создайте новую колонку, содержащую квадраты значений из другой колонки, и проверьте время выполнения с параллелизмом и без.

### Сложные операции с DataFrame

22. **Объединение DataFrame**:
    - Создайте два DataFrame и выполните объединение по общему столбцу (например, идентификатору).

23. **Конкатенация DataFrame**:
    - Создайте два DataFrame и выполните вертикальную конкатенацию.

24. **Сохранение DataFrame**:
    - Сохраните ваш DataFrame в формате Parquet.

### Продвинутые операции

25. **Пользовательские агрегации**:
    - Реализуйте свою функцию агрегации, которая считает медиану и стандартное отклонение для группы данных.

26. **Работа с временными рядами**:
    - Постройте график временного ряда на основе созданного вами DataFrame с временными метками.

27. **Сравнение производительности**:
    - Сравните время выполнения нескольких операций (например, фильтрация, группировка) на маленьком и большом DataFrame.

28. **Работа с несколькими DataFrame**:
    - Создайте несколько DataFrame и выполните несколько объединений и конкатенаций, чтобы создать единый DataFrame.

29. **Чтение и запись JSON**:
    - Сохраните DataFrame в формате JSON и затем загрузите его обратно в новый DataFrame.

30. **Экспорт в Excel**:
    - Экспортируйте DataFrame в файл формата Excel и проверьте корректность сохранения данных.


