# Pandas

### Создание DataFrame

1. **Из словаря Python (dictionary):**

   Это один из самых наглядных способов создания DataFrame, особенно если ваши данные уже представлены в виде словаря Python.  Ключи словаря будут использованы в качестве названий столбцов, а значения (списки или массивы NumPy) станут данными для соответствующих столбцов.

   **Важно:**  Все списки или массивы, выступающие в качестве значений словаря, должны иметь одинаковую длину.  Если в качестве значения указан скаляр, он будет автоматически "размножен" (повторен) до необходимой длины, чтобы заполнить весь столбец.

In [417]:
import pandas as pd # Импортируем библиотеку pandas и присваиваем ей псевдоним pd для краткости
import numpy as np

data = {
    'Имя': ['Анна', 'Борис', 'Виктор', 'Григорий'],
    'Возраст': [25, 30, 28, 35],                    
    'Город': ['Москва', 'Петербург', 'Казань', 'Москва']
}

# Создаем DataFrame pandas под названием 'df' из словаря 'data'
df = pd.DataFrame(data)

print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва


2. **Из списка списков Python:**

In [418]:
# Каждый внутренний список представляет собой строку данных для DataFrame.
data_list = [
    ['Елена', 22, 'Самара'],
    ['Иван', 31, 'Владивосток'],
    ['Мария', 27, 'Екатеринбург']
]

# Создаем список 'columns' с названиями столбцов для DataFrame.
# Количество названий столбцов должно соответствовать количеству элементов во внутренних списках 'data_list'.
columns = ['Имя', 'Возраст', 'Город']

# Используем параметр 'columns' для задания названий столбцов.
df_list = pd.DataFrame(data_list, columns=columns)

df_list

Unnamed: 0,Имя,Возраст,Город
0,Елена,22,Самара
1,Иван,31,Владивосток
2,Мария,27,Екатеринбург


3. **Из массива NumPy:**

In [419]:
numpy_array_data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
column_names = ['Столбец 1', 'Столбец 2', 'Столбец 3']

df_numpy = pd.DataFrame(numpy_array_data, columns=column_names)

df_numpy

Unnamed: 0,Столбец 1,Столбец 2,Столбец 3
0,1,2,3
1,4,5,6
2,7,8,9


___

### Операции с DataFrame

1. **Просмотр начала и конца DataFrame:**

   Для быстрого ознакомления с содержимым DataFrame и понимания структуры данных, pandas предоставляет удобные методы для просмотра первых и последних строк таблицы.

   * **`.head(n)`: Просмотр первых строк.**  Этот метод отображает первые `n` строк DataFrame. Если значение `n` не указано, по умолчанию отображается 5 первых строк.

   * **`.tail(n)`: Просмотр последних строк.**  Метод `.tail(n)` аналогичен `.head()`, но отображает последние `n` строк DataFrame.  Также, как и в `.head()`, если `n` не указано, отображается 5 последних строк.  

In [420]:
print("Первые 5 строк (head()):")
display(df.head()) # По умолчанию первые 5 строк

print("\nПервые 3 строки (head(3)):")
display(df.head(3)) # Первые 3 строки

print("\nПоследние 5 строк (tail()):")
display(df.tail()) # По умолчанию последние 5 строк

print("\nПоследние 2 строки (tail(2)):")
display(df.tail(2)) # Последние 2 строки

Первые 5 строк (head()):


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва



Первые 3 строки (head(3)):


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань



Последние 5 строк (tail()):


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва



Последние 2 строки (tail(2)):


Unnamed: 0,Имя,Возраст,Город
2,Виктор,28,Казань
3,Григорий,35,Москва


2. **Получение общей информации о DataFrame:**

   Метод `.info()` является одним из ключевых инструментов для первичного анализа DataFrame. Он предоставляет сводную информацию о структуре и содержимом таблицы, что помогает быстро оценить общие характеристики данных и выявить потенциальные проблемы.

   * **`.info()`: Вывод сводной информации о DataFrame.** При вызове метода `.info()` для DataFrame, вы получаете следующую важную информацию:

     * **Общая информация о DataFrame:**
         * **Количество строк и столбцов:**  Показывает размерность DataFrame, что позволяет понять объем данных.
     * **Информация о столбцах:**
         * **Названия столбцов (Column names):**  Список всех названий столбцов в DataFrame.
         * **Типы данных столбцов (Data types - dtype):**  Указывает тип данных, хранящихся в каждом столбце (например, `int64`, `float64`, `object`, `datetime64[ns]` и т.д.).
         * **Количество непустых значений (Non-Null Count):**  Для каждого столбца отображается количество не-пустых значений.
     * **Использование памяти (Memory Usage):**
         * **Объем памяти, занимаемый DataFrame:**  Показывает, сколько оперативной памяти использует DataFrame.  

In [421]:
print('Информация о DataFrame (info()):\n')
df.info()

Информация о DataFrame (info()):

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      4 non-null      object
 1   Возраст  4 non-null      int64 
 2   Город    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes


3. **Получение описательной статистики:**

   Метод `.describe()` является мощным инструментом для получения сводной описательной статистики о DataFrame. По умолчанию, `.describe()` применяется к **числовым столбцам** и выводит основные статистические показатели, которые помогают понять распределение и диапазон значений в данных.

   * **`.describe()`: Вывод описательных статистик.** При вызове метода `.describe()` без дополнительных параметров, вы получите следующие статистики для каждого числового столбца:

     * **`count` (Количество):**  Количество непустых (не-NaN) значений в столбце. Показывает, сколько наблюдений есть в данных для данного столбца.
     * **`mean` (Среднее значение):**  Среднее арифметическое значение столбца. Характеризует "центр" распределения данных.
     * **`std` (Стандартное отклонение):**  Стандартное отклонение значений в столбце.  Мера разброса данных относительно среднего значения.
     * **`min` (Минимум):**  Минимальное значение в столбце.
     * **`25%` (25-й процентиль, или первый квартиль):**  Значение, ниже которого находится 25% данных.
     * **`50%` (50-й процентиль, или медиана, второй квартиль):**  Значение, разделяющее данные пополам.  Медиана менее чувствительна к выбросам, чем среднее значение.
     * **`75%` (75-й процентиль, или третий квартиль):**  Значение, ниже которого находится 75% данных.
     * **`max` (Максимум):**  Максимальное значение в столбце.

   **Расширенное использование с `include='all'`:**

   Если вызвать `.describe(include='all')`, метод `.describe()` будет применен ко **всем столбцам DataFrame**, включая нечисловые (например, столбцы с типом данных `object` для строк или `category` для категориальных данных).  Для нечисловых столбцов набор выводимых статистик будет другим и включать, например:

     * **`unique` (Уникальные значения):**  Количество уникальных значений в столбце.
     * **`top` (Самое частое значение):**  Наиболее часто встречающееся значение в столбце.
     * **`freq` (Частота самого частого значения):**  Частота, с которой встречается самое частое значение.

In [422]:
print("\nОписательные статистики (describe()):")
display(df.describe()) # Статистики только для числового столбца 'Возраст'

print("\nОписательные статистики для всех столбцов (describe(include='all')):")
display(df.describe(include='all')) # Статистики для всех столбцов


Описательные статистики (describe()):


Unnamed: 0,Возраст
count,4.0
mean,29.5
std,4.203173
min,25.0
25%,27.25
50%,29.0
75%,31.25
max,35.0



Описательные статистики для всех столбцов (describe(include='all')):


Unnamed: 0,Имя,Возраст,Город
count,4,4.0,4
unique,4,,3
top,Анна,,Москва
freq,1,,2
mean,,29.5,
std,,4.203173,
min,,25.0,
25%,,27.25,
50%,,29.0,
75%,,31.25,


---

### Выбор столбцов и строк

1. **Выбор столбцов:**

   DataFrame предоставляет различные способы для выбора одного или нескольких столбцов.  Самый простой способ выбрать один столбец - это использовать его имя.

   * **Выбор одного столбца по имени:**  Для выбора одного столбца из DataFrame, используйте имя столбца, заключенное в квадратные скобки `[]`, после имени DataFrame.  Этот способ аналогичен доступу к значению в словаре Python по ключу.

     **Результатом операции выбора одного столбца является объект Pandas Series.**  Pandas Series представляет собой одномерный помеченный массив данных.  По сути, это столбец из DataFrame.

In [423]:
column_name = df['Имя'] # Выбираем столбец 'Имя'
column_age = df['Возраст'] # Выбираем столбец 'Возраст'

print("Столбец 'Имя':")
display(column_name)
print(type(column_name)) # Проверяем тип - это Pandas Series

print("\nСтолбец 'Возраст':")
display(column_age)

Столбец 'Имя':


0        Анна
1       Борис
2      Виктор
3    Григорий
Name: Имя, dtype: object

<class 'pandas.core.series.Series'>

Столбец 'Возраст':


0    25
1    30
2    28
3    35
Name: Возраст, dtype: int64

2. **Выбор нескольких столбцов:**

   Для выбора **нескольких** столбцов из DataFrame одновременно, потребуется передать **список** с именами нужных столбцов в квадратных скобках `[]` после имени DataFrame.

   **Результатом этой операции будет создан новый DataFrame**, который будет содержать только те столбцы, имена которых были указаны в списке.  Исходный DataFrame при этом остается неизменным.

In [424]:
selected_columns_df = df[['Имя', 'Город']]

print("\nDataFrame с выбранными столбцами ('Имя', 'Город'):")
display(selected_columns_df)
print(type(selected_columns_df)) # Проверяем тип - это DataFrame


DataFrame с выбранными столбцами ('Имя', 'Город'):


Unnamed: 0,Имя,Город
0,Анна,Москва
1,Борис,Петербург
2,Виктор,Казань
3,Григорий,Москва


<class 'pandas.core.frame.DataFrame'>


3. **Выбор строк:**

   Выбор строк в DataFrame отличается от выбора столбцов и осуществляется преимущественно с использованием **индексации**.  Основными методами для выбора строк являются индексация по **индексу** (метке строки) или **логическая индексация** (фильтрация строк на основе условий).

   * **Выбор строк по индексу (`.loc[]` и `.iloc[]`):**

     Pandas предоставляет два основных метода для выбора строк по индексу, отличающихся способом указания индекса:

     * **`.loc[]` (индексация по метке, label-based indexing):**  Метод `.loc[]` используется для выбора строк на основе **метки индекса** (label).  Метка индекса - это значение, которое идентифицирует каждую строку DataFrame.  По умолчанию, метками индекса являются целые числа, начинающиеся с 0, но индекс DataFrame может быть изменен на другие значения (например, строки, даты и т.д.).  При использовании `.loc[]` вы обращаетесь к строкам, используя именно эти метки.

     * **`.iloc[]` (индексация по целочисленной позиции, integer-location based indexing):** Метод `.iloc[]` используется для выбора строк на основе их **целочисленной позиции** (integer location).  В отличие от `.loc[]`, `.iloc[]` всегда использует **порядковый номер строки**, начиная с 0 для первой строки, 1 для второй и так далее, независимо от фактических меток индекса.  `.iloc[]` работает аналогично индексации в списках и массивах Python по числовому индексу.

In [425]:
row_index_2_loc = df.loc[2] # Выбираем строку с индексом 2
row_index_1_iloc = df.iloc[1] # Выбираем строку на позиции 1

display(df)

print("\nСтрока с индексом 2 (loc[2]):")
display(row_index_2_loc)
print(type(row_index_2_loc)) # Pandas Series (строка DataFrame - это тоже Series)

print("\nСтрока на позиции 1 (iloc[1]):")
display(row_index_1_iloc)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва



Строка с индексом 2 (loc[2]):


Имя        Виктор
Возраст        28
Город      Казань
Name: 2, dtype: object

<class 'pandas.core.series.Series'>

Строка на позиции 1 (iloc[1]):


Имя            Борис
Возраст           30
Город      Петербург
Name: 1, dtype: object

4. **Выбор нескольких строк по срезу индекса:**

   Для выбора диапазона строк (среза строк) из DataFrame, вы можете использовать **срезы индексов** с методами `.loc[]` и `.iloc[]`.  Срезы позволяют выбрать последовательность строк, основываясь на их метках индекса (для `.loc[]`) или целочисленных позициях (для `.iloc[]`).

   * **Срезы с `.loc[]` (label-based slicing):**  При использовании `.loc[]` для срезов, вы указываете **метки начального и конечного индекса среза**.  Важно отметить, что при использовании `.loc[]` **конечная метка индекса включается в срез**.  Срез с `.loc[]` вернет все строки, метки индекса которых находятся в диапазоне от начальной до конечной (включительно).

   * **Срезы с `.iloc[]` (integer-location based slicing):**  При использовании `.iloc[]` для срезов, вы указываете **целочисленные позиции начального и конечного индекса среза**.  В отличие от `.loc[]`, при использовании `.iloc[]` **конечная позиция индекса не включается в срез**.  Срез с `.iloc[]` вернет строки, чьи целочисленные позиции находятся в диапазоне от начальной до конечной (не включая конечную).  Это поведение аналогично стандартным срезам в Python для списков и строк.

In [426]:
rows_indices_1_to_3_loc = df.loc[1:3] # Срез строк с индексами от 1 до 3 (включительно! для .loc!)
rows_positions_0_to_2_iloc = df.iloc[0:3] # Срез строк с позициями от 0 до 2 (не включая 3! для .iloc!)

print("\nСтроки с индексами 1:3 (loc[1:3]):")
display(rows_indices_1_to_3_loc) # Обрати внимание, что строка с индексом 3 ВКЛЮЧЕНА

print("\nСтроки с позициями 0:2 (iloc[0:3]):")
display(rows_positions_0_to_2_iloc) # Обрати внимание, что строка на позиции 3 НЕ ВКЛЮЧЕНА


Строки с индексами 1:3 (loc[1:3]):


Unnamed: 0,Имя,Возраст,Город
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва



Строки с позициями 0:2 (iloc[0:3]):


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань


___

### Фильтрация данных

Основным и мощным механизмом фильтрации данных в Pandas является **логическая индексация** (или **булева индексация**, boolean indexing).  Этот метод позволяет отбирать строки DataFrame, соответствующие определенным условиям, на основе создания так называемой "булевой маски".

**Принцип работы логической индексации:**

1. **Создание "булевой маски" (boolean mask):**
   На первом шаге формируется **булева маска** – объект Pandas Series (или NumPy массив) той же длины, что и количество строк в DataFrame.  Каждый элемент этой Series представляет собой булево значение: `True` или `False`. Значение `True` в маске указывает на то, что соответствующая строка в DataFrame удовлетворяет заданному условию, а `False` – не удовлетворяет.

2. **Использование булевой маски для индексации DataFrame:**
   На втором шаге, созданная булева маска используется для индексации DataFrame.  Маска передается в квадратных скобках `[]` после имени DataFrame. В результате Pandas возвращает **новый DataFrame**, содержащий только те строки, для которых в булевой маске установлено значение `True`.  Строки, которым соответствуют значения `False` в маске, исключаются из результирующего DataFrame.

**Как создать булеву маску?**

Булевы маски, как правило, создаются путем применения **операторов сравнения** и **логических операторов** к столбцам DataFrame.  Результатом таких операций является Pandas Series булевых значений, которая и служит булевой маской.

**Операторы сравнения (comparison operators):**

* `>`  (больше)
* `<`  (меньше)
* `>=` (больше или равно)
* `<=` (меньше или равно)
* `==` (равно)
* `!=` (не равно)

**Логические операторы (logical operators):**

* `&`  (логическое "И" - **AND**) - для объединения нескольких условий, которые должны выполняться **одновременно**.
* `|`  (логическое "ИЛИ" - **OR**)  - для объединения нескольких условий, когда достаточно выполнения **хотя бы одного** из них.
* `~`  (логическое "НЕ" - **NOT**, инверсия) - для **инвертирования** булевой маски, то есть замены `True` на `False` и наоборот.

In [427]:
df = pd.DataFrame(data)

1. **Фильтрация по возрасту:**

   Рассмотрим пример фильтрации DataFrame по значениям столбца 'Возраст'.  Наша задача - отобрать из DataFrame только те строки, в которых значение в столбце 'Возраст' превышает 30 лет.  Для этого мы создадим булеву маску, основанную на условии `df['Возраст'] > 30`, и применим ее для фильтрации DataFrame.

In [428]:
age_filter = df['Возраст'] > 30 # Создаем булеву маску: True для строк, где 'Возраст' > 30, False - иначе
filtered_df_age = df[age_filter] # Применяем маску к DataFrame, получаем отфильтрованный DataFrame

print("Отфильтрованный DataFrame (возраст > 30):\n")
display(filtered_df_age)
print(type(age_filter)) # Проверяем тип age_filter - это Pandas Series (булева маска)

Отфильтрованный DataFrame (возраст > 30):



Unnamed: 0,Имя,Возраст,Город
3,Григорий,35,Москва


<class 'pandas.core.series.Series'>


2. **Фильтрация по городу:**

   Рассмотрим другой пример фильтрации, на этот раз по текстовому столбцу 'Город'.  Предположим, мы хотим выбрать из DataFrame только строки, соответствующие жителям Москвы.  Для этого мы создадим булеву маску, проверяющую равенство значения в столбце 'Город' строке 'Москва', и применим эту маску для фильтрации.

In [429]:
city_filter = df['Город'] == 'Москва' # Булева маска: True для 'Город' == 'Москва'
filtered_df_city = df[city_filter] # Фильтруем DataFrame

print("Отфильтрованный DataFrame (город == 'Москва'):\n")
display(filtered_df_city)

Отфильтрованный DataFrame (город == 'Москва'):



Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
3,Григорий,35,Москва


3. **Фильтрация по двум условиям (логическое "И"):**

   В более сложных сценариях анализа данных часто возникает необходимость фильтровать DataFrame по **нескольким условиям одновременно**.  Например, мы можем захотеть отобрать строки, которые удовлетворяют **и одному, и другому условию**.  Для объединения нескольких условий фильтрации в Pandas используется **логический оператор "И" (`&`)**.

   **Важно!** При использовании логических операторов (`&`, `|`, `~`) для объединения условий фильтрации, **каждое отдельное условие необходимо заключать в круглые скобки `()`**.  Это связано с приоритетом операций в Python и необходимо для корректной работы логической индексации.

In [430]:
complex_filter = (df['Возраст'] > 30) & (df['Город'] == 'Москва') # Комбинируем два условия с помощью &
filtered_df_complex = df[complex_filter] # Фильтруем DataFrame

print("Отфильтрованный DataFrame (возраст > 30 И город == 'Москва'):\n")
display(filtered_df_complex)

Отфильтрованный DataFrame (возраст > 30 И город == 'Москва'):



Unnamed: 0,Имя,Возраст,Город
3,Григорий,35,Москва


4. **Фильтрация по условию "ИЛИ" (возраст < 25 ИЛИ город == 'Петербург'):**

   В дополнение к логическому "И", для фильтрации данных часто требуется использовать **логическое "ИЛИ" (`|`)**.  Оператор "ИЛИ" позволяет отобрать строки DataFrame, которые удовлетворяют **хотя бы одному из нескольких заданных условий**.  В данном примере мы рассмотрим фильтрацию строк, где значение столбца 'Возраст' **меньше 25 лет ИЛИ** значение столбца 'Город' равно 'Петербург'.

   Как и в случае с оператором "И", при использовании логического "ИЛИ" (`|`), **каждое отдельное условие также необходимо заключать в круглые скобки `()`** для обеспечения корректной интерпретации и выполнения фильтрации.

In [431]:
complex_filter_or = (df['Возраст'] < 25) | (df['Город'] == 'Петербург') # Комбинируем условия с помощью |
filtered_df_complex_or = df[complex_filter_or] # Фильтруем DataFrame

print("\nОтфильтрованный DataFrame (возраст < 25 ИЛИ город == 'Петербург'):\n")
display(filtered_df_complex_or)


Отфильтрованный DataFrame (возраст < 25 ИЛИ город == 'Петербург'):



Unnamed: 0,Имя,Возраст,Город
1,Борис,30,Петербург


5. **Фильтрация с отрицанием (НЕ город == 'Казань'):**

   В Pandas также доступна операция **отрицания**, которая позволяет инвертировать логическое условие.  Для реализации отрицания в логической индексации используется **логический оператор "НЕ" (`~`)**.  Этот оператор позволяет выбрать строки DataFrame, **НЕ** соответствующие заданному условию.  В данном примере мы отфильтруем DataFrame, исключив из него все строки, где значение столбца 'Город' равно 'Казань'.

   Оператор отрицания `~` применяется **перед** условием, которое нужно инвертировать.  Как и в случаях с операторами "И" и "ИЛИ", если условие, к которому применяется отрицание, является сложным (состоит из нескольких частей), его **также рекомендуется заключать в круглые скобки `()`** для явного указания приоритета операций и избежания ошибок.

In [432]:
not_kazan_filter = ~(df['Город'] == 'Казань') # Инвертируем условие "город == 'Казань'"
filtered_df_not_kazan = df[not_kazan_filter] # Фильтруем DataFrame

print("\nОтфильтрованный DataFrame (НЕ город == 'Казань'):")
display(filtered_df_not_kazan)


Отфильтрованный DataFrame (НЕ город == 'Казань'):


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
3,Григорий,35,Москва


Метод `.isin()`

Метод `.isin(values)` в Pandas является удобным и эффективным инструментом для фильтрации данных по **принадлежности к набору значений**.  Этот метод применяется к объекту Pandas Series (то есть, к столбцу DataFrame) и принимает в качестве аргумента список (или любой другой итерируемый объект, например, кортеж или множество) значений.

**Принцип работы `.isin()`:**

Метод `.isin(values)` проверяет **для каждого элемента** в Series, содержится ли это значение в переданном списке `values`.  В результате, он возвращает **булеву Series** той же длины, что и исходная Series.  В возвращенной Series значение `True` будет стоять на тех позициях, где значение в исходной Series **найдено в списке `values`**, и `False` – в противном случае.

**Преимущества использования `.isin()` для фильтрации:**

Метод `.isin()` особенно полезен, когда необходимо выполнить фильтрацию по **нескольким значениям одновременно**, что часто встречается на практике.  Использование `.isin()` делает код более **читабельным, лаконичным и эффективным**, по сравнению с использованием множественных условий, объединенных логическим оператором "ИЛИ" (`|`).

**Пример:**

```python
city_filter_isin = df['Город'].isin(['Москва', 'Казань'])
```

___

### Добавление новых столбцов

1. **Добавление нового столбца на основе существующих данных:**

   DataFrame в Pandas является изменяемой структурой данных, что означает, что вы можете легко добавлять новые столбцы к существующему DataFrame после его создания.  Добавление новых столбцов часто необходимо для расширения набора данных, вычисления новых признаков на основе имеющихся данных или для проведения дальнейшего анализа.

   Существует несколько способов добавить новый столбец в DataFrame.  Один из наиболее распространенных и интуитивно понятных методов - это **присваивание нового столбца по имени**, аналогично тому, как добавляются новые ключи в словарь Python.

In [433]:
print('Исхродный DataFrame:')
display(df)

df['Приветствие'] = 'Привет, ' + df['Имя'] + ' ! Добро пожаловать в ' + df['Город'] + '!'

print('\nDataFrame с новым столбцом "Приветствие":')
display(df)

Исхродный DataFrame:


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва



DataFrame с новым столбцом "Приветствие":


Unnamed: 0,Имя,Возраст,Город,Приветствие
0,Анна,25,Москва,"Привет, Анна ! Добро пожаловать в Москва!"
1,Борис,30,Петербург,"Привет, Борис ! Добро пожаловать в Петербург!"
2,Виктор,28,Казань,"Привет, Виктор ! Добро пожаловать в Казань!"
3,Григорий,35,Москва,"Привет, Григорий ! Добро пожаловать в Москва!"


2. **Добавление столбца с константным значением:**

   В Pandas DataFrame можно легко добавить новый столбец, заполнив его **одним и тем же константным значением** для всех строк.  Этот способ полезен, когда необходимо добавить в DataFrame столбец-флаг, столбец по умолчанию или столбец-категорию, значение которого не зависит от других столбцов и является одинаковым для всех записей на начальном этапе.

   Для добавления столбца с константным значением, вы также используете **присваивание по имени столбца**, как и в предыдущем примере.  Однако, в качестве значения, которое присваивается новому столбцу, вы указываете **непосредственно константу**.  Pandas автоматически "размножит" это константное значение на количество строк в DataFrame и заполнит им весь новый столбец.

In [434]:
df['Страна'] = 'Россия'
print('Dataframe с новым столбцом "Страна"')
display(df)

Dataframe с новым столбцом "Страна"


Unnamed: 0,Имя,Возраст,Город,Приветствие,Страна
0,Анна,25,Москва,"Привет, Анна ! Добро пожаловать в Москва!",Россия
1,Борис,30,Петербург,"Привет, Борис ! Добро пожаловать в Петербург!",Россия
2,Виктор,28,Казань,"Привет, Виктор ! Добро пожаловать в Казань!",Россия
3,Григорий,35,Москва,"Привет, Григорий ! Добро пожаловать в Москва!",Россия


3. **Использование `.assign()` для добавления столбцов:**

   Метод `.assign()` в Pandas предоставляет **альтернативный и часто более удобный способ добавления новых столбцов** в DataFrame.  В отличие от прямого присваивания, `.assign()` **не изменяет исходный DataFrame напрямую**. Вместо этого, он **возвращает новый DataFrame** с добавленными или измененными столбцами.  Исходный DataFrame при этом остается нетронутым.  Такой подход делает код более **читабельным и предотвращает побочные эффекты**, особенно при работе с цепочками операций.

   Метод `.assign()` принимает в качестве аргументов **имена новых столбцов в виде ключевых слов**, а в качестве значений - **выражения, которые определяют значения для этих столбцов**.  Эти выражения могут быть константами, Series, функциями или комбинацией столбцов из исходного DataFrame.

   **Основные преимущества использования `.assign()`:**

   * **Не изменяет исходный DataFrame:**  `.assign()` создает и возвращает новый DataFrame, оставляя исходный DataFrame без изменений. Это способствует более безопасному и предсказуемому коду.
   * **Цепочки операций:**  `.assign()` удобно использовать в цепочках методов Pandas (method chaining), так как он возвращает DataFrame, который можно сразу же использовать для дальнейших операций.
   * **Читабельность:**  Синтаксис `.assign()` может быть более читабельным, особенно при добавлении нескольких столбцов одновременно, или при использовании сложных выражений для их вычисления.

In [435]:
df_assigned = df.assign(
    Пол = ['Жен', 'Муж', 'Муж', 'Муж']
)

print("DataFrame, созданный с помощью .assign() с новым столбцом 'Пол':")
display(df_assigned)
print("\nИсходный DataFrame (df) - не изменился:") 
display(df)# Исходный DataFrame df остался без изменений

DataFrame, созданный с помощью .assign() с новым столбцом 'Пол':


Unnamed: 0,Имя,Возраст,Город,Приветствие,Страна,Пол
0,Анна,25,Москва,"Привет, Анна ! Добро пожаловать в Москва!",Россия,Жен
1,Борис,30,Петербург,"Привет, Борис ! Добро пожаловать в Петербург!",Россия,Муж
2,Виктор,28,Казань,"Привет, Виктор ! Добро пожаловать в Казань!",Россия,Муж
3,Григорий,35,Москва,"Привет, Григорий ! Добро пожаловать в Москва!",Россия,Муж



Исходный DataFrame (df) - не изменился:


Unnamed: 0,Имя,Возраст,Город,Приветствие,Страна
0,Анна,25,Москва,"Привет, Анна ! Добро пожаловать в Москва!",Россия
1,Борис,30,Петербург,"Привет, Борис ! Добро пожаловать в Петербург!",Россия
2,Виктор,28,Казань,"Привет, Виктор ! Добро пожаловать в Казань!",Россия
3,Григорий,35,Москва,"Привет, Григорий ! Добро пожаловать в Москва!",Россия


---

### Изменение значений в столбцах DataFrame

1. **Изменение значений столбца целиком (присваивание новых значений столбцу):**

   Один из самых простых и распространенных способов изменить значения в **целом столбце** DataFrame - это **присвоить этому столбцу новые значения**.  Этот подход аналогичен созданию новых столбцов, но в данном случае, вы используете **имя уже существующего столбца** в левой части операции присваивания.

   Когда вы присваиваете новые значения существующему столбцу, **все предыдущие значения в этом столбце заменяются** на новые.  Новые значения должны быть представлены в виде **Pandas Series, списка Python или массива NumPy**, длина которых должна соответствовать количеству строк в DataFrame.  Если вы присваиваете одно скалярное значение, оно будет автоматически **"размножено"** и применено ко всем строкам столбца, как мы уже видели при добавлении столбца с константным значением.

   **Важно отметить**, что присваивание новых значений столбцу **изменяет исходный DataFrame напрямую**.  Если вам нужно сохранить исходный DataFrame и получить DataFrame с измененным столбцом, рассмотрите использование метода `.assign()` или создание копии DataFrame перед изменением столбца.

In [436]:
df = pd.DataFrame(data)

Допустим, мы хотим увеличить возраст всех людей на 1 год. Мы можем сделать это так:

In [437]:
df['Возраст'] = df['Возраст'] + 1

print("\nDataFrame с измененным столбцом 'Возраст':")
display(df)


DataFrame с измененным столбцом 'Возраст':


Unnamed: 0,Имя,Возраст,Город
0,Анна,26,Москва
1,Борис,31,Петербург
2,Виктор,29,Казань
3,Григорий,36,Москва


2. **Изменение значений на основе условий (условное изменение значений):**

   В реальных задачах анализа данных часто возникает необходимость изменять значения в столбце **не для всех строк подряд, а только для тех строк, которые удовлетворяют определенному условию**.  Такой подход называется **условным изменением значений**.

   Например, типичной задачей может быть корректировка данных, заполнение пропусков на основе определенных правил, или категоризация значений.  В приведенном вами примере, целью является **установить значение возраста равным 0 для всех людей, чей возраст в DataFrame указан как менее 25 лет**.

   Для реализации условного изменения значений в Pandas, наиболее распространенным и гибким способом является **использование логической индексации совместно с методом `.loc[]`**.  Этот подход позволяет сначала **выбрать строки, соответствующие условию** (с помощью булевой маски), а затем **присвоить новые значения** выбранным строкам в указанном столбце.

   **Основные шаги для условного изменения значений с использованием `.loc[]` и логической индексации:**

   1. **Создание булевой маски (условия):**  Сформируйте булеву маску, которая будет `True` для тех строк, для которых условие выполняется, и `False` для строк, для которых условие не выполняется.  Например, для условия "возраст меньше 25 лет", булева маска будет выглядеть как `df['Возраст'] < 25`.

   2. **Использование `.loc[]` с булевой маской для выбора строк:**  Примените созданную булеву маску в методе `.loc[]` для выбора строк DataFrame, которые соответствуют условию.  Например, `df.loc[df['Возраст'] < 25, 'Возраст']` выберет все строки, где 'Возраст' < 25, и *только* столбец 'Возраст' в этих строках.

   3. **Присваивание новых значений выбранным элементам:**  После выбора нужных элементов с помощью `.loc[]` и булевой маски, присвойте им новое значение, используя оператор присваивания `=`.  Например, `df.loc[df['Возраст'] < 25, 'Возраст'] = 0` установит значение 0 для столбца 'Возраст' во всех строках, где исходное значение 'Возраст' было меньше 25.

In [None]:
condition = df['Возраст'] < 30 # Создаём булеву маску, где возраст < 30

df.loc[condition, 'Возраст'] = 0 # Изменяем 'Возраст' на 0 только для строк, где condition == True

print("\nDataFrame с измененным 'Возраст' (для возраста < 30 установлено 0):")
display(df)


DataFrame с измененным 'Возраст' (для возраста < 30 установлено 0):


Unnamed: 0,Имя,Возраст,Город
0,Анна,0,Москва
1,Борис,31,Петербург
2,Виктор,0,Казань
3,Григорий,36,Москва



DataFrame с измененным 'Возраст' (для возраста < 30 установлено 0):


Unnamed: 0,Имя,Возраст,Город
0,Анна,0,Москва
1,Борис,31,Петербург
2,Виктор,0,Казань
3,Григорий,36,Москва


3. **Переименование столбцов DataFrame:**

   В процессе работы с данными в Pandas DataFrame часто возникает необходимость **переименовать столбцы**.  Это может быть обусловлено различными причинами, включая:

   * **Улучшение читабельности:**  Исходные названия столбцов могут быть неинформативными, сокращенными или техническими. Переименование столбцов в более **описательные и понятные имена** делает DataFrame более легким для восприятия и понимания, особенно при совместной работе или при повторном обращении к коду через некоторое время.
   * **Удобство использования:**  Некоторые имена столбцов могут быть неудобными для набора (слишком длинные, содержащие специальные символы или пробелы).  Переименование в более **короткие и простые имена** облегчает дальнейшую работу со столбцами, особенно при написании кода для анализа и обработки данных.
   * **Соответствие стандартам:**  В определенных случаях, например, при интеграции данных из разных источников или при подготовке данных для определенных инструментов или библиотек, необходимо привести имена столбцов к **единому формату или стандарту**.  Переименование столбцов позволяет обеспечить такое соответствие.

   Для переименования столбцов в Pandas DataFrame используется метод **`.rename()`**.  Этот метод предоставляет гибкий и удобный способ изменить имена одного или нескольких столбцов.

   * **`.rename(columns=mapping)`: Переименование столбцов с использованием словаря.**  Основной способ использования `.rename()` для переименования столбцов заключается в передаче **словаря (dictionary) в качестве значения аргумента `columns`**.

     * **Аргумент `columns`:**  Этот аргумент принимает словарь, который определяет **соответствие между старыми и новыми именами столбцов**.
     * **Структура словаря `mapping`:**  В словаре `mapping`, **ключами являются старые имена столбцов (которые нужно переименовать)**, а **значениями – новые имена столбцов (на которые нужно переименовать)**.

     Метод `.rename()` **возвращает новый DataFrame** с переименованными столбцами. **Исходный DataFrame при этом не изменяется**, если явно не указать параметр `inplace=True`.

In [None]:
df_renamed = df.rename(columns={'Возраст': 'Лет', 'Город': 'Населённый пункт'}) # переименовывам столбцы

print("DataFrame с переименованными столбцами:")
display(df_renamed)
print("\nИсходный DataFrame (df) - не изменился:") # Исходный DataFrame df остался с прежними именами столбцов
display(df)


DataFrame с переименованными столбцами:


Unnamed: 0,Имя,Лет,Населённый пункт
0,Анна,0,Москва
1,Борис,31,Петербург
2,Виктор,0,Казань
3,Григорий,36,Москва



Исходный DataFrame (df) - не изменился:


Unnamed: 0,Имя,Возраст,Город
0,Анна,0,Москва
1,Борис,31,Петербург
2,Виктор,0,Казань
3,Григорий,36,Москва


   **Важно:** Метод `.rename()` **также не изменяет исходный DataFrame напрямую**, а **возвращает новый DataFrame** с переименованными столбцами.  Это поведение по умолчанию соответствует принципам функционального программирования и помогает избежать нежелательных побочных эффектов в коде.

   **Изменение DataFrame "на месте" (inplace=True):**

   Если вы хотите **изменить DataFrame непосредственно, без создания копии**, вы можете использовать параметр `inplace=True` в методе `.rename()`.  Установка `inplace=True` **модифицирует исходный DataFrame**, и метод `.rename()` в этом случае **не возвращает новый DataFrame (возвращает `None`)**.

---

### Применение функций к DataFrame

Зачем применять функции к столбцам DataFrame?

Представьте себе множество ситуаций в анализе данных, когда стандартных операций Pandas недостаточно, и вам требуется более **гибкая и специализированная обработка данных в столбцах**.  Вот лишь несколько распространенных примеров, демонстрирующих необходимость применения функций к столбцам DataFrame:

* **Очистка данных (Data Cleaning):**  Некачественные данные могут содержать различные несоответствия и "шумы".  Применение функций позволяет автоматизировать процесс очистки, например:
    * **Удаление лишних пробелов** в начале и конце строк в текстовых столбцах, чтобы обеспечить консистентность данных.
    * **Приведение всех строк к нижнему или верхнему регистру** для унификации текстовых данных и упрощения сравнения и анализа.
    * **Замена определенных символов или подстрок** на другие значения, например, исправление опечаток или замена специальных символов на стандартные аналоги.

* **Преобразование данных (Data Transformation):**  Часто данные поступают в формате, который неудобен для анализа, и требуют преобразования:
    * **Преобразование дат из одного формата в другой**, чтобы привести все даты к единому стандарту, необходимому для анализа временных рядов или совместимости с другими системами.
    * **Извлечение компонентов даты (год, месяц, день)** из столбца с датами для агрегации данных по периодам или создания новых признаков, связанных со временем.
    * **Преобразование числовых значений в другие единицы измерения**, например, перевод температуры из градусов Фаренгейта в Цельсия или конвертация валют, для унификации измерений или соответствия требованиям анализа.

* **Создание новых признаков (Feature Engineering):**  Новые признаки, полученные на основе существующих данных, могут значительно повысить качество моделей машинного обучения или углубить понимание данных:
    * **Разделение столбца с полным именем на столбцы 'Имя' и 'Фамилия'**, чтобы получить более гранулярные признаки для анализа персональных данных.
    * **Расчет длины строк** в текстовом столбце, что может быть полезно для анализа текстовых характеристик, например, длины описаний или комментариев.
    * **Определение категорий на основе числовых значений**, например, разделение клиентов на категории "низкий", "средний", "высокий" доход на основе столбца с доходом, для сегментации и анализа по группам.

* **Выполнение сложных вычислений и специализированной обработки:**  В некоторых случаях требуется применение нестандартных или ресурсоемких операций к данным в столбцах:
    * **Применение сложных математических формул** к каждому значению в столбце, например, логарифмирование, возведение в степень или тригонометрические функции, для нелинейного преобразования данных или нормализации распределения.
    * **Использование внешних функций или специализированных библиотек** для обработки данных в столбце, например, применение функций NLP (Natural Language Processing) для анализа текста, функций обработки изображений для анализа изображений, или функций геокодирования для обработки географических данных.

Во всех этих и многих других ситуациях, **применение функций к столбцам DataFrame является незаменимым инструментом** в арсенале аналитика данных.  Pandas предоставляет для этих целей **мощный, гибкий и удобный метод – `.apply()`**.

### Метод `.apply()`

Метод `.apply()` в Pandas – это универсальный инструмент, который можно применять как к объектам **Series (столбцам DataFrame)**, так и к объектам **DataFrame целиком**.  Он обеспечивает механизм для применения произвольной функции к данным в Series или DataFrame, открывая широкие возможности для кастомизации обработки данных.

**Применение `.apply()` к Series (`Series.apply(func)`):**

* **Назначение:**  Метод `Series.apply(func)` применяется для **поэлементной обработки данных в Series**.  Функция `func` будет применена **к каждому отдельному значению** в Series.
* **Аргумент `func`:**  Аргументом `func` должна быть **функция Python** (определенная пользователем или встроенная).  Эта функция должна принимать **один аргумент** – значение элемента Series.
* **Возвращаемое значение:**  Метод `Series.apply(func)` **возвращает новый объект Series**, где **каждый элемент является результатом применения функции `func` к соответствующему элементу исходной Series**.  Индекс нового Series будет таким же, как у исходной Series.

**Применение `.apply()` к DataFrame (`DataFrame.apply(func, axis=0 или axis=1)`):**

* **Назначение:**  Метод `DataFrame.apply(func, axis=0 или axis=1)` применяется для **строчной или столбцовой обработки данных в DataFrame**.  Функция `func` будет применена либо к каждому столбцу, либо к каждой строке DataFrame, в зависимости от значения параметра `axis`.
* **Аргумент `func`:**  Аргументом `func` также должна быть **функция Python**.  Однако, в случае DataFrame, функция `func` будет принимать в качестве аргумента **объект Series**, представляющий собой **либо столбец (если `axis=0`)**, либо **строку (если `axis=1`)** DataFrame.
* **Параметр `axis`:**  Параметр `axis` определяет **направление применения функции**:
    * **`axis=0` или `axis='index'` (по умолчанию):** Функция `func` применяется **к каждому столбцу** DataFrame.  В функцию `func` передается **Series, представляющий столбец**.  Метод `DataFrame.apply()` **возвращает Series**, где **индексами являются имена столбцов**, а **значениями – результаты применения функции `func` к каждому столбцу**.
    * **`axis=1` или `axis='columns'`:** Функция `func` применяется **к каждой строке** DataFrame.  В функцию `func` передается **Series, представляющий строку**.  Метод `DataFrame.apply()` **возвращает Series**, где **индексами являются индексы строк**, а **значениями – результаты применения функции `func` к каждой строке**.

В следующих разделах мы рассмотрим практические примеры применения метода `.apply()` для решения различных задач обработки данных в Pandas DataFrame.

1. **Применение `.apply()` к столбцу (Series):**

   Наиболее распространенным сценарием использования метода `.apply()` является его применение **к отдельному столбцу DataFrame**, который в Pandas представлен объектом **Series**.  В этом случае, `.apply()` позволяет выполнить **поэлементную трансформацию** значений в столбце, применяя к каждому значению заданную вами функцию.

   **Как это работает:**

   1. **Выбор столбца:** Сначала вы выбираете столбец DataFrame, к которому хотите применить функцию.  Например, `df['Имя_столбца']` вернет объект Series, представляющий столбец с именем 'Имя_столбца'.

   2. **Вызов `.apply()`:**  Затем вы вызываете метод `.apply()` **непосредственно для выбранного столбца (Series)**, передавая в качестве аргумента функцию, которую вы хотите применить.  Синтаксис будет выглядеть так: `df['Имя_столбца'].apply(func)`.

   3. **Выполнение функции для каждого элемента:**  Pandas **итерируется по каждому значению** в выбранном столбце (Series) и **применяет функцию `func` к каждому значению по очереди**.  В функцию `func` на каждой итерации передается **одно значение из столбца**.

   4. **Сборка результатов в новый Series:**  Функция `func` должна **возвращать некоторое значение** (преобразованное значение, результат вычисления и т.д.).  Pandas собирает все значения, возвращенные функцией `func` для каждого элемента столбца, и формирует из них **новый объект Series**.

   5. **Возвращение нового Series:**  Метод `Series.apply(func)` **возвращает этот новый Series**, который содержит результаты применения функции `func` к каждому элементу исходного столбца.  Обычно, этот новый Series либо присваивается новой переменной, либо используется для замены исходного столбца, либо для создания нового столбца в DataFrame.

In [None]:
data = {
    'ФИО': ['Анна Иванова', 'Борис Петров', 'Виктор Смирнов', 'Григорий Соколов'],
    'Возраст_в_годах': [26, 31, 29, 36],
    'Населенный пункт': ['Москва', 'Петербург', 'Казань', 'Москва']
}
df = pd.DataFrame(data)

Допустим, мы хотим посчитать длину строки в столбце 'ФИО' для каждого человека. Мы можем использовать функцию len() и метод .apply():

In [None]:
def get_name_length(fio):
    return len(fio)

name_length_series = df['ФИО'].apply(get_name_length)

print("\nSeries с длиной ФИО:\n", name_length_series)
print(type(name_length_series)) # Результат - Pandas Series


Series с длиной ФИО:
 0    12
1    12
2    14
3    16
Name: ФИО, dtype: int64
<class 'pandas.core.series.Series'>


2. **Использование lambda-функций для краткости и удобства:**

   При применении метода `.apply()` к столбцам DataFrame (Series), часто возникает ситуация, когда функция, которую вы хотите применить, является **достаточно простой и короткой**.  В таких случаях, определение отдельной именованной функции (как в предыдущем примере с `to_lower_case`) может показаться излишним и загромождать код.

   Именно для таких ситуаций в Python существуют **lambda-функции (анонимные функции)**.  Lambda-функции позволяют **определять небольшие, однострочные функции прямо "на месте"**, без необходимости давать им имя и использовать ключевое слово `def`.  Это делает код более **компактным, лаконичным и читабельным**, особенно при простых преобразованиях данных.

   **Преимущества использования lambda-функций с `.apply()`:**

   * **Краткость кода:** Lambda-функции позволяют выразить простую логику преобразования в **одной строке кода**, что уменьшает объем кода и делает его более легким для восприятия.
   * **Улучшенная читабельность (в простых случаях):**  Для несложных операций, lambda-функции могут сделать код **более читабельным**, так как логика преобразования находится непосредственно в месте применения `.apply()`, без необходимости переключаться на определение отдельной функции.
   * **Удобство "одноразового" использования:**  Lambda-функции идеально подходят для функций, которые используются **только один раз** в `.apply()` и больше нигде в коде не применяются.  В этом случае, нет необходимости "засорять" пространство имен лишними именованными функциями.

In [None]:
name_length_series_lambda = df['ФИО'].apply(lambda fio: len(fio))

print("\nSeries с длиной ФИО (с lambda-функцией):\n", name_length_series_lambda) # Результат тот же


Series с длиной ФИО (с lambda-функцией):
 0    12
1    12
2    14
3    16
Name: ФИО, dtype: int64


3. **Применение `.apply()` к DataFrame (к столбцам, `axis=0`):**

   Метод `.apply()` также может быть применен **непосредственно к объекту DataFrame** для выполнения операций **над целыми столбцами или строками**.  Когда вы применяете `.apply()` к DataFrame **с параметром `axis=0` (или `axis='index'`, что является значением по умолчанию)**, функция, которую вы передаете в `.apply()`, будет применена **к каждому столбцу DataFrame по отдельности**.

   **Как это работает при `axis=0` (по столбцам):**

   1. **Вызов `.apply()` для DataFrame:** Вы вызываете метод `.apply()` для DataFrame, указывая функцию, которую хотите применить, и устанавливая `axis=0` (или опуская параметр `axis`, так как 0 является значением по умолчанию). Синтаксис: `df.apply(func, axis=0)`.

   2. **Итерация по столбцам:** Pandas **итерируется по каждому столбцу DataFrame**.  Для каждого столбца, Pandas **извлекает его в виде объекта Series** и **передает этот Series в качестве аргумента в функцию `func`**.

   3. **Выполнение функции для каждого столбца:** Функция `func` **выполняется для каждого столбца** (Series), который был передан в качестве аргумента.  Функция `func` должна быть написана таким образом, чтобы **принимать на вход объект Series** и **возвращать некоторое скалярное значение или объект Series**.

   4. **Сборка результатов в Series или DataFrame:**
      * **Если функция `func` возвращает скалярное значение:**  Pandas собирает все скалярные значения, возвращенные функцией `func` для каждого столбца, и формирует из них **новый объект Series**.  В этом Series **индексами будут имена столбцов** исходного DataFrame, а **значениями – результаты применения функции `func` к каждому столбцу**.
      * **Если функция `func` возвращает объект Series:** Pandas пытается **объединить** все Series, возвращенные функцией `func` для каждого столбца, в **новый DataFrame**.  В этом случае, каждая возвращенная Series рассматривается как **новый столбец** в результирующем DataFrame.  Однако, этот сценарий менее распространен при `axis=0` и чаще используется при `axis=1`.  Обычно, при `axis=0`, функция `func` возвращает скалярные значения.

   5. **Возвращение результата:** Метод `DataFrame.apply(func, axis=0)` **возвращает полученный объект (обычно Series)**, содержащий результаты применения функции `func` к каждому столбцу.

Допустим, мы хотим найти максимальный возраст в каждом столбце (хотя в нашем DataFrame только один числовой столбец 'Возраст_в_годах', но для примера представим, что их несколько). Мы можем использовать метод .apply() к DataFrame с axis=0:

In [None]:
max_age_per_column_series = df.apply(max, axis=0) # Применяем функцию max к каждому столбцу (axis=0)

print("\nSeries с максимальным возрастом по столбцам:\n", max_age_per_column_series) # Результат - Series с максимальными значениями по столбцам


Series с максимальным возрастом по столбцам:
 ФИО                 Григорий Соколов
Возраст_в_годах                   36
Населенный пункт           Петербург
dtype: object


4. **Применение `.apply()` к DataFrame (к строкам, `axis=1`):**

   В противоположность применению `.apply()` к столбцам (`axis=0`), установка параметра `axis=1` при вызове `.apply()` для DataFrame приводит к тому, что **функция будет применяться к каждой строке DataFrame**.  Этот режим особенно полезен, когда вам нужно выполнить **операции, зависящие от значений из нескольких столбцов в пределах одной строки**, или когда логика обработки данных различается для разных строк.

   **Как это работает при `axis=1` (по строкам):**

   1. **Вызов `.apply()` для DataFrame с `axis=1`:** Вы вызываете метод `.apply()` для DataFrame, передавая функцию, которую хотите применить, и **обязательно указывая `axis=1`** (или `axis='columns'`). Синтаксис: `df.apply(func, axis=1)`.

   2. **Итерация по строкам:** Pandas **итерируется по каждой строке DataFrame**.  Для каждой строки, Pandas **извлекает ее в виде объекта Series** и **передает этот Series в качестве аргумента в функцию `func`**.  **Важно:** В этом случае, **индексами в Series, представляющем строку, будут имена столбцов DataFrame**, а **значениями – значения соответствующих столбцов для данной строки**.

   3. **Выполнение функции для каждой строки:** Функция `func` **выполняется для каждой строки** (Series), полученной на предыдущем шаге.  Функция `func` должна быть написана таким образом, чтобы **принимать на вход объект Series (представляющий строку)** и **возвращать некоторое скалярное значение или объект Series**.

   4. **Сборка результатов в Series или DataFrame:**
      * **Если функция `func` возвращает скалярное значение:** Pandas собирает все скалярные значения, возвращенные функцией `func` для каждой строки, и формирует из них **новый объект Series**.  В этом Series **индексами будут индексы строк** исходного DataFrame, а **значениями – результаты применения функции `func` к каждой строке**.
      * **Если функция `func` возвращает объект Series:** Pandas пытается **объединить** все Series, возвращенные функцией `func` для каждой строки, в **новый DataFrame**.  В этом случае, каждая возвращенная Series рассматривается как **новая строка** в результирующем DataFrame.  Этот сценарий позволяет создавать DataFrame, где каждая строка формируется на основе обработки соответствующей строки исходного DataFrame.

   5. **Возвращение результата:** Метод `DataFrame.apply(func, axis=1)` **возвращает полученный объект (обычно Series)**, содержащий результаты применения функции `func` к каждой строке.

In [None]:
def create_info_string(row):
    return f'ФИО: {row['ФИО']}, Возраст: {row['Возраст_в_годах']}'

info_column_series = df.apply(create_info_string, axis=1) # Применяем функцию create_info_string к каждой строке (axis=1)
df['Информация'] = info_column_series # Добавляем полученную Series как новый столбец 'Информация' в DataFrame

print("DataFrame с новым столбцом 'Информация':")
display(df)

DataFrame с новым столбцом 'Информация':


Unnamed: 0,ФИО,Возраст_в_годах,Населенный пункт,Информация
0,Анна Иванова,26,Москва,"ФИО: Анна Иванова, Возраст: 26"
1,Борис Петров,31,Петербург,"ФИО: Борис Петров, Возраст: 31"
2,Виктор Смирнов,29,Казань,"ФИО: Виктор Смирнов, Возраст: 29"
3,Григорий Соколов,36,Москва,"ФИО: Григорий Соколов, Возраст: 36"


---

### Сортировка DataFrame

Сортировка DataFrame – это важная операция в Pandas, представляющая собой процесс **упорядочивания строк DataFrame** на основе значений **одного или нескольких столбцов**, или же **по значениям индекса**.  Сортировка данных является крайне полезным инструментом, когда вам необходимо:

* **Организовать данные для лучшего визуального восприятия и понимания:**  Отсортированные данные становятся **более наглядными и легкими для анализа человеком**.  Например, отсортированный список клиентов по имени или дате регистрации позволяет быстрее ориентироваться в данных и находить нужную информацию.

* **Упростить поиск минимальных и максимальных значений:**  После сортировки DataFrame по определенному столбцу, **нахождение строк с наименьшими или наибольшими значениями становится тривиальной задачей**.  Первые строки отсортированного DataFrame будут содержать минимальные значения, а последние строки – максимальные (при сортировке по возрастанию, и наоборот при сортировке по убыванию).

* **Подготовить данные для последующего анализа или визуализации:**  **Многие аналитические и визуализационные методы требуют, чтобы данные были отсортированы** в определенном порядке.  Сортировка DataFrame обеспечивает необходимую подготовку данных для корректного применения таких методов и получения значимых результатов.

### Основные методы сортировки в Pandas:

Pandas предлагает два основных метода для сортировки DataFrame: `.sort_values()` и `.sort_index()`, каждый из которых предназначен для решения определенных задач.

* **`.sort_values(by, axis=0, ascending=True, inplace=False, na_position='last', ignore_index=False, key=None)`: Сортировка DataFrame по значениям столбцов.**

   Метод `.sort_values()` является **основным методом для сортировки DataFrame по значениям одного или нескольких столбцов**.  Он предоставляет широкий набор параметров для настройки процесса сортировки.

   * **`by`**: **Столбец или список столбцов для сортировки.**  Этот параметр является **обязательным** и определяет, **по каким столбцам будет выполняться сортировка**.
      * **Строка (имя столбца):**  Если `by` - это **строка**, то DataFrame будет отсортирован **по значениям указанного столбца**.
      * **Список строк (список имен столбцов):**  Если `by` - это **список строк**, то DataFrame будет отсортирован **лексикографически (или многоуровнево)**.  Сортировка будет выполняться **сначала по первому столбцу в списке**, затем, **для строк с одинаковыми значениями в первом столбце, будет применяться сортировка по второму столбцу в списке**, и так далее.  Такой подход позволяет задать **приоритет столбцов** при сортировке.

   * **`axis=0`**: **Ось сортировки.**  Этот параметр определяет, **что именно нужно сортировать**:
      * **`axis=0` (или `axis='index'`):** **Сортировать строки** (по умолчанию).  В этом случае, порядок строк в DataFrame будет изменен в соответствии со значениями в указанных столбцах.
      * **`axis=1` (или `axis='columns'`):** **Сортировать столбцы** (редко используется).  В этом случае, порядок столбцов в DataFrame будет изменен на основе значений в указанных строках (что обычно не имеет большого смысла для DataFrame с разнородными данными).

   * **`ascending=True`**: **Направление сортировки.**  Этот параметр определяет, в каком порядке будут отсортированы значения:
      * **`ascending=True` (по умолчанию):** **Сортировать по возрастанию** (от меньшего к большему).
      * **`ascending=False`**: **Сортировать по убыванию** (от большего к меньшему).

   * **`inplace=False`**: **Изменение исходного DataFrame.**  Этот параметр определяет, будет ли метод `.sort_values()` изменять исходный DataFrame или возвращать новый отсортированный DataFrame:
      * **`inplace=False` (по умолчанию):** **Вернуть новый отсортированный DataFrame**.  Исходный DataFrame остается **неизменным**.
      * **`inplace=True`**: **Изменить исходный DataFrame "на месте"** (без возвращения нового DataFrame).  **Рекомендуется избегать использования `inplace=True`** и работать с новыми DataFrame, чтобы **не изменять исходные данные случайно** и следовать принципам функционального программирования.

   * **`na_position='last'`**: **Положение пропущенных значений (NaN).**  Этот параметр определяет, где будут располагаться строки с пропущенными значениями в столбцах сортировки:
      * **`na_position='last'` (по умолчанию):** **Пропущенные значения (NaN) помещаются в конец** отсортированного DataFrame.
      * **`na_position='first'`**: **Пропущенные значения (NaN) помещаются в начало** отсортированного DataFrame.

   * **`ignore_index=False`**: **Сброс индекса после сортировки.**
      * **`ignore_index=False` (по умолчанию):** **Сохранить исходный индекс**. После сортировки индекс DataFrame может стать не последовательным, отражая исходные позиции строк.
      * **`ignore_index=True`**: **Пересоздать индекс, сделав его последовательным от 0 до n-1**.  Это может быть полезно, если после сортировки вам нужен DataFrame с "чистым" числовым индексом.

   * **`key=None`**: **Функция для применения к значениям перед сортировкой.**
      * **`key=None` (по умолчанию):** **Сортировать напрямую по значениям столбцов**.
      * **`key=callable` (функция):**  Позволяет **применить пользовательскую функцию к значениям столбца перед сортировкой**.  Например, можно использовать `key=str.lower` для сортировки строк без учета регистра.  Функция `key` должна быть векторизованной и применяться к Series.

* **`.sort_index(axis=0, ascending=True, inplace=False, na_position='last', ignore_index=False, sort_remaining=True)`: Сортировка DataFrame по индексу.**

   Метод `.sort_index()` предназначен для **сортировки DataFrame по значениям его индекса (меток строк)**.  Этот метод полезен, когда индекс DataFrame имеет какой-то логический порядок (например, даты, временные метки, алфавитный порядок) и вы хотите упорядочить DataFrame в соответствии с этим порядком индекса.

   * **Параметры `axis`, `ascending`, `inplace`, `na_position`, `ignore_index`:**  **Работают аналогично параметрам метода `.sort_values()`**, но в контексте **сортировки по значениям индекса**, а не по значениям столбцов.  Например, `axis=0` означает сортировку строк (что является единственным осмысленным вариантом для `.sort_index()`), `ascending=True` - сортировку индекса по возрастанию, `inplace=True` - изменение DataFrame "на месте", и `na_position` - положение пропущенных значений в индексе (если таковые имеются, хотя пропущенные значения в индексе встречаются редко).

   * **`sort_remaining=True`**: **Сортировка по столбцам при многоуровневом индексе.**  Этот параметр актуален **только для DataFrame с MultiIndex (многоуровневым индексом)**.  Если `sort_remaining=True` (по умолчанию), то при сортировке по уровням индекса, **строки также будут отсортированы по значениям столбцов в пределах каждого уровня индекса**.  Если `sort_remaining=False`, то сортировка будет выполняться только по уровням индекса, а порядок строк внутри каждого уровня индекса может быть произвольным.

   **Важно:  Рекомендации по использованию `inplace=True` при сортировке:**

   Как и в случае с методом `.rename()`, метод `.sort_values()` и `.sort_index()` **по умолчанию не изменяют исходный DataFrame**, а **возвращают новый отсортированный DataFrame**.  Использование параметра `inplace=True` для изменения DataFrame "на месте" **не рекомендуется в большинстве случаев**, по тем же причинам, что и для `.rename()`:

   * **Риск случайного изменения данных:**  `inplace=True` **модифицирует исходный DataFrame**, что может привести к нежелательным последствиям, особенно в сложных скриптах или интерактивных сессиях, если вы случайно перезапишете DataFrame, который хотели сохранить в исходном виде.
   * **Нарушение принципов функционального стиля:**  Функциональный стиль программирования, которого рекомендуется придерживаться при работе с Pandas, предполагает, что функции должны **возвращать новые объекты, не изменяя исходные данные**.  Использование `inplace=True` **противоречит этому принципу**.
   * **Осложнение отладки и отмены изменений:**  При использовании `inplace=True`, **отследить изменения DataFrame и отменить их становится сложнее**.  Работа с новыми DataFrame, напротив, позволяет **легко вернуться к предыдущему состоянию данных**, если это необходимо.

   **Поэтому, в большинстве ситуаций, лучше использовать методы `.sort_values()` и `.sort_index()` без параметра `inplace=True` и присваивать результат сортировки новой переменной**, чтобы сохранить исходный DataFrame и сделать код более безопасным, предсказуемым и читабельным.

In [None]:
df = pd.DataFrame(data)

1. **Сортировка по одному столбцу:**

   Самый простой и распространенный вариант сортировки – это **упорядочивание DataFrame по значениям только одного столбца**.  Для этого вам потребуется использовать метод `.sort_values()` и указать **имя столбца в качестве значения параметра `by`**.

   **Как это работает:**

   1. **Выбор столбца для сортировки:**  Вы определяете, **какой столбец** будет использоваться в качестве **основы для сортировки**.  Например, если вы хотите отсортировать DataFrame по возрасту, то столбцом для сортировки будет 'Возраст'.

   2. **Вызов `.sort_values()` с параметром `by`:**  Вы вызываете метод `.sort_values()` для вашего DataFrame и **передаете имя выбранного столбца в качестве строки аргументу `by`**.  Например, `df.sort_values(by='Возраст')` отсортирует DataFrame `df` по значениям столбца 'Возраст'.

   3. **Сортировка строк на основе значений столбца:** Pandas **упорядочивает строки DataFrame**, **основываясь на значениях в указанном столбце**.  По умолчанию, метод `.sort_values()` выполняет **сортировку по возрастанию** (от меньшего к большему значению).

   4. **Возвращение нового отсортированного DataFrame:** Метод `.sort_values()` **возвращает новый DataFrame**, в котором строки отсортированы в соответствии со значениями в указанном столбце. **Исходный DataFrame при этом остается неизменным**.

In [None]:
df_sorted_by_fio = df.sort_values(by='ФИО') # Сортируем по столбцу 'ФИО' (по умолчанию ascending=True)

print("\nDataFrame, отсортированный по 'ФИО' (по возрастанию):")
display(df_sorted_by_fio)
print("\nИсходный DataFrame (df) - не изменился:") # Исходный DataFrame df остался в исходном порядке
display(df)


DataFrame, отсортированный по 'ФИО' (по возрастанию):


Unnamed: 0,ФИО,Возраст_в_годах,Населенный пункт
0,Анна Иванова,26,Москва
1,Борис Петров,31,Петербург
2,Виктор Смирнов,29,Казань
3,Григорий Соколов,36,Москва



Исходный DataFrame (df) - не изменился:


Unnamed: 0,ФИО,Возраст_в_годах,Населенный пункт
0,Анна Иванова,26,Москва
1,Борис Петров,31,Петербург
2,Виктор Смирнов,29,Казань
3,Григорий Соколов,36,Москва


2. **Сортировка по нескольким столбцам (многоуровневая сортировка):**

   Часто возникает необходимость в более сложной сортировке, когда **упорядочивание данных по одному столбцу недостаточно**, и требуется учитывать значения **нескольких столбцов одновременно**.  В таких случаях, Pandas позволяет выполнить **сортировку по нескольким столбцам**, задавая **приоритет столбцов** при упорядочивании.

   **Принцип многоуровневой сортировки:**

   При сортировке по нескольким столбцам, Pandas применяет **лексикографический порядок сортировки**.  Это означает, что строки DataFrame упорядочиваются следующим образом:

   1. **Первичная сортировка по первому указанному столбцу:** DataFrame сначала сортируется **по значениям первого столбца**, указанного в списке `by`.

   2. **Вторичная сортировка по второму указанному столбцу (для строк с одинаковыми значениями в первом столбце):**  Для тех строк, которые имеют **одинаковые значения в первом столбце**, применяется **вторичная сортировка по значениям второго столбца**, указанного в списке `by`.

   3. **Дальнейшая сортировка по последующим столбцам (при необходимости):**  Этот процесс **продолжается для всех последующих столбцов в списке `by`**.  Если строки имеют одинаковые значения во всех предыдущих столбцах из списка `by`, то порядок этих строк определяется на основе значений следующего столбца в списке, и так далее.

   **Как выполнить сортировку по нескольким столбцам:**

   Для сортировки DataFrame по нескольким столбцам, вам необходимо **передать список имен столбцов в качестве значения параметра `by`** метода `.sort_values()`.  **Порядок имен столбцов в списке `by` определяет приоритет сортировки**: первый столбец в списке имеет наивысший приоритет, второй – следующий по приоритету, и так далее.

In [None]:
df_sorted_by_city_age = df.sort_values(by=['Населенный пункт', 'Возраст_в_годах']) # Сортируем по 'Населенный пункт', потом по 'Возраст_в_годах'

print("\nDataFrame, отсортированный по 'Населенный пункт' и 'Возраст_в_годах':")
display(df_sorted_by_city_age)


DataFrame, отсортированный по 'Населенный пункт' и 'Возраст_в_годах':


Unnamed: 0,ФИО,Возраст_в_годах,Населенный пункт
2,Виктор Смирнов,29,Казань
0,Анна Иванова,26,Москва
3,Григорий Соколов,36,Москва
1,Борис Петров,31,Петербург


3. **Сортировка по индексу (по возрастанию):**

   В Pandas DataFrame, помимо сортировки по значениям столбцов, также возможно **упорядочить строки DataFrame на основе значений их индекса (меток строк)**.  Сортировка по индексу бывает полезна в различных ситуациях, особенно когда **индекс DataFrame имеет смысловую нагрузку**, например:

   * **Временные ряды (Time Series Data):** Если индекс DataFrame представляет собой **даты или временные метки**, сортировка по индексу позволяет упорядочить данные **в хронологическом порядке**.
   * **Иерархические данные (Hierarchical Data):**  Если индекс DataFrame является **многоуровневым (MultiIndex)**, сортировка по индексу может упорядочить данные **по уровням иерархии**.
   * **Категориальные индексы (Categorical Indexes):**  Если индекс DataFrame представляет собой **категории в определенном порядке**, сортировка по индексу позволяет упорядочить данные **в соответствии с порядком категорий**.

   Для выполнения сортировки DataFrame **по индексу** используется метод `.sort_index()`.  По умолчанию, `.sort_index()` сортирует индекс **по возрастанию**.

   **Как выполнить сортировку по индексу (по возрастанию):**

   1. **Вызов `.sort_index()` без параметров (или с `ascending=True`):**  Для выполнения сортировки по индексу по возрастанию, вам достаточно вызвать метод `.sort_index()` для вашего DataFrame **без указания дополнительных параметров**, либо явно указав параметр `ascending=True`.  Синтаксис: `df.sort_index()` или `df.sort_index(ascending=True)`.

   2. **Сортировка строк на основе значений индекса:** Pandas **упорядочивает строки DataFrame**, **основываясь на значениях индекса**.  По умолчанию, метод `.sort_index()` выполняет **сортировку индекса по возрастанию** (в алфавитном порядке для строковых индексов, в числовом порядке для числовых индексов, и в хронологическом порядке для индексов дат).

   3. **Возвращение нового отсортированного DataFrame:** Метод `.sort_index()` **возвращает новый DataFrame**, в котором строки отсортированы в соответствии со значениями индекса. **Исходный DataFrame при этом остается неизменным**.

In [None]:
df_sorted_by_index = df.sort_index() # Сортируем по индексу (по умолчанию axis=0, ascending=True)

print("\nDataFrame, отсортированный по индексу (по возрастанию):") 
display(df_sorted_by_index) # В данном случае порядок строк не изменится


DataFrame, отсортированный по индексу (по возрастанию):


Unnamed: 0,ФИО,Возраст_в_годах,Населенный пункт
0,Анна Иванова,26,Москва
1,Борис Петров,31,Петербург
2,Виктор Смирнов,29,Казань
3,Григорий Соколов,36,Москва


---

Чтение и запись данных:как загружать данные из файлов (CSV, Excel и т.д.) в DataFrame и как сохранять DataFrame обратно в файлы.

Более сложные манипуляции:
* Группировка и агрегирование данных (groupby)

* Объединение нескольких DataFrame (merge, join)

* Работа с пропущенными данными (dropna, fillna)

* Изменение типа данных столбцов (astype)