### II. Pandas: Основы Работы с Данными

**Pandas** — ключевая библиотека Python для **анализа и манипулирования данными**. Основная структура данных — **DataFrame**.

*   **DataFrame:** Двумерная табличная структура данных с помеченными осями (строки и столбцы). Похожа на таблицу в Excel или базу данных.
*   **Series:** Одномерный помеченный массив данных. По сути, столбец DataFrame.

In [64]:
import pandas as pd
import numpy as np

#### II.A. Создание DataFrame

1.  **Из словаря Python:** Ключи -> названия столбцов, значения (списки/массивы одинаковой длины) -> данные столбцов.

In [65]:
data = {'Имя': ['Анна', 'Борис', 'Виктор', 'Григорий'],
        'Возраст': [25, 30, 28, 35],
        'Город': ['Москва', 'Петербург', 'Казань', 'Москва']}
df = pd.DataFrame(data)
print(type(df)) # <class 'pandas.core.frame.DataFrame'>
display(df)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва


2.  **Из списка списков:** Каждый внутренний список — строка DataFrame. Названия столбцов задаются отдельно через параметр `columns`.

In [66]:
data_list = [['Елена', 22, 'Самара'], ['Иван', 31, 'Владивосток']]
columns = ['Имя', 'Возраст', 'Город']
df_list = pd.DataFrame(data_list, columns=columns)
display(df_list)

Unnamed: 0,Имя,Возраст,Город
0,Елена,22,Самара
1,Иван,31,Владивосток


3.  **Из массива NumPy:** Передается NumPy массив и список имен столбцов.

In [67]:
numpy_array = np.array([[1, 2], [4, 5]])
df_numpy = pd.DataFrame(numpy_array, columns=['Колонка1', 'Колонка2'])
display(df_numpy)

Unnamed: 0,Колонка1,Колонка2
0,1,2
1,4,5


---

#### II.B. Основные Операции и Информация о DataFrame

1.  **Просмотр данных:**
    *   `.head(n=5)`: Показать первые `n` строк.
    *   `.tail(n=5)`: Показать последние `n` строк.

In [68]:
display(df.head(2)) # Первые 2 строки
display(df.tail(1)) # Последняя 1 строка

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург


Unnamed: 0,Имя,Возраст,Город
3,Григорий,35,Москва


2.  **Общая информация (`.info()`):**
    *   Выводит сводку: количество строк/столбцов, названия столбцов, типы данных (`dtype`), количество непустых значений (`Non-Null Count`), использование памяти.
    *   Полезно для быстрой оценки структуры и наличия пропусков.

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      4 non-null      object
 1   Возраст  4 non-null      int64 
 2   Город    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


3.  **Описательная статистика (`.describe()`):**
    *   Для **числовых** столбцов (по умолчанию): `count`, `mean`, `std`, `min`, `25%` (Q1), `50%` (медиана), `75%` (Q3), `max`.
    *   Для **всех** столбцов (`include='all'`): Добавляет статистику для нечисловых (`object`, `category`) столбцов: `unique` (число уникальных), `top` (самое частое), `freq` (частота самого частого).

In [70]:
display(df.describe()) # Только числовые
display(df.describe(include='all')) # Все столбцы

Unnamed: 0,Возраст
count,4.0
mean,29.5
std,4.203173
min,25.0
25%,27.25
50%,29.0
75%,31.25
max,35.0


Unnamed: 0,Имя,Возраст,Город
count,4,4.0,4
unique,4,,3
top,Анна,,Москва
freq,1,,2
mean,,29.5,
std,,4.203173,
min,,25.0,
25%,,27.25,
50%,,29.0,
75%,,31.25,


---

#### II.C. Выбор Столбцов и Строк (Индексация)

1.  **Выбор Столбцов:**
    *   **Один столбец:** `df['Имя_столбца']` или `df.Имя_столбца` (если имя без пробелов/спецсимволов). Возвращает **Pandas Series**.

In [71]:
ages = df['Возраст'] # Возвращает Series

*   **Несколько столбцов:** `df[['Столбец1', 'Столбец2']]`. Передается **список** имен. Возвращает **новый DataFrame**.

In [72]:
subset_df = df[['Имя', 'Город']] # Возвращает DataFrame

2.  **Выбор Строк:**
    *   **`.loc[]` (По метке индекса / Label-based):** Выбирает строки по их **меткам** в индексе. **Включает** конечную метку при срезе (`df.loc[1:3]` включает строки с метками 1, 2, 3).

In [73]:
row_label_2 = df.loc[2] # Выбрать строку с меткой индекса 2 (Series)
rows_label_1_3 = df.loc[1:3] # Выбрать строки с метками от 1 до 3 (DataFrame)
display(row_label_2)
display(rows_label_1_3)

Имя        Виктор
Возраст        28
Город      Казань
Name: 2, dtype: object

Unnamed: 0,Имя,Возраст,Город
1,Борис,30,Петербург
2,Виктор,28,Казань
3,Григорий,35,Москва


*   **`.iloc[]` (По целочисленной позиции / Integer-location based):** Выбирает строки по их **порядковому номеру** (начиная с 0). **Не включает** конечную позицию при срезе (`df.iloc[0:3]` включает строки на позициях 0, 1, 2).

In [74]:
row_pos_1 = df.iloc[1] # Выбрать строку на второй позиции (индекс 1) (Series)
rows_pos_0_2 = df.iloc[0:3] # Выбрать строки на позициях 0, 1, 2 (DataFrame)
display(row_pos_1)
display(rows_pos_0_2)

Имя            Борис
Возраст           30
Город      Петербург
Name: 1, dtype: object

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Борис,30,Петербург
2,Виктор,28,Казань


3.  **Выбор строк и столбцов одновременно:**
    *   `df.loc[row_labels, column_labels]`
    *   `df.iloc[row_positions, column_positions]`

In [75]:
# Пример: выбрать 'Имя' и 'Город' для строк с метками 1 и 3
subset_loc = df.loc[[1, 3], ['Имя', 'Город']]
# Пример: выбрать 1-й и 3-й столбцы для 0-й и 2-й строк
subset_iloc = df.iloc[[0, 2], [0, 2]]
display(subset_loc)
display(subset_iloc)

Unnamed: 0,Имя,Город
1,Борис,Петербург
3,Григорий,Москва


Unnamed: 0,Имя,Город
0,Анна,Москва
2,Виктор,Казань


#### II.D. Фильтрация Данных (Логическая Индексация)

Отбор строк на основе условий с использованием **булевой маски**.

1.  **Создание булевой маски:** Применение операторов сравнения (`>`, `<`, `==`, `!=`, `>=` , `<=`) или методов (`.isin()`, `.str.contains()` и др.) к столбцу(ам). Результат — Series из `True`/`False`.

In [76]:
mask_age = df['Возраст'] > 28 # Маска: Возраст больше 28
print(mask_age)

0    False
1     True
2    False
3     True
Name: Возраст, dtype: bool


2.  **Применение маски:** Передача маски в квадратные скобки `[]` DataFrame. Возвращает **новый DataFrame** с отфильтрованными строками.

In [77]:
filtered_df = df[mask_age]
display(filtered_df)

Unnamed: 0,Имя,Возраст,Город
1,Борис,30,Петербург
3,Григорий,35,Москва


3.  **Комбинирование условий:**
    *   `&` (Логическое И): Условия должны выполняться **одновременно**. `df[(условие1) & (условие2)]`
    *   `|` (Логическое ИЛИ): Должно выполняться **хотя бы одно** условие. `df[(условие1) | (условие2)]`
    *   `~` (Логическое НЕ): Инверсия условия. `df[~(условие)]`
    **Важно:** Каждое условие при комбинировании заключается в `()`.

In [78]:
# Пример: Возраст > 28 И Город == 'Москва'
complex_mask = (df['Возраст'] > 28) & (df['Город'] == 'Москва')
filtered_complex = df[complex_mask]
display(filtered_complex)

Unnamed: 0,Имя,Возраст,Город
3,Григорий,35,Москва


4.  **Метод `.isin(values)`:** Фильтрация по принадлежности к списку значений. Удобнее, чем много `|`.

In [79]:
cities_to_select = ['Москва', 'Казань']
mask_isin = df['Город'].isin(cities_to_select)
filtered_isin = df[mask_isin]
display(filtered_isin)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
2,Виктор,28,Казань
3,Григорий,35,Москва


---

#### II.E. Добавление и Изменение Столбцов

1.  **Добавление нового столбца:**
    *   **Прямое присваивание:** `df['Новый_столбец'] = значение(я)`
        *   Если значение — скаляр, оно "размножается" на все строки.
        *   Если значение — Series/список/массив, его длина должна совпадать с числом строк `df`.

In [80]:
df['Страна'] = 'Россия' # Столбец с константой
df['Возраст через 5 лет'] = df['Возраст'] + 5 # На основе существующего
display(df)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет
0,Анна,25,Москва,Россия,30
1,Борис,30,Петербург,Россия,35
2,Виктор,28,Казань,Россия,33
3,Григорий,35,Москва,Россия,40


*   **Метод `.assign(**kwargs)`:** Возвращает **новый** DataFrame с добавленными столбцами. Удобен для цепочек операций. Исходный `df` не меняется.

In [81]:
df_assigned = df.assign(
            Стаж = df['Возраст'] - 20, # Пример вычисления
            Профессия = ['Инженер', 'Врач', 'Учитель', 'Аналитик']
        )
display(df_assigned)
display(df) # Исходный df не изменился

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Стаж,Профессия
0,Анна,25,Москва,Россия,30,5,Инженер
1,Борис,30,Петербург,Россия,35,10,Врач
2,Виктор,28,Казань,Россия,33,8,Учитель
3,Григорий,35,Москва,Россия,40,15,Аналитик


Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет
0,Анна,25,Москва,Россия,30
1,Борис,30,Петербург,Россия,35
2,Виктор,28,Казань,Россия,33
3,Григорий,35,Москва,Россия,40


2.  **Изменение значений в столбце:**
    *   **Изменение всего столбца:** `df['Существующий_столбец'] = новые_значения` (аналогично добавлению, но перезаписывает столбец).

In [82]:
df['Возраст'] = df['Возраст'] * 2 # Пример

**Условное изменение (`.loc` + маска):** Изменение значений только для строк, удовлетворяющих условию.

In [83]:
# Пример: Установить Возраст=18 для тех, кто младше 18
df.loc[df['Возраст'] < 18, 'Возраст'] = 18
display(df)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет
0,Анна,50,Москва,Россия,30
1,Борис,60,Петербург,Россия,35
2,Виктор,56,Казань,Россия,33
3,Григорий,70,Москва,Россия,40


3.  **Переименование столбцов (`.rename(columns=mapping)`):**
    *   Принимает словарь `mapping` вида `{'старое_имя': 'новое_имя', ...}`.
    *   Возвращает **новый** DataFrame (если не `inplace=True`).

In [84]:
df_renamed = df.rename(columns={'Возраст': 'Полных лет', 'Город': 'Место жительства'})
display(df_renamed)

Unnamed: 0,Имя,Полных лет,Место жительства,Страна,Возраст через 5 лет
0,Анна,50,Москва,Россия,30
1,Борис,60,Петербург,Россия,35
2,Виктор,56,Казань,Россия,33
3,Григорий,70,Москва,Россия,40


---

#### II.F. Применение Функций (`.apply()`)

Универсальный метод для применения функции к столбцам или строкам.

1.  **Применение к столбцу (Series): `Series.apply(func)`**
    *   Функция `func` применяется **поэлементно** к каждому значению в Series.
    *   Возвращает новый Series с результатами.

In [85]:
def categorize_age(age):
    if age < 30: return 'Молодой'
    else: return 'Зрелый'

df['Категория возраста'] = df['Возраст'].apply(categorize_age)
display(df)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Категория возраста
0,Анна,50,Москва,Россия,30,Зрелый
1,Борис,60,Петербург,Россия,35,Зрелый
2,Виктор,56,Казань,Россия,33,Зрелый
3,Григорий,70,Москва,Россия,40,Зрелый


2.  **Использование lambda-функций:** Для простых однострочных функций.

In [86]:
df['Длина имени'] = df['Имя'].apply(lambda name: len(name))
display(df)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Категория возраста,Длина имени
0,Анна,50,Москва,Россия,30,Зрелый,4
1,Борис,60,Петербург,Россия,35,Зрелый,5
2,Виктор,56,Казань,Россия,33,Зрелый,6
3,Григорий,70,Москва,Россия,40,Зрелый,8


3.  **Применение к DataFrame (`axis=0` - по столбцам): `DataFrame.apply(func, axis=0)`**
    *   Функция `func` применяется к **каждому столбцу** (передается Series-столбец).
    *   Обычно `func` возвращает скаляр. Результат — Series (индексы - имена столбцов).

In [87]:
# Пример: найти тип данных каждого столбца
column_types = df.apply(lambda col: col.dtype, axis=0)
print(column_types)

Имя                    object
Возраст                 int64
Город                  object
Страна                 object
Возраст через 5 лет     int64
Категория возраста     object
Длина имени             int64
dtype: object


4.  **Применение к DataFrame (`axis=1` - по строкам): `DataFrame.apply(func, axis=1)`**
    *   Функция `func` применяется к **каждой строке** (передается Series-строка).
    *   Полезно для вычислений, использующих несколько столбцов одной строки.
    *   Обычно `func` возвращает скаляр. Результат — Series (индексы - индексы строк).

In [88]:
def create_row_description(row):
    return f"{row['Имя']} ({row['Возраст']} лет) из г. {row['Город']}"

df['Описание'] = df.apply(create_row_description, axis=1)
display(df[['Имя', 'Описание']])

Unnamed: 0,Имя,Описание
0,Анна,Анна (50 лет) из г. Москва
1,Борис,Борис (60 лет) из г. Петербург
2,Виктор,Виктор (56 лет) из г. Казань
3,Григорий,Григорий (70 лет) из г. Москва


---

#### II.G. Сортировка DataFrame

Упорядочивание строк по значениям столбцов или индекса.

1.  **Сортировка по значениям (`.sort_values()`):**
    *   **`by='столбец'` или `by=['стлб1', 'стлб2']`:** Столбец(ы) для сортировки (обязательно). Приоритет по порядку в списке.
    *   **`ascending=True/False` или `[True, False, ...]`:** Направление сортировки (True - по возрастанию). Можно задать для каждого столбца в `by`.
    *   **`na_position='first'/'last'`:** Положение NaN.
    *   **`ignore_index=True`:** Сбросить индекс после сортировки.
    *   Возвращает **новый** DataFrame (если не `inplace=True`).

In [89]:
# Сортировка по Возрасту по убыванию
df_sorted_age_desc = df.sort_values(by='Возраст', ascending=False)
display(df_sorted_age_desc)

# Сортировка по Городу (возр), затем по Возрасту (убыв)
df_sorted_multi = df.sort_values(by=['Город', 'Возраст'], ascending=[True, False])
display(df_sorted_multi)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Категория возраста,Длина имени,Описание
3,Григорий,70,Москва,Россия,40,Зрелый,8,Григорий (70 лет) из г. Москва
1,Борис,60,Петербург,Россия,35,Зрелый,5,Борис (60 лет) из г. Петербург
2,Виктор,56,Казань,Россия,33,Зрелый,6,Виктор (56 лет) из г. Казань
0,Анна,50,Москва,Россия,30,Зрелый,4,Анна (50 лет) из г. Москва


Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Категория возраста,Длина имени,Описание
2,Виктор,56,Казань,Россия,33,Зрелый,6,Виктор (56 лет) из г. Казань
3,Григорий,70,Москва,Россия,40,Зрелый,8,Григорий (70 лет) из г. Москва
0,Анна,50,Москва,Россия,30,Зрелый,4,Анна (50 лет) из г. Москва
1,Борис,60,Петербург,Россия,35,Зрелый,5,Борис (60 лет) из г. Петербург


2.  **Сортировка по индексу (`.sort_index()`):**
    *   Упорядочивает строки по значениям индекса.
    *   Параметры `axis`, `ascending`, `inplace`, `na_position`, `ignore_index` аналогичны `.sort_values()`, но применяются к индексу.

In [90]:
#Предположим, индекс не по порядку
df_shuffled = df.sample(frac=1) # Перемешать строки
df_sorted_idx = df_shuffled.sort_index() # Отсортировать по исходному индексу
display(df_sorted_idx)

Unnamed: 0,Имя,Возраст,Город,Страна,Возраст через 5 лет,Категория возраста,Длина имени,Описание
0,Анна,50,Москва,Россия,30,Зрелый,4,Анна (50 лет) из г. Москва
1,Борис,60,Петербург,Россия,35,Зрелый,5,Борис (60 лет) из г. Петербург
2,Виктор,56,Казань,Россия,33,Зрелый,6,Виктор (56 лет) из г. Казань
3,Григорий,70,Москва,Россия,40,Зрелый,8,Григорий (70 лет) из г. Москва


**Рекомендация:** Избегайте `inplace=True` для предсказуемости кода.

---

#### II.H. Чтение и Запись Данных (Кратко)

*   **Чтение CSV:** `pd.read_csv('путь/к/файлу.csv', sep=',', index_col=None, ...)`
*   **Чтение Excel:** `pd.read_excel('путь/к/файлу.xlsx', sheet_name='Лист1', ...)`
*   **Запись в CSV:** `df.to_csv('путь/к/новому/файлу.csv', index=False, sep=';', ...)` (`index=False` - не записывать индекс в файл)
*   **Запись в Excel:** `df.to_excel('путь/к/новому/файлу.xlsx', index=False, sheet_name='Мои данные', ...)`

---

#### II.I. Другие Важные Операции (Кратко)

*   **Группировка и Агрегация (`.groupby()`):** Разделение DataFrame на группы по значениям одного или нескольких столбцов и применение агрегирующих функций (sum, mean, count, min, max, agg) к каждой группе. Очень мощный инструмент для анализа.

In [91]:
# Пример: Средний возраст по городам
avg_age_by_city = df.groupby('Город')['Возраст'].mean()
print(avg_age_by_city)

Город
Казань       56.0
Москва       60.0
Петербург    60.0
Name: Возраст, dtype: float64


*   **Объединение DataFrame (`pd.merge()`, `.join()`):** Соединение нескольких DataFrame по общим столбцам или индексам (аналогично JOIN в SQL).
*   **Работа с пропущенными данными:**
    *   `.isnull()`, `.isna()`: Проверка на наличие NaN.
    *   `.dropna()`: Удаление строк/столбцов с NaN.
    *   `.fillna(value)`: Заполнение NaN указанным значением, средним, медианой и т.д.
*   **Изменение типа данных (`.astype(dtype)`):** Преобразование типа данных столбца (например, из `object` в `int` или `datetime`).

---