# Лекция 3: Основы Pandas. Работа с табличными данными

**Курс:** Введение в машинное обучение

---

### Цели лекции

1.  **Понять**, что такое `Pandas` и какова его роль в задачах Машинного Обучения.
2.  **Изучить** две ключевые структуры данных: `Series` и `DataFrame`.
3.  **Научиться** загружать данные из `CSV`-файлов — самого популярного формата для хранения данных.
4.  **Освоить** базовые методы для первичного анализа данных: как посмотреть на данные, узнать их размер, типы и основные статистические показатели.
5.  **Овладеть** фундаментальными навыками работы с данными: выбор, создание и удаление столбцов; выборка строк по индексам и условиям.

Эта лекция — ключ к эффективной работе с данными. 90% времени в реальных ML-проектах уходит на подготовку и очистку данных, и Pandas — наш главный инструмент для этой задачи.

## 1. Что такое Pandas и зачем он нужен?

Вспомним наш жизненный цикл проекта в Машинном Обучении:

```mermaid
graph TD;
    A[Реальный мир] --> B(Сбор данных);
    subgraph "Этапы, где Pandas незаменим"
      B --> C(Очистка и организация данных);
      C --> D(Исследовательский анализ данных, EDA);
    end
    D --> E(Построение моделей ML);
    E --> F[Продукт];
    F --> A;
```

**Pandas** — это высокоуровневая библиотека Python, созданная для анализа и манипуляции данными. Она построена поверх NumPy и является стандартом де-факто в Data Science.

**Почему Pandas так важен?**
- **Скорость и эффективность:** Хотя Pandas написан на Python, его критически важные части реализованы на C, что обеспечивает высокую производительность.
- **Удобство:** Pandas предоставляет мощные и простые в использовании структуры данных для работы с таблицами (похожими на Excel или SQL-таблицы).
- **Гибкость:** Позволяет читать и записывать данные из множества форматов: CSV, Excel, SQL, JSON и других.

> **Простыми словами:** если NumPy — это "арифметика" для матриц, то Pandas — это "Excel на стероидах" прямо в коде Python, созданный специально для подготовки данных к машинному обучению.

### Импорт библиотеки

По общепринятому соглашению, Pandas импортируется под псевдонимом `pd`.

In [None]:
import pandas as pd
import numpy as np

## 2. Структуры данных: Series и DataFrame

В Pandas есть две основные структуры данных, которые являются его "алфавитом".

### 2.1. Series

**`Series`** — это одномерный массив с метками (индексом). Его можно представить как один столбец в таблице.

Ключевое отличие от массива NumPy — наличие **именованного индекса**. Это позволяет обращаться к элементам не только по числовой позиции, но и по метке, как в словаре Python.

In [None]:
my_data = [1776, 1867, 1821]
my_index = ['USA', 'Canada', 'Mexico']

my_series = pd.Series(data=my_data, index=my_index)
print(my_series)

USA       1776
Canada    1867
Mexico    1821
dtype: int64


Доступ к данным можно получить как по числовому индексу (как в NumPy), так и по метке.

In [None]:
print(f"Доступ по метке 'Canada': {my_series['Canada']}")
print(f"Доступ по индексу 0: {my_series[0]}")

Доступ по метке 'Canada': 1867
Доступ по индексу 0: 1776


### 2.2. DataFrame

**`DataFrame`** — это основная структура данных в Pandas. Это двумерная таблица, состоящая из строк и столбцов. 

> **Простая аналогия:** `DataFrame` — это таблица Excel или SQL. Каждый столбец в этом `DataFrame` является объектом `Series`, и все эти столбцы-`Series` имеют общий индекс.

In [None]:
# Создаем DataFrame из случайных чисел NumPy
np.random.seed(101) # для воспроизводимости результатов
data = np.random.randn(3,4) # 3 строки, 4 столбца
index = ['A', 'B', 'C']
columns = ['W', 'X', 'Y', 'Z']

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001


## 3. Загрузка данных: `pd.read_csv()`

Чаще всего вы не будете создавать DataFrame вручную. Вместо этого вы будете загружать данные из внешнего источника. Самый распространенный формат — это CSV (Comma-Separated Values, значения, разделенные запятыми).

Для этого используется функция `pd.read_csv()`.

In [None]:
# Загружаем датасет с информацией о чаевых в ресторане
# Файл 'tips.csv' должен находиться в той же папке, что и этот блокнот
tips_df = pd.read_csv('tips.csv')

## 4. Первичный осмотр данных

После загрузки данных первое, что нужно сделать, — это провести "осмотр пациента". Для этого есть несколько критически важных методов.

### `.head()` — посмотреть на первые строки
Этот метод позволяет увидеть "шапку" таблицы и получить первое представление о том, как выглядят данные.

In [None]:
# По умолчанию .head() показывает 5 первых строк
tips_df.head()

### `.info()` — структура и типы данных

Этот метод дает краткую сводку о DataFrame: количество строк, количество и названия столбцов, количество непустых значений и типы данных в каждом столбце.

In [None]:
tips_df.info()

### `.describe()` — основные статистические показатели

Этот метод рассчитывает описательные статистики **только для числовых столбцов**: количество, среднее, стандартное отклонение, минимум, максимум и перцентили.

In [None]:
tips_df.describe()

### `.shape` — размерность DataFrame

Атрибут `.shape` возвращает кортеж (tuple) с количеством строк и столбцов.

In [None]:
tips_df.shape

## 5. Работа со столбцами

Манипуляции со столбцами — одна из самых частых операций.

### Выбор столбцов

Для выбора одного столбца используется синтаксис, похожий на обращение к элементу словаря.

In [None]:
# Выбор одного столбца возвращает объект Series
total_bill_series = tips_df['total_bill']
total_bill_series.head()

Для выбора нескольких столбцов в квадратные скобки передается список их названий.

In [None]:
# Выбор нескольких столбцов возвращает новый DataFrame
my_cols = ['total_bill', 'tip', 'sex']
sub_df = tips_df[my_cols]
sub_df.head()

### Создание новых столбцов

Новые столбцы создаются путем присваивания значений. Часто это результат вычислений на основе существующих столбцов. Давайте создадим столбец `tip_percentage`.

In [None]:
tips_df['tip_percentage'] = 100 * tips_df['tip'] / tips_df['total_bill']
tips_df.head()

### Удаление столбцов

Для удаления используется метод `.drop()`. Важно указать ось `axis=1`, чтобы Pandas понял, что мы удаляем столбец, а не строку.

In [None]:
# Удаляем вымышленный столбец 'CC Number'
# Метод .drop() возвращает новый DataFrame, не изменяя исходный
tips_df_cleaned = tips_df.drop('CC Number', axis=1)
tips_df_cleaned.head()

## 6. Работа со строками: `.loc` и `.iloc`

Это важнейший навык для извлечения данных. В Pandas есть два основных способа индексации строк:
- `.loc[]` — **label-based** indexing (индексация по меткам).
- `.iloc[]` — **integer-location** based indexing (индексация по числовой позиции).

Сначала установим один из столбцов в качестве индекса с помощью `.set_index()`.

In [None]:
# Установим 'Payment ID' как индекс, чтобы у строк были уникальные метки
tips_df_indexed = tips_df.set_index('Payment ID')
tips_df_indexed.head()

### Выборка строк
Теперь мы можем выбирать строки по их новой метке с помощью `.loc[]`.

In [None]:
# Выбор одной строки по метке индекса
tips_df_indexed.loc['Sun4458']

Или по числовой позиции с помощью `.iloc[]` (индексация с 0).

In [None]:
# Выбор одной строки по ее порядковому номеру
tips_df_indexed.iloc[2]

Оба метода также поддерживают выборку нескольких строк и срезы (slicing).

## 7. Фильтрация данных по условию

Это, возможно, самый важный навык в Pandas. Он позволяет выбирать подмножество данных, которое удовлетворяет определенным условиям.

Процесс состоит из двух шагов:
1. Создать булеву маску (boolean mask) — это объект `Series` из `True` и `False`.
2. Передать эту маску в `DataFrame`.

### Одно условие
Найдем все заказы, где `total_bill` был больше 40.

In [None]:
# Шаг 1: Создаем булеву маску
mask = tips_df['total_bill'] > 40
mask.head()

In [None]:
# Шаг 2: Применяем маску к DataFrame
tips_df[mask]

### Несколько условий

Для комбинирования условий используются операторы `&` (И), `|` (ИЛИ) и `~` (НЕ).

> **Важно:** Каждое отдельное условие необходимо заключать в круглые скобки `()` из-за особенностей порядка операторов в Python.

Найдем все заказы, сделанные мужчинами (`sex == 'Male'`) в воскресенье (`day == 'Sun'`).

In [None]:
tips_df[(tips_df['sex'] == 'Male') & (tips_df['day'] == 'Sun')].head()

### Метод `.isin()`

Если нужно проверить вхождение в список из нескольких значений, вместо множества `|` (ИЛИ) удобнее использовать метод `.isin()`.

In [None]:
# Найдем все заказы, сделанные в выходные (суббота или воскресенье)
weekend_options = ['Sat', 'Sun']
tips_df[tips_df['day'].isin(weekend_options)].head()

## 8. Другие полезные методы

Рассмотрим несколько методов, которые часто используются в исследовательском анализе.

### `.sort_values()` — сортировка данных

In [None]:
# Сортировка по размеру чаевых (tip) по убыванию
tips_df.sort_values('tip', ascending=False).head()

### `.value_counts()` — подсчет уникальных значений

In [None]:
# Посчитаем, сколько заказов было в каждый день недели
tips_df['day'].value_counts()

### `.unique()` и `.nunique()`

- `.unique()` возвращает массив уникальных значений.
- `.nunique()` возвращает количество уникальных значений.

In [None]:
print(f"Уникальные дни: {tips_df['day'].unique()}")
print(f"Количество уникальных дней: {tips_df['day'].nunique()}")

## Резюме и следующие шаги

*   **Что мы узнали сегодня:**
    *   Pandas — это основной инструмент для работы с табличными данными в Python.
    *   Ключевые структуры данных — `Series` (столбец) и `DataFrame` (таблица).
    *   Данные легко загружаются из CSV-файлов с помощью `pd.read_csv()`.
    *   Первичный анализ включает методы `.head()`, `.info()`, `.describe()`.
    *   Мы научились выбирать, создавать и удалять столбцы.
    *   Освоили выборку строк по меткам (`.loc`) и позициям (`.iloc`).
    *   Научились фильтровать данные по одному и нескольким условиям.

*   **Что дальше?**
    *   На **сегодняшнем семинаре** мы закрепим эти навыки на практике.
    *   На **лабораторной работе** вы самостоятельно решите ряд задач на загрузку, осмотр и фильтрацию данных.
    *   На **следующей лекции** мы перейдем к более сложным темам: обработке пропущенных значений и агрегации данных (Group By).