Мы завершили изучать NumPy. Теперь переходим к библиотеке Pandas, которая расширяет возможности NumPy и предоставляет новые инструменты, которые позволяют обрабатывать и преобразовывать структурированные данные.

## Pandas

### Что такое Pandas и как её используют аналитики данных

**Pandas** — это библиотека, которая позволяет работать с табличными данными на Python. Если NumPy работает с многомерными массивами чисел, то Pandas добавляет к этому метаданные. Например, названия столбцов, индексы строк, автоматическое выравнивание данных при операциях. Pandas умеет делать всё то же, что Excel, но быстрее, эффективнее, и с более мощным функционалом.

**Библиотека Pandas строится на двух основных типах объектов:**
1. **Pandas Series** — это одномерный вектор данных с индексом.
2. **Pandas DataFrame** — это двумерная таблица, которая состоит из нескольких Series.

Если продолжать аналогию с Excel, то DataFrame — это сама таблица, а Series — это отдельный столбец или строка из этой таблицы. DataFrame состоит из набора Series, которые объединяются общей индексацией. 

### Pandas Series

**Series** — это одномерный массив данных, который объединяет в себе два компонента: массив значений и массив индексом. Каждое значение в Series имеет соответствующую метку в индексе. Эта структура похожа на словарь Python, где ключи — это индексы, а значения — это данные. При этом Series сохраняет порядок элементов и поддерживает операции с векторами как в NumPy.

Внутри Series хранит данные в NumPy-массиве, поэтому все вычисления выполняются быстро. Индекс добавляет элементам семантический слой, то есть безымянный массив чисел становится полноценной структурой, где каждый элемент что-то означает.

**Создадим первую Series, а также укажем тип данных и имя объекта:**

In [232]:
s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers')
s

0    1
1    2
2    3
Name: numbers, dtype: int32

Мы создали Series из трёх целых чисел типа `int32`. Левая колонка показывает индекс — это `0, 1, 2`. Правая колонка содержит сами значения — это `1, 2, 3`. Внизу Pandas указывает имя Series, то есть `numbers`.

Параметр `dtype` контролирует тип данных в массиве. Pandas поддерживает все типы NumPy:
- `int8`;
- `int16`;
- `int32`;
- `int64`;
- `float32`;
- `float64`;
- `bool`;
- `object`. 

Явное указывать тип позволяет сэкономить память компьютера и ускорить вычисления. Например, `int8` занимает 1 байт вместо 8 байтов в `int64`, что критично, когда мы работаем с большими данными.

Параметр `name` задаёт имя самой серии — это метаданные объекта. Pandas использует `name`, чтобы идентифицировать структуру данных. Когда мы объединим несколько Series в DataFrame, это имя станет названием столбца. Мы можем использовать методы `s.describe()` и `s.info()`, чтобы вывести информацию о данных.

**Когда мы выводим Series, мы видим две колонки:**
1. **Индекс** — слева.
2. **Значения** — справа.

Это не делает объект двумерным. Series остаётся одномерным вектором, а индекс отображается для наглядности. Индекс — это метаданные. Его полезно использовать, когда нужно выровнять данные.

**Каждый элемент Series использует одновременно два индекса:**
1. **Именованный, или label-based** — работает как ключ в словаре.
2. **Целочисленный, или position-based** — работает как индекс в списке или массиве NumPy.

Если мы не указываем именованный индекс явно, Pandas автоматически создаёт его из целых чисел. Например, `0, 1, 2, ...`. Это делает Series похожей на словарь, так как у нас есть доступ по ключу, и на список, потому что у нас есть доступ по позиции. Если мы обратимся к несуществующему ключу, Pandas выдаст ошибку `KeyError`, как словарь, а если мы обратимся по некорректной позиции, то получим ошибку `IndexError`, как с списком. 

Такая комбинация подходов делает Series и DataFrame объектами со сложным устройством, которые, тем не менее, можно гибко использовать.

**Именованный индекс решает три ключевые задачи при анализе данных:**
1. **Идентифицирует данные.** Именованный индекс предоставляет метаданные для каждой строки, позволяет посмотреть результат в консоле, а также делает визуализацию понятнее.

    **Создадим Series с датами:**

In [233]:
dates = pd.Series([100, 150, 120], index=['2024-01-01', '2024-01-02', '2024-01-03'], name='sales')
dates

2024-01-01    100
2024-01-02    150
2024-01-03    120
Name: sales, dtype: int64

2. **Сопоставляет элементы по индексу.** При операциях между Series Pandas автоматически сопоставляет элементы по индексу, а не по позиции.
    
    **Создадим две Series с разными индексами:**

In [234]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['b', 'c', 'd'])
result = s1 + s2
result

a     NaN
b    12.0
c    23.0
d     NaN
dtype: float64

Pandas сопоставил только общие метки 'b' и 'c', где выполнил сложение: `2 + 10 = 12` и `3 + 20 = 23`. Для уникальных меток вернулось `NaN` — это специальное значение для отсутствующих данных. Это помогает предовратить ошибки, если данные не совпадают.

3. **Упрощает выборку данных.** Именованный индекс позволяет интуитивно получать подмножества данных по меткам.

    **Создадим Series с городами:**

In [235]:
cities = pd.Series([12_000_000, 5_000_000, 1_200_000],
                    index=['Москва', 'Санкт-Петербург', 'Казань'],
                    name='population')
cities['Москва']

np.int64(12000000)

Мы обратились к населению Москвы по названию города, а не по позиции `0`.

Здесь можно привести аналогию с телефонным справочником. Вместо того, чтобы помнить, что номер друга находится на позиции `42`, мы находим его по имени. В базах данных это работает похожим образом, через первичные ключи. Хотя есть и отличия. Например, индексы Pandas не гарантируют уникальность и могут дублироваться.

**Создадим Series с произвольным буквенным индексом:**

In [236]:
s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

a    1
b    2
c    3
Name: numbers, dtype: int32

Теперь именованный индекс полностью отличается от целочисленных позиций и скрывает их при выводе. Мы видим буквы `a, b, c` слева от значений `1, 2, 3`. Целочисленная индексация никуда не исчезла, мы всё ещё можем обращаться к элементам по позициям `0, 1, 2`, просто интерфейс показывает только именованный индекс.

**Чтобы обратиться к элементу по именованному индексу, нужно использовать квадратные скобки, как это делается в словарях:**

In [237]:
s['a']

np.int32(1)

Мы получили значение `1`, которое соответствует индексу `a`.

**Кроме того, мы можем добавить новый элемент, как в словарь:**

In [238]:
s['u'] = 6
s

a    1
b    2
c    3
u    6
Name: numbers, dtype: int32

Мы добавили элемент с индексом `u` и значением `6`. Series расширилась за счёт новой строки в конце. 

**Чтобы получить все метки именованного индекса, используем свойство `.index`:**

In [239]:
s.index

Index(['a', 'b', 'c', 'u'], dtype='str')

Pandas вернёт объект `Index`, который содержит все метки индекса в том порядке, в котором они идут в Series. Это полезно, когда нужно проверить структуру данных или использовать индекс для следующих операций.

### Pandas DataFrame

Мы разобрались с Series, то есть с одномерным объектом Pandas. Теперь изучим DataFrame, который работает по тем же принципам, но добавляет второе измерение.

**DataFrame** — это двумерный массив табличных данных, который является анлалогом матрицы NumPy, где каждый столбец представляет собой отдельную Series.

**DataFrame имеет две оси индексации:**
1. Строковый индекс, как в Series.
2. Колоночный индекс, то есть названия столбцов.

Оба индекса работают по тем же принципам двойной индексации, что мы изучили для Series.

**Создадим DataFrame из случайной NumPy-матрицы:**

In [240]:
# Генерируем матрицу 5x3 из случайных чисел
m = np.random.rand(5, 3)

 # Создаём DataFrame из матрицы m
df = pd.DataFrame(m)

# Выводим таблицу
df

Unnamed: 0,0,1,2
0,0.253302,0.212737,0.61167
1,0.822471,0.6134,0.440069
2,0.661315,0.315993,0.62567
3,0.261041,0.591879,0.531112
4,0.223251,0.239121,0.57884


Pandas автоматически создал строковый индекс `0, 1, 2, 3 4` и колоночный индекс `0, 1, 2` — оба на основе RangeIndex. Таблица выглядит непривычно, потому что числа в заголовках столбцов не имеют смысла.

**Зададим столбцам понятные имена с помощью параметра `columns`:**

In [241]:
# Генерируем новую матрицу 5x3
m = np.random.rand(5, 3)

# Создаём DataFrame с именами столбцов
df = pd.DataFrame(

    # Передаём матрицу как данные
    data=m,

     # Задаём имена столбцов
    columns=['first', 'second', 'third'])

# Выводим таблицу
df

Unnamed: 0,first,second,third
0,0.527194,0.333356,0.758237
1,0.096783,0.85853,0.62054
2,0.702223,0.18171,0.661149
3,0.257576,0.355404,0.123789
4,0.666708,0.196752,0.001599


Теперь у каждой колонки есть название — `first`, `second` и `third`.

**Добавим текстовый столбец с именами, чтобы каждая строчка соответствовала строковому индексу:**

In [242]:
# Добавляем столбец `name` с именами
df['name'] = ['Dima', 'Ivan', 'Nikolay', 'Dima', 'Pavel'] 

# Выводим таблицу на экран
df

Unnamed: 0,first,second,third,name
0,0.527194,0.333356,0.758237,Dima
1,0.096783,0.85853,0.62054,Ivan
2,0.702223,0.18171,0.661149,Nikolay
3,0.257576,0.355404,0.123789,Dima
4,0.666708,0.196752,0.001599,Pavel


Pandas добавил столбец `name` в конец таблицы, а столбцы содержат данные разных типов. Например, столбцы `first`, `second` и `third` хранят тип `float64`, а столбец `name` хранит тип `object1`, то есть строки. В этом заключается основное отличие DataFrame от матрицы NumPy. Матрица NumPy хранит данные только одного типа, а DataFrame допускает разные типы в разных столбцах.

Квадратные скобки в DataFrame работают по колоночному индексу. Это отличает DataFrame от Series, где скобки работают по строковому индексу.

**Получим доступ к столбцу:**

In [243]:
# Обращаемся к столбцу `second` по имени в колоночном индексе
df['second'] 

0    0.333356
1    0.858530
2    0.181710
3    0.355404
4    0.196752
Name: second, dtype: float64

Pandas вернул столбец `second` как объект Series — со строковым индексом `0, 1, 2, 3, 4` и именем `second`. Каждый столбец DataFrame — это Series с общим строковым индексом таблицы. Так DataFrame строится из набора Series.

Кроме способа выше, существует ещё один, который позволяет обратиться к столбцу — с помощью атрибута объекта `df`.

**Получим доступ к столбцу вторым способом:**

In [244]:
# Обращаемся к столбцу `second` через атрибут объекта `df`
df.second

0    0.333356
1    0.858530
2    0.181710
3    0.355404
4    0.196752
Name: second, dtype: float64

Результат такой же, как если бы мы выполнили `df[second]`, но между этими способами есть разница. Мы не сможем обратиться по атрибуту объекта, если имя столбца содержит пробел, начинается с цифры  совпадает с именем встроенного атрибута

Теперь выберём несколько столбцов. **Чтобы это сделать, передадим список имён в квадратных скобках:**

In [245]:
# Выбираем столбцы `name` и `second` в заданном порядке
df[['name', 'second']] 

Unnamed: 0,name,second
0,Dima,0.333356
1,Ivan,0.85853
2,Nikolay,0.18171
3,Dima,0.355404
4,Pavel,0.196752


Pandas вернул столбцы в том порядке, в котором мы указали их в списке — `name` стоит первым, хотя в исходном DataFrame он последний. Порядок в списке полностью соответствует порядку столбцов в результате.

Стоит отметить, что результат выборки df['name'] и df[['name']] выглядит похоже, но вывод будет разным.

**Используем функцию `type()`, чтобы показать разницу:**

In [246]:
# Проверяем тип одиночной выборки
type(df['name'])

pandas.Series

In [247]:
# Проверяем тип выборки списком
type(df[['name']])

pandas.DataFrame

Как мы видим, `df['name']` возвращает Series, а `df[['name']]` возвращает DataFrame.

**Разница проявляется, когда мы вызываем методы, которые есть у Series, но отсутствуют у DataFrame:**

In [248]:
# Вызываем метод unique() на Series
df['name'].unique()

<StringArray>
['Dima', 'Ivan', 'Nikolay', 'Pavel']
Length: 4, dtype: str

In [249]:
# Обращаемся к атрибуту DataFrame
df[['name']].unique

AttributeError: 'DataFrame' object has no attribute 'unique'

Метод `.unique()` возвращает массив уникальных значений и доступен только у Series. DataFrame его не поддерживает, потому что таблица содержит несколько столбцов и применять `.unique()`, когда мы не указываем конкретный столбец, не имеет смысла.

**Если мы обратимся к DataFrame через целое число в квадратных скобках, то получим ошибку:**

In [None]:
df[0]

Дело в том, что Pandas ищет в колоночном индексе метку `0`, но не находит её, потому что наши стобцы называются `first`, `second`, `third` и `name`. В итоге мы получаем `KeyError`. Квадратные скобки с одним значением всегда работают по колоночному индексу, поэтому целое число `0` Pandas интепретирует как имя столбца, а не как позицию.

Вспомним срезы. Если передать в квадратные скобки срез через двоеточие, то DataFrame ведёт себя иначе.

**Выборка будет идти по строкам через целочисленную индексацию:**

In [250]:
# Берём строки с позиция 0 и 1 через срез
df[:2]

Unnamed: 0,first,second,third,name
0,0.527194,0.333356,0.758237,Dima
1,0.096783,0.85853,0.62054,Ivan


In [251]:
# Переворачиваем таблицу. Теперь строки идут от последней к первой
df[::-1]

Unnamed: 0,first,second,third,name
4,0.666708,0.196752,0.001599,Pavel
3,0.257576,0.355404,0.123789,Dima
2,0.702223,0.18171,0.661149,Nikolay
1,0.096783,0.85853,0.62054,Ivan
0,0.527194,0.333356,0.758237,Dima


Так, `df[:2]` возвращает DataFrame из первых двух строк — с позициями `0` и `1`. df[::-1] переворачивает таблицу. Строка с позицией `4` становится первой, а строка с позицией `0` — последней. Это поведение не следует из общей логики доступа по колоночному индексу и является неким артефактом Pandas, который нужно просто запомнить.

Для явного доступа к строкам и столбцам Pandas предоставляет методы `.loc[]` и `.iloc[]`, которые мы рассмотрим в следующих разделах.

Помимо Num-Py-матрицы, DataFrame удобно создавать из словаря.

**Ключи словаря становятся именами столбцов, а значения по ключам — данным столбцов**

In [252]:
# Создаём словарь с двумя ключами и задаём столбцем имён со столбцом возрастов
d = {'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
     'age': [24, 25, 30, 40]}

# Создаём DataFrame из словаря `d`
pd.DataFrame(d)

Unnamed: 0,name,age
0,Dmitry,24
1,Alexey,25
2,Vladimir,30
3,Elena,40


Как мы видим, Pandas автоматически создал строковый индекс `0, 1, 2, 3`. Для всех строк в словаре должны совпадать, иначе Pandas выдаст `ValueError`.

Есть ещё один способ создать DataFrame.

**Мы можем создать список словарей, где каждый словарь поисывает одну строку:**

In [253]:
# Создаём список из трёх словарей, который включает три строки
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
          {'a': 100, 'b': 200, 'c': 300, 'd': 400},
          {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000}]

# Создаём DataFrame из списка словарей
pd.DataFrame(mydict)

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


Pandas читает каждый словарь как одну строку, а ключи `a, b, c, d` становятся именами столбцов. Оба этих способа указывают на родство DataFrame и словаря Python.

**Выделим три основных признака сходства DataFrame и словаря:**
1. Доступ по именованному ключу.
2. Расширение через новый ключ.
3. Ошибка `KeyError`, если мы обращаемся к несуществующему ключу.

### Просмотр таблицы

Мы научились создавать DataFrame разными способами. Теперь разберёмся, как просматривать его содержимое и получать информацию о его структуре. По умолчанию Jupyter Notebook и Google Colab обрезают вывод больших таблиц.

**Посмотрим, как это работает:**

In [254]:
# Создаём DataFrame из 100 строк и смотрим на вывод
pd.DataFrame(np.random.rand(100, 2))

Unnamed: 0,0,1
0,0.024290,0.329392
1,0.567176,0.030316
2,0.279846,0.562205
3,0.842227,0.938905
4,0.853127,0.820280
...,...,...
95,0.270810,0.044730
96,0.132417,0.426048
97,0.126287,0.334424
98,0.011680,0.728443


Pandas показывает первые и последние пять строк, а середину скрывает. Это позволяет компьютеру на зависнуть, когда мы работаем с большими данными. На практике просматривать все строки таблицы вручную не нужно. Достаточно посмотреть на несколько строк, чтобы понять структуру таблицы и убедиться, что данные считались корректно.

**Чтобы просматривать строки, Pandas предоставляет три метода:**

In [255]:
# Берём первые 2 строки таблицы
df.head(2)

Unnamed: 0,first,second,third,name
0,0.527194,0.333356,0.758237,Dima
1,0.096783,0.85853,0.62054,Ivan


In [256]:
# Берём последние 2 строки таблицы
df.tail(2)

Unnamed: 0,first,second,third,name
3,0.257576,0.355404,0.123789,Dima
4,0.666708,0.196752,0.001599,Pavel


In [257]:
# Берём 2 случайные строки таблицы
df.sample(2)

Unnamed: 0,first,second,third,name
0,0.527194,0.333356,0.758237,Dima
3,0.257576,0.355404,0.123789,Dima


Как мы видим, все три методы возвращают DataFrame. Метод `.head()` помогает проверить начало таблицы сразу после загрузки. Метод `.tail()` показывает конец таблицы. Метод `.sample()` возвращает случайные строки, что полезно, когда нам нужно получить рандомный срез данных, который не зависит от порядка строк.

**Чтобы получить строковый и колоночный индексы таблицы, Pandas предоставляет свойства `.index` и `.columns`:**

In [258]:
# Получаем строковый индекс таблицы
df.index

RangeIndex(start=0, stop=5, step=1)

In [259]:
# Получаем колоночный индекс таблицы
df.columns

Index(['first', 'second', 'third', 'name'], dtype='str')

Оба свойства возвращают объект `Index`. Это тот же тип, который мы видели у Series.

**Поэтому для него работают индексация и срезы:**

In [260]:
# Берём имя второго столбца по позиции
df.columns[1]

'second'

In [261]:
# Берём имена столбцов с позиции 1 до 3, но не включаем 3
df.columns[1:3]

Index(['second', 'third'], dtype='str')

**Чтобы узнать форму таблицы, Pandas предоставляет свойство `.shape`:**

In [262]:
# Получаем количество строк таблицы
df.shape[0]

5

In [263]:
# Получаем количество столбцов таблицы
df.shape[1]

4

Свойство `.shape` возвращает кортеж. Первый элемент кортежа — это количество строк, а второй — количетсво столбцов. Например, для таблицы из 5 строк и 4 столбцов `.shape` вернёт (5, 4).

**Чтобы узнать типы данных столбцов, Pandas предоставляет свойства `d.types` и `df.info()`:**

In [264]:
# Получаем тип данных каждого столбца в виде Series
df.dtypes

first     float64
second    float64
third     float64
name          str
dtype: object

In [265]:
# Выводим сводку по структуре таблицы
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      str    
dtypes: float64(3), str(1)
memory usage: 292.0 bytes


Свойства `d.types` возвращает объект Series, где индекс — это имена столбцов, а значения — их типы.

**Метод `.info()` выводит более подробную информацию о таблице:**
- имена столбцов;
- количество непустых значений, или Non-Null Count;
- тип данных каждого столбца;
- объём памяти, который занимает таблица.

Граница `Non-Null Count` показывает, в каких столбцах есть пропуски. Если значение меньше общего числа строк, значит, в столбце есть `NaN`.

Чтобы изменить тип данных столбца, Pandas предоставляет метод `.astype()`. Он меняет тип данных в столбцах, которые мы указываем.

**Кроме того, ему можно передать словарь, где ключи — это имена столбцов, а значения — новые типы:**

In [266]:
# Меняем тип столбца `first` на `float64` с `float32`
df = df.astype({'first': np.float32})

In [267]:
# Проверяем, что тип столбца `first` изменился
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float32
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      str    
dtypes: float32(1), float64(2), str(1)
memory usage: 272.0 bytes


Pandas вернул новый DataFrame с изменённым типом столбца `first`. Исходный объект не меняется, поэтому мы присваем результат обратно в `df`.

**Сравним объём памяти при разных типах:**

In [268]:
# Смотрим, сколько памяти занимает `float16`
df.astype({'first': np.float16}).info()

<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float16
 1   second  5 non-null      float64
 2   third   5 non-null      float64
 3   name    5 non-null      str    
dtypes: float16(1), float64(2), str(1)
memory usage: 262.0 bytes


Разница составила 10 байт. На малом объёме данных профит от смены типа незначительный, но на таблице из миллиона строк разница между `float64` и `float16` позволит сэкономить память в четыре раза.

**Чтобы получить двумерный NumPy-массив из DataFrame, используем метод `.to_numpy()`:**

In [269]:
# Получаем NumPy-массив и берём все строки первых двух столбцов
df.to_numpy()[:, :2]

array([[0.5271944999694824, 0.33335581016425075],
       [0.0967828631401062, 0.858529945729552],
       [0.7022226452827454, 0.18171045814614417],
       [0.2575763165950775, 0.355404332595889],
       [0.6667082905769348, 0.19675216429294728]], dtype=object)

Pandas вернул данные без индекса и имён столбцов, а оставил только сами значения. Здесь возникает проблема, что столбец `name` хранит строки, а остальные столбцы хранят числа. NumPy не умеет хранить данные разных типов в одном массиве, поэтому приводит все значения к типу `object`. Это делает массив неподходящим для числовых вычислений NumPy. Именно поэтому мы берём только первые два числовых столбца через срез `[:, :2]`.

**Чтобы получить статистику по всем числовым столбцам, используем метод `.describe()`:**

In [270]:
# Получаем статистику по числовым столбцам
df.describe()

Unnamed: 0,first,second,third
count,5.0,5.0,5.0
mean,0.450097,0.385151,0.433063
std,0.263783,0.275925,0.3445
min,0.096783,0.18171,0.001599
25%,0.257576,0.196752,0.123789
50%,0.527194,0.333356,0.62054
75%,0.666708,0.355404,0.661149
max,0.702223,0.85853,0.758237


В выводе мы получаем DataFrame, где строки — это статистики, а столбцы — это числовые столбцы исходной таблицы.

**Строки таблицы содержат:**
- `count` — количество непустых значений в столбце;
- `mean` — среднее арифметическое значение;
- `std` — стандартное отклонение;
- `min` — минимальное значение;
- `25%`, `50%`, `75%` — первый, второй и третий квартили;
- `max` — максимальное значение.

Квартили делят отсортированный столбец на четыре равные части, а 50% — это медиана, то есть половина значений лежит ниже этой отметки, а половина выше.

**Строковый и колоночный индексы DataFrame — это одна и та же структура `Index`, только по разным осям:**
- строковый — по оси `axis=0`;
- колоночный — по оси `axis=1`.

Мы можем транспонировать таблицу с помощью метода `.T`, который поменяет индексы местами. То есть строки станут столбцами, а столбцы строками.

**Для этого используем свойство `.T`:**

In [271]:
# Транспонируем таблицу
df.T

Unnamed: 0,0,1,2,3,4
first,0.527194,0.096783,0.702223,0.257576,0.666708
second,0.333356,0.85853,0.18171,0.355404,0.196752
third,0.758237,0.62054,0.661149,0.123789,0.001599
name,Dima,Ivan,Nikolay,Dima,Pavel


Pandas поменял строки и столбцы местами. Теперь бывший колоночный индекс `first`, `second`, `third` и `name` стал строковым индексом, а бывший строковый индекс `0, 1, 2, 3, 4` стал колоночным. Это наглядно показывает, что оба индекса — это один и тот же тип объекта. 

### Сортировки

Мы научились просматривать структуру DataFrame. Теперь изучим, как упорядочить данные в таблице. С этим нам поможет сортировка.

**Сортировка** — это процесс, который изменяет таблицы и помогает упорядочить их.

**Для начала изучим метод `.sort_values()`, который позволяет упорядочить строки таблицы по значениям столбца, который мы указали:** 

In [272]:
# Сортируем строки по столбцу `first` от большего к меньшему
df.sort_values('first', ascending=False)

Unnamed: 0,first,second,third,name
2,0.702223,0.18171,0.661149,Nikolay
4,0.666708,0.196752,0.001599,Pavel
0,0.527194,0.333356,0.758237,Dima
3,0.257576,0.355404,0.123789,Dima
1,0.096783,0.85853,0.62054,Ivan


Параметр `ascending=False` задаёт порядок сортировки — `False` по убыванию, а `True` — по возрастанию, по умолчанию. То есть Pandas переставил строки так, что значения в строке `first` идут от максимального к минимальному. 

При этом давайте обратим внимание на строковый индекс. Он сохранил исходные метки `0, 1, 2, 3, 4` и переместился вместо со строками. Строка, которая была под индексом `3`, теперь стоит последней, но индекс остался при ней. Индекс привязывается к данным строки, а не к её позиции в таблице.

**Теперь давайте узнаем, как отсортировать строки по нескольким столбцам:**

In [273]:
# Сортируем сначала по `first`, а затем по `second`
df.sort_values(['first', 'second'])

Unnamed: 0,first,second,third,name
1,0.096783,0.85853,0.62054,Ivan
3,0.257576,0.355404,0.123789,Dima
0,0.527194,0.333356,0.758237,Dima
4,0.666708,0.196752,0.001599,Pavel
2,0.702223,0.18171,0.661149,Nikolay


Pandas сначал упорядочит строки по столбцу `first`, а затем внутри групп с одинаковыми значениями `first` упорядочит по столбцу `second`. Так как все значения в столбце `first` уникальные, сортировка по второму столбцу `second` не влияет на итоговый порядок строк. То есть у нас нет групп с одинаковыми значениями `first`, внутри которых нужно было бы упорядочить по `second`.

Если бы в столбце `first` были одинаковые значения, например, две строки со значением `0.5`, тогда эти две строк расположились бы рядом, а их порядок между собой определился бы по столбцу `second`.

**Чтобы задать разный порядок для разных столбцов, передадим список значений в параметр `ascending`:**

In [274]:
# Сортируем сначала `first` по возрастанию, а потом `second` по убыванию
df.sort_values(['first', 'second'], ascending=[True, False])

Unnamed: 0,first,second,third,name
1,0.096783,0.85853,0.62054,Ivan
3,0.257576,0.355404,0.123789,Dima
0,0.527194,0.333356,0.758237,Dima
4,0.666708,0.196752,0.001599,Pavel
2,0.702223,0.18171,0.661149,Nikolay


Pandas отсортировал столбец `first` по возрастанию, а столбец `second` по убыванию. Длина списка в `ascending` должна совпадать с количеством столбцов в первом параметре.

**Чтобы отсортировать строки по индексу, используем метод `.sort_index()`:**

In [275]:
# Сортируем строки по строковому индексу — от большего к меньшему
df.sort_index(ascending=False)

Unnamed: 0,first,second,third,name
4,0.666708,0.196752,0.001599,Pavel
3,0.257576,0.355404,0.123789,Dima
2,0.702223,0.18171,0.661149,Nikolay
1,0.096783,0.85853,0.62054,Ivan
0,0.527194,0.333356,0.758237,Dima


Pandas расположил строки так, что индекс идёт в порядке `4, 3, 2, 1, 0`. Содержимое столбцов переместилось вместе со своими индексами. Этот метод полезно использовать, когда индекс содержит дать или другие упорядоченные значения. 

**Чтобы отсортировать столбцы, используем параметр `axis`, который переключает направление сортировки с вертикального на горизонтальное:**

In [276]:
# Сортируем столбцы по именам в колоночном индексе от Z к A
df.sort_index(ascending=False, axis=1)

Unnamed: 0,third,second,name,first
0,0.758237,0.333356,Dima,0.527194
1,0.62054,0.85853,Ivan,0.096783
2,0.661149,0.18171,Nikolay,0.702223
3,0.123789,0.355404,Dima,0.257576
4,0.001599,0.196752,Pavel,0.666708


Pandas упорядочил столбцы по их именам в обратном алфавитном порядке: `third`, `second`, `name`, `first`. Здесь `axis=1` означает горизонтальную ось, то есть ось столбцов. Строки остались на своих местах, переставились только столбцы. По умолчанию `axis=0` работает с вертикальной осью, то есть с осью строк.

### Как использовать выборки и срезы

Мы научились сортировать данные в таблице. Теперь разберёмся, как выбирать нужные строки и столбцы. Pandas предоставляет несколько способ доступа к данным. У каждого есть свои особенности.

Сначала рассмотрим выборку через квадратные скобки. Мы уже видели, что квадратные скобки в DataFrame работают по-разному, в зависимости от того, что мы в них передаём. Давайте соберём все наши знания вместе.

**Если мы используем квадратные скобки с одним именем или списком имён, то мы выбираем столбцы по колоночному индексу:**

In [277]:
# Выбираем столбец `third` и получаем Series
df['third']

0    0.758237
1    0.620540
2    0.661149
3    0.123789
4    0.001599
Name: third, dtype: float64

In [278]:
# Выбираем столбцы `third` и `first` и получаем DataFrame
df[['third', 'first']]

Unnamed: 0,third,first
0,0.758237,0.527194
1,0.62054,0.096783
2,0.661149,0.702223
3,0.123789,0.257576
4,0.001599,0.666708


Первая ячейка возвращает Series, а вторая — DataFrame с двумя столбцами в указанном порядке.

При этом, если в квадратных скобках появляется срез, то поведение меняется.
**Выборка переключается на строки и использует целочисленные операции:**

In [279]:
# Берём строки с позиций `1, 2, 3` по целочисленному индексу
df[1:4]

Unnamed: 0,first,second,third,name
1,0.096783,0.85853,0.62054,Ivan
2,0.702223,0.18171,0.661149,Nikolay
3,0.257576,0.355404,0.123789,Dima


Pandas вернул три строки — со второй по четвёртую позицию, Правая граница `4` не включается, как в обычных списках Python.

Из-за этого возникает проблема. Как выбрать столбцы по целочисленным позициям? Как выбрать строки по именованному индексу? как сделать срез по столбцам? Квадратные скобки не дают такого контроля. **Для этого Pandas предоставляет методы `.loc[]` и `.iloc[]`.**

Метод `.loc[]` работает с именованными индексами для строк и столбцов.

**Сначала создадим строковый индекс с пятью буквами в алфавитном порядке место стандартного `0, 1, 2, 3, 4`:**

In [280]:
# Добавляем столбец для будущего индекса
df['new_index'] = pd.Series(['a', 'b', 'c', 'd', 'e'])

# Выводим таблицу с новым столбцом
df

Unnamed: 0,first,second,third,name,new_index
0,0.527194,0.333356,0.758237,Dima,a
1,0.096783,0.85853,0.62054,Ivan,b
2,0.702223,0.18171,0.661149,Nikolay,c
3,0.257576,0.355404,0.123789,Dima,d
4,0.666708,0.196752,0.001599,Pavel,e


**Теперь превратим столбец `new_index` в строковый индекс таблицы:**

In [281]:
# Делаем столбец `new_index` строковым индексом таблицы
df = df.set_index('new_index')

# Выводим таблицу с новым индексом
df

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,0.527194,0.333356,0.758237,Dima
b,0.096783,0.85853,0.62054,Ivan
c,0.702223,0.18171,0.661149,Nikolay
d,0.257576,0.355404,0.123789,Dima
e,0.666708,0.196752,0.001599,Pavel


Метод `.set_index()` убрал столбец `new_index` из данных и сделал его индексом. Буквы `a, b, e, c, g` теперь стоят слева вместо чисел `0, 1, 2, 3, 4`.

**Теперь используем `.loc[]`, чтобы выбрать строку по её метке в индексе:**

In [282]:
# Выбираем строку с индексом `b` по именованной метке
df.loc['b']

first     0.096783
second     0.85853
third      0.62054
name          Ivan
Name: b, dtype: object

Pandas вернул строку `'b'` как Series, то есть все знчаения этой строки с именами столбцеов в качестве индекса.

Метод `.loc[]` использует квадратные скобки, хотя это метод. Разработчики Pandas выбрали такой синтаксис, чтобы он напоминал обычные срезы и выборки из списка массивов.

**Следовательно, метод `iloc[]` поддерживает срезы по именованному индексу:**

In [283]:
# Берём строки от индекса `b` до индекса `c` включительно
df.loc['b':'c']

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
b,0.096783,0.85853,0.62054,Ivan
c,0.702223,0.18171,0.661149,Nikolay


Здесь есть важная особенность. Срез по именованном индексу включает обе границы — и левую, и правую. Обычные срезы Python включают только левую границу и исключают правую. Это нужно просто запомнить.

Мы также можем выбрать строки и столбцы одновременно.

**Метод `.loc[]` принимает два параметра через запятую: первый — для строк, а второй — для столбцов:**

In [284]:
# Берём строки от `b` до `c`, а также столбцы `second` и `third`
df.loc['b':'c', ['second', 'third']]

Unnamed: 0_level_0,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.85853,0.62054
c,0.18171,0.661149


Pandas вернул DataFrame из двух строк — `b` и `c`, а также двух столбцов — `second` и `third`. Первый параметр — срез строк, а  второй — список столбцов.

**Для столбцов можно также использовать срезы:**

In [285]:
# Берём все строки, а также столбцы от `name` до `first`
df.loc[:, 'name':'first']

a
b
c
d
e


Двоеточие без границ `:`, как мы знаем, означает "все элементы". Pandas вернул все строки и столбцы от `name` до `first` включительно по их порядку в колоночном индексе. Так как между `name` и `first` находилась только колонка `new_index`, Pandas вернул только её.

**Метод `.iloc[]` работает по тому же принципу, что и `.loc[]`, но использует целочисленные позиции вместо именованных меток:**

In [286]:
# Берём строки с позицией `1` и `2` по целочисленному индексу
df.iloc[1:3]

Unnamed: 0_level_0,first,second,third,name
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
b,0.096783,0.85853,0.62054,Ivan
c,0.702223,0.18171,0.661149,Nikolay


Pandas вернул строки с позиций `1` и `2` — это строки с индексами `b` и `c`. Правая граница среза `3` не включается, как в обычных Python-срезах.

**Метод `.iloc[]` также принимает два параметра — для строк и для столбцов:**

In [287]:
# Берём строки `0` и `2`, а также столбцы `0` и `2` по позициям
df.iloc[[0, 2], [0, 2]]

Unnamed: 0_level_0,first,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.527194,0.758237
c,0.702223,0.661149


Pandas вернул строки с позиций `0` и `2`, то есть индексы `a` и `e` и столбцы с позиций `0` и `2`, то есть столбцы `first` и `third`. Квадратные скобки `[[0, 2], [0, 2]] означают списки конкретных позиций, а не срезы.

### Чтение и запись данных

Мы научились выбирать данные из DataFrame разными способами. Теперь разберёмся, как загружать данные из файлов и сохранять результаты обратно на диск.

**Pandas поддерживает десятки форматов файлов:**
- CSV;
- Excel;
- JSON;
- SQL;
- Parquet;
- HDF5;
- и многие другие.

Для каждого формата есть функция `pd.read*()`, которая позволяет читать файлы, а также метод `.to_*()`, чтобы записывать файлы. Полный список форматов вы можете изучиь в [документации Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

В этом разделе и далее мы будем работать с датасетом `iris.csv`. Вы можете скачать его из каталога с файлами к лекциям.

Самый распространённый формат табличным данных — это CSV, или Comma-Separated Values. Функция `pd.read_csv()` позволяет читать такие файлы и создавать DataFrame.

**Давайте проверим, как она работает:**

In [288]:
# Импортируем библиотеку, чтобы работать с данными
import pandas as pd

# Читаем CSV-файл и создаём DataFrame
iris = pd.read_csv('iris.csv')

# Выводим таблицу
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Функция `pd.read_csv()` автоматически определила структуру файла — первая строка содержит имена столбцов, а значения разделяются запятыми. Pandas создал DataFrame, где первая строка файла стала колоночным индексом, а остальные строки — данными.  

**Функция `pd.read_csv()` предстваляет различные параметры, которые позволяют настроить чтение файла:**
- `sep` — задаёт разделитель столбцов, по умолчанию стоит запятая, но может быть точка с запятой и табуляция;
- `na_values` — указывает дополнительные значения, которые Pandas должен считать пропусками;
- `header` — указывает номер строки с именами столбцов, по умолчанию стоит `0`;
- `names` — задаёт имена столбцов вручную, если их нет в файле;
- `index_col` — указывает столбец, который нужно использовать строковый индекс.

**Например, если в файле вместо запятой используется точка с запятой, то нужно указать это в функции:**

In [None]:
# Читаем вымышленный CSV-файл c разделителем `;`
df = pd.read_csv('data.csv', sep=';')

Pandas предоставляет множество функций, которые позволяют читать файлы разных форматов. Давайте рассмотрим их с помощью автодополнения. Если вы работаете в IDE, то оно сработает автоматически, если в используете Jupyter Notebook, то нажмите `TAB`, чтобы появился список форматов:

In [None]:
# Вводим начало имени функции и смотрим на список доступных форматов
pd.read_

**Pandas покажет список всех функций, например:**
- `read_csv`;
- `read_excel`;
- `read_json`;
- `read_sql`;
- `read_parquet`;
- `read_hdf`;
- `read_feather`;
- и многие другие.

Каждая функция работает с учётом особенностей своего формата.

**Чтобы сохранить DataFrame в CSV, нужно использовать метод `.to_csv()`:**

In [None]:
# Сохраняем таблицу в CSV без индекса
iris.to_csv('iris_test.csv', header=True, index=False)

# Выводим список файлов в текущей папки
!ls

Параметр `header=True` записывает имена столбцов как первую строку файла. Параметр `index=False` говорит Pandas не записывать строковый индекс как отдельный столбец, без этого параметра Pandas добавит безымянную колонку с индексами `0, 1, 2, ...`, что обычно не нужно.

Команда `!ls` в Linux или MacOS, а также `!dir` в Windows показывают файлы в текущем каталоге. Если вы выполнили ячейку выше, то в вашей директории появится новый каталог `iris_test.csv`. Это значит, что Pandas успешно сохранил данные.

### Фильтрация данных по условию

Мы научились загружать данные из файлов. Теперь разберёмся, как отбирать строки, которые удовлетворяют условиям, которые мы сами зададим. Этот механизм называется **фильтрацией** или **выборкой по маске**. Сначала изучим, что такое **булева маска**.

В NumPy булева маска — это массив, который состоит из значений `True` или `False`, где каждый элемент соответствует элементу исходного массива. В Pandas механизм похож, но работает иначе, то есть **маска — это Series из `True` и `False` с тем же индексом, что и у исходного DataFrame**. Pandas сопоставляет значения маски с данными по индексу, а не по позиции.


**Создадим булеву маску, которая проверяет условие для каждой строки:**

In [None]:
# Проверяем каждое значение столбца на условие больше 5
iris['sepal.length'] > 5.0

Pandas вернул Series из `True` и `False` с тем же индексом, что у `iris`. Каждый элемент в Series показывает, выполняется ли условие для соответствующей строки. Если стоит `True`, то подходит, а если `False`, то нет.

**Теперь используем эту маску, чтобы отобрать строки, где условие вернуло `True`:**

In [None]:
# Отбираем строки, где условие вернуло `True`
iris[iris['sepal.length'] > 5.0]

Pandas вернул DataFrame, который содержит только те строки, где sepal.length больше `5.0`. Строки с `False` в маске отбросились. 

В Pandas можно комбинировать несколько условий.

**Например, логические операторы `&`, `|` и `~` позволяют комбинировать условия, которые нужно заключать в круглые скобки:**

In [None]:
# Отбираем строки по двум условиям сразу 
iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Оператор `&` возвращает `True` только там, где оба условия выполняются. Pandas отобрал строки, где длина Sepal больше 5.0 и ширина Sepal меньше или равна `3.0`.

Главная особенность масок Pandas заключается в том, что они привязаны к индексу, а не к позиции строк.

**Даже если мы отсортируем таблицу, маска всё равно отберёт правильные строки:**

In [None]:
# Сортируем таблицу и применяем ту же маску
iris.sort_values(['sepal.length', 'petal.length'])[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Сначала Pandas отсортировал строки по `sepal.length` и `petal.length`, а затем применил маску, которая содержит индексы исходной таблицы. Поэтому Pandas правильно сопоставил `True` и `False` с нужными строками, несмотря на то, что порядок поменялся. Это позволяет защититься от ошибок, когда мы работаем с данными в разном порядке.

В Pandas можно отфильтровать строки по набору значений.

**Чтобы это сделать, нужно использовать метод `.isin()`, который проверяет, содержится ли значение в списке, который мы укажем:**

In [None]:
# Выбираем столбец `variety` с видами ирисов
iris['variety']

# Проверяем, входит ли значение в список двух видов
iris['variety'].isin(['Setosa', 'Virginica'])

Метод `.isin()` вернул булеву Series, где `True` стоит у строк с видом `Setosa` или `Virginica`, а `False` — для остальных.

**Ячейка с кодом выше эквивалентна этой ячейке:**

In [290]:
(iris['variety'] == 'Setosa') | (iris['variety'] == 'Virginica')

0      True
1      True
2      True
3      True
4      True
       ... 
145    True
146    True
147    True
148    True
149    True
Name: variety, Length: 150, dtype: bool

Но метод `.isin()` позволяет проверить, есть ли значение `variety` в списка `Setosa` и `Virginica` быстрее.

**Мы также можем применить эту маску для фильтрации:**

In [291]:
# Отбираем строки только видов `Setosa` и `Virginica`
iris[iris['variety'].isin(['Setosa', 'Virginica'])]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Pandas вернул DataFrame без строк вида `Versicolor`. У нас остались только `Setosa` и `Virginica`.

### Вставка и изменение значений

Мы научились отбирать нужные строки по условиям. Теперь разберёмся, как менять значения в уже существующем DataFrame.

**В Pandas есть несколько способов, которые позволяют изменять данные. У каждого есть свои особенности:**
- `.loc[]` — изменяет элементы по именованным индексам и поддерживает изменение диапазонов;
- `.iloc[]` — изменяет элементы по целочисленным позициям, поддерживает изменение диапазонов;
- `.at[]` — изменяет один конкретный элемент по именованным индексам, работает быстрее для точечных изменений.

Методы `.loc[]` и `.iloc[]` универсальнее. Они позволяют изменить сразу несколько ячеек, а также целые строки и столбцы. При это размерность данных, которые мы вставляем, должна совпадать с размерностью диапазона, который мы выбрали.

**Давай узнаем, как изменить одно значение через `.iloc[]`. Для начала создадим новый DataFrame:**

In [292]:
# Создаём DataFrame из случайных чисел и генерируем матрицу 6x3
df = pd.DataFrame(np.random.rand(6, 3),
                  
                  # Задаём буквенный строковый индекс
                  index=['a', 'b', 'c', 'd', 'e', 'f'],
                  
                  # Задаём имена столбцов
                  columns=['first', 'second', 'third'])

# Выводим таблицу
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,0.937053,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
e,0.193622,0.807567,0.852273
f,0.317508,0.999014,0.579177


**Теперь изменим конкретное значение через `.iloc[]`:**

In [293]:
# Заменяем значение на пересечение строки b и стобца first
df.loc['b', 'first'] = 1.0

# Проверяем, что значение изменилось
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
e,0.193622,0.807567,0.852273
f,0.317508,0.999014,0.579177


Pandas заменил слусайное число в строке `b` столбца `first` на `1.0`. Первый параметр `.iloc[]` указывает строку по её индексу, а второй — столбец по его имени. 

Теперь давайте разберёмся, как изменить одно значение через `.at[]`.

**Метод `.at[]` работает так же, как и `.iloc[]`, но его используют, чтобы изменять одну ячейку:**

In [294]:
# Заменяем значение на пересечение строки `e` и столбца `second`
df.at['e', 'second'] = 100

# Проверяем, что значение изменилось
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
e,0.193622,100.0,0.852273
f,0.317508,0.999014,0.579177


Pandas заменил значение в строке `e` столбца `second` на значение `100`. Метод `.at[]` работает быстрее, чем метод `.iloc[]`, потому что не проверяет, возможно ли изменить диапазон.

### Работа с пропущенными значениями

Мы научились изменять значения в DataFrame. Теперь разберёмся с особым типом значений — пропусками. Пропущенные данные встречаются почти в любом датасете, и в Pandas есть инструменты, которые позволяют их обрабатывать. 

Пропущенное значение — это отсутствие данных в ячейке таблицы. Pandas обозначает пропуски двумя способами:
- `np.nan`, или `NaN` — для числовых столбцов;
- `None` — для нечисловых типов данных.

По умолчанию пропуски не участвуют в вычислениях. Например, сумма столбца с пропуском игнорирует эти ячейки, а среднее считается тоьлко по непустым значениям.

**Создадим несколько пропусков в таблице:**

In [295]:
# Заменяем значение на пропуск в строке `e` столбца `second`
df.at['e', 'second'] = np.nan

# Заменяем значение на пропуск в строке `e` столбца `third`
df.at['e', 'third'] = np.nan

# Проверяем таблицу с пропусками
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
e,0.193622,,
f,0.317508,0.999014,0.579177


Pandas показывает пропуски как `NaN` в ячейках. Строка `e` теперь содержит два пропуска.

**Чтобы найти пропуски в таблице, нужно использовать метод `.isna()`, который возвращает булеву маску, где `True` — это пропуск, а `False` — непустое значение:**

In [296]:
# Выводим булеву маску с пропусками для каждой ячейки
df.isna()

Unnamed: 0,first,second,third
a,False,False,False
b,False,False,False
c,False,False,False
d,False,False,False
e,False,True,True
f,False,False,False


Pandas вернул DataFrame той же формы, где `True` находится в позициях, где есть `NaN`.

**Чтобы посчитать общее количество пропусков, применим `.sum()` дважды:**

In [297]:
df.isna().sum().sum()

np.int64(2)

Первый `.sum()` считает пропуски в каждом столбце, а второй `.sum()` складывает эти числа. В результате мы получаем целое число пропусков по всей таблице.

**Мы также можем использовать метод `.info()`, чтобы узнать информацию о пропусках:**

In [298]:
# Выводим информацию по структуре таблицы с кол-вом непустых значений
df.info()

<class 'pandas.DataFrame'>
Index: 6 entries, a to f
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 364.0+ bytes


Колонка `Non-Null Count` показывает кол-во заполненных значений в каждом столбце. Если это число меньше общего количества строк, в столбце есть пропуски.

**Чтобы удалить строки с пропусками, используем метод `.dropna()`, который удаляет строки, если они содержат хотя бы один пропуск:**

In [299]:
# Выводим таблицу с пропусками
df

# Удаляем строки, где есть хотя бы один `NaN`
df = df.dropna()

# Проверяем таблицу
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
f,0.317508,0.999014,0.579177


Мы получили DataFrame без строки `e`. Pandas не модифицирует данные без явного указания, поэтому нам понадобилось присвоить DataFrame обратно, чтобы сохранить результат.

**Чтобы удалить столбцы с пропусками, используем параметр `axis=1`, он позволяет переключить удаление со строк на столбцы:**

In [300]:
# Заменяем значение на пропуск в строке `f` столбца `second`
df.at['f', 'second'] = np.nan

# Заменяем значение на пропуск в строке `f` столбца `third`
df.at['f', 'third'] = np.nan

# Проверяем таблицу с пропусками
df

Unnamed: 0,first,second,third
a,0.566565,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
f,0.317508,,


In [301]:
# Удаляем столбцы, где есть хотя бы один `NaN`
df.dropna(axis=1)

Unnamed: 0,first
a,0.566565
b,1.0
c,0.337858
d,0.941862
f,0.317508


Pandas удалил столбцы `second` и `third`, потому что они содержат пропуски. У нас остался только один столбец `first` без пропусков.

**В качестве альтернативного способа мы можем транспонировать таблицу, удалить строки и транспонировать обратно:**

In [302]:
# Транспонируем таблицу, удаляем строки-столбцы, транспонируем обратно
df.T.dropna().T

Unnamed: 0,first
a,0.566565
b,1.0
c,0.337858
d,0.941862
f,0.317508


Результат будет таким же, но код чуть сложнее.

**Чтобы заполнить пропуски одним значением, используем метод `.fillna()`:**

In [303]:
# Заменяем значение на пропуск в строке `a` столбца `first`
df.at['a', 'first'] = np.nan

# Выводим таблицу
df

Unnamed: 0,first,second,third
a,,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.020002,0.234468
f,0.317508,,


In [308]:
# Заполняем все NaN нулями
df = df.fillna(0)
df

Unnamed: 0,first,second,third
a,0.0,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.0,0.0
f,0.317508,0.0,0.0


Pandas заменил все `NaN` на `0`. Строка `f` теперь содержит нули в столбцах `second`, `third` и `first`.

**Чтобы заполнить каждый столбец своим значением, передадим словарь в `.fillna()`:**

In [309]:
# Заполняем `second` нулем, а `third` единицей
df = df.fillna({'second': 0, 'third': 1.0})
df

Unnamed: 0,first,second,third
a,0.0,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,0.0,0.0
f,0.317508,0.0,0.0


Pandas заменил пропуски в столбце `second` на `0`, а в столбце `third` на `1.0`. Столбцы, которые мы не указываем в словаре, остались без изменений.

**Теперь изучим несколько продвинутых методов для заполнения. Для начала создадим несколько пропусков:**

In [310]:
# Добавляем пропуск в строке `d` столбца `second`
df.at['d', 'second'] = np.nan

# Добавляем пропуск в строке `d` столбца `third`
df.at['d', 'third'] = np.nan

# Выводим таблицу
df

Unnamed: 0,first,second,third
a,0.0,0.273236,0.580792
b,1.0,0.747236,0.100959
c,0.337858,0.34587,0.607397
d,0.941862,,
f,0.317508,0.0,0.0


Теперь в таблице две строки с пропусками — `'d'` и `'e'`.

**Используем метод `bfill`, который заполняет пропуски, проходя с конца с таблицы к началу:**

In [316]:
# Заполняем пропуски значениями из следующих строк снизу вверх
df.bfill()

Unnamed: 0,first,second,third
a,0.760645,0.089072,0.758442
b,0.686433,0.197494,0.319297
c,0.146337,0.526707,0.531467
d,0.519291,0.182638,0.759924
e,0.08098,0.182638,0.759924
f,0.762349,0.182638,0.759924


Pandas прошёл по каждому столбце снизу вверх и заменил каждый `NaN` на первое заполненное значение ниже.

**Метод `ffill` работает в обратном направлении, то есть с начала таблицы к концу:**

In [318]:
# Заполняем пропуски значениями из предыдущих строк сверху вниз
df.ffill()

Unnamed: 0,first,second,third
a,0.760645,0.089072,0.758442
b,0.686433,0.197494,0.319297
c,0.146337,0.526707,0.531467
d,0.519291,0.526707,0.531467
e,0.08098,0.526707,0.531467
f,0.762349,0.182638,0.759924


Pandas прошёл по каждому столбцу сверху вниз и заменил каждый `NaN` на последнее непустое значение выше. Строка `d` получила значения из строки `c`, а строка `e` из строки `c`, потому что `d` тоже содержит пропуски.

Методы `bfill` и `ffill` используют для временных рядов. Например, если измерение пропущено в момент времени `t`, то обычно его заполняют значением из ближайшего момента времени.