# Pandas

`Pandas` построен на поверх `NumPy` и предлагает эффективную реализациию `DataFrame`. `DataFrame`ы, в основе своей, яляются многомерными массивами с именами, привязанными к рядам и колонкам, и, часто, с гетерогенными типами данных или с отсутствующими данными. Вместе с предоставлением удобного хранилища и интерфейса доступа к именованным данными, `Pandas` реализовывает набор мощных операций с данными знакомым пользователям баз данных и электронных таблиц.

In [87]:
# Обычно Pandas импортируется как pd
import pandas as pd
import numpy as np

print("Pandas", pd.__version__)
print("NumPy", np.__version__)

Pandas 2.1.3
NumPy 1.26.2


На самом базовом уровне, объекты `Pandas` могут быть представлены как улучшенные версии структурированных массивов [NumPy](http://localhost:8888/doc/tree/NumPy.ipynb#%D0%A1%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5:-%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%BC%D0%B0%D1%81%D1%81%D0%B8%D0%B2%D1%8B-NumPy) в которых ряды и колонки идентифицируются по именам, а не по индексам.
Три фундаментальные структуры данных `Pandas`: `Series`, `DataFrame` и `Index`.

## Объекты типа `Series`

Объекты типа `Series` являются **одномерными** массивами с индексированными данными. Такие объекты могут быть созданы из списка:

In [88]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Как видно выше, **данные представлены как индексами, так и значениями**.

In [89]:
# значения
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [90]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

Как и в NumPy, доступ к данным может быть получен по индексам в традиционном для Python стиле:

In [91]:
data[1]

0.5

In [92]:
data[2:]

2    0.75
3    1.00
dtype: float64

Дальше мы увидим, что данные типа `Series` являются более обобщенными и гибкими чем одномерные массивы в `NumPy`.

### Объекты `Series` в качестве обобщенных массивов `NumPy`

Объекты `Series` в целом похожи на массивы `NumPy`, однако имеют одно существенное отличие, а именно: `NumPy` имеет _неявно определённый целочисленный индекс_ для доступа к элементам массива, объекты `Series` имеют _явно определенный индекс_, связанный со значениями. В качестве индекса для `Series` можно использовать любой доступный тип.

In [93]:
# для доступа к элементам используется индекс типа `str`
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [94]:
# доступ к элементу по индексу
data['a']

0.25

Мы можем даже использовать непоследовательные индексы:

In [95]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [96]:
data[5]

0.5

### `Series` в качестве специализированного словаря

`Series` - это структура, которая связывает _типизированные ключи_ с набором _типизированных значений_. Типизация очень важна здесь: для определенных операций информация о типах делает `Series` намного более эффективной структурой, чем стандартные словари Python.

In [97]:
# создание Series напрямую из словаря
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [98]:
population['California']

38332521

В отличие от словарей, `Series` поддерживает операции в стиле массивов, например срезы:

In [99]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

### Создание объектов типа `Series`

В общем, все объекты `Series` создаются таким образом:

```
>>> pd.Series(data, index=index)
```

Где `index` не является обязательным аргументом.

In [100]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [101]:
# data может быть скалярной величиной
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [102]:
pd.Series(range(10), range(0, 1000, 100))

0      0
100    1
200    2
300    3
400    4
500    5
600    6
700    7
800    8
900    9
dtype: int64

In [103]:
# создание на основе словаря
pd.Series({1: 'a', 3: 'c', 2: 'b'})

1    a
3    c
2    b
dtype: object

In [104]:
# Для словаря, с использованием аргумента `index` можно выбрать только те значения, которые требуются в данный момент
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

## Объект `DataFrame`

Так же как и объект `Series`, объект `DataFrame` можно рассматривать либо как обобщение массива `NumPy` либо как специализированную версию словаря Python.

### `DataFrame` как обобщение массива `NumPy`

Если `Series` является аналогом одномерного массива с гибкими индексами, то `DataFrame` - аналог двумерного массива с как гибкими индексами рядов, так и гибкими именами колонок. Можно представить `DataFrame` как последовательность выровненных по индексу объектов `Series`. "Выровненность" тут означает, что у них одинаковый индекс. Давайте это проиллюстрируем:

In [105]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

В объекте типа `DataFrame`, создаваемом ниже, оба объекта `Series` имеют одинаковые индексы (имена штатов), т.е. они выровнены по индексу. Сам объект `DataFrame` имеет индексы `population` и `area`.

In [106]:
# объект `population` был создан ранее
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Выше мы создали объект `DataFrame` с колонками `population` и `area`. Каждая из этих колонок является объектом типа `Series`:

In [107]:
print("Тип колонки `population`", type(states['population']))

Тип колонки `population` <class 'pandas.core.series.Series'>


In [108]:
# Доступ к колонке
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [109]:
# все индексы НИЗЛЕЖАЩИХ объектов Series
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [110]:
# все колонки
states.columns

Index(['population', 'area'], dtype='object')

In [111]:
# все индексы объекта `Series`
states['area'].index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [112]:
states['area']['California']

423967

### `DataFrame` как специализированный словарь

Мы также можем рассматривать `DataFrame` как специализированный словарь, в котором словарь "отражает" ключ на значение, `DataFrame` "отражает" имя колонки на данные колонки, т.е. объект типа `Series`. Например, атрибут `area` возвращает объект `Series` содержащий площади:

In [113]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Отметим, что в `NumPy` выражение `data[0]` возвращает первый **ряд**, Для `DataFrame` выражение `data['col0']` возвращает первую **колонку**. Поэтому, может быть удобнее представлять `DataFrame` как специализированный словарь.

### Создание объектов `DataFrame`

Далее рассмотрим различные способы создания объекта `DataFrame`.

#### Из единичного объекта `Series`

In [114]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Из списка словарей

In [115]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
# pd.DataFrame(data, index=range(100, 400, 100))
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Если какие-либо значения отсутствуют, то `pandas` заполнит их значениями `NaN`:

In [116]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Из словаря с объектами `Series`

In [117]:
# Создание DataFrame из словаря, значения которого представляю собой объекты типа Series
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### Из двумерного массива NumPy

Имя двумерный массив данных, мы можем создать объект `DataFrame` с указанием любых имён колонок и индексов. Если индекс не будет указан, то, по умолчаиню, будет создан целочисленный индекс:

In [118]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.933818,0.610923
b,0.597267,0.083614
c,0.005326,0.607062


#### Из структурированного массива NumPy

Мы рассказывали о структурированных массивах NumPy [ранее](https://jakevdp.github.io/PythonDataScienceHandbook/02.09-structured-data-numpy.html). `DataFrame` Pandas ведёт себя очень похоже на структурированный массив и может быть создан напрямую из структурированного массива:

In [119]:
# создаём структурированный массив NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [120]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Объект типа `Index`

Мы видели ранее, что объекты как типа `Series` так и типа `DataFrame` содержат явный индекс, который позволяет обращаться к данным и изменять эти данные. Объект типа `Index` сам по себе является интересной структурой данны и может быть представлен либо как неизменяемый массив (immutable array) или как упорядоченное множество (технически мульти-множество так как объект типа `Index` может содержать повторяющиеся значения). Такие особенности представления приводят к некоторым интересным последствиям в операциях, возможных с объектами типа `Index`. В качестве простого примера давайте создадим объект типа `Index` из списка целых чисел:

In [121]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### Объекты `Index` как неизменяемые массивы (immutable arrays)

Индексы поддерживают обычные операции на списках, доступные в Python:

In [122]:
ind[1]

3

In [123]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Объекты типа `Index` также имеют множество атрибутов знакомых по массивам `NumPy`.

In [124]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Одно из различий между объектами типа `Index` и массивами `NumPy` - это то, что индексы неизменяемые, т.е. их нельзя изменить обычными методами:

In [125]:
# выдаст ошибку
ind[1] = 0

TypeError: Index does not support mutable operations

Неизменяемость делает безопасным передачу индексов между различными объектами `DataFrame` и массивами, без потенциальногог риска получения побочных эффектов от непреднамеренного изменения индекса.

### Индекс в качестве упорядоченного множества

Объекты `Pandas` спроектировны для облегчения операций таких как соединения между различными наборами данных, которые (операции) записят от множества аспектов арифметики множеств. Объекты типа `Index` следуют многим соглашениям, используемым во встроенных структурых данных Python, таким образом объединения, пересечения, разности, и другие комбинации могут быть вычислены с помощью знакомых методов:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # intersection

In [None]:
indA.intersection(indB)  # intersection with methods

In [None]:
indA | indB  # union

In [None]:
indA.union(indB)  # union with methods

In [None]:
indA ^ indB  # symmetric difference

In [None]:
indA.symmetric_difference(indB)  # symmetric difference with methods

# Извлечение и индексирование данных

В этом разделе мы рассморим методы по доступу и изменению данных в Pandas. Сначала рассмотрим методы для более простого объекта - одномерного `Series`, а затем рассмотрим методы для более сложного - двумерного `DataFrame`.

## Извлечение данных в объектах типа `Series`

Как мы видели ранее, объекты типа `Series`, во многом, ведут себя как одномерные массивы `NumPy` и как обычные списки в Python. Такое перекрытие позволит нам легче понять принципы индексирования и извлечения данных из этих объектов.

### Объекты `Series` в качестве словарей

Как и стандартные словари, объекты типа `Series` обеспечивает связь между ключем и данными:

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

Мы даже можем использовать выражения, аналогичные словарям, для извлечения данных из объектов `Series`:

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

Объекты типа `Series` могут быть изменены аналогично словарям:

In [None]:
data['e'] = 1.25
data

In [None]:
data['d'] = 1.01
data

### `Series` в качестве одномерного массива

Объекты `Series` основаны на интерфейсе словарей и обеспечивают извлечение значений как в списках через механизмы массивов `NumPy`, таких как: срезы, маскирование и необычное индексирование (fancy indexing). Например:

In [None]:
# slicing by explicit index
data['a':'c']

In [None]:
data[:]

In [None]:
# slicing by implicit integer index
data[1:4]

Срезы могут быть источником путаницы. Обратите внимание, когда срез выполняется по явному индексу (например так `data['a':'c']`, **конечный индекс включается в срез**, а когда срез выполняется по неявному индексу (`data[0:2]`), **конечный индекс исключается из среза**.

In [None]:
# masking
data[(data > 0.3) & (data < 0.8)]

In [None]:
# fancy indexing
data[['a', 'e']]

### Индексаторы: loc, iloc, and ix

Упомянутые выше соглашения о срезах и индексирование, могут быть источником путаницы. Например, если объект `Series` использует явный целочисленный индекс, операция индексирования, такая как `data[1]`, будет использовать явные индексы, тогда как операция среза, такая как `data[1:3]`, будет использовать неявный индекс в стиле Python.

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
# явный индекс (explicit index) при индексном доступе
data[1]

Операция `data[1]` извлекает значение из объекта, с индексом равным `1`, в данном случае это первый индекс в `Series`. Фактически это больше похоже на словари, где ключи - это индексы, т.е. в данном случае `1` - это ключ, а не индекс в списке в традиционном понимании Python. Операция `data[0]` вернет ошибку, так как ключа `0` нет в данном объекте `Series`:

In [None]:
data[0]

In [None]:
# неявные индексы (implicit index) при срезе
data[1:3]

Операция `data[1:3]` - это уже срез и здесь используются неявные индексы, т.е. `1` и `3` здесь являются именно индексами в понимании списков Python, т.е. порядковыми номерами элементов в объекте `Series`. Поэтому операция типа `data[0:]` возможна:

In [None]:
data[0:]

Из-за возможной подобной путаницы с целочисленными индексами, Pandas предлагает несколько специальных атрибутов-индексеров, которые явно задают использование определённых схем индексирования. Такие атрибуты не являются методами, однако обеспечивают определённый интерфейс для срезов данных в объектах `Series`.

Дла начала, атрибут `loc` обеспечивает индексирование и срезы, которые всегда обозначают явные индексы:

In [None]:
# аналогично data[1]
data.loc[1]

In [None]:
# используются ЯВНЫЕ индексы, `data[1:3]` возвращает другие данные!!!
data.loc[1:3]

Атрибут `iloc` всегда обеспечивает индексирование и срезы на основе неявных индексов в стиле Python:

In [None]:
# неявное индексирование, операция с явным индексом `data[1]` возвращает `a`!!!
data.iloc[1]

In [None]:
# аналогична операции `data[1:3]`
data.iloc[1:3]

Третий атрибут индексирования, `ix` - является гибридом двух предыдущих и для объектов `Series` считается эквивалентом стандартного []-индексирования. Цель индексера `ix` станет более понятной в контексте объектов `DataFrame`, которые мы будем скоро рассматривать.

**Атрибут `.ix` недоступен в Pandas версии 2.1.х.**

Один из главных принципов кода на Python, является принцип "явное лучше чем неявное". Явная природа индексеров `loc` и `iloc` делает их очень полезными для обеспечения чистого и читаемого кода; особенно в случае целочисленных индексов, я рекомендую использовать оба индексера, чтобы сделать код легким для чтения и понимания и для предотвращения трудноуловимых ошибок из-за смешения соглашений об индексировании/срезах.

## Извлечение данных в объектах типа `DataFrame`

Объекты `DataFrame` во многом ведут себя как двумерный или структурированный массив и, в других случаях, как словарь объектов `Series` имеющих одинаковый индекс. Эти аналогии могут помочь понять извлечение данных из структуры `DataFrame`.

### `DataFrame` в качестве словаря

В качестве первой аналогии мы рассмотрим `DataFrame` в качестве словаря связанных между собой объектов `Series`:

In [127]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Отдельные объекты `Series`, которые составляют клонки `DataFrame`, могут быть получены через индексирование в стиле словарей, т.е. через имя колонки:

In [128]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [130]:
# В качестве альтернативы `data['area']`, можно использовать доступ к колонкам через атрибут
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [132]:
# оба подхода возвращают совершенно один и тот же объект
data['area'] is data.area

True

Хотя доступ к колонкам через атрибуты является достаточно удобным, пожалуйста имейте ввиду, что этот подход не работает в некоторых случаях!
Например, если имя колонки не является строкой или имя колонки совпадает с методами класса `DataFrame`, доступ через атрибуты не является возможным. Например, `DataFrame` имеет метод `pop()`, таким образом `data.pop` указывает на метод, а не на колонку "pop":

In [133]:
data.pop is data['pop']

False

В частности, вы должны избегать попыток использовать присвоение через атрибут (используйте `data['pop'] = z`, а не `data.pop = z`).

По аналогии с объектами `Series`, рассмотренными ранее, такое подход в стиле словарей, может быть использоват для изменения объекта, в данном примере добавляется новая колонка:

In [135]:
# этот пример также показывает поэлементные операции с объектами типа `Series`
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### `DataFrame` в качестве двумерного массива

Как было указано ранее, мы также можем представить `DataFrame` как улучшенный двумерный массив. Мы можем исследовать сырые низлежащие данные в массиве через использование атрибута `values`:

In [137]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

С учётом вышеизложенного, многие знакомые наблюдения с массивами могут быть применимы также к `DataFrame`. Например, мы можем транспонировать все данные в `DataFrame` (поменять ряды с колонками):

In [140]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


Однако, когда дело доходит до индексирования объектов `DataFrame`, становится ясно, что индексирование колонок в словарном стиле не позволяет нам просто рассматривать его как массив `NumPy`. В частности, передача одного индекса в массив обеспечивает доступ к ряду:

In [142]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

а передача одного "индекса" в `DataFrame` обеспечивает доступ к колонке:

In [143]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Таким образом, для индексирования в стиле массивов, нам требуется новое соглашение. И Pandas опять предлагает индексеры `loc`, `iloc` и `ix`. Используя индексер `iloc`, мы можем индексировать базовый массив как будто он является обыкновенным массивом `NumPy` (используя неявный индекс в стиле Python), однако индекс `DataFrame` и метки колонок сохраняются в выдаваемом результате:

In [148]:
# извлечь первые ТРИ строки и первые ДВЕ колонки
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


Аналогичным образом, используя индексер `loc`, мы можем индексировать базовые данные в стиле массива, но используя явные индексы и имена колонок:

In [149]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Индексер `ix` предлагает гибрид этих двух подходов:

In [152]:
# Атрибут .ix[] недоступен в Pandas версии 2.1.x
# data.ix[:3, :'pop']

Любые, знакомые по `NumPy` подходы к извлечению данных могут быть использованы с указанными индексерами. Например, в индексере `loc` мы можем использовать маскирование и необычное (fancy) индексирование:

In [155]:
# извлечь данные, где densicy больше 100 и только колонки pop и density
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Любые из рассмотренных соглашений по индексированию могут также быть использованы для установки или изменения значений; это выполняется стандартным способом к которому вы можете уже быть привычны после работы с `NumPy`:

In [157]:
# в ячейку с адресом: строка 0, колонка 2, записать значение 90.
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Дополнительные соглашения об индексировании

Есть несколько дополнительных соглашений об индексировании, которые могут показаться противоречащими предыдущему обсуждению, но, тем не менее, могут быть очень полезны на практике. Во-первых, в то время как индексирование относится к столбцам, срезы относятся к строкам:

In [160]:
# мы используем срез, который выбирает данные ПО СТРОКАМ!!!
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Подобные срезы также обращаются к рядам по номеру, а не по индексу:

In [163]:
# выбрать строки со второй по третью (включительно)
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


Аналогичным образом, прямые операции маскирования исполняются по рядам, а не по колонкам:

In [165]:
# выбрать ряды (строки), в которых плотность больше 100
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


https://jakevdp.github.io/PythonDataScienceHandbook/03.03-operations-in-pandas.html