## Знакомство с Pandas
Pandas - библиотека, которая содержит структуры данных и средства манипуляции данными, спроектированные с целью максимально упростить и ускорить очистку и анализ данных в Python.
Pandas предназначена для работы с табличными и неоднородными данными.

In [1]:
import numpy as np
import pandas as pd # Обычно импортруют pandas таким образом

### Введение в структуры данных pandas
Основными структурами данных в pandas являются `Series` и `DataFrame`. Они образуют солидную и простую для использования основу большинства приложений.

#### Объект `Series`
`Series` - **одномерный** похожий на массив объект, содержащий последовательность данных и ассоциированный с ним массив меток, который называется *индексом*. Простейший объект `Series` состоит только из массива данных:

In [2]:
obj = pd.Series([4, 7, -5, 3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

В строковом представлении Series, отображаемом в интерактивном режиме, индекс находится слева, а значения – справа. Поскольку мы не задали индекс для данных, то по умолчанию создается индекс, состоящий из целых чисел от 0 до N – 1 (где N – длина массива данных). Имея объект Series, получить представление самого массива и его индекса можно с помощью атрибутов `values` и `index` соответственно:

In [3]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

Часто желательно создать объект `Series` с индексом, идентифицирующим каждый элемент данных:

In [8]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


В отличие от массивов NumPy, для выделения одного или нескольких значений можно использовать метки в индексе:

In [10]:
print(obj2['a'])
print(obj2.a)
print(obj2[['c', 'a', 'd']])

-5
-5
c    3
a   -5
d    4
dtype: int64


Функции NumPy или похожие на них операции, например фильтрация с помощью булевой маски, скалярное умножение или применение математических функций, работают так же как с массивами NumPy.

In [12]:
print(obj2[obj2 > 0], '\n')
print(obj2 * 2, '\n')
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64 

d     8
b    14
a   -10
c     6
dtype: int64 

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


Объект `Series` можно также представить как упорядоченный словарь фиксированной длины. Его можно передавать функциям, ожидающим получить словарь:

In [13]:
print('b' in obj2)
print('e' in obj2)

True
False


Из словаря Python можно создать объект `Series`:

In [14]:
sdata = {"Ohio" : 35000, "Texas" : 71000, "Oregon" : 16000, "Utah" : 5000}
obj3 = pd.Series(sdata)

obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Если передается только словарь, то в индексе ключи будут храниться в порядке, который определяется методом словаря `keys` . Этот порядок можно переопределить, передав индекс, содержащий ключи словаря в том порядке, в каком они должны находиться в результирующем объекте `Series`:

In [15]:
states = ["California", "Ohio", "Oregon", "Texas"]

obj4 = pd.Series(sdata, index=states)

obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Для метки `'California'` никакого значения не нашлось в словаре, поэтому ему назначается `NaN`, которым в Pandas обозначаются отсутствующие значения.  
Для распознавания отсутствующих данных в Pandas следует использовать функции `isna` и `notna`:

In [17]:
print(pd.isna(obj4), '\n')
print(pd.notna(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool 

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool
