# Pandas

## 5.1. Введение в структуру данных Pandas

Чтобы начать работу с pandas, вы должны освоить две основные структуры 
данных: Series и DataFrame

### Объект Series

In [2]:
import numpy as np
import pandas as pd

In [18]:
obj = pd.Series([4,7,-5,3])
type(obj)
obj

0    4
1    7
2   -5
3    3
dtype: int64

 Имея объект Series, получить представление само
го массива и его индекса можно с помощью атрибутов values и index соответственно:

In [None]:
obj.values
#  Результатом применения атрибута .array является объект PandasArray, котoрый обычно обертывает массив NumPy
obj.array
obj.index

RangeIndex(start=0, stop=4, step=1)

 Часто желательно создать объект Series с индексом, идентифицирующим 
каждый элемент данных:

In [14]:
obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

В отличие от массивов NumPy, для выделения одного или нескольких значе
ний можно использовать метки в индексе

In [None]:
obj2['a']


-5

Функции NumPy или похожие на них операции, например фильтрация с по
мощью булева массива, скалярное умножение или применение математиче
ских функций, сохраняют связь между индексом и значением

In [19]:
obj2[obj2 > 0]
obj2 * 2 
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Объект Series можно также представлять себе как упорядоченный словарь 
фиксированной длины, поскольку он отображает индекс на данные. Его можно 
передавать многим функциям, ожидающим получить словарь:

In [21]:
"b" in obj2
'e' in obj2

False

 Если имеется словарь Python, содержащий данные, то из него можно создать 
объект Series

In [4]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata) # dict --> series
obj3.to_dict() # series --> dict

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

Если передается только словарь, то в индексе получившегося объекта Series 
ключи будут храниться в порядке, который определяется методом словаря keys 
и зависит от того, в каком порядке ключи вставлялись. Этот порядок можно 
переопределить, передав индекс, содержащий ключи словаря в том порядке, 
в каком они должны находиться в результирующем объекте Series

In [6]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Для распознавания отсутствующих данных в pandas следует 
использовать функции isna и notna

In [8]:
pd.isna(obj4)
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

 И у самого объекта Series, и у его индекса имеется атрибут name, тесно связан
ный с другими частями функциональности pandas

In [16]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Индекс объекта Series можно изменить на месте с помощью присваива
ния:

In [24]:
obj
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

## Объект DataFrame