# Pandas

## 5.1. Введение в структуру данных Pandas

Чтобы начать работу с pandas, вы должны освоить две основные структуры 
данных: Series и DataFrame

### Объект Series

In [2]:
import numpy as np
import pandas as pd

In [None]:
obj = pd.Series([4,7,-5,3])
type(obj)
obj

array([ 0.04977654, -1.6408416 ,  0.81442937,  0.62410222, -1.23430732])

 Имея объект Series, получить представление само
го массива и его индекса можно с помощью атрибутов values и index соответственно:

In [None]:
obj.values
#  Результатом применения атрибута .array является объект PandasArray, котoрый обычно обертывает массив NumPy
obj.array
obj.index

RangeIndex(start=0, stop=4, step=1)

 Часто желательно создать объект Series с индексом, идентифицирующим 
каждый элемент данных:

In [14]:
obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

В отличие от массивов NumPy, для выделения одного или нескольких значе
ний можно использовать метки в индексе

In [None]:
obj2['a']


-5

Функции NumPy или похожие на них операции, например фильтрация с по
мощью булева массива, скалярное умножение или применение математиче
ских функций, сохраняют связь между индексом и значением

In [19]:
obj2[obj2 > 0]
obj2 * 2 
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Объект Series можно также представлять себе как упорядоченный словарь 
фиксированной длины, поскольку он отображает индекс на данные. Его можно 
передавать многим функциям, ожидающим получить словарь:

In [21]:
"b" in obj2
'e' in obj2

False

 Если имеется словарь Python, содержащий данные, то из него можно создать 
объект Series

In [4]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata) # dict --> series
obj3.to_dict() # series --> dict

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

Если передается только словарь, то в индексе получившегося объекта Series 
ключи будут храниться в порядке, который определяется методом словаря keys 
и зависит от того, в каком порядке ключи вставлялись. Этот порядок можно 
переопределить, передав индекс, содержащий ключи словаря в том порядке, 
в каком они должны находиться в результирующем объекте Series

In [6]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Для распознавания отсутствующих данных в pandas следует 
использовать функции isna и notna

In [8]:
pd.isna(obj4)
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

 И у самого объекта Series, и у его индекса имеется атрибут name, тесно связан
ный с другими частями функциональности pandas

In [16]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Индекс объекта Series можно изменить на месте с помощью присваива
ния:

In [24]:
obj
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

## Объект DataFrame

Объект DataFrame представляет табличную структуру данных, состоящую из 
упорядоченной коллекции столбцов, причем типы значений (числовой, стро
ковый, булев и т. д.) в разных столбцах могут различаться. В объекте DataFrame 
хранятся два индекса: по строкам и по столбцам. Можно считать, что это сло
варь объектов Series, имеющих общий индекс

 Есть много способов сконструировать объект DataFrame, один из самых рас
пространенных – на основе словаря списков одинаковой длины или массивов 
NumPy

In [29]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data) 
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Для больших объектов DataFrame метод head отбирает только первые пять 
строк:

In [31]:
frame.head()
#Аналогично tail возвращает последние пять строк
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


 Если задать последовательность столбцов, то столбцы DataFrame располо
жатся строго в указанном порядке

In [32]:
pd.DataFrame(data, columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


 Если запросить столбец, которого нет в data, то он будет заполнен значения
ми NaN

In [46]:
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'])
frame2
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

 Столбец DataFrame можно извлечь как объект Series, воспользовавшись но
тацией словарей, или с помощью атрибута

!!Синтаксис frame2[column] работает для любого имени столб
ца, а frame2.column – только когда имя столбца – допустимое имя 
переменной Python, не конфликтующее с именами методов 
DataFrame. Например, если имя столбца содержит пробелы или 
еще какие-то специальные символы, отличные от знака подчер
кивания, то употреблять его в качестве имени атрибута после 
точки нельзя.

In [47]:
frame2['state']
frame2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

 Строки также можно извлечь по позиции или по имени с помощью спе
циальных атрибутов iloc и loc

In [54]:
frame2.loc[1]
frame2.iloc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

 Столбцы можно модифицировать путем присваивания. Например, пустому 
столбцу debt можно было бы присвоить скалярное значение или массив зна
чений:

In [63]:
frame2['debt'] = 16.5
frame2
frame2['debt'] = np.random.standard_normal(len(frame2['debt']))
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,-0.675946
1,2001,Ohio,1.7,-2.651603
2,2002,Ohio,3.6,-1.508432
3,2001,Nevada,2.4,0.525066
4,2002,Nevada,2.9,1.403859
5,2003,Nevada,3.2,-2.013364


Когда столбцу присваивается список или массив, длина значения должна со
впадать с длиной DataFrame. Если же присваивается объект Series, то его метки 
будут точно выровнены с индексом DataFrame, а в «дырки» будут вставлены 
значения NA

In [65]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


 Для удаления столбцов служит ключевое слово del, как и в обычном словаре. 
Для демонстрации работы del я сначала добавлю новый столбец булевых при
знаков, показывающих, находится ли в столбце state значение "Ohio"

In [84]:
frame2['eastern'] = frame2['state'] == 'Ohio'
frame2
# !!  Новый столбец нельзя создать, пользуясь синтаксисом frame2.eastern
frame2.eastern = frame2.state == 'Ohio'
frame2
#Затем для удаления этого столбца я воспользуюсь методом del
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Столбец, возвращенный в ответ на запрос к DataFrame по индек
су, является представлением, а не копией данных. Следователь
но, любые модификации этого объекта Series найдут отражение 
в DataFrame. Чтобы скопировать столбец, нужно явно вызвать 
метод copy объекта Series.

In [82]:
# frame2['state'] = 'Tashkent'
# frame2

In [85]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Tashkent,1.5,
1,2001,Tashkent,1.7,
2,2002,Tashkent,3.6,
3,2001,Tashkent,2.4,
4,2002,Tashkent,2.9,
5,2003,Tashkent,3.2,
