## Знакомство с Pandas
Pandas - библиотека, которая содержит структуры данных и средства манипуляции данными, спроектированные с целью максимально упростить и ускорить очистку и анализ данных в Python.
Pandas предназначена для работы с табличными и неоднородными данными.

In [1]:
import numpy as np
import pandas as pd # Обычно импортруют pandas таким образом

### Введение в структуры данных pandas
Основными структурами данных в pandas являются `Series` и `DataFrame`. Они образуют солидную и простую для использования основу большинства приложений.

#### Объект `Series`
`Series` - **одномерный** похожий на массив объект, содержащий последовательность данных и ассоциированный с ним массив меток, который называется *индексом*. Простейший объект `Series` состоит только из массива данных:

In [2]:
obj = pd.Series([4, 7, -5, 3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

В строковом представлении Series, отображаемом в интерактивном режиме, индекс находится слева, а значения – справа. Поскольку мы не задали индекс для данных, то по умолчанию создается индекс, состоящий из целых чисел от 0 до N – 1 (где N – длина массива данных). Имея объект Series, получить представление самого массива и его индекса можно с помощью атрибутов `values` и `index` соответственно:

In [3]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

Часто желательно создать объект `Series` с индексом, идентифицирующим каждый элемент данных:

In [4]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


В отличие от массивов NumPy, для выделения одного или нескольких значений можно использовать метки в индексе:

In [5]:
print(obj2['a'])
print(obj2.a)
print(obj2[['c', 'a', 'd']])

-5
-5
c    3
a   -5
d    4
dtype: int64


Функции NumPy или похожие на них операции, например фильтрация с помощью булевой маски, скалярное умножение или применение математических функций, работают так же как с массивами NumPy.

In [6]:
print(obj2[obj2 > 0], '\n')
print(obj2 * 2, '\n')
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64 

d     8
b    14
a   -10
c     6
dtype: int64 

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


Объект `Series` можно также представить как упорядоченный словарь фиксированной длины. Его можно передавать функциям, ожидающим получить словарь:

In [7]:
print('b' in obj2)
print('e' in obj2)

True
False


Из словаря Python можно создать объект `Series`:

In [8]:
sdata = {"Ohio" : 35000, "Texas" : 71000, "Oregon" : 16000, "Utah" : 5000}
obj3 = pd.Series(sdata)

obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Если передается только словарь, то в индексе ключи будут храниться в порядке, который определяется методом словаря `keys` . Этот порядок можно переопределить, передав индекс, содержащий ключи словаря в том порядке, в каком они должны находиться в результирующем объекте `Series`:

In [9]:
states = ["California", "Ohio", "Oregon", "Texas"]

obj4 = pd.Series(sdata, index=states)

obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Для метки `'California'` никакого значения не нашлось в словаре, поэтому ему назначается `NaN`, которым в Pandas обозначаются отсутствующие значения.  
Для распознавания отсутствующих данных в Pandas следует использовать функции `isna` и `notna`:

In [10]:
print(pd.isna(obj4), '\n')
print(pd.notna(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool 

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


При выполнении арифметических операций объект Series автоматически выравнивает данные по индексной метке:

In [11]:
print(f"{'-'*20}\n", obj3)
print(f"{'-'*20}\n", obj4)
print(f"{'-'*20}\n",obj3 + obj4)


--------------------
 Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
--------------------
 California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
--------------------
 California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


И у самого объекта `Series`, и у его индекса имеется атрибут `name`, тесно связанный с другими частями pandas:

In [12]:
obj4.name = "population"
obj4.index.name = "state"

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Индекс объекта Series можно изменить на месте с помощью присваивания:

In [13]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### Объект `DataFrame`
Объект `DataFrame` представляет табличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем типы значений в разных столбцах могут различаться. В объекте `DataFrame` хранятся два индекса: для строк и для столбцов. Можно считать, что это словарь объектов `Series`, имеющих общий индекс.
Есть много способов сконструировать `DataFrame`, один из самых распространенных - на основе словаря списков одинаковой длины или массивов NumPy:

In [14]:
data =  {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Для больших объектов `DataFrame` метод `head(n)` отбирает только n первых строк (по умолчанию 5):

In [15]:
frame.head(3)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


Аналогично `tail(n)` возвращает последние n строк:

In [16]:
frame.tail(3)

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Если задать последовательность столбцов, то столбцы `DataFrame` расположатся в указанном порядке:

In [17]:
pd.DataFrame(data, columns=["year", "state"])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


Если указать столбец, которого нет в `data`, то он будет создан и заполнен `NaN`:

In [18]:
frame2 = pd.DataFrame(data, columns=["state", "year", "pop", "debt"])
frame2

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,
5,Nevada,2003,3.2,


Столбец можно извлечь как объект `Series`, воспользовавшись ключом словаря или атрибутом:

In [19]:
print(frame2["state"])
print(f"{'-'*20}")
print(frame2.year)

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
--------------------
0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64


*Синтаксис frame2[column] работает для любого имени столбца, а frame2.column – **только когда имя столбца – допустимое имя переменной Python**, не конфликтующее с именами методов DataFrame. Например, если имя столбца содержит пробелы или еще какие-то специальные символы, отличные от знака подчеркивания, то употреблять его в качестве имени атрибута после точки нельзя.*

Столбцы можно модифицировать путем присваивания. Например, пустому столбцу debt можно было бы присвоить скалярное значение или массив значений:

In [20]:
frame2.debt = np.arange(6.)
frame2

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,0.0
1,Ohio,2001,1.7,1.0
2,Ohio,2002,3.6,2.0
3,Nevada,2001,2.4,3.0
4,Nevada,2002,2.9,4.0
5,Nevada,2003,3.2,5.0


Для удаления столбцов используется ключевое слово `del`, как и в обычном словаре. Добавим и удалим столбец `eastern`:

In [21]:
frame2['eastern'] = frame2['state'] == 'Ohio'
frame2

Unnamed: 0,state,year,pop,debt,eastern
0,Ohio,2000,1.5,0.0,True
1,Ohio,2001,1.7,1.0,True
2,Ohio,2002,3.6,2.0,True
3,Nevada,2001,2.4,3.0,False
4,Nevada,2002,2.9,4.0,False
5,Nevada,2003,3.2,5.0,False


*Новый столбец нельзя создать, пользуясь синтаксисом `frame2.eastern`.*

Для удаления столбца используем `del`:

In [22]:
del frame2['eastern']
frame2.columns

Index(['state', 'year', 'pop', 'debt'], dtype='object')

*Столбец, возвращенный в ответ на запрос к DataFrame по индексу, является **представлением**, а не копией данных. Следовательно, любые модификации этого объекта Series найдут отражение в  DataFrame. Чтобы скопировать столбец, нужно явно вызвать метод `copy` объекта Series.*

Если передать вложенный словарь объекту DataFrame, то pandas интерпретирует ключи внешнего словаря как столбцы, а внутреннего - как индексы строк:

In [23]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, 
               "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)

frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Объект DataFrame можно транспонировать:

In [24]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


Ключи внутренних словарей объединяются для образования индекса результата. Однако этого не происходит, если индекс задан явно:

In [25]:
pd.DataFrame(populations, index=[2001, 2002, 2003]) # столбец 2000 не создан

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Словари Series интерпретируются очень похоже:

In [26]:
pdata = {'Ohio': frame3["Ohio"][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


Если у объектов, возвращаемых при обращении к атрибутам `index` и `columns` объекта DataFrame, имеется атрибут name, то он также выводится:

In [27]:
frame3.index.name = 'year'
frame3.columns.name = 'state'

frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Объект DataFrame не имеет атрибута `name`. Метод `to_numpy` возвращает хранящиеся в нем данных в виде двумерного массива ndarray:

In [28]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Если у  столбцов DataFrame разные типы данных, то тип данных массива `values` будет выбран так, чтобы охватить все столбцы:

In [29]:
frame2.to_numpy()

array([['Ohio', 2000, 1.5, 0.0],
       ['Ohio', 2001, 1.7, 1.0],
       ['Ohio', 2002, 3.6, 2.0],
       ['Nevada', 2001, 2.4, 3.0],
       ['Nevada', 2002, 2.9, 4.0],
       ['Nevada', 2003, 3.2, 5.0]], dtype=object)

### Индексные объекты
В индексных объектах pandas хранятся метки вдоль осей и прочие метаданные. Любой массив или иная последовательность меток, указанная при конструировании Series и DataFrame, преобразуются в объект `Index`:

In [30]:
obj = pd.Series(np.arange(3), index=['a', 'b', 'c'])
index = obj.index
print(index)
print(index[1:])

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')


Индексные объекты неизменяемы, т. е. пользователь не может их модифицировать:

In [31]:
index[1] = 'd'

TypeError: Index does not support mutable operations

Несколько структур могут использовать совместно один и тот же объект, не опасаясь его повредить:

In [None]:
labels = pd.Index(np.arange(3))
print(labels)
obj2 = pd.Series([1.5, 2.5, 0], index=labels)
print(obj2)
print(obj2.index is labels)

Index([0, 1, 2], dtype='int64')
0    1.5
1    2.5
2    0.0
dtype: float64
True


Индексный объект ведет себя как множество (set) фиксированного размера. В отличие от множеств Python, индекс в pandas может содержать повторяющиеся метки:

In [32]:
pd.Index(('foo', 'bar', 'foo', 'bar'))

Index(['foo', 'bar', 'foo', 'bar'], dtype='object')