## Знакомство с Pandas
Pandas - библиотека, которая содержит структуры данных и средства манипуляции данными, спроектированные с целью максимально упростить и ускорить очистку и анализ данных в Python.
Pandas предназначена для работы с табличными и неоднородными данными.

In [1]:
import numpy as np
import pandas as pd # Обычно импортруют pandas таким образом

### Введение в структуры данных pandas
Основными структурами данных в pandas являются `Series` и `DataFrame`. Они образуют солидную и простую для использования основу большинства приложений.

#### Объект `Series`
`Series` - **одномерный** похожий на массив объект, содержащий последовательность данных и ассоциированный с ним массив меток, который называется *индексом*. Простейший объект `Series` состоит только из массива данных:

In [2]:
obj = pd.Series([4, 7, -5, 3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

В строковом представлении Series, отображаемом в интерактивном режиме, индекс находится слева, а значения – справа. Поскольку мы не задали индекс для данных, то по умолчанию создается индекс, состоящий из целых чисел от 0 до N – 1 (где N – длина массива данных). Имея объект Series, получить представление самого массива и его индекса можно с помощью атрибутов `values` и `index` соответственно:

In [3]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

Часто желательно создать объект `Series` с индексом, идентифицирующим каждый элемент данных:

In [8]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


В отличие от массивов NumPy, для выделения одного или нескольких значений можно использовать метки в индексе:

In [10]:
print(obj2['a'])
print(obj2.a)
print(obj2[['c', 'a', 'd']])

-5
-5
c    3
a   -5
d    4
dtype: int64


Функции NumPy или похожие на них операции, например фильтрация с помощью булевой маски, скалярное умножение или применение математических функций, работают так же как с массивами NumPy.

In [12]:
print(obj2[obj2 > 0], '\n')
print(obj2 * 2, '\n')
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64 

d     8
b    14
a   -10
c     6
dtype: int64 

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


Объект `Series` можно также представить как упорядоченный словарь фиксированной длины. Его можно передавать функциям, ожидающим получить словарь:

In [13]:
print('b' in obj2)
print('e' in obj2)

True
False


Из словаря Python можно создать объект `Series`:

In [14]:
sdata = {"Ohio" : 35000, "Texas" : 71000, "Oregon" : 16000, "Utah" : 5000}
obj3 = pd.Series(sdata)

obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Если передается только словарь, то в индексе ключи будут храниться в порядке, который определяется методом словаря `keys` . Этот порядок можно переопределить, передав индекс, содержащий ключи словаря в том порядке, в каком они должны находиться в результирующем объекте `Series`:

In [15]:
states = ["California", "Ohio", "Oregon", "Texas"]

obj4 = pd.Series(sdata, index=states)

obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Для метки `'California'` никакого значения не нашлось в словаре, поэтому ему назначается `NaN`, которым в Pandas обозначаются отсутствующие значения.  
Для распознавания отсутствующих данных в Pandas следует использовать функции `isna` и `notna`:

In [17]:
print(pd.isna(obj4), '\n')
print(pd.notna(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool 

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


При выполнении арифметических операций объект Series автоматически выравнивает данные по индексной метке:

In [27]:
print(f"{'-'*20}\n", obj3)
print(f"{'-'*20}\n", obj4)
print(f"{'-'*20}\n",obj3 + obj4)


--------------------
 Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
--------------------
 California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
--------------------
 California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


И у самого объекта `Series`, и у его индекса имеется атрибут `name`, тесно связанный с другими частями pandas:

In [28]:
obj4.name = "population"
obj4.index.name = "state"

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Индекс объекта Series можно изменить на месте с помощью присваивания:

In [29]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### Объект `DataFrame`
Объект `DataFrame` представляет табличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем типы значений в разных столбцах могут различаться. В объекте `DataFrame` хранятся два индекса: для строк и для столбцов. Можно считать, что это словарь объектов `Series`, имеющих общий индекс.
Есть много способов сконструировать `DataFrame`, один из самых распространенных - на основе словаря списков одинаковой длины или массивов NumPy:

In [33]:
data =  {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Для больших объектов `DataFrame` метод `head(n)` отбирает только n первых строк (по умолчанию 5):

In [36]:
frame.head(3)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


Аналогично `tail(n)` возвращает последние n строк:

In [37]:
frame.tail(3)

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Если задать последовательность столбцов, то столбцы `DataFrame` расположатся в указанном порядке:

In [38]:
pd.DataFrame(data, columns=["year", "state"])

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


Если указать столбец, которого нет в `data`, то он будет создан и заполнен `NaN`:

In [46]:
frame2 = pd.DataFrame(data, columns=["state", "year", "pop", "debt"])
frame2

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,
5,Nevada,2003,3.2,


Столбец можно извлечь как объект `Series`, воспользовавшись ключом словаря или атрибутом:

In [47]:
print(frame2["state"])
print(f"{'-'*20}")
print(frame2.year)

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
--------------------
0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64


*Синтаксис frame2[column] работает для любого имени столбца, а frame2.column – **только когда имя столбца – допустимое имя переменной Python**, не конфликтующее с именами методов DataFrame. Например, если имя столбца содержит пробелы или еще какие-то специальные символы, отличные от знака подчеркивания, то употреблять его в качестве имени атрибута после точки нельзя.*

Столбцы можно модифицировать путем присваивания. Например, пустому столбцу debt можно было бы присвоить скалярное значение или массив значений:

In [49]:
frame2.debt = np.arange(6.)
frame2

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,0.0
1,Ohio,2001,1.7,1.0
2,Ohio,2002,3.6,2.0
3,Nevada,2001,2.4,3.0
4,Nevada,2002,2.9,4.0
5,Nevada,2003,3.2,5.0
