# Пакет `pandas`
программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки `NumPy`, являющейся инструментом более низкого уровня. 

---

**Источники:**

[pandas](https://ru.wikipedia.org/wiki/Pandas)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# для Linux
!which pip

# для Windows
# !pip -V

In [2]:
!conda install pandas -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [3]:
import pandas as pd

pd.__version__

'1.2.1'

## `DataFrame` и `Series`

### `Series`

`Series` представляет из себя объект, похожий на одномерный массив (`list`, например), но отличительной его чертой является **наличие ассоциированных меток**, т.н. **индексов**, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь (`dict`) в Python.

В строковом представлении объекта `Series`, индекс находится слева, а сам элемент справа.

Если индекс явно не задан, то `pandas` автоматически создаёт `RangeIndex` от `0` до `N-1`, где `N` - общее количество элементов.

In [4]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

У `Series` есть тип хранимых элементов (`dtype`), в данном случае это `int64`, т.к. переданы целочисленные значения.

У объекта `Series` есть атрибуты через которые можно получить список элементов и индексы, это `values` и `index` соответственно.

In [5]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

Доступ к элементам объекта `Series` возможны по их индексу (аналогично словарю и доступом по ключу).

In [7]:
my_series[4]

9

Индексы можно задавать явно:

In [8]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], 
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [9]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [10]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтровать `Series` различными способами, а также применять математические операции и многое другое:

In [11]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [12]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

Так как `Series` напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [13]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [14]:
'd' in my_series3

True

У объекта `Series` и его индекса есть атрибут `name`, задающий имя объекту и индексу соответственно.

In [15]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта `Series`.

Список с индексами по длине должен совпадать с количеством элементов в `Series`.

In [16]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

### `DataFrame`