# Pandas

`pandas` – это библиотека для анализа, очистки и преобразования данных табличных данных в Python. Она предоставляет мощные для работы с табличными (DataFrame) и одномерными (Series) данными. Последнее используется, как правило, для временны́х рядов, а первое, в подавляющем числе случаев, для всего остального.

Установка: `pip install pandas`. Если при виде этого хочется спросить: "И что с этим делать?", то ответ будет в прошлой части.

Импорт:

In [5]:
import pandas as pd
import numpy as np

## Series

Создадим простую последовательность.

In [8]:
data = [10, 20, 30, 40, 50] # обычный список
series = pd.Series(data)
print(series) 

0    10
1    20
2    30
3    40
4    50
dtype: int64


Обратим внимание, что индексы были проставлены автоматически. 

О поддержке numpy многими библиотеками мы в прошлый раз говорили не зря.

In [None]:
data = np.array(data) # массив numpy также поддерживается
series = pd.Series(data)
print(series)

Можем также сделать кастомную индексацию. Мы к ней ещё вернёмся позже.

In [13]:
series = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(series)

a    10
b    20
c    30
dtype: int64


## DataFrame

Датафрейм $\text{---}$ по сути табличные данные, как в реляционной БД или Excel (или его аналоге). 

Создадим его из словаря. Здесь ключи $\text{---}$ название столбцов, список в значениях $\text{---}$ строки каждого конкретного столбца.

In [33]:
data = {
    'Имя': ['Анна', 'Борис', 'Виктор'],
    'Возраст': [25, 30, 22],
    'Город': ['Москва', 'СПб', 'Казань']
}
df = pd.DataFrame(data)
print(df)

      Имя  Возраст   Город
0    Анна       25  Москва
1   Борис       30     СПб
2  Виктор       22  Казань


### Атрибуты `DataFrame`

In [29]:
df.shape # размер

(3, 3)

In [30]:
df.columns # Названия колонок

Index(['Имя', 'Возраст', 'Город'], dtype='object')

In [31]:
print(df.index) # Индексы строк

RangeIndex(start=0, stop=3, step=1)


* `start=0` $\text{---}$ индекс начинается с $0$,
* `stop=3` $\text{---}$ до трёх (не включая),
* `step=1` $\text{---}$ с шагом $1$. 

Если не передать аргументы в следующие две функции, то по умолчанию выведет 5 строк. Обычно используется head для получения представления о данных, что там есть вообще.

In [37]:
df.head(1) # Первая строка

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва


In [38]:
df.tail(1) # Последняя строка

Unnamed: 0,Имя,Возраст,Город
2,Виктор,22,Казань


***

Следующая вещь очень важна при анализе таблиц.

In [34]:
df.describe() # Общая информация о таблице

Unnamed: 0,Возраст
count,3.0
mean,25.666667
std,4.041452
min,22.0
25%,23.5
50%,25.0
75%,27.5
max,30.0


***

Если у нас кастомные индексы, то они не продолжатся автоматически. Убедитесь, что новая добавляемая последовательность не нарушает логику индексации старой (или убедитесь, что вас это не волнует в достаточной мере).

In [None]:
series = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
series = pd.concat([series, pd.Series([40])])
series
