### Библиотека Pandas

- возможности
- основные функции
- учебные ссылки

Pandas - отправная точка в анализе данных.

Применяется для EDA (exploratory data analysis).

Стандартные импорты:

In [3]:
import pandas as pd
import numpy as np

##### Типы данных

- Series: одномерный массив с меткой
- DataFrame: матрица из именованных столбцов-Series

#### Операции

Функция `Series.iloc[...]` - возврат значений строк по индексу(ам).

Функция `Series.loc[...]` - возврат значений строк по названию(ям) столбцов.

`df.info()` - информация о схеме дата-фрейма.

`df.dtypes()` - информация о типах данных колонок дата-фрейма.

`df.shape` - размер дата-фрейма.

`df.index` - возвращает индекс для дальнейшего обращения к `df`.

`df.column` - возвращает колонки `df`.

`df.reset_index` - сброс (мульти)индекса.

Удаление серии:
- функцией `del` Python;
- методом `DataFrame.pop()`;
- методом `DataFrame.drop()`: удаляет строки или столбцы.

`df.head(<num-rows>)` - взять первые `n` строк.

`df.tail(<num-rows>)` - взять последние `n` строк.

`df.set_option(...)` - установка параметров.

`df.info()` - информация о `DataFrame`.

`df.isna()` - возвращает значения NaN.

`df.dropna()` - удаляет значения NaN.

`df.fillna([<value>|<function>])` - заполняет значения NaN значением.

Статистики:

- `mean()`
- `std()`
- `min()`
- `max()`
- `unique()` - количество уникальных
- ...

`describe()` - посчитать все основные статистики.

`df.values()` - вернуть массив NumPy

`value_counts()` - количество значений (пример был на `bool`).

`sort_values()` - сортировать по столбцам.

Фильтрация: логическими операторами Python.


#### Дополнительные операции

Загрузка/выгрузка данных в различных форматах данных.


In [None]:
df = pd.read_csv('file.csv', header=0, skip_blank_lines=True)
df = pd.read_json('file.json')
df = pd.read_xml('file.xml')

chunker = pd.read_csv('file.csv', header=0, skip_blank_lines=True, chunksize=100)
# chunker - iterator

In [None]:
df = pd.read_csv('file.csv')
df.to_clipboard()
df.to_csv('file.csv')

#### Подготовка данных

`DataFrame.apply(<function>)` - применение функции к Series из DataFrame.

`DataFrame.map(<function>)` - применение функции ко всем ячейкам DataFrame.

#### Группировка и аггрегация

`DataFrame.groupby()` - группировка. Примеряется с дополнительной аггрегационной функцией.

`DataFrame.crosstab()` - возвращает матрицу сопряженностей (confusion matrix). Для показателей с булевскими значениями.

`DataFrame.pivot_table()` - возвращает сводную таблицу показателей с аггрегацией.

#### Слияния данных

`pd.merge(<df1>, <df1>)` - объединение DataFrame. Работает по аналогии с SQL `join`.

`DataFrame.join(<df_other>)` - объединение DataFrame.

`pd.concat(<df_other>)` - конкатенация дата-фреймов друг за другом.

In [None]:
data = {'Name': ['Ivan', 'Maria', 'Olga'], 'Age': [47.0, 42.0, 40.0]}
df = pd.DataFrame(data, index=('a', 'b', 'c'))
df

In [None]:
type(df)

In [None]:
df.iloc[0]

In [None]:
df.loc['a']

#### Графика

`df.plot()` - построение графика

`df.hist()` - построение гистограммы

##### Ссылки

- http://pandas.pydata.org
- учебные задачи на Pandas
  - https://grossmend.com/blog/post/pandas_120_part_1/
  - https://grossmend.com/blog/post/pandas_120_part_2/