# Работа с данными в Python

Данные обычно хранятся в виде **таблиц** (MS Excel, базы данных SQL, Hadoop MapReduce и т.д.)

Примеры операций с данными:
1. чтение и запись
2. просмотр (столбцы, строки, названия) и индексация
3. статистика, агрегатные функции
4. расчет новых значений
5. добавление/изменение/удаление строк и столбцов
6. поиск и фильтрация
7. сортировка
8. визуализация
9. переименование строк/столбцов
10. объединение нескольких таблиц
11. группировка значений и агрегация

## Формат CSV

**C**omma **S**eparated **V**alues – "значения, разделенные запятыми" (или другим разделителем).

В качестве примера рассмотрим набор данных с подробным описанием жилых домов в штате Айова, США (источник: соревнование [House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques) на платформе [Kaggle](https://www.kaggle.com)).

In [None]:
with open('train.csv', 'r') as datafile:
    data_lines = datafile.read().splitlines()

In [None]:
print data_lines[0]

In [None]:
print data_lines[1]

## Библиотека Pandas

[Pandas](http://pandas.pydata.org) не является частью языка Python. В Anaconda уже установлена, а в обычном Python нужно установить:

In [None]:
!pip install pandas

In [None]:
import pandas

In [None]:
pandas.

In [None]:
print pd.__version__

Важные "сущности":
- `pd.DataFrame` – таблица (двумерные данные)
- `pd.Series` – столбец/строка (одномерные данные)
- `pd.Index` – индекс (список названий строк/столбцов)

## Чтение/запись таблицы из файла CSV

Важные параметры:
- `sep=','` – разделитель (бывает `'\t'`, `';'`, `' '` и т.д.)
- `decimal='.'` – символ, отделяющий дробную часть (в русской локали бывает `','`)
- `encoding='utf8'` – кодировка (в Windows часто бывает `'cp1251'`)

In [None]:
df = pd.read_csv('train.csv', nrows=10)

In [None]:
type(df)

In [None]:
df.to_csv('train_head.csv')

## Просмотр таблицы и индексация

In [None]:
df = pd.read_csv('train.csv', nrows=100, index_col='Id')

### Часть таблицы

In [None]:
df

In [None]:
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 30)

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(5)

### Индекс и названия столбцов

In [None]:
df.shape

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.sample(5).index

In [None]:
df.T

In [None]:
print df.T.shape
print df.T.columns

### Базовая индексация

[Официальная документация](https://pandas.pydata.org/pandas-docs/stable/indexing.html)

#### Столбцы

In [None]:
df['SalePrice']

In [None]:
type(df['SalePrice'])

In [None]:
df['SalePrice'].index

In [None]:
df['SalePrice'].columns

In [None]:
df.Sale...

In [None]:
df[['SaleType', 'SalePrice']]

Вопрос: чем отличается `df['SalePrice']` от `df[['SalePrice']]`?

#### Строки

In [None]:
df.loc[1]

In [None]:
type(df.loc[1])

In [None]:
df.loc[1].index

In [None]:
df.loc[1].columns

In [None]:
df.loc[[1, 3, 4]]

#### Столбцы и строки

Если оба индекса – значения, то получаем один объект:

In [None]:
df.loc[3, 'YrSold']

Если один из индексов – список значений, то получаем `Series`:

In [None]:
df.loc[[1, 3, 4], 'SalePrice']

Если оба индекса – списки значений, то получаем `DataFrame`:

In [None]:
df.loc[[1, 3, 4], ['SalePrice', 'YrSold']]

Вместо списков могут быть срезы (`slice`):

In [None]:
df.loc[1:3, 'YrSold']

In [None]:
df.loc[:5, 'YrSold':'SalePrice']

Важное отличие от обычных питоновских срезов: срез берется до правого конца **включительно**.

#### Индексация по номерам

In [None]:
df.iloc[0]

In [None]:
df.iloc[0, :4]

In [None]:
df.iloc[-3:, -1]

В этом случае срезы работают как стандартные – исключая правый конец.

#### Резюме

- `df[•]` для столбцов (или `df.•`)
- `df.loc[•]` для строк
- `df.loc[•, •]` для строк и столбцов
- `df.iloc[•, •]` для доступа по номерам

## Информация о таблице

In [None]:
df.info(memory_usage='deep')

In [None]:
df.describe()

## Статистика и агрегатные функции

### Статистики для `Series`

Например, для столбцов:

In [None]:
df.LotArea.count()

In [None]:
df.LotFrontage.count()

In [None]:
df.LotArea.min()

In [None]:
df.LotArea.max()

In [None]:
df.LotArea.mean()

In [None]:
df.LotArea.median()

In [None]:
df.LotArea.std()

In [None]:
df.LotArea.var()

In [None]:
df.LotArea.quantile(0.25)

In [None]:
df.LotArea.quantile([0.0, 0.25, 0.5, 0.75, 1.0])

In [None]:
df.LotArea.sum()

Можно и для строк (и вообще для любых `Series`):

In [None]:
df.loc[1].count()

### Статистики для `DataFrame`

Вызывается так же, считается по умолчанию для каждого столбца ("вдоль строк"):

In [None]:
df.count()

Можно посчитать и для каждой строки ("вдоль столбцов"):

In [None]:
df.count(axis=1)

In [None]:
df[['LotArea', 'MasVnrArea', 'GrLivArea', 'GarageArea', 'PoolArea']].sum(axis=1)

In [None]:
df.min().min()

### Уникальные значения

In [None]:
df.Neighborhood.value_counts()

In [None]:
df.Alley.value_counts(dropna=False)

In [None]:
df.Alley.value_counts(dropna=False, normalize=True)

In [None]:
df.Neighborhood.nunique()

In [None]:
df.Neighborhood.unique()

## Расчет новых значений ("формулы")

### Арифметические операции

Бинарные операции со скаляром (одним значением) работают покомпонентно:

In [None]:
2 * df.LotArea

In [None]:
df.LotArea - 1000

In [None]:
(df.LotArea - df.LotArea.mean()) / df.LotArea.std()

Те же операции работают и для двух `Series`:

In [None]:
df.SalePrice / df.LotArea

In [None]:
df.LotArea + df.GarageArea

### Проверка условий

In [None]:
df.LotArea > 10000

In [None]:
df.SaleCondition == 'Normal'

In [None]:
df.GarageYrBlt > df.YearBuilt

In [None]:
df.Fence.isnull()

In [None]:
df.Fence.notnull()

In [None]:
df.LotConfig.isin(['Inside', 'Corner'])

In [None]:
~df.LotConfig.isin(['Inside', 'Corner'])  # "not"

In [None]:
(df.SalePrice < 100000) & (df.LotArea > 10000)  # "and"

In [None]:
(df.SalePrice < 100000) | (df.LotArea > 10000)  # "or"

### Более сложная математика

In [None]:
df.SalePrice**2

На самом деле, `pandas` использует внутри себя более низкоуровневую библиотеку `numpy` для научных вычислений, поэтому можно пользоваться математическими операциями из этой библиотеки:

In [None]:
import numpy as np

In [None]:
np.sqrt(df.LotArea)

In [None]:
np.log(df.SalePrice)

### Расчет произвольных функций

Для `Series`:

In [None]:
def price_class(price):
    return 'Low' if price < 200000 else 'High'

In [None]:
df.SalePrice.apply(price_class)

Для `DataFrame`:

In [None]:
def interesting(row):
    if (row['PoolArea'] > 0) and (row['SalePrice'] < 250000):
        return 'Interesting, has pool'
    elif row['SalePrice'] < 200000:
        return 'Interesting, no pool'
    else:
        return 'Too expensive'

In [None]:
df.apply(interesting, axis=1)

Вопрос: зачем пользоваться покомпонентными операциями и функциями, если можно сделать `apply`?

In [None]:
%%timeit
df.SalePrice**2

In [None]:
%%timeit
df.SalePrice.apply(lambda x: x**2)

## Добавление/изменение строк/столбцов

### Столбцы

Используем индексацию и правила расчета формул:

In [None]:
df['PricePerArea'] = df.SalePrice / df.LotArea

In [None]:
df

In [None]:
df['VeryUsefulColumn'] = 0

In [None]:
df

In [None]:
df.loc[[1, 3, 4], 'VeryUsefulColumn'] = 1

In [None]:
df

In [None]:
df.loc[[1, 3, 4], 'VeryUsefulColumn'] = [2, 4, 6]

In [None]:
df

In [None]:
df.loc[[1, 3, 4], 'VeryUsefulColumn'] = df.SalePrice

In [None]:
df

### Строки

In [None]:
df.loc[40] = 0

In [None]:
df

In [None]:
df.loc['count'] = df.count()

In [None]:
df

In [None]:
df.index

## Удаление строк/столбцов

### Столбцы

In [None]:
df.drop('VeryUsefulColumn', axis=1)

In [None]:
df.drop(['PricePerArea', 'VeryUsefulColumn'], axis=1)

In [None]:
df.drop(['PricePerArea', 'VeryUsefulColumn'], axis=1, inplace=True)

In [None]:
df

### Строки

In [None]:
df.drop(40, axis=0)

In [None]:
df.drop([40, 'count'], axis=0)

In [None]:
df.drop([40, 'count'], axis=0, inplace=True)

In [None]:
df

### Удаление дубликатов

In [None]:
df.drop_duplicates()

In [None]:
df.drop_duplicates(subset=['MSSubClass', 'MSZoning'])

### Удаление строк/столбцов с пропущенными значениями

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(how='all')

## Замена значений и переименование

Названия строк и столбцов:

In [None]:
df.rename(columns={'SalePrice' : 'Price', 'YrSold' : 'YearSold'})

In [None]:
df.rename(columns=str.upper)

Значения:

In [None]:
df.replace({'CentralAir' : {'Y' : True, 'N' : False}}).CentralAir

Замена пропущенных значений:

In [None]:
df.fillna(-1000)

## Фильтрация

### Фильтрация по названиям столбцов

In [None]:
df.filter(like='Garage')

In [None]:
df.filter(regex='Yr|Year')

### Фильтрация по содержимому

Используем индексацию и булевы операции:

In [None]:
df.loc[df.SaleCondition == 'Normal']

In [None]:
df.loc[df.SalePrice < 150000, 'Fence']

In [None]:
df.loc[df.SalePrice < 150000, ['PoolArea', 'Fence', 'SalePrice']]

## Сортировка

По индексу:

In [None]:
df.sort_index()

In [None]:
df.sort_index(ascending=False)

In [None]:
df.sort_index(axis=1)

По значениям:

In [None]:
df.sort_values('SalePrice')

In [None]:
df.sort_values(['SaleCondition', 'SalePrice'])

## Визуализация

[Официальная документация с примерами](https://pandas.pydata.org/pandas-docs/stable/visualization.html)

In [None]:
df = pd.read_csv('train.csv', index_col='Id')

In [None]:
# Заклинание, нужное для отрисовки графиков непосредственно в ноутбуке (подробнее в лекции 7)
%matplotlib inline
# Настройка стиля и размера графиков
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 6.0)
matplotlib.pyplot.style.use('ggplot')

In [None]:
df.SalePrice.plot()

In [None]:
df.SalePrice.plot.line()

In [None]:
df.SalePrice.hist(bins=50)

In [None]:
df.SalePrice.plot.density()

In [None]:
df.plot.scatter('LotArea', 'SalePrice', marker='.')

In [None]:
df[['SalePrice', 'LotArea']].hist(bins=20)