# Python для анализа данных

## Библиотека pandas

<img src="https://mipt-stats.gitlab.io/images/m/pandas.gif" width="800"><br>


Pandas &mdash; пакет для статистической обработки данных. Включает в себя функциональность работы с базами данных и таблицами Excel.

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as sps

import warnings
warnings.simplefilter("ignore", FutureWarning)

### 1. Тип данных `Series`

Одномерный набор данных. Отсутствующий данные записываются как `np.nan`. Например, в этот день термометр сломался или метеоролог забыл занести значения. При вычислении среднего и других операций соответствующие функции не учитывают отсутствующие значения.

In [76]:
l = [1, 3, 5, np.nan, 6, 8]
s = pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

**Полезно знать:** Для поиска пропусков есть специальный метод `.isna()`.

In [78]:
s.isna()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

Основная информация о наборе данных: количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, медиана, верхний квартиль, максимум, а так же тип данных.

In [77]:
s.describe()

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64

При создании набора данных `s` мы не указали, что будет играть роль индекса. По умолчанию это последовательность неотрицательных целых чисел 0, 1, 2, ...

In [17]:
s.index

RangeIndex(start=0, stop=6, step=1)

Но можно создавать наборы данных с индексом, заданным списком.

In [18]:
i = list('abcdef')
i

['a', 'b', 'c', 'd', 'e', 'f']

In [19]:
s = pd.Series(l, index=i)
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [20]:
s['c']

5.0

Если индекс &mdash; строка, то вместо `s['c']` можно писать `s.c`.

In [21]:
s.c

5.0

Более подробно ознакомиться с методами можно [в официальной документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html). 

### 2. Тип данных `DataFrame`

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно загрузить из файла или построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [79]:
d = {'one': pd.Series(range(6), index=list('abcdef')),
     'two': pd.Series(range(7), index=list('abcdefg')),
     'three': pd.Series(sps.norm.rvs(size=7), index=list('abcdefg'))}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two,three
a,0.0,0,1.319927
b,1.0,1,0.825006
c,2.0,2,0.485196
d,3.0,3,0.18337
e,4.0,4,1.612279
f,5.0,5,-0.599686
g,,6,0.230354


Посмотрим на первые 4 элемента таблицы

In [35]:
df.head(4)

Unnamed: 0,one,three,4th,flag,foo
a,0.0,-1.235233,0.0,False,0
b,1.0,-0.839011,1.0,False,0
c,2.0,-0.222887,4.0,False,0
d,3.0,1.828251,9.0,True,0


Индексы

In [36]:
df.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')

Названия колонок

In [37]:
df.columns

Index(['one', 'three', '4th', 'flag', 'foo'], dtype='object')

Получение обычной матрицы данных

In [38]:
df.values

array([[0.0, -1.2352330392624116, 0.0, False, 0],
       [1.0, -0.8390111633977286, 1.0, False, 0],
       [2.0, -0.2228866444280337, 4.0, False, 0],
       [3.0, 1.828250705558677, 9.0, True, 0],
       [4.0, 1.1405391924204462, 16.0, True, 0],
       [5.0, -0.5832730671850858, 25.0, True, 0],
       [nan, 2.9173187753112573, nan, True, 0]], dtype=object)

Описательные статистики

In [39]:
df.describe()

Unnamed: 0,one,three,4th,foo
count,6.0,7.0,6.0,7.0
mean,2.5,0.429386,9.166667,0.0
std,1.870829,1.553657,9.745084,0.0
min,0.0,-1.235233,0.0,0.0
25%,1.25,-0.711142,1.75,0.0
50%,2.5,-0.222887,6.5,0.0
75%,3.75,1.484395,14.25,0.0
max,5.0,2.917319,25.0,0.0


Сортировка по столбцу

In [48]:
df.sort_values(by='three', ascending=False)

Unnamed: 0,one,two,three
f,5.0,5,1.425844
c,2.0,2,0.614354
g,,6,0.515337
d,3.0,3,0.396896
e,4.0,4,-0.365069
a,0.0,0,-0.501688
b,1.0,1,-1.823476


**Упражнение:** Сгенерируйте массив точек в 3D, создайте по нему датафрейм и отсортируйте строки лексикографически.

In [41]:
pd.DataFrame(
    np.random.normal(size=(100, 3)),
    columns=['x', 'y', 'z']
).sort_values(by=['x', 'y', 'z'])

Unnamed: 0,x,y,z
42,-2.823948,-0.839001,0.679029
2,-2.589497,0.061419,-1.750104
41,-2.260849,0.446638,-0.213372
35,-2.107280,-0.496583,-0.866196
1,-1.941668,-1.206396,1.598398
...,...,...,...
98,2.005392,-1.033625,0.558520
56,2.181942,0.222958,-1.080702
93,2.255893,-0.458420,-0.233874
94,2.310911,1.343744,0.065648


#### 2.2 Индексация


Если в качестве индекса указать имя столбца, получится одномерный набор данных типа `Series`.

In [14]:
df['one']

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

К столбцу можно обращаться как к полю объекта, если имя столбца позволяет это сделать.

In [15]:
df.one

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

Получение элемента массива

In [81]:
df['one']['c']

2.0

В pandas есть несколько методов для индексации по данным. Логичнее работает метод `loc`: первая позиция &mdash; всегда индекс строки, а вторая &mdash; столбца.

In [49]:
df.loc['b']

one           1.0
three   -0.839011
4th           1.0
flag        False
foo             0
Name: b, dtype: object

In [50]:
df.loc['b', 'one']

1.0

In [51]:
df.loc['a':'b', 'one']

a    0.0
b    1.0
Name: one, dtype: float64

In [52]:
df.loc['a':'b', :]

Unnamed: 0,one,three,4th,flag,foo
a,0.0,-1.235233,0.0,False,0
b,1.0,-0.839011,1.0,False,0


In [53]:
df.loc[:, 'one']

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

Булевская индексация &mdash; выбор строк с заданным условием

In [82]:
df[df.three > 0]

Unnamed: 0,one,two,three
a,0.0,0,1.319927
b,1.0,1,0.825006
c,2.0,2,0.485196
d,3.0,3,0.18337
e,4.0,4,1.612279
g,,6,0.230354


#### 2.3 Изменение таблиц

К таблице можно добавлять новые столбцы.

In [83]:
df['4th'] = df['one'] * df['two']
df['flag'] = df['two'] > 2
df

Unnamed: 0,one,two,three,4th,flag
a,0.0,0,1.319927,0.0,False
b,1.0,1,0.825006,1.0,False
c,2.0,2,0.485196,4.0,False
d,3.0,3,0.18337,9.0,True
e,4.0,4,1.612279,16.0,True
f,5.0,5,-0.599686,25.0,True
g,,6,0.230354,,True


И удалять имеющиеся.

In [None]:
del df['two']
df['foo'] = 0
df

Изменение элемента

#### 2.4 Пропуски

Удаление всех строк с пропусками

In [63]:
df.dropna(how='any')

Unnamed: 0,one,two,three,4th,flag,one_tr
a,0.0,0,-0.12475,0.0,False,0.0
b,-1.0,1,-0.573688,1.0,False,-1.0
c,2.0,2,-0.568269,4.0,False,2.0


Замена всех пропусков на значение

In [64]:
df.fillna(value=666)

Unnamed: 0,one,two,three,4th,flag,one_tr
a,0.0,0,-0.12475,0.0,False,0.0
b,-1.0,1,-0.573688,1.0,False,-1.0
c,2.0,2,-0.568269,4.0,False,2.0
d,3.0,3,-0.726887,9.0,True,666.0
e,4.0,4,0.314317,16.0,True,666.0
f,5.0,5,-1.067167,25.0,True,666.0
g,666.0,6,0.482904,666.0,True,666.0


Замена всех пропусков на среднее по столбцу

In [73]:
df.fillna(value=df.mean())

Unnamed: 0,one,three,4th,flag,foo,one_tr
a,0.0,-0.501688,0.0,False,0,0.0
b,-1.0,-1.823476,1.0,False,0,-1.0
c,2.0,0.614354,4.0,False,0,2.0
d,3.0,0.396896,9.0,True,0,0.333333
e,4.0,-0.365069,16.0,True,0,0.333333
f,5.0,1.425844,25.0,True,0,0.333333
g,2.166667,0.515337,9.166667,True,0,0.333333


### 3. Чтение и запись данных

**Загрузка текстовых файлов табличного вида** производится с помощью функции `pd.read_csv`. Основные аргументы следующие:
* `filepath_or_buffer` &mdash; пусть к файлу;
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.);
* `header` &mdash; номер строки или список номеров строк, используемых в качестве имен колонок;
* `names` &mdash; список имен, которые будут использованы в качестве имен колонок;
* `index_col` &mdash; колонка, используемая в качестве индекса;
* `usecols` &mdash; список имен колонок, которые будут загружены;
* `nrows` &mdash; сколько строк прочитать;
* `skiprows` &mdash; номера строк с начала, которые нужно пропустить;
* `skipfooter` &mdash; сколько строк в конце пропустить;
* `na_values` &mdash; список значений, которые распознавать как пропуски;
* `parse_dates` &mdash; распознавать ли даты, можно передать номера строк;
* `date_parser` &mdash; парсер дат;
* `dayfirst` &mdash; день записывается перед месяцем или после;
* `thousands` &mdash; разделитель тысяч;
* `decimal` &mdash; разделитель целой и дробной частей;
* `comment` &mdash; символ начала комментария.

Полный список параметров:

`pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)`

**Загрузка таблиц формата Excel** производится с помощью функции `pd.read_excel`. Основные аргументы следующие:
* `io` &mdash; пусть к файлу;
* `sheetname` &mdash; какие листы таблицы загрузить;
* Остальные параметры аналогично.

`pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds)`

**Запись таблицы в текстовый файл** производится с помощью функции `df.to_csv`. Основные аргументы следующие:
* `df` &mdash; DataFrame, который нужно записать;
* `path_or_buf` &mdash; путь, куда записать;
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.);
* `na_rep` &mdash; как записать пропуски;
* `float_format` &mdash; формат записи дробных чисел;
* `columns` &mdash; какие колонки записать;
* `header` &mdash; как назвать колонки при записи;
* `index` &mdash; записывать ли индексы в файл;
* `index_label` &mdash; имена индексов, которые записать в файл.

Полный список параметров:

`df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, escapechar=None, decimal='.')`

**Запись таблицы в формат Excel** производится с помощью функции `df.to_excel`. Основные аргументы аналогичные. Полный список параметров:

`df.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)`

### 4. Примеры чтения данных и работы с датами

Прочитаем файл, который содержит два столбца &mdash; дата и число. Столбцы разделяются табуляцией.

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv('titanic.csv')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Выбор элементов с определенным значением столбца

In [5]:
data["Survived"][data["Survived"] == 1]

1      1
2      1
3      1
8      1
9      1
      ..
875    1
879    1
880    1
887    1
889    1
Name: Survived, Length: 342, dtype: int64

In [6]:
len(data["Survived"][data["Survived"] == 1]) / len(data) # процент выживших

0.3838383838383838

### Среднее значение 

In [7]:
data["Age"][data["Sex"] == 'male'].mean() # средний возраст мужчин на корабле

30.72664459161148

In [8]:
data["Age"][data["Sex"] == 'female'].mean() # средний возраст мужчин на корабле

27.915708812260537

## Описательные статистики

In [9]:
data["Age"][data["Sex"] == 'female'].describe()

count    261.000000
mean      27.915709
std       14.110146
min        0.750000
25%       18.000000
50%       27.000000
75%       37.000000
max       63.000000
Name: Age, dtype: float64

Уникальные значения

In [10]:
data["education"][data["salary"] == '<=50K'].unique()

KeyError: 'education'

## Группировка по значениям

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

* `df` &mdash; таблица, данные которой должны быть сгруппированы;
* `by` &mdash; задает принцип группировки. Чаще всего это имя столбца, по которому нужно сгруппировать. Может так же быть функцией;
* `axis` &mdash; ось (0 = группировать строки, 1 = группировать столбцы);
* `level` &mdash; если ось представлена мультииндексом, то указывает на уровень мультииндекса;
* `sort` &mdash; сортировка результата по индексу.

Результатом группировки является объект, состоящий из пар (имя группы, подтаблица). Имя группы соответствует значению, по которому произведена группировка. К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` &mdash; цикл по группам;
* `get_group(name)` &mdash; получить таблицу, соответствующую группе с именем `name`;
* `groups` &mdash; получить все группы в виде словаря имя-подтаблица;
* `count()` &mdash; количество значений в группах, исключая пропуски;
* `size()` &mdash; размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` &mdash; вывод описательных статистик;
* `aggregate(func)` &mdash; применение функции (или списка функций) `func` к группам.


In [13]:
data.groupby(["Race"]).describe()

KeyError: 'Race'

---

При подготовке использованы материалы https://inp.nsk.su/~grozin/python/ и http://pandas.pydata.org/pandas-docs/stable/10min.html