# Python для анализа данных

## Библиотека pandas

<img src="https://mipt-stats.gitlab.io/images/m/pandas.gif" width="800"><br>


Pandas &mdash; пакет для статистической обработки данных. Включает в себя функциональность работы с базами данных и таблицами Excel.

In [15]:
import numpy as np
import pandas as pd
import scipy.stats as sps

import warnings
warnings.simplefilter("ignore", FutureWarning)

### 1. Тип данных `Series`

Одномерный набор данных. Отсутствующий данные записываются как `np.nan`. Например, в этот день термометр сломался или метеоролог забыл занести значения. При вычислении среднего и других операций соответствующие функции не учитывают отсутствующие значения.

In [18]:
l = [1, 3, 5, np.nan, 6, 8]
s = pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

**Полезно знать:** Для поиска пропусков есть специальный метод `.isna()`.

In [19]:
s.isna()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

Основная информация о наборе данных: количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, медиана, верхний квартиль, максимум, а так же тип данных.

In [20]:
s.describe()

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64

При создании набора данных `s` мы не указали, что будет играть роль индекса. По умолчанию это последовательность неотрицательных целых чисел 0, 1, 2, ...

In [21]:
s.index

RangeIndex(start=0, stop=6, step=1)

Но можно создавать наборы данных с индексом, заданным списком.

In [22]:
i = list('abcdef')
i

['a', 'b', 'c', 'd', 'e', 'f']

In [23]:
s = pd.Series(l, index=i)
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [24]:
s['c']

5.0

Если индекс &mdash; строка, то вместо `s['c']` можно писать `s.c`.

In [25]:
s.c

5.0

Более подробно ознакомиться с методами можно [в официальной документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html). 

### 2. Тип данных `DataFrame`

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно загрузить из файла или построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [31]:
d = {'one': pd.Series(range(6), index=list('abcdef')),
     'two': pd.Series(range(7), index=list('abcdefg')),
     'three': pd.Series(np.random.uniform(size=7), index=list('abcdefg'))}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two,three
a,0.0,0,0.268796
b,1.0,1,0.985433
c,2.0,2,0.069805
d,3.0,3,0.075307
e,4.0,4,0.509473
f,5.0,5,0.978824
g,,6,0.65169


Посмотрим на первые 4 элемента таблицы

In [28]:
df.head(4)

Unnamed: 0,one,two,three
a,0.0,0,-0.594977
b,1.0,1,0.955032
c,2.0,2,0.512399
d,3.0,3,-1.774895


Индексы

In [32]:
df.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')

Названия колонок

In [33]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

Получение обычной матрицы данных

In [35]:
type(df.values)

numpy.ndarray

Описательные статистики

In [36]:
df.describe()

Unnamed: 0,one,two,three
count,6.0,7.0,7.0
mean,2.5,3.0,0.505618
std,1.870829,2.160247,0.388733
min,0.0,0.0,0.069805
25%,1.25,1.5,0.172052
50%,2.5,3.0,0.509473
75%,3.75,4.5,0.815257
max,5.0,6.0,0.985433


Сортировка по столбцу

In [48]:
df.sort_values(by='three', ascending=False)

Unnamed: 0,one,two,three
f,5.0,5,1.425844
c,2.0,2,0.614354
g,,6,0.515337
d,3.0,3,0.396896
e,4.0,4,-0.365069
a,0.0,0,-0.501688
b,1.0,1,-1.823476


**Упражнение:** Сгенерируйте массив точек в 3D, создайте по нему датафрейм и отсортируйте строки лексикографически.

In [39]:
pd.DataFrame(
    np.random.normal(size=(100, 3)),
    columns=['x', 'y', 'z']
).sort_values(by=['x', 'y', 'z'])

Unnamed: 0,x,y,z
47,-2.238156,0.235741,-0.689213
57,-2.133092,-0.439916,0.320929
68,-1.862131,0.511770,-0.054543
84,-1.776433,0.559297,-0.203693
7,-1.691691,-0.014992,0.783969
...,...,...,...
59,1.610313,0.711341,-0.282392
46,1.875340,1.259693,-1.375927
75,1.924673,-0.178484,0.029110
80,2.440299,-0.005219,1.265710


#### 2.2 Индексация


Если в качестве индекса указать имя столбца, получится одномерный набор данных типа `Series`.

In [40]:
df['one']

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

К столбцу можно обращаться как к полю объекта, если имя столбца позволяет это сделать.

In [41]:
df.one

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

Получение элемента массива

In [43]:
df['one']['c']

2.0

В pandas есть несколько методов для индексации по данным. Логичнее работает метод `loc`: первая позиция &mdash; всегда индекс строки, а вторая &mdash; столбца.

In [44]:
df.loc['b']

one      1.000000
two      1.000000
three    0.985433
Name: b, dtype: float64

In [45]:
df.loc['b', 'one']

1.0

In [51]:
df.loc['a':'b', 'one']

a    0.0
b    1.0
Name: one, dtype: float64

In [46]:
df.loc['a':'b', :]

Unnamed: 0,one,two,three
a,0.0,0,0.268796
b,1.0,1,0.985433


In [53]:
df.loc[:, 'one']

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
f    5.0
g    NaN
Name: one, dtype: float64

Булевская индексация &mdash; выбор строк с заданным условием

In [50]:
df[df["two"] > 3]

Unnamed: 0,one,two,three
e,4.0,4,0.509473
f,5.0,5,0.978824
g,,6,0.65169


#### 2.3 Изменение таблиц

К таблице можно добавлять новые столбцы.

In [62]:
type(df['4th'])

pandas.core.series.Series

In [54]:
df['4th'] = df['one'] * df['two']
df['flag'] = df['two'] > 2
df['5th'] = df['one'].mean()
df

Unnamed: 0,one,two,three,4th,flag,5th
a,0.0,0,0.268796,0.0,False,2.5
b,1.0,1,0.985433,1.0,False,2.5
c,2.0,2,0.069805,4.0,False,2.5
d,3.0,3,0.075307,9.0,True,2.5
e,4.0,4,0.509473,16.0,True,2.5
f,5.0,5,0.978824,25.0,True,2.5
g,,6,0.65169,,True,2.5


И удалять имеющиеся.

In [55]:
del df['two']
df['foo'] = 0
df

Unnamed: 0,one,three,4th,flag,5th,foo
a,0.0,0.268796,0.0,False,2.5,0
b,1.0,0.985433,1.0,False,2.5,0
c,2.0,0.069805,4.0,False,2.5,0
d,3.0,0.075307,9.0,True,2.5,0
e,4.0,0.509473,16.0,True,2.5,0
f,5.0,0.978824,25.0,True,2.5,0
g,,0.65169,,True,2.5,0


Изменение элемента

#### 2.4 Пропуски

Удаление всех строк с пропусками

In [57]:
df.dropna()

Unnamed: 0,one,three,4th,flag,5th,foo
a,0.0,0.268796,0.0,False,2.5,0
b,1.0,0.985433,1.0,False,2.5,0
c,2.0,0.069805,4.0,False,2.5,0
d,3.0,0.075307,9.0,True,2.5,0
e,4.0,0.509473,16.0,True,2.5,0
f,5.0,0.978824,25.0,True,2.5,0


Замена всех пропусков на значение

In [58]:
df.fillna(value=666)

Unnamed: 0,one,three,4th,flag,5th,foo
a,0.0,0.268796,0.0,False,2.5,0
b,1.0,0.985433,1.0,False,2.5,0
c,2.0,0.069805,4.0,False,2.5,0
d,3.0,0.075307,9.0,True,2.5,0
e,4.0,0.509473,16.0,True,2.5,0
f,5.0,0.978824,25.0,True,2.5,0
g,666.0,0.65169,666.0,True,2.5,0


Замена всех пропусков на среднее по столбцу

In [59]:
df.fillna(value=df.mean())

Unnamed: 0,one,three,4th,flag,5th,foo
a,0.0,0.268796,0.0,False,2.5,0
b,1.0,0.985433,1.0,False,2.5,0
c,2.0,0.069805,4.0,False,2.5,0
d,3.0,0.075307,9.0,True,2.5,0
e,4.0,0.509473,16.0,True,2.5,0
f,5.0,0.978824,25.0,True,2.5,0
g,2.5,0.65169,9.166667,True,2.5,0


### 3. Чтение и запись данных

**Загрузка текстовых файлов табличного вида** производится с помощью функции `pd.read_csv`. Основные аргументы следующие:
* `filepath_or_buffer` &mdash; пусть к файлу;
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.);
* `header` &mdash; номер строки или список номеров строк, используемых в качестве имен колонок;
* `names` &mdash; список имен, которые будут использованы в качестве имен колонок;
* `index_col` &mdash; колонка, используемая в качестве индекса;
* `usecols` &mdash; список имен колонок, которые будут загружены;
* `nrows` &mdash; сколько строк прочитать;
* `skiprows` &mdash; номера строк с начала, которые нужно пропустить;
* `skipfooter` &mdash; сколько строк в конце пропустить;
* `na_values` &mdash; список значений, которые распознавать как пропуски;
* `parse_dates` &mdash; распознавать ли даты, можно передать номера строк;
* `date_parser` &mdash; парсер дат;
* `dayfirst` &mdash; день записывается перед месяцем или после;
* `thousands` &mdash; разделитель тысяч;
* `decimal` &mdash; разделитель целой и дробной частей;
* `comment` &mdash; символ начала комментария.

Полный список параметров:

`pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)`

**Загрузка таблиц формата Excel** производится с помощью функции `pd.read_excel`. Основные аргументы следующие:
* `io` &mdash; пусть к файлу;
* `sheetname` &mdash; какие листы таблицы загрузить;
* Остальные параметры аналогично.

`pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds)`

**Запись таблицы в текстовый файл** производится с помощью функции `df.to_csv`. Основные аргументы следующие:
* `df` &mdash; DataFrame, который нужно записать;
* `path_or_buf` &mdash; путь, куда записать;
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.);
* `na_rep` &mdash; как записать пропуски;
* `float_format` &mdash; формат записи дробных чисел;
* `columns` &mdash; какие колонки записать;
* `header` &mdash; как назвать колонки при записи;
* `index` &mdash; записывать ли индексы в файл;
* `index_label` &mdash; имена индексов, которые записать в файл.

Полный список параметров:

`df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, escapechar=None, decimal='.')`

**Запись таблицы в формат Excel** производится с помощью функции `df.to_excel`. Основные аргументы аналогичные. Полный список параметров:

`df.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)`

### 4. Примеры чтения данных и работы с датами


In [64]:
import pandas as pd

In [72]:
data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", header=None, sep=", ")
data.head()

  data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", header=None, sep=", ")


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [75]:
data.columns = ["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", \
               "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "salary"]
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [74]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  salary          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


### Выбор элементов с определенным значением столбца

In [82]:
len(data[data["education"] == "Bachelors"]) / len(data) # процент бакалавров

0.16446055096587942

### Среднее значение 

In [86]:
data["age"].mean() # average age

38.58164675532078

In [92]:
data[data["sex"] == "Female"]["age"].mean() # average age for woman


36.85823043357163

## Описательные статистики

In [93]:
data[data["sex"] == "Female"]["age"].describe()

count    10771.000000
mean        36.858230
std         14.013697
min         17.000000
25%         25.000000
50%         35.000000
75%         46.000000
max         90.000000
Name: age, dtype: float64

Уникальные значения

In [95]:
data["education"].unique()

array(['Bachelors', 'HS-grad', '11th', 'Masters', '9th', 'Some-college',
       'Assoc-acdm', 'Assoc-voc', '7th-8th', 'Doctorate', 'Prof-school',
       '5th-6th', '10th', '1st-4th', 'Preschool', '12th'], dtype=object)

In [97]:
set(data["education"])

{'10th',
 '11th',
 '12th',
 '1st-4th',
 '5th-6th',
 '7th-8th',
 '9th',
 'Assoc-acdm',
 'Assoc-voc',
 'Bachelors',
 'Doctorate',
 'HS-grad',
 'Masters',
 'Preschool',
 'Prof-school',
 'Some-college'}

## Группировка по значениям

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

* `df` &mdash; таблица, данные которой должны быть сгруппированы;
* `by` &mdash; задает принцип группировки. Чаще всего это имя столбца, по которому нужно сгруппировать. Может так же быть функцией;
* `axis` &mdash; ось (0 = группировать строки, 1 = группировать столбцы);
* `level` &mdash; если ось представлена мультииндексом, то указывает на уровень мультииндекса;
* `sort` &mdash; сортировка результата по индексу.

Результатом группировки является объект, состоящий из пар (имя группы, подтаблица). Имя группы соответствует значению, по которому произведена группировка. К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` &mdash; цикл по группам;
* `get_group(name)` &mdash; получить таблицу, соответствующую группе с именем `name`;
* `groups` &mdash; получить все группы в виде словаря имя-подтаблица;
* `count()` &mdash; количество значений в группах, исключая пропуски;
* `size()` &mdash; размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` &mdash; вывод описательных статистик;
* `aggregate(func)` &mdash; применение функции (или списка функций) `func` к группам.


In [101]:
data.groupby(["race"]).describe()

Unnamed: 0_level_0,age,age,age,age,age,age,age,age,fnlwgt,fnlwgt,...,capital-loss,capital-loss,hours-per-week,hours-per-week,hours-per-week,hours-per-week,hours-per-week,hours-per-week,hours-per-week,hours-per-week
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
race,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Amer-Indian-Eskimo,311.0,37.173633,12.44713,17.0,28.0,35.0,45.5,82.0,311.0,120831.14791,...,0.0,1980.0,311.0,40.048232,11.695364,3.0,40.0,40.0,40.0,84.0
Asian-Pac-Islander,1039.0,37.746872,12.825133,17.0,28.0,36.0,45.0,90.0,1039.0,159940.60924,...,0.0,2457.0,1039.0,40.127045,12.556816,1.0,40.0,40.0,40.0,99.0
Black,3124.0,37.767926,12.75929,17.0,28.0,36.0,46.0,90.0,3124.0,228013.1242,...,0.0,4356.0,3124.0,38.422855,10.315646,1.0,37.0,40.0,40.0,99.0
Other,271.0,33.457565,11.538865,17.0,25.0,31.0,41.0,77.0,271.0,197124.191882,...,0.0,2179.0,271.0,39.468635,11.143755,5.0,36.0,40.0,40.0,98.0
White,27816.0,38.769881,13.782306,17.0,28.0,37.0,48.0,90.0,27816.0,187298.06428,...,0.0,4356.0,27816.0,40.6891,12.544796,1.0,40.0,40.0,45.0,99.0


---

При подготовке использованы материалы https://inp.nsk.su/~grozin/python/ и http://pandas.pydata.org/pandas-docs/stable/10min.html