### Библиотеки

Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать с помощью SQL-подобных запросов.

Дополнительные материалы:
1. Документация Pandas - https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
2. "Python и анализ данных", автор Уэс Маккинни 
3. "Изучаем pandas", автор Майкл Хейдт


In [None]:
import pandas as pd
import numpy as np

### Создание

pandas использует два новых вида структур данных: Series и DataFrame. Series хранит столбцы данных, DataFrame -  таблицы. Мы будем смотреть, как работать с таблицами.


## Cоздаем DataFrame из двумерного списка

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]])
df

Unnamed: 0,0,1
0,10,11
1,20,21
2,30,31


Задаем имена столбцов

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]],
                  columns=['A', 'B'])
print(df)
display(df)
df

    A   B
0  10  11
1  20  21
2  30  31


Unnamed: 0,A,B
0,10,11
1,20,21
2,30,31


Unnamed: 0,A,B
0,10,11
1,20,21
2,30,31


задаем имена столбцов после создания датафрейма

In [None]:
df = pd.DataFrame([[13, 121], [230, 211], [300, 31]])
df

Unnamed: 0,0,1
0,13,121
1,230,211
2,300,31


In [None]:
print(df)

     0    1
0   13  121
1  230  211
2  300   31


In [None]:
df.columns = ['col_1', 'col_2']
df

Unnamed: 0,col_1,col_2
0,13,121
1,230,211
2,300,31


#### при помощи функций

In [None]:
df = pd.DataFrame.from_records([[13, 121], [230, 211], [300, 31]], columns=["c1", "c2"])
df

Unnamed: 0,c1,c2
0,13,121
1,230,211
2,300,31


#### [из файла](http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5)

Чаще всего датафреймы создаются путём считывания данных из CSV-файла с помощью функции pd.read_csv. В качестве примера загрузим классический датасет про больных СПИДом.

Обращайте внимание на разделитель. Вот этот код не выдаст ошибку, но прочитает данные некорректно. Перед запуском убедитесь в том, что загрузили этот файл в коллаб.

In [None]:
pd.read_csv("Aids2.csv", sep = ';')

Unnamed: 0,",""state"",""sex"",""diag"",""death"",""status"",""T.categ"",""age"""
0,"1,""NSW"",""M"",10905,11081,""D"",""hs"",35"
1,"2,""NSW"",""M"",11029,11096,""D"",""hs"",53"
2,"3,""NSW"",""M"",9551,9983,""D"",""hs"",42"
3,"4,""NSW"",""M"",9577,9654,""D"",""haem"",44"
4,"5,""NSW"",""M"",10015,10290,""D"",""hs"",39"
...,...
2838,"2839,""Other"",""M"",11475,11504,""A"",""het"",46"
2839,"2840,""Other"",""F"",11420,11504,""A"",""het"",34"
2840,"2841,""Other"",""M"",11496,11504,""A"",""haem"",49"
2841,"2842,""Other"",""M"",11460,11504,""A"",""hs"",55"


Следующий код будет работать корректно.

In [None]:
pd.read_csv("Aids2.csv", sep = ',')

Unnamed: 0.1,Unnamed: 0,state,sex,diag,death,status,T.categ,age
0,1,NSW,M,10905,11081,D,hs,35
1,2,NSW,M,11029,11096,D,hs,53
2,3,NSW,M,9551,9983,D,hs,42
3,4,NSW,M,9577,9654,D,haem,44
4,5,NSW,M,10015,10290,D,hs,39
...,...,...,...,...,...,...,...,...
2838,2839,Other,M,11475,11504,A,het,46
2839,2840,Other,F,11420,11504,A,het,34
2840,2841,Other,M,11496,11504,A,haem,49
2841,2842,Other,M,11460,11504,A,hs,55


Функция read_csv предоставляет широкий список тонких настроек считывания данных. Здесь рассмотрим лишь некоторые из них. 

Можно считывать не все строки и не все столбцы. Строки:

In [None]:
pd.read_csv("Aids2.csv", sep = ',', nrows = 3)

Unnamed: 0.1,Unnamed: 0,state,sex,diag,death,status,T.categ,age
0,1,NSW,M,10905,11081,D,hs,35
1,2,NSW,M,11029,11096,D,hs,53
2,3,NSW,M,9551,9983,D,hs,42


столбцы

In [None]:
pd.read_csv("Aids2.csv",
           sep = ',',
           nrows = 3,
           usecols=["state", "status", "age"])

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42


In [None]:
aids = pd.read_csv("Aids2.csv",
           sep = ',',
           usecols=["state", "status", "age"])
aids

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42
3,NSW,D,44
4,NSW,D,39
...,...,...,...
2838,Other,A,46
2839,Other,A,34
2840,Other,A,49
2841,Other,A,55


Работая в гугл колабе удобно некоторые датасеты хранить на гугл диске. Ниже представлен код, позволяющий организовать чтение датасетов с гугл.диска.

#### Локальное подключение

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
aids = pd.read_csv("/content/drive/MyDrive/ITMO.Work/21 22/СИА/Aids2.csv")
aids

Unnamed: 0.1,Unnamed: 0,state,sex,diag,death,status,T.categ,age
0,1,NSW,M,10905,11081,D,hs,35
1,2,NSW,M,11029,11096,D,hs,53
2,3,NSW,M,9551,9983,D,hs,42
3,4,NSW,M,9577,9654,D,haem,44
4,5,NSW,M,10015,10290,D,hs,39
...,...,...,...,...,...,...,...,...
2838,2839,Other,M,11475,11504,A,het,46
2839,2840,Other,F,11420,11504,A,het,34
2840,2841,Other,M,11496,11504,A,haem,49
2841,2842,Other,M,11460,11504,A,hs,55


Нужно будет перейти по ссылке, скопировать код и вставить.

### Свойства

Мы узнали, как создать датафреймы библиотеки Pandas. Дадим описание основных свойств этих структур. 


#### количество элементов

DataFrame:

In [None]:
print('Первый способ:', len(aids))
print('Второй способ:', aids.size)
print('Третий способ:', aids.shape)

Первый способ: 2843
Второй способ: 8529
Третий способ: (2843, 3)


#### количество уникальных элементов

In [None]:
aids.nunique()

state      4
status     2
age       74
dtype: int64

значения уникальных элементов столбца

In [None]:
aids.age.unique()

array([35, 53, 42, 44, 39, 36, 31, 26, 27, 45, 30, 21, 56, 41, 28, 38, 46,
       13, 34,  1, 37, 33, 40, 51, 29, 54, 25, 43, 59, 32, 23, 47, 52, 48,
       49, 55, 70, 16, 24, 69, 20, 64, 57, 17, 82, 71, 58, 66, 12, 11, 78,
       67, 50, 22, 60,  3, 63, 65,  5, 68, 61, 18, 74, 62, 15, 14, 72, 77,
       73, 80,  0, 19,  6,  9])

#### индекс и значения

DataFrame:

In [None]:
aids.index

RangeIndex(start=0, stop=2843, step=1)

In [None]:
aids.values

array([['NSW', 'D', 35],
       ['NSW', 'D', 53],
       ['NSW', 'D', 42],
       ...,
       ['Other', 'A', 49],
       ['Other', 'A', 55],
       ['Other', 'A', 37]], dtype=object)

In [None]:
aids.columns

Index(['state', 'status', 'age'], dtype='object')

#### присвоение / изменение имени

##### столбца

In [None]:
aids_copy = aids.rename(columns = {'age': 'patient_age'})

проверяем, не изменились ли имена столбцов в исходном датафрейме

In [None]:
aids.columns

Index(['state', 'status', 'age'], dtype='object')

In [None]:
aids_copy.columns

Index(['state', 'status', 'patient_age'], dtype='object')

этот программный код переименовывает столбец на месте

In [None]:
aids_copy.rename(columns = {'patient_age': 'age'},
            inplace=True)

смотрим изменилось ли имя столбца

In [None]:
aids_copy.columns

Index(['state', 'status', 'age'], dtype='object')

### Вывод значений

#### первые / последние строки

В данном разделе будут показаны несколько способов вывода значений Series и DataFrame. Библиотека Pandas предлагает методы .head() и .tail() для исследования первых или последних строк. 

In [None]:
aids.head(10)

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42
3,NSW,D,44
4,NSW,D,39
5,NSW,D,36
6,NSW,D,36
7,NSW,D,31
8,NSW,D,26
9,NSW,D,27


In [None]:
aids.tail(3)

Unnamed: 0,state,status,age
2840,Other,A,49
2841,Other,A,55
2842,Other,A,37


случайные строки

In [None]:
aids.sample(2)

Unnamed: 0,state,status,age
1740,NSW,A,28
1290,NSW,D,43


#### столбцы 

извлекаем столбец age

In [None]:
aids['age'].head()

0    35
1    53
2    42
3    44
4    39
Name: age, dtype: int64

тип столбца датафрейма:

In [None]:
type(aids['age'])

pandas.core.series.Series

извлекаем столбцы age и status

In [None]:
aids[['age', 'status']].head()

Unnamed: 0,age,status
0,35,D
1,53,D
2,42,D
3,44,D
4,39,D


покажем, что результат является объектом DataFrame

In [None]:
type(aids[['age', 'status']])

pandas.core.frame.DataFrame

атрибутивный доступ к столбцу по имени

In [None]:
aids.age.head()

0    35
1    53
2    42
3    44
4    39
Name: age, dtype: int64

Код выше не сработает, если имя столбца содержит пробел.

#### строки

Метод .loc позволят выбирать строки по условию или индексу. 

получаем строку с меткой индекса 16, которая возвращается в виде объекта Series

In [None]:
aids.loc[16]

state     NSW
status      D
age        30
Name: 16, dtype: object

получаем строки 16 и 157 результатом будет объект DataFrame

In [None]:
aids.loc[[16, 157]]

Unnamed: 0,state,status,age
16,NSW,D,30
157,NSW,D,41


##### по позиции

Второй подход к отбору значений Series и строк DataFrame - это использование номера позиции в индексе. Данную задачу решает свойство .iloc. 

получаем строки, имеющие позиции 0 и 2

In [None]:
aids.head(3)

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42


In [None]:
aids.iloc[[0, 2]]

Unnamed: 0,state,status,age
0,NSW,D,35
2,NSW,D,42


#### поиск скалярного значения

Отдельные скалярные значения можно найти по метке с помощью свойства .at, передав ему одновременно метку строки и метку столбца. Кроме того, скалярные значения можно найти по позиции с помощью свойства .iat[], передав позицию строки, а затем позицию столбца. Это предпочтительный метод доступа к отдельным значениям и дает максимальную производительность.


ищем скалярное значение по метке строки и метке (имени) столбца

In [None]:
aids.at[16, 'age']

30

ищем скалярное значение по позиции строки и позиции столбца; извлекаем значение в строке 0, столбце 1

In [None]:
aids.iat[0, 1]

'D'

#### одновременный отбор строк и столбцов

Отбор подмножества данных, состоящего из набора строк и столбцов, является общепринятой практикой. Данный программный код демонстрирует это, сначала отобрав строки, а затем нужные столбцы. 

Отбираем строки с метками индекса 16 и 2800 для столбцов state и age.
Для этого есть две эквивалентные записи.


In [None]:
aids.loc[[16, 2800]][['state', 'age']]

Unnamed: 0,state,age
16,NSW,30
2800,Other,38


In [None]:
aids.loc[[16, 2800],['state', 'age']]

Unnamed: 0,state,age
16,NSW,30
2800,Other,38


определение номера позиций заданных меток

In [None]:
print(aids.index.get_loc(16), aids.index.get_loc(2800)) 

16 2800


отбор строк и столбцов по номеру позиций

In [None]:
aids.iloc[[16, 2800],[0,1]]

Unnamed: 0,state,status
16,NSW,D
2800,Other,A


В этом примере индекс и номер позиции совпадают, но это вполне может быть не так.

#### транспонирование

In [None]:
aids.head()

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42
3,NSW,D,44
4,NSW,D,39


In [None]:
aids.T.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,2803,2804,2805,2806,2807,2808,2809,2810,2811,2812,2813,2814,2815,2816,2817,2818,2819,2820,2821,2822,2823,2824,2825,2826,2827,2828,2829,2830,2831,2832,2833,2834,2835,2836,2837,2838,2839,2840,2841,2842
state,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,NSW,...,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other,Other
status,D,D,D,D,D,D,D,D,D,D,D,D,D,D,A,D,D,A,A,D,D,A,A,A,D,A,A,A,A,A,A,D,A,D,A,A,D,D,D,D,...,D,A,A,D,D,D,D,D,A,D,A,D,A,A,A,D,D,D,D,D,A,A,D,A,A,D,D,D,A,A,D,A,A,D,A,A,A,A,A,A
age,35,53,42,44,39,36,36,31,26,27,45,36,27,35,30,39,30,21,56,41,28,38,26,39,46,13,34,39,31,1,30,37,38,33,30,40,51,29,29,37,...,33,53,26,57,41,32,39,12,23,31,32,43,30,34,37,50,33,41,25,44,45,35,41,45,37,41,42,25,48,51,39,34,37,39,27,46,34,49,55,37


### Фильтрация по условию

Индексы предлагают очень мощный и эффективный способ поиска значений на основе их меток. Но что, если вы хотите найти записи на основе значений? Для решения этой задачи библиотека Pandas предлагает воспользоваться фильтрацией по условию. Это применение логического выражения к значениям и возвращение нового объекта булевых значений, представляющих собой результат применения этого выражения к каждому значению. Затем этот результат можно использовать для извлечения лишь тех значений, где был получен результат True. 

Посмотрим примеры.


#### DataFrame

какие строки имеют значения age < 40?

In [None]:
aids.age < 40

0        True
1       False
2       False
3       False
4        True
        ...  
2838    False
2839     True
2840    False
2841    False
2842     True
Name: age, Length: 2843, dtype: bool

теперь получим строки, в которых age < 40

In [None]:
aids[aids.age < 40]

Unnamed: 0,state,status,age
0,NSW,D,35
4,NSW,D,39
5,NSW,D,36
6,NSW,D,36
7,NSW,D,31
...,...,...,...
2835,Other,A,37
2836,Other,D,39
2837,Other,A,27
2839,Other,A,34


или

In [None]:
aids.loc[aids.age < 40]

Unnamed: 0,state,status,age
0,NSW,D,35
4,NSW,D,39
5,NSW,D,36
6,NSW,D,36
7,NSW,D,31
...,...,...,...
2835,Other,A,37
2836,Other,D,39
2837,Other,A,27
2839,Other,A,34


извлекаем лишь те строки, в которых значение age < 40 и > 20

In [None]:
r = aids[(aids['age'] < 40) & 
          (aids.age > 20)]['age']
r

0       35
4       39
5       36
6       36
7       31
        ..
2835    37
2836    39
2837    27
2839    34
2842    37
Name: age, Length: 1720, dtype: int64

использование метода .isin

In [None]:
s_tmp = aids.age.isin([15, 28])
s_tmp

0       False
1       False
2       False
3       False
4       False
        ...  
2838    False
2839    False
2840    False
2841    False
2842    False
Name: age, Length: 2843, dtype: bool

In [None]:
aids[s_tmp].head()

Unnamed: 0,state,status,age
20,NSW,D,28
97,NSW,D,28
103,NSW,D,28
142,NSW,D,28
206,NSW,D,28


использование метода .query для того же самого запроса, как в предыдущем примере

In [None]:
q = aids.query("age < 40 & age > 20 | state == 'NSW'")[['age', 'state']]
q

Unnamed: 0,age,state
0,35,NSW
1,53,NSW
2,42,NSW
3,44,NSW
4,39,NSW
...,...,...
2835,37,Other
2836,39,Other
2837,27,Other
2839,34,Other


### Добавление 

#### оператор [ ] 

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
aids_copy = aids.copy()

добавляем столбец

In [None]:
aids_copy['MaxAge'] = aids_copy.age.max()
aids_copy.head(3)

Unnamed: 0.1,Unnamed: 0,state,sex,diag,death,status,T.categ,age,MaxAge
0,1,NSW,M,10905,11081,D,hs,35,82
1,2,NSW,M,11029,11096,D,hs,53,82
2,3,NSW,M,9551,9983,D,hs,42,82


### Сортировка

#### по индексу 

Для лексикографической сортировки по индексу служит метод sort_index, который возвращает новый отсортированный объект. В случае DataFrame можно сортировать по индексу, связанному с любой осью - строками или столбцами. В данном примере сортировка производится по меткам оси столбцов.


In [None]:
aids.head()

Unnamed: 0,state,status,age
0,NSW,D,35
1,NSW,D,53
2,NSW,D,42
3,NSW,D,44
4,NSW,D,39


In [None]:
aids.sort_index(ascending=False).head()

Unnamed: 0,state,status,age
2842,Other,A,37
2841,Other,A,55
2840,Other,A,49
2839,Other,A,34
2838,Other,A,46


#### по значению

Объект Dataframe можно сортировать по значениям в одном или нескольких столбцах. Для этого имена столбцов следует передать в качестве значения параметра "by" метода sort_values. По умолчанию данные сортируются в порядке возрастания, но можно отсортировать и в порядке убывания. Используем параметр ascending.

In [None]:
aids.sort_values(by='age').head()

Unnamed: 0,state,status,age
2021,Other,D,0
1793,QLD,D,0
1789,QLD,D,0
1788,QLD,D,0
1790,QLD,D,1


In [None]:
aids.sort_values(by='age', ascending=False).head()

Unnamed: 0,state,status,age
196,NSW,D,82
1657,NSW,D,80
274,NSW,D,78
1408,NSW,D,78
1654,NSW,A,77


#### наименьшее / наибольшее значение

Еще один полезный функционал библиотеки Pandas - это вывод наименьших, наибольших значений. Соответственно методы .nsmallest, .nlargest

In [None]:
aids.nsmallest(5, 'age')

Unnamed: 0,state,status,age
1788,QLD,D,0
1789,QLD,D,0
1793,QLD,D,0
2021,Other,D,0
29,NSW,A,1


In [None]:
aids.nlargest(5, 'age')

Unnamed: 0,state,status,age
196,NSW,D,82
1657,NSW,D,80
274,NSW,D,78
1408,NSW,D,78
1654,NSW,A,77


# Обработка пустых значений

создаем датафрейм с 5 строками и 3 столбцами

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
                  index=['a', 'b', 'c', 'd', 'e'], 
                  columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


- добавляем несколько столбцов и строк в датафрейм столбец c4 со значениями NaN
- строка 'f' со значениями от 15 до 18 
- строка 'g', состоящая из значений NaN
- столбец 'c5', состоящий из значений NaN
- меняем значение в столбце 'c4' строки 'a'

In [None]:
df['c4'] = np.nan
df.loc['f'] = np.arange(15, 19) 
df.loc['g'] = np.nan
df['c5'] = np.nan
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


### Пропущенные значения

#### поиск

какие элементы являются значениями NaN?

In [None]:
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


какие элементы являются непропущенными значениями? (можем использовать ~df.isnull() )

In [None]:
df.notnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,True,True,True,True,False
b,True,True,True,False,False
c,True,True,True,False,False
d,True,True,True,False,False
e,True,True,True,False,False
f,True,True,True,True,False
g,False,False,False,False,False


подсчитываем количество значений NaN в каждом столбце

In [None]:
df.isnull().sum(axis=0)

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

вычисляем количество значений, отличных от NaN, по каждому столбцу (можем использовать len(df) - df.isnull().sum())


In [None]:
df.count(axis=0)

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

# Сводка статистик

получаем сводку статистик для датафрейма, с которой работаем как с обычным датафреймом

In [None]:
aids.describe()

Unnamed: 0.1,Unnamed: 0,diag,death,age
count,2843.0,2843.0,2843.0,2843.0
mean,1422.0,10584.331692,10990.258881,37.409075
std,820.847733,627.158933,625.369749,10.063263
min,1.0,8302.0,8469.0,0.0
25%,711.5,10163.0,10671.5,30.0
50%,1422.0,10665.0,11235.0,37.0
75%,2132.5,11103.0,11504.0,43.0
max,2843.0,11503.0,11504.0,82.0


In [None]:
aids.describe(include="all")

Unnamed: 0.1,Unnamed: 0,state,sex,diag,death,status,T.categ,age
count,2843.0,2843,2843,2843.0,2843.0,2843,2843,2843.0
unique,,4,2,,,2,8,
top,,NSW,M,,,D,hs,
freq,,1780,2754,,,1761,2465,
mean,1422.0,,,10584.331692,10990.258881,,,37.409075
std,820.847733,,,627.158933,625.369749,,,10.063263
min,1.0,,,8302.0,8469.0,,,0.0
25%,711.5,,,10163.0,10671.5,,,30.0
50%,1422.0,,,10665.0,11235.0,,,37.0
75%,2132.5,,,11103.0,11504.0,,,43.0


вычисляем сводку статистик для отдельного столбца Price

In [None]:
aids.state.describe()

count     2843
unique       4
top        NSW
freq      1780
Name: state, dtype: object

метод info:

In [None]:
aids.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2843 entries, 0 to 2842
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   state   2843 non-null   object
 1   status  2843 non-null   object
 2   age     2843 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 66.8+ KB


получаем сводную статистику для нечисловых данных

In [None]:
aids.state.value_counts(normalize=True)

NSW      0.626099
VIC      0.206824
Other    0.087584
QLD      0.079493
Name: state, dtype: float64

### Арифметические операции

- задаем стартовое значение генератора случайных чисел для получения воспроизводимых результатов
- создаем объект DataFrame

In [None]:
np.random.seed(123)
df = pd.DataFrame(np.random.randn(5, 4), 
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


умножаем все на 2, берём только абсолютные значения

In [None]:
abs(df * 2)

Unnamed: 0,A,B,C,D
0,2.171261,1.994691,0.565957,3.012589
1,1.157201,3.302873,4.853358,0.857825
2,2.531873,1.733481,1.357772,0.189418
3,2.982779,1.277804,0.887964,0.868703
4,4.41186,4.373572,2.008108,0.772373


вычитаем первую строку из каждой строки объекта DataFrame

In [None]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [None]:
df.iloc[0]

A   -1.085631
B    0.997345
C    0.282978
D   -1.506295
Name: 0, dtype: float64

In [None]:
df - df.iloc[0]

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,0.50703,0.654091,-2.709658,1.077382
2,2.351567,-1.864086,-0.961865,1.411586
3,2.57702,-1.636247,-0.72696,1.071943
4,3.291561,1.189441,0.721075,1.892481


### Одномерные статистики

#### минимум / максимум

определим максимальный возраст и максимальный округленный

In [None]:
aids_copy[['age', 'RoundedAge']].max()

age           82
RoundedAge    82
dtype: int64

определяем индекс строк


In [None]:
aids_copy[['age', 'RoundedAge']].idxmax()

age           196
RoundedAge    196
dtype: int64

#### cреднее значение / медиана / мода

вычисляем среднее значение для всех столбцов в датафрейме aids

In [None]:
aids.mean()

age    37.409075
dtype: float64

вычисляем значение, усредненное по всем столбцам, для каждой строки (выведем первые 5)

In [None]:
aids.mean(axis=1).head() 

0    35.0
1    53.0
2    42.0
3    44.0
4    39.0
dtype: float64

вычисляем медиану значений для каждого столбца

In [None]:
aids.median()

age    37.0
dtype: float64

вычисляем моду для столбца state

In [None]:
aids.state.mode()

0    NSW
dtype: object

мод может быть несколько, поэтому результат операции - Series 

In [None]:
s = pd.Series([1, 2, 3, 3, 5, 1])
s.mode()

0    1
1    3
dtype: int64

#### [дисперсия](https://ru.wikipedia.org/wiki/Дисперсия_случайной_величины) / среднеквадратичное отклонение

вычисляем дисперсию значений в каждом столбце

In [None]:
aids.var()

age    101.269263
dtype: float64

вычисляем среднеквадратичное отклонение

In [None]:
aids.std()

age    10.063263
dtype: float64

#### [корреляция](https://ru.wikipedia.org/wiki/Корреляция)

вычисляем корреляцию между age и RoundedAge

In [None]:
aids_copy.age.corr(aids_copy.RoundedAge)

1.0

либо можем получать матрицу корреляций

In [None]:
aids_copy.corr()

Unnamed: 0,age,RoundedAge
age,1.0,1.0
RoundedAge,1.0,1.0
