# Введение в обработку данных с Numpy и Pandas

### Numpy

**Numpy** фундаментальный пакет для научных вычислений в Python. Он предоставляет высокопроизводительный многомерный объект для массивов данных и инструменты для работы с ним.

In [None]:
import numpy as np

Массив в Numpy - это таблица значений одного типа. Количество измерений - ранг массива (rank). Размерность массива (shape) задана кортежем чисел, которые описывают размер каждого измерения массива.

Создавать массивы можно с помощью вложенных листов.

In [None]:
# Создадим массив ранга 1
a = np.array([1, 2, 3])  # создание массива из листа
print(a)                 # вывод
print(type(a))           # тип
print(a.shape)           # размерность массива

[1 2 3]
<class 'numpy.ndarray'>
(3,)


Получить доступ к элементам массива можно используя квадратные скобки.

In [None]:
print(a[0], a[1], a[2])   # вывод элементов массива
a[0] = 5                  # изменение элемента массива
print(a)                  # вывод массива

1 2 3
[5 2 3]


In [None]:
# Создадим массив ранга 2
b = np.array([[1,2,3],[4,5,6]])   # создание массива из вложенных листов
print(b)                          # вывод массива
print(b.shape)                    # вывод размерности массива
print(b[0, 0], b[0, 1], b[1, 0])  # вывод выбранных элементов массива

[[1 2 3]
 [4 5 6]]
(2, 3)
1 2 4


**ЗАДАНИЕ**<br>
Создайте массив из листа \[23,32,47,22\]. Измените значение второго элемента массива на значение 50. Выведите размерность массива.

In [None]:
# ВАШ КОД
a = np.array([23,32,47,22])
a[1]=50
print(a.shape)

(4,)


#### Индексирование

По аналогии с листами, можно создавать срезы массива. Так как массивы могут быть многомерными, срез можно задать по каждому измерению.

In [None]:
a = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
print(a[1:,:])  # вывод среза массива

[[4 5 6]
 [7 8 9]]


In [None]:
print(a[:,:2])  # вывод среза массива

[[1 2]
 [4 5]
 [7 8]]


**ЗАДАНИЕ**<br>
Выведите срез массива *a*:

|||
|---|---|
|5|6|
|8|9|

In [None]:
# ВАШ КОД
print(a[1:3,1:3])

[[5 6]
 [8 9]]


#### Условное индексирование

Условное индексирование позволяет получать объекты массива, которые соответствуют заданному условию.

In [None]:
a = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
bool_ix = (a > 3)  # условное индексирование
print(bool_ix)     # вывод булева индекса

[[False False False]
 [ True  True  True]
 [ True  True  True]]


In [None]:
print(a[bool_ix]) # вывод элементов по булеву индексу

[4 5 6 7 8 9]


In [None]:
print(a[a > 3]) # условное индексирование с получение элементов массива

[4 5 6 7 8 9]


**ЗАДАНИЕ**<br>
Найдите элементы массива *a* со значениями больше 6 с помощью условного идексирования и выведите длину получившегося массива.

In [None]:
# ВАШ КОД
print(a[a>6].shape)

(3,)


#### Базовые вычисления

In [None]:
# Создадим 2 массива содержащих числа с плавающей точкой
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

In [None]:
print(x)

[[1. 2.]
 [3. 4.]]


In [None]:
print(y)

[[5. 6.]
 [7. 8.]]


In [None]:
# Поэлементная сумма
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [None]:
# Поэлементное вычитание
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [None]:
# Поэлементное умножение
print(x * y)
print(np.multiply(x, y))
mult = np.multiply(x, y)

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [None]:
# Поэлементное деление
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [None]:
# Поэлементное получение корня
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [None]:
# Матричное умножение
print(np.matmul(x,y))

[[19. 22.]
 [43. 50.]]


Numpy предоставляет большое количество функций для вычислений над массивами. Одна из наиболее используемых функция sum. Полный список функций детально представлен в [документации Numpy](#https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html).

In [None]:
x = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(x)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
# Сумма всех элементов массива
print(np.sum(x))

45


In [None]:
# Сумма элементов по первой оси
print(np.sum(x, axis=0))

[12 15 18]


In [None]:
# Сумма элементов по второй оси
print(np.sum(x, axis=1))

[ 6 15 24]


**ЗАДАНИЕ**<br>
Посчитайте сумму значений больше 30 элементов массива, получившегося в результаты операции поэлементного умножения массива x на массив y. Воспользуйтесь операцией умножения массивов, условным индексированием и функцией суммирования элементов массива.

In [None]:
# ВАШ КОД
mult = np.multiply(x, y)
print(np.sum(mult[mult>30]))

32.0


### Pandas

**Pandas** представляет собой легкую в использовании высокоуровневую структуру данных и многофункциональный инструмент для анализа данных. Полный функционал Pandas детально описан в [документации](https://pandas.pydata.org/pandas-docs/stable/).

In [None]:
import pandas as pd

Pandas имеет два основных объекта для хранения данных: Series и DataFrame. Series - вектор размерности 1, DataFrame - многомерный вектор. Оба объекта имеют индекс. Создадим pandas Series. При создании Series c помощью листа значений порядковый индекс создается автоматически.

In [None]:
s = pd.Series([1,3,5,np.nan,6,8]) # способ создания Series путем передачи листа значений

In [None]:
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [None]:
s.index  # объект индекса

RangeIndex(start=0, stop=6, step=1)

In [None]:
s.index.values # значения идекса

array([0, 1, 2, 3, 4, 5])

Библиотека Numpy обладает широким функционалом для работы с случайными величинами. Для демонстрации функционала Pandas создадим таблицу случайных значений с помощью Numpy. Далее создадим из данной таблицы Pandas DataFrame. При создание DataFrame можно явно передать название колонок в виде листа в параметр columns.

In [None]:
random_array = np.random.randn(6,4)  # создание таблицы случайных значений со стандартным нормальным распределением из 4 колонок и 6 строк

In [None]:
print(random_array)

[[ 0.88106521 -0.1334348  -0.18908387  0.61994997]
 [ 1.17697803  0.37552898  1.6723824  -1.46384521]
 [ 0.34893191  3.71324074 -1.23136378  0.73182471]
 [-0.33624408  0.46396375 -0.01218921 -0.40173371]
 [ 0.36222479 -0.12273378 -0.72912805  0.42227684]
 [ 1.89383832  0.73203112  1.05588394  0.73565527]]


In [None]:
df = pd.DataFrame(random_array, columns = ['A','B','C','D']) # создание DataFrame из Numpy array

In [None]:
df  # вывод DataFrame в табличном виде

Unnamed: 0,A,B,C,D
0,0.881065,-0.133435,-0.189084,0.61995
1,1.176978,0.375529,1.672382,-1.463845
2,0.348932,3.713241,-1.231364,0.731825
3,-0.336244,0.463964,-0.012189,-0.401734
4,0.362225,-0.122734,-0.729128,0.422277
5,1.893838,0.732031,1.055884,0.735655


In [None]:
df.head(3)  # вывод первых 3 значений DataFrame

Unnamed: 0,A,B,C,D
0,0.881065,-0.133435,-0.189084,0.61995
1,1.176978,0.375529,1.672382,-1.463845
2,0.348932,3.713241,-1.231364,0.731825


In [None]:
df.tail(3)  # вывод последних 3 значений DataFrame

Unnamed: 0,A,B,C,D
3,-0.336244,0.463964,-0.012189,-0.401734
4,0.362225,-0.122734,-0.729128,0.422277
5,1.893838,0.732031,1.055884,0.735655


In [None]:
df.shape  # размерность DataFrame

(6, 4)

In [None]:
df.index.values  # значения идекса DataFrame

array([0, 1, 2, 3, 4, 5])

Для того чтобы получить быструю описательную статистику DataFrame можно воспользоваться функцие describe().

In [None]:
df.describe()  # описательная статистика DataFrame

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.721132,0.838099,0.094417,0.107355
std,0.773822,1.449049,1.090142,0.880283
min,-0.336244,-0.133435,-1.231364,-1.463845
25%,0.352255,0.001832,-0.594117,-0.195731
50%,0.621645,0.419746,-0.100637,0.521113
75%,1.103,0.665014,0.788866,0.703856
max,1.893838,3.713241,1.672382,0.735655


Функционал Pandas позволяет сортировать DataFrame как по индексу так и по определенной колонке.

In [None]:
df.sort_index(axis=1, ascending=False)  # сортировка по индексу

Unnamed: 0,D,C,B,A
0,0.61995,-0.189084,-0.133435,0.881065
1,-1.463845,1.672382,0.375529,1.176978
2,0.731825,-1.231364,3.713241,0.348932
3,-0.401734,-0.012189,0.463964,-0.336244
4,0.422277,-0.729128,-0.122734,0.362225
5,0.735655,1.055884,0.732031,1.893838


In [None]:
df.sort_values(by='B', ascending=False)  # сортировка по колонке

Unnamed: 0,A,B,C,D
2,0.348932,3.713241,-1.231364,0.731825
5,1.893838,0.732031,1.055884,0.735655
3,-0.336244,0.463964,-0.012189,-0.401734
1,1.176978,0.375529,1.672382,-1.463845
4,0.362225,-0.122734,-0.729128,0.422277
0,0.881065,-0.133435,-0.189084,0.61995


Pandas имеет широкий функционал для выделения и фильтрации данных.

In [None]:
df['C']  # выбор отдельной колонки

0   -0.189084
1    1.672382
2   -1.231364
3   -0.012189
4   -0.729128
5    1.055884
Name: C, dtype: float64

In [None]:
df[2:4]  # срез данных по строкам

Unnamed: 0,A,B,C,D
2,0.348932,3.713241,-1.231364,0.731825
3,-0.336244,0.463964,-0.012189,-0.401734


In [None]:
df.loc[3]  # выбор значений колонок для заданного значения индекса

A   -0.336244
B    0.463964
C   -0.012189
D   -0.401734
Name: 3, dtype: float64

In [None]:
df.loc[2:3,['A','B']]  # срез данных по строкам и колонкам

Unnamed: 0,A,B
2,0.348932,3.713241
3,-0.336244,0.463964


In [None]:
df.loc[2,'A']  # выбор значения DataFrame по индексу и колонке

0.34893191218680325

Pandas включает функции для удобного условного индексирования.

In [None]:
df[df['A'] > 0]  # срез данных со значениями в колонке 'A' больше 0

Unnamed: 0,A,B,C,D
0,0.881065,-0.133435,-0.189084,0.61995
1,1.176978,0.375529,1.672382,-1.463845
2,0.348932,3.713241,-1.231364,0.731825
4,0.362225,-0.122734,-0.729128,0.422277
5,1.893838,0.732031,1.055884,0.735655


In [None]:
df[(df['A'] > 0) & (df['B'] > 0)]  # срез данных со значениями в колонке 'A' и 'B' больше 0

Unnamed: 0,A,B,C,D
1,1.176978,0.375529,1.672382,-1.463845
2,0.348932,3.713241,-1.231364,0.731825
5,1.893838,0.732031,1.055884,0.735655


In [None]:
df[(df['A'] > 0) | (df['C'] > 0)]  # срез данных со значениями в колонке 'A' или 'C' больше 0

Unnamed: 0,A,B,C,D
0,0.881065,-0.133435,-0.189084,0.61995
1,1.176978,0.375529,1.672382,-1.463845
2,0.348932,3.713241,-1.231364,0.731825
4,0.362225,-0.122734,-0.729128,0.422277
5,1.893838,0.732031,1.055884,0.735655


**ЗАДАНИЕ**<br>
Выведите срез DataFrame df, в котором значения в колонке 'C' больше 0.2, значения в колонке 'D' меньше 0.9 и значения в колонке 'B' больше 0.

In [None]:
# ВАШ КОД
df[(df['C'] > 0.2) & (df['D'] < 0.9) & (df['B'] > 0)]

Unnamed: 0,A,B,C,D
1,1.176978,0.375529,1.672382,-1.463845
5,1.893838,0.732031,1.055884,0.735655


In [None]:
df['E'] = ['one', 'one','two','three','four','three']  # создание новой колонки со значениями в DataFrame

In [None]:
df[df['E'].isin(['two','four'])]  # срез данных со значениями в колонке 'E' равными 'two' и 'four'

Unnamed: 0,A,B,C,D,E
2,0.348932,3.713241,-1.231364,0.731825,two
4,0.362225,-0.122734,-0.729128,0.422277,four


In [None]:
df.loc[df['A'] < 0.5, 'B'] = 0  # изменение значений DataFrame в колонке 'B' на значение 0 при условии, что значения в колонке 'A' меньше 0.5
df  # вывод DataFrame

Unnamed: 0,A,B,C,D,E
0,0.881065,-0.133435,-0.189084,0.61995,one
1,1.176978,0.375529,1.672382,-1.463845,one
2,0.348932,0.0,-1.231364,0.731825,two
3,-0.336244,0.0,-0.012189,-0.401734,three
4,0.362225,0.0,-0.729128,0.422277,four
5,1.893838,0.732031,1.055884,0.735655,three


**ЗАДАНИЕ**<br>
Изменените значений DataFrame df в колонке 'D' на значение 0.5 при условии, что значения в колонке 'D' меньше 0.5 или значения в колонке 'C' меньше 0.5.

In [None]:
# ВАШ КОД
df.loc[(df['D']<0.5) | (df['C']<0.5), 'D'] = 0.5

In [None]:
df['F'] = [0.2, np.NaN, 0.5, 0.1, np.NaN, np.NaN]  # создание колонки с неизвестными значениями
df  # вывод DataFrame

Unnamed: 0,A,B,C,D,E,F
0,0.881065,-0.133435,-0.189084,0.5,one,0.2
1,1.176978,0.375529,1.672382,0.5,one,
2,0.348932,0.0,-1.231364,0.5,two,0.5
3,-0.336244,0.0,-0.012189,0.5,three,0.1
4,0.362225,0.0,-0.729128,0.5,four,
5,1.893838,0.732031,1.055884,0.735655,three,


In [None]:
df.dropna()  # удалить все строки в DataFrame, которые зодержат неизвестные значения

Unnamed: 0,A,B,C,D,E,F
0,0.881065,-0.133435,-0.189084,0.5,one,0.2
2,0.348932,0.0,-1.231364,0.5,two,0.5
3,-0.336244,0.0,-0.012189,0.5,three,0.1


In [None]:
df.fillna(value=5)  # заменить все неизвестные значения на значение 5

Unnamed: 0,A,B,C,D,E,F
0,0.881065,-0.133435,-0.189084,0.5,one,0.2
1,1.176978,0.375529,1.672382,0.5,one,5.0
2,0.348932,0.0,-1.231364,0.5,two,0.5
3,-0.336244,0.0,-0.012189,0.5,three,0.1
4,0.362225,0.0,-0.729128,0.5,four,5.0
5,1.893838,0.732031,1.055884,0.735655,three,5.0


Pandas обладает функциями для вычисления различных статистических показателей.

In [None]:
print(df['A'].mean())  # среднее
print(df['A'].std())  # стандартное отклонение
print(df['A'].sum())  # сумма

0.7211323640782222
0.7738224356686209
4.326794184469334


In [None]:
df

Unnamed: 0,A,B,C,D,E,F
0,0.881065,-0.133435,-0.189084,0.5,one,0.2
1,1.176978,0.375529,1.672382,0.5,one,
2,0.348932,0.0,-1.231364,0.5,two,0.5
3,-0.336244,0.0,-0.012189,0.5,three,0.1
4,0.362225,0.0,-0.729128,0.5,four,
5,1.893838,0.732031,1.055884,0.735655,three,


In [None]:
df.groupby('E').mean()  # получение статистических показателей с групировкой по категориальной колонке

Unnamed: 0_level_0,A,B,C,D,F
E,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
four,0.362225,0.0,-0.729128,0.5,
one,1.029022,0.121047,0.741649,0.5,0.2
three,0.778797,0.366016,0.521847,0.617828,0.1
two,0.348932,0.0,-1.231364,0.5,0.5


In [None]:
df.groupby('E').agg(['sum', 'std', 'mean']) # получение нескольких статистических показателей с групировкой по категориальной колонке

Unnamed: 0_level_0,A,A,A,B,B,B,C,C,C,D,D,D,F,F,F
Unnamed: 0_level_1,sum,std,mean,sum,std,mean,sum,std,mean,sum,std,mean,sum,std,mean
E,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
four,0.362225,,0.362225,0.0,,0.0,-0.729128,,-0.729128,0.5,,0.5,0.0,,
one,2.058043,0.209242,1.029022,0.242094,0.359892,0.121047,1.483299,1.316255,0.741649,1.0,0.0,0.5,0.2,,0.2
three,1.557594,1.576906,0.778797,0.732031,0.517624,0.366016,1.043695,0.755242,0.521847,1.235655,0.166633,0.617828,0.1,,0.1
two,0.348932,,0.348932,0.0,,0.0,-1.231364,,-1.231364,0.5,,0.5,0.5,,0.5


**ЗАДАНИЕ**<br>
Выведите сумму значений колонок в DataFrame df с группировкой по категориальной колонке 'E' для среза df, в котором значения в колонке 'C' больше, чем среднее значение в колонке 'A'.

In [None]:
df

Unnamed: 0,A,B,C,D,E,F
0,0.881065,-0.133435,-0.189084,0.5,one,0.2
1,1.176978,0.375529,1.672382,0.5,one,
2,0.348932,0.0,-1.231364,0.5,two,0.5
3,-0.336244,0.0,-0.012189,0.5,three,0.1
4,0.362225,0.0,-0.729128,0.5,four,
5,1.893838,0.732031,1.055884,0.735655,three,


Я не уверена, что правильно поняла задание, сделала, как поняла

In [None]:
# ВАШ КОД
df[df['C'] > df['A'].mean()].groupby(df['E']).sum()

Unnamed: 0_level_0,A,B,C,D,F
E,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,1.176978,0.375529,1.672382,0.5,0.0
three,1.893838,0.732031,1.055884,0.735655,0.0
