### МГУ им. М. В. Ломоносова
### Введение в анализ геоданных
#### [Материалы курса](https://github.com/keyonix/course_geodata)
## Python для анализа данных - Введение в обработку данных с Numpy и Pandas

### Numpy

**Numpy** фундаментальный пакет для научных вычислений в Python. Он предоставляет высокопроизводительный многомерный объект для массивов данных и инструменты для работы с ним.

In [1]:
import numpy as np

Массив в Numpy - это таблица значений одного типа. Количество измерений - ранг массива (rank). Размерность массива (shape) задана кортежем чисел, которые описывают размер каждого измерения массива.

Создавать массивы можно с помощью вложенных листов.

In [2]:
# Создадим массив ранга 1
a = np.array([1, 2, 3])  # создание массива из листа
print(a)                 # вывод
print(type(a))           # тип
print(a.shape)           # размерность массива

[1 2 3]
<class 'numpy.ndarray'>
(3,)


Получить доступ к элементам массива можно используя квадратные скобки.

In [3]:
print(a[0], a[1], a[2])   # вывод элементов массива
a[0] = 5                  # изменение элемента массива
print(a)                  # вывод массива

1 2 3
[5 2 3]


In [4]:
# Создадим массив ранга 2
b = np.array([[1,2,3],[4,5,6]])   # создание массива из вложенных листов
print(b)                          # вывод массива
print(b.shape)                    # вывод размерности массива
print(b[0, 0], b[0, 1], b[1, 0])  # вывод выбранных элементов массива

[[1 2 3]
 [4 5 6]]
(2, 3)
1 2 4


**ЗАДАНИЕ**<br>
Создайте массив из листа \[23,32,47,22\]. Измените значение второго элемента массива на значение 50. Выведите размерность массива.

In [5]:
# ВАШ КОД

#### Индексирование

По аналогии с листами, можно создавать срезы массива. Так как массивы могут быть многомерными, срез можно задать по каждому измерению.

In [6]:
a = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [7]:
print(a[1:,:])  # вывод среза массива

[[4 5 6]
 [7 8 9]]


In [8]:
print(a[:,:2])  # вывод среза массива

[[1 2]
 [4 5]
 [7 8]]


**ЗАДАНИЕ**<br>
Выведите срез массива *a*:

|||
|---|---|
|5|6|
|8|9|

In [9]:
# ВАШ КОД

#### Условное индексирование

Условное индексирование позволяет получать объекты массива, которые соответствуют заданному условию.

In [10]:
a = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [11]:
bool_ix = (a > 3)  # условное индексирование
print(bool_ix)     # вывод булева индекса

[[False False False]
 [ True  True  True]
 [ True  True  True]]


In [12]:
print(a[bool_ix]) # вывод элементов по булеву индексу

[4 5 6 7 8 9]


In [13]:
print(a[a > 3]) # условное индексирование с получение элементов массива

[4 5 6 7 8 9]


**ЗАДАНИЕ**<br>
Найдите элементы массива *a* со значениями больше 6 с помощью условного идексирования и выведите длину получившегося массива.

In [14]:
# ВАШ КОД

#### Базовые вычисления

In [15]:
# Создадим 2 массива содержащих числа с плавающей точкой
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

In [16]:
print(x)

[[1. 2.]
 [3. 4.]]


In [17]:
print(y)

[[5. 6.]
 [7. 8.]]


In [18]:
# Поэлементная сумма
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [19]:
# Поэлементное вычитание
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [20]:
# Поэлементное умножение
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [21]:
# Поэлементное деление
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [22]:
# Поэлементное получение корня
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [23]:
# Матричное умножение
print(np.matmul(x,y))

[[19. 22.]
 [43. 50.]]


Numpy предоставляет большое количество функций для вычислений над массивами. Одна из наиболее используемых функция sum. Полный список функций детально представлен в [документации Numpy](#https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html).

In [24]:
x = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print(x)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [25]:
# Сумма всех элементов массива
print(np.sum(x))

45


In [26]:
# Сумма элементов по первой оси
print(np.sum(x, axis=0))

[12 15 18]


In [27]:
# Сумма элементов по второй оси
print(np.sum(x, axis=1))

[ 6 15 24]


**ЗАДАНИЕ**<br>
Посчитайте сумму значений больше 30 элементов массива, получившегося в результаты операции поэлементного умножения массива x на массив y. Воспользуйтесь операцией умножения массивов, условным индексированием и функцией суммирования элементов массива.

In [28]:
# ВАШ КОД

### Pandas

**Pandas** представляет собой легкую в использовании высокоуровневую структуру данных и многофункциональный инструмент для анализа данных. Полный функционал Pandas детально описан в [документации](https://pandas.pydata.org/pandas-docs/stable/).

In [29]:
import pandas as pd

Pandas имеет два основных объекта для хранения данных: Series и DataFrame. Series - вектор размерности 1, DataFrame - многомерный вектор. Оба объекта имеют индекс. Создадим pandas Series. При создании Series c помощью листа значений порядковый индекс создается автоматически.

In [30]:
s = pd.Series([1,3,5,np.nan,6,8]) # способ создания Series путем передачи листа значений

In [31]:
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [32]:
s.index  # объект индекса

RangeIndex(start=0, stop=6, step=1)

In [33]:
s.index.values # значения идекса

array([0, 1, 2, 3, 4, 5], dtype=int64)

Библиотека Numpy обладает широким функционалом для работы с случайными величинами. Для демонстрации функционала Pandas создадим таблицу случайных значений с помощью Numpy. Далее создадим из данной таблицы Pandas DataFrame. При создание DataFrame можно явно передать название колонок в виде листа в параметр columns.

In [34]:
random_array = np.random.randn(6,4)  # создание таблицы случайных значений со стандартным нормальным распределением из 4 колонок и 6 строк

In [35]:
print(random_array)

[[ 0.49120417 -0.83905321  0.23551072 -0.04070729]
 [-0.69972586  0.89556833 -0.34016226  0.4590311 ]
 [ 0.92026981 -0.63702743  0.84690029  1.76768798]
 [-0.48834925  0.09815758  0.97026659  1.05377875]
 [ 1.59024459 -0.72292547  0.92253463 -0.22458286]
 [ 1.11920434 -0.35120967 -0.09602345  0.80501436]]


In [36]:
df = pd.DataFrame(random_array, columns = ['A','B','C','D']) # создание DataFrame из Numpy array

In [37]:
df  # вывод DataFrame в табличном виде

Unnamed: 0,A,B,C,D
0,0.491204,-0.839053,0.235511,-0.040707
1,-0.699726,0.895568,-0.340162,0.459031
2,0.92027,-0.637027,0.8469,1.767688
3,-0.488349,0.098158,0.970267,1.053779
4,1.590245,-0.722925,0.922535,-0.224583
5,1.119204,-0.35121,-0.096023,0.805014


In [38]:
df.head(3)  # вывод первых 3 значений DataFrame

Unnamed: 0,A,B,C,D
0,0.491204,-0.839053,0.235511,-0.040707
1,-0.699726,0.895568,-0.340162,0.459031
2,0.92027,-0.637027,0.8469,1.767688


In [39]:
df.tail(3)  # вывод последних 3 значений DataFrame

Unnamed: 0,A,B,C,D
3,-0.488349,0.098158,0.970267,1.053779
4,1.590245,-0.722925,0.922535,-0.224583
5,1.119204,-0.35121,-0.096023,0.805014


In [40]:
df.shape  # размерность DataFrame

(6, 4)

In [41]:
df.index.values  # значения идекса DataFrame

array([0, 1, 2, 3, 4, 5], dtype=int64)

Для того чтобы получить быструю описательную статистику DataFrame можно воспользоваться функцие describe().

In [42]:
df.describe()  # описательная статистика DataFrame

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.488808,-0.259415,0.423171,0.636704
std,0.912598,0.657827,0.568451,0.736705
min,-0.699726,-0.839053,-0.340162,-0.224583
25%,-0.243461,-0.701451,-0.01314,0.084227
50%,0.705737,-0.494119,0.541206,0.632023
75%,1.069471,-0.014184,0.903626,0.991588
max,1.590245,0.895568,0.970267,1.767688


Функционал Pandas позволяет сортировать DataFrame как по индексу так и по определенной колонке.

In [43]:
df.sort_index(axis=1, ascending=False)  # сортировка по индексу

Unnamed: 0,D,C,B,A
0,-0.040707,0.235511,-0.839053,0.491204
1,0.459031,-0.340162,0.895568,-0.699726
2,1.767688,0.8469,-0.637027,0.92027
3,1.053779,0.970267,0.098158,-0.488349
4,-0.224583,0.922535,-0.722925,1.590245
5,0.805014,-0.096023,-0.35121,1.119204


In [44]:
df.sort_values(by='B', ascending=False)  # сортировка по колонке

Unnamed: 0,A,B,C,D
1,-0.699726,0.895568,-0.340162,0.459031
3,-0.488349,0.098158,0.970267,1.053779
5,1.119204,-0.35121,-0.096023,0.805014
2,0.92027,-0.637027,0.8469,1.767688
4,1.590245,-0.722925,0.922535,-0.224583
0,0.491204,-0.839053,0.235511,-0.040707


Pandas имеет широкий функционал для выделения и фильтрации данных.

In [45]:
df['C']  # выбор отдельной колонки

0    0.235511
1   -0.340162
2    0.846900
3    0.970267
4    0.922535
5   -0.096023
Name: C, dtype: float64

In [46]:
df[2:4]  # срез данных по строкам

Unnamed: 0,A,B,C,D
2,0.92027,-0.637027,0.8469,1.767688
3,-0.488349,0.098158,0.970267,1.053779


In [47]:
df.loc[3]  # выбор значений колонок для заданного значения индекса

A   -0.488349
B    0.098158
C    0.970267
D    1.053779
Name: 3, dtype: float64

In [48]:
df.loc[2:3,['A','B']]  # срез данных по строкам и колонкам

Unnamed: 0,A,B
2,0.92027,-0.637027
3,-0.488349,0.098158


In [49]:
df.loc[2,'A']  # выбор значения DataFrame по индексу и колонке

0.9202698120799161

Pandas включает функции для удобного условного индексирования.

In [50]:
df[df['A'] > 0]  # срез данных со значениями в колонке 'A' больше 0

Unnamed: 0,A,B,C,D
0,0.491204,-0.839053,0.235511,-0.040707
2,0.92027,-0.637027,0.8469,1.767688
4,1.590245,-0.722925,0.922535,-0.224583
5,1.119204,-0.35121,-0.096023,0.805014


In [51]:
df[(df['A'] > 0) & (df['B'] > 0)]  # срез данных со значениями в колонке 'A' и 'B' больше 0

Unnamed: 0,A,B,C,D


In [52]:
df[(df['A'] > 0) | (df['C'] > 0)]  # срез данных со значениями в колонке 'A' или 'C' больше 0

Unnamed: 0,A,B,C,D
0,0.491204,-0.839053,0.235511,-0.040707
2,0.92027,-0.637027,0.8469,1.767688
3,-0.488349,0.098158,0.970267,1.053779
4,1.590245,-0.722925,0.922535,-0.224583
5,1.119204,-0.35121,-0.096023,0.805014


**ЗАДАНИЕ**<br>
Выведите срез DataFrame df, в котором значения в колонке 'C' больше 0.2, значения в колонке 'D' меньше 0.9 и значения в колонке 'B' больше 0.

In [53]:
# ВАШ КОД

In [54]:
df['E'] = ['one', 'one','two','three','four','three']  # создание новой колонки со значениями в DataFrame

In [55]:
df[df['E'].isin(['two','four'])]  # срез данных со значениями в колонке 'E' равными 'two' и 'four'

Unnamed: 0,A,B,C,D,E
2,0.92027,-0.637027,0.8469,1.767688,two
4,1.590245,-0.722925,0.922535,-0.224583,four


In [56]:
df.loc[df['A'] < 0.5, 'B'] = 0  # изменение значений DataFrame в колонке 'B' на значение 0 при условии, что значения в колонке 'A' меньше 0.5
df  # вывод DataFrame

Unnamed: 0,A,B,C,D,E
0,0.491204,0.0,0.235511,-0.040707,one
1,-0.699726,0.0,-0.340162,0.459031,one
2,0.92027,-0.637027,0.8469,1.767688,two
3,-0.488349,0.0,0.970267,1.053779,three
4,1.590245,-0.722925,0.922535,-0.224583,four
5,1.119204,-0.35121,-0.096023,0.805014,three


**ЗАДАНИЕ**<br>
Изменените значений DataFrame df в колонке 'D' на значение 0.5 при условии, что значения в колонке 'D' меньше 0.5 или значения в колонке 'C' меньше 0.5.

In [57]:
# ВАШ КОД

In [58]:
df['F'] = [0.2, np.NaN, 0.5, 0.1, np.NaN, np.NaN]  # создание колонки с неизвестными значениями
df  # вывод DataFrame

Unnamed: 0,A,B,C,D,E,F
0,0.491204,0.0,0.235511,-0.040707,one,0.2
1,-0.699726,0.0,-0.340162,0.459031,one,
2,0.92027,-0.637027,0.8469,1.767688,two,0.5
3,-0.488349,0.0,0.970267,1.053779,three,0.1
4,1.590245,-0.722925,0.922535,-0.224583,four,
5,1.119204,-0.35121,-0.096023,0.805014,three,


In [59]:
df.dropna()  # удалить все строки в DataFrame, которые зодержат неизвестные значения

Unnamed: 0,A,B,C,D,E,F
0,0.491204,0.0,0.235511,-0.040707,one,0.2
2,0.92027,-0.637027,0.8469,1.767688,two,0.5
3,-0.488349,0.0,0.970267,1.053779,three,0.1


In [60]:
df.fillna(value=5)  # заменить все неизвестные значения на значение 5

Unnamed: 0,A,B,C,D,E,F
0,0.491204,0.0,0.235511,-0.040707,one,0.2
1,-0.699726,0.0,-0.340162,0.459031,one,5.0
2,0.92027,-0.637027,0.8469,1.767688,two,0.5
3,-0.488349,0.0,0.970267,1.053779,three,0.1
4,1.590245,-0.722925,0.922535,-0.224583,four,5.0
5,1.119204,-0.35121,-0.096023,0.805014,three,5.0


Pandas обладает функциями для вычисления различных статистических показателей.

In [61]:
print(df['A'].mean())  # среднее
print(df['A'].std())  # стандартное отклонение
print(df['A'].sum())  # сумма

0.48880796538550003
0.9125980672795257
2.9328477923130003


In [62]:
df.groupby('E').mean()  # получение статистических показателей с групировкой по категориальной колонке

Unnamed: 0_level_0,A,B,C,D,F
E,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
four,1.590245,-0.722925,0.922535,-0.224583,
one,-0.104261,0.0,-0.052326,0.209162,0.2
three,0.315428,-0.175605,0.437122,0.929397,0.1
two,0.92027,-0.637027,0.8469,1.767688,0.5


In [63]:
df.groupby('E').agg(['sum', 'std', 'mean']) # получение нескольких статистических показателей с групировкой по категориальной колонке

Unnamed: 0_level_0,A,A,A,B,B,B,C,C,C,D,D,D,F,F,F
Unnamed: 0_level_1,sum,std,mean,sum,std,mean,sum,std,mean,sum,std,mean,sum,std,mean
E,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
four,1.590245,,1.590245,-0.722925,,-0.722925,0.922535,,0.922535,-0.224583,,-0.224583,,,
one,-0.208522,0.842115,-0.104261,0.0,0.0,0.0,-0.104652,0.407062,-0.052326,0.418324,0.353368,0.209162,0.2,,0.2
three,0.630855,1.136712,0.315428,-0.35121,0.248343,-0.175605,0.874243,0.753981,0.437122,1.858793,0.175903,0.929397,0.1,,0.1
two,0.92027,,0.92027,-0.637027,,-0.637027,0.8469,,0.8469,1.767688,,1.767688,0.5,,0.5


**ЗАДАНИЕ**<br>
Выведите сумму значений колонок в DataFrame df с группировкой по категориальной колонке 'E' для среза df, в котором значения в колонке 'C' больше, чем среднее значение в колонке 'A'.

In [64]:
# ВАШ КОД

Unnamed: 0_level_0,A,B,C,D,F
E,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
four,1.590245,-0.722925,0.922535,-0.224583,
three,-0.488349,0.0,0.970267,1.053779,0.1
two,0.92027,-0.637027,0.8469,1.767688,0.5
