# Numpy

NumPy - это фундаментальный пакет для научных вычислений на Python. Это библиотека Python, которая предоставляет объект многомерного массива, различные производные объекты (такие как замаскированные массивы и матрицы) и набор программ для быстрых операций с массивами, в том числе математические, логические, манипуляции с формами, сортировка, выбор, ввод-вывод, дискретное преобразование Фурье, базовая линейная алгебра, базовые статистические операции, случайное моделирование и многое другое.

В основе пакета NumPy лежит ndarray объект . Он инкапсулирует n-мерные массивы однородных типов данных, многие операции выполняются в скомпилированном коде для повышения производительности. Есть несколько важных различий между массивами NumPy и стандартные последовательности Python:

   * Массивы NumPy имеют фиксированный размер при создании, в отличие от списков Python (который может динамически расти). Изменение размера ndarray приведет к созданию нового массива и удалению оригинала.

   * Все элементы в массиве NumPy должны быть одного и того же тип данных и, следовательно, будет иметь тот же размер в памяти. 

   * Массивы NumPy упрощают продвинутые математические и другие типы операции с большим количеством данных. Обычно такие операции выполняется более эффективно и с меньшим количеством кода, в отличии от последовательностей python.
  
   * Растущее множество научных и математических программ на основе Python,  используют массивы NumPy; хотя они обычно поддерживают работу с обычными последовательностями python,но в основном они преобразуют такой ввод в массивы NumPy до обработки, и в итоге выводят массивы NumPy. Другими словами, чтобы эффективно использовать некоторую часть (возможно, даже большую часть) сегодняшних научных/математических пакетов на основе Python, недостаточно уметь использовать встроенные типы последовательностей Python, нужно хотябы погнимать как использовать  Numpy.

Вопросы, касающиеся размера последовательности и скорости, особенно важны в научные вычисления. В качестве простого примера рассмотрим случай умножение каждого элемента в 1-мерной последовательности на соответствующий элемент в другой последовательности такой же длины. Если данные хранятся в двух списках Python, a и b, мы могли бы перебрать каждый элемент: 

In [1]:
c = []
for i in range(len(a)):
    c.append(a[i]*b[i])

NameError: name 'a' is not defined

Это дает правильный ответ, но если они каждый содержит миллионов номеров, мы заплатим цену за неэффективность циклов в Python. Мы могли бы выполнить ту же задачу гораздо быстрее на C. 

In [None]:
for (i = 0; i < rows; i++): {
  c[i] = a[i]*b[i];
}

В случае 2-D массив.

In [None]:
for (i = 0; i < rows; i++): {
  for (j = 0; j < columns; j++): {
    c[i][j] = a[i][j]*b[i][j];
  }
}



NumPy дает нам лучшее из обоих миров: поэлементные операции являются «режимом по умолчанию», когда ndarray задействован , но поэлементная операция быстро выполняется предварительно скомпилированным C кодом

In [None]:
c = a * b

делает то же, что и предыдущие примеры, со скоростью, близкой к C, но с кодом простоты, которую мы ожидаем от чего-то, основанного на Python.

### Почему NumPy быстрый?

Векторизация описывает отсутствие каких-либо явных циклов, индексации, и т.д., в коде - эти вещи, конечно, происходят просто «За кулисами» в оптимизированном, предварительно скомпилированном коде C. Векторизованный код имеет множество преимуществ, среди которых:

   * векторизованный код более краток и легче читается

   * меньше строк кода обычно означает меньше ошибок

   * код больше похож на стандартную математическую нотацию (что обычно упрощает правильное кодирование математических конструкции)

   * векторизация приводит к более «питоническому» коду. Без векторизация, наш код будет завален неэффективными и трудно читаемыми цыклами.

Трансляция - это термин, используемый для описания неявного поэлементное поведение операций; вообще говоря, в NumPy все операции, не только арифметические операции, но логические, побитовые, функциональные и т. д. ведут себя так же, т.е. транслируются.

    Основы
        - Полезные методы n-мерного массива
        - Создание массивов из типов последовательностей Python
        - Печатные массивы
        - Общие операции с массивами NumPy
        - Универсальные функции
        - Индексирование, нарезка и повторение
        
    Манипуляции с формой
        - Изменение формы массива
        - Укладка массивов NumPy по горизонтали и вертикали
        - Разбиение больших массивов на более мелкие
        
    Просмотры или копии
        - Никакой копии
        - Просмотр или мелкая копия
        - Глубокие копии
        
    Продвинутый NumPy
        - Изящные индексации и хитрости с индексами
            - Индексирование с массивами целых и логических чисел
        - Функция ix_ ()

In [12]:
import numpy as np

a = np.arange(2, 10, 2) # Создает массив NumPy 3x5 со значениями в промежутке [0, 14]
a

array([2, 4, 6, 8])

In [16]:
squares = np.array(tuple(x**2 for x in range(10)))
squares

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [14]:
type(squares)

numpy.ndarray

In [20]:
np.array([1, 2, '3', 'asdssa'])

array(['1', '2', '3', 'asdssa'], dtype='<U21')

###### Полезные методы n-мерного массива (np.array)

In [32]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [33]:
a.shape

(3, 5)

In [34]:
a.ndim

2

In [36]:
a.dtype.name

'int64'

In [37]:
a.itemsize

8

In [12]:
a.size

15

In [13]:
type(a)

numpy.ndarray

###### Создание массивов из типов последовательностей Python

In [38]:
squares = [x**2 for x in range(10)]         # python list
cubes = tuple(x**3 for x in range(10))      # python tuple
evens = {x for x in range(10) if x%2 == 0}  # python set

print(type(squares))
print(type(cubes))
print(type(evens))

<class 'list'>
<class 'tuple'>
<class 'set'>


In [39]:
a = np.array(squares)
b = np.array(cubes)
c = np.array(evens)

if type(a) == type(b) == type(c):
    print(type(a))

<class 'numpy.ndarray'>


In [17]:
seq2 = [[x, x**2, x**3] for x in range(10)]
seq3 = [[[x for x in range(3)], [y for y in range(3, 6)]] for z in range(10)]

a = np.array(seq2) # создать массив из вложенных списков глубины 2
b = np.array(seq3) # создать массив из вложенных списков глубины 3

print(a)
print(b)

[[  0   0   0]
 [  1   1   1]
 [  2   4   8]
 [  3   9  27]
 [  4  16  64]
 [  5  25 125]
 [  6  36 216]
 [  7  49 343]
 [  8  64 512]
 [  9  81 729]]
[[[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]]


In [40]:
odds = list(i for i in range(10) if i%2 != 0)

numpy_odds = np.array(odds, dtype=complex) # объявить тип данных во время создания экземпляра
numpy_odds

array([1.+0.j, 3.+0.j, 5.+0.j, 7.+0.j, 9.+0.j])

In [42]:
zeros = np.zeros((3, 3), dtype=np.int32) # создать массив 3x3 из 0
ones = np.ones((2, 2), dtype=np.float64) # создать массив 2x2 из 1
empty = np.empty((3, 3))

print(zeros, zeros.dtype.name)
print(ones, ones.dtype.name)
print(empty, empty.dtype.name)

[[0 0 0]
 [0 0 0]
 [0 0 0]] int32
[[1. 1.]
 [1. 1.]] float64
[[1.61345556e-316 0.00000000e+000 1.09028689e-269]
 [4.07139461e-259 4.84114712e-231 3.60403167e-269]
 [2.17981558e-269 5.01729386e-308 1.02765654e-321]] float64


In [22]:
a = np.arange(5, 30, 5) # создать массив из диапазона [5, 30) с шагом 5
a

array([ 5, 10, 15, 20, 25])

In [47]:
b = np.linspace(0, 2, 100) # создать массив из 100 значений от 0 до 1
b

array([0.        , 0.02020202, 0.04040404, 0.06060606, 0.08080808,
       0.1010101 , 0.12121212, 0.14141414, 0.16161616, 0.18181818,
       0.2020202 , 0.22222222, 0.24242424, 0.26262626, 0.28282828,
       0.3030303 , 0.32323232, 0.34343434, 0.36363636, 0.38383838,
       0.4040404 , 0.42424242, 0.44444444, 0.46464646, 0.48484848,
       0.50505051, 0.52525253, 0.54545455, 0.56565657, 0.58585859,
       0.60606061, 0.62626263, 0.64646465, 0.66666667, 0.68686869,
       0.70707071, 0.72727273, 0.74747475, 0.76767677, 0.78787879,
       0.80808081, 0.82828283, 0.84848485, 0.86868687, 0.88888889,
       0.90909091, 0.92929293, 0.94949495, 0.96969697, 0.98989899,
       1.01010101, 1.03030303, 1.05050505, 1.07070707, 1.09090909,
       1.11111111, 1.13131313, 1.15151515, 1.17171717, 1.19191919,
       1.21212121, 1.23232323, 1.25252525, 1.27272727, 1.29292929,
       1.31313131, 1.33333333, 1.35353535, 1.37373737, 1.39393939,
       1.41414141, 1.43434343, 1.45454545, 1.47474747, 1.49494

In [48]:
from numpy import pi

c = np.linspace(0, 2*pi, 10) # полезно для оценки тригонометрической функции в точках

f = np.sin(c)
f

array([ 0.00000000e+00,  6.42787610e-01,  9.84807753e-01,  8.66025404e-01,
        3.42020143e-01, -3.42020143e-01, -8.66025404e-01, -9.84807753e-01,
       -6.42787610e-01, -2.44929360e-16])

In [50]:
# создание массива из функции

def f(row_num, col_num):
    return 2*row_num + col_num

F = np.fromfunction(f, (3, 3), dtype=int)
F

array([[0, 1, 2],
       [2, 3, 4],
       [4, 5, 6]])

###### Вывод массивов

In [58]:
a = [[2, 3, 5],
     [4, 5, 6],
     [6, 5, 0]]
pprint({2: 4, 4: 6, 6: 5})

{2: 4, 4: 6, 6: 5}


In [28]:
dim1 = np.arange(15)                   # Создать 1 матрицу 1x15; n = 1
dim2 = np.arange(15).reshape(3, 5)     # Создайте 1 матрицу 3x5; n = 2
dim3 = np.arange(24).reshape(2, 3, 4)  # Создайте 2 матрицы 3х4; n = 3

print(dim1, end='\t[1x15]\n\n')
print(dim2, end='\t[3x5]\n\n')
print(dim3, end='\t[2x3x4]')

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]	[1x15]

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]	[3x5]

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]	[2x3x4]

In [59]:
very_large = np.arange(10000).reshape(100, 100)
print(very_large) # печать очень большого массива

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


###### Общие операции с массивами NumPy

- Арифметические операции с массивами применяются поэлементно.
- Создается новый массив и заполняется результатом.

In [63]:
a = [3, 4]
b = [1, 1]

print(3* a)

[3, 4, 3, 4, 3, 4]


In [64]:
a = np.arange(10) 
b = np.array([2 for x in range(10)])
c = np.ones(10, dtype=int)
result = a + b - c # прибавить 2 и вычесть 1 из каждого элемента

print(a, b, c)
print(2 * result)

[0 1 2 3 4 5 6 7 8 9] [2 2 2 2 2 2 2 2 2 2] [1 1 1 1 1 1 1 1 1 1]
[ 2  4  6  8 10 12 14 16 18 20]


In [67]:
result **= 2 # возвести в квадрат каждый элемент результата
(result / 2) ** 2

array([2.50000000e-01, 1.63840000e+04, 1.07616802e+07, 1.07374182e+09,
       3.81469727e+10, 7.05277477e+11, 8.30823264e+12, 7.03687442e+13,
       4.63255047e+14, 2.50000000e+15])

In [68]:
a = np.ones(15).reshape(3, 5) # m * n | n * k
b = np.ones(15).reshape(5, 3)

mult = a * 10            # поэлементное умножение

dot_prod1 = a.dot(b)     # умножение версии 1
dot_prod2 = np.dot(a, b) # умножение версии 2

print(mult, end='\n\n')
print(dot_prod1, end='\n\n')
print(dot_prod2)

[[10. 10. 10. 10. 10.]
 [10. 10. 10. 10. 10.]
 [10. 10. 10. 10. 10.]]

[[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]]

[[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]]


In [69]:
a, b = dot_prod1, dot_prod2
print(a, b)

a += b # += and *= действуют на месте - они изменяют существующий массив
print(a, b)

[[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]] [[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]]
[[10. 10. 10.]
 [10. 10. 10.]
 [10. 10. 10.]] [[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]]


In [61]:
# операции с массивами приводят результат к более общему типу
a = np.ones(10, dtype=int)
b = np.ones(10, dtype=float)
c = np.ones(10, dtype=complex)

a_plus_b = a + b # int + float = float
b_plus_c = b + c # float + complex = complex

print(a_plus_b.dtype.name)
print(b_plus_c.dtype.name)

float64
complex128


In [70]:
# полезные методы массива
a = np.arange(1, 11)
print('Sum:', a.sum())
print('Min:', a.min())
print('Max:', a.max())
print('Mean:', a.mean())

Sum: 55
Min: 1
Max: 10
Mean: 5.5


In [43]:
# применение методов к одной оси
a = np.arange(15).reshape(3, 5) + 1

print(a.sum(axis=0)) # суммировать каждый столбец
print(a.min(axis=1)) # минимум каждой строки
a

[18 21 24 27 30]
[ 1  6 11]


array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

###### Универсальные функции

In [44]:
# универсальные функции (sin, cos, exp, sqrt, ... etc)
a = np.linspace(0, 2*pi, 10000)

sin_a = np.sin(a)
sqrt_a = np.sqrt(a)
exp_a = np.exp(a)

print(sin_a, end='\n\n')
print(sqrt_a, end='\n\n')
print(exp_a, end='\n\n')

[ 0.00000000e+00  6.28381328e-04  1.25676241e-03 ... -1.25676241e-03
 -6.28381328e-04 -2.44929360e-16]

[0.         0.02506754 0.03545085 ... 2.50637757 2.50650293 2.50662827]

[  1.           1.00062858   1.00125755 ... 534.81909228 535.15526825
 535.49165552]



In [79]:
# индексация элементов из многомерных массивов
A = np.array([x**2 for x in range(1, 11)]).reshape(2, 5)

print(A, end='\n\n')
print('A[0]\t\t', A[0])
print('A[-1]\t\t', A[-1])
print('A[0][0]\t\t', A[0][0])
print('A[-1][-1]\t', A[-1][-1])
#print('', A[])

[[  1   4   9  16  25]
 [ 36  49  64  81 100]]

A[0]		 [ 1  4  9 16 25]
A[-1]		 [ 36  49  64  81 100]
A[0][0]		 1
A[-1][-1]	 100


In [82]:
A[0][2]

9

In [85]:
# нарезка массивов NumPy
cubes = np.arange(1, 13).reshape(4, 3)**3 # куб с числами 1-12

print(cubes[:, :], end='\n\n')         # все столбцы все строки
print('First Column:\t', cubes[:, 0]) # первый столбец
print('Last Column:\t', cubes[:, -1]) # последний столбец
print('First Row:\t', cubes[0, :])    # первая строка
print('Last Row:\t', cubes[-1, :])    # последняя строка

[[   1    8   27]
 [  64  125  216]
 [ 343  512  729]
 [1000 1331 1728]]

First Column:	 [   1   64  343 1000]
Last Column:	 [  27  216  729 1728]
First Row:	 [ 1  8 27]
Last Row:	 [1000 1331 1728]


In [89]:
cubes[1:2+1, 0:1+1]

array([[ 64, 125],
       [343, 512]])

In [90]:
# итерация по элементам массива
A = np.array([x+1 for x in range(10)])
A

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [91]:
for a in A:
    print(a, end=',')

1,2,3,4,5,6,7,8,9,10,

In [93]:
A = A.reshape(2, 5)

for a in A[1,:]: # для объектов из строки 1
    print(a**2, end=',')

36,49,64,81,100,

In [95]:
# использование ... для упрощения записи
A = np.arange(125).reshape(5, 5, 5) + 1

print(A)

print('A[0, ...] == A[0, :, :]', end='\n\n')
print(A[0, ...], '\n\n', A[0, :, :])

[[[  1   2   3   4   5]
  [  6   7   8   9  10]
  [ 11  12  13  14  15]
  [ 16  17  18  19  20]
  [ 21  22  23  24  25]]

 [[ 26  27  28  29  30]
  [ 31  32  33  34  35]
  [ 36  37  38  39  40]
  [ 41  42  43  44  45]
  [ 46  47  48  49  50]]

 [[ 51  52  53  54  55]
  [ 56  57  58  59  60]
  [ 61  62  63  64  65]
  [ 66  67  68  69  70]
  [ 71  72  73  74  75]]

 [[ 76  77  78  79  80]
  [ 81  82  83  84  85]
  [ 86  87  88  89  90]
  [ 91  92  93  94  95]
  [ 96  97  98  99 100]]

 [[101 102 103 104 105]
  [106 107 108 109 110]
  [111 112 113 114 115]
  [116 117 118 119 120]
  [121 122 123 124 125]]]
A[0, ...] == A[0, :, :]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]] 

 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]


In [96]:
# сглаживание массива 5x5x5 для итерации
for a in A.flat:
    print(a, end=',')

1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,

### Манипуляции с размером

###### Изменение размера массива

In [103]:
a = np.floor(10*np.random.random((3, 4)))
print(a)
print(a.shape)

[[0. 0. 5. 0.]
 [4. 1. 5. 4.]
 [9. 1. 2. 8.]]
(3, 4)


In [104]:
b = a.ravel() # возвращает КОПИЮ сглаженного массива

In [70]:
a.reshape(3, 4) # возвращает КОПИЮ преобразованного массива

array([[1., 8., 3., 4.],
       [1., 3., 0., 2.],
       [8., 4., 8., 0.]])

In [110]:
a.T # возвращает КОПИЮ массива, транспонированного

array([[1., 4., 9.],
       [0., 1., 1.],
       [5., 5., 2.],
       [0., 4., 8.]])

In [72]:
print('A:\t', a.shape)
print('A^T:\t', a.T.shape)

A:	 (3, 4)
A^T:	 (4, 3)


In [111]:
A = np.floor(10*np.random.random((3, 4)))

print(A)

a = A.reshape(4, 3) # reshape возвращает КОПИЮ A
print(a, 'array A remains unchanged')

A.resize(4, 3) # resize изменяет массив A
print(A, 'array A is of a new shape')

[[0. 8. 7. 5.]
 [7. 9. 7. 1.]
 [1. 3. 9. 3.]]
[[0. 8. 7.]
 [5. 7. 9.]
 [7. 1. 1.]
 [3. 9. 3.]] array A remains unchanged [[0. 8. 7. 5.]
 [7. 9. 7. 1.]
 [1. 3. 9. 3.]]
[[0. 8. 7.]
 [5. 7. 9.]
 [7. 1. 1.]
 [3. 9. 3.]] array A is of a new shape


In [78]:
a

array([[9., 0., 4.],
       [1., 9., 1.],
       [1., 3., 4.],
       [6., 6., 7.]])

###### Укладка массивов NumPy по горизонтали и вертикали

In [112]:
a = np.zeros(9, dtype=int).reshape(3, 3)
b = np.ones(9, dtype=int).reshape(3, 3)

# складывать по горизонтали:
hor = np.hstack((a, b))
ver = np.vstack((a, b))

print('a:\n', a)
print('b:\n', b)
print('Horizontal Stack:\n', hor)
print('Vertical Stack:\n', ver)

a:
 [[0 0 0]
 [0 0 0]
 [0 0 0]]
b:
 [[1 1 1]
 [1 1 1]
 [1 1 1]]
Horizontal Stack:
 [[0 0 0 1 1 1]
 [0 0 0 1 1 1]
 [0 0 0 1 1 1]]
Vertical Stack:
 [[0 0 0]
 [0 0 0]
 [0 0 0]
 [1 1 1]
 [1 1 1]
 [1 1 1]]


In [83]:
# аналогично row_stack и column_stack можно использовать для объединения в 2D-массивы.
r_stack = np.row_stack((a, b))
c_stack = np.column_stack((a, b))

print('Horizontal Stack:\n', hor)
print('Vertical Stack:\n', ver)
print('Column Stack:\n', c_stack)
print('Row Stack:\n', r_stack)

Horizontal Stack:
 [[0 0 0 1 1 1]
 [0 0 0 1 1 1]
 [0 0 0 1 1 1]]
Vertical Stack:
 [[0 0 0]
 [0 0 0]
 [0 0 0]
 [1 1 1]
 [1 1 1]
 [1 1 1]]
Column Stack:
 [[0 0 0 1 1 1]
 [0 0 0 1 1 1]
 [0 0 0 1 1 1]]
Row Stack:
 [[0 0 0]
 [0 0 0]
 [0 0 0]
 [1 1 1]
 [1 1 1]
 [1 1 1]]


In [113]:
from numpy import newaxis

r_stack = np.row_stack((a[newaxis], b[newaxis]))
c_stack = np.column_stack((a[newaxis], b[newaxis]))

print('Column Stack:\n', c_stack.ndim)
print('Row Stack:\n', r_stack.ndim)

Column Stack:
 3
Row Stack:
 3


Проще говоря, numpy.newaxisиспользуется для увеличения размера существующего массива еще на одно измерение при использовании однократном . Таким образом,

   * 1D- массив станет 2D- массивом

   * 2D- массив станет 3D- массивом

   * 3D- массив станет 4D- массивом

   * 4D массив станет 5D массивом

и так далее..

Вот наглядная иллюстрация, которая показывает преобразование одномерного массива в двухмерный массив. 

![blabla](https://i.stack.imgur.com/zkMBy.png)

### Сценарий-1 : 
np.newaxisможет пригодиться если вы хотите чтобы явно преобразовать массив 1D либо в вектор строку или вектор столбец , как показано на рисунке выше.

### Пример: 

In [115]:
arr = np.arange(4)
arr.shape

(4,)

In [116]:
row_vec = arr[np.newaxis, :]
row_vec.shape

(1, 4)

In [117]:
col_vec = arr[:, np.newaxis]
col_vec

array([[0],
       [1],
       [2],
       [3]])

### Сценарий 2 : 
когда мы хотим использовать широковещательную рассылку numpy как часть некоторой операции, например, при добавлении некоторых массивов. 
### Пример:

Допустим, вы хотите добавить следующие два массива: 

In [125]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = np.array([5, 4, 3])

In [126]:
x1_new = x1[:, np.newaxis]
x1_new, x2

(array([[1],
        [2],
        [3],
        [4],
        [5]]),
 array([5, 4, 3]))

In [127]:
x1_new + x2

array([[ 6,  5,  4],
       [ 7,  6,  5],
       [ 8,  7,  6],
       [ 9,  8,  7],
       [10,  9,  8]])

### OR

In [94]:
x2_new = x2[:, np.newaxis]
x2_new

array([[5],
       [4],
       [3]])

In [95]:
x1 + x2_new

array([[ 6,  7,  8,  9, 10],
       [ 5,  6,  7,  8,  9],
       [ 4,  5,  6,  7,  8]])

In [128]:
# использовать литералы диапазона для объединения массивов на лету
np.r_[1:5, 9, 145, 160:190]

array([2, 4, 5, 3, 5])

In [131]:
np.c_[1:5, 5:9]

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [139]:
# используйте hsplit или vsplit для разделения массивов
a = np.ones(9).reshape(3, 3)

a_1, a_2, a_3 = np.hsplit(a, 3) # разделить на 3 массива

print(a, end='\n\n')
print(a_1, end='\n\n')
print(a_2, end='\n\n')
print(a_3, end='\n\n')

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

[[1.]
 [1.]
 [1.]]

[[1.]
 [1.]
 [1.]]

[[1.]
 [1.]
 [1.]]



### Просмотры и копии

###### Никакой копии

In [140]:
a = np.arange(15).reshape(5, 3)
b = a
a is b

True

###### Просмотр или мелкая копия

In [107]:
# используйте метод view () для создания неглубокой копии массива
a = np.array([x**2 for x in range(6)])
b = a.view()

print('a is b:', a is b)
print('a is b.base:', a is b.base)

b.shape = 3, 2

print(b)

print(a.shape, ': no change to a\'s shape') # форма не меняется

b[0, 1] = 1000

print(a, 'a\'s data has changed!')

a is b: False
a is b.base: True
[[ 0  1]
 [ 4  9]
 [16 25]]
(6,) : no change to a's shape
[   0 1000    4    9   16   25] a's data has changed!


###### Глубокая копия

In [108]:
a = np.array([x+1 for x in range(10)])
b = a.copy()

print('a:', a, end='\t(Original)\n\n')
print('b:', b, end='\t(Deep Copy)\n\n')
print('a is b:', a is b)

a: [ 1  2  3  4  5  6  7  8  9 10]	(Original)

b: [ 1  2  3  4  5  6  7  8  9 10]	(Deep Copy)

a is b: False


### Продвинутый NumPy

#### Замечательные индексации и хитрости с индексами

###### Индексирование с помощью массивов целых и логических значений

In [144]:
# массивы могут быть проиндексированы массивами целых чисел и массивами логических значений
squares = np.array([(x)**2 for x in range(10)])
evens = np.array([x for x in range(10) if x%2 == 0])
odds = np.array([False if x%2 == 0 else True for x in range(10)])

print(odds)
squares_of_evens = squares[evens]
squares_of_odds = squares[odds]

print('Indexing with array of Ints:\t', squares_of_evens)
print('Indexing with array of Bools:\t', squares_of_odds)

[False  True False  True False  True False  True False  True]
Indexing with array of Ints:	 [ 0  4 16 36 64]
Indexing with array of Bools:	 [ 1  9 25 49 81]


###### Функция ix_ ()

In [145]:
# используйте ix_() для вычисления всех пар a + b * c для матриц a, b и c
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.array([7, 8, 9])

ax, bx, cx = np.ix_(a, b, c)

f = ax + bx*cx

if f[2, 1, 1] == a[2]+b[1]*c[1]:
    print(f)

[[[29 33 37]
  [36 41 46]
  [43 49 55]]

 [[30 34 38]
  [37 42 47]
  [44 50 56]]

 [[31 35 39]
  [38 43 48]
  [45 51 57]]]


# Pandas

Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками `Matplotlib` и `Seaborn` появляется возможность удобного визуального анализа табличных данных.

In [146]:
import pandas as pd

Данные, с которыми работают дата саентисты и аналитики, обычно хранятся в виде табличек — например, в форматах `.csv`, `.tsv` или `.xlsx`. Для того, чтобы считать нужные данные из такого файла, отлично подходит библиотека Pandas.

Основными структурами данных в Pandas являются классы `Series` и `DataFrame`. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа `Series`. Структура `DataFrame` отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

## Демонстрация основных методов Pandas 


### Чтение из файла и первичный анализ

Прочитаем данные и посмотрим на первые 5 строк с помощью метода `head`:

In [155]:
df = pd.read_csv("data/telecom_churn.csv")

In [156]:
df.head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


В Jupyter-ноутбуках датафреймы `Pandas` выводятся в виде вот таких красивых табличек, и `print(df.head())` выглядит хуже.

Кстати, по умолчанию `Pandas` выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией `set_option`:

In [150]:
pd.set_option("display.max_columns", 100)
pd.set_option("display.max_rows", 100)

In [151]:
print(df.head())

  state  account length  area code phone number international plan  \
0    KS             128        415     382-4657                 no   
1    OH             107        415     371-7191                 no   
2    NJ             137        415     358-1921                 no   
3    OH              84        408     375-9999                yes   
4    OK              75        415     330-6626                yes   

  voice mail plan  number vmail messages  total day minutes  total day calls  \
0             yes                     25              265.1              110   
1             yes                     26              161.6              123   
2              no                      0              243.4              114   
3              no                      0              299.4               71   
4              no                      0              166.7              113   

   total day charge  total eve minutes  total eve calls  total eve charge  \
0             45.07  

А также укажем значение параметра `presicion` равным 2, чтобы отображать два знака после запятой (а не 6, как установлено по умолчанию.

In [140]:
pd.set_option("precision", 2)

**Посмотрим на размер данных, названия признаков и их типы**

In [152]:
print(df.shape)

(3333, 21)


Видим, что в таблице 3333 строки и 20 столбцов. Выведем названия столбцов:

In [153]:
print(df.columns)

Index(['state', 'account length', 'area code', 'phone number',
       'international plan', 'voice mail plan', 'number vmail messages',
       'total day minutes', 'total day calls', 'total day charge',
       'total eve minutes', 'total eve calls', 'total eve charge',
       'total night minutes', 'total night calls', 'total night charge',
       'total intl minutes', 'total intl calls', 'total intl charge',
       'customer service calls', 'churn'],
      dtype='object')


Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом **`info`**:

In [154]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night minutes     3333 non-null   float64
 14  total night calls       3333 non-null   

`bool`, `int64`, `float64` и `object` — это типы признаков. Видим, что 1 признак — логический (`bool`), 3 признака имеют тип `object` и 16 признаков — числовые.

**Изменить тип колонки** можно с помощью метода `astype`. Применим этот метод к признаку `Churn` и переведём его в `int64`:

In [157]:
df["churn"] = df["churn"].astype("int64")

In [158]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night minutes     3333 non-null   float64
 14  total night calls       3333 non-null   

Метод **`describe`** показывает основные статистические характеристики данных по каждому числовому признаку (типы `int64` и `float64`): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [159]:
df.describe()

Unnamed: 0,account length,area code,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856,0.144914
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491,0.352067
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0,0.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0,0.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0,0.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0,1.0


Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре `include`. Можно также задать `include`='all', чтоб вывести статистику по всем имеющимся признакам.

In [147]:
df.describe(include=["object", "bool"])

Unnamed: 0,state,phone number,international plan,voice mail plan
count,3333,3333,3333,3333
unique,51,3333,2,2
top,WV,382-4657,no,no
freq,106,1,3010,2411


Для категориальных (тип `object`) и булевых (тип `bool`) признаков  можно воспользоваться методом **`value_counts`**. Посмотрим на распределение нашей целевой переменной — `Churn`:

In [160]:
df["churn"].value_counts()

0    2850
1     483
Name: churn, dtype: int64

2850 пользователей из 3333 — лояльные, значение переменной `Churn` у них — `0`.

Посмотрим на распределение пользователей по переменной `Area code`. Укажем значение параметра `normalize=True`, чтобы посмотреть не абсолютные частоты, а относительные.

In [149]:
df["area code"].value_counts(normalize=True)

415    0.50
510    0.25
408    0.25
Name: area code, dtype: float64

### Сортировка

`DataFrame` можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по `Total day charge` (`ascending=False` для сортировки по убыванию):

In [161]:
df.sort_values(by=["total day charge"], ascending=[False]).head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
365,CO,154,415,343-5709,no,no,0,350.8,75,59.64,216.5,94,18.4,253.9,100,11.43,10.1,9,2.73,1,1
985,NY,64,415,345-9140,yes,no,0,346.8,55,58.96,249.5,79,21.21,275.4,102,12.39,13.3,9,3.59,1,1
2594,OH,115,510,348-1163,yes,no,0,345.3,81,58.7,203.4,106,17.29,217.5,107,9.79,11.8,8,3.19,1,1
156,OH,83,415,370-9116,no,no,0,337.4,120,57.36,227.4,116,19.33,153.9,114,6.93,15.8,7,4.27,0,1
605,MO,112,415,373-2053,no,no,0,335.5,77,57.04,212.5,109,18.06,265.0,132,11.93,12.7,8,3.43,2,1


Сортировать можно и по группе столбцов:

In [157]:
df.sort_values(by=["churn", "total day charge"], ascending=[True, False]).head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
688,MN,13,510,338-7120,no,yes,21,315.6,105,53.65,208.9,71,17.76,260.1,123,11.7,12.1,3,3.27,3,0
2259,NC,210,415,363-7802,no,yes,31,313.8,87,53.35,147.7,103,12.55,192.7,97,8.67,10.1,7,2.73,3,0
534,LA,67,510,373-6784,no,no,0,310.4,97,52.77,66.5,123,5.65,246.5,99,11.09,9.2,10,2.48,4,0
575,SD,114,415,351-7369,no,yes,36,309.9,90,52.68,200.3,89,17.03,183.5,105,8.26,14.2,2,3.83,1,0
2858,AL,141,510,388-8583,no,yes,28,308.0,123,52.36,247.8,128,21.06,152.9,103,6.88,7.4,3,2.0,1,0


### Индексация и извлечение данных

`DataFrame` можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из датафрейма на примере простых вопросов.

Для извлечения отдельного столбца можно использовать конструкцию вида `DataFrame['Name']`. Воспользуемся этим для ответа на вопрос: **какова доля нелояльных пользователей в нашем датафрейме?**

In [163]:
df["churn"].min()

0

14,5% — довольно плохой показатель для компании, с таким процентом оттока можно и разориться.

Очень удобной является логическая индексация `DataFrame` по одному столбцу. Выглядит она следующим образом: `df[P(df['Name'])]`, где `P` - это некоторое логическое условие, проверяемое для каждого элемента столбца `Name`. Итогом такой индексации является `DataFrame`, состоящий только из строк, удовлетворяющих условию `P` по столбцу `Name`. 

Воспользуемся этим для ответа на вопрос: **каковы средние значения числовых признаков среди нелояльных пользователей?**

In [165]:
df[df["churn"] == 1].mean()

  df[df["churn"] == 1].mean()


account length            102.664596
area code                 437.817805
number vmail messages       5.115942
total day minutes         206.914079
total day calls           101.335404
total day charge           35.175921
total eve minutes         212.410145
total eve calls           100.561077
total eve charge           18.054969
total night minutes       205.231677
total night calls         100.399586
total night charge          9.235528
total intl minutes         10.700000
total intl calls            4.163561
total intl charge           2.889545
customer service calls      2.229814
churn                       1.000000
dtype: float64

Скомбинировав предыдущие два вида индексации, ответим на вопрос: **сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи**?

In [169]:
churn_data = df[df["churn"] == 1]

In [170]:
churn_data['total day minutes'].mean()

206.91407867494823

**Какова максимальная длина международных звонков среди лояльных пользователей (`Churn == 0`), не пользующихся услугой международного роуминга (`'International plan' == 'No'`)?**

In [171]:
new_data = df[(df["churn"] == 0) & (df["international plan"] == "no")]

In [173]:
new_data["total intl minutes"].max()

18.9

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации **по названию** используется метод **`loc`**, **по номеру** — **`iloc`**.

В первом случае мы говорим _«передай нам значения для id строк от 0 до 5 и для столбцов от State до Area code»_, а во втором — _«передай нам значения первых пяти строк в первых трёх столбцах»_. 

В случае `iloc` срез работает как обычно, однако в случае `loc` учитываются и начало, и конец среза. Да, неудобно, да, вызывает путаницу.

In [170]:
df.loc[:4 ,"state":"area code"] # [3, 4]

Unnamed: 0,state,account length,area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415


In [171]:
df.iloc[0:5, 0:3] # [0,3)

Unnamed: 0,state,account length,area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415


Метод `ix` индексирует и по названию, и по номеру, но он вызывает путаницу, и поэтому был объявлен устаревшим (deprecated).

Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией `df[:1]` или `df[-1:]`:

In [172]:
df[-1:]

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
3332,TN,74,415,400-4344,no,yes,25,234.4,113,39.85,265.9,82,22.6,241.4,77,10.86,13.7,4,3.7,0,0


### Применение функций: `apply`, `map` и др.

**Применение функции к каждому столбцу:**

In [170]:
df.apply(np.max)

state                           WY
account length                 243
area code                      510
phone number              422-9964
international plan             yes
voice mail plan                yes
number vmail messages           51
total day minutes            350.8
total day calls                165
total day charge             59.64
total eve minutes            363.7
total eve calls                170
total eve charge             30.91
total night minutes          395.0
total night calls              175
total night charge           17.77
total intl minutes            20.0
total intl calls                20
total intl charge              5.4
customer service calls           9
churn                            1
dtype: object

Метод `apply` можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать `axis=1`.

**Применение функции к каждой ячейке столбца**

Допустим, по какой-то причине нас интересуют все люди из штатов, названия которых начинаются на 'W'. В данному случае это можно сделать по-разному, но наибольшую свободу дает связка `apply`-`lambda` – применение функции ко всем значениям в столбце.

In [173]:
df[df["state"].apply(lambda state: state[0] == "W")].head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
9,WV,141,415,330-8173,yes,yes,37,258.6,84,43.96,222.0,111,18.87,326.4,97,14.69,11.2,5,3.02,0,0
26,WY,57,408,357-3817,no,yes,39,213.0,115,36.21,191.1,112,16.24,182.7,115,8.22,9.5,3,2.57,0,0
44,WI,64,510,352-1237,no,no,0,154.0,67,26.18,225.8,118,19.19,265.3,86,11.94,3.5,3,0.95,1,0
49,WY,97,415,405-7146,no,yes,24,133.2,135,22.64,217.2,58,18.46,70.6,79,3.18,11.0,3,2.97,1,0
54,WY,87,415,353-3759,no,no,0,151.0,83,25.67,219.7,116,18.67,203.9,127,9.18,9.7,3,2.62,5,1


Метод `map` можно использовать и для **замены значений в колонке**, передав ему в качестве аргумента словарь вида `{old_value: new_value}`:

In [176]:
d = {"no": False, 
     "yes": True}

df["international plan"] = df["international plan"].map(d)
df.head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,False,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,371-7191,False,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,358-1921,False,no,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,375-9999,True,no,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,330-6626,True,no,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


Аналогичную операцию можно провернуть с помощью метода `replace`:

In [177]:
df = df.replace({"voice mail plan": {"no": False, "yes": True}, "churn": {}})
df.head()

Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,371-7191,False,True,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,358-1921,False,False,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,375-9999,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,330-6626,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


### Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

```
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. К датафрейму применяется метод **`groupby`**, который разделяет данные по `grouping_columns` – признаку или набору признаков.
3. Индексируем по нужным нам столбцам (`columns_to_show`). 
2. К полученным группам применяется функция или несколько функций.

**Группирование данных в зависимости от значения признака `Churn` и вывод статистик по трём столбцам в каждой группе.**

In [179]:
columns_to_show = ["total day minutes", "total eve minutes", "total night minutes"]

df.groupby(["churn"])[columns_to_show].describe()

Unnamed: 0_level_0,total day minutes,total day minutes,total day minutes,total day minutes,total day minutes,total day minutes,total day minutes,total day minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total night minutes,total night minutes,total night minutes,total night minutes,total night minutes,total night minutes,total night minutes,total night minutes
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2
0,2850.0,175.18,50.18,0.0,142.83,177.2,210.3,315.6,2850.0,199.04,50.29,0.0,164.5,199.6,233.2,361.8,2850.0,200.13,51.11,23.2,165.9,200.25,234.9,395.0
1,483.0,206.91,69.0,0.0,153.25,217.6,265.95,350.8,483.0,212.41,51.73,70.9,177.1,211.3,249.45,363.7,483.0,205.23,47.13,47.4,171.25,204.8,239.85,354.9


Сделаем то же самое, но немного по-другому, передав в `agg` список функций:

In [180]:
columns_to_show = ["total day minutes", "total eve minutes", "total night minutes"]

df.groupby(["churn"])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,total day minutes,total day minutes,total day minutes,total day minutes,total eve minutes,total eve minutes,total eve minutes,total eve minutes,total night minutes,total night minutes,total night minutes,total night minutes
Unnamed: 0_level_1,mean,std,amin,amax,mean,std,amin,amax,mean,std,amin,amax
churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,175.18,50.18,0.0,315.6,199.04,50.29,0.0,361.8,200.13,51.11,23.2,395.0
1,206.91,69.0,0.0,350.8,212.41,51.73,70.9,363.7,205.23,47.13,47.4,354.9


### Сводные таблицы

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — `Churn` и `Customer service calls`. Для этого мы можем построить **таблицу сопряженности**, воспользовавшись методом **`crosstab`**:

In [174]:
pd.crosstab(df["churn"], df["customer service calls"])

customer service calls,0,1,2,3,4,5,6,7,8,9
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,605,1059,672,385,90,26,8,4,1,0
1,92,122,87,44,76,40,14,5,1,2


In [176]:
pd.crosstab(df["churn"], df["voice mail plan"], normalize=True)

voice mail plan,no,yes
churn,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.60246,0.252625
1,0.120912,0.024002


Мы видим, что большинство пользователей — лояльные и пользуются дополнительными услугами (международного роуминга / голосовой почты).

Продвинутые пользователи `Excel` наверняка вспомнят о такой фиче, как **сводные таблицы** (`pivot tables`). В `Pandas` за сводные таблицы отвечает метод **`pivot_table`**, который принимает в качестве параметров:

* `values` – список переменных, по которым требуется рассчитать нужные статистики,
* `index` – список переменных, по которым нужно сгруппировать данные,
* `aggfunc` — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

Давайте посмотрим среднее число дневных, вечерних и ночных звонков для разных `Area code`:

In [178]:
df.pivot_table(
    ["total day calls", "total eve calls", "total night calls"],
    ["area code"],
    aggfunc="mean",
).head(10)

Unnamed: 0_level_0,total day calls,total eve calls,total night calls
area code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
408,100.5,99.79,99.04
415,100.58,100.5,100.4
510,100.1,99.67,100.6


### Преобразование датафреймов

Как и многие другие вещи, добавлять столбцы в `DataFrame` можно несколькими способами.

Например, мы хотим посчитать общее количество звонков для всех пользователей. Создадим объект `total_calls` типа `Series` и вставим его в датафрейм:

In [177]:
total_calls = (
    df["total day calls"]
    + df["total eve calls"]
    + df["total night calls"]
    + df["total intl calls"]
)
df.insert(loc=3, column="total calls", value=total_calls)
# loc - номер столбца, после которого нужно вставить данный Series
# мы указали len(df.columns), чтобы вставить его в самом конце
df.head()

Unnamed: 0,state,account length,area code,total calls,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,303,382-4657,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,332,371-7191,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,333,358-1921,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,255,375-9999,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,359,330-6626,yes,no,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


Добавить столбец из имеющихся можно и проще, не создавая промежуточных `Series`:

In [180]:
df["total charge"] = (
    df["total day charge"]
    + df["total eve charge"]
    + df["total night charge"]
    + df["total intl charge"]
)

df.head()

Unnamed: 0,state,account length,area code,total calls,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn,total gdfsgfdsgd,total charge
0,KS,128,415,303,382-4657,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0,75.56,75.56
1,OH,107,415,332,371-7191,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0,59.24,59.24
2,NJ,137,415,333,358-1921,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0,62.29,62.29
3,OH,84,408,255,375-9999,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0,66.8,66.8
4,OK,75,415,359,330-6626,yes,no,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0,52.09,52.09


Чтобы удалить столбцы или строки, воспользуйтесь методом `drop`, передавая в качестве аргумента нужные индексы и требуемое значение параметра `axis` (`1`, если удаляете столбцы, и ничего или `0`, если удаляете строки):

In [182]:
# избавляемся от созданных только что столбцов
df = df.drop(["total charge", "total calls"], axis=1)

df.drop([1, 2]).head()  # а вот так можно удалить строчки

KeyError: "['total charge' 'total calls'] not found in axis"

In [None]:
result = soup.find('a', class_='')
result.find()