## Об этом Notebook
В этом Notebook мы продолжим работать с индексами в Numpy, а также узнаем:
- Что такое булев массив и как его создать
- Как использовать булеву индексацию для фильтрации значений в одномерных и двумерных массивах
- Как присвоить одно или несколько новых значений
массиву ndarray на основе их расположения
- Как присвоить одно или несколько новых значений массиву ndarray на основе их значений.
***

In [None]:
# Выполни прежде чем проходить Notebook
from google.colab import drive
import os
drive.mount ('/content/gdrive', force_remount=True)

%run /content/gdrive/MyDrive/02_NumPy_and_Pandas/0_package_installation.ipynb
# Перезагрузка ядра
os.kill(os.getpid(), 9)

Mounted at /content/gdrive
Collecting pandas
  Downloading pandas-2.0.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.3/12.3 MB[0m [31m42.4 MB/s[0m eta [36m0:00:00[0m
Collecting tzdata>=2022.1 (from pandas)
  Downloading tzdata-2023.3-py2.py3-none-any.whl (341 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m341.8/341.8 kB[0m [31m33.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tzdata, pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.5.3
    Uninstalling pandas-1.5.3:
      Successfully uninstalled pandas-1.5.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 requires pandas==1.5.3, but you have pandas 2.0.3 which is incompatible.[0m[31m
[0mSuccessfully installed pandas-2.0.3 

Collecting numpy
  Downloading numpy-1.25.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.2/18.2 MB[0m [31m65.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.23.5
    Uninstalling numpy-1.23.5:
      Successfully uninstalled numpy-1.23.5
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
numba 0.56.4 requires numpy<1.24,>=1.18, but you have numpy 1.25.2 which is incompatible.
tensorflow 2.12.0 requires numpy<1.24,>=1.22, but you have numpy 1.25.2 which is incompatible.[0m[31m
[0mSuccessfully installed numpy-1.25.2


## 1. Булевы массивы
В этой главе мы познакомимся с **boolean** массивом.
Помните ли вы, что тип boolean (или bool) - это встроенный тип Python, который может иметь одно из двух уникальных значений:
- True
- False


Помните ли вы, что мы использовали булевы значения при работе с операторами сравнения Python, такими как:
- **==** равно
- **>** больше, чем
- **<** меньше, чем
- **!=** не равно

Чтобы освежить память, ниже приведена пара примеров простых булевых операций:

In [None]:
print(type(3.5) == float)

True


In [None]:
print(5 > 6)

False


В предыдущем notebook, где мы изучали арифметические операции с массивами NumPy, мы узнали, что результатом операции между массивом и одним значением является новый массив:

In [None]:
import numpy as np
print(np.array([2,4,6,8]) + 10)

# Операция + 10 применяется к каждому значению в массиве

[12 14 16 18]


Угадайте, что произойдет, если мы сравним ndarray с единственным значением?

In [None]:
import numpy as np
print(np.array([2,4,6,8]) < 5)

[ True  True False False]


## 2. Булево индексирование с помощью одномерных массивов
Что такое булева индексация или индексация (выборка) с помощью булевых массивов? Давайте посмотрим на пример ниже:

In [None]:
c = np.array([80.0, 103.4, 96.9, 200.3])
c_bool = c > 100
print(c_bool)

[False  True False  True]


Как вы видите выше, мы получили вектор, состоящий только из булевых значений, а что если мы попробуем полученный вектор указать в одну из осей (x или y) в ndarray?

In [None]:
result = c[c_bool]
print(result)

[103.4 200.3]


Как вы можете заметить boolean массив выполняет функцию **фильтра**. Значения, соответствующие **True**, становятся частью выходного результата, а значения, соответствующие **False**, удаляются из конечного списка.

![рисунок](https://drive.google.com/uc?id=1jqwRsW7bn0Gk4lFtbEWjoFHLZLR89ehV)

**Источник:** https://betterprogramming.pub/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d

Как мы можем воспользоваться знанием о булевом индексировании в нашем наборе данных? Например, чтобы узнать количество поездок на такси за январь, мы можем сделать следующее:

In [None]:
taxi = np.genfromtxt('nyc_taxis.csv',delimiter=',',skip_header=True)

# Сначала выберем только столбец pickup_month (второй столбец в массиве с индексом 1 в колонке)
pickup_month = taxi[:,1]

# используем boolean операцию для создания boolean массива, где значение 1 соответствует Январю месяцу
january_bool = pickup_month == 1

# используем полученный boolean массив для выбора только тех товаров из pickup_month, которые имеют значение 1
january = pickup_month[january_bool]

# используйте атрибут shape, чтобы узнать, сколько элементов находится в нашем январском массиве
january_rides = january.shape[0]
print(january_rides)

13481


### Задача 3.2.1:

1. Вычислите количество поездок в такси ndarray, относящихся к февралю:
    - Создайте boolean массив, назвав его **february_bool**, который проверяет, являются ли элементы в колонке **pickup_month** равные **2**.
    - Используйте массив **february_bool** для индекса по **pickup_month**. Отфильтровавшись присвойте результат в переменную **february**
    - Используйте атрибут **ndarray.shape**, чтобы найти количество элементов в **february**. Присвойте результат переменной **february_rides**

In [None]:
# Начните свой код ниже:


## 3. Булева индексация в двумерных массивах
Теперь пришло время использовать булеву индексацию с двумерными массивами.

> **Следует помнить, что булев массив должен иметь ту же размерность, что и индексируемый ndarray. Это одно из ограничений при работе с двумерными массивами.**

In [None]:
arr = np.array([
                [1,2,3],
                [4,5,6],
                [7,8,9],
                [10,11,12]
])

print(arr)
print(arr.shape)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
(4, 3)


In [None]:
bool_1 = [True, False,
        True, True]
print(arr[bool_1])

[[ 1  2  3]
 [ 7  8  9]
 [10 11 12]]


In [None]:
arr.shape

(4, 3)

In [None]:
print(arr[:, bool_1])

IndexError: boolean index did not match indexed array along dimension 1; dimension is 3 but corresponding boolean dimension is 4

Вы видите, что размерность **bool_1** (4) по оси x не совпадает с размерностью **arr** (3), поэтому этот булевый массив не может быть использован для индексации, мы получаем **ошибку**.

In [None]:
bool_2 = [False, True, True]
print(arr[:,bool_2])

[[ 2  3]
 [ 5  6]
 [ 8  9]
 [11 12]]


Размерность **bool_2** (3) совпадает с размерностью второй оси **arr(3)**, поэтому **выбираются 2-й и 3-й столбцы**.

Теперь давайте применим полученные знания к нашему набору данных. На этот раз мы проанализируем среднюю скорость поездок. Вспомните, что мы рассчитывали **среднюю скорость поездок** следующим образом:
````python
trip_mph = taxi[:,7] / (taxi[:,8] / 3600)
````

Далее, как проверить, нет ли поездок со средней скоростью более 20 000 миль/ч?

In [None]:
trip_mph = taxi[:,7] / (taxi[:,8] / 3600)

In [None]:
# создайте массив булевых значений для поездок со средним значением
# где скорость более 20 000 миль/ч
trip_mph_bool = trip_mph > 20000

# используйте boolean массив для выбора строк
# а также выведите столбцы pickup_location_code,
# dropoff_location_code, trip_distance, trip_length
trips_over_20000_mph = taxi[trip_mph_bool,5:9]

print(trips_over_20000_mph)

[[ 2.   2.  23.   1. ]
 [ 2.   2.  19.6  1. ]
 [ 2.   2.  16.7  2. ]
 [ 3.   3.  17.8  2. ]
 [ 2.   2.  17.2  2. ]
 [ 3.   3.  16.9  3. ]
 [ 2.   2.  27.1  4. ]]


### Задача 3.2.2:

1. Создайте булев массив **tip_bool**, который определяет, в каких строках значения столбца **tip_amount** больше **50**.
    - Подсказка: Возможно, вам придется изучить исходный файл **nyc_taxis.csv**, чтобы узнать индекс нужного столбца.
2. Используйте массив **tip_bool** для выбора всех строк из **taxi** со значениями **tip** больше **50**, а также столбцов с индексами с **5** по **13** включительно. Присвойте полученный массив в **top_tips**.

In [None]:
taxi.shape

(89560, 15)

In [None]:
# Начните свой код ниже:


## 4. Присвоение значений в массивах
После того как мы научились извлекать данные из массивов, теперь, зная методы индексирования, мы будем измененять значений внутри массивов. Синтаксис выглядит следующим образом:
````python
ndarray[location_of_values] = new_value
````

При использовании одномерного массива все что нам нужно сделать, это указать одно конкретное местоположение индекса, как это сделано здесь:

In [None]:
a = np.array(['red','blue','black','blue','purple'])
a[0] = 'orange'
print(a)

['orange' 'blue' 'black' 'blue' 'purple']


Или можно назначить сразу несколько значений:

In [None]:
a[3:] = 'pink'
print(a)

['orange' 'blue' 'black' 'pink' 'pink']


В двумерном массиве, как и в одномерном, мы можем использовать одно конкретное местоположение индекса:

In [None]:
ones = np.array([[1, 1, 1, 1, 1],
                 [1, 1, 1, 1, 1],
                 [1, 1, 1, 1, 1]])
ones[1,2] = 99
print(ones)

[[ 1  1  1  1  1]
 [ 1  1 99  1  1]
 [ 1  1  1  1  1]]


Или мы можем заполнить одним значением целую строчку:

In [None]:
ones[0] = 42
print(ones)

[[42 42 42 42 42]
 [ 1  1 99  1  1]
 [ 1  1  1  1  1]]


Или целую колонку:

In [None]:
ones[:,2] = 0
print(ones)

[[42 42  0 42 42]
 [ 1  1  0  1  1]
 [ 1  1  0  1  1]]


## 5. Присвоение значений с использованием булевых массивов
Булевы массивы становятся чрезвычайно мощными, когда используются для присваивания, как, например, здесь:

In [None]:
a2 = np.array([1, 2, 3, 4, 5])

a2_bool = a2 > 2

print(a2_bool)

a2[a2_bool] = 99

print(a2)

[False False  True  True  True]
[ 1  2 99 99 99]


Boolean массив позволяет контролировать значения, к которым применяется присваивание, а остальные значения остаются неизменными.

In [None]:
a = np.array([1, 2, 3, 4, 5])

a [ a > 2] = 99

print(a)

[ 1  2 99 99 99]


Теперь рассмотрим пример присваивания с использованием булева массива с двумя измерениями:

In [None]:
b = np.array([
                [1,2,3],
                [4,5,6],
                [7,8,9]
])

print(b > 4)
print("\n")
b[b > 4] = 99
print(b)

# Операция b > 4 создает двумерный массив булевых чисел
# который затем фильтрует значения, к которым применяется присвоение.

[[False False False]
 [False  True  True]
 [ True  True  True]]


[[ 1  2  3]
 [ 4 99 99]
 [99 99 99]]


Мы также можем использовать одномерный булев массив для выполнения присваивания двумерного массива:

In [None]:
c = np.array([
                [1,2,3],
                [4,5,6],
                [7,8,9]
])
print(c[:,1] > 2)
print("\n")
c[c[:,1] > 2, 1] = 99

print(c)
# В приведенном выше коде выбран второй столбец (с индексом столбца 1) и использована техника булева индекса (значение которого > 2).
# Булев массив применяется только ко второму столбцу, а все остальные значения остаются неизменными.

[False  True  True]


[[ 1  2  3]
 [ 4 99  6]
 [ 7 99  9]]
