## 0. Установка пакетов

In [None]:
# Выполни прежде чем проходить Notebook
from google.colab import drive
import os
drive.mount ('/content/gdrive', force_remount=True)

# Установка необходимых пакетов для этого Notebook.
%run /content/gdrive/MyDrive/02_NumPy_and_Pandas/0_package_installation.ipynb
# Перезагрузка ядра
os.kill(os.getpid(), 9)

Mounted at /content/gdrive


## Об этом Jupyter Notebook
В этом Notebook мы познакомимся с новой библиотекой NumPy, а именно:
- Как векторизация ускоряет выполнение нашего кода
- Узнаем о n-мерных массивах и NumPy's ndarrays
- Как выбрать элементы, строки, столбцы, одномерные и двумерные срезы из массивов. Как применить простые вычисления к целым массивам.
- Как использовать векторные методы для выполнения вычислений по любой оси массивов

***

## 1. Введение
Вы когда-нибудь задумывались, почему язык Python так популярен? Прямой ответ заключается в том, что Python упрощает написание программ. Python - это язык **высокого уровня**, что означает, что нам не нужно беспокоиться о выделении памяти или выборе способа выполнения определенных операций процессорами наших компьютеров, как это происходит при использовании **низкоуровневых языков**, таких как язык C. Написание кода на низкоуровневом языке обычно занимает больше времени, однако это также дает нам больше возможностей для оптимизации кода, чтобы он выполнялся быстрее.

Для анализа данных у нас есть две библиотеки Python, которые позволяют писать код эффективнее, это **NumPy** и **pandas**. Высокую скорость обработки в pandas обеспечивает именно библиотека NumPy. Некоторые из ведущих ML библиотек в Python полагаются на NumPy как на фундаментальную часть своей инфраструктуры. Теперь давайте более подробно рассмотрим NumPy.

## 2. Введение в Ndarrays

**NumPy** — это библиотека для работы с матрицами. Если вы хорошо изучали линейную алгебру в университете, то вам должен быть знаком термин **матрица**. Название библиотеки происходит от **Numeric Python**. NumPy написан на языке C++, в умелых руках на языке C++ можно писать очень быстрый код.

Основной структурой данных в NumPy является **ndarray** или **n-мерный массив**. В науке о данных **массив** описывает как коллекцию элементов подобную списку. Слово **n-мерный** относится к тому факту, что **ndarray** может иметь одно или несколько измерений.

> **NumPy ndarray** может содержать значения только одного типа данных.

> Одномерными массивами (1D) также называют **векторами**.

Визуальное представление **n-мерных массивов**.

![Визуальное представление массивов](https://drive.google.com/uc?id=1c0PJNDzhQvxhxECY92N5wZi6LCtmUDO1)\
*Источник: https://www.dmitrymakarov.ru/python/numpy-09/*

### Представление о данных
**Электронная таблица в Excel** - это двухмерная матрица, где по оси **x** представлены строки таблицы, а по оси **y** представлены столбцы.
  
![Рисунок](https://drive.google.com/uc?id=1AM0aYIrSoPxINK3BowgLyCB8MV_jdx58)

**Изображение** - это матрица пикселей размером высота пикселя на его ширину.

Если изображение черно-белое, то каждый пиксель может быть представлен одним числом от 0 (черный) до 255 (белый).

![Рисунок](https://drive.google.com/uc?id=1-T7hOmEElSAyDckJsUoH_OR_eViBYGm8)

**Источник:** https://python-scripts.com/numpy

Если изображение цветное, то каждый пиксель представлен тремя числами - значениями для каждого из красного (R), зеленого (G) и синего (B). В этом случае нам нужно 3-х мерное измерение.

![Рисунок](https://drive.google.com/uc?id=115IAzeWhEzZmgkAlJgJk3rUEYSfMua5K)

**Источник:** https://python-scripts.com/numpy

Чтобы использовать библиотеку NumPy, первым шагом нужно сделать импорт **numpy** в нашу среду Python, например, так:
````python

import numpy as np
````
Обратите внимание, что **np** - общепризнанное сокращенное название для numpy.


В библиотеке NumPy список можно напрямую преобразовать в массив с помощью ``numpy.array()``[ссылка на документацию](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.array.html). Как мы можем создать одномерный ndarray? Посмотрите на приведенный ниже код:
````python

data_ndarray = np.array([5,10,15,20])
````

Теперь давайте выполним задание по созданию одномерных массивов.

### Задача 3.1.2:
1. Импортируйте numpy используя сокращенние **np**.
2. Создайте NumPy ndarray из списка [10, 20, 30]. Присвойте результат в переменную **data_ndarray**.

In [1]:
# Начните свой код ниже:


## 3. Данные о поездках на такси в Нью-Йорке
На этот раз мы проанализируем данные о поездках на такси в Нью-Йорке.

Наш набор данных хранится в CSV-файле под названием **nyc_taxis.csv**. Чтобы преобразовать набор данных в двумерный **ndarray**, мы воспользуемся встроенным в Python модулем **CSV**, чтобы импортировать наш CSV как список списков. Затем мы можем преобразовать список списков в **ndarray** следующим образом:
````python

data_ndarray = np.array(data_list) # наш список списков хранится в data_list
````

Ниже приведена информация о столбцах из набора данных:
- **pickup_year**: Год поездки.
- **pickup_month**: Месяц поездки (январь - 1, декабрь - 12).
- **pickup_day**: День месяца поездки.
- **pickup_location_code**: Аэропорт или район, где началась поездка.
- **dropoff_location_code**: Аэропорт или район, где закончилась поездка.
- **trip_distance**: Расстояние поездки в милях.
- **trip_length**: Продолжительность поездки в
секундах.
- **fare_amount**: Базовый тариф поездки в
долларах.

### Задание 3.1.3

Мы используем модуль **csv** для импорта файла **nyc_taxis.csv** и преобразования его в список списков.
1. Добавьте строку кода с использованием `numpy.array()` для преобразования **converted_taxi_list**
переменную в NumPy ndarray.
2. Присвойте результат в переменную с именем **taxi**.

In [None]:
import csv
import numpy as np

# импортируем nyc_taxi.csv как список списков
f = open("/content/gdrive/MyDrive/02_NumPy_and_Pandas/Data/nyc_taxis.csv", "r")
taxi_list = list(csv.reader(f))

# убираем заголовки столбцов
taxi_list = taxi_list[1:]

# преобразовываем все значения в плавающие
converted_taxi_list = []
for row in taxi_list:
    converted_row = []
    for item in row:
        converted_row.append(float(item))
    converted_taxi_list.append(converted_row)

# Начните свой код ниже:


## 4. Размерность массива
Если хочется, то мы можем использовать функцию ``print()``, чтобы посмотреть на данные в переменной **taxi**.

In [None]:
# приведенный ниже код работает только в том случае, если вы решили задачу 3.1.3
print(taxi)

[[2.016e+03 1.000e+00 1.000e+00 ... 1.165e+01 6.999e+01 1.000e+00]
 [2.016e+03 1.000e+00 1.000e+00 ... 8.000e+00 5.430e+01 1.000e+00]
 [2.016e+03 1.000e+00 1.000e+00 ... 0.000e+00 3.780e+01 2.000e+00]
 ...
 [2.016e+03 6.000e+00 3.000e+01 ... 5.000e+00 6.334e+01 1.000e+00]
 [2.016e+03 6.000e+00 3.000e+01 ... 8.950e+00 4.475e+01 1.000e+00]
 [2.016e+03 6.000e+00 3.000e+01 ... 0.000e+00 5.484e+01 2.000e+00]]


Многоточия (...) между строками и столбцами указывают на то, что в нашем массиве NumPy больше данных, чем позволено распечатать функции `print()`. Чтобы узнать количество строк и столбцов в **ndarray**, мы можем использовать ``ndarray.shape``:

In [None]:
import numpy as np
data_ndarray = np.array([[5, 10, 15],
                         [20, 25, 30]])
print(data_ndarray.shape)

(2, 3)


Этот вывод значений дает нам следующую информацию:
1. Первое число говорит нам о том, что в data_ndarray есть 2 строки.
2. Второе число говорит нам о том, что в data_ndarray есть 3 столбца.

## 5. Выбор строк в ndarrays
Ниже мы сравниваем с массивами и списками для выбора одной или нескольких строк данных:

#### Метод списка списков:

````python

# Выбор одной строки
sel_lol = data_lol[1]

#Выбор нескольких строк
sel_lol = data_lol[2:]
````

#### Метод NumPy:

````python
# Выбор одной строки
sel_np = data_np[1]

#Выбор нескольких строк
sel_np = data_np[2:]
````

![Картинка](https://drive.google.com/uc?id=1WRh-sZxi3qsK1lPz17acPeAXkJ_VvUk1)

**Источник:** https://python-scripts.com/numpy

Вы видите, что синтаксис выбора строк в ndarrays очень похож со списками. На самом деле, синтаксис, который мы написали выше, является своего рода сокращением. Для любого двумерного массива полный синтаксис для выбора данных выглядит следующим образом:
````python

ndarray[row_index,column_index]
````

Когда вы хотите выбрать все столбцы для заданного набора строк, вам нужно сделать
следующее:
````python

ndarray[row_index]
````

Где **row_index** определяет расположение вдоль оси **x** -  строк, а **column_index** определяет расположение вдоль оси **y** - столбцов.

Как и в списках, нарезка массивов осуществляется от первого указанного индекса до второго, но не включая его. Например, чтобы выбрать элементы с индексами 1, 2 и 3, нужно использовать срез [1:4].

![рисунок](https://drive.google.com/uc?id=1lWxvkI87dSfuPORDNge5_ffPb8VbdYKC)

**Источник:** https://python-scripts.com/numpy

Вот как мы выбираем один элемент из двумерного массива:

#### Метод списка списков
````python

# Выбор одной строки
sel_lol = data_lol[1]
````

#### Метод NumPy:
````python

# Выбор одной строки
sel_np = data_np[1,] #Запятая здесь разделяет расположение строк и столбцов.
````

### Задание 3.1.5:
1. Выберите строку с индексом 0. Присвойте ей значение **row_0**.
2. Выберите каждый столбец для строк с индексами от 391 до 500 включительно. Положите значение в переменную **rows_391_to_500**.
3. Выберите элемент с индексом строки 21 и индексом столбца 5. Положите значение в переменную **row_21_column_5**.

In [None]:
# Начните свой код ниже:


## 6. Выбор столбцов в ndarrays
Давайте рассмотрим, как выбрать один или несколько столбцов

#### Метод списка списков

````python

# Выбор одной строки
sel_lol = []

for row in data_lol:
    col4 = row[3]
    sel_lol.append(col4)
    
#Выбор нескольких столбцов
sel_lol = []

for row in data_lol:
    col23 = row[2:3]
    sel_lol.append(col23)
    
#Выбор нескольких определенных столбцов
sel_lol = []

for row in data_lol:
    cols = [row[1], row[3], row[4]]
    sel_lol.append(cols)
````

#### Метод NumPy

````python

# Выбор одной строки
sel_np = data_np[:,3] #Создает одномерный массив
    
#Выбор нескольких столбцов
sel_np = data_np[:, 1:3] #Создает двумерный массив
    
#Выбор нескольких определенных столбцов
cols = [1, 3, 4]
sel_np = data_np[:,cols] #Создает двумерный массив
````

Вы видите, что у списков нам нужно использовать цикл **for** для извлечения определенных столбцов. С ndarrays все гораздо проще. Мы используем одинарные скобки с расположением строк и столбцов, разделенных запятыми, но мы используем двоеточие (:) в последнем примере для расположения строк, что позволяет нам извлечь все строки разом.

Если мы хотим выбрать частичный срез строк и столбцов, то мы можем сделать следующее:

#### Метод списка списков
````python

sel_lol = data_lol[2][1:4]  #третья строка (индекс строки 2) столбцов 1, 2, 3
````

#### Метод NumPy

````python

sel_np = data_np[2, 1:4] # Получается одномерный массив
````

Наконец, если мы хотим выбрать двумерный (2D) срез, мы можем использовать срезы для обоих измерений (по оси x и y):

#### Метода списка списков

````python

# Выбираем двумерный срез
sel_lol = []

rows = data_lol[1:4]
for r in rows:
    new_row = r[:3]
    sel_lol.append(new_row)
````

#### Метод NumPy

````python

# Выбор двумерного среза
sel_np = data_np[1:4,:3]
````

### Задача 3.1.6:

Из переменной **taxi**
1. Выберите каждую строку для столбцов с индексами 1, 4 и 7. Присвойте их переменной **columns_1_4_7**.
2. Выберите столбцы с индексами с 5 по 8 включительно для строки с индексом 99. Присвойте их переменной **row_99_columns_5_to_8**.
3. Выберите строки с индексами от 100 до 200 включительно для столбца с индексом 14. Присвойте их переменной **rows_100_to_200_column_14**.

In [None]:
# Начните свой код ниже:


## 7. Арифметические операции над матрицами ndarrays
В этом разделе мы изучим возможности векторизации. Взгляните на приведенный пример ниже:

In [None]:
# преобразовать список списков в ndarray
my_numbers = [[1,2,3],[4,5,6], [7,8,9]]
my_numbers = np.array(my_numbers)

# выберите каждый из столбцов
# каждый из них будет одномерный массив
col1 = my_numbers[:,0]
col2 = my_numbers[:,1]

# Сложите два столбца
sums = col1 + col2
sums

array([ 3,  9, 15])

Приведенный выше код можно упростить до одной строки, например, так:

In [None]:
sums = my_numbers[:,0] + my_numbers[:,1]
sums

array([ 3,  9, 15])

![рисунок](https://drive.google.com/uc?id=1b8YVfn68BNXDMMC74dwmyOtO_f3Xd7o-)

**Источник:** https://python-scripts.com/numpy

Основные выводы из приведенного выше кода:
- Когда мы выбирали каждый столбец, мы использовали синтаксис **ndarray[:,c]**, где c - индекс столбца, который мы хотели выбрать. Как мы видели в предыдущей главе , двоеточие выбирают все строки.
- Чтобы сложить два одномерных массива ndarray, **col1** и **col2**, мы можем просто поставить между ними оператор сложения **+**.

Стандартные числовые операторы Python работают с векторами NumPy, например:
- ``Сложение`` : вектор_a + вектор_b
- ``Вычитание`` : вектор_a - вектор_b
- ``Умножение``: вектор_a * вектор_b (не связано с умножением векторов из линейной алгебры)
- ``Деление`` : вектор_a / вектор_b

Ниже приведен пример таблицы из нашего набора данных по такси:

|trip_distance|trip_length|
|-------------|-----------|
|21.00|2037.0|
|16.29|1520.0|
|12.70|1462.0|
|8.70|1210.0|
|5.56|759.0|

Чтобы использовать эти колонки для расчета средней скорости движения в каждой поездке в милях в час, мы можем использовать приведенную ниже формулу:\
**средняя скорость в милях в час = расстояние в милях / продолжительность поездки в часах**

Текущий столбец **trip_distance** уже выражен в милях, но **trip_length** выражен в секундах. Сначала мы хотим преобразовать длину поездки в часы:

````python

trip_distance = taxi[:,7]
trip_length_seconds = taxi[:,8]

trip_length_hours = trip_length_seconds / 3600
````

Затем мы можем разделить каждое значение в векторе на число 3600. Давайте посмотрим на первые пять строк результата ниже:

|trip_length_hours|
|-------------|
|0.565833|
|0.422222|
|0.406111|
|0.336111|
|0.210833|

Теперь мы можем рассчитать среднюю скорость каждой поездки и положить результат в переменную **trip_mph**, используя формулу выше:
````python

trip_mph = trip_distance / trip_length_hours
````

## 8. Функции агрегации для одномерных массивов (векторов)
Мы создали **trip_mph** в предыдущей главе. Это одномерный массив средних значений скорости в милях в час для каждой поездки в нашем наборе данных. Теперь нам остается рассчитать минимальное, максимальное и среднее значения для **trip_distance**.

Чтобы вычислить минимальное значение одномерного массива, достаточно воспользоваться [методом](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.ndarray.min.html) **ndarray.min()**, как показано ниже:
````python
distance_min = trip_distance.min()
````

У Numpy ndarrays есть и другие функции:
- [ndarray.min()](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.ndarray.min.html#numpy.ndarray.min) для вычисления минимального значения
- [ndarray.max()](https://docs.scipy.org/doc/numpy-1.16.1/reference/generated/numpy.ndarray.max.html#numpy.ndarray.max) для вычисления максимального значения
- [ndarray.mean()](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.ndarray.mean.html#numpy.ndarray.mean) для вычисления среднего значения
- [ndarray.sum()](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.ndarray.sum.html#numpy.ndarray.sum) для вычисления суммы значений

![рисунок](https://drive.google.com/uc?id=1l4xrD8rvyI2Epy9YStMiJlU0YlzkT8Nj)

**Источник:** https://python-scripts.com/numpy

Полный список функций ndarray вы найдете в документации NumPy по ndarray [здесь](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.ndarray.html#calculation).

### Задача 3.1.9:

1. Используйте метод **ndarray.max()** для вычисления максимального значения расстояния поездки. Присвойте полученный результат переменной **distance_max**.
2. Используйте метод **ndarray.mean()** для вычисления среднего значения расстояния_пути. Присвойте полученный результат значению **distance_mean**.

In [None]:
# Выбор только соответствующего расстояния между столбцами
trip_distance = taxi[:,7]
trip_distance_miles = taxi[:,7]
trip_length_seconds = taxi[:,8]

trip_length_hours = trip_length_seconds / 3600
trip_mph = trip_distance_miles / trip_length_hours

# Начните свой код ниже:


## 9. Функции агрегации для двумерных массивов
До сих пор мы работали со статистиками только для одномерных массивов. Если мы используем метод **ndarray.max()** для двумерного массива без дополнительных параметров, будет возвращено одно значение, как и в случае с одномерным массивом.


Если мы хотим найти максимальное значение каждого столбца, мы используем значение оси равное 1 следующим образом: **ndarray.max(axis = 1)**
- axis = 0 - агрегации по оси x, то есть по строкам
- axis = 1 - агреация по оси y, то есть по столбцам

![рисунок](https://drive.google.com/uc?id=1JhcoBI7tjkdTOluN5vfxT6g7hSWulCLc)

**Источник:** https://python-scripts.com/numpy

Давайте воспользуемся полученными знаниями для проверки в наборе данных о такси. Ниже приведен пример таблицы:

|fare_amount|fees_amount|tolls_amount|tip_amount|total_amount|
|-------------|-----------|--------|-------------|-----------|
|52.0|0.8|5.54|11.65|69.99|
|45.0|1.3|0.00|8.00|54.3|
|36.5|1.3|0.00|0.00|37.8|
|26.0|1.3|0.00|5.46|32.76|
|17.5|1.3|0.00|0.00|18.8|

Вы видите, что общая сумма **total amount = fare amount + fees amount + tolls amount + tip amount**

Теперь давайте посмотрим, можно ли выполнить вычисления 2D ndarray на наборе данных.

### Задача 3.1.10:
1. Используйте метод **ndarray.sum()** для вычисления суммы каждой строки в **fare_components**. Присвойте результат **fare_sums**.
2. Извлеките 14-ю колонку из **taxi_first_five**. Присвойте результат в **fare_totals**.
3. Распечатайте содержимое **fare_totals** и **fare_sums**. Вы должны увидеть одинаковые цифры.

In [None]:
# Получаем таблицу как показано выше (первые пять строк такси и столбцы fare_amount, fees_amount, tolls_amount, tip_amount)
fees_amfare_components = taxi[:5,[9,10,11,12]]
# мы будем сравнивать только с первыми 5 строками
taxi_first_five = taxi[:5]

# Начните свой код ниже:
