# Введение в регрессионный анализ: интенсив по Python

*Алла Тамбовцева*

## К лекции 1: примеры списков и массивов

Создадим список `height` со значениями роста в сантиметрах:

In [1]:
height = [168, 195, 170, 183]

Убедимся, что перевести все значения роста в метры, просто поделив список на 100 не получится:

In [2]:
height / 100 # ошибка из-за типа list

TypeError: unsupported operand type(s) for /: 'list' and 'int'

Для преодоления этого ограничения перейдем к массивам, которые создаются с помощью библиотеки `numpy`. Чтобы пользоваться возможностями этой библиотеки, ее нужно: а) установить; б) импортировать. Первый пункт для нас не актуален, эта библиотека установилась вместе с Anaconda автоматически. А второй мы выполним – воспользуемся конструкцией `import ...`, где на месте `...` впишем название библиотеки:

In [3]:
import numpy

Теперь, в течение работы в этом файле с кодом, мы можем использовать инструменты из `numpy`. Однако, чтобы Python понимал, что мы используем функции оттуда, нам придется каждый раз указывать название библиотеки:

* функция для создания массива: `numpy.array()`;
* функция для вычисления среднего: `numpy.mean()`.

Это довольно длинно. Поэтому, чтобы не «таскать» название `numpy` всякий раз при вызове полезных функций, библиотеку импортируют с сокращенным названием `np` с помощью конструкции `import ... as ...`:

In [4]:
import numpy as np

Создадим массив – структуру типа `numpy array`. Для этого в функцию `np.array()` поместим перечень элементов в квадратных скобках (по сути, мы просто превращаем менее удобный список в более удобный массив):

In [5]:
rost = np.array([168, 195, 170, 183])

Объект `rost` – массив. А значит, мы с ним можем выполнять операции поэлементно. Разделим все элементы на 100:

In [6]:
rost / 100

array([1.68, 1.95, 1.7 , 1.83])

Проверим, какие значения в `rost` больше 180:

In [7]:
rost > 180 # второй и четвертый

array([False,  True, False,  True])

Раз мы можем проверить выполнение условия для всех элементов, мы можем и отфильтровать интересующие нас элементы. Что такое фильтрация? Это выбор элементов. А за выбор элементов в Python отвечают квадратные скобки. В квадратных скобках можно указать:

* номер элемента (тут стоит учитывать, что в Python нумерация с нуля, а не с единицы), актуально, например, для списков и массивов;
* название элемента (будет актуально для таблиц при выборе столбцов по названию);
* условие, которое должно выполняться для отобранных элементов.

Поставим после названия `rost` квадратные скобки и впишем туда условие:

In [8]:
rost[rost > 180]

array([195, 183])

Готово! Python выбрал из `rost` элементы, на которых проверка условия `rost > 180` дала ответы `True`. Теперь это новый массив из двух элементов, и при желании его можно куда-то сохранить:

In [9]:
high = rost[rost > 180]
print(high)

[195 183]
