# Анализ данных | Python 
## ОП «Журналистика», ОП «Медиакоммуникации» 2022/23

## Семинар 1 

## Введение в Pandas 

*Автор: Татьяна Рогович, НИУ ВШЭ*

*Дополнения: Анастасия Паршина, НИУ ВШЭ*

Pandas — библиотека для работы с табличными данными в питоне.

* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Чтобы импортировать бибдиотеку, используем слово `import` и далее название самой библиотеки — `pandas`.

    import pandas
    
Часто библиотеки импортируют под псевдонимом, поэтому, чтобы не писать название библиотеки целиком каждый раз, когда понадобится ее использовать, принято сокращать название библиотеки и импортировать ее как "pd":

    import pandas as pd

In [1]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd 

В Pandas есть тип данных датафрейм (DataFrame), в котором удобно хранить таблицы с данными. Создадим небольшой датафрейм своими руками.

Помним, что если мы хотим использовать функцию из модуля, то сначала обращаемся к нему (`pd.`) и затем уже к самой функции `DataFrame()`: 

    pd.DataFrame()

In [2]:
df = pd.DataFrame() # создали пустой датафрейм с помощью метода DataFrame() библиотеки pandas (pd)
df['a'] = [10,20,30] # создаем колонку "а" и помещаем в нее столбец с данными - [10, 20, 30]
df

Unnamed: 0,a
0,10
1,20
2,30


В датафрейме автоматически создалась нумерация строк - по умолчанию она с 0.

In [3]:
df['b'] = ['one', 'two', 'three']
df

Unnamed: 0,a,b
0,10,one
1,20,two
2,30,three


Конечно, чаще всего приходится работать с уже готовыми наборами данных. Такие данные обычно хранятся в формтае `.xls(x)` — для работы в Excel, или (чаще) в формате `.csv` — comma-separated value. 

Попробуем импортировать `.csv` файл с данными о пассажирах Титаника. Они лежат в файле `'titanic.csv'` (попробуйте открыть его в текстовом редакторе и посмотрите, как он устроен внутри).

In [6]:
data = pd.read_csv('https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/titanic.csv')

Если файл с данными лежит в той же папке, в которой открыт блокнот, то достаточно написать так: 
    
    data = pd.read_csv('titanic.csv')

Функция `.read_csv()` читает данные из файла формата `.csv` данные и преобразует в `pandas.DataFrame`. Аналогичная функция `.read_excel()` может читать данные в офрмате `.xls(x)`.

Посмотрим на наши данные:

In [8]:
data.head() # функция head() показывает первые строки датафрейма, по умолчанию 5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [9]:
data.head(10) # можно передать аргументом количество строк, которые хотите увидеть

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [10]:
data.tail(10) # можно посмотреть последние записи

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


По столбцам идут признаки, по строкам - объекты (пассажиры).

In [11]:
data.shape # функция shape показывает размерность датафрейма (строк, столбцов)

(891, 12)

In [12]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

<u>**Описание признаков:**</u>

`PassengerId` — id пассажира

`Survived` — бинарная переменная: выжил пассажирил (1) или нет (0)

`Pclass` — класс пассажира

`Name` — имя пассажира

`Sex` — пол пассажира

`Age` — возраст пассажира

`SibSp` — количество родственников (братьев, сестер, супругов) пассажира на борту

`Parch` — количество родственников (родителей / детей) пассажира на борту

`Ticket` — номер билета

`Fare` — тариф (стоимость билета)

`Cabin` — номер кабины

`Embarked` — порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

Так можно обратиться к столбцу:

In [13]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [14]:
data.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Или к нескольким столбцам сразу:

In [16]:
data[['Age', 'Sex']].head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


A так - к строке по индексу:

In [17]:
data.loc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [18]:
data.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

`.loc[]` возвращает данные на основе индекса, а `.iloc[]` —  основываясь исключительно на позиции индекса, начиная с 0.

Пример:


In [19]:
df = pd.DataFrame()
df['Name'] =  ['Tom', 'Jack', 'Nick', 'Juli']
df['Mark'] = [99, 98, 95, 90]
df.index = [1,3,2,0]
df

Unnamed: 0,Name,Mark
1,Tom,99
3,Jack,98
2,Nick,95
0,Juli,90


In [21]:
df.loc[3] # если использовать .loc[], то получим информацию по "названию строки", точнее — индексу

Name    Jack
Mark      98
Name: 3, dtype: object

In [22]:
df.iloc[3] # если использовать .iloc[], то получим информацию по порядковому номеру строки (нумерация с нуля)

Name    Juli
Mark      90
Name: 0, dtype: object

In [26]:
df.loc[1:2]

Unnamed: 0,Name,Mark
1,Tom,99
3,Jack,98
2,Nick,95


In [27]:
df.iloc[1:2]

Unnamed: 0,Name,Mark
3,Jack,98


Можем сделать индексом даже колоноку с именем. И тоже сможем обращаться к объектам через `.loc`

In [33]:
df.index = df.Name # либо, если нам не нужна дополнительная колонка Name, 
                   # то можно сделать так df = df.set_index('Name')
df

Unnamed: 0_level_0,Name,Mark
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Tom,Tom,99
Jack,Jack,98
Nick,Nick,95
Juli,Juli,90


In [34]:
df.loc['Nick']['Mark']

95

In [35]:
df.loc['Jack':'Nick']

Unnamed: 0_level_0,Name,Mark
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Jack,Jack,98
Nick,Nick,95


Попробуем на наших данных!

In [24]:
data.loc[:3] # строки с 0 по 3 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [25]:
data.loc[1:3, 'Survived':'Sex'] # строки с 1 по 3, колонки от Survived до Sex

Unnamed: 0,Survived,Pclass,Name,Sex
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,1,3,"Heikkinen, Miss. Laina",female
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female


На следующем семинаре мы вернемся к данным про Титаник, а пока обсудим еще одну тему — массивы NumPy.

## Массивы NumPy


*Автор: Алла Тамбовцева, НИУ ВШЭ*

*Дополнения: Татьяна Рогович, Татьяна Перевышина, НИУ ВШЭ*

### Базовые операции с массивами

Сегодня мы познакомимся с библиотекой NumPy (сокращение от Numeric Python), которая часто используется в задачах, связанных с машинным обучением.

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте её импортируем. Если вы уже устанавливали Anaconda, то библиотека numpy также была установлена на ваш компьютер. Проверим: импортируем библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

In [40]:
import numpy as np

**Массив** — упорядоченная изменяемая структура данных к элементам которого можно обратиться по индексу/ам

Массив может:

*   хранить неуникальные элементы
*   хранить ТОЛЬКО элементы одного типа (`int`/`float`/`str`/`bool`)


Сила типов данных:
    `str > float > int > bool`

Почему массив это удобно: 

* они занимают меньше места и памяти
* все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву
* вычислительные операции быстрее выполняются с массивами numpy, чем со списками

Основыным объектом `numpy` является Ndarray – это n-мерный массив (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. Массивы могут быть одномерными, то есть визуально ничем не отличаться от простого списка значений:

In [46]:
np.array([0, 2, 3, 4])

array([0, 2, 3, 4])

А могут быть многомерными (n-мерными), то есть представлять собой вложенный список («список списков»):

In [47]:
np.array([[1, 2], 
          [1, 0]])  # двумерный

array([[1, 2],
       [1, 0]])

Мы чаще всего будем работать с двумерными массивами. Про двумерный массив можно думать как про матрицу или про таблицу. Так, массив во втором примере выше можно рассматривать как таблицу, состояшую из двух строк и трёх столбцов, как таблицу $2 \times 3$ (сначала указывается число строк, затем – число столбцов). Отсюда следует важный факт: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [48]:
np.array([[0, 0, 1],
         [0, 1]]) 

  np.array([[0, 0, 1],


array([list([0, 0, 1]), list([0, 1])], dtype=object)

Получилось что-то немного странное. Никакой ошибки Python не выдан, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов!

Теперь давайте посмотрим, что будет, если мы попробуем объединить в массив объекты разных типов, например, целые числа и числа с плавающей точкой:

In [49]:
np.array([[5, 8.2], 
         [1.2, 1,]])

array([[5. , 8.2],
       [1.2, 1. ]])

Все элементы были автоматически приведены к одному типу (тип *float* «сильнее» типа *integer*). Можете самостоятельно проверить, что будет, если мы «смешаем» в списке строковые и числовые значения.

Давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

In [50]:
turnout = np.array([0.62, 0.43, 0.79, 0.56])
turnout

array([0.62, 0.43, 0.79, 0.56])

Чтобы домножить каждое число в массиве на 100, нам достаточно домножить на 100 `turnout`:

In [51]:
turnout * 100  # готово!

array([62., 43., 79., 56.])

Точно так же можем производить операции с несколькими массивами — действия будут выполняться поэлементно:

In [52]:
A = np.array([2, 3, 5])
B = np.array([0, 8, 6])

A + B

array([ 2, 11, 11])

In [53]:
A * B

array([ 0, 24, 30])

Выполним сразу несколько действий — посчитаем явку на основе массивов с числом действительных и недействительных бюллетеней.

In [58]:
valid = np.array([32, 45, 50, 44])
invalid = np.array([3, 11, 2, 6])
total = np.array([65, 72, 80, 100])

(valid + invalid) / total * 100

array([53.84615385, 77.77777778, 65.        , 50.        ])

### Характеристики массива


Теперь познакомимся с характеристиками самого массива. Создадим массив `M` и будем с ним работать.

In [59]:
M = np.array([[2, 5], 
              [6, 8], 
              [1, 3]])
M

array([[2, 5],
       [6, 8],
       [1, 3]])

Массивы бывают многомерными, значит, у массива есть число измерений. Давайте его найдём:

In [60]:
M.ndim  # dimensions

2

Действительно, всего два измерения: чтобы указать на число 5 из этого массива, нам понадобятся всего две координаты – номер строки и номер столбца. Теперь посмотрим на форму или вид массива (*shape*):

In [61]:
M.shape  # 3 строки и 2 столбца, т.е. 3 списка по 2 элемента

(3, 2)

Кроме того, можем найти общее число элементов в массиве, его длину, размер (*size*):

In [62]:
M.size  # всего 6 элементов

6

Важное отличие numpy массива от списка - в нем можно хранить данные только одного типа. Если попытаться собрать данные одного типа в массив, то они будут приведены к самому "сильному" типу (к тому, в который могут быть преобразованы остальные без ошибки).

In [63]:
np.array(['cat', 2, True, 3.4]) # все стало строками

array(['cat', '2', 'True', '3.4'], dtype='<U32')

In [64]:
np.array([2, True, 3.4]) # все стало вещественными числами

array([2. , 1. , 3.4])

Тип данных, хранящихся в массиве можно посмотреть с помощью аттрибута `dtype`

In [65]:
M.dtype

dtype('int64')

В `numpy` имеются все питоновские типы, а также обёртки над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

### Работа с элементами массива

Если нам нужно обратиться к элементам массива, то эта операция будет похожа на работу со вложенными списками:

In [66]:
M

array([[2, 5],
       [6, 8],
       [1, 3]])

In [67]:
M[0]  # весь первый список в M

array([2, 5])

In [68]:
M[0][1]  # второй элемент первого списка в M

5

Или не совсем как со списками, без двойных скобок:

In [70]:
M[0, 1]

5

Ещё можно выбирать сразу несколько элементов массива. Для этого воспользуемся срезами (*slices*):

In [71]:
M[0:2]  # с элемента с индексом 0 до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Обратите внимание: правый конец среза не включается.

Концы среза можно опускать, если нас интересуют все элементы, начиная с некоторого элемента и до конца массива или начиная с первого элемента массива и до некоторого элемента (правый конец точно так же включаться не будет):

In [72]:
M[1:] # с элемента с индексом 1 до конца

array([[6, 8],
       [1, 3]])

In [73]:
M[:2] # с начала массива до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Еще можно взять полный срез – выбрать все элементы массива:

In [75]:
M[:] 

array([[2, 5],
       [6, 8],
       [1, 3]])

Кроме того, при выборе элементов можно выставлять шаг. По умолчанию мы выбираем все элементы подряд, шаг равен 1, но это можно изменить:

In [76]:
M[0:3:2]  # с нулевого по третий через 2

array([[2, 5],
       [1, 3]])

Концы среза по-прежнему можно опускать:

In [77]:
M[0::2]

array([[2, 5],
       [1, 3]])

Или сделать более интересную вещь, взять отрицательный шаг и выбрать все элементы в обратном порядке, с конца:

In [78]:
M[::-1]

array([[1, 3],
       [6, 8],
       [2, 5]])

А самое ценное, что можно обращаться к элементам не только по рядам, но и по колонкам с помощью индексации через запятую

In [79]:
M[:, 1] # только второй элемент из каждого ряда (:)

array([5, 8, 3])

In [80]:
M[1:, 0] # первый элемент для каждого ряда, начиная со второго

array([6, 1])

### Ещё про операции с массивами

Теперь посмотрим на другие операции с массивами. Создадим простой одномерный массив, содержащий оценки группы школьников:

In [81]:
marks = np.array([5, 4, 3, 5, 5, 4, 3, 4]) 
marks

array([5, 4, 3, 5, 5, 4, 3, 4])

Найдем самую плохую, минимальную оценку:

In [82]:
marks.min()

3

А теперь самую высокую, максимальную:

In [83]:
marks.max()

5

И средний балл:

In [84]:
marks.mean()

4.125

Медиану мы так не найдём — нет метода `median()`, но зато есть такая функция:

In [86]:
np.median(marks)

4.0

А теперь найдем *номер* ученика с самой высокой оценкой:

In [87]:
marks.argmax()

0

И номер ученика с самой низкой оценкой:

In [88]:
marks.argmin()

2

**Внимание:** если таких несколько, будет выведено первое совпадение, как для `argmin()`, так и для`argmax()`.

Конечно, мы не сможем сейчас рассмотреть все доступные методы, относящиеся к массивам (некоторые часто используемые методы мы еще будем обсуждать в следующем модуле), но при желании на перечень доступных методов можно посмотреть, набрав название массива, поставив точку и нажав на *Tab* (показать).

Теперь посмотрим на многомерный массив, для удобства возьмём двумерный:

In [89]:
grades = np.array([[3, 5, 5, 4, 3], 
          [3, 3, 4, 3, 3], 
          [5, 5, 5, 4, 5]])

Пусть это будут оценки трёх студентов 5 контрольных работ. Попробуем теперь найти средний балл за контрольные по каждому группе. Для этого необходимо указать, по какому измерению мы будем двигаться (грубо говоря, по строкам или столбцам):

In [90]:
grades.mean(axis = 1) # по строкам, три оценки - одна для каждого студента

array([4. , 3.2, 4.8])

А теперь найдем средний балл по каждой контрольной работе:

In [91]:
grades.mean(axis = 0) # по столбцам, пять оценки - одна для каждой работы

array([3.66666667, 4.33333333, 4.66666667, 3.66666667, 3.66666667])

Таким же образом можно было посмотреть на минимальное и максимальное значение (можете потренироваться самостоятельно).

### Проверка условий на массивах

Давайте посмотрим, каким образом можно проверять условия на массивах и отбирать элементы по условию. Создадим массив со значениями возраста:

In [92]:
ages = np.array([[15, 23, 32, 45, 52], 
               [68, 34, 55, 78, 20], 
               [25, 67, 33, 45, 14]])

Давайте попробуем узнать, какие значения массива соответствуют людям трудоспособного возраста — от 16 лет и старше:

In [93]:
ages >= 16  # больше или равно

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

Все элементы, кроме первого в первом списке и кроме последнего в последнем списке: на всех позициях, кроме указанных, стоят значения `True`, что означает, что условие выполняется. То, что мы получили сейчас — это булев массив, массив, состоящий из булевых (логических) значений, значений `True` и `False`. 

Теперь попробуем сформулировать более сложное условие: проверим, какие элементы соответствуют людям старше 18, но младше 60 лет:

In [94]:
(ages > 18) & (ages < 60) # & - одновременное условие

array([[False,  True,  True,  True,  True],
       [False,  True,  True, False,  True],
       [ True, False,  True,  True, False]])

Как посчитать, сколько элементов массива удовлетворяют некоторым условиям?

Суммируем значения по всему массиву: Python понимает, что значение `True` — это 1, а `False` — это 0, поэтому нет необходимости превращать все значения в числовые, мы можем просто сложить все «единички»:

In [95]:
((ages > 18) & (ages < 60)).sum()

10

А теперь проверим, какие значения соответствуют людям либо младше 18, либо старше 60:

In [96]:
(ages < 18) | (ages > 60)  # | - или - хотя бы одно условие верно

array([[ True, False, False, False, False],
       [ True, False, False,  True, False],
       [False,  True, False, False,  True]])

А как увидеть сами значения, которые удовлетворяют определенным условиям? Заключить условие в квадратные скобочки:

In [97]:
ages[ages >= 16]

array([23, 32, 45, 52, 68, 34, 55, 78, 20, 25, 67, 33, 45])

In [98]:
ages[(ages >= 16) & (ages < 60)]

array([23, 32, 45, 52, 34, 55, 20, 25, 33, 45])

Внимание: не забудьте круглые скобки для каждого условия, иначе Python поймёт всё неправильно и вернёт ошибку:

In [99]:
ages[ages >= 16 & ages < 60]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### Дополнительно — произведение векторов

#### Скалярное произведение векторов

![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_01.png)

In [100]:
a = np.array([0, 1, 2])
b = np.array([3, 4, 5])
print(a @ b)    # python 3 style
#print(a.dot(b)) 
#print(np.dot(a, b))

14


#### Скалярное произведение матриц

**Умножить можно только такие матрицы, в которых число столбцов первой матрицы равно числу строк второй**

![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_02.png)

In [101]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4,5], [6, 7]])


print(a @ b)
#print(a.dot(b)) 
#print(np.dot(a, b))

[[ 6  7]
 [26 31]]


![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_03.png)

In [102]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4,5], [6, 7], [8, 9]])
print(a @ b)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 2)

![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_04.png)

In [103]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4,5,6], [7, 8, 9]])
print(a @ b)

[[ 7  8  9]
 [29 34 39]]


#### Скалярное произведение матрицы и векторов

![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_05.png)

In [104]:
a = np.array([[0, 1], [2, 3]])
b = np.array([4,5])
print(a @ b)

[ 5 23]


![](https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/pics/s_01_06.png)

In [105]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4,5], [6, 7]])
print(a * b)

[[ 0  5]
 [12 21]]
