# Знакомство с NumPy

(Зачем? Мы будем работать с таблицами, нужно понимать, как они устроены.)

Документация: https://numpy.org/doc/stable/user/quickstart.html

In [1]:
import numpy as np

In [2]:
# воспоминание про списки
a = [2, 5]
print(a)
print(type(a)) # список

# А мы будем работать с массивами

[2, 5]
<class 'list'>


**Создаём массив**

In [3]:
a_np = np.array([2, 5])

In [4]:
print(a_np)

[2 5]


In [5]:
print(type(a_np)) # массив нампай

<class 'numpy.ndarray'>


**Действия с массивами**

In [6]:
# попробуем сложить два списка
height = [156, 172, 164]  # это рост трёх людей
d = [8, 2, 3]
print(height + d) # выполнилась операция "склейки"

[156, 172, 164, 8, 2, 3]


In [7]:
# попробуем сложить два массива numpy
height_np = np.array(height)
d_np = np.array(d)
print(height_np + d_np)  # выполнилось поэлементное сложение

[164 174 167]


In [8]:
# Все выросли на 2 см - какой теперь рост?
height_np + 2

array([158, 174, 166])

In [10]:
print(height_np * 2)  # умножим каждый элемент на два

[312 344 328]


In [11]:
print(d_np ** 3)  # возведем каждый элемент в третью степень

[512   8  27]


**Логические операции**

In [None]:
height_np = np.array([156, 172, 164])

In [12]:
print(height_np > 160) # сравним каждый элемент с 160

[False  True  True]


In [13]:
print(height_np[height_np > 160]) # отфильтровали только значения, которые больше 160

[172 164]


In [14]:
age = np.array([18, 19, 20, 4, 12, 21, 48, 32, 85])  # это возрасты людей

In [15]:
age < 18

array([False, False, False,  True,  True, False, False, False, False])

In [16]:
# У кого скидка в музей?
(age < 18) | (age > 75)

array([False, False, False,  True,  True, False, False, False,  True])

In [17]:
age[(age < 18) | (age > 75)]

array([ 4, 12, 85])

**В массиве все элементы одного типа**

In [18]:
z_np = np.array(['cat', 1, 2.4, True])
print(z_np)

['cat' '1' '2.4' 'True']


In [19]:
print(z_np.dtype)
print(type(z_np[2]))  # вот такой тип у каждого элемента

<U32
<class 'numpy.str_'>


In [20]:
z_np = np.array([1, 2.4, True])
print(z_np)
print(z_np.dtype) # целое число и логическое значение превратились во float

[1.  2.4 1. ]
float64


In [21]:
z_np = np.array([1, True])
print(z_np)
print(z_np.dtype) # логическое значение превратилось в integer

[1 1]
int64


In [22]:
z_np = np.array([True]) # и только одинокий True смог остаться сам собой
print(z_np)
print(z_np.dtype)

[ True]
bool


**Многомерные массивы (матрицы)**

In [24]:
# Надо соблюдать размерность!
np.array([[0, 0, 1],
         [0, 1, 0]]) 

array([[0, 0, 1],
       [0, 1, 0]])

In [25]:
tempr = np.array([[-6, -8, -7, -11], [-12, -12, -9, -9], [-9, -7, -5, -4]])

# вчера, сегодня, завтра
# ночь, утро, день, вечер
print(tempr)

[[ -6  -8  -7 -11]
 [-12 -12  -9  -9]
 [ -9  -7  -5  -4]]


In [26]:
print(tempr[0][2]) # выведи значение в первом ряду в третьей колонке

-7


А ещё с массивами можно вот так:

(осторожно, со списками так нельзя)

In [27]:
print(tempr[0, 2]) # выведи значение в первом ряду в первой колонке

-7


In [28]:
print(tempr[:, 1]) # выведи все ряды (:), но только вторую колонку
print(tempr[0, :]) # выведи только первый ряд, но все колонки
print(tempr[0, 1:]) # выведи только первый ряд, только колонки со второй и до конца

[ -8 -12  -7]
[ -6  -8  -7 -11]
[ -8  -7 -11]


### Тренировка
- Какая температура была вчера днём?
- Какая температура завтра?
- Какая температура по вечерам?

In [36]:
# ваш код
print('Завтра днём:', tempr[2, 2])
print('Сегодня вечером:', tempr[1, 3])
print('Завтра:', tempr[2, :])
print('Дневная:', tempr[:, 2])

Завтра днём: -5
Сегодня вечером: -9
Завтра: [-9 -7 -5 -4]
Дневная: [-7 -9 -5]


**Атрибуты и методы**

In [37]:
tempr.size # атрибут — показывает количество элементов в массиве 

12

In [38]:
print(tempr.shape)  # количество строк, количество столбцов

(3, 4)


In [39]:
print(tempr.mean()) # метод() находит среднее арифметическое массива

-8.25


In [40]:
print(tempr.sum() / tempr.size)  # .sum()

-8.25


Напоминание: атрибут после точки без скобок, метод со скобками после точки.

Атрибуты - свойства объекта, подпеременные, в котор хранится

Методы (они же вариант функций) выполняют действия.

### Массивы быстрее списков (эксперимент 1)

Вычислительные операции быстрее выполняются с массивами numpy чем со списками. Давайте создадим два списка из 1000000 чисел и перемножим их.

In [41]:
import time

# задаем размер наших списков
size = 1000000  
   
# объявляем списки
list1 = range(size)
list2 = range(size)

# запоминаем временную метку
initial_time = time.time()
  
# перемножаем элементы списков
result_list = [(a * b) for a, b in zip(list1, list2)]
list_time = time.time() - initial_time

# смотрим, сколько времени это заняло
print("Сколько времени заняло перемножение списков?", list_time, "сек")

Сколько времени заняло перемножение списков? 0.3972499370574951 сек


Теперь проделаем то же с массивами NumPy.

In [43]:
# объявляем массивы numpy
array1 = np.arange(size)  
array2 = np.arange(size)
   
# запоминаем временную метку
initial_time = time.time()
  
# перемножаем массивы
result_array = array1 * array2

array_time = time.time() - initial_time

# смотрим, сколько времени это заняло
print("Сколько времени заняло перемножение массивов numpy?", array_time, "сек.")

Сколько времени заняло перемножение массивов numpy? 0.006082057952880859 сек.


In [44]:
print(round(list_time/array_time))

65


### Специализированные инструменты быстрее (эксперимент 2)

Теперь давайте убедимся, что использовать метод `.sum()` для массивов NumPy предпочтительней, чем функцию `sum()` из стандарной библиотеки Python. Также создадим список из 1000000 чисел и сложим их разными способами.

In [48]:
size = 1000000  
list1 = range(size)
array1 = np.array(list1)

initial_time = time.time()
list_sum = sum(list1) # складываем числа списка Python стандартной функцией
sum1_time = time.time() - initial_time

initial_time = time.time()
array_sum = array1.sum() # складываем числа массива NumPy методом массива
sum2_time = time.time() - initial_time

initial_time = time.time()
array2_sum = sum(array1) # складываем числа массива NumPy стандартной функцией
sum3_time = time.time() - initial_time

print('Находим сумму элементов списка с функцией sum():', sum1_time)
print('Находим сумму элементов массива с нативным методом .sum():', sum2_time)
print('Находим сумму элементов массива с функцией sum():', sum3_time)

Находим сумму элементов списка с функцией sum(): 0.0458071231842041
Находим сумму элементов массива с нативным методом .sum(): 0.0015149116516113281
Находим сумму элементов массива с функцией sum(): 0.24773621559143066


# Введение в Pandas

Документация: https://pandas.pydata.org/pandas-docs/stable/reference/io.html

In [49]:
! pip3 install pandas



In [50]:
import pandas as pd

**Создаём датафрейм (таблицу)**

In [51]:
df = pd.DataFrame()

In [52]:
df

Добавим колонок. Похоже на синтаксис словарей.

In [53]:
df['PROG'] = [10, 7, 9]
df

Unnamed: 0,PROG
0,10
1,7
2,9


In [54]:
df['ANDAN'] = [9, 8, 10]
df

Unnamed: 0,PROG,ANDAN
0,10,9
1,7,8
2,9,10


In [55]:
print(df)

   PROG  ANDAN
0    10      9
1     7      8
2     9     10


Для красивого интерактивного вывода воспользуйтесь функцией `display()`.

In [56]:
display(df)

Unnamed: 0,PROG,ANDAN
0,10,9
1,7,8
2,9,10


In [57]:
df.shape  # кол-во строк, кол-во столбцов

(3, 2)

Добавьте оценки ещё по одному предмету

In [59]:
# ваш код
df['PHIL'] = [10, 10, 10]
df

Unnamed: 0,PROG,ANDAN,PHIL
0,10,9,10
1,7,8,10
2,9,10,10


Как добавить строку в df? Пройдём позже.

**Действия с df**

(потом ещё пройдём)

In [60]:
df['AVERAGE'] = (df['PROG'] + df['ANDAN']) / 2
df

Unnamed: 0,PROG,ANDAN,PHIL,AVERAGE
0,10,9,10,9.5
1,7,8,10,7.5
2,9,10,10,9.5


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   PROG     3 non-null      int64  
 1   ANDAN    3 non-null      int64  
 2   PHIL     3 non-null      int64  
 3   AVERAGE  3 non-null      float64
dtypes: float64(1), int64(3)
memory usage: 228.0 bytes


Вот этот метод стоит помнить. Будем много обсуждать.

In [62]:
df.describe()

Unnamed: 0,PROG,ANDAN,PHIL,AVERAGE
count,3.0,3.0,3.0,3.0
mean,8.666667,9.0,10.0,8.833333
std,1.527525,1.0,0.0,1.154701
min,7.0,8.0,10.0,7.5
25%,8.0,8.5,10.0,8.5
50%,9.0,9.0,10.0,9.5
75%,9.5,9.5,10.0,9.5
max,10.0,10.0,10.0,9.5


**Работаем с колонкой**

In [63]:
df['PROG']

0    10
1     7
2     9
Name: PROG, dtype: int64

In [65]:
df['PROG'].tolist()

[10, 7, 9]

In [66]:
df['PROG'].dtype

dtype('int64')

In [67]:
df['PROG'].name

'PROG'

In [68]:
print(df['PROG'].values)

[10  7  9]


In [69]:
type(df['PROG'].values)

numpy.ndarray

**Несколько колонок**

In [70]:
df[['PROG', 'ANDAN']]

Unnamed: 0,PROG,ANDAN
0,10,9
1,7,8
2,9,10


In [71]:
df[['AVERAGE', 'PROG']]

Unnamed: 0,AVERAGE,PROG
0,9.5,10
1,7.5,7
2,9.5,9


In [72]:
df

Unnamed: 0,PROG,ANDAN,PHIL,AVERAGE
0,10,9,10,9.5
1,7,8,10,7.5
2,9,10,10,9.5


# Нахождение в таблице

**Колонки**

In [73]:
df.columns

Index(['PROG', 'ANDAN', 'PHIL', 'AVERAGE'], dtype='object')

In [74]:
df.columns = ['PYTHON', 'STATS', 'PHIL', 'AVERAGE']

In [75]:
df.columns

Index(['PYTHON', 'STATS', 'PHIL', 'AVERAGE'], dtype='object')

In [76]:
df

Unnamed: 0,PYTHON,STATS,PHIL,AVERAGE
0,10,9,10,9.5
1,7,8,10,7.5
2,9,10,10,9.5


**Строки**

In [77]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [78]:
df.iloc[0]  # это нулевая строка

PYTHON     10.0
STATS       9.0
PHIL       10.0
AVERAGE     9.5
Name: 0, dtype: float64

In [79]:
df.loc[0]  # это строка с индексом ноль

PYTHON     10.0
STATS       9.0
PHIL       10.0
AVERAGE     9.5
Name: 0, dtype: float64

В чём разница между `.loc()` и `.iloc()`?

In [80]:
df.index = ['Mark', 'Alice', 'Shura']

In [81]:
df

Unnamed: 0,PYTHON,STATS,PHIL,AVERAGE
Mark,10,9,10,9.5
Alice,7,8,10,7.5
Shura,9,10,10,9.5


In [82]:
df.iloc[0]

PYTHON     10.0
STATS       9.0
PHIL       10.0
AVERAGE     9.5
Name: Mark, dtype: float64

In [84]:
#df.loc[0]
df.loc['Mark']

PYTHON     10.0
STATS       9.0
PHIL       10.0
AVERAGE     9.5
Name: Mark, dtype: float64

Итого: `.iloc()` - для числовых индексов, `.loc()` - для индексов таблицы, выделенных жирным

### Тренировка

Что у Шуры по питону?

In [85]:
df

Unnamed: 0,PYTHON,STATS,PHIL,AVERAGE
Mark,10,9,10,9.5
Alice,7,8,10,7.5
Shura,9,10,10,9.5


In [89]:
df.iloc[2,0]

9

In [91]:
df.loc['Shura'][0]

  df.loc['Shura'][0]


9.0

In [92]:
df.loc['Shura']['PYTHON']

9.0

In [94]:
df['PYTHON'][2]

  df['PYTHON'][2]


9

In [95]:
df['PYTHON']['Shura']

9

Что у Алисы по статистике?

In [96]:
df['STATS'][1]

  df['STATS'][1]


8

In [97]:
df.iloc[1]['STATS']

8.0

In [98]:
df.iloc[1,1]

8

In [99]:
df.loc['Alice', 'STATS']

8

# Загрузка данных в pandas

In [100]:
df_csv = pd.read_csv('data/students.csv')
df_csv

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
0,Иван Иванов,ivanov@hse.ru,5,6
1,Петр Петров,petrov@hse.ru,8,10
2,Мария Кузнецова,kuznetsova@hse.ru,7,8
3,Татьяна Смирнова,smirnova@hse.ru,3,9
4,Камиль Ахметов,akhmetov@hse.ru,8,6
5,Софья Сонина,sonina@hse.ru,10,10
6,Андрей Андреев,andreev@hse.ru,2,4
7,Алина Хисматуллина,khismatullina@hse.ru,3,3
8,Семен Семенов,semenov@hse.ru,5,8
9,Макар Макаров,makarov@hse.ru,9,6


In [102]:
df_csv.head(3)

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
0,Иван Иванов,ivanov@hse.ru,5,6
1,Петр Петров,petrov@hse.ru,8,10
2,Мария Кузнецова,kuznetsova@hse.ru,7,8


In [103]:
df_csv.tail(2)

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
13,Екатерина Катина,katina@hse.ru,5,4
14,Елена Ленина,lenina@hse.ru,6,6


In [104]:
# Как открыть файл с разделителем не ',' и без названий колонок?
df_csv_sep = pd.read_csv('data/sent_len.csv')
df_csv_sep.head()

Unnamed: 0,А. П. Чехов;2
0,А. П. Чехов;13
1,А. П. Чехов;4
2,А. П. Чехов;7
3,А. П. Чехов;11
4,А. П. Чехов;37


In [105]:
# указали разделитель
df_csv_sep = pd.read_csv('data/sent_len.csv', sep=';')
df_csv_sep.tail()

Unnamed: 0,А. П. Чехов,2
885,Л. Н. Толстой,40
886,Л. Н. Толстой,53
887,Л. Н. Толстой,70
888,Л. Н. Толстой,90
889,Л. Н. Толстой,26


In [106]:
# указали, что в первой строке нет названий столбцов
df_csv_sep = pd.read_csv('data/sent_len.csv', sep=';', header=None)
df_csv_sep.head()

Unnamed: 0,0,1
0,А. П. Чехов,2
1,А. П. Чехов,13
2,А. П. Чехов,4
3,А. П. Чехов,7
4,А. П. Чехов,11


In [107]:
# добавили названия столбцов
df_csv_sep = pd.read_csv('data/sent_len.csv', sep=';',
                         header=None, names=['автор', 'слова'])
df_csv_sep.head()

Unnamed: 0,автор,слова
0,А. П. Чехов,2
1,А. П. Чехов,13
2,А. П. Чехов,4
3,А. П. Чехов,7
4,А. П. Чехов,11


In [108]:
# открыли файл 'verbs.txt' с помощью read_csv
df_txt = pd.read_csv('data/verbs.txt', sep=';', header=None,
                    names=['pres', 'V2', 'V3', 'russian'])
df_txt.head()

Unnamed: 0,pres,V2,V3,russian
0,arise,arose,arisen,подниматься
1,be,was/were,been,быть
2,bear,bore,born,родить
3,become,became,become,сделаться
4,begin,began,begun,начинать(ся)


Откройте `bi_femcorp.tsv`

In [109]:
# открывая текстовые файлы с разным расширением (.csv, .tsv, .txt), используйте read_csv
df_tsv = pd.read_csv('data/bi_femcorp.tsv', sep='\t')

In [110]:
df_tsv

Unnamed: 0,bi_token,uni_first_token,uni_first_lemma,uni_first_POS,uni_second_token,uni_second_lemma,uni_second_POS,Sent_ids,Ids
0,"('в', 'июне')",в,в,PREP,июне,июнь,NOUN,0 861,"['0', '861']"
1,"('июне', 'этого')",июне,июнь,NOUN,этого,это,NPRO,0,['0']
2,"('этого', 'года')",этого,это,NPRO,года,год,NOUN,0 473 1169 1672 1756 3155,"['0', '473', '1756', '1672', '1169', '3155']"
3,"('года', 'девушка')",года,год,NOUN,девушка,девушка,NOUN,0,['0']
4,"('девушка', 'по')",девушка,девушка,NOUN,по,по,PREP,0,['0']
...,...,...,...,...,...,...,...,...,...
41739,"('устанавливает', 'датчики')",устанавливает,устанавливать,VERB,датчики,датчик,NOUN,3466,['3466']
41740,"('датчики', 'и')",датчики,датчик,NOUN,и,и,CONJ,3466,['3466']
41741,"('затем', 'программирует')",затем,затем,ADVB,программирует,программировать,VERB,3466,['3466']
41742,"('программирует', 'их')",программирует,программировать,VERB,их,они,NPRO,3466,['3466']


In [114]:
! pip3 install openpyxl



In [115]:
# открыть можно и excel
df_excel = pd.read_excel('data/coffee_stats.xlsx')

In [116]:
df_excel

Unnamed: 0,Тип кофе,Размер,Сироп
0,раф,большой,шоколадный
1,капучино,большой,ванильный
2,раф,маленький,розовый
3,раф,большой,карамельный
4,латте,маленький,
...,...,...,...
144,латте,большой,карамельный
145,капучино,большой,кленовый
146,раф,большой,шоколадный
147,раф,средний,карамельный
