# Семинар 2:  Пакеты ~~(с пакетами)~~ в python

На семинаре мы будем:

* Устанавливать полезные пакеты для обработки данных
* Поработать с таблицами в pandas и использовать numpy
* Пофильтруем, почистим, причешем данные и посчитаем статистики

В качестве датасета мы будем использовать датасет по фильмам, получившим Оскар

# 1. Пакеты

Пакет - это набор полезных функций, которыми можно пользоваться просто достав их из нужного пакета. Доставать их можно методом import. Каждый пакет также нужно грузить всего один в начале работы с ноутбуком и потом спокойно можно использовать его в следующих ячейках.

Подгружать пакеты можно разными способами. Давайте попробуем несколько.

In [4]:
import math 
math.sqrt(4)

2.0

При таком способе загрузки обращение к каждой команде модуля делается через точку. В Python работает табуляция. Если написать название модуля, поставить точку, а после нажать Tab, то Jupyter Notebook подскажет какие ещё команды есть внутри модуля.

In [None]:
math.

Каждый раз писать название пакета перед тем как достать из него какую-нибудь функцию - это нудно и длинно. Можно сокращать.

Например, можно импортировать только какие-то определенные функции. Это еще и память экономит.

In [6]:
from math import sqrt

sqrt(9)

3.0

А можно выгрузить вообще все содержимое пакета и обращаться к функциям напрямую.

In [7]:
from math import *
pi

3.141592653589793

Также можно подгрузить какой-нибудь модуль или пакет, но при этом изменить у него название на более короткое и пользоваться им.

# 2. Все любят панд

Давайте подгрузим пакет для работы с таблицами, [pandas](http://pandas.pydata.org/) и попробуем немного поработать с данными о фильмах, получивших премию Оскар. 

## 2.1 Оскар в студию

In [9]:
import pandas as pd  # подгружаем пакет для работы с таблицами

По имени `pd` нам теперь доступна куча команд для работы с таблицами. Давайте подгрузим данные и посмотрим что лежит внутри нашей таблички. Делать это будем командой [pd.read_csv().](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv)

Аргументов у нее очень много, критически важные:

 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк

In [14]:
df = pd.read_csv('/Users/ekutynina/Downloads/oscars_df.csv', sep=',')
df.head(5) # метод head выводит на экран первые 7 строк :) 

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Status,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID
0,0,Wings,1927/28,Famous Players-Lasky,Winner,1927,144,"Drama,Romance,War",7.5,12221,...,Certified-Fresh,93.0,46.0,Upright,78.0,3530.0,9.0,43.0,3.0,2becf7d5-a3de-46ab-ae45-abdd6b588067
1,1,7th Heaven,1927/28,Fox,Nominee,1927,110,"Drama,Romance",7.7,3439,...,,,,,,,,,,19ed3295-a878-4fd2-8e60-5cd7b5f93dad
2,2,The Racket,1927/28,The Caddo Company,Nominee,1928,84,"Crime,Drama,Film-Noir",6.7,1257,...,,,,,,,,,,3111c2d8-0908-4093-8ff3-99c89f2f2f08
3,3,The Broadway Melody,1928/29,Metro-Goldwyn-Mayer,Winner,1929,100,"Drama,Musical,Romance",5.7,6890,...,Rotten,33.0,24.0,Spilled,21.0,1813.0,7.0,8.0,16.0,de063f3f-2d35-4e1c-8636-6eb4c16bd236
4,4,Alibi,1928/29,Feature Productions,Nominee,1929,91,"Action,Crime,Romance",5.8,765,...,,,,,,,,,,609887c2-877c-43a4-b88c-e40e31096a98


В табличке есть огромное количество самых разных переменных. Их названия довольно интуитивны. Будем разбираться с тем за что отвечает какая колонка по мере необходимости. Отметим только то, что все переменные разных типов. На основную информацию по ним можно посмотреть с помощью метода `.info()`. Напротив каждого названия столбца можно увидеть, сколько в нём заполненных ячеек. 

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 571 entries, 0 to 570
Data columns (total 30 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Unnamed: 0                        571 non-null    int64  
 1   Film                              571 non-null    object 
 2   Oscar Year                        571 non-null    object 
 3   Film Studio/Producer(s)           571 non-null    object 
 4   Award                             571 non-null    object 
 5   Year of Release                   571 non-null    int64  
 6   Movie Time                        571 non-null    int64  
 7   Movie Genre                       571 non-null    object 
 8   IMDB Rating                       571 non-null    float64
 9   IMDB Votes                        571 non-null    object 
 10  Movie Info                        438 non-null    object 
 11  Genres                            439 non-null    object 
 12  Critic C

Часто надо ответить на вопрос о количестве строк и столбцов в таблице. Для этого есть метод  `.shape`

In [33]:
df.shape

(571, 31)

Мы уже научились смотреть на первые строки dataframe, но мы можем посмотреть на любые строки интересующего нам диапазона.
Например, с 100 по 105 строки. Почему бы и нет?

In [17]:
df[99:104] #Нумерация объектов в python с 0, поэтому 100 строчка имеет индекс 99 

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Status,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID
99,99,Wuthering Heights,1939,Samuel Goldwyn Productions,Nominee,1939,104,"Drama,Romance",7.6,17314,...,Fresh,96.0,23.0,Upright,85.0,8786.0,1.0,22.0,1.0,961860de-899b-4c9a-85ba-d5fb0359cbfb
100,100,Rebecca,1940,Selznick International Pictures,Winner,1940,130,"Drama,Mystery,Romance",8.1,130546,...,,,,,,,,,,e39af7f6-07a0-44e2-ad07-3924634c0aea
101,101,"All This, and Heaven Too",1940,Warner Bros.,Nominee,1940,141,"Drama,Romance",7.5,4728,...,Fresh,83.0,6.0,Upright,85.0,1048.0,3.0,5.0,1.0,83619bb1-3c1d-4e3b-bf20-98f9dca469f3
102,102,Foreign Correspondent,1940,Walter Wanger (production company),Nominee,1940,120,"Action,Romance,Thriller",7.5,19657,...,Fresh,95.0,39.0,Upright,81.0,6906.0,4.0,37.0,2.0,d0f8a19e-333c-4dde-aedc-5a15d1df26e0
103,103,The Grapes of Wrath,1940,20th Century-Fox,Nominee,1940,129,"Drama,History",8.1,89303,...,Certified-Fresh,100.0,48.0,Upright,88.0,24311.0,7.0,48.0,0.0,1709969c-4b54-4c2b-a3ef-384c9a800499


Также, вместо `.head()` можно использовать обращение по индексам.

In [20]:
df[:5]

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Status,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID
0,0,Wings,1927/28,Famous Players-Lasky,Winner,1927,144,"Drama,Romance,War",7.5,12221,...,Certified-Fresh,93.0,46.0,Upright,78.0,3530.0,9.0,43.0,3.0,2becf7d5-a3de-46ab-ae45-abdd6b588067
1,1,7th Heaven,1927/28,Fox,Nominee,1927,110,"Drama,Romance",7.7,3439,...,,,,,,,,,,19ed3295-a878-4fd2-8e60-5cd7b5f93dad
2,2,The Racket,1927/28,The Caddo Company,Nominee,1928,84,"Crime,Drama,Film-Noir",6.7,1257,...,,,,,,,,,,3111c2d8-0908-4093-8ff3-99c89f2f2f08
3,3,The Broadway Melody,1928/29,Metro-Goldwyn-Mayer,Winner,1929,100,"Drama,Musical,Romance",5.7,6890,...,Rotten,33.0,24.0,Spilled,21.0,1813.0,7.0,8.0,16.0,de063f3f-2d35-4e1c-8636-6eb4c16bd236
4,4,Alibi,1928/29,Feature Productions,Nominee,1929,91,"Action,Crime,Romance",5.8,765,...,,,,,,,,,,609887c2-877c-43a4-b88c-e40e31096a98


А можно обращаться к конкретным колонкам таблиц.

In [22]:
df['Film'][:5]

0                  Wings
1             7th Heaven
2             The Racket
3    The Broadway Melody
4                  Alibi
Name: Film, dtype: object

А можно и не к одной. 

In [24]:
df[['Film','Oscar Year','Award']][:5]

Unnamed: 0,Film,Oscar Year,Award
0,Wings,1927/28,Winner
1,7th Heaven,1927/28,Nominee
2,The Racket,1927/28,Nominee
3,The Broadway Melody,1928/29,Winner
4,Alibi,1928/29,Nominee


## 2.2 Базовые навыки по работе с табличками

А можем создать новую колонку. Например, хотим скрестить ужа с ежом, и название фильма с его наградой.

In [26]:
df['name_award'] = df['Film'] + ' ' + df['Award']
df['name_award'].head()

0                  Wings Winner
1            7th Heaven Nominee
2            The Racket Nominee
3    The Broadway Melody Winner
4                 Alibi Nominee
Name: name_award, dtype: object

Иногда удобно посмотреть уникальные значения (разумнее если это категорийне переменные). Для этого есть специальный метод.

Задачка: 
1. Вывести на экран все уникальные значения колонки Award (метод `.unique()`)
2. Посчитать сколько их всего
3. Нужно посмотреть, как часто каждое значение колонки Award встречается в данных

In [29]:
df['Award'].unique()

array(['Winner', 'Nominee'], dtype=object)

In [30]:
len(df['Award'].unique())

2

In [31]:
df['Award'].value_counts().head()

Nominee    478
Winner      93
Name: Award, dtype: int64

## 2.3 Фильтрация

Мы хотим выбрать, что посмотреть сегодня вечером. Допустим, мы очень любим 1992 год и хотим посмотреть, какие хорошие фильмы в этом году вышли. Для этого нам нужно отфильтровать нашу табличку по полю Year of Release, оставив только записи с Year of Release = 1992.

Сначала для каждой строчки проверим условие Year of Release = 1992.

In [35]:
df['Year of Release']==1992

0      False
1      False
2      False
3      False
4      False
       ...  
566    False
567    False
568    False
569    False
570    False
Name: Year of Release, Length: 571, dtype: bool

А теперь оставим только те строчки, где это условие выполняется.

In [36]:
df[df['Year of Release']==1992][:5]

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID,name_award
380,380,Unforgiven,1992,Clint Eastwood,Winner,1992,130,"Drama,Western",8.2,390280,...,96.0,106.0,Upright,93.0,122729.0,28.0,102.0,4.0,2ec120ec-af89-47c0-a5de-ee0f0789cf1b,Unforgiven Winner
381,381,The Crying Game,1992,Stephen Woolley,Nominee,1992,112,"Crime,Drama,Romance",7.3,53289,...,94.0,67.0,Upright,78.0,31834.0,19.0,63.0,4.0,1035b815-61a1-4381-bbee-4e2bfeff00b5,The Crying Game Nominee
382,382,A Few Good Men,1992,"David Brown, Rob Reiner, and Andrew Scheinman",Nominee,1992,138,"Drama,Thriller",7.7,245903,...,83.0,64.0,Upright,89.0,325423.0,18.0,53.0,11.0,87a4b35b-0e2f-4a81-8563-a30239451080,A Few Good Men Nominee
383,383,Howards End,1992,Ismail Merchant,Nominee,1992,142,"Drama,Romance",7.4,30508,...,94.0,66.0,Upright,82.0,13673.0,19.0,62.0,4.0,02cd0473-5c6d-4537-8e92-e3c081ff133c,Howards End Nominee
384,384,Scent of a Woman,1992,Martin Brest,Nominee,1992,156,Drama,8.0,277333,...,89.0,44.0,Upright,92.0,119250.0,9.0,39.0,5.0,9da93e60-2304-4bc0-86e7-e76094b38c1e,Scent of a Woman Nominee


Круто. Посмотрели на названия, ничего не поняли. При выборе фильма также можно ориентироваться на его рейтинг. В нашем датасете есть колонка IMDB Rating. 


Задача:
Давайте оставим только фильмы, у которых рейтинг не менее 8.

In [None]:
#Кодить тут

Остается только найти фильм, который НЕ выиграл  Оскар (да, это подгонка результатов, но фильм хороший).

In [None]:
#Кодить тут

Сами условия важно не забывать оборачивать в круглые скобки `()`, чтобы питон не запутался, что с чем сравнивается. Также они определяют порядок действий, как в математике.

То есть мы командой 

`(df['Year of Release']==1992)&(df['IMDB Rating']>=8)&(df['Award']!='Winner')` 

говорим табличке: 

`(год выпуска = 1992) И (рейтинг не ниже 8) И (не выиграл Оскар))` 

И на выход получаем маленькую подтаблицу, где __все__ эти условия выполнены.

__Важно__: если вы хотите вывести все строки в таблице, где столбец попадает в какой-то _диапазон_ значений, придётся написать $2$ условия на этот столбец (двойное неравенство не прокатит, увы). Например, выведем все фильмы, которые вышли в период с $1990$ по $2000$:

In [43]:
df[(df['Year of Release']>=1990)&(df['Year of Release']<=2000)][:5]

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID,name_award
370,370,Dances with Wolves,1990,Jim Wilson and Kevin Costner,Winner,1990,181,"Adventure,Drama,Western",8.0,249524,...,,,,,,,,,98f8f2a9-a385-4248-a892-7c0857fb5260,Dances with Wolves Winner
371,371,Awakenings,1990,Walter Parkes and Lawrence Lasker,Nominee,1990,121,"Biography,Drama",7.8,132136,...,88.0,33.0,Upright,89.0,55182.0,4.0,29.0,4.0,2605a134-1217-4ae4-bf30-43d97858e924,Awakenings Nominee
372,372,Ghost,1990,Lisa Weinstein,Nominee,1990,127,"Drama,Fantasy,Romance",7.1,204848,...,74.0,74.0,Upright,80.0,469588.0,18.0,55.0,19.0,5e760389-af46-424d-bde2-405623e9ae86,Ghost Nominee
373,373,The Godfather Part III,1990,Francis Ford Coppola,Nominee,1990,162,"Crime,Drama",7.6,373892,...,,,,,,,,,881cf2a0-45e8-48b5-a63f-e59fd8e6d31a,The Godfather Part III Nominee
374,374,Goodfellas,1990,Irwin Winkler,Nominee,1990,146,"Biography,Crime,Drama",8.7,1065109,...,,,,,,,,,99af9db4-124b-4abb-b7cd-ee67426e50c8,Goodfellas Nominee


## 2.4 Работа с пропусками 


Пропуски в данных возникают по разным причинам. Кто-то забыл измерить, записать или в принципе таких данных в природе не существовало. Когда мы будем учить алгоритмы машинного обучения, нам придётся все эти пропуски заполнять. 

Количество пропусков в данных можно узнать с помощью метода `.isnull()`

In [44]:
df.isnull().head() # возвращает True, если в ячейке пропуск, иначе --- False

Unnamed: 0.1,Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Year of Release,Movie Time,Movie Genre,IMDB Rating,IMDB Votes,...,Tomatometer Rating,Tomatometer Count,Audience Status,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count,Film ID,name_award
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,False,False
2,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,False,False


In [45]:
df.isnull().sum()  # суммарное количество пропусков в каждом столбце

Unnamed: 0                            0
Film                                  0
Oscar Year                            0
Film Studio/Producer(s)               0
Award                                 0
Year of Release                       0
Movie Time                            0
Movie Genre                           0
IMDB Rating                           0
IMDB Votes                            0
Movie Info                          133
Genres                              132
Critic Consensus                    232
Content Rating                      132
Directors                           134
Authors                             134
Actors                              132
Original Release Date               132
Streaming Release Date              133
Production Company                  132
Tomatometer Status                  132
Tomatometer Rating                  132
Tomatometer Count                   132
Audience Status                     135
Audience Rating                     132


In [46]:
# отсортировали число пропусков по убыванию и вывели топ-10 
df.isnull().sum().sort_values(ascending=False).head(10)

Critic Consensus          232
Audience Status           135
Authors                   134
Directors                 134
Movie Info                133
Streaming Release Date    133
Audience Rating           132
Tomatometer Count         132
Tomatometer Rating        132
Tomatometer Status        132
dtype: int64

Метод `.fillna(что-то)` позволяет заполнить пропуски чем-нибудь нейтральным. Например, посмотрим на колонку `Movie Info`. В ней сейчас есть пропуски. 

In [49]:
df['Movie Info'].head()

0    With World War I afoot, David Armstrong (Richa...
1                                                  NaN
2                                                  NaN
3    Vaudeville sisters "Hank" (Bessie Love) and Qu...
4                                                  NaN
Name: Movie Info, dtype: object

Можем заполнить пропуски любой строкой/фразой с помощью метода `.fillna()`. Пусть будет "No  description"

In [50]:
df['Movie Info'] = df['Movie Info'].fillna('No description')
df['Movie Info'].head()

0    With World War I afoot, David Armstrong (Richa...
1                                       No description
2                                       No description
3    Vaudeville sisters "Hank" (Bessie Love) and Qu...
4                                       No description
Name: Movie Info, dtype: object

А еще можно просто выкинуть все пропуски.  Это помогает сделать метод `.dropna()`

In [74]:
df_without_na = df['Content Rating'].dropna()
print(df.shape[0],df_without_na.shape[0])

571 439


## 2.5 Крутим датасет как хотим. Статистики

Теперь попробуем посчитать базовые статистики. Начнем с **максимума/миниума**. Помучаем года `Year of Release` для разннобразия

In [75]:
ymin = df['Year of Release'].min()
ymax = df['Year of Release'].max()
print(ymin,ymax)

1927 2021


**Среднее значение**

Среднее не нуждается в представлении. Вычислить его довольно просто: сложите все значения и разделите полученную сумму на их количество.

$$
\bar {x} =  \frac {1}{n} \sum _{i=1}^{n}x_{i}
$$

В случае со средним значением «серединой» датасета будет среднее арифметическое его значений. Среднее значение отражает типичный показатель в наборе данных. Если мы случайно выберем один из показателей, то, скорее всего, получим значение, близкое к среднему.

In [77]:
df['IMDB Rating'].mean()

7.570402802101572

**Медиана**

Медиана, как и среднее значение, нужна для определения типичного значения.

Чтобы найти медиану, данные нужно расположить в порядке возрастания. Медианой будет значение, которое совпадает с серединой набора данных. Если количество значений чётное, то берётся среднее двух значений, которые «окружают» середину.

In [79]:
df['IMDB Rating'].median()

7.6

**Мода**

Это последняя мера центральной тенденции, о которой пойдёт речь. Мода определяется как значение, которое наиболее часто встречается в наборе данных. 

In [81]:
df['IMDB Rating'].mode()

0    7.7
dtype: float64

**Дисперсия и стандартное отклонение**

Давайте посмотрим на то, насколько рейтинг отличается от среднего значения. Для этого будем брать рейтинг $x_i$ и вычитать из него среднее, $\bar x$:

$$
(x_i - \bar x)
$$

 Посчитанная нами выше величина называется *дисперсией*

$$
\sigma^2= \frac{1}{n} \sum_{i=1}^{n} (x_{i}-{\bar {x}})^{2}
$$

Проблема дисперсии в том, что она измеряется в квадратных единицах (рейтиг квадратный). Чтобы вернуться назад, к обычным единицам (просто к рейтингу), нужно извлечь из неё корень. Тогда получится величина, которая называется *среднеквадратическим отклонением* или *стандартным отклонением*. 

Со статистической точки зрения более правильна формула следующая дисперсии. Она и зашита в стат.пакеты.

$$
\sigma^2= \frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-{\bar {x}})^{2}
$$

In [82]:
df['IMDB Rating'].var() 

0.31321018834301334

In [83]:
df['IMDB Rating'].std()

0.5596518456531823

**Метод describe** считает всё и сразу! 

In [84]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Year of Release,Movie Time,IMDB Rating,Tomatometer Rating,Tomatometer Count,Audience Rating,Audience Count,Tomatometer Top Critics Count,Tomatometer Fresh Critics Count,Tomatometer Rotten Critics Count
count,571.0,571.0,571.0,571.0,439.0,439.0,439.0,439.0,439.0,439.0,439.0
mean,285.0,1973.357268,124.894921,7.570403,87.503417,110.697039,82.428246,515414.5,21.861048,98.471526,12.275626
std,164.977776,29.315738,26.322817,0.559652,11.690622,119.541406,10.927897,3623107.0,21.615492,107.798554,19.310232
min,0.0,1927.0,66.0,5.6,29.0,5.0,21.0,6.0,0.0,3.0,0.0
25%,142.5,1944.0,107.0,7.3,84.0,25.0,78.0,6637.5,5.0,21.5,2.0
50%,285.0,1972.0,121.0,7.6,91.0,54.0,85.0,37166.0,11.0,49.0,5.0
75%,427.5,2001.0,136.5,7.9,95.0,199.0,90.0,125536.5,45.0,163.5,15.0
max,570.0,2021.0,238.0,9.3,100.0,574.0,98.0,35797640.0,69.0,495.0,182.0


И тоже самое для категориальных переменных

In [85]:
df.describe(include='object')

Unnamed: 0,Film,Oscar Year,Film Studio/Producer(s),Award,Movie Genre,IMDB Votes,Movie Info,Genres,Critic Consensus,Content Rating,Directors,Authors,Actors,Original Release Date,Streaming Release Date,Production Company,Tomatometer Status,Audience Status,Film ID,name_award
count,571,571,571,571,571,571,571,439,339,439,437,437,439,439,438,439,439,436,571,571
unique,564,93,378,2,128,570,439,107,339,5,262,397,439,420,214,104,3,2,571,564
top,A Star Is Born,1935,Metro-Goldwyn-Mayer,Nominee,"Drama,Romance",147893,No description,Drama,Led by incredible work from Brie Larson and Ja...,R,William Wyler,Ernest Lehman,"Ralph Fiennes, Tony Revolori, F. Murray Abraha...",1942-01-01,2012-04-16,Paramount Pictures,Certified-Fresh,Upright,40acf99f-bc62-45ee-a766-0297530113d1,Les Misérables Nominee
freq,2,12,40,478,62,2,133,78,1,138,11,5,1,3,35,33,263,417,1,2


## 3 Брат панды. Numpy

# 1. Немного про numpy

До этого мы с вами работали с пакетом `pandas`. Он помогал нам обрабатывать таблички. У него есть брат, пакет `numpy`. Он тоже позволяет работать с данными, но в отличие от `pandas`, он смотрит на них, как на матрицы. Также пакет содержит в себе кучу полезного функционала для разной математики. 

In [89]:
import numpy as np

По большей части пакет позволяет работать с массивами. Вся работа аналогична тому, что мы делали с листами. Например, вот так можно создать массив и сделать срез в нём: 

In [91]:
x = np.array([1,-10,3,0,1,75,3])
x[3:6]

array([ 0,  1, 75])

Но есть и разница. Например, если сложить два листа, получтся огромный лист:

In [92]:
x = [1,-10,3,0,1,75,3]
y = [9,1,567,1,4557,1123,1]
x + y

[1, -10, 3, 0, 1, 75, 3, 9, 1, 567, 1, 4557, 1123, 1]

А если сложить два нумпаевских массива, то все числа сложатся поэлементно. 

In [93]:
x = np.array([1,-10,3,0,1,75,3])
y = np.array([9,1,567,1,4557,1123,1])
x + y

array([  10,   -9,  570,    1, 4558, 1198,    4])

Если лист умножить на три, он повторится три раза. Если нумпаевский массив умножить на три, все элементы внутри него умножатся на три.

In [94]:
x = np.array([1, 2, 3])
3 * x

array([3, 6, 9])

А ещё в нём можно работать с матрицами, табличками из чисел. 

In [96]:
X = [[8,   0,  -3,  -7,   9, -10,  -7,  -7],
     [-5,   5,   0,   9,  -5,  -8,  -9,   0],
     [9,   7,  -3,  -4,   3,  -1,   0,  -3],
     [1,   3,   3,   9,   4,  -5,   6,   6],
     [-2,   2,   3,   8,   6,  -2,   5,  -2]]

X = np.array(X)
X

array([[  8,   0,  -3,  -7,   9, -10,  -7,  -7],
       [ -5,   5,   0,   9,  -5,  -8,  -9,   0],
       [  9,   7,  -3,  -4,   3,  -1,   0,  -3],
       [  1,   3,   3,   9,   4,  -5,   6,   6],
       [ -2,   2,   3,   8,   6,  -2,   5,  -2]])

In [97]:
X.shape  # размерность матрицы

(5, 8)

In [98]:
X.sum() # сумма всех элементов

23

In [99]:
X.sum(axis=1)  # сумма по строкам

array([-17, -13,   8,  27,  18])

In [100]:
X.sum(axis=0)  # сумма по столбикам

array([ 11,  17,   0,  15,  17, -26,  -5,  -6])

Можно обращаться к срезам

In [101]:
X[2,:]

array([ 9,  7, -3, -4,  3, -1,  0, -3])

In [102]:
X[:,2]

array([-3,  0, -3,  3,  3])

# Задачи:
    1. Сколько фильмов выиграли Оскар?
    2. Какая доля фильмов из датасета выиграла Оскар?
    3. Какой средний рейтинг `IMDB Rating` у фильмов, выигравших Оскар? Какой у номинантов?
    4. Среди победителей и номинантов найдите фильмы с самыми высокими рейтингами `Tomatometer Rating`.
    5. Выведите топ-3 компании `Production Company` с самым большим числом фильмов-победителей.
    