# НИС «Основы анализа данных в Python»

*Алла Тамбовцева*

## Практикум 2. Датафреймы `pandas`: поиск пропущенных значений и фильтрация наблюдений

* Поиск и удаление пропущенных значений
* Фильтрация строк

### Описание данных

В файле `disney_clean.csv` сохранены данные по фильмам (мультипликационным фильмам), выпущенных компанией Дисней в разные годы.

Показатели в файле:

* `Title`: название фильма;
* `Company`: компания/компании, выпустившие фильм;
* `Country`: страна выпуска фильма;
* `Language`: язык фильма;
* `Running time`: продолжительность фильма в минутах;
* `Budget`: бюджет фильма в долларах;
* `Box office`: кассовый сбор фильма в долларах;
* `IMDB`: рейтинг фильма от IMDB;
* `Metascore`: рейтинг фильма от Metacritic;
* `Release year`: год выхода фильма;
* `Release season`: время года, в которое вышел фильм.

Загрузите данные из файла `disney_clean.csv` и сохраните их в датафрейм `df`. Выведите первые пять строк датафрейма и запросите его размерность – число строк и столбцов.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("disney_clean.csv")
df.head()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer


In [3]:
print(df.shape)

(432, 11)


## Часть 1: поиск и удаление пропущенных значений

### Задача 1

Примените к датафрейму `df` метод `.isna()` для поиска пропущенных значений. Как дописать код, чтобы узнать, сколько значений пропущено в каждом столбце?

In [4]:
# смотрим на результат в виде булевых столбцов

df.isna()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,False,False,False,False,False,True,True,False,True,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...
427,False,False,False,False,True,False,True,False,False,False,False
428,False,False,False,False,True,True,True,True,True,False,False
429,False,False,False,False,True,True,True,True,True,False,False
430,False,False,False,False,True,True,True,True,True,False,False


In [5]:
# считаем число True через суммирование

df.isna().sum()

Title               0
Company            40
Country             4
Language            2
Running time       10
Budget            159
Box office         77
IMDB               16
Metascore         149
Release year        4
Release season      4
dtype: int64

### Задача 2

Определите – отдельно – количество пропущенных значений:

* в столбце `IMDB`;
* в столбце `Title`.

Запросите для каждого из указанных столбцов значение атрибута `.hasnans`. Что хранит этот атрибут?

In [6]:
print(df["IMDB"].isna().sum())
print(df["Title"].isna().sum())

16
0


In [7]:
# хранит True (если число пропусков не 0) 
# или False (если число пропусков 0)

print(df["IMDB"].hasnans)
print(df["Title"].hasnans)

True
False


### Задача 3

Примените метод `.dropna()` к датафрейму `df`, не сохраняя изменений. Как работает этот метод?

In [8]:
# удаляет строки, где есть хотя бы один пропуск,
# но по умолчанию удаляет не в оригинальном df,
# а создает копию с изменениями

df.dropna()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,4.180000e+08,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,1.640000e+08,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,8.330000e+07,7.8,96.0,1940.0,Autumn
5,Dumbo,Walt Disney Productions,United States,English,64.0,950000.0,1.300000e+06,7.2,96.0,1941.0,Autumn
6,Bambi,Walt Disney Productions,United States,English,70.0,858000.0,2.674000e+08,7.3,91.0,1942.0,Summer
...,...,...,...,...,...,...,...,...,...,...,...
405,Dumbo,"['Walt Disney Pictures', 'Tim Burton Productio...",United States,English,112.0,170000000.0,3.533000e+08,7.2,96.0,2019.0,Spring
409,The Lion King,"['Walt Disney Pictures', 'Fairview Entertainme...",United States,English,118.0,250000000.0,1.657000e+09,8.5,88.0,2019.0,Summer
410,Maleficent: Mistress of Evil,"['Walt Disney Pictures', 'Roth/Kirschenbaum Fi...",United States,English,119.0,185000000.0,4.917000e+08,6.6,43.0,2019.0,Autumn
413,Frozen II,"['Walt Disney Pictures', 'Walt Disney Animatio...",United States,English,103.0,150000000.0,1.450000e+09,6.9,64.0,2019.0,Autumn


### Задача 4

Удалите в датафрейме `df` строки, где пропущены значения в столбцах `Company` и `Release year`. Проверьте размерность датафрейма после удаления строк.

In [9]:
# subset – перечень столбцов
# inplace = True, чтобы возвращать 
# не копию df с удаленными строками, 
# а вносить изменения в сам оригинальный df

df.dropna(subset = ["Company", "Release year"], inplace = True)
print(df.shape)

(390, 11)


## Часть 2: фильтрация строк

### Задача 1

Выберите строки, соответствующие фильмам продолжительностью более 90 минут. Вычислите количество таких строк.

In [10]:
q01 = df[df["Running time"] > 90]
print(q01.shape[0])

249


### Задача 2

Выберите строки, соответствующие фильмам с рейтингом `IMDB` от 7 до 9 включительно. Вычислите максимальное значение рейтинга `IMDB` для таких фильмов.

In [11]:
# вариант 1: оператор &

q02 = df[(df["IMDB"] >= 7) & (df["IMDB"] <= 9)]
print(q02["IMDB"].max())

8.7


In [12]:
# вариант 2: оператор between()

q02 = df[df["IMDB"].between(7, 9)]
print(q02["IMDB"].max())

8.7


In [13]:
# дополнение: как вызвать документацию для метода,
# например, чтобы убедиться, что в .between() 
# оба конца отрезка включаются

# help(df["IMDB"].between)

### Задача 3

Выберите строки, соответствующие фильмам с рейтингом от команды Metacritic ниже 50, вышедшим не ранее 1998 года.

In [14]:
q03 = df[(df["Metascore"] < 50) & (df["Release year"] >= 1998)]

### Задача 4

Выберите строки, которые соответствуют фильмам с максимальным значением рейтинга IMDB или максимальным значением рейтинга от команды Metacritic.

In [15]:
df[(df["IMDB"] == df["IMDB"].max()) | 
(df["Metascore"] == df["Metascore"].max())]

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
421,Hamilton,"['Walt Disney Pictures', '5000 Broadway Produc...",United States,English,160.0,12500000.0,,8.7,90.0,2020.0,Summer


### Задача 5

Выберите строки, которые соответствуют фильмам, вышедшим во Франции, Германии и Индии (точное совпадение в `Country`). Выберите строки, которые соответствуют *всем остальным* фильмам.

*Сначала посмотрим на значения в `Country` – применим метод `.value_counts()`, который выведет таблицу частот, то есть покажет, сколько раз каждое значение встречается в столбце.*

In [16]:
# значения в квадратных скобках для pandas 
# тоже строки с [] и запятыми внутри, 
# не поддавайтесь на провокации, просто так поделить 
# такие записи на части не получится

df["Country"].value_counts()

United States                                               335
['United Kingdom', 'United States']                          13
India                                                         8
['United States', 'Canada']                                   7
['United States', 'United Kingdom']                           4
['United States', 'Australia']                                2
['United States', 'France', 'United Kingdom']                 2
France                                                        2
['France', 'United Kingdom', 'Germany', 'United States']      1
['Australia', 'United Kingdom', 'United States']              1
['France', 'United States']                                   1
Germany                                                       1
['United States', 'France']                                   1
['Canada', 'Malaysia', 'United States']                       1
['United States', 'United Kingdom', 'Germany']                1
['United States', 'Austria']            

In [17]:
# вариант 1: оператор |

q05 = df[(df["Country"] == "France") | (df["Country"] == "Germany") |
  (df["Country"] == "India")]
print(q05.shape)

(11, 11)


In [18]:
# вариант 2: оператор .isin(),
# проверяет вхождение значения в список

q05 = df[df["Country"].isin(["France", "Germany", "India"])]
print(q05.shape)

(11, 11)


*Чтобы выбрать все остальные наблюдения, проще всего применить отрицание к результату `.isin()`. Так, мы выберем все строки, где значение в `Country` не входит в список. Оператор для отрицания, аналог `not` в базовом Python – символ `~`:*

In [19]:
not_q05 = df[~df["Country"].isin(["France", "Germany", "India"])]
print(not_q05.shape)

(379, 11)


### Задача 6

Выберите строки, которые соответствуют фильмам, вышедшим на английском языке (точное совпадение или вхождение в строку с языком в числе прочих языков). Выберите строки, соответствующие *всем остальным* фильмам.

In [20]:
### YOUR CODE HERE ###

### Задача 7

Выберите строки, которые соответствуют фильмам, выпущенным компанией Walt Disney (*Walt Disney Productions*, *Walt Disney Pictures* и проч) без компаний-сопродюсеров. Воспользуйтесь тем, что строка с названием компании в таком случае начинается со слов *Walt Disney*.

In [21]:
### YOUR CODE HERE ###