# Программирование на Python 

# Работа с таблицами — `pandas` 

*Автор: Паршина Анастасия, НИУ ВШЭ (tg: @aaparshina)*

[Источник данных - Kaggle](https://www.kaggle.com/datasets/narayan63/netflix-popular-movies-dataset)

Данные содержат следующие признаки:

* `title` - Название фильма
* `year` - Год выпуска фильма
* `certificate` - Возрастное ограничение
* `duration` - Длительность
* `genre` - Жанр фильма
* `rating` - Рейтиг фильма
* `description` - Описание
* `stars` - Актеры
* `votes` - Количество оценок фильма

In [1]:
import pandas as pd

data = pd.read_csv('https://raw.githubusercontent.com/aaparshina/PROG_22-23/main/DATA/movies.csv')
data.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes
0,Cobra Kai,(2018– ),TV-14,30 min,"Action, Comedy, Drama",8.5,Decades after their 1984 All Valley Karate Tou...,"['Ralph Macchio, ', 'William Zabka, ', 'Courtn...",177031
1,The Crown,(2016– ),TV-MA,58 min,"Biography, Drama, History",8.7,Follows the political rivalries and romance of...,"['Claire Foy, ', 'Olivia Colman, ', 'Imelda St...",199885
2,Better Call Saul,(2015–2022),TV-MA,46 min,"Crime, Drama",8.9,The trials and tribulations of criminal lawyer...,"['Bob Odenkirk, ', 'Rhea Seehorn, ', 'Jonathan...",501384
3,Devil in Ohio,(2022),TV-MA,356 min,"Drama, Horror, Mystery",5.9,When a psychiatrist shelters a mysterious cult...,"['Emily Deschanel, ', 'Sam Jaeger, ', 'Gerardo...",9773
4,Cyberpunk: Edgerunners,(2022– ),TV-MA,24 min,"Animation, Action, Adventure",8.6,A Street Kid trying to survive in a technology...,"['Zach Aguilar, ', 'Kenichiro Ohashi, ', 'Emi ...",15413


## Часть 1. Работа с данными — фильтрация, сортировка, группировка, создание новых признаков

**1. Сколько всего уникальных фильмов в данных? Сколько всего фильмов с рейтингом выше 7.5?**

In [2]:
len(data['title'].unique())

6261

In [3]:
len(data[data['rating'] > 7.5]['title'].unique())

1283

**2. Выберите фильмы с самым часто встречающимся возрастным ограничением, отсортируйте полученные данные по рейтингу. У какого фильма будет минимальный/максимальный рейтинг?**

In [179]:
data['certificate'].value_counts()

TV-MA        2197
TV-14        1081
R             466
TV-PG         464
Not Rated     458
PG-13         276
TV-Y7         266
PG            154
TV-G          114
TV-Y          109
Unrated        63
G              43
Approved       25
TV-Y7-FV       25
Passed          6
NC-17           4
MA-17           1
12              1
M               1
Name: certificate, dtype: int64

In [180]:
data[data['certificate'] == 'TV-MA'].sort_values(by = 'rating')['title'].head(1)

3280    The Hype House
Name: title, dtype: object

In [181]:
data[data['certificate'] == 'TV-MA'].sort_values(by = 'rating', ascending = False)['title'].head(1)

7321    BoJack Horseman
Name: title, dtype: object

**3. Сколько уникальных драматических (Drama) фильмов есть в данных?**

In [6]:
genre = data.dropna(subset = 'genre')
len(genre[genre['genre'].str.contains("Drama")]['title'].unique())

2671

**4. Создайте столбец с продолжительностью фильма, выраженной числовым значением. Выберите только те фильмы, которые длились больше пяти часов (300 минут). Сколько таких фильмов?**

In [8]:
data['dur_new'] = data['duration'].apply(lambda x: int(x.split()[0]))
data.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new
0,Cobra Kai,(2018– ),TV-14,30 min,"Action, Comedy, Drama",8.5,Decades after their 1984 All Valley Karate Tou...,"['Ralph Macchio, ', 'William Zabka, ', 'Courtn...",177031,30
1,The Crown,(2016– ),TV-MA,58 min,"Biography, Drama, History",8.7,Follows the political rivalries and romance of...,"['Claire Foy, ', 'Olivia Colman, ', 'Imelda St...",199885,58
2,Better Call Saul,(2015–2022),TV-MA,46 min,"Crime, Drama",8.9,The trials and tribulations of criminal lawyer...,"['Bob Odenkirk, ', 'Rhea Seehorn, ', 'Jonathan...",501384,46
3,Devil in Ohio,(2022),TV-MA,356 min,"Drama, Horror, Mystery",5.9,When a psychiatrist shelters a mysterious cult...,"['Emily Deschanel, ', 'Sam Jaeger, ', 'Gerardo...",9773,356
4,Cyberpunk: Edgerunners,(2022– ),TV-MA,24 min,"Animation, Action, Adventure",8.6,A Street Kid trying to survive in a technology...,"['Zach Aguilar, ', 'Kenichiro Ohashi, ', 'Emi ...",15413,24


In [184]:
len(data[data['dur_new'] > 300]['title'].unique())

55

**5. Отсортируйте данные по длительности фильма. Выведите описание самого длинного фильма.**

In [187]:
data.sort_values(by = 'dur_new', ascending = False).loc[896]['description']

"A comprehensive history of the United States' involvement in the bitterly divisive armed conflict in Southeast Asia."

**6. Создайте столбец с годом фильма (используйте для преобразования столбец `year`; если там два года, то выбирайте первый). Используя новый столбец выберите только те фильмы, которые были выпущены с 2016 по 2020 года. Сгруппируйте полученные данные по возрастному ограничению и году фильма, посчитайте средний рейтинг. Выведите результат в виде таблицы.**

In [13]:
def to_year(years):
    res = ''
    for y in years:
        if y.isdigit():
            res += y
    return int(res[:4])

In [14]:
data['year_start'] = data['year'].apply(to_year)
data.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start
0,Cobra Kai,(2018– ),TV-14,30 min,"Action, Comedy, Drama",8.5,Decades after their 1984 All Valley Karate Tou...,"['Ralph Macchio, ', 'William Zabka, ', 'Courtn...",177031,30,2018
1,The Crown,(2016– ),TV-MA,58 min,"Biography, Drama, History",8.7,Follows the political rivalries and romance of...,"['Claire Foy, ', 'Olivia Colman, ', 'Imelda St...",199885,58,2016
2,Better Call Saul,(2015–2022),TV-MA,46 min,"Crime, Drama",8.9,The trials and tribulations of criminal lawyer...,"['Bob Odenkirk, ', 'Rhea Seehorn, ', 'Jonathan...",501384,46,2015
3,Devil in Ohio,(2022),TV-MA,356 min,"Drama, Horror, Mystery",5.9,When a psychiatrist shelters a mysterious cult...,"['Emily Deschanel, ', 'Sam Jaeger, ', 'Gerardo...",9773,356,2022
4,Cyberpunk: Edgerunners,(2022– ),TV-MA,24 min,"Animation, Action, Adventure",8.6,A Street Kid trying to survive in a technology...,"['Zach Aguilar, ', 'Kenichiro Ohashi, ', 'Emi ...",15413,24,2022


In [15]:
data_2015 = data[(data['year_start'] > 2015) & (data['year_start'] <= 2020)]
data_2015.groupby(['certificate', 'year_start'])['rating'].mean().unstack()

year_start,2016,2017,2018,2019,2020
certificate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Approved,,,7.8,,
G,6.6,6.433333,,6.8,5.9
M,,,,5.8,
Not Rated,5.679592,5.84,5.934783,5.673077,6.855556
PG,6.94,6.181818,6.177778,6.4,6.175
PG-13,6.286364,6.03,6.02381,6.19375,6.436
R,6.118421,5.990323,6.353125,6.097222,6.010811
TV-14,7.434021,6.88835,7.165909,6.919298,6.834211
TV-G,6.614286,6.85,6.522222,7.716667,7.123333
TV-MA,7.009184,6.92732,6.808633,7.022606,6.828715


## Часть 2. Меры центральной тенденции и меры разброса, корреляция

**7. Какова средняя продолжительность фильма в 2022 году?**

In [19]:
data[data['year_start'] == 2022]['dur_new'].mean()

84.37407407407407

**8. Преобразуйте столбец `votes` (можно на его основе создать новый), чтобы с ним можно было проводить вычисления (уберите запятую, преобразуйте в целое число). Найдите выбросы по новой переменной, используя межквартильный размах. Сколько фильмов останется, если убрать (отфильтровать данные) выбросы?**

In [20]:
data['votes_2'] = data['votes'].apply(lambda x: int(x.replace(',', '')))
data.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start,votes_2
0,Cobra Kai,(2018– ),TV-14,30 min,"Action, Comedy, Drama",8.5,Decades after their 1984 All Valley Karate Tou...,"['Ralph Macchio, ', 'William Zabka, ', 'Courtn...",177031,30,2018,177031
1,The Crown,(2016– ),TV-MA,58 min,"Biography, Drama, History",8.7,Follows the political rivalries and romance of...,"['Claire Foy, ', 'Olivia Colman, ', 'Imelda St...",199885,58,2016,199885
2,Better Call Saul,(2015–2022),TV-MA,46 min,"Crime, Drama",8.9,The trials and tribulations of criminal lawyer...,"['Bob Odenkirk, ', 'Rhea Seehorn, ', 'Jonathan...",501384,46,2015,501384
3,Devil in Ohio,(2022),TV-MA,356 min,"Drama, Horror, Mystery",5.9,When a psychiatrist shelters a mysterious cult...,"['Emily Deschanel, ', 'Sam Jaeger, ', 'Gerardo...",9773,356,2022,9773
4,Cyberpunk: Edgerunners,(2022– ),TV-MA,24 min,"Animation, Action, Adventure",8.6,A Street Kid trying to survive in a technology...,"['Zach Aguilar, ', 'Kenichiro Ohashi, ', 'Emi ...",15413,24,2022,15413


In [21]:
q1 = data['votes_2'].quantile(0.25)
q3 = data['votes_2'].quantile(0.75)

iqr = q3 - q1

bottom = q1 - 1.5 * iqr
top = q3 + 1.5 * iqr

len(data[data['votes_2'] > top]['title'].unique())

5178

**9. Посчитайте среднее и медиану по рейтингу до и после удаления выбросов (предыдущий пункт). Как изменились меры?**

In [22]:
no_outliners = data[data['votes_2'] <= top]

print(data['rating'].mean(), data['rating'].median())
print(no_outliners['rating'].mean(), no_outliners['rating'].median())

6.708567708333334 6.8
6.640713178294566 6.8


**10. Укажите фильм с максимальным количеством голсов.**

In [23]:
data[data['votes_2'] == data['votes_2'].max()]

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start,votes_2
7645,The Lord of the Rings: The Fellowship of the Ring,(2001),PG-13,178 min,"Action, Adventure, Drama",8.8,A meek Hobbit from the Shire and eight compani...,"['Peter Jackson', '| ', ' Stars:', 'Elijah ...",1844075,178,2001,1844075


**11. Постройте корреляционную матрицу для рейтига, количества голосов и длительности фильма. Прокомментируйте каждый коэффициент корреляции (укажите тип взаимосвязи и силу).**

In [24]:
data[['rating', 'votes_2', 'dur_new']].corr()
# rating x votes_2 -- прямая, слабая
# rating x dur_new -- обратная, слабая
# votes_2 x dur_new -- прямая, слабая

Unnamed: 0,rating,votes_2,dur_new
rating,1.0,0.161555,-0.166247
votes_2,0.161555,1.0,0.107793
dur_new,-0.166247,0.107793,1.0


**12. Сколько в данных фильмов с рейтингом выше среднего?**

In [25]:
len(data[data['rating'] > data['rating'].mean()]['title'].unique())

2865

**13. Выберите все фильмы, в описании которых есть слово `love`. У какого фильма наибольший рейтинг? У какого фильма наибольшее количество голосов? В каком году было выпущено большинство из них?**

In [26]:
love = data[data['description'].str.contains('love')]
love.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start,votes_2
56,The Vampire Diaries,(2009–2017),TV-14,43 min,"Drama, Fantasy, Horror",7.7,"The lives, loves, dangers and disasters in the...","['Nina Dobrev, ', 'Paul Wesley, ', 'Ian Somerh...",318383,43,2009,318383
61,Diario de un Gigoló,(2022),TV-MA,50 min,Drama,6.3,A gigolo's life begins to unravel when he beco...,"['Jesús Castro, ', 'Victoria White, ', 'Fabiol...",538,50,2022,538
63,Heartbreak High,(2022– ),TV-MA,50 min,"Drama, Romance",7.6,A fresh look at Hartley High over 20 years on....,"['Ayesha Madon, ', 'James Majoos, ', 'Chloe Ha...",1502,50,2022,1502
88,365 Days,(2020),TV-MA,114 min,"Drama, Romance",3.3,Massimo is a member of the Sicilian Mafia fami...,"['Barbara Bialowas, ', 'Tomasz Mandes', '| ', ...",89071,114,2020,89071
90,Titanic,(1997),PG-13,194 min,"Drama, Romance",7.9,A seventeen-year-old aristocrat falls in love ...,"['James Cameron', '| ', ' Stars:', 'Leonard...",1158746,194,1997,1158746


In [27]:
love[love['rating'] == max(love['rating'])]

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start,votes_2
6530,Dexter,(2006–2013),TV-MA,56 min,"Crime, Drama, Mystery",9.6,"In the Season One finale, Dexter follows the c...","['Michael Cuesta', '| ', ' Stars:', 'Michae...",10604,56,2006,10604


In [28]:
love[love['votes_2'] == max(love['votes_2'])]

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes,dur_new,year_start,votes_2
90,Titanic,(1997),PG-13,194 min,"Drama, Romance",7.9,A seventeen-year-old aristocrat falls in love ...,"['James Cameron', '| ', ' Stars:', 'Leonard...",1158746,194,1997,1158746


In [29]:
love['year_start'].mode()

0    2020
Name: year_start, dtype: int64