В csv файле movie.csv содержатся данные о фильмах из IMBb. Требуется:
1. Вывести количество недостающих значений в поле 'duration'
2. Заменить недостающие значения в поле 'duration' медианой
3. В столбце 'genres' перечислены жанры, к которым относится фильм. Необходимо посчитать среднее количество жанров у фильмов
4. Найти фильм/фильмы с максимальным количеством жанров.
5. Найти самый часто встречаемый жанр.
6. Построить сводную таблицу(pivot). В ней должна содержаться информация о том, какой суммарный бюджет фильмов в разрезе стран за год, в 2014-2016 годах включительно.

In [9]:
import pandas as pd

data = pd.read_csv("movie.csv")
data.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0$,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0$,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0$,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0$,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,0.0$,,12.0,7.1,,0


In [10]:
# 1. Вывести количество недостающих значений в поле 'duration'
na_duration = data.duration.isna().sum()
print(f"Число недостающих значений поля duration: {na_duration} ({na_duration/len(data.duration)*100:4.2f}%)")

Число недостающих значений поля duration: 15 (0.30%)


In [11]:
# 2. Заменить недостающие значения в поле 'duration' медианой
na_ids = data.index[data.duration.isna()]
durtation = data.duration.copy(deep=False)
durtation.loc[durtation.isna()] = data.duration.median()
print("Проверка:\n", data.duration[na_ids])

Проверка:
 4       103.0
199     103.0
206     103.0
1510    103.0
3604    103.0
3815    103.0
3834    103.0
4299    103.0
4392    103.0
4397    103.0
4517    103.0
4609    103.0
4690    103.0
4948    103.0
4989    103.0
Name: duration, dtype: float64


In [12]:
# 3. В столбце 'genres' перечислены жанры, к которым относится фильм. Необходимо посчитать среднее количество жанров у фильмов
data["genres_count"] = data.genres.map(lambda x: len(x.split("|")), na_action="ignore")
print(f"Cреднее количество жанров у фильмов: {data.genres_count.mean()}")

Cреднее количество жанров у фильмов: 2.87606583382907


In [13]:
# 4. Найти фильм/фильмы с максимальным количеством жанров.
genres_max_num = data.genres_count.max()
data.loc[data.genres_count == genres_max_num]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,genres_count
902,Color,Don Bluth,78.0,94.0,383.0,753.0,Kelsey Grammer,4000.0,58297830.0,Adventure|Animation|Drama|Family|Fantasy|Music...,...,English,USA,G,50000000.0$,1997.0,808.0,7.1,2.35,0,8
1387,Color,John Frankenheimer,126.0,124.0,287.0,475.0,James Frain,9000.0,23360779.0,Action|Adventure|Crime|Drama|Family|Fantasy|Ro...,...,English,USA,R,34000000.0$,2000.0,1000.0,5.7,2.35,852,8
2340,Color,Kevin Munroe,138.0,107.0,14.0,311.0,Laura Spencer,403.0,1183354.0,Action|Comedy|Crime|Fantasy|Horror|Mystery|Sci...,...,English,USA,PG-13,20000000.0$,2010.0,368.0,5.1,2.35,0,8
3539,,Richard Rich,2.0,45.0,24.0,29.0,Kate Higgins,122.0,,Action|Adventure|Animation|Comedy|Drama|Family...,...,,USA,,7000000.0$,2014.0,35.0,6.0,,41,8


In [14]:
# 5. Найти самый часто встречаемый жанр.
genres_counter = {}
for genres in data.genres:
    genres = genres.split("|")
    for genre in genres:
        if genre not in genres_counter.keys():
            genres_counter[genre] = 1
        else:
            genres_counter[genre] += 1
  
genres_counter = {k: v for k, v in sorted(genres_counter.items(), key=lambda item: item[1], reverse=True)}   
print(f"Самый часто встречаемый жанр: {list(genres_counter.keys())[0]}")
print(genres_counter) 

Самый часто встречаемый жанр: Drama
{'Drama': 2594, 'Comedy': 1872, 'Thriller': 1411, 'Action': 1153, 'Romance': 1107, 'Adventure': 923, 'Crime': 889, 'Sci-Fi': 616, 'Fantasy': 610, 'Horror': 565, 'Family': 546, 'Mystery': 500, 'Biography': 293, 'Animation': 242, 'Music': 214, 'War': 213, 'History': 207, 'Sport': 182, 'Musical': 132, 'Documentary': 121, 'Western': 97, 'Film-Noir': 6, 'Short': 5, 'News': 3, 'Reality-TV': 2, 'Game-Show': 1}


In [15]:
# 6. Построить сводную таблицу (pivot). 
# В ней должна содержаться информация о том, какой суммарный бюджет фильмов в разрезе стран за год, в 2014-2016 годах включительно.
data.budget = data.budget.map(lambda x: float(x[:-1]))
pd.pivot_table(data[(data.title_year>=2014) & (data.title_year<=2016)], values="budget", index=["country"], columns="title_year", aggfunc=sum)

title_year,2014.0,2015.0,2016.0
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Australia,147500000.0,160000000.0,
Bahamas,5000000.0,,
Belgium,,0.0,
Brazil,4000000.0,4000000.0,
Bulgaria,7000000.0,,
Cambodia,0.0,,
Canada,153150000.0,42500000.0,12200000.0
Chile,,26000000.0,
China,65000000.0,227000000.0,68005000.0
Czech Republic,,50000000.0,


Задание на ML System Design. Выполняется в виде текста - рассуждения в свободной форме. 

Предположим, что есть производственная площадка, оборудованная несколькими камерами. На данной площадке осуществляется повторяющийся последовательный процесс, состоящий из нескольких этапов, который можно представить в виде схемы:
Этап 1: Подготовка сырья
Этап 2: Перемещение сырья на обработку
Этап 3: Обработка
Этап 4: Перемещение на фасовку
Этап 5: Фасовка

Каждый из этапов имеет время начала и окончания. В каждом из этапов задействованы рабочие.
Необходимо построить систему мониторинга производства. Цель – по записям с камер получить информацию о времени начала/окончания каждого этапа, а также о деятельности людей.

Всю деятельность на площадке можно разделить на два типа:  

**Подготовка/Обработка/Фасовка**  
Основные признаки этапов: концентрация рабочих около определённого оборудования, небольшие перемещения в пределах рабочей зоны по повторяющимся маршрутам. Накопление в определенном месте продукции для перемещения на следующий этап.

Определение времени начала/конца по наличию рабочих на рабочих местах или в зоне интереса:
- сегментационная маска для зоны интереса (зона оборудования, рабочих мест и т.д.)
- детекция рабочих
- пока число рабочих, находящихся в зоне интереса больше N кадров подряд, больше порогового значения, считать, что этап продолжается  

Определение времени начала/конца по наличию продукции этапа в зоне интереса:
- сегментационная маска для зоны интереса (зона оборудования, хранения и т.д.)
- детекция экземпляров продукции, их подсчет (стелажи, контейнеры, емкости или отдельные экземпляры)
- пока в зоне интереса есть неотправленная на следующий этап продукция считать данный этап продолжающимся

**Перемещения**  
Основные признаки этапов - начительное передвижение сырья из одной локации в другую (возможно с выходом за пределы видимости камер) по повторяющимся маршрутам, поведение рабочих при этом второстепенно.  

Определение времени начала/конца по перемещению продукции между различными этапами:
- Детекция и трекинг продукции
- Идентификация события перемещения - единица продукции покинула этап А -> прибыла на этап Б
- Пока единица происходят перемещения считать этап продолжающимся
- Достоверно можно говорить об окончании этапов перемещения если учитывать остаток продукции на предыдущем месте, иначе сложно различить продолжительную паузу в работе от окончания работ.


Возможно, полезные идеи https://habr.com/ru/companies/magnus-tech/articles/738836/