**Цель - проанализировать таблицу с фильмами от Netflix**

In [3]:
import pandas as pd

In [4]:
netflix = pd.read_csv("netflix_titles.csv")
netflix.tail(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,,Nasty C,,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...
7786,s7787,Movie,ZZ TOP: THAT LITTLE OL' BAND FROM TEXAS,Sam Dunn,,"United Kingdom, Canada, United States","March 1, 2020",2019,TV-MA,90 min,"Documentaries, Music & Musicals",This documentary delves into the mystique behi...


Важно понимать, как выглядит данная таблица, поэтому сверху выведени ее первые 5 строк

Теперь выведем некую статистику из данной таблицу (что есть что подписано в комментариях)

In [6]:
print(netflix.rating.nunique()) # уникальных категорий рейтинга
print("***")
print(netflix.type.value_counts()) # подсчет количества объектов каждого типа
print("***")
print(netflix.release_year.min()) # минимальный год релиза

14
***
Movie      5377
TV Show    2410
Name: type, dtype: int64
***
1925


Теперь перейдем к более важной задаче - удаление пропуском (заполнение) в таблице, что важно для анализа данных. Узнаем, есть ли пропуски в целом(а если есть, то сколько и в каких столбцах)

In [8]:
pd.isna(netflix).sum() # число напротив названия столбца - количество пропусков

show_id            0
type               0
title              0
director        2389
cast             718
country          507
date_added        10
release_year       0
rating             7
duration           0
listed_in          0
description        0
dtype: int64

Заполним все пропуски пустыми строками:

In [9]:
for i in netflix.columns:
    netflix[i] = netflix[i].fillna("")
print(pd.isna(netflix).sum()) # количество пропусков

show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64


Теперь можно спокойно работать с таблицей. Надо узнать, в каком году больше всего позиций было добавлено:

In [11]:
netflix.loc[:, 'date_added'] = pd.to_datetime(netflix.loc[:, 'date_added'])
netflix.date_added.dt.year.value_counts()

2019.0    2153
2020.0    2009
2018.0    1685
2017.0    1225
2016.0     443
2021.0     117
2015.0      88
2014.0      25
2011.0      13
2013.0      11
2012.0       3
2008.0       2
2009.0       2
2010.0       1
Name: date_added, dtype: int64

Видно, что больше всего было добавлено позиций в 2019 году (2153 наименования)

Теперь узнаем топ-5 самых продолжительных сериалов на платформе:

In [13]:
netflix.sort_values(by = "duration", ascending = False).loc[netflix.type == "TV Show"].head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
4404,s4405,TV Show,Naruto,Hayato Date,"Junko Takeuchi, Chie Nakamura, Noriaki Sugiyam...",Japan,2019-09-01,2006,TV-14,9 Seasons,"Anime Series, International TV Shows","Guided by the spirit demon within him, orphane..."
1431,s1432,TV Show,Club Friday The Series 6,,"Puttichai Kasetsin, Kongtoranin Lalana, Preech...",,2019-03-09,2015,TV-MA,9 Seasons,"International TV Shows, Romantic TV Shows, TV ...",Based on a Thai radio show that gives love adv...
6983,s6984,TV Show,The Walking Dead,,"Andrew Lincoln, Steven Yeun, Norman Reedus, Ch...",United States,2019-09-01,2018,TV-MA,9 Seasons,"Classic & Cult TV, TV Action & Adventure, TV D...","In the wake of a zombie apocalypse, survivors ..."
6718,s6719,TV Show,The Office (U.S.),,"Steve Carell, John Krasinski, Jenna Fischer, R...",United States,2016-01-01,2012,TV-14,9 Seasons,TV Comedies,This hit comedy chronicles the foibles of disg...
1181,s1182,TV Show,Call the Midwife,Philippa Lowthorpe,"Vanessa Redgrave, Bryony Hannah, Helen George,...",United Kingdom,2020-09-15,2020,TV-MA,9 Seasons,"British TV Shows, International TV Shows, TV D...",This period drama set in impoverished East Lon...


А в каких странах снято больше всего фильмов и сериалов?

In [17]:
netflix.loc[:, 'country'].apply(lambda x : x.split(',')).explode('country').value_counts()

United States     2883
India              956
United Kingdom     577
                   511
 United States     414
                  ... 
 Samoa               1
Iran                 1
 Bermuda             1
 Ecuador             1
 Montenegro          1
Name: country, Length: 188, dtype: int64

Примечание: пустая строка (где значение 511) - это те фильмы/сериалы, для которых не указана страна-производитель

Итог: это лишь малая часть той информации, которую можно узнать из данных благодаря библиотеке Pandas. Несомненно, Pandas может быть применен во многих областях для аналитики данных и принятия последующих решений