## Netflix Movies and TV Shows
## Exploratory Data Analysis (EDA)
## Machine Learning Algorithms for Classification

Сначала импортируем необходимые библиотеки:

In [1]:
import numpy as np              # Одномерные и многомерные массивы (array)
import pandas as pd             # Таблицы и временные ряды (dataframe, series)
import matplotlib.pyplot as plt # Научная графика
import seaborn as sns           # Еще больше красивой графики для визуализации данных
import sklearn                  # Алгоритмы машинного обучения

## 0. Описание задачи

Мы рассмотрим данные о телешоу и фильмах, доступных на Netflix по всему миру. Сначала мы проведем исследовательский анализ данных (EDA), чтобы лучше узнать и описать данные с помощью интерактивных графиков и визуализаций. Затем мы создадим классификатор, чтобы предсказать type (фильм/телешоу), используя признаки.

### В наборе данных 8807 строк и 12 столбцов (признаков):
 - `'show_id'` - Уникальный идентификатор для каждого фильма/телепередачи
 - `'type'` - Идентификатор - фильм или телешоу
 - `'title'` - Название фильма/телепередачи
 - `'director'` - Режиссер фильма
 - `'cast'` - Актеры, задействованные в фильме/шоу
 - `'country'` - Страна производства фильма/шоу
 - `'date_added'` - Дата добавления на Netflix
 - `'release_year'` - Фактический год выхода фильма/шоу
 - `'rating'` - ТВ Рейтинг фильма/шоу
 - `'duration'` - Общая продолжительность - в минутах или количестве сезонов
 - `'listed_in'` - Жанр шоу
 - `'description'` - Некоторый текст, описывающий шоу

## 1. Считывание CSV-файла в объект DataFrame

Загружаем файл из интернета:

In [2]:
url = "https://raw.githubusercontent.com/troshinvlaad/ML/main/netflix_titles.csv" 
data_raw = pd.read_csv(url)

Выведем информацию о форме датафрейма с помощью свойств *shape*:

In [3]:
data_raw.shape

(8807, 12)

Видим, что датафрейм состоит из 8807 строк (наблюдений) и 12 столбцов (переменных). Теперь взглянем на перве 5 наблюдений нашего набора с помощь метода *.head()*:

In [4]:
data_raw.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


Список исходных переменных включает в себя:

In [5]:
data_raw.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

Для начала удалим идентификационную переменную `'show_id'`. Эта переменная имеет столько же уникальных значений, сколько у нас наблюдений, поэтому бесполезна для моделирования.
Для удаления переменной можно применить метод *.drop()*. При этом нужно воспользоваться параметром *axics* и задать значение *1*, поскольку при удалении переменных мы перемещаемся по оси 1, то есть по оси столбцов. Кроме того, чтобы операция была осуществленна на месте, нужно воспользоваться параметром *inplace* и задать для него значение *True*.

In [6]:
data_raw.drop('show_id', axis=1, inplace=True)

In [7]:
data_raw.head()

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


## Преобразование типов переменных

Для начала определим количество уникальных значений для всех переменных, чтобы выделить категориальные признаки, используем метод *nunique()*:

In [8]:
data_raw.nunique()

type               2
title           8807
director        4528
cast            7692
country          748
date_added      1767
release_year      74
rating            17
duration         220
listed_in        514
description     8775
dtype: int64

Типы признаков:

- Качественные (*категориальные*, *факторные*):
  - Неупорядоченные (*номинальные*)
  - Упорядоченные (*порядковые*)
- Количественные (*числовые*):
  - *Непрерывные*
  - *Дискретные*

*Бинарные* признаки (которые принимают только два значения) можно считать и номинальными, и порядковыми, и дискретными    

Теперь взглянем на типы переменных с помощью метода *.info()*.

In [9]:
print(data_raw.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   type          8807 non-null   object
 1   title         8807 non-null   object
 2   director      6173 non-null   object
 3   cast          7982 non-null   object
 4   country       7976 non-null   object
 5   date_added    8797 non-null   object
 6   release_year  8807 non-null   int64 
 7   rating        8803 non-null   object
 8   duration      8804 non-null   object
 9   listed_in     8807 non-null   object
 10  description   8807 non-null   object
dtypes: int64(1), object(10)
memory usage: 757.0+ KB
None


Также имена столбцов (признаков) можно получить таким образом:

Столбцы `'type'` и `'rating'`, содержат категориальные значения. Пока они имеют тип `'Object`'. Заменим тип на специальный, предназначенный для хранения категориальных значений:

Pandas реализует 2 основных класса: Series, DataFrame

In [10]:
type(data_raw)

pandas.core.frame.DataFrame

Замена типа у признака `'type'`:

In [11]:
data_raw['type']

0         Movie
1       TV Show
2       TV Show
3       TV Show
4       TV Show
         ...   
8802      Movie
8803    TV Show
8804      Movie
8805      Movie
8806      Movie
Name: type, Length: 8807, dtype: object

In [12]:
data_raw['type'].dtype

dtype('O')

In [13]:
data_raw['type'] = data_raw['type'].astype('category')

In [14]:
data_raw['type'].dtype

CategoricalDtype(categories=['Movie', 'TV Show'], ordered=False)

Замена типа у признака `'rating'`:

In [15]:
data_raw['rating'] = data_raw['rating'].astype('category')
data_raw['rating'].dtype

CategoricalDtype(categories=['66 min', '74 min', '84 min', 'G', 'NC-17', 'NR', 'PG',
                  'PG-13', 'R', 'TV-14', 'TV-G', 'TV-MA', 'TV-PG', 'TV-Y',
                  'TV-Y7', 'TV-Y7-FV', 'UR'],
, ordered=False)

Столбец `'date_added'`, содержит дату. Нужно изменить тип данных столбца с помощью функции pandas *pd.to_datetime()*:

In [16]:
data_raw['date_added'] = pd.to_datetime(data_raw['date_added'])
data_raw['date_added'].dtype

dtype('<M8[ns]')

Проверим изменения:

In [17]:
print(data_raw.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   type          8807 non-null   category      
 1   title         8807 non-null   object        
 2   director      6173 non-null   object        
 3   cast          7982 non-null   object        
 4   country       7976 non-null   object        
 5   date_added    8797 non-null   datetime64[ns]
 6   release_year  8807 non-null   int64         
 7   rating        8803 non-null   category      
 8   duration      8804 non-null   object        
 9   listed_in     8807 non-null   object        
 10  description   8807 non-null   object        
dtypes: category(2), datetime64[ns](1), int64(1), object(7)
memory usage: 637.4+ KB
None


## Обработка пропущенных значений

In [18]:
data_raw.isna().sum()

type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

Удалим строки, в которых содержится малое количество незаполненных значений:

In [19]:
data_new = data_raw.copy()
data_new.drop_duplicates(subset='title', inplace=True)
data_new.dropna(axis=0, how="all", subset=['date_added'], inplace=True)
data_new.dropna(axis=0, how="all", subset=['rating'], inplace=True)
data_new.dropna(axis=0, how="all", subset=['duration'], inplace=True)

In [20]:
data_new.isna().sum()

type               0
title              0
director        2621
cast             825
country          829
date_added         0
release_year       0
rating             0
duration           0
listed_in          0
description        0
dtype: int64

#### Так же удалим строки, которые содержат большое количество незаполненных значений, так как эти признаки имеют тип объекта с большим количеством уникальных значений, следовательно их нельзя заменить на среднее значение!

In [21]:
data_new.drop_duplicates(subset='title', inplace=True)
data_new.dropna(axis=0, how="all", subset=['director'], inplace=True)
data_new.dropna(axis=0, how="all", subset=['cast'], inplace=True)
data_new.dropna(axis=0, how="all", subset=['country'], inplace=True)

In [22]:
data_new.isna().sum()

type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64

Обязательно проверим количество строк, которое осталось после удаления:

In [23]:
data_new.shape

(5332, 11)