# Типы переменных
Существует два типа переменных
- Категорийные (Categorical)
    - Номинальные (Nominal): только лишь описывают объект и могут определить группу к которой объект принадлежит
    - Порядковые (Ordinal): категоризируют объект по какому либо параметру в порядке приоритетности
    - Бинарные (Binary): параметр который может содержать только два значения true или false
- Числовые (Numerical)
    - Непрерывные (Continuous): числовые переменные значения которых измеряют (высота, длина, ширина и т.д.), и являются дробными
    - Дискретные (Discrete): числовые перменные значения которых посчитаны (кол-во денег, банок, шаров и т.д.), и являются целыми

In [3]:
import pandas as pd

movies = pd.read_csv('netflix_movies.csv', index_col=0)

# Для того чтобы просмотреть первые 5 строк дата сета используется метод head()
print(movies.head())

            type                  title        country  release_year rating  \
show_id                                                                       
s1         Movie   Dick Johnson Is Dead  United States          2020  PG-13   
s2       TV Show          Blood & Water   South Africa          2021  TV-MA   
s3       TV Show              Ganglands            NaN          2021  TV-MA   
s4       TV Show  Jailbirds New Orleans            NaN          2021  TV-MA   
s5       TV Show           Kota Factory          India          2021  TV-MA   

          duration  cast_count  est_budget (USD)  
show_id                                           
s1          90 min         NaN          11959075  
s2       2 Seasons        19.0           9436627  
s3        1 Season         9.0           5719277  
s4        1 Season         NaN           7881417  
s5       2 Seasons         8.0          27387486  


Как можно заметить в данном датасете категорийными колонками являются все кроме *release_year*, *cast_count* и *est_budget*

Остальные же в свою очередь можно разделить на две категории
- Номинальные (**Nominal**): type, title, country, duration
- Порядковые (**Ordinal**): rating

Другими словами *Номинальными категорийными переменными* можно назвать переменные которые описывают объект но им **не важен приоритет и порядок**.

А *Порядковыми категорийными переменными* можно назвать переменные которые категоризируют объект по какому либо параметру и ему **важен порядок и приоритет**.

In [4]:
# Чтобы получить список уникальных значений параметра используется метод unique()
print(movies.country.unique())

['United States' 'South Africa' nan 'India'
 'United States, Ghana, Burkina Faso, United Kingdom, Germany, Ethiopia'
 'United Kingdom' 'Germany, Czech Republic' 'Mexico' 'Turkey' 'Australia'
 'United States, India, France' 'Finland' 'China, Canada, United States'
 'South Africa, United States, Japan' 'Nigeria' 'Japan'
 'Spain, United States' 'France' 'Belgium' 'United Kingdom, United States'
 'United States, United Kingdom' 'France, United States' 'South Korea'
 'Spain' 'United States, Singapore' 'United Kingdom, Australia, France'
 'United Kingdom, Australia, France, United States'
 'United States, Canada' 'Germany, United States'
 'South Africa, United States' 'United States, Mexico'
 'United States, Italy, France, Japan'
 'United States, Italy, Romania, United Kingdom'
 'Australia, United States' 'Argentina, Venezuela'
 'United States, United Kingdom, Canada' 'China, Hong Kong' 'Russia'
 'Canada' 'Hong Kong' 'United States, China, Hong Kong'
 'Italy, United States' 'United States, G

## Проблемы при чтении данных через библиотеку Pandas
При чтении данных из источника через Pandas он сам определяет тип данных в колонках

Но чаще всего из-за того что данные в колонках могут быть пропущены или записаны иначе тип данных устанавливаемый Pandas не верен

В таких случае данные в каждой колонке очищают, проверяют, меняют, заполняют а после меняют тип данных

Изменения типа данных является очень важной частью анализа так как некоторые функции нельзя применять на некоторые типы данных

In [None]:
# Чтобы посмотреть типы данных dataset-а используется метод dtypes
# данный метод выведет объект из двух колонок в первой будет содержать наименования а во второй тип данных
print(movies.dtypes)

type                 object
title                object
country              object
release_year          int64
rating               object
duration             object
cast_count          float64
est_budget (USD)      int64
dtype: object


In [None]:
# Для того чтобы изменить тип данных колонки используется метод astype
movies['cast_count'] = movies['cast_count'].astype('int64')
# Результатом выполнения данной команды будет ошибка 
# IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer


IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [7]:
# Для того чтобы исправить ошибку сначала надо заполнить все поля колонки данными
# Сделать это можно применяя метод fillna() с параметрами

movies['cast_count'].fillna(0, inplace=True)
# При запуске блока кода все строки колонки cast_count где есть значение nan будут заполненны 0
# Параметр inplace=True позволяет нам не переназначать значение колонки
# Повторно пробуем перезапустить команду выше после заполнения пропущенных значений
movies['cast_count'] = movies['cast_count'].astype('int64')

In [8]:
# Как можно заметить никакой ошибки не было
# проверяем изменился ли тип данных в dataframe
print(movies.dtypes)

type                object
title               object
country             object
release_year         int64
rating              object
duration            object
cast_count           int64
est_budget (USD)     int64
dtype: object


In [11]:
# Так как большая часть категорийных переменных обозначаются словами в таком случае тип данных категорийных переменных должна быть строка
# В данном случае мы видим что тип данных колонки title является object давайте изменим его на string

movies['title'] = movies['title'].astype('string')
# проверяем изменения
print(movies.dtypes)

type                        object
title               string[python]
country                     object
release_year                 int64
rating                      object
duration                    object
cast_count                   int64
est_budget (USD)             int64
dtype: object


## Порядковые категорийные переменны
Если с номинальными и бинарными переменными все ясно

То как быть с порядковыми переменными?

Как Pandas будет понимать в каком порядке приоритетов должны стоять значения

Если для человека это понятно то для кода нет

В таком случае у Pandas существует отдельный тип данных называемый **Category Data Type**

In [None]:
# Для того чтобы создать категорийный тип данных используется метод Categorical
# Сначала нужно понять какие значения вообще есть в переменной чтобы получить их воспользуемся методом unique()

print(movies['rating'].unique())
movies['rating'] = pd.Categorical(movies['rating'], ['NR','G','PG','PG-13','R'], ordered=True)
# В метод сначала передается параметр, потом указываются список значения
# А после параметр отсортированности значений если True то приоритет значений будет возврастать слева на право
# Если False то значения сначала будут отсортированы методом и после уже присвоенны им приоритеты

['PG-13' 'TV-MA' 'PG' 'TV-14' 'TV-PG' 'TV-Y' 'TV-Y7' 'R' 'TV-G' 'G'
 'NC-17' '74 min' '84 min' '66 min' 'NR' nan 'TV-Y7-FV' 'UR']


In [None]:
# После исполнения блока кода выше снова пробуем получить уникальные значения колонки
print(movies['rating'].unique())
# Из вывода мы видим что тип данных поменялся и он показывает приоритет каждого значения переменной

['PG-13', NaN, 'PG', 'R', 'G', 'NR']
Categories (5, object): ['NR' < 'G' < 'PG' < 'PG-13' < 'R']


## Обработка номинальный параметров
Иногда требуется посчитать долю опеределенно категории или разбить данные по категориям не приоретизируя их

В таком случае нам подойдет способ **One-Hot Encoding**

Данный метод позволяет нам получить новый dataframe который будет содержать дополнительные колонки в которых будут проставлены 1 в случае принадлежности данных к одной из указанной категории

In [15]:
# Для того чтобы продемонстрировать работу данного метода воспользуемся другим файлом
cereal = pd.read_csv('cereal.csv', index_col=0)
# Посмотрим первые 5 строк датасета
print(cereal.head())

                        name             mfr type  fiber  rating shelf  \
0                  100% Bran          Nestle    C   10.0   68.40   top   
1          100% Natural Bran     Quaker Oats    C    2.0   33.98   top   
2                   All-Bran        Kelloggs    C    9.0   59.43   top   
3  All-Bran with Extra Fiber        Kelloggs    C   14.0   93.70   top   
4             Almond Delight  Ralston Purina    C    1.0   34.38   top   

   vitamins  coupons  price  
0        25        4   4.06  
1         0        1   4.62  
2        25        3   4.39  
3        25        2   6.18  
4        25        2   6.05  


In [None]:
# Подходящие данные для демонстрации находятся в колонке mfr
# Для того чтобы применить OHE используется метод get_dummies()

cereal = pd.get_dummies(data=cereal, columns=['mfr'])
# в данный метод передается df в параметр data
# и список колонок значения которых следует изменить
# посмотрим что получилось после применения метода
print(cereal.head())
# как видно из результата в конец таблицы добавили колонки наименование которых соответствует значениям из колонки mfr
# А их значениями являются bool True или False

                        name type  fiber  rating shelf  vitamins  coupons  \
0                  100% Bran    C   10.0   68.40   top        25        4   
1          100% Natural Bran    C    2.0   33.98   top         0        1   
2                   All-Bran    C    9.0   59.43   top        25        3   
3  All-Bran with Extra Fiber    C   14.0   93.70   top        25        2   
4             Almond Delight    C    1.0   34.38   top        25        2   

   price  mfr_American Home  mfr_General Mills  mfr_Kelloggs  mfr_Nestle  \
0   4.06              False              False         False        True   
1   4.62              False              False         False       False   
2   4.39              False              False          True       False   
3   6.18              False              False          True       False   
4   6.05              False              False         False       False   

   mfr_Post  mfr_Quaker Oats  mfr_Ralston Purina  
0     False            False 