# Типы переменных

Переменные деляться на два типа:
- категорийные (Categorical)
    - номинальные (Nominal) - описывающие
    - последовательные (Ordinal) - определяющие место рейтинге
    - бинарные (Binary) - переменные которые могут принимать только два значения True или False
- числовые (Numerical)
    - подсчитываемые (Descrete) - которые можно подсчитать и представляют собой целое число
    - измеряемые (Continuous) - которые измеряют и имеют дробную часть а также единицу измерения

In [38]:
# Для исследования данной темы был создан набор данных ./files/netflix_movies.csv
# загрузим данные из файла
import pandas as pd

movies = pd.read_csv('./files/netflix_movies.csv', index_col=0)

# отобразим первые пару строк набора
print(movies.head())

      type            title         country release_year rating  duration
0    Movie  Norm of the ...   United States      missing     PG    91.071
1    Movie  Jandino: Wha...  United Kingdom         2016      R    94.516
2  TV Show  Transformers...   United States         2013      G     1.127
3  TV Show  Transformers...   United States         2016  TV-14     1.687
4    Movie  #realityhigh...   United States         2017  TV-14    99.248


Внимательно посмотрев на данные можно сделать вывод что

категорийными переменными являются колонки:
- type - nominal
- title - nominal
- country - nominal
- rating - ordinal

числовыми переменными
- release_year - descrete
- duration - continuous

## Изменение типов данных

Изменение типа данных производится по средствам метода **.astype()** которому передается наименование типа данных в виде строки

Для того чтобы посмотреть типы данных всех колонок испольуется переменная объекта класса DataFrame **.dtypes**

In [39]:
# выведем список типов данный каждой коллонки наборы данных выше
print(movies.dtypes)

type             object
title            object
country          object
release_year     object
rating           object
duration        float64
dtype: object


Не редко происходит так что категорийные данные записываются под типов object

Другими словами переменная которая может принимать различные типы данных называют object

В этом есть преимущество - туда можно записывать все что угодно

Но и недостаток потому как не получится применить к такой переменной методы строк потому как мы не можем быть уверены что в столбце находятся только строковые данные и так и с другими типами

In [40]:
# # Давайте попробуем изменить тип данных колонки release_years из object в integer
# movies['release_year'] = movies.release_year.astype('int')
# # не удивляйтесь ошибке как и говорил ранее колонка с типом данных object может хранить различные типы данных как и в этом случае
# # колонка release_year содержит в себе по мимо чисел но и строку missing
# print(movies.dtypes)

In [41]:
# давайте получим все уникальные значения которые находятся в данной колонке
print(movies.release_year.unique())
# из результата видно что все данные являются строками но почти все являются строкой из целого числа когда как одно значение все же является строкой
# заменим мне значения missing на 0

['missing' '2016' '2013' '2017' '2014' '2015' '2009' '2012' '2010' '2018'
 '2011' '2019' '2004' '2000' '1983' '1982' '2006' '2005' '2002' '1997'
 '2008' '2007' '2003' '1981' '1991' '1994' '1988' '1976' '1973' '1974'
 '1989' '1986' '1984' '1978' '1998' '1972' '1979' '1960' '1959' '2001'
 '1995' '1992' '1990' '1975' '1985' '1980' '1970' '1996' '1967' '1999'
 '1987' '1968' '1993' '2020' '1958' '1965' '1956' '1962' '1955' '1977'
 '1945' '1946' '1942' '1944' '1947' '1943' '1969' '1954' '1966' '1971'
 '1964' '1925' '1963']


In [42]:
import numpy as np

# обычно подобные данные заменяют на nan при формировании набора данных
movies['release_year'] = movies.release_year.apply(lambda x: np.nan if x == 'missing' else x)

print(movies.release_year.unique())

[nan '2016' '2013' '2017' '2014' '2015' '2009' '2012' '2010' '2018' '2011'
 '2019' '2004' '2000' '1983' '1982' '2006' '2005' '2002' '1997' '2008'
 '2007' '2003' '1981' '1991' '1994' '1988' '1976' '1973' '1974' '1989'
 '1986' '1984' '1978' '1998' '1972' '1979' '1960' '1959' '2001' '1995'
 '1992' '1990' '1975' '1985' '1980' '1970' '1996' '1967' '1999' '1987'
 '1968' '1993' '2020' '1958' '1965' '1956' '1962' '1955' '1977' '1945'
 '1946' '1942' '1944' '1947' '1943' '1969' '1954' '1966' '1971' '1964'
 '1925' '1963']


In [43]:
# а для работы данными типа nan используется специальный метод pandas который позволяет заполнять такие данные fillna()
movies['release_year'].fillna(0, inplace=True)

print(movies['release_year'].unique())

[0 '2016' '2013' '2017' '2014' '2015' '2009' '2012' '2010' '2018' '2011'
 '2019' '2004' '2000' '1983' '1982' '2006' '2005' '2002' '1997' '2008'
 '2007' '2003' '1981' '1991' '1994' '1988' '1976' '1973' '1974' '1989'
 '1986' '1984' '1978' '1998' '1972' '1979' '1960' '1959' '2001' '1995'
 '1992' '1990' '1975' '1985' '1980' '1970' '1996' '1967' '1999' '1987'
 '1968' '1993' '2020' '1958' '1965' '1956' '1962' '1955' '1977' '1945'
 '1946' '1942' '1944' '1947' '1943' '1969' '1954' '1966' '1971' '1964'
 '1925' '1963']


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  movies['release_year'].fillna(0, inplace=True)


In [44]:
# попробуем провести преобразовани снова
movies['release_year'] = movies['release_year'].astype('int')

print(movies.dtypes)

type             object
title            object
country          object
release_year      int64
rating           object
duration        float64
dtype: object


Из этого можно сделать вывод что всегда нужно внимательно просматривать содержимое переменных

## Category Data Type

Тип данных категории

Это специальный тип данных используемый для определения порядковых категорийных данных

И применяется при использовании метода pandas Categorical

Структура

`pd.Categorical(df[column name], [list of ordered values in column], ordered = True)`

In [45]:
# давайте создадим такой тип переменной для колонки rating
# выведем список уникальных значений колонки

print(movies.rating.unique())

movies['rating'] = pd.Categorical(movies['rating'], ['NR', 'G', 'PG', 'PG-13', 'R'], ordered=True)

# выведем уникальные значения колонки еще раз
print(movies.rating.unique())

['PG' 'R' 'G' 'TV-14' 'PG-13' nan 'UNRATED' 'NOT RATED']
['PG', 'R', 'G', NaN, 'PG-13']
Categories (5, object): ['NR' < 'G' < 'PG' < 'PG-13' < 'R']


Теперь pandas сам понимает на каком месте какое значение стоит R самый высокий рейтинг и NR самый низкий

## One-Hot Encoding

Ранее мы рассматривали как корректно определить и обозначить ordinal categorical переменные

Но не всегда в этом есть необходимость

Иногда позиция в порядке во многом зависит от самого человека или позиция не важна вовсе

Но чтобы проще было посчитать кол-во или получить какую либо информацию иногда следует ее преобразовать

Преобразование в OHE (One-Hot Encoding) применяется по средствам метода **pd.get_dummies()**

Который содержит параметры
- data - dataframe
- columns - список наименований колонок

In [49]:
# давайте посмотрим как это выглядит на практике
# применим метод на коллонке country в котором содержится информация о стране

movies_get_dummies = pd.get_dummies(data=movies, columns=['country'])

print(movies_get_dummies.head())

      type            title  release_year rating  duration  country_Argentina  \
0    Movie  Norm of the ...             0     PG    91.071              False   
1    Movie  Jandino: Wha...          2016      R    94.516              False   
2  TV Show  Transformers...          2013      G     1.127              False   
3  TV Show  Transformers...          2016    NaN     1.687              False   
4    Movie  #realityhigh...          2017    NaN    99.248              False   

   country_Australia  country_Austria  country_Bangladesh  country_Belgium  \
0              False            False               False            False   
1              False            False               False            False   
2              False            False               False            False   
3              False            False               False            False   
4              False            False               False            False   

   ...  country_Thailand  country_Turkey  co

Судя по полученному результату каждое значение колонки Country стало колонкой в которой содержится числовое значение что в дальнейшем позволит посчитать или агрегировать данные по ним

С методом необоходимо быть очень осторожным потому как в случае если значений в колонке будет слишком много то dataframe "расшириться" слишком сильно