# НИС «Основы анализа данных в Python»

*Алла Тамбовцева*

## Практикум 1. Описание датафрейма: атрибуты и методы. Перекодирование данных

* Описание датафрейма: атрибуты датафрейма
* Описание датафрейма: методы датафрейма
* Перекодирование: one-hot encoding
* Перекодирование: label encoding

### Загрузка данных

>Импортируйте библиотеку `pandas`, загрузите данные из файла `disney_clean.csv` и сохраните их в датафрейм `df`.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("disney_clean.csv")
df

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer
...,...,...,...,...,...,...,...,...,...,...,...
427,Soul,"['Walt Disney Pictures', 'Pixar Animation Stud...",United States,English,,150000000.0,,7.0,53.0,2020.0,Autumn
428,Raya and the Last Dragon,"['Walt Disney Pictures', 'Walt Disney Animatio...",United States,English,,,,,,2021.0,Spring
429,Cruella,"['Walt Disney Pictures', 'Gunn Films', 'Marc P...",United States,English,,,,,,2021.0,Spring
430,Jungle Cruise,"['Walt Disney Pictures', 'Davis Entertainment'...",United States,English,,,,,,2021.0,Summer


### Описание датафрейма: атрибуты датафрейма

При работе с базовыми типами Python (целые и дробные числа, строки, списки, кортежи, словари, множества) мы сталкивались только с методами. Например, был метод `.upper()`, который приводил строку к верхнему регистру или метод `.append()`, который добавлял в конец списка элемент:

In [3]:
print("ключ на старт!".upper())

L = [1, 3, 5]
L.append(8)
print(L)

КЛЮЧ НА СТАРТ!
[1, 3, 5, 8]


**Метод** – функция на объекте определенного типа. В круглых скобках указывается аргумент функции, однако даже если наличие аргумента не предусматривается по смыслу, круглые скобки `()` после названия метода необходимы, так как они обеспечивают применение функции к объекту. 

На более сложных объектах, например, на массивах `numpy` и датафреймах `pandas` помимо методов определены **атрибуты**. Атрибут – характеристика объекта. Так, у датафреймов `pandas` есть атрибут `.shape`, в котором хранится кортеж из числа строк и столбцов:

In [4]:
# в датафрейме 432 строки и 11 столбцов

print(df.shape)

(432, 11)


В отличие от метода, после названия атрибута круглые скобки не ставятся, так как аргументов у атрибута не бывает, это не функция.

> Поставьте скобки и поясните, почему выводится именно такая ошибка. Пользуясь тем, что в `.shape` хранится кортеж, извлеките число строк и столбцов датафрейма.

In [5]:
print(df.shape())

TypeError: 'tuple' object is not callable

#### Ответ 1

Ошибка типа `TypeError`, ошибка типа, значит, мы пытаемся применить некорректное действие к какому-то типу. В данном случае проблема в следующем. Код `df.shape` возвращает кортеж – объект типа `tuple`. Кортеж (как и список, например), не является функцией, поэтому после него нельзя добавлять `()`. И Python довольно прозрачно об этом пишет `'tuple' object is not callable`, то есть кортеж не является «вызываемым» объектом – объектом, который может быть вызван как функция с аргументами в скобках. Кстати, в Python есть функция `callable()`, которая проверяет, является ли объект «вызываемым» или нет:

In [6]:
# тип int – не функция
# тип list – не функция
# а вот len – функция

print(callable(34))
print(callable([2, 6, 8]))
print(callable(len))

False
False
True


#### Ответ 2

Из кортежа можем извлечь элементы по индексам:

In [7]:
nrow = df.shape[0]
ncol = df.shape[1]
print(nrow, ncol)

432 11


> Запросите атрибуты `.size`, `.columns`, `.index`, `.values`, `.dtypes` и посмотрите, что в них хранится.

In [8]:
# общее число ячеек в датафрейме
# можем проверить – перемножить результаты выше

print(df.size)
print(df.size == nrow * ncol)

4752
True


In [9]:
# перечень названий столбцов
# тип Index, внутри список

print(df.columns)

Index(['Title', 'Company', 'Country', 'Language', 'Running time', 'Budget',
       'Box office', 'IMDB', 'Metascore', 'Release year', 'Release season'],
      dtype='object')


In [10]:
# перечень названий строк
# здесь – числовые индексы от 0 до 432 по аналогии с range()

print(df.index)

RangeIndex(start=0, stop=432, step=1)


In [11]:
# перечень строк
# один элемент – массив с одной строкой таблицы,
# причем массив с сохранением типов данных,
# числа не превращаются в текст

print(df.values)

[['Academy Award Review of' 'Walt Disney Productions' 'United States' ...
  nan 1937.0 'Spring']
 ['Snow White and the Seven Dwarfs' 'Walt Disney Productions'
  'United States' ... 95.0 1937.0 'Winter']
 ['Pinocchio' 'Walt Disney Productions' 'United States' ... 99.0 1940.0
  'Winter']
 ...
 ['Cruella'
  "['Walt Disney Pictures', 'Gunn Films', 'Marc Platt Productions']"
  'United States' ... nan 2021.0 'Spring']
 ['Jungle Cruise'
  "['Walt Disney Pictures', 'Davis Entertainment', 'Seven Bucks Productions', 'Flynn Picture Company']"
  'United States' ... nan 2021.0 'Summer']
 ['The Beatles: Get Back' nan
  "['United Kingdom', 'New Zealand', 'United States']" ... nan 2021.0
  'Summer']]


In [12]:
# типы столбцов

print(df.dtypes)

Title              object
Company            object
Country            object
Language           object
Running time      float64
Budget            float64
Box office        float64
IMDB              float64
Metascore         float64
Release year      float64
Release season     object
dtype: object


#### Комментарий

Здесь есть 5 текстовых столбцов (тип `object`) и 6 столбцов вещественного типа (тип `float`). Хотя некоторые столбцы по сути являются целочисленными (`Running time` – продолжительность фильма в минутах, `Budget` – бюджет фильма, `Box office` – кассовый сбор, `Metascore` – рейтинг от 1 до 100, `Release year` – год выхода), их тип не `int`, так как в столбцах есть пропуски (`NaN` относится к `float`, поэтому весь столбец становится `float`).

### Описание датафрейма: методы датафрейма

Мы уже вспомнили, что такое метод. Теперь вспомним методы `.head()` и `.tail()`:

In [13]:
# возвращает первые n строк датафрейма,
# если ничего в скобках нет, по умолчанию n=5

df.head()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer


In [14]:
# тут уже первые 10 строк
df.head(10)

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer
5,Dumbo,Walt Disney Productions,United States,English,64.0,950000.0,1300000.0,7.2,96.0,1941.0,Autumn
6,Bambi,Walt Disney Productions,United States,English,70.0,858000.0,267400000.0,7.3,91.0,1942.0,Summer
7,Saludos Amigos,Walt Disney Productions,United States,"['English', 'Portuguese', 'Spanish']",42.0,,1135000.0,6.1,60.0,1942.0,Summer
8,Victory Through Air Power,Walt Disney Productions,United States,English,65.0,788000.0,799000.0,6.5,,1943.0,Summer
9,The Three Caballeros,Walt Disney Productions,United States,"['English', 'Spanish', 'Portuguese']",71.0,,3355000.0,6.4,85.0,1944.0,Winter


In [15]:
# а тут – последние 10
df.tail(10)

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
422,Black Is King,"['Parkwood Entertainment', 'Walt Disney Pictur...",United States,English,85.0,,,5.4,84.0,2020.0,Summer
423,Magic Camp,"['Walt Disney Pictures', 'Team Todd']",United States,English,100.0,24000000.0,,6.3,,2020.0,Summer
424,The One and Only Ivan,"['Walt Disney Pictures', 'Jolie Pas Productions']",United States,English,95.0,,,6.7,58.0,2020.0,Summer
425,Mulan,"['Walt Disney Pictures', 'Jason T. Reed Produc...",United States,English,115.0,200000000.0,57000000.0,7.6,71.0,2020.0,Spring
426,Clouds,,United States,English,,,,6.6,,2020.0,Autumn
427,Soul,"['Walt Disney Pictures', 'Pixar Animation Stud...",United States,English,,150000000.0,,7.0,53.0,2020.0,Autumn
428,Raya and the Last Dragon,"['Walt Disney Pictures', 'Walt Disney Animatio...",United States,English,,,,,,2021.0,Spring
429,Cruella,"['Walt Disney Pictures', 'Gunn Films', 'Marc P...",United States,English,,,,,,2021.0,Spring
430,Jungle Cruise,"['Walt Disney Pictures', 'Davis Entertainment'...",United States,English,,,,,,2021.0,Summer
431,The Beatles: Get Back,,"['United Kingdom', 'New Zealand', 'United Stat...",English,,,,8.0,,2021.0,Summer


> Попробуйте поставить в `.head()` и `.tail()` отрицательные значения. Что происходит?

#### Ответ

При отрицательных индексах указанное количество строк исключается. Так, код `df.head(-10)` выберет все первые строки с начала таблицы, кроме последних 10, а код `df.tail(-10)` выберет все строки с конца таблицы, кроме первых 10:

In [16]:
# от 0 до 421, первые 422 строки из 432
df.head(-10)

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer
...,...,...,...,...,...,...,...,...,...,...,...
417,Stargirl,"['Walt Disney Pictures', 'Gotham Group', 'Hahn...",United States,English,107.0,,,7.3,,2020.0,Spring
418,Dolphin Reef,Disneynature,United States,English,78.0,,,7.5,79.0,2018.0,Spring
419,Elephant,Disneynature,United States,English,89.0,,,7.2,70.0,2020.0,Spring
420,Artemis Fowl,"['Walt Disney Pictures', 'TriBeCa Productions'...",United States,English,95.0,125000000.0,,4.1,31.0,2020.0,Summer


In [17]:
# от 10 до 432, последние 422 строки из 432
df.tail(-10)

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season
10,Make Mine Music,Walt Disney Productions,United States,English,75.0,1350000.0,3275000.0,6.3,60.0,1946.0,Spring
11,Song of the South,Walt Disney Productions,United States,English,94.0,2125000.0,65000000.0,7.1,54.0,1946.0,Autumn
12,Fun and Fancy Free,Walt Disney Productions,United States,English,73.0,,3165000.0,6.6,66.0,1947.0,Autumn
13,Melody Time,Walt Disney Productions,United States,English,75.0,1500000.0,2560000.0,6.4,69.0,1948.0,Spring
14,So Dear to My Heart,Walt Disney Productions,United States,English,82.0,1500000.0,3700000.0,6.8,,1948.0,Autumn
...,...,...,...,...,...,...,...,...,...,...,...
427,Soul,"['Walt Disney Pictures', 'Pixar Animation Stud...",United States,English,,150000000.0,,7.0,53.0,2020.0,Autumn
428,Raya and the Last Dragon,"['Walt Disney Pictures', 'Walt Disney Animatio...",United States,English,,,,,,2021.0,Spring
429,Cruella,"['Walt Disney Pictures', 'Gunn Films', 'Marc P...",United States,English,,,,,,2021.0,Spring
430,Jungle Cruise,"['Walt Disney Pictures', 'Davis Entertainment'...",United States,English,,,,,,2021.0,Summer


Вспомним метод `.info()`, который возвращает техническую информацию по датафрейму:

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Title           432 non-null    object 
 1   Company         392 non-null    object 
 2   Country         428 non-null    object 
 3   Language        430 non-null    object 
 4   Running time    422 non-null    float64
 5   Budget          273 non-null    float64
 6   Box office      355 non-null    float64
 7   IMDB            416 non-null    float64
 8   Metascore       283 non-null    float64
 9   Release year    428 non-null    float64
 10  Release season  428 non-null    object 
dtypes: float64(6), object(5)
memory usage: 37.2+ KB


#### Комментарий

Метод `.info()` собирает информацию из разных атрибутов датафрейма и объединяет все это в одну удобную текстовую выдачу: 

* 432 строки с индексами от 0 до 431 (`RangeIndex: 432 entries, 0 to 431`, видели такое в `.index`);
* 11 столбцов (`total 11 columns`, число столбцов было в `.shape`);
* названия столбцов `Column` и их типы `Dtype` (видели в `.dtypes`);
* число непустых ячеек в каждом столбце (`Non-Null Count`, еще не видели, подтягивается не из атрибута, считается отдельно через метод `.count()`).

Посмотрим на метод `.select_dtypes()`, который позволяет выбрать столбцы определенного типа или типов:

In [19]:
# выбираем столбцы типа int
# их нет, поэтому пустая таблица, 
# только индексы строк

df.select_dtypes(int)

0
1
2
3
4
...
427
428
429
430
431


In [20]:
# выбираем столбцы типов int и float
# если типов несколько – указываем в виде списка в []

df.select_dtypes([int, float])

Unnamed: 0,Running time,Budget,Box office,IMDB,Metascore,Release year
0,41.0,,,7.2,,1937.0
1,83.0,1490000.0,418000000.0,7.6,95.0,1937.0
2,88.0,2600000.0,164000000.0,7.4,99.0,1940.0
3,126.0,2280000.0,83300000.0,7.8,96.0,1940.0
4,74.0,600000.0,960000.0,6.9,,1941.0
...,...,...,...,...,...,...
427,,150000000.0,,7.0,53.0,2020.0
428,,,,,,2021.0
429,,,,,,2021.0
430,,,,,,2021.0


In [21]:
# выбираем столбцы типа object,
# здесь название в кавычках, потому что
# в базовом Python нет такого типа

df.select_dtypes("object")

Unnamed: 0,Title,Company,Country,Language,Release season
0,Academy Award Review of,Walt Disney Productions,United States,English,Spring
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,Winter
2,Pinocchio,Walt Disney Productions,United States,English,Winter
3,Fantasia,Walt Disney Productions,United States,English,Autumn
4,The Reluctant Dragon,Walt Disney Productions,United States,English,Summer
...,...,...,...,...,...
427,Soul,"['Walt Disney Pictures', 'Pixar Animation Stud...",United States,English,Autumn
428,Raya and the Last Dragon,"['Walt Disney Pictures', 'Walt Disney Animatio...",United States,English,Spring
429,Cruella,"['Walt Disney Pictures', 'Gunn Films', 'Marc P...",United States,English,Spring
430,Jungle Cruise,"['Walt Disney Pictures', 'Davis Entertainment'...",United States,English,Summer


### Перекодирование: one-hot encoding

Для реализации *one-hot encoding* в `pandas` существует функция `get_dummies()`. Эта функция универсальная – ей на вход можно подать как столбец, так и несколько столбцов:

In [22]:
# выбираем столбцец Release season,
# Python упорядочивает его значения по алфавиту,
# для каждого создает бинарный признак

pd.get_dummies(df["Release season"])

Unnamed: 0,Autumn,Spring,Summer,Winter
0,0,1,0,0
1,0,0,0,1
2,0,0,0,1
3,1,0,0,0
4,0,0,1,0
...,...,...,...,...
427,1,0,0,0
428,0,1,0,0
429,0,1,0,0
430,0,0,1,0


Как можно заметить, функция `get_dummies()` возвращает новый датафрейм с бинарными столбцами. Как объединить исходный датафрейм и новый из бинарных столбцов? Воспользоваться функцией `concat()` для склеивания датафреймов по строкам (`axis = 0`, по умолчанию) или столбцам (`axis = 1`):

In [24]:
df_season = pd.get_dummies(df["Release season"])

# df – исходный датафрейм
# df_season – датафрейм из бинарных столбцов выше
# склеиваем их в один – перечисляем в списке внутри concat()

df_fin = pd.concat([df, df_season], axis = 1)
df_fin.head()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season,Autumn,Spring,Summer,Winter
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring,0,1,0,0
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter,0,0,0,1
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter,0,0,0,1
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn,1,0,0,0
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer,0,0,1,0


<mark>Далее идет дополнительный материал, будем к нему возвращаться позже, добавлен для более полного раскрытия темы перекодирования данных.</mark>

Если хотим выбрать несколько столбцов для создания бинарных признаков (дамми-переменных), их можно указать в виде списка:

In [25]:
pd.get_dummies(df[["Release season", "Language"]])

Unnamed: 0,Release season_Autumn,Release season_Spring,Release season_Summer,Release season_Winter,Language_English,"Language_English, Scots","Language_English, Spanish",Language_French,Language_German,Language_Hindi,...,"Language_['English', 'Irish']","Language_['English', 'Italian']","Language_['English', 'Luganda']","Language_['English', 'Mandarin', 'French']","Language_['English', 'Portuguese', 'Spanish']","Language_['English', 'Spanish', 'Portuguese']","Language_['English', 'Swedish', 'Norwegian', 'Danish', 'Icelandic']","Language_['English', 'Vietnamese']","Language_['French', 'English']","Language_['Norwegian', 'English']"
0,0,1,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
427,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
428,0,1,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
429,0,1,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
430,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Если переменных несколько, то функция `get_dummies()` при создании бинарных столбцов допишет названия исходных признаков к названию каждого нового столбца. Так, здесь столбцы для времен года не просто `Autumn` и `Spring`, а `Release season_Autumn` и `Release season_Spring`, и все столбцы, созданные на основе `Language`, начинаются с `Language_`.

Кстати, вот наглядное сравнение: столбец один, но в первом случае он просто один, а во втором – внутри списка из одного элемента:

In [26]:
pd.get_dummies(df["Release season"]).head(3)

Unnamed: 0,Autumn,Spring,Summer,Winter
0,0,1,0,0
1,0,0,0,1
2,0,0,0,1


In [27]:
pd.get_dummies(df[["Release season"]]).head(3)

Unnamed: 0,Release season_Autumn,Release season_Spring,Release season_Summer,Release season_Winter
0,0,1,0,0
1,0,0,0,1
2,0,0,0,1


Теоретически, если нам нужны бинарные столбцы для всех текстовых столбцов в датафрейме, их можно выбрать через `.select_dtypes()`, а затем подать полученный результат на вход функции `get_dummies()`. Правда, в нашем случае, даже если исключить названия фильмов в столбце `Title`, которые уникальные, получится огромный набор дамми-переменных, что не совсем осмысленно:

In [28]:
# вот это страшно
# выбираем все столбцы, кроме первого (Title)
df_notitle = df.iloc[:, 1:]

# для всех текстовых столбцов создаем дамми
pd.get_dummies(df_notitle.select_dtypes("object"))

Unnamed: 0,"Company_Buddy Films, Inc.",Company_Disneynature,Company_Leslie Iwerks Productions,Company_Stone Circle Pictures,Company_Walt Disney Pictures,Company_Walt Disney Productions,Company_Walt Disney Productions (promoted under the auspices of Touchstone Films),Company_Walt Disney Television Animation,"Company_['Aamir Khan Productions', 'Walt Disney Pictures India']","Company_['Asymmetrical Productions', 'Canal+', 'FilmFour Productions', 'Ciby 2000', 'Le Studio Canal+']",...,"Language_['English', 'Portuguese', 'Spanish']","Language_['English', 'Spanish', 'Portuguese']","Language_['English', 'Swedish', 'Norwegian', 'Danish', 'Icelandic']","Language_['English', 'Vietnamese']","Language_['French', 'English']","Language_['Norwegian', 'English']",Release season_Autumn,Release season_Spring,Release season_Summer,Release season_Winter
0,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
2,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
427,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
428,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
429,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
430,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


### Перекодирование: label encoding

Существуют разные способы для перекодирования данных путем присвоения им числовых меток. Так, например, в библиотеке `sklearn` есть класс `LabelEncoder`. Но его мы пока обсуждать не будем, с этой библиотекой будем знакомиться позже, в рамках машинного обучения. Рассмотрим пока один из вариантов внутри библиотеки `pandas`. 

Закодируем времена года выхода фильма в `Release season` следующим образом:

* `Winter` – 1;
* `Spring` – 2;
* `Summmer` – 3;
* `Autumn` – 4.

Воспользуемся методом `.map()`, который в числе прочего может принимать на вход словарь с соответствиями:

In [29]:
changes = {"Winter" : 1, 
          "Spring" : 2, 
          "Summer" : 3, 
          "Autumn" : 4}

df["Season code"] = df["Release season"].map(changes)
df.head()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season,Season code
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring,2.0
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter,1.0
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter,1.0
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn,4.0
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer,3.0


В данном случае мы присваивали код временам года «хронологически», исходя из содержательных соображений. Если значений много, и у нас нет особых пожеланий по числовым меткам, можно:

* забрать все уникальные значения в столбце;
* отсортировать их по алфавиту;
* присвоить метку по номеру после упорядочения по алфавиту.

In [30]:
# смотрим на уникальные значения
# смотрим на уникальные значения после того как удалили пропуски (nan)

print(df["Release season"].unique())
print(df["Release season"].dropna().unique())

['Spring' 'Winter' 'Autumn' 'Summer' nan]
['Spring' 'Winter' 'Autumn' 'Summer']


In [31]:
# сортируем набор без пропусков

seasons = sorted(df["Release season"].dropna().unique())
print(seasons)

['Autumn', 'Spring', 'Summer', 'Winter']


In [32]:
# через функцию zip() формируем пары название-индекс
# превращаем набор пар из zip() в словарь

changes2 = dict(zip(seasons, range(0, len(seasons))))
print(changes2)

{'Autumn': 0, 'Spring': 1, 'Summer': 2, 'Winter': 3}


In [33]:
# пропуски остались, мы не заменяли nan в Release season,
# а проигнорировали, поэтому Season code типа float

df["Season code"] = df["Release season"].map(changes2)
df.head()

Unnamed: 0,Title,Company,Country,Language,Running time,Budget,Box office,IMDB,Metascore,Release year,Release season,Season code
0,Academy Award Review of,Walt Disney Productions,United States,English,41.0,,,7.2,,1937.0,Spring,1.0
1,Snow White and the Seven Dwarfs,Walt Disney Productions,United States,English,83.0,1490000.0,418000000.0,7.6,95.0,1937.0,Winter,3.0
2,Pinocchio,Walt Disney Productions,United States,English,88.0,2600000.0,164000000.0,7.4,99.0,1940.0,Winter,3.0
3,Fantasia,Walt Disney Productions,United States,English,126.0,2280000.0,83300000.0,7.8,96.0,1940.0,Autumn,0.0
4,The Reluctant Dragon,Walt Disney Productions,United States,English,74.0,600000.0,960000.0,6.9,,1941.0,Summer,2.0


P.S. Вообще в Python есть функция `enumerate()`, которая возвращает пары *индекс-элемент*, из которых можно собрать словарь, однако здесь нам нужно, чтобы числовые индексы были на втором месте в паре, поэтому ее мы не использовали. Тем не менее, вот пример ее использования: 

In [34]:
print(list(enumerate(seasons)))
print(dict(enumerate(seasons)))

[(0, 'Autumn'), (1, 'Spring'), (2, 'Summer'), (3, 'Winter')]
{0: 'Autumn', 1: 'Spring', 2: 'Summer', 3: 'Winter'}


Можете самостоятельно подумать (или погуглить, но лучше подумать), как поменять у словаря ключи и значения местами :)