# НИС «Основы анализа данных в Python»

*Алла Тамбовцева*

## Практикум 1. Описание датафрейма: атрибуты и методы. Перекодирование данных

* Описание датафрейма: атрибуты датафрейма
* Описание датафрейма: методы датафрейма
* Перекодирование: one-hot encoding
* Перекодирование: label encoding

### Загрузка данных

>Импортируйте библиотеку `pandas`, загрузите данные из файла `disney_clean.csv` и сохраните их в датафрейм `df`.

In [None]:
### YOUR CODE HERE ###

### Описание датафрейма: атрибуты датафрейма

При работе с базовыми типами Python (целые и дробные числа, строки, списки, кортежи, словари, множества) мы сталкивались только с методами. Например, был метод `.upper()`, который приводил строку к верхнему регистру или метод `.append()`, который добавлял в конец списка элемент:

In [None]:
print("ключ на старт!".upper())

L = [1, 3, 5]
L.append(8)
print(L)

**Метод** – функция на объекте определенного типа. В круглых скобках указывается аргумент функции, однако даже если наличие аргумента не предусматривается по смыслу, круглые скобки `()` после названия метода необходимы, так как они обеспечивают применение функции к объекту. 

На более сложных объектах, например, на массивах `numpy` и датафреймах `pandas` помимо методов определены **атрибуты**. Атрибут – характеристика объекта. Так, у датафреймов `pandas` есть атрибут `.shape`, в котором хранится кортеж из числа строк и столбцов:

In [None]:
print(df.shape)

В отличие от метода, после названия атрибута круглые скобки не ставятся, так как аргументов у атрибута не бывает, это не функция.

> Поставьте скобки и поясните, почему выводится именно такая ошибка. Пользуясь тем, что в `.shape` хранится кортеж, извлеките число строк и столбцов датафрейма.

In [None]:
### YOUR CODE HERE ###

> Запросите атрибуты `.size`, `.columns`, `.index`, `.values`, `.dtypes` и посмотрите, что в них хранится.

In [None]:
### YOUR CODE HERE ###

### Описание датафрейма: методы датафрейма

Мы уже вспомнили, что такое метод. Теперь вспомним методы `.head()` и `.tail()`:

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail(10)

> Попробуйте поставить в `.head()` и `.tail()` отрицательные значения. Что происходит?

Вспомним метод `.info()`, который возвращает техническую информацию по датафрейму:

In [None]:
df.info()

Посмотрим на метод `.select_dtypes()`, который позволяет выбрать столбцы определенного типа или типов:

In [None]:
df.select_dtypes(int)

In [None]:
df.select_dtypes([int, float])

In [None]:
df.select_dtypes("object")

### Перекодирование: one-hot encoding

Для реализации *one-hot encoding* в `pandas` существует функция `get_dummies()`. Эта функция универсальная – ей на вход можно подать как столбец, так и несколько столбцов:

In [None]:
pd.get_dummies(df["Release season"])

In [None]:
pd.get_dummies(df[["Release season", "Language"]])

In [None]:
# вот это страшно

# выбираем все столбцы, кроме первого (Title)
df_notitle = df.iloc[:, 1:]

# для всех текстовых столбцов создаем дамми
pd.get_dummies(df_notitle.select_dtypes("object"))

Как можно заметить, функция `get_dummies()` возвращает новый датафрейм с бинарными столбцами. Как объединить исходный датафрейм и новый из бинарных столбцов? Воспользоваться функцией `concat()` для склеивания датафреймов по строкам (`axis = 0`, по умолчанию) или столбцам (`axis = 1`):

In [None]:
df_season = pd.get_dummies(df["Release season"])

df_fin = pd.concat([df, df_season], axis = 1)

### Перекодирование: label encoding

Существуют разные способы для перекодирования данных путем присвоения им числовых меток. Так, например, в библиотеке `sklearn` есть класс `LabelEncoder`. Но его мы пока обсуждать не будем, с этой библиотекой будем знакомиться позже, в рамках машинного обучения. Рассмотрим пока один из вариантов внутри библиотеки `pandas`. 

Закодируем времена года выхода фильма в `Release season` следующим образом:

* `Winter` – 1;
* `Spring` – 2;
* `Summmer` – 3;
* `Autumn` – 4.

Воспользуемся методом `.map()`, который в числе прочего может принимать на вход словарь с соответствиями:

In [None]:
changes = {"Winter" : 1, 
          "Spring" : 2, 
          "Summer" : 3, 
          "Autumn" : 4}

df["Season code"] = df["Release season"].map(changes)
df.head()

В данном случае мы присваивали код временам года «хронологически», исходя из содержательных соображений. Если значений много, и у нас нет особых пожеланий по числовым меткам, можно:

* забрать все уникальные значения в столбце;
* отсортировать их по алфавиту;
* присвоить метку по номеру после упорядочения по алфавиту.

In [None]:
print(df["Release season"].unique())
print(df["Release season"].dropna().unique())

In [None]:
seasons = sorted(df["Release season"].dropna().unique())
print(seasons)

In [None]:
changes2 = dict(zip(seasons, range(0, len(seasons))))
print(changes2)

In [None]:
df["Season code"] = df["Release season"].map(changes2)
df.head()

P.S. Вообще в Python есть функция `enumerate()`, которая возвращает пары *индекс-элемент*, из которых можно собрать словарь, однако здесь нам нужно, чтобы числовые индексы были на втором месте в паре, поэтому ее мы не использовали. Тем не менее, вот пример ее использования: 

In [None]:
print(list(enumerate(seasons)))
print(dict(enumerate(seasons)))

Можете самостоятельно подумать (или погуглить, но лучше подумать), как поменять у словаря ключи и значения местами :)