# **Промежуточная аттестация по курсу (Python)**

## **ЗАДАНИЕ**

В ячейке ниже представлен код, генерирующий DataFrame, который состоит всего из 1 столбца. Задача состоит в том, чтобы перевести его в one hot вид. Нельзя использовать get_dummies.





---



In [1]:
# Инсталляция эмулятора терминала, который можно запустить в Colab
# (ttps://github.com/singhsidhukuldeep/Google-Colab-Shell):

!pip install google-colab-shell



In [2]:
from google_colab_shell import getshell

In [3]:
# Запуск эмулятора терминала (для работы с git и GitHub):

getshell()



---



In [4]:
import pandas as pd

import random

In [5]:
lst = ['robot'] * 10
lst += ['human'] * 10
random.shuffle(lst)
data = pd.DataFrame({'whoAmI':lst})

data.head()

Unnamed: 0,whoAmI
0,robot
1,robot
2,human
3,robot
4,robot




---



## **РЕШЕНИЕ:**

### ВАРИАНТ 1

In [6]:
one_hot_df_1 = data.copy()

one_hot_df_1.head()

Unnamed: 0,whoAmI
0,robot
1,robot
2,human
3,robot
4,robot


In [7]:
# Выделяем уникальные значения - наименования будущих полей:

headers = one_hot_df_1['whoAmI'].unique()

headers

array(['robot', 'human'], dtype=object)

In [8]:
# Добавляем новые поля и заполняем их соотвестствующими
# значениями в зависимости от содержания поля 'whoAmI',
# переводя значения из логического типа данных в числовой:

for column_name in headers:
    one_hot_df_1[column_name] = (one_hot_df_1['whoAmI'] == column_name).\
    astype(int)

one_hot_df_1.head()

Unnamed: 0,whoAmI,robot,human
0,robot,1,0
1,robot,1,0
2,human,0,1
3,robot,1,0
4,robot,1,0


In [9]:
# Удаляем поле 'whoAmI', т.к. данные в нем стали избыточны:

one_hot_df_1.drop('whoAmI', axis = 1, inplace = True)

one_hot_df_1.head()

Unnamed: 0,robot,human
0,1,0
1,1,0
2,0,1
3,1,0
4,1,0




---



### ВАРИАНТ 2

In [10]:
one_hot_df_2 = data.copy()

one_hot_df_2.head()

Unnamed: 0,whoAmI
0,robot
1,robot
2,human
3,robot
4,robot


In [11]:
# Выделяем уникальные значения - наименования будущих полей:

headers = one_hot_df_2['whoAmI'].unique()

headers

array(['robot', 'human'], dtype=object)

In [12]:
# Добавляем новые поля и заполняем их соответствующими
# значениями в зависимости от содержания поля 'whoAmI':

for column_name in headers:
    one_hot_df_2.loc[one_hot_df_2['whoAmI'] == column_name, column_name] = 1
    one_hot_df_2.loc[one_hot_df_2['whoAmI'] == column_name, column_name] = 1

one_hot_df_2.head()

Unnamed: 0,whoAmI,robot,human
0,robot,1.0,
1,robot,1.0,
2,human,,1.0
3,robot,1.0,
4,robot,1.0,


In [13]:
# Заполняем пустые значения нулями:

one_hot_df_2 = one_hot_df_2.fillna(0)

one_hot_df_2.head()

Unnamed: 0,whoAmI,robot,human
0,robot,1.0,0.0
1,robot,1.0,0.0
2,human,0.0,1.0
3,robot,1.0,0.0
4,robot,1.0,0.0


In [14]:
# Удаляем поле 'whoAmI', т.к. данные в нем стали избыточны:

one_hot_df_2.drop('whoAmI', axis = 1, inplace = True)

one_hot_df_2.head()

Unnamed: 0,robot,human
0,1.0,0.0
1,1.0,0.0
2,0.0,1.0
3,1.0,0.0
4,1.0,0.0


In [15]:
# Меняем типы данных для полей:

one_hot_df_2 = one_hot_df_2[['human', 'robot']].astype(int)

one_hot_df_2.head()

Unnamed: 0,human,robot
0,0,1
1,0,1
2,1,0
3,0,1
4,0,1




---



### ВАРИАНТ 3

In [16]:
# Производим "сбрасывание" индекса, чтобы впоследствии
# иметь возможность обращаться к полю с индексами:

one_hot_df_3 = data.copy().reset_index()

one_hot_df_3.head()

Unnamed: 0,index,whoAmI
0,0,robot
1,1,robot
2,2,human
3,3,robot
4,4,robot


In [17]:
# Добавляем вспомогательный столбец для заполнения значений:

one_hot_df_3['code'] = 1

one_hot_df_3.head()

Unnamed: 0,index,whoAmI,code
0,0,robot,1
1,1,robot,1
2,2,human,1
3,3,robot,1
4,4,robot,1


In [18]:
# Производим "сведение" датафрейма при помощи метода .pivot_table()
# (при этом отсутствующие значения заполняются нулями):

one_hot_df_3 = one_hot_df_3.pivot_table(index = 'index', columns = 'whoAmI', \
                                        values = 'code', fill_value = 0)

one_hot_df_3.head()

whoAmI,human,robot
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0,1
1,0,1
2,1,0
3,0,1
4,0,1


In [19]:
# Убираем наименование индекса, который нумерует строки:
one_hot_df_3.rename_axis('', axis = 'index', inplace = True)

one_hot_df_3.head()

whoAmI,human,robot
,,
0.0,0.0,1.0
1.0,0.0,1.0
2.0,1.0,0.0
3.0,0.0,1.0
4.0,0.0,1.0


In [20]:
# Убираем наименование индекса, который находится в столбцах:
one_hot_df_3.rename_axis('', axis = 'columns', inplace = True)

one_hot_df_3.head()

Unnamed: 0,human,robot
,,
0.0,0.0,1.0
1.0,0.0,1.0
2.0,1.0,0.0
3.0,0.0,1.0
4.0,0.0,1.0




---



### ВАРИАНТ 4

In [21]:
# Трансформируем единственное поле с данными в ещё одно поле индекса:

one_hot_df_4 = data.copy().set_index(keys = 'whoAmI', append = True)

one_hot_df_4.head()

Unnamed: 0,whoAmI
0,robot
1,robot
2,human
3,robot
4,robot


In [22]:
# Добавляем вспомогательный столбец для заполнения значений:

one_hot_df_4['code'] = 1

# Убираем наименование индекса:
one_hot_df_4.index.rename(['', ''], inplace = True)

one_hot_df_4.head()

Unnamed: 0,Unnamed: 1,code
,,
0.0,robot,1.0
1.0,robot,1.0
2.0,human,1.0
3.0,robot,1.0
4.0,robot,1.0


In [23]:
# Производим "сворачивание" датафрейма при помощи метода .unstack()
# (при этом отсутствующие значения заполняются нулями):

one_hot_df_4 = one_hot_df_4.unstack(fill_value = 0)

one_hot_df_4.head()

Unnamed: 0_level_0,code,code
Unnamed: 0_level_1,human,robot
,,
0.0,0.0,1.0
1.0,0.0,1.0
2.0,1.0,0.0
3.0,0.0,1.0
4.0,0.0,1.0


In [24]:
# Убираем верхний уровень в "шапке" датафрейма
# (т.е. удаляем уровень из мультииндекса):

one_hot_df_4.columns = one_hot_df_4.columns.droplevel()

one_hot_df_4.head()

Unnamed: 0,human,robot
,,
0.0,0.0,1.0
1.0,0.0,1.0
2.0,1.0,0.0
3.0,0.0,1.0
4.0,0.0,1.0




---





---

