# Тестовое задание НИУ ВШЭ

## Часть 1. Работа с данными  
Входные данные для тестового задания можно найти здесь (или здесь, резервная ссылка).  
Ваша задача - подготовить и обработать исходные данных так, чтобы их можно было использовать во второй части задания.  

Требования к выходным данным:  

    1) В выходной таблице должны остаться только следующие колонки:  
area, cluster, cluster_name, keyword, x, y, count, color, где  
●	 area - область,  
●	 cluster - номер кластера,  
●	 cluster_name - название кластера,  
●	 keyword - словосочетание,  
●	 count - показатель,  
●	 x и y - координаты для диаграммы рассеяния,  
●	 color - цвет точки на карте для данного словосочетания  

    2) Колонку color нужно добавить самостоятельно - цвета вы можете взять из цветовых палеток Tableu или по своему усмотрению.  
    3) Цвет задается каждому словосочетанию согласно следующими правилам:  
●	внутри одной области цвета словосочетаний в одном кластере должны быть одинаковые, в разных - отличаться (например, у "Кластер 1" все слова будут окрашены в красный, у "Кластер 2" - в зеленый и т.д.)  
●	цвета кластеров в разных областях могут повторяться  
●	цвета кластеров в разных областях с разным номером не имеют никакой связи (у одной области [area] слова из "Кластер 1" могут быть красного цвета, в другой области у слов из "Кластер 1" может быть другой цвет)  

    4) Не должно быть дубликатов слов в одной и той же области (area), но словосочетание может повторяться из area в area  
    5) Колонки должны называться именно так, как указано в п.1  
    6) Сортировка должна происходить по колонкам area, cluster, cluster_name, count (по count значения сортируются в убывающем порядке, в остальных - по возрастающему).  
    7) Количество переданных в исходных ключевых слов должно совпадать с количество слов в выходных данных (за исключением дублированных строк или строк с пустыми\неформатными значениями по ключевым показателям [перечислены в п. 1], если такие имеются).  
    8) Никакие другие особенности оформления не должны учитываться при обработке данных (заливка и пр.)  
    9) Выходные данные должны быть аккуратно оформлены (заголовки закреплены, включен фильтр)  

Формат представления выходных данных: **google spreadsheet-таблица**.  

Выполнение данной работы желательно с помощью одной из библиотек:  
●	data.table ( R )  
●	pandas  (Python)  


In [1]:
import pandas as pd
import numpy as np

In [2]:
def get_cluster_color(row):
    '''
    Функция присвоения цвета кластеру
    '''
    cluster = row['cluster']
    
    values_set = [0, 1, 2, 3]
    returned_values = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']
    
    for i in range(len(values_set)):
        
        if cluster == values_set[i]:
            return returned_values[i]
    

In [3]:
tz_data = pd.read_csv('tz_data.csv')

### Ознакомление с данными

In [4]:
print()
print('\033[34m' + 'Выборка строк из tz_data' + '\033[0;0m')
display(tz_data.sample(n = 10, random_state = 2))
print()
print('\033[34m' + 'Общая информация' + '\033[0;0m')
display(tz_data.info())
print()
print('\033[34m' + 'Дубликаты' + '\033[0;0m')
display(tz_data.duplicated().sum())
print()
print('\033[34m' + 'Пропуски' + '\033[0;0m')
display(tz_data.isna().sum())


[34mВыборка строк из tz_data[0;0m


Unnamed: 0,area,cluster,cluster_name,keyword,good (1),count,x,y
214,greetings,0.0,Кластер 0,publicity mongolia,1.0,68,6.737206,10.32607989591264
172,housewives,1.0,Кластер 1,perfectly department composer,1.0,86,12.190364,6.814392436798818
20,capability,1.0,Кластер 1,interfaces neutral,1.0,1047,0.134107,12.515576283697598
114,ar\vr,2.0,Кластер 2,bangkok mining fascinating,1.0,682,5.084247,13.480030560991166
66,winner,1.0,Кластер 1,retirement privilege pathology sydney,1.0,1384,8.198546,6.322510495538448
23,capability,1.0,Кластер 1,filter substances,1.0,1532,2.432794,4.840058228742469
127,twisted,1.0,Кластер 1,toronto crisis chamber ceiling,1.0,535,1.229081,11.346440509834324
93,worlds,0.0,Кластер 0,island holland electric,1.0,1335,9.223316,14.683999423537758
77,locator,0.0,Кластер 0,insights downloaded,1.0,1831,9.894806,9.572447429953115
53,protein,1.0,Кластер 1,several animated buried,1.0,1705,1.660753,3.3058212058020158



[34mОбщая информация[0;0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   area          228 non-null    object 
 1   cluster       228 non-null    float64
 2   cluster_name  228 non-null    object 
 3   keyword       228 non-null    object 
 4   good (1)      227 non-null    float64
 5   count         227 non-null    object 
 6   x             228 non-null    float64
 7   y             228 non-null    object 
dtypes: float64(3), object(5)
memory usage: 14.4+ KB


None


[34mДубликаты[0;0m


0


[34mПропуски[0;0m


area            1
cluster         1
cluster_name    1
keyword         1
good (1)        2
count           2
x               1
y               1
dtype: int64

В датафрейме содержится незначительное количество пропущенных значений.

### Уникальные значения

Посмотрим уникальные значения в каждом из столбцов.

In [5]:
tz_column_list = ['area', 'cluster', 'cluster_name', 'keyword', 'good (1)', 'x', 'y', 'count']
tz_column_list

['area', 'cluster', 'cluster_name', 'keyword', 'good (1)', 'x', 'y', 'count']

In [6]:
for column in tz_column_list:
    print('\033[1m' + column,'\n' + '\033[0;0m')   
    display(tz_data[column].sort_values().unique())
    print(f'Количество уникальных значений: {tz_data[column].nunique()}')
    print('-'*80)
    print()


[1marea 
[0;0m


array(['ar\\vr', 'available', 'capability', 'dialog', 'eligibility',
       'except', 'greetings', 'housewives', 'lithuania', 'locator',
       'personnel', 'protein', 'twisted', 'winner', 'worlds', nan],
      dtype=object)

Количество уникальных значений: 15
--------------------------------------------------------------------------------

[1mcluster 
[0;0m


array([ 0.,  1.,  2.,  3., nan])

Количество уникальных значений: 4
--------------------------------------------------------------------------------

[1mcluster_name 
[0;0m


array(['Кластер 0', 'Кластер 1', 'Кластер 2', 'Кластер 3', nan],
      dtype=object)

Количество уникальных значений: 4
--------------------------------------------------------------------------------

[1mkeyword 
[0;0m


array(['access michelle', 'alternative homeless',
       'amended mailed analyzed', 'announces independent',
       'announces independent coaching',
       'announces independent coaching travelers',
       'announces independent latter senator', 'annoying dramatic',
       'anymore undefined partially',
       'applicants vacuum distance restrictions',
       'applicants vacuum trusts famous', 'approach publicly disturbed',
       'approximately defense', 'auction causes', 'auditor transparent',
       'bangkok mining fascinating', 'barrier ethernet',
       'batteries nipples', 'battery pregnant',
       'bestsellers enterprise promotional', 'bouquet beyond indian',
       'caution target', 'celtic automation',
       'celtic automation patients sectors', 'churches charming',
       'cincinnati fundamentals', 'coalition integration',
       'coalition integration compute', 'coalition integration fantasy',
       'collectables departments', 'comfort rivers',
       'committees parall

Количество уникальных значений: 194
--------------------------------------------------------------------------------

[1mgood (1) 
[0;0m


array([ 0.,  1., nan])

Количество уникальных значений: 2
--------------------------------------------------------------------------------

[1mx 
[0;0m


array([ 0.03944808,  0.04297734,  0.12779802,  0.1341075 ,  0.16254002,
        0.21191806,  0.32546905,  0.38198612,  0.40741498,  0.50949038,
        0.55451557,  0.61989225,  0.85460947,  0.86192097,  0.99087089,
        1.00323338,  1.02445121,  1.16062641,  1.22886288,  1.22908102,
        1.28915849,  1.31380606,  1.42744543,  1.43370632,  1.50690368,
        1.66075286,  1.72439697,  1.7294647 ,  1.83198341,  1.96870275,
        1.97297822,  2.04558616,  2.08986641,  2.16735462,  2.26056652,
        2.40702781,  2.43279387,  2.44564932,  2.48685037,  2.53454067,
        2.72160315,  2.84275428,  2.91109226,  2.98026424,  2.99116739,
        3.02424998,  3.17226101,  3.2684689 ,  3.28393962,  3.36253945,
        3.53944609,  3.54236682,  3.55974641,  3.58071798,  3.58510054,
        3.59898344,  3.6214187 ,  3.98650789,  4.02049407,  4.38375979,
        4.40935197,  4.47688583,  4.6556543 ,  4.78352212,  4.78651837,
        4.81325629,  4.94440074,  4.98867025,  4.99155925,  5.08

Количество уникальных значений: 225
--------------------------------------------------------------------------------

[1my 
[0;0m


array(['0.06080720844153398', '0.09000260155310136',
       '0.09267876986654155', '0.1143436516859353', '0.11438091958222096',
       '0.15831290259642083', '0.19658438668780087',
       '0.30133952678609466', '0.319009363382321', '0.3976214750666285',
       '0.44477856435468255', '0.5393038967339214', '0.5533676310113189',
       '0.6781829885279139', '0.7269788262356514', '0.7546194789834887',
       '0.7791614555083071', '0.9953402239891002', '0x414fe002',
       '1.1168487718141744', '1.1517746789802608', '1.2369982302233233',
       '1.2492693330331217', '1.38214261242753', '1.469028291808031',
       '1.5140297011264148', '1.9393505187643634', '10.076107624172634',
       '10.17858008664234', '10.211624146149772', '10.238445249205526',
       '10.281612538543575', '10.289412705061812', '10.32607989591264',
       '10.341439590784995', '10.481796814453466', '10.48899638751125',
       '10.835109297021228', '10.906339823131932', '10.922626188848891',
       '10.998897052089552', 

Количество уникальных значений: 225
--------------------------------------------------------------------------------

[1mcount 
[0;0m


array(['-', '1007', '1009', '1011', '1013', '1022', '1037', '1041',
       '1047', '1050', '1054', '1058', '1059', '1062', '1097', '110',
       '1106', '1112', '1125', '114', '1145', '1146', '1155', '1158',
       '1159', '1184', '1189', '1197', '1198', '1206', '1236', '1247',
       '1249', '1250', '1260', '129', '1335', '1347', '1352', '1369',
       '1377', '1382', '1384', '139', '1393', '1397', '1404', '1421',
       '1433', '1438', '1443', '1451', '1455', '1476', '1484', '1491',
       '1495', '1499', '1501', '1502', '1507', '1532', '1547', '1570',
       '161', '1613', '1617', '1620', '1628', '163', '1631', '1653',
       '166', '1665', '1667', '1669', '1694', '1702', '1703', '1705',
       '1713', '172', '1725', '1727', '173', '1737', '1749', '1775',
       '178', '1782', '1785', '1793', '1795', '1803', '1804', '1806',
       '1814', '1815', '1817', '1818', '1819', '1831', '1834', '1839',
       '1866', '1869', '19', '1901', '1907', '1920', '1928', '1934',
       '1949', '1960'

Количество уникальных значений: 208
--------------------------------------------------------------------------------



In [7]:
tz_data['count'].unique()

array(['1260', '866', '163', '1146', '823', '1377', '281', '1501', '139',
       '309', '129', '1817', '23', '1795', '1013', '1184', '114', '203',
       '1047', '683', '563', '1532', '813', '1703', '1986', '763', '1928',
       '1949', '411', '1433', '1694', '1901', '426', '1793', '1247',
       '910', '907', '1041', '1404', '454', '1037', '401', '1749', '649',
       '99', '1206', '1022', 'N\\A', '1818', '1455', '936', '1705', '904',
       '697', '1547', '1725', '374', '1197', '480', '19', '1421', '161',
       '1803', '1384', '1727', '1393', '347', '428', '1667', '1158',
       '818', '536', '661', '1011', '1831', '1451', '421', '501', '1737',
       '469', '659', '1054', '1059', '178', '1869', '836', '1866', '973',
       '1335', '1062', '1499', '381', '1050', '1159', '1785', '471',
       '1382', '236', '1476', '1097', '1653', '1443', '586', '751', '173',
       '1397', '773', '1007', '715', '682', '889', '1249', '172', '1189',
       '260', '1669', '691', '670', '1713', '587', '

### Предобработка данных

#### Наименование колонок

In [8]:
tz_data.rename(columns = {'good (1)' : 'good'}, inplace = True)

#### Изменение наименования area

Изменим именование области (`area`) - 'ar\\vr'.

In [9]:
tz_data.loc[(tz_data['area'] == 'ar\\vr'), 'area'] = 'ar_vr' 

In [10]:
tz_data['area'].unique()

array(['eligibility', 'capability', 'available', 'protein', 'winner',
       'locator', 'worlds', 'ar_vr', 'twisted', 'lithuania', 'personnel',
       'housewives', 'dialog', nan, 'except', 'greetings'], dtype=object)

#### Пропуски и аномальные значения

In [11]:
null_data = tz_data[tz_data.isna().any(axis=1)]
null_data

Unnamed: 0,area,cluster,cluster_name,keyword,good,count,x,y
96,worlds,1.0,Кластер 1,operating stevens nirvana,,381.0,3.585101,1.1168487718141744
178,housewives,2.0,Кластер 2,outstanding relations,1.0,,1.289158,6.397514584626231
193,,,,,,,,


In [12]:
tz_data.query('count == "N\\A" or count == "-"')

Unnamed: 0,area,cluster,cluster_name,keyword,good,count,x,y
49,protein,0.0,Кластер 0,malawi sunset,1.0,N\A,14.059563,11.980078795061226
217,greetings,1.0,Кластер 1,diversity unlike,1.0,-,9.195444,11.26136706467054


В исходном датасете есть пропуски и нефрматные значения. Их доля невелика - 2,1% общего числа. С учетом целей ТЗ удалим эти данные.

In [13]:
tz_data = tz_data.dropna()

In [14]:
tz_data[tz_data.isna().any(axis=1)]

Unnamed: 0,area,cluster,cluster_name,keyword,good,count,x,y


In [15]:
tz_data.shape

(226, 8)

In [16]:
tz_data = tz_data.query('count not in ["N\\A", "-"]')

In [17]:
tz_data.shape

(224, 8)

#### Дубликаты слов в одной области (условие №3 ТЗ)

Проверим наличие дубликатов слов в одной и той же области (условие выходных данных -  не должно быть дубликатов слов в одной и той же области (area), но словосочетание может повторяться из area в area).

In [18]:
keyword_number = tz_data.groupby('area', as_index = False)\
       .agg({'cluster_name':'count', 'keyword':'nunique'})\
       .rename(columns = {'cluster_name':'total_keyword', 'keyword':'nunique_keyword' })      
keyword_number['duplicate_keyword'] = keyword_number['total_keyword'] - keyword_number['nunique_keyword'] 
keyword_number.query('duplicate_keyword > 0')

Unnamed: 0,area,total_keyword,nunique_keyword,duplicate_keyword
0,ar_vr,15,14,1
3,dialog,15,14,1
4,eligibility,16,14,2
6,greetings,15,14,1
12,twisted,16,14,2


В 5 областях есть совпадающие значения - `keyword`.  
Посмотрим, какие `keyword` повторяются.

In [19]:
tz_data[tz_data.duplicated(['area','keyword'], keep=False)]

Unnamed: 0,area,cluster,cluster_name,keyword,good,count,x,y
2,eligibility,0.0,Кластер 0,hawaiian directive,1.0,163,11.381856,3.898137021955861
8,eligibility,1.0,Кластер 1,vampire injured,0.0,139,5.247683,0.7791614555083071
9,eligibility,2.0,Кластер 2,vampire injured,0.0,139,5.247683,0.7791614555083071
15,eligibility,3.0,Кластер 3,hawaiian directive,1.0,1795,7.309672,2.9597385853299247
111,ar_vr,1.0,Кластер 1,filling volunteers academics,1.0,773,10.83392,8.652736658281233
117,ar_vr,2.0,Кластер 2,filling volunteers academics,1.0,172,4.813256,14.73962239754386
123,twisted,0.0,Кластер 0,recycling edited,1.0,1713,0.407415,5.5006444090606434
124,twisted,0.0,Кластер 0,offset cnetcom applying,1.0,587,2.167355,0.9953402239891002
125,twisted,1.0,Кластер 1,offset cnetcom applying,1.0,587,2.167355,0.9953402239891002
135,twisted,3.0,Кластер 3,recycling edited,1.0,1617,9.513728,0.3013395267860946


Для ряда `keyword` - `vampire injured`, `offset cnetcom applying`, `springer bumperspringer bumper` - отличаются только кластеры. Для остальных `keyword` совпадает только `area` и `keyword`.  
В связи с отсутствием дополнительной информации о приоритете попадания в финальный датасет дублирующихся позиций оставим первое вхождение. 

In [20]:
tz_data = tz_data.drop_duplicates(['area','keyword'], keep='first')

In [21]:
tz_data.shape

(217, 8)

#### Изменение типа данных

In [22]:
tz_data['cluster'] = tz_data['cluster'].astype('int')
tz_data['y'] = pd.to_numeric(tz_data['y'], errors='coerce')
tz_data['count'] = pd.to_numeric(tz_data['count'], errors='coerce')

In [23]:
tz_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 217 entries, 0 to 228
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   area          217 non-null    object 
 1   cluster       217 non-null    int32  
 2   cluster_name  217 non-null    object 
 3   keyword       217 non-null    object 
 4   good          217 non-null    float64
 5   count         217 non-null    int64  
 6   x             217 non-null    float64
 7   y             216 non-null    float64
dtypes: float64(3), int32(1), int64(1), object(3)
memory usage: 14.4+ KB


In [24]:
tz_data = tz_data.dropna()

In [25]:
tz_data[tz_data.isna().any(axis=1)]

Unnamed: 0,area,cluster,cluster_name,keyword,good,count,x,y


#### Вывод

Преобразованный датафрейм `tz_data` содержит 217 строк, 15 уникальных областей, по 4 кластера в каждой.  
Обработаны пропуски и дубликаты: в пропущенных значения удалена полностью одна строка, в дубликатах - оставлены строки первого вхождения.  
Изменено наименование столбца `good (1)`.  
Изменен тип данных столбца `cluster` на `int`, `y` на `float`, `count` на `int`.

### Обогащение данных

Посмотрим, сколько кластеров в каждой области.

In [26]:
tz_data.groupby('area', as_index = False)['cluster_name'].nunique()

Unnamed: 0,area,cluster_name
0,ar_vr,4
1,available,4
2,capability,4
3,dialog,4
4,eligibility,4
5,except,4
6,greetings,4
7,housewives,4
8,lithuania,4
9,locator,4


У каждой области 4 кластера.  
В присвоении цветов возможно 2 подхода:  
- присвоить каждому уникальному кластеру свой цвет без учета области (4 оттенка);  
- привосить каждому кластеру цвет с учетом области (60 оттенков);  
- комбинация первых двух: сформировать несколько цветовых наборов для 4-х кластеров и использовать их повторно.

В рамках данной задачи будем использовать первый вариант формирования цветовых схем.

In [27]:
tz_data['color'] = tz_data.apply(get_cluster_color, axis=1)

#### Вывод

В tz_data добавлен столбец `color`, содержащий данные о цвете, присвоенном кластеру с учетом условий ТЗ.

### Требования к форме выходных данных

Проверим требования выходных данных.

#### Колонки

 1) В выходной таблице должны остаться только следующие колонки:  
area, cluster, cluster_name, keyword, x, y, count, color, где  
 area - область,  
 cluster - номер кластера,  
 cluster_name - название кластера,  
 keyword - словосочетание,  
 count - показатель,  
 x и y - координаты для диаграммы рассеяния,  
 color - цвет точки на карте для данного словосочетания  
  

In [28]:
tz_data = tz_data[['area', 'cluster', 'cluster_name', 'keyword', 'x', 'y', 'count', 'color']]
tz_data.head()

Unnamed: 0,area,cluster,cluster_name,keyword,x,y,count,color
0,eligibility,0,Кластер 0,several animated buried,5.772342,12.564796,1260,#1f77b4
1,eligibility,0,Кластер 0,singles unusual buyers,14.82928,7.850729,866,#1f77b4
2,eligibility,0,Кластер 0,hawaiian directive,11.381856,3.898137,163,#1f77b4
3,eligibility,0,Кластер 0,dynamics directly,9.980149,6.281428,1146,#1f77b4
4,eligibility,1,Кластер 1,decision surgeons montreal,3.28394,4.396741,823,#ff7f0e


Требования 2-5 выполнены на этапе предобработки и обогащения данных.

#### Сортировка данных

Сортировка должна происходить по колонкам area, cluster, cluster_name, count (по count значения сортируются в убывающем порядке, в остальных - по возрастающему)

In [29]:
tz_data.sort_values(
    by = ['area', 'cluster', 'cluster_name', 'count'],
    ascending = [True, True, True, False],
    inplace = True
)

In [30]:
tz_data.head()

Unnamed: 0,area,cluster,cluster_name,keyword,x,y,count,color
106,ar_vr,0,Кластер 0,written conflict fabulous,2.991167,7.106799,1443,#1f77b4
108,ar_vr,0,Кластер 0,reservations linking,10.195602,12.259496,751,#1f77b4
107,ar_vr,0,Кластер 0,interfaces neutral,10.443533,13.809915,586,#1f77b4
109,ar_vr,0,Кластер 0,committees parallel,6.73526,3.613983,173,#1f77b4
110,ar_vr,1,Кластер 1,postcards looked republic detector,10.474474,6.220012,1397,#ff7f0e


#### Проверка полноты выходных данных

7) Количество переданных в исходных ключевых слов должно совпадать с количество слов в выходных данных (за исключением дублированных строк или строк с пустыми\неформатными значениями по ключевым показателям [перечислены в п. 1], если такие имеются). 

In [31]:
tz_data.shape

(216, 8)

In [32]:
tz_data = tz_data.reset_index(drop=True)
tz_data

Unnamed: 0,area,cluster,cluster_name,keyword,x,y,count,color
0,ar_vr,0,Кластер 0,written conflict fabulous,2.991167,7.106799,1443,#1f77b4
1,ar_vr,0,Кластер 0,reservations linking,10.195602,12.259496,751,#1f77b4
2,ar_vr,0,Кластер 0,interfaces neutral,10.443533,13.809915,586,#1f77b4
3,ar_vr,0,Кластер 0,committees parallel,6.735260,3.613983,173,#1f77b4
4,ar_vr,1,Кластер 1,postcards looked republic detector,10.474474,6.220012,1397,#ff7f0e
...,...,...,...,...,...,...,...,...
211,worlds,2,Кластер 2,ringtone parental,11.723895,4.363994,471,#2ca02c
212,worlds,2,Кластер 2,recipient traffic,5.593629,0.553368,236,#2ca02c
213,worlds,3,Кластер 3,immunology plates,2.407028,7.651527,1653,#d62728
214,worlds,3,Кластер 3,holdings herbal,3.986508,10.906340,1476,#d62728


Входные данные содержали 229 строк. В результате обработки пропусков и дубликатов осталась 221 строка. После обогащения данных и формирования столбца `color` количество строк не изменилось.

#### Выгрузка в excel

Выходные данные должны быть аккуратно оформлены (заголовки закреплены, включен фильтр)  
Формат представления выходных данных: google spreadsheet-таблица.

In [33]:
with pd.ExcelWriter("output_data.xlsx") as writer:
    tz_data.to_excel(
        writer,
        sheet_name='output', 
        index=False
    )
    sheet = writer.sheets['output']
    sheet.autofilter('A1:H'+str(tz_data.shape[0]))
    sheet.freeze_panes(1, 1)
    sheet.set_column('D:D', 35)
    sheet.set_column('E:E', 12)
    sheet.set_column('F:F', 19)
