# Тестовое задание Junior Data Analyst


## Часть 1. Работа с данными

Входные данные для тестового задания можно найти <a href="https://docs.google.com/spreadsheets/d/165sp-lWd1L4qWxggw25DJo_njOCvzdUjAd414NSE8co/edit?usp=sharing">здесь</a>.
Ваша задача - подготовить и обработать исходные данных так, чтобы их можно было использовать во второй части задания.

Требования к выходным данным:
    1) В выходной таблице должны остаться только следующие колонки:
area, cluster, cluster_name, keyword, x, y, count, color, где
 * area - область,
 * cluster - номер кластера,
 * cluster_name - название кластера,
 * keyword - словосочетание,
 * count - показатель,
 * x и y - координаты для диаграммы рассеяния,
 * color - цвет точки на карте для данного словосочетания



In [303]:
import pandas as pd # импортируем библиотеку пандас
import seaborn as sns
import random 

In [304]:
# загружаем данные из гугл таблицы
data=pd.read_csv("https://docs.google.com/spreadsheets/d/165sp-lWd1L4qWxggw25DJo_njOCvzdUjAd414NSE8co/gviz/tq?tqx=out:csv")

In [305]:
data.head() # выводим первые 5 строк

Unnamed: 0,area,cluster,cluster_name,keyword,good (1),count,x,y
0,eligibility,0,Кластер 0,several animated buried,1.0,1260.0,5.772342,12.564796257345003
1,eligibility,0,Кластер 0,singles unusual buyers,1.0,866.0,14.82928,7.850728572712581
2,eligibility,0,Кластер 0,hawaiian directive,1.0,163.0,11.381856,3.898137021955861
3,eligibility,0,Кластер 0,dynamics directly,1.0,1146.0,9.980149,6.281427914064545
4,eligibility,1,Кластер 1,decision surgeons montreal,1.0,823.0,3.28394,4.39674063521296


In [306]:
data.shape

(228, 8)

In [307]:
data.drop(columns='good (1)',inplace=True) # удаляем лишнюю колонку

In [308]:
data.head()

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y
0,eligibility,0,Кластер 0,several animated buried,1260.0,5.772342,12.564796257345003
1,eligibility,0,Кластер 0,singles unusual buyers,866.0,14.82928,7.850728572712581
2,eligibility,0,Кластер 0,hawaiian directive,163.0,11.381856,3.898137021955861
3,eligibility,0,Кластер 0,dynamics directly,1146.0,9.980149,6.281427914064545
4,eligibility,1,Кластер 1,decision surgeons montreal,823.0,3.28394,4.39674063521296


# Работа с колонкой color
 Колонку color нужно добавить самостоятельно - цвета вы можете взять из цветовых палеток Tableu или по своему усмотрению.<br>
    3) Цвет задается каждому словосочетанию согласно следующими правилам:
* внутри одной области цвета словосочетаний в одном кластере должны быть одинаковые, в разных - отличаться (например, у "Кластер 1" все слова будут окрашены в красный, у "Кластер 2" - в зеленый и т.д.)
* цвета кластеров в разных областях могут повторяться
* цвета кластеров в разных областях с разным номером не имеют никакой связи (у одной области [area] слова из "Кластер 1" могут быть красного цвета, в другой области у слов из "Кластер 1" может быть другой цвет)


In [309]:
data["color"]=0

In [310]:
palette=sns.color_palette(palette="tab10").as_hex() # цветовая палитра

In [311]:
palette[0]

'#1f77b4'

### внутри одной области цвета словосочетаний в одном кластере должны быть одинаковые, в разных - отличаться (например, у "Кластер 1" все слова будут окрашены в красный, у "Кластер 2" - в зеленый и т.д.)

In [312]:
areas=data.area.unique() # cписок наших областей

In [313]:
areas

array(['eligibility', 'capability', 'available', 'protein', 'winner',
       'locator', 'worlds', 'ar\\vr', 'twisted', 'lithuania', 'personnel',
       'housewives', 'dialog', 'except', 'greetings'], dtype=object)

In [314]:
clusters=data.cluster.unique() # список кластеров

In [315]:
clusters

array([0, 1, 2, 3])

In [316]:
data

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y,color
0,eligibility,0,Кластер 0,several animated buried,1260.0,5.772342,12.564796257345005,0
1,eligibility,0,Кластер 0,singles unusual buyers,866.0,14.829280,7.8507285727125815,0
2,eligibility,0,Кластер 0,hawaiian directive,163.0,11.381856,3.8981370219558604,0
3,eligibility,0,Кластер 0,dynamics directly,1146.0,9.980149,6.281427914064545,0
4,eligibility,1,Кластер 1,decision surgeons montreal,823.0,3.283940,4.39674063521296,0
...,...,...,...,...,...,...,...,...
223,greetings,2,Кластер 2,disposition layout,279.0,10.971214,4.857810387061303,0
224,greetings,2,Кластер 2,sapphire grounds,335.0,1.160626,3.642819729434763,0
225,greetings,3,Кластер 3,entire ethical speakers,1782.0,7.985910,6.003699268483375,0
226,greetings,3,Кластер 3,courtesy textiles diameter,84.0,0.509490,4.151198803764073,0


In [317]:
for area in areas: # проход по областям
    random.shuffle(palette) # перемешиваем список цветов
    for cluster, color in zip(clusters,palette): # используем zip чтобы для каждого кластера был свой цвет
            data.loc[(data['area']==area) & (data['cluster']==clusters[cluster]),'color']=palette[cluster]
            
                
        
            
            
            



In [318]:
data

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y,color
0,eligibility,0,Кластер 0,several animated buried,1260.0,5.772342,12.564796257345005,#e377c2
1,eligibility,0,Кластер 0,singles unusual buyers,866.0,14.829280,7.8507285727125815,#e377c2
2,eligibility,0,Кластер 0,hawaiian directive,163.0,11.381856,3.8981370219558604,#e377c2
3,eligibility,0,Кластер 0,dynamics directly,1146.0,9.980149,6.281427914064545,#e377c2
4,eligibility,1,Кластер 1,decision surgeons montreal,823.0,3.283940,4.39674063521296,#2ca02c
...,...,...,...,...,...,...,...,...
223,greetings,2,Кластер 2,disposition layout,279.0,10.971214,4.857810387061303,#8c564b
224,greetings,2,Кластер 2,sapphire grounds,335.0,1.160626,3.642819729434763,#8c564b
225,greetings,3,Кластер 3,entire ethical speakers,1782.0,7.985910,6.003699268483375,#2ca02c
226,greetings,3,Кластер 3,courtesy textiles diameter,84.0,0.509490,4.151198803764073,#2ca02c


#  Не должно быть дубликатов слов в одной и той же области (area), но словосочетание может повторяться из area в area


In [319]:
data\
    .groupby('area',as_index=False)\
    .agg({'keyword':pd.Series.nunique})

Unnamed: 0,area,keyword
0,ar\vr,14
1,available,15
2,capability,15
3,dialog,14
4,eligibility,14
5,except,15
6,greetings,15
7,housewives,15
8,lithuania,15
9,locator,15


In [320]:
areas_with_dublicates=data\
    .groupby('area',as_index=False)\
    .agg({'keyword':pd.Series.nunique})\
    .sort_values('keyword',ascending=True).head(4)['area'].to_list() # получаем список групп где у нас есть дубликаты

In [321]:
areas_with_dublicates 

['ar\\vr', 'dialog', 'eligibility', 'twisted']

In [322]:
for i in areas_with_dublicates:
    data.loc[data.area==i]=data.loc[data.area==i].drop_duplicates(subset='keyword')
    

In [329]:
for i in areas_with_dublicates: # проверяем
    print(data.loc[data.area==i]['keyword'].value_counts())


written conflict fabulous                 1
interfaces neutral                        1
reservations linking                      1
committees parallel                       1
postcards looked republic detector        1
filling volunteers academics              1
michael tobacco                           1
celtic automation                         1
bangkok mining fascinating                1
previously standing languages commands    1
enquiries implementation                  1
reload athletics                          1
several animated                          1
announces independent                     1
Name: keyword, dtype: int64
several animated                     1
engage gazette                       1
overcome delight office              1
moderate command signals             1
interpretation connections           1
optimal artificial orders            1
cycling adaptive                     1
coalition integration                1
effectiveness baskets                1
batte

#     4) Колонки должны называться именно так, как указано в п.1
