### Часть 1. Работа с данными

In [1]:
# Импорт библиотек
import pandas as pd

In [2]:
# Импорт набора данных
df = pd.read_csv('tz_data.csv')
df.head()

Unnamed: 0,area,cluster,cluster_name,keyword,good (1),count,x,y
0,eligibility,0.0,Кластер 0,several animated buried,1.0,1260,5.772342,12.564796257345003
1,eligibility,0.0,Кластер 0,singles unusual buyers,1.0,866,14.82928,7.850728572712581
2,eligibility,0.0,Кластер 0,hawaiian directive,1.0,163,11.381856,3.898137021955861
3,eligibility,0.0,Кластер 0,dynamics directly,1.0,1146,9.980149,6.281427914064545
4,eligibility,1.0,Кластер 1,decision surgeons montreal,1.0,823,3.28394,4.39674063521296


Описание столбцов набора данных
- area - область,
- cluster - номер кластера,
- cluster_name - название кластера,
- keyword - словосочетание,
- count - показатель,
- x и y - координаты для диаграммы рассеяния,
- color - цвет точки на карте для данного словосочетания


In [3]:
# Удаление лишнего столбца
df.drop(['good (1)'],axis=1,inplace=True)
df.head()

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y
0,eligibility,0.0,Кластер 0,several animated buried,1260,5.772342,12.564796257345003
1,eligibility,0.0,Кластер 0,singles unusual buyers,866,14.82928,7.850728572712581
2,eligibility,0.0,Кластер 0,hawaiian directive,163,11.381856,3.898137021955861
3,eligibility,0.0,Кластер 0,dynamics directly,1146,9.980149,6.281427914064545
4,eligibility,1.0,Кластер 1,decision surgeons montreal,823,3.28394,4.39674063521296


In [4]:
# Просмотр информации о наборе данных
print(df.info())
print(df.shape)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229 entries, 0 to 228
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   area          228 non-null    object 
 1   cluster       228 non-null    float64
 2   cluster_name  228 non-null    object 
 3   keyword       228 non-null    object 
 4   count         227 non-null    object 
 5   x             228 non-null    float64
 6   y             228 non-null    object 
dtypes: float64(2), object(5)
memory usage: 12.6+ KB
None
(229, 7)


In [5]:
# Просмотр пустых значений
df.isnull().sum()

area            1
cluster         1
cluster_name    1
keyword         1
count           2
x               1
y               1
dtype: int64

In [6]:
# Удаление строк с нулевым признаком count, а также строки count с нечисловыми значениями
df.dropna(subset=['count'], inplace=True)

In [7]:
# Удаление других данных в строках с нечисловыми значениями
df.drop(df.index[df['count'] == 'N\\A'], inplace=True)
df.drop(df.index[df['count'] == '-'], inplace=True)
df.drop(df.index[df['y'] == '0x414fe002'], inplace=True)
df.isnull().sum()

area            0
cluster         0
cluster_name    0
keyword         0
count           0
x               0
y               0
dtype: int64

In [8]:
# Преобразование типа данных в столбцах
df['cluster'] = df['cluster'].astype('int64')
df['count'] = df['count'].astype('int64')
df['y'] = df['y'].astype('float64')

In [9]:
# Предварительный просмотр
df.head(10)

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y
0,eligibility,0,Кластер 0,several animated buried,1260,5.772342,12.564796
1,eligibility,0,Кластер 0,singles unusual buyers,866,14.82928,7.850729
2,eligibility,0,Кластер 0,hawaiian directive,163,11.381856,3.898137
3,eligibility,0,Кластер 0,dynamics directly,1146,9.980149,6.281428
4,eligibility,1,Кластер 1,decision surgeons montreal,823,3.28394,4.396741
5,eligibility,1,Кластер 1,knives everybody,1377,5.607192,13.155189
6,eligibility,1,Кластер 1,lighting observe,281,11.419919,3.161711
7,eligibility,1,Кластер 1,payday oriental,1501,8.03572,2.965695
8,eligibility,1,Кластер 1,vampire injured,139,5.247683,0.779161
9,eligibility,2,Кластер 2,vampire injured,139,5.247683,0.779161


In [10]:
# Названия и количество областей
print(df['area'].unique())
print('Количество областей:', len(pd.unique(df['area']))) 

['eligibility' 'capability' 'available' 'protein' 'winner' 'locator'
 'worlds' 'ar\\vr' 'twisted' 'lithuania' 'personnel' 'housewives' 'dialog'
 'except' 'greetings']
Количество областей: 15


In [11]:
# Для примера просмотр повторяющихся значений в одной области area, сортировка по признаку keyword
df[df['area'] == 'eligibility'].sort_values(by='keyword', ascending=False)

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y
8,eligibility,1,Кластер 1,vampire injured,139,5.247683,0.779161
9,eligibility,2,Кластер 2,vampire injured,139,5.247683,0.779161
1,eligibility,0,Кластер 0,singles unusual buyers,866,14.82928,7.850729
0,eligibility,0,Кластер 0,several animated buried,1260,5.772342,12.564796
7,eligibility,1,Кластер 1,payday oriental,1501,8.03572,2.965695
6,eligibility,1,Кластер 1,lighting observe,281,11.419919,3.161711
5,eligibility,1,Кластер 1,knives everybody,1377,5.607192,13.155189
10,eligibility,2,Кластер 2,heavily responsible,309,4.783522,7.172435
2,eligibility,0,Кластер 0,hawaiian directive,163,11.381856,3.898137
15,eligibility,3,Кластер 3,hawaiian directive,1795,7.309672,2.959739


In [12]:
# Удаление дубликатов значений keyword внутри каждой area
df.drop_duplicates(subset=df.columns[[0, 3]], keep='last', inplace=True)

In [13]:
# Проверка отсутствия дубликатов на примере одной area 
df[df['area'] == 'eligibility'].sort_values(by='keyword', ascending=False)

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y
9,eligibility,2,Кластер 2,vampire injured,139,5.247683,0.779161
1,eligibility,0,Кластер 0,singles unusual buyers,866,14.82928,7.850729
0,eligibility,0,Кластер 0,several animated buried,1260,5.772342,12.564796
7,eligibility,1,Кластер 1,payday oriental,1501,8.03572,2.965695
6,eligibility,1,Кластер 1,lighting observe,281,11.419919,3.161711
5,eligibility,1,Кластер 1,knives everybody,1377,5.607192,13.155189
10,eligibility,2,Кластер 2,heavily responsible,309,4.783522,7.172435
15,eligibility,3,Кластер 3,hawaiian directive,1795,7.309672,2.959739
3,eligibility,0,Кластер 0,dynamics directly,1146,9.980149,6.281428
4,eligibility,1,Кластер 1,decision surgeons montreal,823,3.28394,4.396741


In [14]:
# Для назначения цвета каждому кластеру необходимо узнать, сколько их всего
print(df['cluster_name'].unique())
print('Количество кластеров:', len(pd.unique(df['cluster_name']))) 

['Кластер 0' 'Кластер 1' 'Кластер 2' 'Кластер 3']
Количество кластеров: 4


In [15]:
# Добавление небольшого словаря с цветами
cluster_color = {
    "Кластер 0": "yellow",
    "Кластер 1": "palegreen",
    "Кластер 2": "hotpink",
    "Кластер 3": "cornflowerblue"
}

In [16]:
# Назначаем цвет каждому кластеру
df['color']=df['cluster_name'].map(cluster_color)
df.head(10)

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y,color
0,eligibility,0,Кластер 0,several animated buried,1260,5.772342,12.564796,yellow
1,eligibility,0,Кластер 0,singles unusual buyers,866,14.82928,7.850729,yellow
3,eligibility,0,Кластер 0,dynamics directly,1146,9.980149,6.281428,yellow
4,eligibility,1,Кластер 1,decision surgeons montreal,823,3.28394,4.396741,palegreen
5,eligibility,1,Кластер 1,knives everybody,1377,5.607192,13.155189,palegreen
6,eligibility,1,Кластер 1,lighting observe,281,11.419919,3.161711,palegreen
7,eligibility,1,Кластер 1,payday oriental,1501,8.03572,2.965695,palegreen
9,eligibility,2,Кластер 2,vampire injured,139,5.247683,0.779161,hotpink
10,eligibility,2,Кластер 2,heavily responsible,309,4.783522,7.172435,hotpink
11,eligibility,2,Кластер 2,alternative homeless,129,14.927879,10.281613,hotpink


Сортировка должна происходить по колонкам area, cluster, cluster_name, count (по count значения сортируются в убывающем порядке, в остальных - по возрастающему)

In [17]:
df.sort_values(by='count',ascending=False)

Unnamed: 0,area,cluster,cluster_name,keyword,count,x,y,color
26,capability,2,Кластер 2,transmitted australian,1986,5.655112,5.853698,hotpink
186,dialog,1,Кластер 1,interpretation connections,1981,4.409352,7.835285,palegreen
209,except,2,Кластер 2,jacksonville tomatoes alberta,1968,6.760798,10.922626,hotpink
189,dialog,1,Кластер 1,coalition integration,1967,5.788947,14.868504,palegreen
203,except,1,Кластер 1,announces independent latter senator,1960,2.260567,14.127058,palegreen
...,...,...,...,...,...,...,...,...
151,lithuania,3,Кластер 3,indirect reminder,30,6.057519,8.093122,cornflowerblue
132,twisted,2,Кластер 2,turner navigate expenditures,23,11.253783,3.429091,hotpink
14,eligibility,3,Кластер 3,cowboy arthritis,23,3.598983,12.968220,cornflowerblue
133,twisted,2,Кластер 2,pieces appeals,22,3.024250,2.880182,hotpink


In [18]:
# Выгрузка файла в формат Excel
df.to_excel('./tz_data_1.xlsx')

In [19]:
df.to_csv('./tz_data_1.csv')

##### Ссылка на отсортированный документ
https://docs.google.com/spreadsheets/d/1LQOcNISirVo1iPpWfR5-lspuD0m92I5S0eOXkrmCtxA/edit?usp=sharing