# Определение страниц с наибольшим трафиком конкурента по данным из Keys.so

### Подробное описание в статье https://techcave.ru/posts/118-kak-uznat-samye-poseschaemye-stranicy-saita-konkurenta.html

In [1]:
import pandas as pd

## Объявляем путь к файлу с данными и функции

In [2]:
organic_keys_file = './data/citysee.ru.organic.keys.msk'

# Ctr по данным исследования OverLead https://overlead.me/blog/ctr-na-vydache-yandeksa-ot-2019-goda/
def get_ctr15(pos):
    return {
        pos <= 0:   0.0,
        pos == 1:   27.42,
        pos == 2:   17.38,
        pos == 3:   10.66,
        pos == 4:   6.69,
        pos == 5:   4.97,
        pos == 6:   4.19,
        pos == 7:   4.39,
        pos == 8:   4.23,
        pos == 9:   4.41,
        pos == 10:   2.83,
        pos == 11:   1.68,
        pos == 12:   1.93,
        pos == 13:   2.52,
        pos == 14:   3.45,
        pos == 15:   3.75,
        pos > 15:   0.0
    }[True]

def get_ctr10(pos):
    return {
        pos <= 0:   0.0,
        pos == 1:   31.19,
        pos == 2:   11.20,
        pos == 3:   4.69,
        pos == 4:   3.23,
        pos == 5:   3.05,
        pos == 6:   3.86,
        pos == 7:   3.93,
        pos == 8:   2.61,
        pos == 9:   1.85,
        pos == 10:   1.32,
        pos > 10:   0.0
    }[True]

## Читаем файл с данными

In [3]:
organic_keys_df = pd.read_csv(organic_keys_file + '.csv', sep=';', usecols=[0, 1, 2, 3, 4],
                              names=['Query', 'Page', 'Position', '[Wordstat]', '[!Wordstat]'], header=0)

In [4]:
organic_keys_df.head(10)

Unnamed: 0,Query,Page,Position,[Wordstat],[!Wordstat]
0,достопримечательности бонна на немецком,http://citysee.ru/europe/zapadnaya/germaniya/b...,1,4,1
1,витебск достопримечательности и туристические ...,http://citysee.ru/europe/vostochnaya/belarusia...,1,25,20
2,звенигород достопримечательности зимой,http://citysee.ru/russia/tsfo/moskovskaya-obla...,1,44,7
3,звенигород достопримечательности маршрут,http://citysee.ru/russia/tsfo/moskovskaya-obla...,1,11,1
4,главные достопримечательности кремля,http://citysee.ru/russia/gorod-federalnogo-zna...,1,199,1
5,дьер венгрия достопримечательности,http://citysee.ru/europe/vostochnaya/vengriya/...,1,90,64
6,достопримечательности славянска на кубани фото...,http://citysee.ru/russia/yufo/krasnodarskiy-kr...,1,25,17
7,описание достопримечательностей кремля,http://citysee.ru/russia/gorod-federalnogo-zna...,1,94,1
8,сегед венгрия достопримечательности,http://citysee.ru/europe/vostochnaya/vengriya/...,1,43,37
9,какие достопримечательности в кремле,http://citysee.ru/russia/gorod-federalnogo-zna...,1,62,4


In [5]:
organic_keys_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Query        20000 non-null  object
 1   Page         20000 non-null  object
 2   Position     20000 non-null  int64 
 3   [Wordstat]   20000 non-null  int64 
 4   [!Wordstat]  20000 non-null  int64 
dtypes: int64(3), object(2)
memory usage: 781.4+ KB


In [6]:
organic_keys_df.describe()

Unnamed: 0,Position,[Wordstat],[!Wordstat]
count,20000.0,20000.0,20000.0
mean,20.32365,12000.39,56.084
std,12.934522,160398.5,544.556433
min,1.0,1.0,1.0
25%,10.0,22.0,2.0
50%,17.0,77.0,6.0
75%,29.0,388.25,17.0
max,50.0,11763600.0,27497.0


## Вычисляем значения трафика используя CTR по ТОП 10 и ТОП 15

In [7]:
organic_keys_df['Traffic10'] = organic_keys_df['[!Wordstat]'] * organic_keys_df['Position'].apply(
    lambda x: get_ctr10(x) / 100)
organic_keys_df['Traffic15'] = organic_keys_df['[!Wordstat]'] * organic_keys_df['Position'].apply(
    lambda x: get_ctr15(x) / 100)

organic_keys_df['QueryCount'] = 1
organic_keys_df = organic_keys_df.drop('Position', 1)
organic_keys_df.head(10)

Unnamed: 0,Query,Page,[Wordstat],[!Wordstat],Traffic10,Traffic15,QueryCount
0,достопримечательности бонна на немецком,http://citysee.ru/europe/zapadnaya/germaniya/b...,4,1,0.3119,0.2742,1
1,витебск достопримечательности и туристические ...,http://citysee.ru/europe/vostochnaya/belarusia...,25,20,6.238,5.484,1
2,звенигород достопримечательности зимой,http://citysee.ru/russia/tsfo/moskovskaya-obla...,44,7,2.1833,1.9194,1
3,звенигород достопримечательности маршрут,http://citysee.ru/russia/tsfo/moskovskaya-obla...,11,1,0.3119,0.2742,1
4,главные достопримечательности кремля,http://citysee.ru/russia/gorod-federalnogo-zna...,199,1,0.3119,0.2742,1
5,дьер венгрия достопримечательности,http://citysee.ru/europe/vostochnaya/vengriya/...,90,64,19.9616,17.5488,1
6,достопримечательности славянска на кубани фото...,http://citysee.ru/russia/yufo/krasnodarskiy-kr...,25,17,5.3023,4.6614,1
7,описание достопримечательностей кремля,http://citysee.ru/russia/gorod-federalnogo-zna...,94,1,0.3119,0.2742,1
8,сегед венгрия достопримечательности,http://citysee.ru/europe/vostochnaya/vengriya/...,43,37,11.5403,10.1454,1
9,какие достопримечательности в кремле,http://citysee.ru/russia/gorod-federalnogo-zna...,62,4,1.2476,1.0968,1


## Группируем по статьям с суммированием данных по частотам и трафику. Также считаем число ключевых фраз на статью. Затем сортируем по значению Traffic10.

In [8]:
output_df = organic_keys_df.groupby('Page').sum().sort_values('Traffic10', ascending=False)
output_df.head(10)

Unnamed: 0_level_0,[Wordstat],[!Wordstat],Traffic10,Traffic15,QueryCount
Page,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
http://citysee.ru/europe/vostochnaya/belarusian/brest-dostoprimechatelnosti-goroda.html,8135333,25313,635.8026,1089.9059,257
http://citysee.ru/russia/pfo/respublika-tatarstan/almetevsk-dostoprimechatelnosti-goroda.html,3239882,18054,528.0956,874.3158,149
http://citysee.ru/russia/szfo/murmanskaya-oblast/kirovsk-murmanskaya-oblast-dostoprimechatelnosti.html,827259,16455,498.3522,1017.9627,97
http://citysee.ru/russia/gorod-federalnogo-znacheniya/teatryi-sankt-peterburga-spisok.html,3310074,11393,340.2045,483.1849,249
http://citysee.ru/russia/szfo/murmanskaya-oblast/apatityi-dostoprimechatelnosti-goroda.html,861020,10674,325.2489,524.0089,59
http://citysee.ru/russia/yufo/rostovskaya-oblast/rostov-na-donu-dostoprimechatelnosti-goroda.html,10263976,7236,257.8884,473.9622,165
http://citysee.ru/russia/pfo/permskiy-kray/berezniki-permskij-kraj-dostoprimechatelnosti.html,1454203,10506,247.3662,409.083,166
http://citysee.ru/russia/pfo/permskiy-kray/chajkovskij-dostoprimechatelnosti-goroda.html,1820306,6999,220.0105,428.2659,130
http://citysee.ru/russia/skfo/respublika-dagestan/kaspijsk-dostoprimechatelnosti.html,850775,5292,201.1725,240.3203,65
http://citysee.ru/europe/yuzhnaya/italiya/bari-italiya-dostoprimechatelnosti.html,169299,6285,193.3636,288.8756,68


## Сохраняем данные в CSV файл

In [9]:
output_df.to_csv(organic_keys_file + '.traffic.csv', sep=';', decimal=',', encoding='utf-8')