## Импорт списка ссылок, дроп перепечаток и сортировка по дате

In [1]:
import numpy as np
import pandas as pd

In [2]:
names = ['id', 'header', 'date',
         'newspaper', 'city', 'md_index', 'url']

data = pd.read_excel('urls-all.xlsx',
                     names = names)

shape_init = data.shape

display(data.head(10))

Unnamed: 0,id,header,date,newspaper,city,md_index,url
0,1,Европа похожа на изнасилованную и брошенную же...,2016-02-01,РИА ФАН (riafan.ru),Москва,0.003,http://riafan.ru/499751-evropa-pohozha-na-izna...
1,2,Беженцы привезли в Швецию грабежи и насилие,2016-02-01,Утро.ру (utro.ru),Москва,0.885,http://www.utro.ru/articles/2016/02/01/1269361...
2,3,В Европе бесследно исчезли 10 тысяч детей мигр...,2016-02-01,ТК Звезда (tvzvezda.ru),Москва,0.91,http://tvzvezda.ru/news/vstrane_i_mire/content...
3,4,На Урале уголовник изнасиловал дочь и чуть не ...,2016-02-01,ИА Ura.ru,Екатеринбург,0.9,http://ura.ru/news/1052238777
4,5,На Ставрополье насильник-рецидивист надругался...,2016-02-01,Комсомольская правда (kp.ru),Москва,1.44,http://www.kp.ru/online/news/2293586/
5,6,Петербурженка изнасилована неизвестным с татуи...,2016-02-01,Фонтанка (fontanka.ru),Санкт-Петербург,0.894,http://www.fontanka.ru/2016/02/01/045/
6,7,Девочка из русского мира,2016-02-01,Новая газета,Москва,2.462,
7,8,ПРОБЛЕМА ДЛИНОЮ В ВЕКА,2016-02-01,The New Times,Москва,0.891,
8,9,КАЗЕННЫЙ ДОМ,2016-02-01,Наша версия,Москва,0.387,
9,10,НЕ ЧУЖОЕ БЕЗУМИЕ,2016-02-01,Наша версия,Москва,0.327,


In [3]:
print('Initinal num of articles:', shape_init[0])
print('Num of variables:', shape_init[1])

Initinal num of articles: 87183
Num of variables: 7


In [4]:
data = data.drop_duplicates(subset=['header'])
shape_uniq = data.shape

print('Num of duplicates:', shape_init[0] - shape_uniq[0])
print('Num of unique articles:', shape_uniq[0])

Num of duplicates: 10961
Num of unique articles: 76222


In [5]:
data = data.sort_values(by=['date'])
data.head()

Unnamed: 0,id,header,date,newspaper,city,md_index,url
710,711,Героев - народу!,2016-01-01,Мир фантастики,Москва,0.003,
709,710,RISE OF THE TOMB RAIDER,2016-01-01,Игромания,Москва,0.135,
708,709,Сводка Совинформбюро на 02 января 1942,2016-01-02,ИА Росинформбюро,Москва,0.003,http://www.rosinform.ru/sovinformburo/632038-s...
707,708,Эксгибиционизм,2016-01-02,Passion (passion.ru),Москва,0.096,http://sex.passion.ru/entsiklopediya-seksa/e/e...
706,707,Волшебные книги на новогодние праздники: обзор...,2016-01-02,Фонтанка (fontanka.ru),Санкт-Петербург,2.965,http://calendar.fontanka.ru/articles/3178/


## Чистка данных. Этап 1.

Удаление нерелевантных медиа, публикаций без ссылок и негативный фильтр по ключевым словам для очистки от нерелевантных форм насилия

In [6]:
# Список стоп-слов для фильтра неревантных публикаций
stopwords_txt = open("stopwords.txt", "r", encoding = 'utf-8').read().strip().split('\n')
stopwords = []

for word in stopwords_txt:
    stopwords.extend([word, word.capitalize()])
    
print(stopwords)

['10-лет', '10-лет', '11-лет', '11-лет', '12-лет', '12-лет', '13-лет', '13-лет', '14-лет', '14-лет', '15-лет', '15-лет', '16-лет', '16-лет', '17-лет', '17-лет', '2-лет', '2-лет', '3-лет', '3-лет', '4-лет', '4-лет', '5-лет', '5-лет', '6-лет', '6-лет', '7-лет', '7-лет', '8-лет', '8-лет', '9-лет', '9-лет', 'внуч', 'Внуч', 'воспитанни', 'Воспитанни', 'восьмилет', 'Восьмилет', 'геи', 'Геи', 'гей', 'Гей', 'гея', 'Гея', 'двухлет', 'Двухлет', 'девоч', 'Девоч', 'девятилет', 'Девятилет', 'десятилет', 'Десятилет', 'детдом', 'Детдом', 'детей', 'Детей', 'дети', 'Дети', 'детоубий', 'Детоубий', 'детск', 'Детск', 'детьми', 'Детьми', 'дочер', 'Дочер', 'дочк', 'Дочк', 'дочь', 'Дочь', 'животн', 'Животн', 'зоофил', 'Зоофил', 'извращ', 'Извращ', 'изнасиловала', 'Изнасиловала', 'изнасилованного', 'Изнасилованного', 'изнасилованном', 'Изнасилованном', 'изнасилованный', 'Изнасилованный', 'интернат', 'Интернат', 'классник', 'Классник', 'классниц', 'Классниц', 'маленькую', 'Маленькую', 'малолетн', 'Малолетн', '

In [7]:
for word in stopwords:
  data = data.drop(data[data.header.str.contains(word, regex=False)].index)

print('Num of articles dropped:', shape_uniq[0] - data.shape[0])
print('Num of articles remaining:', data.shape[0])

Num of articles dropped: 30750
Num of articles remaining: 45472


In [8]:
data[data.url.isna()].md_index.describe()

count    5827.000000
mean        0.859471
std         1.142639
min         0.000000
25%         0.003000
50%         0.125000
75%         1.680000
max         6.032000
Name: md_index, dtype: float64

In [9]:
data[~data.url.isna()].md_index.describe()

count    39645.000000
mean         1.222656
std          0.752824
min          0.000000
25%          0.629000
50%          1.140000
75%          1.699000
max          4.995000
Name: md_index, dtype: float64

In [10]:
# Удаляю все публикации без ссылок
data = data[~data.url.isna()]
data

Unnamed: 0,id,header,date,newspaper,city,md_index,url
708,709,Сводка Совинформбюро на 02 января 1942,2016-01-02,ИА Росинформбюро,Москва,0.003,http://www.rosinform.ru/sovinformburo/632038-s...
707,708,Эксгибиционизм,2016-01-02,Passion (passion.ru),Москва,0.096,http://sex.passion.ru/entsiklopediya-seksa/e/e...
706,707,Волшебные книги на новогодние праздники: обзор...,2016-01-02,Фонтанка (fontanka.ru),Санкт-Петербург,2.965,http://calendar.fontanka.ru/articles/3178/
704,705,"Заместители глав МИД Японии, США и Южной Кореи...",2016-01-03,ТАСС,Москва,1.988,http://tass.ru/mezhdunarodnaya-panorama/2569822
703,704,Женщины для утех по-прежнему нужны: Япония и К...,2016-01-03,ИА Regnum,Москва,2.312,http://regnum.ru/news/2048238.html
...,...,...,...,...,...,...,...
86780,11,"Член жюри телешоу ""Американский идол"" обвинила...",2023-12-30,Газета.Ru,Москва,1.324,https://www.gazeta.ru/culture/news/2023/12/30/...
86790,21,Обвиняется в домогательствах: более 600 деятел...,2023-12-30,Passion (passion.ru),Москва,0.416,https://www.passion.ru/news/ikh-shoubiz/obviny...
86782,13,Более 600 деятелей культуры во Франции выступи...,2023-12-30,ИА Regnum,Москва,0.897,https://regnum.ru/news/3856475
86772,3,Ришар отказался от письма в поддержку Депардье,2023-12-31,ИА Ura.ru,Екатеринбург,1.959,https://ura.news/news/1052719195


In [11]:
# Сколько всего медиа на этом этапе
data.newspaper.unique().shape

(131,)

In [12]:
# Посмотрим на медиа, которые вошли в изначальный датасет
names = data.groupby(['newspaper']).size().index
papers = pd.DataFrame(data.groupby(['newspaper']).size(),
                      columns = ['count'])
papers.insert(0, 'newspaper', names)
papers = papers.set_index(np.arange(0, papers.shape[0]))
papers.sort_values(by=['count'], ascending=False)

Unnamed: 0,newspaper,count
78,Комсомольская правда (kp.ru),2190
12,Lenta.Ru,2057
34,Газета.Ru,2013
51,ИА Regnum,1656
108,РИА ФАН (riafan.ru),1545
...,...,...
55,ИА Аванпост Пресс,1
68,ИА Сегодня (agencytoday.ru),1
72,ИА Финансовый Юрист (financial-lawyer.ru),1
43,ИА Agencytown.ru,1


In [13]:
# Здесь вручную отсмотрела все 131 медиа на релевантность и актуальность
#data[data.newspaper == 'Lenta.Ru']

In [14]:
# Дропаем нерелевантные / неактивные медиа
papers_for_drop = open("irr-media-sources.txt", "r", encoding = 'utf-8').read().strip().split('\n')

# Сохраним список удаленных медиа в эксельку
irr_papers = papers[papers.newspaper.isin(papers_for_drop)]
irr_papers = irr_papers.sort_values(by='count', ascending=False)
print('Papers dropped:', irr_papers.shape[0])

irr_papers.to_excel("newspapers-for-drop.xlsx")

Papers dropped: 62


In [15]:
papers = papers[~papers.newspaper.isin(papers_for_drop)]
papers = papers.sort_values(by='count', ascending=False)
print('Remaining papers:', papers.shape[0])

# Сохраним список оставшихся медиа в эксельку
#papers.to_excel("newspapers-list.xlsx")

Remaining papers: 69


In [16]:
assert data[data.newspaper.isin(papers_for_drop)].shape[0] == irr_papers['count'].sum()

In [17]:
data = data[~data.newspaper.isin(papers_for_drop)]
print('Num of articles after 1st cleaning:', data.shape[0])
#data.to_excel("urls-cleaned.xlsx")

Num of articles after 1st cleaning: 31817


## Чистка данных. Этап 2

Позитивный фильтр по ключевым словам про насилие над женщинами

In [18]:
# Ключевые слова для отбора публикаций

keywords_all = open("sv-women-keywords.txt", "r", encoding = 'utf-8').read().strip().split('\n')
keywords_sin = []
keywords_mult = []

for keyword in keywords_all:
  if '&' in keyword:
    pair = keyword.split(' & ')
    keywords_mult.extend([pair,
                          [pair[0].capitalize(), pair[1]],
                          [pair[0], pair[1].capitalize()],
                          [pair[0].capitalize(), pair[1].capitalize()]])
  else:
    keywords_sin.extend([keyword,
                         keyword.capitalize()])

print(keywords_sin)
print(keywords_mult)

['harassment', 'Harassment', 'metoo', 'Metoo', 'MeToo', 'Metoo', 'домогавшегося', 'Домогавшегося', 'домогавшийся', 'Домогавшийся', 'домогался', 'Домогался', 'домогательств', 'Домогательств', 'домогаться', 'Домогаться', 'женщин', 'Женщин', 'жертв', 'Жертв', 'защит', 'Защит', 'защищ', 'Защищ', 'избиение', 'Избиение', 'избил', 'Избил', 'избитая', 'Избитая', 'изнасилов', 'Изнасилов', 'маньяк', 'Маньяк', 'на женщ', 'На женщ', 'На женщ', 'На женщ', 'надругал', 'Надругал', 'надругательст', 'Надругательст', 'нападен', 'Нападен', 'насилова', 'Насилова', 'насилуют', 'Насилуют', 'насильник', 'Насильник', 'насильственные сексуальные действия', 'Насильственные сексуальные действия', 'обвинение', 'Обвинение', 'обвиняемый', 'Обвиняемый', 'похититель', 'Похититель', 'похищение', 'Похищение', 'самооборон', 'Самооборон', 'секс-преступлен', 'Секс-преступлен', 'секс-скандал', 'Секс-скандал', 'скандал', 'Скандал', 'убийств', 'Убийств', 'убийц', 'Убийц', 'убил', 'Убил', 'харассмент', 'Харассмент', 'я тоже',

In [19]:
# Кусок к которому начнем клеить
d1 = data[data.header.str.contains(keywords_sin[0])]

In [20]:
# Добавляем все релевантные публикации построчно (хз почему так, захотелось бля)
for keyword in keywords_sin:
  d_add = data[data.header.str.contains(keyword, regex=False)]
  d1 = pd.concat([d1, d_add])

for pair in keywords_mult:
  d_add = data[data.header.str.contains(pair[0]) & data.header.str.contains(pair[1])]
  d1 = pd.concat([d1, d_add])

data_parsing = d1.drop_duplicates(subset=['header'])
data_parsing = data_parsing.sort_values(by=['date'])

In [21]:
print('Num of articles after 2nd cleaning:', data_parsing.shape[0])
data_parsing.to_excel("urls-for-parsing.xlsx")

Num of articles after 2nd cleaning: 17110


## Посмотрим на датасет ссылок для парсинга

In [22]:
data_parsing

Unnamed: 0,id,header,date,newspaper,city,md_index,url
703,704,Женщины для утех по-прежнему нужны: Япония и К...,2016-01-03,ИА Regnum,Москва,2.312,http://regnum.ru/news/2048238.html
700,701,В Норвегии мигрантов научат не насиловать женщин,2016-01-04,Известия (iz.ru),Москва,1.113,http://izvestia.ru/news/600956
693,694,Полиция Кельна опровергла сообщения о нападени...,2016-01-05,Российская газета (rg.ru),Москва,1.266,http://www.rg.ru/2016/01/05/keln-site.html
691,692,Меркель потребовала дать жесткий ответ на напа...,2016-01-05,Фонтанка (fontanka.ru),Санкт-Петербург,1.186,http://www.fontanka.ru/2016/01/05/077/
681,682,"Мэр Кельна шокировала немок советом, как избег...",2016-01-06,РИА Новости,Москва,3.996,http://ria.ru/world/20160106/1355541587.html
...,...,...,...,...,...,...,...
86794,25,Брата Майкла Джексона обвинили в изнасиловании,2023-12-29,Известия (iz.ru),Москва,1.200,https://iz.ru/1628155/2023-12-29/brata-maikla-...
86792,23,Просто эпидемия: старшего брата Майкла Джексон...,2023-12-29,Eadaily.com,Москва,1.469,https://eadaily.com/ru/news/2023/12/29/prosto-...
86803,34,Приговоренный к 24 годам тюрьмы тулунский мань...,2023-12-29,Телеканал 360 (360tv.ru),Красногорск,1.559,https://360tv.ru/news/proisshestviya/prigovore...
86784,15,Более 600 деятелей культуры осудили обвиняемог...,2023-12-30,Общественная служба новостей (osnmedia.ru),Москва,0.959,https://www.osnmedia.ru/kultura/bolee-600-deya...


In [23]:
# Медиа в порядке от самого популярного по кол-ву публикаций до самого нет
names = data_parsing.groupby(['newspaper']).size().index
papers = pd.DataFrame(data_parsing.groupby(['newspaper']).size(),
                      columns = ['count'])
papers.insert(0, 'newspaper', names)
papers = papers.set_index(np.arange(0, papers.shape[0]))
papers = papers.sort_values(by=['count'], ascending=False)

In [24]:
papers

Unnamed: 0,newspaper,count
41,Комсомольская правда (kp.ru),1522
20,Газета.Ru,1103
5,Lenta.Ru,1079
27,ИА Regnum,868
62,Телеканал 360 (360tv.ru),738
...,...,...
26,ИА OnAir.ru,5
48,ПРАЙМ,4
33,ИА Реалист,1
38,Коммерсантъ (kommersant.ru),1


In [25]:
# Видим, что ушло несколько источников, сохраним новый список в эксельку

papers.to_excel("newspapers-list-fin.xlsx")