Pandas позволяет загружать данные из различных форматов: текстовых файлов, бинарных,баз данных. 
Pandas оперируют двумя основными структурами данных. Series и DataFrame. 
Series - индексированный массив некоторого типа: числовой, бинарный или категориальный. 
DataFrame - двумерная структура данных, совокупность Series. 

# Работа с Pandas Series

#### Импортируем Pandas и создадим Series объект c указанием индексов

In [1]:
import pandas as pd
s = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])

In [2]:
s

a    1
b    2
c    3
d    4
dtype: int64

#### без указания индексов

In [3]:
s1 = pd.Series([1,2,3,4])

In [4]:
s1

0    1
1    2
2    3
3    4
dtype: int64

#### Можно передать словарь для созданиея Series

In [5]:
d = {'Moscow': 1000, 'London' : 300, 'Paris': 100}
cities = pd.Series(d)

In [6]:
cities

Moscow    1000
London     300
Paris      100
dtype: int64

#### Достем знаечение по индексу

In [7]:
cities['Moscow']

1000

In [8]:
cities[['Moscow', 'Paris']]

Moscow    1000
Paris      100
dtype: int64

In [9]:
cities < 1000

Moscow    False
London     True
Paris      True
dtype: bool

#### условие мы можем передать как индекс

In [10]:
cities[cities < 1000]

London    300
Paris     100
dtype: int64

#### Как поменять значение в Series?

In [11]:
cities['Moscow'] = 1100

In [12]:
cities['Moscow']

1100

#### Присвоить новые значения множеству элементов

In [13]:
cities[cities < 1000] = "Новые значения для всех элементов меньше 1000"

In [14]:
cities

Moscow                                             1100
London    Новые значения для всех элементов меньше 1000
Paris     Новые значения для всех элементов меньше 1000
dtype: object

#### умножение всех элементов на число

In [15]:
cities * 3 

Moscow                                                 3300
London    Новые значения для всех элементов меньше 1000Н...
Paris     Новые значения для всех элементов меньше 1000Н...
dtype: object

In [16]:
cities = [cities.isnull()]

In [17]:
cities

[Moscow    False
 London    False
 Paris     False
 dtype: bool]

# Работа с Pandas Dataframe

In [18]:
import pandas as pd
import numpy as np

## Размер, типы данных, названия столбцов

### Загрузим датасет лента_ру 

In [19]:
filename = 'D:\data_set\lenta-ru-news.csv'

In [20]:
df = pd.read_csv(filename) #открывает csv
df.head(10) #возвращает первые 10 строк нашего датафрейма

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18
5,https://lenta.ru/news/1999/08/31/stancia_mir/,"Космонавты сомневаются в надежности ""Мира""",Как стало известно агентству Ассошиэйтед Пресс...,Россия,Все,1999/08/31
6,https://lenta.ru/news/1999/08/31/vzriv/,Взрыв в центре Москвы: пострадало 30 человек,В зале игровых автоматов в третьем ярусе подзе...,Россия,Все,1999/08/31
7,https://lenta.ru/news/1999/08/31/credit_japs/,Япония кредитует Россию на полтора миллиарда д...,Япония приняла решение разморозить кредиты Рос...,Россия,Все,1999/08/31
8,https://lenta.ru/news/1999/08/31/diana/,Британцы отмечают двухлетие смерти Дианы,Британцы отмечают сегодня скорбную дату - втор...,Мир,Все,1999/08/31
9,https://lenta.ru/news/1999/08/31/mvf/,Отмытые через Bank of NY деньги не имели отнош...,В понедельник директор департамента внешних св...,Россия,Все,1999/08/31


## Случайный отбор десяти элементов, метод sample()

In [21]:
sample_df = df.sample(10) #frac = 0.1 - доля от датасета

In [22]:
sample_df

Unnamed: 0,url,title,text,topic,tags,date
339575,https://lenta.ru/news/2010/07/29/voronej/,Часть Воронежа осталась без света из-за лесных...,Некоторые пригороды Воронежа остались без свет...,Мир,Все,2010/07/29
377248,https://lenta.ru/news/2011/06/06/bucnh/,Шерлок Холмс станет аристократом времен Первой...,Британские актеры Бенедикт Камбербэтч и Ребекк...,Культура,Все,2011/06/06
483045,https://lenta.ru/news/2013/10/14/chelny/,В Набережных Челнах убили активистку движения ...,В Набережных Челнах убита одна из лидеров мест...,Россия,,2013/10/14
787898,https://lenta.ru/news/2019/10/11/finally/,Федор Емельяненко спланировал последний бой в ...,Российский боец смешанного стиля (ММА) Федор Е...,,Бокс и ММА,2019/10/11
204433,https://lenta.ru/news/2007/10/18/foreign/,"""12"" Михалкова поборются за ""Оскар"" с 62 конку...",63 государства выдвинули свои картины на преми...,Культура,Все,2007/10/18
639938,https://lenta.ru/news/2017/01/13/utro/,В Норильске и Дудинке завершилась полярная ночь,В Норильске и Дудинке закончилась полярная ноч...,69-я параллель,События,2017/01/13
214007,https://lenta.ru/news/2008/01/22/green/,"Крупнейшая компьютерная выставка мира ""позелен...","Участники CeBIT, крупнейшей компьютерной выста...",Наука и техника,Все,2008/01/22
437636,https://lenta.ru/news/2012/10/04/er/,"""Единая Россия"" обжаловала передачу мандата Гу...","Депутаты Госдумы от ""Единой России"" обратились...",Россия,Все,2012/10/04
64456,https://lenta.ru/news/2003/01/21/snowshow/,"Вячеслав Полунин привез в Москву ""Снежное шоу""",Известный клоун Вячеслав Полунин приехал в Мос...,Культура,Все,2003/01/21
573256,https://lenta.ru/news/2015/12/15/car/,Навальный сообщил подробности проверки его док...,"Глава Фонда борьбы с коррупцией (ФБК), лидер «...",Россия,Политика,2015/12/15


### Последние строки датафрейма

In [23]:
df.tail(2)

Unnamed: 0,url,title,text,topic,tags,date
800973,https://lenta.ru/news/2019/12/14/meteo/,Россиянам пообещали аномально теплую погоду,В ближайшие дни в европейской части России пог...,,Общество,2019/12/14
800974,https://lenta.ru/news/2019/12/14/olimp/,В конкурсе прогнозов на АПЛ разыграют 100 тыся...,Ведущие футбольные чемпионаты ушли на зимние к...,,Английский футбол,2019/12/14


## Размеры датафрейма shape

shape(число строк, число столбцов)

In [24]:
df.shape

(800975, 6)

названия столбцов

In [25]:
df.columns

Index(['url', 'title', 'text', 'topic', 'tags', 'date'], dtype='object')

типы данных

In [26]:
df.dtypes

url      object
title    object
text     object
topic    object
tags     object
date     object
dtype: object

Вывести необходимые столбцы

In [27]:
df[['date', 'title']]

Unnamed: 0,date,title
0,1914/09/16,1914. Русские войска вступили в пределы Венгрии
1,1914/09/16,1914. Празднование столетия М.Ю. Лермонтова от...
2,1914/09/17,1914. Das ist Nesteroff!
3,1914/09/17,1914. Бульдог-гонец под Льежем
4,1914/09/18,1914. Под Люблином пойман швабский зверь
...,...,...
800970,2019/12/14,Шнуров раскритиковал Гагарину на «Голосе»
800971,2019/12/14,В России предложили изменить правила взыскания...
800972,2019/12/14,В России назвали «черную дату» для Европы
800973,2019/12/14,Россиянам пообещали аномально теплую погоду


## Обращение к элементам датафрейма loc/iloc

In [28]:
df.iloc[-1] #обращение к последнему элементу

url                https://lenta.ru/news/2019/12/14/olimp/
title    В конкурсе прогнозов на АПЛ разыграют 100 тыся...
text     Ведущие футбольные чемпионаты ушли на зимние к...
topic                                                  NaN
tags                                     Английский футбол
date                                            2019/12/14
Name: 800974, dtype: object

In [29]:
df.loc[1, 'text']

'Министерство народного просвещения, в виду происходящих чрезвычайных событий, признало соответственным в день годовщины со дня рождения М.Ю. Лермонтова (2-го октября 1914 года) ограничиться совершением в учебных заведениях панихиды по поэту, отложив празднование юбилея до более благоприятного времени.  \n«Русский инвалид», 16 сентября 1914 года.'

In [30]:
df.iloc[0:6, 0:4] #[от первого до пятого элемента, по четырем столбцам]

Unnamed: 0,url,title,text,topic
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека
5,https://lenta.ru/news/1999/08/31/stancia_mir/,"Космонавты сомневаются в надежности ""Мира""",Как стало известно агентству Ассошиэйтед Пресс...,Россия


In [31]:
df.loc[0:6,'text']

0    Бои у Сопоцкина и Друскеник закончились отступ...
1    Министерство народного просвещения, в виду про...
2    Штабс-капитан П. Н. Нестеров на днях, увидев в...
3    Фотограф-корреспондент Daily Mirror рассказыва...
4    Лица, приехавшие в Варшаву из Люблина, передаю...
5    Как стало известно агентству Ассошиэйтед Пресс...
6    В зале игровых автоматов в третьем ярусе подзе...
Name: text, dtype: object

In [32]:
df.loc[0:6, 'url':'text']

Unnamed: 0,url,title,text
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про..."
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в..."
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю..."
5,https://lenta.ru/news/1999/08/31/stancia_mir/,"Космонавты сомневаются в надежности ""Мира""",Как стало известно агентству Ассошиэйтед Пресс...
6,https://lenta.ru/news/1999/08/31/vzriv/,Взрыв в центре Москвы: пострадало 30 человек,В зале игровых автоматов в третьем ярусе подзе...


## Фильтрация

## Статистика по датафрейму

### описательная статистика

In [33]:
df.describe()

Unnamed: 0,url,title,text,topic,tags,date
count,800975,800975,800970,738973,773756,800975
unique,800964,797832,800037,23,94,7393
top,https://lenta.ru/news/1999/11/12/china/,В Москве объявлено штормовое предупреждение,"РИА ""Новости""",Россия,Все,2019/12/05
freq,2,21,291,160445,453762,284


### описательная статистика по категориям

In [34]:
df.describe(include=[np.object])

Unnamed: 0,url,title,text,topic,tags,date
count,800975,800975,800970,738973,773756,800975
unique,800964,797832,800037,23,94,7393
top,https://lenta.ru/news/1999/11/12/china/,В Москве объявлено штормовое предупреждение,"РИА ""Новости""",Россия,Все,2019/12/05
freq,2,21,291,160445,453762,284


### Статистика по значениям внутри столбца

In [35]:
df['topic'].value_counts() #(normalize='True' - нормализованное значение), подсчет значений 

Россия               160445
Мир                  136621
Экономика             79528
Спорт                 64413
Культура              53797
Бывший СССР           53402
Наука и техника       53136
Интернет и СМИ        44663
Из жизни              27605
Дом                   21734
Силовые структуры     19596
Ценности               7766
Бизнес                 7399
Путешествия            6408
69-я параллель         1268
Крым                    666
Культпросвет            340
Легпром                 114
Библиотека               65
Оружие                    3
ЧМ-2014                   2
Сочи                      1
МедНовости                1
Name: topic, dtype: int64

In [36]:
df['topic'].unique() #показывает уникальные значнеия внутри столбца

array(['Библиотека', 'Россия', 'Мир', 'Экономика', 'Интернет и СМИ',
       'Спорт', 'Культура', 'Из жизни', 'Силовые структуры',
       'Наука и техника', 'Бывший СССР', nan, 'Дом', 'Сочи', 'ЧМ-2014',
       'Путешествия', 'Ценности', 'Легпром', 'Бизнес', 'МедНовости',
       'Оружие', '69-я параллель', 'Культпросвет ', 'Крым'], dtype=object)

## запись в csv

df.to_csv('path.csv')

# Группировка данных

In [37]:
filename1 = r'D:\data_set\trip.csv'
df_1 = pd.read_csv(filename1)

## Корреляция между всеми столбцами датасета

In [38]:
df_1.corr()

Unnamed: 0,tripduration,start station id,start station latitude,start station longitude,end station id,end station latitude,end station longitude,bikeid,birth year,gender
tripduration,1.0,0.004856,0.000245,-0.014859,-0.008593,0.017355,-0.006029,0.002824,-0.027262,-0.048734
start station id,0.004856,1.0,-0.069213,0.15412,0.202527,0.010946,0.104313,-0.00231,0.003075,-0.009058
start station latitude,0.000245,-0.069213,1.0,-0.059304,-0.003656,0.469655,-0.064007,-0.009277,0.0489,0.018902
start station longitude,-0.014859,0.15412,-0.059304,1.0,0.089409,-0.058688,0.562555,-0.004985,-0.005326,0.015141
end station id,-0.008593,0.202527,-0.003656,0.089409,1.0,-0.056424,0.136101,-0.003534,0.005937,-0.006858
end station latitude,0.017355,0.010946,0.469655,-0.058688,-0.056424,1.0,-0.016781,-0.008268,0.050188,0.011906
end station longitude,-0.006029,0.104313,-0.064007,0.562555,0.136101,-0.016781,1.0,-0.005674,0.005399,0.025504
bikeid,0.002824,-0.00231,-0.009277,-0.004985,-0.003534,-0.008268,-0.005674,1.0,-0.010374,0.015008
birth year,-0.027262,0.003075,0.0489,-0.005326,0.005937,0.050188,0.005399,-0.010374,1.0,0.513522
gender,-0.048734,-0.009058,0.018902,0.015141,-0.006858,0.011906,0.025504,0.015008,0.513522,1.0


### Группировка значений в датафрейме

In [39]:
df_1.groupby(['usertype']).groups #внутри лежат индексы строк, в которых представлены значения

{'Customer': Int64Index([    5,     8,    14,    15,    16,    17,    18,    19,    21,
                38,
             ...
             36911, 36912, 36913, 36914, 36915, 36916, 36917, 36918, 36919,
             36920],
            dtype='int64', length=17096),
 'Subscriber': Int64Index([    0,     1,     2,     3,     4,     6,     7,     9,    10,
                11,
             ...
             36897, 36898, 36899, 36900, 36902, 36904, 36905, 36906, 36907,
             36908],
            dtype='int64', length=19825)}

In [40]:
df_1.groupby(['usertype']).first() #показывает первые значения в каждой группе

Unnamed: 0_level_0,tripduration,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,birth year,gender
usertype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Customer,278,2020-06-01 01:27:38.7630,2020-06-01 01:32:17.4570,3639,Harborside,40.719252,-74.034234,3186,Grove St PATH,40.719586,-74.043117,42300,1969,0
Subscriber,122,2020-06-01 00:02:21.7500,2020-06-01 00:04:24.3250,3792,Columbus Dr at Exchange Pl,40.71687,-74.03281,3639,Harborside,40.719252,-74.034234,42489,1987,1


### группировка и среднее значение (таблица)

In [41]:
df_1.groupby(['usertype'])[['tripduration']].mean()#([первый элемент])[[второй элемент]]

Unnamed: 0_level_0,tripduration
usertype,Unnamed: 1_level_1
Customer,3651.805276
Subscriber,1127.921009


### таблица по трем признакам

In [42]:
df_1.groupby(['usertype', 'start station name'])[['tripduration']].mean()#([первый элемент])[[второй элемент]]

Unnamed: 0_level_0,Unnamed: 1_level_0,tripduration
usertype,start station name,Unnamed: 2_level_1
Customer,5 Corners Library,2696.471698
Customer,Astor Place,3603.830645
Customer,Baldwin at Montgomery,2532.252101
Customer,Bergen Ave,16169.614458
Customer,Brunswick & 6th,1628.945652
...,...,...
Subscriber,Union St,1606.817518
Subscriber,Van Vorst Park,1121.712000
Subscriber,Warren St,919.360558
Subscriber,Washington St,1224.987041


### аггрегация данных

In [43]:
df_1.groupby(['usertype']).agg({'tripduration' : sum, 'starttime':'first'})

Unnamed: 0_level_0,tripduration,starttime
usertype,Unnamed: 1_level_1,Unnamed: 2_level_1
Customer,62431263,2020-06-01 01:27:38.7630
Subscriber,22361034,2020-06-01 00:02:21.7500


In [44]:
df_1.groupby(['usertype']).agg({'tripduration' : [sum, min], 
                                'starttime':'first'})

Unnamed: 0_level_0,tripduration,tripduration,starttime
Unnamed: 0_level_1,sum,min,first
usertype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Customer,62431263,61,2020-06-01 01:27:38.7630
Subscriber,22361034,61,2020-06-01 00:02:21.7500


In [45]:
df_1.groupby(['usertype']).agg({'tripduration' : lambda x: max(x) + 1, 
                                'starttime':'first'})

Unnamed: 0_level_0,tripduration,starttime
usertype,Unnamed: 1_level_1,Unnamed: 2_level_1
Customer,1554398,2020-06-01 01:27:38.7630
Subscriber,631696,2020-06-01 00:02:21.7500


In [46]:
sample_df = df.sample(10)

In [47]:
print(type(sample_df))
print(type(df))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


In [48]:
import nltk
import nltk.corpus
from nltk.tokenize import word_tokenize
from string import punctuation
from nltk.corpus import stopwords
import pymorphy2
punctuation = '—'.join(punctuation)
punctuation = '«'.join(punctuation)
punctuation = '»'.join(punctuation)
punctuation = "„".join(punctuation)
punctuation = '“'.join(punctuation)
morph = pymorphy2.MorphAnalyzer()
stopwords = stopwords.words('russian') + [a for a in punctuation]

In [49]:
def tokenizer(text):
    tokens_clean = []
    tokens = word_tokenize(text = text)
    for token in tokens:
        if token not in stopwords:
            form = morph.parse(token)[0].normal_form
            tokens_clean.append(form)
    return tokens_clean

In [50]:
sample_df

Unnamed: 0,url,title,text,topic,tags,date
82701,https://lenta.ru/news/2003/11/25/hodorkovsky/,Завершено следствие по делу Михаила Ходорковского,Генпрокуратура России завершила предварительно...,Россия,Все,2003/11/25
534012,https://lenta.ru/news/2015/01/31/vatican/,В Ватикане нашли детскую порнографию,В Ватикане обнаружена детская порнография. Об ...,Мир,Общество,2015/01/31
240090,https://lenta.ru/news/2008/08/04/nvidia/,Nvidia не планирует прекращать выпуск чипсетов,"Компания Nvidia опровергла информацию о том, ч...",Наука и техника,Все,2008/08/04
506847,https://lenta.ru/news/2014/06/07/zvezda1/,Задержанных на Украине журналистов «Звезды» за...,Журналистов российского телеканала «Звезда» за...,Бывший СССР,Украина,2014/06/07
524192,https://lenta.ru/news/2014/11/13/tezdebt/,В «Аэрофлоте» назвали сумму долга TEZ Tour,«Аэрофлот» отключил TEZ Tour от системы бронир...,Экономика,Бизнес,2014/11/13
388653,https://lenta.ru/news/2011/09/08/time/,Журнал Time отметит десятую годовщину 11 сентя...,Журнал Time отметит десятую годовщину терактов...,Интернет и СМИ,Все,2011/09/08
305393,https://lenta.ru/news/2009/10/30/aquarium/,"""Аквариум"" отменил концерт из-за подозрения на...","Борис Гребенщиков и группа ""Аквариум"" отменили...",Культура,Все,2009/10/30
778398,https://lenta.ru/news/2019/08/26/ssj100/,Sukhoi Superjet оказался кому-то нужен после а...,Министр промышленности и торговли Денис Мантур...,,Госэкономика,2019/08/26
99965,https://lenta.ru/news/2004/08/30/bonus/,В России будет 40 научных премий по миллиону р...,"Начиная с 2005 года, в России будет вручаться ...",Россия,Все,2004/08/30
791358,https://lenta.ru/news/2019/10/29/otvet/,Россия пообещала ответить на высылку дипломата...,Россия ответит на высылку своего дипломата из ...,,Политика,2019/10/29


In [54]:
%%time
sample_df['clean'] = sample_df['text'].apply(tokenizer)
sample_df

Wall time: 262 ms


Unnamed: 0,url,title,text,topic,tags,date,clean
82701,https://lenta.ru/news/2003/11/25/hodorkovsky/,Завершено следствие по делу Михаила Ходорковского,Генпрокуратура России завершила предварительно...,Россия,Все,2003/11/25,"[генпрокуратура, россия, завершить, предварите..."
534012,https://lenta.ru/news/2015/01/31/vatican/,В Ватикане нашли детскую порнографию,В Ватикане обнаружена детская порнография. Об ...,Мир,Общество,2015/01/31,"[в, ватикан, обнаружить, детский, порнография,..."
240090,https://lenta.ru/news/2008/08/04/nvidia/,Nvidia не планирует прекращать выпуск чипсетов,"Компания Nvidia опровергла информацию о том, ч...",Наука и техника,Все,2008/08/04,"[компания, nvidia, опровергнуть, информация, н..."
506847,https://lenta.ru/news/2014/06/07/zvezda1/,Задержанных на Украине журналистов «Звезды» за...,Журналистов российского телеканала «Звезда» за...,Бывший СССР,Украина,2014/06/07,"[журналист, российский, телеканал, звезда, зад..."
524192,https://lenta.ru/news/2014/11/13/tezdebt/,В «Аэрофлоте» назвали сумму долга TEZ Tour,«Аэрофлот» отключил TEZ Tour от системы бронир...,Экономика,Бизнес,2014/11/13,"[аэрофлот, отключить, tez, tour, система, брон..."
388653,https://lenta.ru/news/2011/09/08/time/,Журнал Time отметит десятую годовщину 11 сентя...,Журнал Time отметит десятую годовщину терактов...,Интернет и СМИ,Все,2011/09/08,"[журнал, time, отметить, десять, годовщина, те..."
305393,https://lenta.ru/news/2009/10/30/aquarium/,"""Аквариум"" отменил концерт из-за подозрения на...","Борис Гребенщиков и группа ""Аквариум"" отменили...",Культура,Все,2009/10/30,"[борис, гребенщик, группа, ``, аквариум, '', о..."
778398,https://lenta.ru/news/2019/08/26/ssj100/,Sukhoi Superjet оказался кому-то нужен после а...,Министр промышленности и торговли Денис Мантур...,,Госэкономика,2019/08/26,"[министр, промышленность, торговля, денис, ман..."
99965,https://lenta.ru/news/2004/08/30/bonus/,В России будет 40 научных премий по миллиону р...,"Начиная с 2005 года, в России будет вручаться ...",Россия,Все,2004/08/30,"[начинать, 2005, год, россия, вручаться, 40, п..."
791358,https://lenta.ru/news/2019/10/29/otvet/,Россия пообещала ответить на высылку дипломата...,Россия ответит на высылку своего дипломата из ...,,Политика,2019/10/29,"[россия, ответить, высылка, свой, дипломат, бо..."


SyntaxError: invalid syntax (<ipython-input-62-2e128b52a428>, line 2)

In [72]:
all_tokens_list = []
for i in sample_df['clean']:
    all_tokens_list.append(i)
all_tokens_list

[['генпрокуратура',
  'россия',
  'завершить',
  'предварительный',
  'следствие',
  'уголовный',
  'дело',
  'отношение',
  'бывший',
  'глава',
  'нк',
  '``',
  'юкос',
  "''",
  'михаил',
  'ходорковский',
  'о',
  'ходорковский',
  'объявить',
  '25',
  'ноябрь',
  'присутствие',
  'адвокат',
  'сообщить',
  'информационный',
  'агентство',
  '``',
  'интерфакс',
  "''",
  'официальный',
  'представитель',
  'генпрокуратура',
  'обвинять',
  'вместе',
  'адвокат',
  'начинать',
  'ознакомление',
  'материал',
  'дело',
  'генпрокуратура',
  'обвинять',
  'ходорковский',
  'семь',
  'статья',
  'уголовный',
  'кодекс',
  'россия',
  'число',
  'хищение',
  'путём',
  'мошенничество',
  'крупный',
  'размер',
  'уклонение',
  'уплата',
  'налог',
  'самый',
  '``',
  'юкос',
  "''",
  'лично',
  'ходорковский',
  'кроме',
  'ходорковский',
  'предъявить',
  'обвинение',
  'злостный',
  'неисполнение',
  'вступить',
  'законный',
  'сила',
  'решение',
  'суд',
  'причинение',
  'иму

In [73]:
import gensim
from gensim import corpora
from pprint import pprint
from gensim import models
from gensim.models import LdaModel, LdaMulticore
from gensim.models import LsiModel
import pickle
from pprint import pprint

In [85]:
mydict = corpora.Dictionary(all_tokens_list)
mycorpus = [mydict.doc2bow(doc) for doc in all_tokens_list]
import pickle
pickle.dump(mycorpus, open('corpus1.pkl', 'wb'))
mydict.save('dictionary1.gensim')
ldamodel = gensim.models.ldamodel.LdaModel(corpus=mycorpus,
                                               id2word=mydict,
                                               num_topics=10,
                                               random_state=100,
                                               update_every=1,
                                               chunksize=100,
                                               passes=10,
                                               alpha='auto',
                                               per_word_topics=True)
ldamodel.save('lda_model_10.gensim')
pprint(ldamodel.print_topics())

[(0,
  '0.022*"год" + 0.017*"в" + 0.017*"педофилия" + 0.011*"касаться" + '
  '0.011*"детский" + 0.011*"ватикан" + 0.011*"священник" + 0.011*"случай" + '
  '0.006*"назвать" + 0.006*"сообщать"'),
 (1,
  '0.039*"аэрофлот" + 0.031*"tour" + 0.031*"tez" + 0.020*"система" + '
  '0.020*"отключить" + 0.020*"бронирование" + 0.016*"гарантия" + '
  '0.016*"туроператор" + 0.012*"в" + 0.012*"также"'),
 (2,
  '0.002*"\'\'" + 0.002*"аэрофлот" + 0.001*"``" + 0.001*"tez" + 0.001*"также" '
  '+ 0.001*"в" + 0.001*"tour" + 0.001*"бронирование" + 0.001*"система" + '
  '0.001*"из-за"'),
 (3,
  '0.030*"журналист" + 0.026*"украина" + 0.017*"нацгвардия" + '
  '0.017*"российский" + 0.013*"звезда" + 0.013*"блокпост" + 0.013*"телеканал" '
  '+ 0.009*"информация" + 0.009*"малышев" + 0.009*"связь"'),
 (4,
  '0.002*"\'\'" + 0.002*"``" + 0.001*"аэрофлот" + 0.001*"tour" + 0.001*"tez" + '
  '0.001*"аквариум" + 0.001*"чипсет" + 0.001*"отключить" + 0.001*"также" + '
  '0.001*"бронирование"'),
 (5,
  '0.001*"nvidia" + 0.00

In [86]:
dictionary = corpora.Dictionary(all_tokens_list)
corpus = [dictionary.doc2bow(text) for text in all_tokens_list]
tfidf = models.TfidfModel(corpus, smartirs = 'ntc')
tfidf_model = tfidf[corpus]
lsi_model = LsiModel(corpus = tfidf_model, id2word = dictionary, num_topics = 7, decay = 0.5)
pprint(lsi_model.print_topics(-1, 10))

[(0,
  '0.252*"ходорковский" + 0.225*"``" + 0.225*"\'\'" + 0.170*"аквариум" + '
  '0.131*"аэрофлот" + 0.131*"болгария" + 0.128*"сентябрь" + 0.117*"журналист" '
  '+ 0.105*"tour" + 0.105*"tez"'),
 (1,
  '-0.224*"ходорковский" + -0.211*"\'\'" + -0.211*"``" + -0.200*"аквариум" + '
  '0.164*"болгария" + 0.133*"superjet" + 0.133*"sukhoi" + 0.129*"nvidia" + '
  '0.129*"чипсет" + 0.123*"самолёт"'),
 (2,
  '0.235*"украина" + 0.207*"журналист" + -0.203*"аэрофлот" + 0.183*"болгария" '
  '+ -0.162*"tour" + -0.162*"tez" + -0.160*"чипсет" + -0.160*"nvidia" + '
  '0.156*"нацгвардия" + 0.133*"посольство"'),
 (3,
  '-0.217*"чипсет" + -0.217*"nvidia" + -0.202*"премия" + 0.191*"болгария" + '
  '0.156*"аэрофлот" + -0.155*"сентябрь" + 0.125*"tez" + 0.125*"tour" + '
  '-0.124*"журнал" + 0.109*"педофилия"'),
 (4,
  '0.273*"премия" + 0.209*"педофилия" + 0.140*"детский" + 0.140*"ватикан" + '
  '0.140*"касаться" + 0.140*"священник" + 0.137*"техника" + 0.137*"область" + '
  '0.137*"средство" + 0.137*"разработка

In [99]:
for i in sample_df['clean']:
    bgfd = nltk.FreqDist(i)
    print(bgfd.most_common(10))

[('ходорковский', 9), ('``', 5), ("''", 5), ('генпрокуратура', 3), ('ноябрь', 3), ('адвокат', 3), ('записка', 3), ('россия', 2), ('следствие', 2), ('уголовный', 2)]
[('год', 4), ('в', 3), ('педофилия', 3), ('ватикан', 2), ('детский', 2), ('случай', 2), ('касаться', 2), ('священник', 2), ('обнаружить', 1), ('порнография', 1)]
[('nvidia', 6), ('чипсет', 6), ('компания', 3), ('информация', 3), ('платформа', 3), ('amd', 3), ('ранее', 2), ('выпуск', 2), ('риццо', 2), ('время', 2)]
[('журналист', 7), ('украина', 6), ('российский', 4), ('нацгвардия', 4), ('телеканал', 3), ('звезда', 3), ('блокпост', 3), ('задержать', 2), ('суббота', 2), ('наблюдение', 2)]
[('аэрофлот', 10), ('tez', 8), ('tour', 8), ('отключить', 5), ('система', 5), ('бронирование', 5), ('туроператор', 4), ('гарантия', 4), ('авиакомпания', 3), ('также', 3)]
[('сентябрь', 5), ('журнал', 4), ('11', 4), ('специальный', 4), ('time', 3), ('теракт', 3), ('2001', 3), ('год', 3), ('номер', 3), ('человек', 3)]
[('``', 13), ("''", 13), 

In [100]:
bigram = gensim.models.phrases.Phrases(all_tokens_list, min_count=3, threshold=10)
print(bigram[all_tokens_list[0]])

['генпрокуратура', 'россия', 'завершить', 'предварительный', 'следствие', 'уголовный', 'дело', 'отношение', 'бывший', 'глава', 'нк', '``', 'юкос', "''", 'михаил', 'ходорковский', 'о', 'ходорковский', 'объявить', '25', 'ноябрь', 'присутствие', 'адвокат', 'сообщить', 'информационный', 'агентство', '``', 'интерфакс', "''", 'официальный', 'представитель', 'генпрокуратура', 'обвинять', 'вместе', 'адвокат', 'начинать', 'ознакомление', 'материал', 'дело', 'генпрокуратура', 'обвинять', 'ходорковский', 'семь', 'статья', 'уголовный', 'кодекс', 'россия', 'число', 'хищение', 'путём', 'мошенничество', 'крупный', 'размер', 'уклонение', 'уплата', 'налог', 'самый', '``', 'юкос', "''", 'лично', 'ходорковский', 'кроме', 'ходорковский', 'предъявить', 'обвинение', 'злостный', 'неисполнение', 'вступить', 'законный', 'сила', 'решение', 'суд', 'причинение', 'имущественный', 'ущерб', 'собственник', 'путём', 'обман', 'подделка', 'официальный', 'документ', 'совершенный', 'неоднократно', 'присвоение', 'растрата'

In [105]:
from nltk import ngrams

for i in sample_df['clean']:
    grams = ngrams(i, 2)
    for gram in grams:
        bgfd = nltk.FreqDist(gram)
        print(bgfd.most_common(10))
        

[('генпрокуратура', 1), ('россия', 1)]
[('россия', 1), ('завершить', 1)]
[('завершить', 1), ('предварительный', 1)]
[('предварительный', 1), ('следствие', 1)]
[('следствие', 1), ('уголовный', 1)]
[('уголовный', 1), ('дело', 1)]
[('дело', 1), ('отношение', 1)]
[('отношение', 1), ('бывший', 1)]
[('бывший', 1), ('глава', 1)]
[('глава', 1), ('нк', 1)]
[('нк', 1), ('``', 1)]
[('``', 1), ('юкос', 1)]
[('юкос', 1), ("''", 1)]
[("''", 1), ('михаил', 1)]
[('михаил', 1), ('ходорковский', 1)]
[('ходорковский', 1), ('о', 1)]
[('о', 1), ('ходорковский', 1)]
[('ходорковский', 1), ('объявить', 1)]
[('объявить', 1), ('25', 1)]
[('25', 1), ('ноябрь', 1)]
[('ноябрь', 1), ('присутствие', 1)]
[('присутствие', 1), ('адвокат', 1)]
[('адвокат', 1), ('сообщить', 1)]
[('сообщить', 1), ('информационный', 1)]
[('информационный', 1), ('агентство', 1)]
[('агентство', 1), ('``', 1)]
[('``', 1), ('интерфакс', 1)]
[('интерфакс', 1), ("''", 1)]
[("''", 1), ('официальный', 1)]
[('официальный', 1), ('представитель', 1)]

In [106]:
bigram = gensim.models.Phrases(all_tokens_list, min_count=5, threshold=100)

In [110]:
print(bigram[all_tokens_list[0]])

['генпрокуратура', 'россия', 'завершить', 'предварительный', 'следствие', 'уголовный', 'дело', 'отношение', 'бывший', 'глава', 'нк', '``', 'юкос', "''", 'михаил', 'ходорковский', 'о', 'ходорковский', 'объявить', '25', 'ноябрь', 'присутствие', 'адвокат', 'сообщить', 'информационный', 'агентство', '``', 'интерфакс', "''", 'официальный', 'представитель', 'генпрокуратура', 'обвинять', 'вместе', 'адвокат', 'начинать', 'ознакомление', 'материал', 'дело', 'генпрокуратура', 'обвинять', 'ходорковский', 'семь', 'статья', 'уголовный', 'кодекс', 'россия', 'число', 'хищение', 'путём', 'мошенничество', 'крупный', 'размер', 'уклонение', 'уплата', 'налог', 'самый', '``', 'юкос', "''", 'лично', 'ходорковский', 'кроме', 'ходорковский', 'предъявить', 'обвинение', 'злостный', 'неисполнение', 'вступить', 'законный', 'сила', 'решение', 'суд', 'причинение', 'имущественный', 'ущерб', 'собственник', 'путём', 'обман', 'подделка', 'официальный', 'документ', 'совершенный', 'неоднократно', 'присвоение', 'растрата'