# Семинар по библиотеке Pandas

Библиотека Pandas очень полезный инструмент, используемый для первичной работы с данными, с помощью которого можно проводить простой анализ данных и предобработку данных. 


Основные возможности Pandas:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

#### Импорт библиотеки:

In [1]:
import pandas as pd

### Загрузка данных и создание датафреймов

#### Наиболее популярные форматы данных (при скачивании датасета из интернета):

* csv (comma separated file), tsv (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* xls (eXceL Spreadsheet $-$ таблицы Microsoft)
* json (JavaScript Object Notation, используется для сериализации структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* txt в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas:__ [pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) 
У функции есть несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html)


Считываем файл с данными, с которыми мы будем работать:

In [2]:
data = pd.read_csv('rbc_df.txt')

In [3]:
data

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


Данные представляют собой 200 наблюдений со страницы РБК Медиа в Инстаграме, включая количество лайков, коммментариев и текст поста. На сегодняшнем семинаре будут изучены основные функции работы с таблицами, потом вы изучите возможности работы со срезами строк, то есть анализ текстов. 

Выведем первые пять наблюдений таблицы с помощью метода ___.head()___

In [5]:
data.head(10)
#автоматически выводит 5, но в скобках можно указать любое число наблюдений

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
5,5,16/10/2021,43,3843,Одна из классификаций предпринимателей предлаг...
6,6,15/10/2021,59,3498,"Стивен Хокинг считал, что черные дыры — это по..."
7,7,14/10/2021,402,10893,С момента выхода «Игры в кальмара» прошел меся...
8,8,14/10/2021,47,1962,Критика позволяет любому специалисту развивать...
9,9,14/10/2021,58,11031,Ежегодный международный конкурс фотографий дик...


* Как можно видеть, первый столбец $-$ номера наблюдений, начиная с нуля
* Второй - дата поста
* Количество комментариев в посте
* Количество лайков в посте

Посмотреть последние пять строк можно с помощью метода ___.tail()___

In [6]:
data.tail()
#автоматически выводит 5, но в скобках можно указать любое число наблюдений

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...
199,199,03/08/2021,1283,3731,Главврач больницы № 40 в Коммунарке Денис Проц...


Также можно посмотреть размер таблицы, то есть вывести _(число наблюдений х число признаков)_, используя ___.shape___

In [7]:
data.shape

(200, 5)

Получается мы имеем 200 наблюдений и в каждом наблюдении по пять признаков: номер наблюдения, дата, число комментариев, число лайков, текст поста

Посмотреть тип:

In [8]:
type(data)

pandas.core.frame.DataFrame

Как мы можем видеть, мы имеем ___DataFrame___, то есть многомерный массив значений (просто табличка).
Также еще одним популярным типом являтся ___Series___. Series – это проиндексированный одномерный массив значений. 

Каждый столбец DataFrame является типом структуры Series (то есть столбец датафрейма это series)

In [9]:
# Тип одного столбца:
type(data['date'])

pandas.core.series.Series

Датафрейм в пандасе можно создавать и вручную:
    

In [10]:
df = pd.DataFrame({'col1' : [4,5,6,7], 'col2' : [10,20,30,40], 'col3' : [100,50,-30,-50]})
df

Unnamed: 0,col1,col2,col3
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


In [11]:
# Посмотреть документацию
?pd.DataFrame

### Работа со строками и столбцами датафрейма

Как уже было сказано, датафрейм $-$ это таблица. Можно вывести названия строк (важно, так как иногда полезно в качестве названий строк выбрать какой-то столбец таблицы):

In [13]:
df.index

RangeIndex(start=0, stop=4, step=1)

Названия столбцов:

In [16]:
data.columns

Index(['Unnamed: 0', 'date', 'comments', 'likes', 'text'], dtype='object')

Полезный функционал:

* параметр df.dtypes $-$ типы колонок
* метод df.fillna(value), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор одного столбца:

In [25]:
data['date']

0      18/10/2021
1      18/10/2021
2      17/10/2021
3      17/10/2021
4      17/10/2021
          ...    
195    04/08/2021
196    04/08/2021
197    04/08/2021
198    03/08/2021
199    03/08/2021
Name: date, Length: 200, dtype: object

Выбор нескольких столбцов:

In [24]:
data[['date', 'comments', 'likes']]

Unnamed: 0,date,comments,likes
0,18/10/2021,80,3425
1,18/10/2021,288,3235
2,17/10/2021,251,5028
3,17/10/2021,107,5806
4,17/10/2021,109,5728
...,...,...,...
195,04/08/2021,126,4783
196,04/08/2021,93,2802
197,04/08/2021,279,4310
198,03/08/2021,257,8337


Другой способ выбирать столбцы:

In [26]:
data.date

0      18/10/2021
1      18/10/2021
2      17/10/2021
3      17/10/2021
4      17/10/2021
          ...    
195    04/08/2021
196    04/08/2021
197    04/08/2021
198    03/08/2021
199    03/08/2021
Name: date, Length: 200, dtype: object

Тип данных в столбцах:

In [27]:
data.dtypes

Unnamed: 0     int64
date          object
comments       int64
likes          int64
text          object
dtype: object

Если мы бы хотели выделить часть датафрейма без какого-либо столбца, мы бы использовали такой код:
Например, для того, чтобы обучить модель на данных, не используя целевую переменную, очевидно

In [31]:
data

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


In [36]:
data.drop('Unnamed: 0', axis = 1).head()

Unnamed: 0,date,comments,likes,text
0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...


Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.
Например, вот так:

In [37]:
data_without_text = data.drop('text', axis = 1).head()

In [38]:
data_without_text.head()

Unnamed: 0.1,Unnamed: 0,date,comments,likes
0,0,18/10/2021,80,3425
1,1,18/10/2021,288,3235
2,2,17/10/2021,251,5028
3,3,17/10/2021,107,5806
4,4,17/10/2021,109,5728


In [40]:
data

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


Как можно видеть, столбец не удалился из исходной таблицы, как уже было сказано, однако, в новой таблице его нет, поскольку мы так прописали в коде

Индексация по строкам (схоже с обычной индексацией в Python):

In [42]:
data.iloc[0:7 + 1]

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
5,5,16/10/2021,43,3843,Одна из классификаций предпринимателей предлаг...
6,6,15/10/2021,59,3498,"Стивен Хокинг считал, что черные дыры — это по..."
7,7,14/10/2021,402,10893,С момента выхода «Игры в кальмара» прошел меся...


То есть мы вывели с нулевого наблюдения по седьмое, не включая его

In [43]:
#индексы как числа
data.iloc[0:7, 0]

0    0
1    1
2    2
3    3
4    4
5    5
6    6
Name: Unnamed: 0, dtype: int64

__Задание__

Выведите только четные строки, написав условие в квадратных скобках, используя метод ___index___

array([ True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False,

In [46]:
#заготовка
data_only_even = data.iloc[data.index % 2 == 0]
data_only_even

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
6,6,15/10/2021,59,3498,"Стивен Хокинг считал, что черные дыры — это по..."
8,8,14/10/2021,47,1962,Критика позволяет любому специалисту развивать...
...,...,...,...,...,...
190,190,06/08/2021,194,7227,Помните фото вяжущего спортсмена на Олимпийски...
192,192,05/08/2021,60,3772,Надеть на голову маску и потребовать деньги — ...
194,194,04/08/2021,286,4212,🐝
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...


В качестве примера используем какой-то столбец для задания названий строк:
Будем использовать копию нашего изначального датафрейма, чтобы не менять его

In [47]:
data_c = data.copy()
data_c.set_index(data["date"], inplace=True)
data_c.head()

Unnamed: 0_level_0,Unnamed: 0,date,comments,likes,text
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
18/10/2021,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
18/10/2021,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
17/10/2021,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
17/10/2021,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
17/10/2021,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...


Теперь строки индексируются с помощью ___date___ (выделено жирным в начале каждой строки)

__Задание__

Создайте небользой датасет с помощью ___pd.DataFrame___ и сделайте так, чтобы строки индексировались любым из столбцов вашего нового датафрейма

In [54]:
df = pd.DataFrame({'col1' : [4,5,6,7], 'col2' : [10,20,30,40], 'col3' : [100,50,-30,-50]})
df = df.set_index(df['col1'])

In [56]:
df.drop('col1', axis=1)

Unnamed: 0_level_0,col2,col3
col1,Unnamed: 1_level_1,Unnamed: 2_level_1
4,10,100
5,20,50
6,30,-30
7,40,-50


### Анализ и преобразование датафрейма

Основная информация по датафрейму:


In [58]:
data

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


In [61]:
data.drop('Unnamed: 0', axis=1).describe()

Unnamed: 0,comments,likes
count,200.0,200.0
mean,230.525,5850.27
std,275.662053,4130.661357
min,15.0,697.0
25%,68.75,3076.5
50%,138.0,4566.5
75%,284.5,7199.5
max,1748.0,24232.0


Обратите внимание, что в конце метода describe ставятся скобочки, попробуйте вывести без них :)

Выводится количество значений, среднее значение по столбцу, СКО, минимальное значение, максимальное значение и квантилиь

Можем вывести уникальные значения в столбце:
    

In [64]:
data['date']

0      18/10/2021
1      18/10/2021
2      17/10/2021
3      17/10/2021
4      17/10/2021
          ...    
195    04/08/2021
196    04/08/2021
197    04/08/2021
198    03/08/2021
199    03/08/2021
Name: date, Length: 200, dtype: object

In [65]:
set(data['date'])

{'01/09/2021',
 '01/10/2021',
 '02/09/2021',
 '02/10/2021',
 '03/08/2021',
 '03/09/2021',
 '03/10/2021',
 '04/08/2021',
 '04/09/2021',
 '04/10/2021',
 '05/08/2021',
 '05/09/2021',
 '05/10/2021',
 '06/08/2021',
 '06/09/2021',
 '06/10/2021',
 '07/08/2021',
 '07/09/2021',
 '07/10/2021',
 '08/08/2021',
 '08/09/2021',
 '08/10/2021',
 '09/08/2021',
 '09/09/2021',
 '09/10/2021',
 '10/08/2021',
 '10/09/2021',
 '10/10/2021',
 '11/08/2021',
 '11/09/2021',
 '11/10/2021',
 '12/08/2021',
 '12/09/2021',
 '12/10/2021',
 '13/08/2021',
 '13/09/2021',
 '13/10/2021',
 '14/08/2021',
 '14/09/2021',
 '14/10/2021',
 '15/08/2021',
 '15/09/2021',
 '15/10/2021',
 '16/08/2021',
 '16/09/2021',
 '16/10/2021',
 '17/08/2021',
 '17/09/2021',
 '17/10/2021',
 '18/08/2021',
 '18/09/2021',
 '18/10/2021',
 '19/08/2021',
 '19/09/2021',
 '20/08/2021',
 '20/09/2021',
 '21/08/2021',
 '21/09/2021',
 '22/08/2021',
 '22/09/2021',
 '23/08/2021',
 '23/09/2021',
 '24/08/2021',
 '24/09/2021',
 '25/08/2021',
 '25/09/2021',
 '26/08/20

Или вот так:


In [68]:
len(data['date'].unique())

77

Уникальные значения в столбце с числом строк с таким значением:

In [67]:
data['date'].value_counts()

24/09/2021    5
10/08/2021    5
04/08/2021    4
02/09/2021    4
21/09/2021    4
             ..
12/09/2021    1
05/09/2021    1
28/08/2021    1
15/10/2021    1
16/10/2021    1
Name: date, Length: 77, dtype: int64


Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

Сделаем нумерацию наблюдений с единицы а не с нуля:

In [69]:
def func(x):
    return x+1   

In [70]:
data

Unnamed: 0.1,Unnamed: 0,date,comments,likes,text
0,0,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра..."
1,1,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...
2,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв..."
3,3,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...
4,4,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...
...,...,...,...,...,...
195,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...
196,196,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...
197,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...
198,198,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...


In [71]:
data['Number'] = data['Unnamed: 0'].apply(lambda x: x+1)

In [73]:
data['Number2'] = data['Unnamed: 0'] + 1 

In [76]:
data['Number2'] + data['likes']

0      3426
1      3237
2      5031
3      5810
4      5733
       ... 
195    4979
196    2999
197    4508
198    8536
199    3931
Length: 200, dtype: int64

Сделаем индексацию строк с помощью столбца Number и удалим столбец Unnamed

In [77]:
data.set_index(data["Number"], inplace=True)
data.drop('Unnamed: 0', axis = 1)

Unnamed: 0_level_0,date,comments,likes,text,Number,Number2
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,18/10/2021,80,3425,"Анализируя клавиатурный почерк сотрудников, ра...",1,1
2,18/10/2021,288,3235,Электронные паспорта россиянам будут выдавать ...,2,2
3,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв...",3,3
4,17/10/2021,107,5806,В Керчи открыли мемориал в память о жертвах тр...,4,4
5,17/10/2021,109,5728,Рут Порат встретила «черный понедельник» 1987 ...,5,5
...,...,...,...,...,...,...
196,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...,196,196
197,04/08/2021,93,2802,Новости под заголовком «Британцы раскритиковал...,197,197
198,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...,198,198
199,03/08/2021,257,8337,UPD: Дизайнера проекта Метро 2030 зовут Конста...,199,199


Красота!

Функция ___groupby___: создание групп по значению какого-то столбца (или группы столбцов)

Например выведем среднее значение лайков по датам постов

In [81]:
data.groupby('date')['likes'].mean()

date
01/09/2021    3473.500000
01/10/2021    5386.500000
02/09/2021    6057.750000
02/10/2021    4820.000000
03/08/2021    6034.000000
                 ...     
29/08/2021    3751.500000
29/09/2021    4524.000000
30/08/2021    7309.666667
30/09/2021    4067.000000
31/08/2021    5869.500000
Name: likes, Length: 77, dtype: float64

In [None]:
data.groupby('date')['likes'].mean()

In [83]:
data.groupby('date')['comments'].max()

date
01/09/2021     265
01/10/2021     318
02/09/2021     504
02/10/2021      90
03/08/2021    1283
              ... 
29/08/2021      84
29/09/2021     136
30/08/2021    1389
30/09/2021     301
31/08/2021     290
Name: comments, Length: 77, dtype: int64

In [84]:
#Можно сделать с помощью функции:

data.groupby('date')['likes'].apply(lambda x: x.max())

date
01/09/2021     3863
01/10/2021    11075
02/09/2021     7328
02/10/2021     4820
03/08/2021     8337
              ...  
29/08/2021     3760
29/09/2021     5908
30/08/2021    11741
30/09/2021     5167
31/08/2021     9924
Name: likes, Length: 77, dtype: int64

__Задание__ 

Выведите сумму комментариев за каждый день 

In [86]:
#Напишите свой код здесь
data.groupby('date')['comments'].sum()



date
01/09/2021     326
01/10/2021     612
02/09/2021    1143
02/10/2021      90
03/08/2021    1540
              ... 
29/08/2021     147
29/09/2021     206
30/08/2021    1743
30/09/2021     493
31/08/2021     317
Name: comments, Length: 77, dtype: int64

Сколько было дней, когда сумма лайков за посты за день превышало 10000?

In [89]:
(data.groupby('date')['likes'].sum() > 10000).sum()

55

In [90]:
(data.groupby('date')['likes'].sum() > 10000).sum()

55

А сколько когда меньше 1000?

In [91]:
(data.groupby('date')['likes'].sum() < 1000).sum()

0

Выбор строк по условию (индексация по строкам по массиву из True и False)
Выведем строки за 4 августа 2021, когда количество комментариев было больше 100:

In [94]:
data[(data.comments > 100) & (data.date == "04/08/2021")]

Unnamed: 0_level_0,Unnamed: 0,date,comments,likes,text,Number,Number2
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
195,194,04/08/2021,286,4212,🐝,195,195
196,195,04/08/2021,126,4783,Многие заманчивые инвестиционные предложения —...,196,196
198,197,04/08/2021,279,4310,После повышения ключевой ставки Банка России с...,198,198


In [None]:
data[(data.comments > 100) & (data.date == "04/08/2021")]

Когда меньше 100:

In [None]:
data[(data.comments < 100) & (data.date == "04/08/2021")]

### Задания 

1. Какова доля постов, когда минимальное количество комментариев было больше 100?

In [104]:
(data.groupby("date")['comments'].min() > 100).sum() / len(data['date'].unique())

0.2077922077922078

2. Выведите датафрейм за 17/10/21 при условии, что количество лайков за пост меньше 5500

In [105]:
data[(data.likes < 5500) & (data.date == "17/10/2021")]

Unnamed: 0_level_0,Unnamed: 0,date,comments,likes,text,Number,Number2
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
3,2,17/10/2021,251,5028,"Рыбы ранимые, а со Скорпионами лучше не связыв...",3,3


3. Сколько было дней, когда среднее значение количества комментариев за посты за день было меньше 100?

In [106]:
(data.groupby('date')['comments'].mean() < 100).sum()

16