<a name='introduction'></a>
# Проект Посты на Habr.com

В рамках данного проекта осуществим исследовательский анализ данных о постах на Habr.com. Даны наименования статей, количество просмотров (в тыс.), категории, к которым статьи относятся, и даты публикаций

<br>**План работы**:
1. [Импортирование библиотек и первичный анализ данных](#import)
2. [Предобработка данных](#preprocessing)
    - [date](#date)
    - [category](#category)
    - [title](#title)
3. [Исследовательский анализ данных](#eda)

<a name='import'></a>
## 1. Импортирование библиотек и первичный анализ данных

In [1]:
import datetime as dt
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from ast import literal_eval

In [2]:
df_posts = pd.read_csv('posts_data.csv', index_col=0)
display(df_posts.head())
display('Типы данных:', df_posts.dtypes)
display('Пропущенные значения:', df_posts.isna().sum())

Unnamed: 0,title,view_count,category,date
0,Делаем приватный монитор из старого LCD монитора,958.0,['DIY или Сделай сам'],2011-11-27T19:21:13.000Z
1,Самый беззащитный — уже не Сапсан. Всё оказало...,524.0,"['Информационная безопасность', 'Системное адм...",2023-05-18T20:44:55.000Z
2,Были получены исходники 3300 глобальных интерн...,268.0,['Информационная безопасность'],2023-05-18T20:33:08.000Z
3,История игрушки. Поле Чудес,290.0,"['История IT', 'Игры и игровые консоли']",2023-05-18T20:00:22.000Z
4,"[Обновлено в 10:52, 14.12.19] В офисе Nginx пр...",311.0,"['Блог компании ITSumma', 'Nginx', 'Законодате...",2023-05-18T19:30:18.000Z


'Типы данных:'

title          object
view_count    float64
category       object
date           object
dtype: object

'Пропущенные значения:'

title         0
view_count    0
category      0
date          0
dtype: int64

<a name='preprocessing'></a>
## 2. Предобработка данных
[Вернуться во Введение](#introduction)

По очереди осуществим предобработку каждого из параметров.

<a name='date'></a>
### 2. 1. date 

# отредактировать даты (у шести объектов 18 мая 2023 года - что не соответствует действительности)

In [4]:
# Конвертация типа данных 'date' из 'object' в 'datetime'
df_posts['date'] = pd.to_datetime(df_posts['date'])
df_posts['date'].head()

0   2011-11-27 19:21:13+00:00
1   2023-05-18 20:44:55+00:00
2   2023-05-18 20:33:08+00:00
3   2023-05-18 20:00:22+00:00
4   2023-05-18 19:30:18+00:00
Name: date, dtype: datetime64[ns, UTC]

In [5]:
# Создадим отдельные переменные с годом, месяцем, днем, часом и минутой публикации
df_posts['year'] = df_posts['date'].dt.year
df_posts['month'] = df_posts['date'].dt.month
df_posts['day'] = df_posts['date'].dt.day
df_posts['hour'] = df_posts['date'].dt.hour
df_posts['minute'] = df_posts['date'].dt.minute

df_posts = df_posts.drop('date', axis=1)

Unnamed: 0,title,view_count,category,year,month,day,hour,minute
0,Делаем приватный монитор из старого LCD монитора,958.0,['DIY или Сделай сам'],2011,11,27,19,21
1,Самый беззащитный — уже не Сапсан. Всё оказало...,524.0,"['Информационная безопасность', 'Системное адм...",2023,5,18,20,44
2,Были получены исходники 3300 глобальных интерн...,268.0,['Информационная безопасность'],2023,5,18,20,33
3,История игрушки. Поле Чудес,290.0,"['История IT', 'Игры и игровые консоли']",2023,5,18,20,0
4,"[Обновлено в 10:52, 14.12.19] В офисе Nginx пр...",311.0,"['Блог компании ITSumma', 'Nginx', 'Законодате...",2023,5,18,19,30


<a name='category'></a>
### 2. 2. category

In [6]:
# Переведем значения в столбце 'category' в список
df_posts['category'] = df_posts['category'].apply(literal_eval)

<a name='title'></a>
### 2. 3. title