## Создаем соединение с базой данных с помощью библиотеки sqlite3

In [1]:
import sqlite3
import pandas as pd

sql_connection=sqlite3.connect('../../data/checking-logs.sqlite')
sql_connection

<sqlite3.Connection at 0x24f8755f240>

## Создаем новую таблицу datamart в базе данных, объединив таблицы pageviews и checker с помощью только одного запроса.

1. Таблица содержит следующие столбцы: uid, labname, first_commit_ts, first_view_ts.

2. first_commit_ts — это просто новое имя для столбца timestamp из таблицы checker; он показывает первый коммит конкретного лабораторного задания конкретного пользователя.

3. first_view_ts — первое посещение пользователем из таблицы pageviews, метка времени посещения пользователем ленты новостей.
4. По-прежнему используем фильтр status = 'ready'.
5. По-прежнему используем фильтр numTrials = 1.
6. Имена лабораторных заданий по-прежнему из следующего списка: laba04, laba04s, laba05, laba06, laba06s, project1.
7. Таблица содержит только пользователей (uid с user_*), а не администраторов.

8. first_commit_ts и first_view_ts распарсены как datetime64[ns].

In [2]:
datamart = '''
CREATE TABLE IF NOT EXISTS datamart AS

SELECT 
    checker.uid AS uid,
    checker.labname AS labname,
    datetime(checker.timestamp) AS first_commit_ts,
    datetime(pageviews.datetime) AS first_view_ts
FROM
    checker
LEFT JOIN   
    pageviews
ON
    checker.uid = pageviews.uid
WHERE
    checker.status = 'ready'
    AND checker.numTrials = 1
    AND checker.labname IN ('laba04', 'laba04s', 'laba05', 'laba06', 'laba06s', 'project1')
    AND checker.uid LIKE 'user_%'
GROUP BY
     checker.timestamp,checker.uid;
'''
sql_connection.execute(datamart)
datamart = pd.io.sql.read_sql("SELECT uid, labname, first_commit_ts, first_view_ts FROM datamart", sql_connection, parse_dates=['first_commit_ts', 'first_view_ts'])
datamart

Unnamed: 0,uid,labname,first_commit_ts,first_view_ts
0,user_4,project1,2020-04-17 05:19:02,NaT
1,user_4,laba04,2020-04-17 11:33:17,NaT
2,user_4,laba04s,2020-04-17 11:48:41,NaT
3,user_17,project1,2020-04-18 07:56:45,2020-04-18 10:56:55
4,user_30,laba04,2020-04-18 13:36:53,2020-04-17 22:46:26
...,...,...,...,...
135,user_23,laba06,2020-05-21 08:34:10,NaT
136,user_19,laba06s,2020-05-21 13:27:06,2020-04-21 20:30:38
137,user_23,laba06s,2020-05-21 14:29:15,NaT
138,user_17,laba06,2020-05-21 15:21:31,2020-04-18 10:56:55


In [3]:
datamart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140 entries, 0 to 139
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   uid              140 non-null    object        
 1   labname          140 non-null    object        
 2   first_commit_ts  140 non-null    datetime64[ns]
 3   first_view_ts    59 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 4.5+ KB


## Используя методы библиотеки Pandas, создаем два датафрейма: test и control.


1. test включает пользователей, у которых имеются значения в first_view_ts.

2. control включает пользователей, у которых отсутствуют значения в first_view_ts.
3. Пропущенные значения в control заменяем средним значением first_view_ts пользователей из test (оно пригодится для анализа в будущем).
4. Сохраняем обе таблицы в базе данныx.

In [4]:
# Создание датафрейма test  с пользователями, у которых есть значения в first_view_ts
test = datamart.dropna(subset=['first_view_ts']).copy()

# Создание датафрейма control с пользователями, у которых отсутствуют значения в first_view_ts
control = datamart[datamart['first_view_ts'].isna()].copy()
# заполняем пропущенные значения в столбце first_view_ts  средним значением из test
mean_first_view_ts = test['first_view_ts'].mean()
control['first_view_ts'].fillna(mean_first_view_ts, inplace=True)

# Сохранение таблиц в базе данных
test.to_sql('test', sql_connection, if_exists='replace', index=False)
control.to_sql('control', sql_connection, if_exists='replace', index=False)

81

In [5]:
# test.head()

In [6]:
# control.head()

In [7]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 59 entries, 3 to 139
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   uid              59 non-null     object        
 1   labname          59 non-null     object        
 2   first_commit_ts  59 non-null     datetime64[ns]
 3   first_view_ts    59 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 2.3+ KB


In [8]:
control.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 81 entries, 0 to 137
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   uid              81 non-null     object        
 1   labname          81 non-null     object        
 2   first_commit_ts  81 non-null     datetime64[ns]
 3   first_view_ts    81 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 3.2+ KB


## Закрываем соединение с базой данных.

In [9]:
sql_connection.close()