In [12]:
from datetime import date
from pony.orm import *
import json


with open('DATABASE_URL.txt', 'r', encoding='utf-8') as f:
    DATABASE_URL = json.load(f)

db = Database()

# подключение к базе данных 'sentiment' PostgreSQL
db.bind(**DATABASE_URL)

class Sentiment(db.Entity):
    """комментарии (отзывы) пользователей"""
    _resource_ = 'https://www.imdb.com/'
    sentiment_id = PrimaryKey(int, column='sentiment_id', auto=True)  # идентификатор комментария (отзыва)
    rating = Optional(int, column='rating')  # рейтинг комментария (отзыва)
    review = Required(str, column='review')  # комментарий (отзыв) пользователя
    label_id = Required('Label')  # идентификатор типа комментария (отзыва)
    data_id = Required('Data', column='data_id')  # идентификатор выборки
    title_id = Required('Title', column='title_id')  # идентификатор url фильма


class Title(db.Entity):
    """url фильмов"""
    _resource_ = 'https://www.imdb.com/'
    title_id = Set(Sentiment)  # идентификатор url фильма
    title_url = Required(str, unique=True, column='title_url')  # url фильма


class Data(db.Entity):
    """тип выборки"""
    _resource_ = 'https://www.imdb.com/'
    data_id = Set(Sentiment)  # идентификатор выборки
    data_name = Required(str, unique=True, column='data_name')  # наименование выборки


class Label(db.Entity):
    """тип комментариев (отзывов)"""
    _resource_ = 'https://www.imdb.com/'
    label_id = Set(Sentiment)  # идентификатор типа комментария (отзыва)
    label_name = Required(str, unique=True, column='label_name')  # тип комментария (отзыва)


class Sentiment_New(db.Entity):
    """комментарии (отзывы) пользователей"""
    sentiment_id = PrimaryKey(int, column='sentiment_id', auto=True)  # идентификатор комментария (отзыва)
    date = Required(date, column='date')  # дата комментария (отзыва)
    review = Required(str, column='review')  # комментарий (отзыв) пользователя
    rating_pred = Optional(int, column='rating_pred')  # предсказанный рейтинг комментария (отзыва)

db.generate_mapping(create_tables=True)

In [13]:
# задание путей к файлам
PACH_DATA_TRAIN_POS = 'data/train/pos/'
PACH_DATA_TRAIN_NEG = 'data/train/neg/'
PACH_DATA_TRAIN_UNSUP = 'data/train/unsup/'
PACH_DATA_TEST_POS = 'data/test/pos/'
PACH_DATA_TEST_NEG = 'data/test/neg/'
PACH_DATA_TRAIN_URLS_POS = 'data/train/urls_pos.txt'
PACH_DATA_TRAIN_URLS_NEG = 'data/train/urls_neg.txt'
PACH_DATA_TRAIN_URLS_UNSUP = 'data/train/urls_unsup.txt'
PACH_DATA_TEST_URLS_POS = 'data/test/urls_pos.txt'
PACH_DATA_TEST_URLS_NEG = 'data/test/urls_neg.txt'

In [14]:
# функция записи данных в таблицу 'Data'
@db_session
def add_data(data_name):
    db.Data(data_name=data_name)
    # commit() will be done automatically
    # database session cache will be cleared automatically
    # database connection will be returned to the pool

In [15]:
# данные для внесения данных в таблицу 'Data'
data_names = ['train', 'test', 'new']

In [16]:
# запись данных в таблицу 'Data'
for data_name in data_names:
    add_data(data_name)

In [17]:
# проверка записи данных
db.Data.select().show()

id|data_name
--+---------
1 |train    
2 |test     
3 |new      


In [18]:
# функция записи данных в таблицу 'Label'
@db_session
def add_label(data_name):
    db.Label(label_name=label_name)
    # commit() will be done automatically
    # database session cache will be cleared automatically
    # database connection will be returned to the pool

In [19]:
# данные для внесения данных в таблицу 'Label'
label_names = ['pos', 'neg', 'unsup']

In [21]:
# запись данных в таблицу 'Label'
for label_name in label_names:
    add_label(label_name)

In [22]:
# проверка записи данных
db.Label.select().show()

id|label_name
--+----------
1 |pos       
2 |neg       
3 |unsup     


In [23]:
# функция записи данных в таблицу 'Title'
@db_session
def add_title(title_url):
    db.Title(title_url=title_url)
    # commit() will be done automatically
    # database session cache will be cleared automatically
    # database connection will be returned to the pool

In [24]:
# список путей к файлам с url фильмов
PACH_DATA_URLS = [PACH_DATA_TRAIN_URLS_POS, PACH_DATA_TRAIN_URLS_NEG, PACH_DATA_TRAIN_URLS_UNSUP, \
                  PACH_DATA_TEST_URLS_POS, PACH_DATA_TEST_URLS_NEG]

In [25]:
%%time
# объдинение путей к файлам в единый список
data_urls = []
for PACH_DATA_URL in PACH_DATA_URLS:
    with open(PACH_DATA_URL, 'r') as f:
        urls = f.read().split()
        data_urls += urls

CPU times: total: 15.6 ms
Wall time: 82.8 ms


In [26]:
# проверка соответсвия данных
len(data_urls), len(set(data_urls))

(100000, 14127)

In [27]:
# извлечение уникальных url фильмов и преобразование в список
data_urls = list(set(data_urls))
data_urls[:7]

['http://www.imdb.com/title/tt0953318/usercomments',
 'http://www.imdb.com/title/tt0157191/usercomments',
 'http://www.imdb.com/title/tt0247729/usercomments',
 'http://www.imdb.com/title/tt0164368/usercomments',
 'http://www.imdb.com/title/tt0829193/usercomments',
 'http://www.imdb.com/title/tt0158681/usercomments',
 'http://www.imdb.com/title/tt0361805/usercomments']

In [None]:
%%time
# запись данных в таблицу 'Title'
for title_url in data_urls:
    add_title(title_url)   

In [None]:
# проверка записи данных
select(count(t) for t in db.Title).show()

In [None]:
# проверка записи данных
db.Title.select()[:10].show()

In [None]:
# функция записи данных в таблицу 'Sentiment'
@db_session
def add_sentiment(rating, review, label_id, data_id, title_id):
    db.Sentiment(rating=rating, review=review, \
              label_id=label_id, data_id=data_id, title_id=title_id)
    # commit() will be done automatically
    # database session cache will be cleared automatically
    # database connection will be returned to the pool

In [None]:
# список путей к файлам с комментариями (озывами)
PACH_DATA = [PACH_DATA_TRAIN_POS, PACH_DATA_TRAIN_NEG, PACH_DATA_TRAIN_UNSUP, \
             PACH_DATA_TEST_POS, PACH_DATA_TEST_NEG]

In [None]:
# список путей к файлам с url фильмов
PACH_DATA_URLS

In [None]:
%%time
# запись данных в таблицу 'Sentiment'
for PACH, PACH_URL in zip(PACH_DATA, PACH_DATA_URLS):
    data_name = PACH.split('/')[1]
    label_name = PACH.split('/')[-2]
    data_id = db.Data.get(data_name=data_name).id
    label_id = db.Label.get(label_name=label_name).id
    with open(PACH_URL, 'r') as f:
        urls = f.read().split()
    DATA_PACH = os.listdir(PACH)    
    for filename, url in zip(DATA_PACH, urls):
        with open(os.path.join(PACH, filename), 'r', encoding="utf-8") as f:
            review = f.read()
        #sentiment_id = filename.split('.')[0].split('_')[0]
        rating = filename.split('.')[0].split('_')[1]
        title_id = db.Title.get(title_url=url).id
        
        add_sentiment(rating, review, label_id, data_id, title_id)

In [None]:
# проверка записи данных
select(count(s) for s in db.Sentiment).show()

In [None]:
# проверка записи данных
db.Sentiment.select()[:10].show()