In [1]:
import os
import pathlib

ROOT = pathlib.Path().resolve().parent

os.chdir(ROOT)

In [2]:
import pandas as pd
import numpy as np



In [3]:
df = pd.read_csv('data/horoscopes_full_yandex.csv')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34905 entries, 0 to 34904
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   text      34905 non-null  object
 1   date      34905 non-null  object
 2   sign      34905 non-null  object
 3   category  34905 non-null  object
 4   text_ru   34905 non-null  object
dtypes: object(5)
memory usage: 1.3+ MB


# Sign

In [4]:
df.sign.value_counts()

sign
leo            2914
scorpio        2914
gemini         2911
taurus         2910
libra          2910
sagittarius    2909
pisces         2909
virgo          2908
capricorn      2908
aquarius       2906
aries          2905
cancer         2901
Name: count, dtype: int64

In [5]:
eng_sign = list(df.sign.unique())

eng_sign

['aries',
 'taurus',
 'gemini',
 'cancer',
 'leo',
 'virgo',
 'libra',
 'scorpio',
 'sagittarius',
 'capricorn',
 'aquarius',
 'pisces']

In [6]:
ru_sign = ["овен",
"телец",
"близнецы",
"рак",
"лев",
"дева",
"весы",
"скорпион",
"стрелец",
"козерог",
"водолей",
"рыбы"]

# делаем маппер для замены
sign_mapper = dict(zip(eng_sign, ru_sign))

df['sing_ru'] = df['sign'].map(sign_mapper)

df.sample(10)

Unnamed: 0,text,date,sign,category,text_ru,sing_ru
959,Generally speaking you don’t much care if othe...,08-14-2016,aries,general,"Это по-прежнему прекрасное время года для вас,...",овен
18109,Be in touch with your greatest desires and amb...,26-07-2020,gemini,birthday,"Личные потребности и обязательства, конечно, д...",близнецы
31029,"Your lucky star is shining bright, bringing yo...",13-11-2020,capricorn,birthday,"Ваша счастливая звезда сияет ярко, принося вам...",козерог
9203,Cosmic activity in one of the more negative ar...,07-13-2015,sagittarius,general,"В течение следующих 24 часов, скорее всего, пр...",стрелец
14203,The planets' positions give you a chance to ch...,23-11-2020,aries,wellness,"Перемены - это то, к чему вы относитесь осторо...",овен
11157,Focus on something of a creative or artistic n...,12-18-2014,aquarius,general,"Если другие имеют власть над вами, то только п...",водолей
21860,Your mind and heart are strongly in sync this ...,25-10-2020,leo,birthday,Вы горите желанием оставить свой след и выигра...,лев
26028,Some intense conversations could take place be...,16-03-2021,scorpio,general,Между вами и группой друзей могло бы состоятьс...,скорпион
32680,You can react in various ways to the aspect of...,19-05-2021,aquarius,wellness,Вы можете по-разному реагировать на обстоятель...,водолей
26672,Be careful of stepping on someone else's toes....,18-12-2020,scorpio,career,"Будьте осторожны, не наступайте кому-то на пят...",скорпион


# Category

In [7]:
df.category.value_counts()

category
general     17337
love         4392
career       4392
wellness     4392
birthday     4392
Name: count, dtype: int64

In [8]:
category_mapper = {
    "general": "общее",
"love": "любовь",
"career": "карьера",
"wellness": "здоровье",
"birthday": "др"
}

df['category_ru'] = df['category'].map(category_mapper)


In [9]:
df.category_ru.value_counts()

category_ru
общее       17337
любовь       4392
карьера      4392
здоровье     4392
др           4392
Name: count, dtype: int64

In [20]:
# Извлечение характеристик даты

df['date'] = pd.to_datetime(df['date'], format="%d-%M-%Y")


df['month'] = df['date'].dt.month
# День месяца
df['day'] = df['date'].dt.day

# День недели
df['weekday'] = df['date'].dt.weekday
df['weekday_data'] = df['date'].dt.strftime("%A")

In [21]:
weekday_mapper = {
    "Monday": "Понедельник",
    "Tuesday": "Вторник",
    "Wednesday": "Среда",
    "Thursday": "Четверг",
    "Friday": "Пятница",
    "Saturday": "Суббота",
    "Sunday": "Воскресенье",
}

df['weekday_ru'] = df['weekday_data'].map(weekday_mapper)
df['weekday_ru'].unique()

array(['Суббота', 'Среда', 'Четверг', 'Пятница', 'Воскресенье',
       'Понедельник', 'Вторник'], dtype=object)

In [25]:
vars = ["category_ru",
    "sing_ru",
    "date",
    "month",
    "day",
    "weekday",
    'weekday_ru',
    "text_ru"]

dataset = df[vars]

dataset

Unnamed: 0,category_ru,sing_ru,date,month,day,weekday,weekday_ru,text_ru
0,общее,овен,2013-01-12 00:01:00,1,12,5,Суббота,"Вы не из тех, кто перестраховывается, и даже е..."
1,общее,овен,2013-01-12 00:02:00,1,12,5,Суббота,"Не существует такого понятия, как ""что-то даро..."
2,общее,овен,2013-01-12 00:03:00,1,12,5,Суббота,Поскольку новолуние приходится на одну из наиб...
3,общее,овен,2013-01-12 00:04:00,1,12,5,Суббота,"Сегодня вы услышите что-то потрясающее, но мож..."
4,общее,овен,2013-01-12 00:05:00,1,12,5,Суббота,"Друг или коллега, которого вы давно не видели,..."
...,...,...,...,...,...,...,...,...
34900,др,рыбы,2021-01-12 00:06:00,1,12,1,Вторник,"Отпразднуйте свой день рождения со вкусом, гот..."
34901,др,рыбы,2021-01-13 00:06:00,1,13,2,Среда,"Представьте свою жизнь так, как если бы она бы..."
34902,др,рыбы,2021-01-14 00:06:00,1,14,3,Четверг,"Веселье, игривость и юмор легко проявить в это..."
34903,др,рыбы,2021-01-15 00:06:00,1,15,4,Пятница,"Ваш день рождения - это новый старт, когда вы ..."


In [26]:
dataset.to_csv('data/dataset.csv', sep='\t', index=False)