In [1]:
import os
import pathlib

ROOT = pathlib.Path().resolve().parent


In [2]:
import pandas as pd
import numpy as np



In [3]:
df = pd.read_csv(ROOT / 'data/rambler.csv', sep='\t')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82977 entries, 0 to 82976
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    82977 non-null  object
 1   sign    82977 non-null  object
 2   text    82977 non-null  object
dtypes: object(3)
memory usage: 1.9+ MB


In [6]:
df = df.drop_duplicates(subset=["sign", "text"])

# Sign

In [7]:
df.sign.value_counts()

sign
leo            6636
capricorn      6632
cancer         6630
gemini         6614
sagittarius    6612
aries          6609
aquarius       6608
scorpio        6603
pisces         6591
virgo          6590
libra          6587
taurus         6584
Name: count, dtype: int64

In [8]:
eng_sign = list(df.sign.unique())
ru_sign = ["овен",
"телец",
"близнецы",
"рак",
"лев",
"дева",
"весы",
"скорпион",
"стрелец",
"козерог",
"водолей",
"рыбы"]

sign_mapper = dict(zip(eng_sign, ru_sign))
sign_mapper

{'aries': 'овен',
 'gemini': 'телец',
 'taurus': 'близнецы',
 'cancer': 'рак',
 'leo': 'лев',
 'virgo': 'дева',
 'libra': 'весы',
 'scorpio': 'скорпион',
 'sagittarius': 'стрелец',
 'capricorn': 'козерог',
 'aquarius': 'водолей',
 'pisces': 'рыбы'}

In [10]:
# делаем маппер для замены


df['sing_ru'] = df['sign'].map(sign_mapper)

df.tail(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['sing_ru'] = df['sign'].map(sign_mapper)


Unnamed: 0,date,sign,text,sing_ru
82967,2023-01-01 00:00:00,taurus,Сегодня у Тельцов будет напряженное утро – при...,близнецы
82968,2023-01-01 00:00:00,cancer,"Сегодня Ракам придется решать рабочие вопросы,...",рак
82969,2023-01-01 00:00:00,leo,Сегодня у Львов могут исполниться желания. Кон...,лев
82970,2023-01-01 00:00:00,virgo,"Сегодня у Дев будет полно проблем. Благо, все ...",дева
82971,2023-01-01 00:00:00,libra,Сегодня Весам стоит быть ближе к любимому чело...,весы
82972,2023-01-01 00:00:00,scorpio,Сегодня Скорпионов поглотит новогодняя суета –...,скорпион
82973,2023-01-01 00:00:00,sagittarius,"Сегодня у Стрельцов не все идет по плану, и, в...",стрелец
82974,2023-01-01 00:00:00,capricorn,Сегодня Козерогам стоит быть во всем осторожне...,козерог
82975,2023-01-01 00:00:00,aquarius,Сегодня Водолеям придется подстраиваться под о...,водолей
82976,2023-01-01 00:00:00,pisces,Сегодня Рыбам не стоит ждать от окружающих мно...,рыбы


In [11]:
# Извлечение характеристик даты

df['date'] = pd.to_datetime(df['date'])


df['month'] = df['date'].dt.month
# День месяца
df['day'] = df['date'].dt.day
#
df['year'] = df['date'].dt.year

# День недели
df['weekday'] = df['date'].dt.weekday
df['weekday_data'] = df['date'].dt.strftime("%A")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['date'] = pd.to_datetime(df['date'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['month'] = df['date'].dt.month
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['day'] = df['date'].dt.day
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_ind

In [12]:
df.year.value_counts()

year
2012    4392
2020    4384
2017    4380
2009    4380
2010    4380
2011    4380
2013    4380
2015    4364
2019    4354
2016    4336
2021    4332
2014    4328
2022    4314
2004    4305
2018    4223
2006    3689
2005    3673
2008    3608
2007    3082
2023      12
Name: count, dtype: int64

In [13]:
weekday_mapper = {
    "Monday": "Понедельник",
    "Tuesday": "Вторник",
    "Wednesday": "Среда",
    "Thursday": "Четверг",
    "Friday": "Пятница",
    "Saturday": "Суббота",
    "Sunday": "Воскресенье",
}

df['weekday_ru'] = df['weekday_data'].map(weekday_mapper)
df['weekday_ru'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['weekday_ru'] = df['weekday_data'].map(weekday_mapper)


array(['Четверг', 'Пятница', 'Суббота', 'Воскресенье', 'Понедельник',
       'Вторник', 'Среда'], dtype=object)

In [14]:
vars = ["sing_ru",
    "date",
    "month",
    "day",
    "weekday",
    'weekday_ru',
    "text"]

dataset = df[vars]

dataset

Unnamed: 0,sing_ru,date,month,day,weekday,weekday_ru,text
0,овен,2004-01-01,1,1,3,Четверг,"Любые разногласия во мнениях скоро улягутся, а..."
1,телец,2004-01-01,1,1,3,Четверг,Первый день нового года прекрасно подходит для...
2,близнецы,2004-01-01,1,1,3,Четверг,Этот день как нельзя лучше подходит для улучше...
3,рак,2004-01-01,1,1,3,Четверг,"Первый день нового года, да еще понедельник бу..."
4,лев,2004-01-01,1,1,3,Четверг,Львы не сорвутся в начале года с места в карье...
...,...,...,...,...,...,...,...
82972,скорпион,2023-01-01,1,1,6,Воскресенье,Сегодня Скорпионов поглотит новогодняя суета –...
82973,стрелец,2023-01-01,1,1,6,Воскресенье,"Сегодня у Стрельцов не все идет по плану, и, в..."
82974,козерог,2023-01-01,1,1,6,Воскресенье,Сегодня Козерогам стоит быть во всем осторожне...
82975,водолей,2023-01-01,1,1,6,Воскресенье,Сегодня Водолеям придется подстраиваться под о...


In [15]:
dataset.to_csv(ROOT / 'data/dataset.csv', sep='\t', index=False)