In [10]:
import os
import pandas as pd
import logging

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Получаем путь к scrapped_videos_csv
current_directory = os.getcwd()
parent = os.path.dirname(current_directory)

directory = parent + '\Scrapped_videos_csv'

# Создайте пустой DataFrame для объединения данных
rutube_df = pd.DataFrame()

# Пройдитесь по всем файлам в директории
for filename in os.listdir(directory):
    if filename.endswith(".csv") and filename not in ["rutube_videos_data.csv", "all_videos_data.csv", "all_videos_data_no_duplicates.csv", "youtube_videos_data.csv"]:
        # Полный путь к файлу
        file_path = os.path.join(directory, filename)
        
        # Прочитайте CSV-файл
        df = pd.read_csv(file_path)
        
        # Добавьте данные в общий DataFrame
        rutube_df = pd.concat([rutube_df, df], ignore_index=True)
        logger.info(f'{filename} был добавлен в общий файл')

# Сохраните объединенный DataFrame в новый CSV-файл
output_file = 'rutube_videos_data.csv'
rutube_df.to_csv(directory + '\\' + output_file, index=False)

print(f"Все CSV-файлы объединены в {output_file}")

2025-03-04 11:58:15,025 - INFO - rutube_videos_pages(1,1).csv был добавлен в общий файл
2025-03-04 11:58:15,031 - INFO - rutube_videos_pages(1,10).csv был добавлен в общий файл
2025-03-04 11:58:15,035 - INFO - rutube_videos_pages(11,20).csv был добавлен в общий файл
2025-03-04 11:58:15,103 - INFO - rutube_videos_pages(121,180).csv был добавлен в общий файл
2025-03-04 11:58:15,122 - INFO - rutube_videos_pages(181,190).csv был добавлен в общий файл
2025-03-04 11:58:15,172 - INFO - rutube_videos_pages(191,200).csv был добавлен в общий файл
2025-03-04 11:58:15,198 - INFO - rutube_videos_pages(201,210).csv был добавлен в общий файл
2025-03-04 11:58:15,228 - INFO - rutube_videos_pages(21,30).csv был добавлен в общий файл
2025-03-04 11:58:15,272 - INFO - rutube_videos_pages(211,220).csv был добавлен в общий файл
2025-03-04 11:58:15,368 - INFO - rutube_videos_pages(221,230).csv был добавлен в общий файл
2025-03-04 11:58:15,397 - INFO - rutube_videos_pages(231,240).csv был добавлен в общий файл

Все CSV-файлы объединены в rutube_videos_data.csv


In [18]:
# Читаем YouTube-данные
youtube_df = pd.read_csv(
    directory + '\\' + 'youtube_videos_data.csv',
    encoding='utf-8'
)

# Обрабатываем Rutube
rutube_processed = pd.DataFrame({
    "video_id": rutube_df["video_url"],
    "video_title": rutube_df["title"],
    "description": rutube_df["description"],
    "published_at": rutube_df["publication_ts"],
    "views": rutube_df["hits"],
    "likes": rutube_df["likes_count"],
    "comments": rutube_df["comments_count"],
    "category": rutube_df["category name"],
    "channel_id": rutube_df["author id"],
    "channel_name": rutube_df["author name"],
    "subscribers": rutube_df["total_subs"],
    "channel_description": rutube_df["channel_desc"],
    "videos_count": rutube_df["num_of_videos"],
    "source": "Rutube"
})

# Обрабатываем YouTube
youtube_processed = pd.DataFrame({
    "video_id": youtube_df["id_vid"],
    "video_title": youtube_df["title_vid"],
    "description": youtube_df["description_vid"],
    "published_at": youtube_df["publishedAt_vid"],
    "views": youtube_df["viewCount_vid"],
    "likes": youtube_df["likeCount"],
    "comments": youtube_df["commentCount"],
    "category": youtube_df["category"],
    "channel_id": youtube_df["channelId"],
    "channel_name": youtube_df["channelTitle"],
    "subscribers": youtube_df["subscriberCount"],
    "channel_description": youtube_df["description_ch"],
    "videos_count": youtube_df["videoCount"],
    "comments_likes": youtube_df["comments_likes"],
    "tags": youtube_df["tags"],
    "source": "Youtube"
})

# Объединяем
all_videos_df = pd.concat([rutube_processed, youtube_processed], ignore_index=True)

all_videos_df.to_csv(directory + '\\' + "all_videos_data.csv", index=False)

logger.info(f"Объединённый датасет создан. Его размер: {all_videos_df.shape}")

2025-03-04 12:00:32,868 - INFO - Объединённый датасет создан. Его размер: (61175, 16)


In [19]:
df_no_duplicates = all_videos_df.drop_duplicates(subset=['video_id'])
logger.info(f"Датасет был очищен от дубликатов. Его размер: {df_no_duplicates.shape}")
df_no_duplicates.to_csv(directory + '\\' + "all_videos_data_no_duplicates.csv", index=False)

2025-03-04 12:00:46,190 - INFO - Датасет был очищен от дубликатов. Его размер: (9360, 16)
