Анализ посещаемости веб-сайтов

Описание
В проекте: обработаны данные о посещаемости веб-сайтов за август, содержащиеся в архиве urls.zip. Каждый файл внутри архива содержит информацию о сайтах и количестве запросов к ним.

Для анализа выполнены следующие шаги:

1.Разархивация данных: Извлечение файлов из архива в папку.
2.Объединение данных: Все CSV-файлы объединены в один общий DataFrame.
3.Агрегация данных: Подсчитано общее количество запросов (count()) для каждого уникального сайта (req_host), что позволило сократить объем данных и упростить их анализ.
4.Сохранение результата: Итоговая таблица сохранена в файл aggregated_visits.csv в текущей рабочей директории.

In [1]:
import zipfile
import os
import pandas as pd

# Путь к архиву
archive_path = 'urls.zip'
extraction_folder = os.path.splitext(archive_path)[0]  # Используем имя архива без расширения для папки разархивации

# Разархивация файлов
with zipfile.ZipFile(archive_path, 'r') as archive:
    archive.extractall(extraction_folder)

# Инициализация пустого DataFrame для объединения всех таблиц
merged_data = pd.DataFrame()

# Проход по всем CSV файлам в разархивированной папке
for root, dirs, files in os.walk(extraction_folder):
    for file in files:
        if file.endswith('.csv'):  # Проверяем расширение файлов
            csv_file_path = os.path.join(root, file)
            csv_data = pd.read_csv(csv_file_path)  # Чтение файла
            merged_data = pd.concat([merged_data, csv_data], ignore_index=True)  # Объединение таблиц

# Суммирование количества посещений по каждому уникальному req_host
aggregated_visits = merged_data.groupby('req_host', as_index=False).agg({'count()': 'sum'})

# Путь для сохранения результата в текущей рабочей директории
current_directory = os.getcwd()
output_file_path = os.path.join(current_directory, 'aggregated_visits.csv')

# Сохранение результата
aggregated_visits.to_csv(output_file_path, index=False)

# Выводим путь сохраненного файла
print(f"Результат сохранен в: {output_file_path}")


Результат сохранен в: E:\прокси работа\хранение файлов\категоризация для git\aggregated_visits.csv
