# 🧪 CSV Analyzer Automation 

Проект предназначен для автоматизации анализа данных в формате CSV.  
Он выполняет:

- базовый статистический анализ
- поиск пропущенных значений
- формирование отчета в формате HTML


## 📒 Структура проекта

1. 📥 Загрузка данных

2. 📊 Обзор данных

3. 📈 Основной статистический анализ

4. ❓ Поиск пропущенных значений

5. 📄 Формирование отчета с DTale

## Шаг 2: Импорт библиотек

In [1]:
import pandas as pd
import dtale
from IPython.display import display, HTML
from dtale import show

## Шаг 3: Загрузка и просмотр данных

In [2]:
df = pd.read_csv(r"C:\Users\Markm\Downloads\example_data (2).csv")

In [3]:
display(df.head())

Unnamed: 0,user_id,age,purchase_date,item,quantity,price
0,1,25,2023-01-01,Book,2,12.5
1,2,30,2023-01-02,Laptop,1,599.99
2,3,22,2023-01-03,Headphones,1,99.99
3,4,35,2023-01-04,Pen,5,2.0
4,5,29,2023-01-05,Monitor,1,199.99


## Шаг 4: Статистический анализ

In [4]:
# Основные статистики по числовым и категориальным признакам
summary = df.describe(include='all').T
display(summary)

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
user_id,10.0,,,,5.5,3.02765,1.0,3.25,5.5,7.75,10.0
age,10.0,,,,30.7,7.484057,22.0,25.75,29.5,34.0,45.0
purchase_date,10.0,10.0,2023-01-01,1.0,,,,,,,
item,10.0,5.0,Book,2.0,,,,,,,
quantity,10.0,,,,1.9,1.286684,1.0,1.0,1.5,2.0,5.0
price,10.0,,,,189.044,243.112962,2.0,12.75,94.99,214.99,649.99


## Шаг 5: Поиск пропусков

In [5]:
# Количество пропусков в каждом столбце
missing = df.isnull().sum()
summary["Missing Values"] = missing
display(summary)

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max,Missing Values
user_id,10.0,,,,5.5,3.02765,1.0,3.25,5.5,7.75,10.0,0
age,10.0,,,,30.7,7.484057,22.0,25.75,29.5,34.0,45.0,0
purchase_date,10.0,10.0,2023-01-01,1.0,,,,,,,,0
item,10.0,5.0,Book,2.0,,,,,,,,0
quantity,10.0,,,,1.9,1.286684,1.0,1.0,1.5,2.0,5.0,0
price,10.0,,,,189.044,243.112962,2.0,12.75,94.99,214.99,649.99,0


## Шаг 6: Визуализация и анализ с помощью Dtale

In [6]:
d = dtale.show(df)

In [7]:
d.open_browser()

## Шаг 7. Работа с данными

In [8]:
# Фильтрация данных с помощью pandas
filtered_data = df[df['price'] > 10]  # Пример фильтрации данных по значению столбца

# Открываем интерфейс dtale для визуализации
d = dtale.show(filtered_data)
d.open_browser()

In [9]:
# Сортировка данных по столбцу "price" по возрастанию
sorted_data = df.sort_values(by="price", ascending=True)
# Открываем интерфейс dtale для визуализации
d = dtale.show(sorted_data)
d.open_browser()

In [10]:
# Группировка по товару с вычислением суммы по количеству
grouped_data = df.groupby('item')['quantity'].sum()

# Открываем интерфейс dtale для визуализации
d = dtale.show(grouped_data)
d.open_browser()

In [11]:
# Функция анализа данных
def analyze_data(data):
    print("Топ 5 строк:")
    print(data.head())
    print("\nОбщее описание данных:")
    print(data.describe())
    print("\nПроверка на пропуски:")
    print(data.isnull().sum())
    
analyze_data(df)

# Открываем интерфейс dtale
d = dtale.show(df)

Топ 5 строк:
   user_id  age purchase_date        item  quantity   price
0        1   25    2023-01-01        Book         2   12.50
1        2   30    2023-01-02      Laptop         1  599.99
2        3   22    2023-01-03  Headphones         1   99.99
3        4   35    2023-01-04         Pen         5    2.00
4        5   29    2023-01-05     Monitor         1  199.99

Общее описание данных:
        user_id        age   quantity       price
count  10.00000  10.000000  10.000000   10.000000
mean    5.50000  30.700000   1.900000  189.044000
std     3.02765   7.484057   1.286684  243.112962
min     1.00000  22.000000   1.000000    2.000000
25%     3.25000  25.750000   1.000000   12.750000
50%     5.50000  29.500000   1.500000   94.990000
75%     7.75000  34.000000   2.000000  214.990000
max    10.00000  45.000000   5.000000  649.990000

Проверка на пропуски:
user_id          0
age              0
purchase_date    0
item             0
quantity         0
price            0
dtype: int64


## Шаг 8: Формирование HTML-отчета c Dtale

In [12]:
with open("report.html", "w", encoding="utf-8") as f:
    f.write("<h2>CSV Report with DTale</h2>")
    f.write(summary.to_html(escape=False))

In [13]:
HTML("report.html")

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max,Missing Values
user_id,10.0,,,,5.5,3.02765,1.0,3.25,5.5,7.75,10.0,0
age,10.0,,,,30.7,7.484057,22.0,25.75,29.5,34.0,45.0,0
purchase_date,10.0,10.0,2023-01-01,1.0,,,,,,,,0
item,10.0,5.0,Book,2.0,,,,,,,,0
quantity,10.0,,,,1.9,1.286684,1.0,1.0,1.5,2.0,5.0,0
price,10.0,,,,189.044,243.112962,2.0,12.75,94.99,214.99,649.99,0


## Шаг 8: Итог

✅ Отчет сформирован и сохранен в `report.html`  
Можно открыть файл в браузере для просмотра результатов анализа