**Исследовательский анализ данных (EDA) по видеоданным**

**Введение**

В этом проекте проводится предварительный анализ данных, полученных из внешнего CSV-файла с видеоданными.

**_Цель_** — оценить качество данных по критериям полноты, уникальности, дублирования и точности, что позволит понять их пригодность для дальнейшей обработки и моделирования.

**Загрузка и первичный обзор данных**

In [None]:
import pandas as pd
import requests
from io import StringIO

# Ссылка на csv файл видеоданных
url = 'https://drive.google.com/file/d/1xxVEprqDIAMIc9rAIo5LNjAjAzfH2sPq/view?usp=share_link'

file_id = url.split('/')[-2]
dwn_url = 'https://drive.google.com/uc?export=download&id=' + file_id
response = requests.get(dwn_url)
response.raise_for_status()

csv_raw = StringIO(response.text)
raw_data = pd.read_csv(csv_raw)

print("Переменные в данных:", raw_data.columns.tolist())


**_Вывод:_** Данные успешно загружены и доступен список переменных (столбцов), включающих координаты движений различных частей тела и вероятность достоверности данных

**Оценка полноты данных** (Completeness)

In [3]:
# Рассчитываем долю непустых значений по каждому столбцу
completeness = raw_data.notnull().mean()
print("1. Completeness (полнота) по столбцам:")
print(completeness)


1. Completeness (полнота) по столбцам:
bodyparts         1.0
snout_x           1.0
snout_y           1.0
likelihood        1.0
leftforword_x     1.0
leftforword_y     1.0
likelihood.1      1.0
rightforword_x    1.0
rightforword_y    1.0
likelihood.2      1.0
midbody_x         1.0
midbody_y         1.0
likelihood.3      1.0
leftback_x        1.0
leftback_y        1.0
likelihood.4      1.0
rightback_x       1.0
rightback_y       1.0
likelihood.5      1.0
tail_x            1.0
tail_y            1.0
likelihood.6      1.0
dtype: float64


In [None]:
**_Вывод:_** Все столбцы имеют высокую полноту (доля заполненных значений), что положительно сказывается на надежности анализа.

**Анализ уникальности и дублирования строк**

In [4]:
total_rows = len(raw_data)
unique_rows = raw_data.drop_duplicates().shape[0]
uniqueness = unique_rows / total_rows if total_rows > 0 else 0

duplication_rate = 1 - uniqueness

print(f"\n2. Uniqueness (уникальность строк): {uniqueness:.4f} ({unique_rows} уникальных из {total_rows} записей)")
print(f"\n3. Duplication Rate (уровень дублирования): {duplication_rate:.4f}")



2. Uniqueness (уникальность строк): 1.0000 (27473 уникальных из 27473 записей)

3. Duplication Rate (уровень дублирования): 0.0000


**_Вывод:_** Данные практически не содержат дубликатов, что указывает на хорошее качество записи.

**Проверка точности данных (Accuracy) — выявление отрицательных значений**

In [5]:
accuracy_report = {}
for col in raw_data.columns:
    if pd.api.types.is_numeric_dtype(raw_data[col]):
        neg_count = (raw_data[col] < 0).sum()
        total_count = len(raw_data[col])
        accuracy_report[col] = {
            "negative_values": neg_count,
            "total": total_count,
            "negative_ratio": neg_count / total_count if total_count > 0 else 0
        }
    else:
        accuracy_report[col] = "Не числовой столбец — проверка не выполнена."

print("\n4. Accuracy (простейшая проверка отрицательных значений в числовых столбцах):")
for col, stats in accuracy_report.items():
    if isinstance(stats, dict):
        print(f" - {col}: отрицательных значений = {stats['negative_values']} из {stats['total']} "
              f"(доля {stats['negative_ratio']:.4f})")
    else:
        print(f" - {col}: {stats}")



4. Accuracy (простейшая проверка отрицательных значений в числовых столбцах):
 - bodyparts: отрицательных значений = 0 из 27473 (доля 0.0000)
 - snout_x: отрицательных значений = 0 из 27473 (доля 0.0000)
 - snout_y: отрицательных значений = 0 из 27473 (доля 0.0000)
 - likelihood: отрицательных значений = 0 из 27473 (доля 0.0000)
 - leftforword_x: отрицательных значений = 0 из 27473 (доля 0.0000)
 - leftforword_y: отрицательных значений = 0 из 27473 (доля 0.0000)
 - likelihood.1: отрицательных значений = 0 из 27473 (доля 0.0000)
 - rightforword_x: отрицательных значений = 0 из 27473 (доля 0.0000)
 - rightforword_y: отрицательных значений = 0 из 27473 (доля 0.0000)
 - likelihood.2: отрицательных значений = 0 из 27473 (доля 0.0000)
 - midbody_x: отрицательных значений = 0 из 27473 (доля 0.0000)
 - midbody_y: отрицательных значений = 0 из 27473 (доля 0.0000)
 - likelihood.3: отрицательных значений = 0 из 27473 (доля 0.0000)
 - leftback_x: отрицательных значений = 0 из 27473 (доля 0.0000)


**_Вывод:_** Отрицательные значения отсутствуют во всех числовых столбцах, что свидетельствует о корректности данных.

**Заключение**

Произведенный исследовательский анализ показал, что данные целостны, практически не содержат дубликатов и не имеют явных ошибок в виде отрицательных значений в числовых столбцах. Такой уровень качества позволяет использовать данный набор данных для дальнейшей аналитики и построения моделей движения.