<a href="https://colab.research.google.com/github/Anna-Tereshchuk/ETL_with_Python_and_SQL/blob/main/Data_quality_checks__SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Методи перевірки якості даних:**


*   Підрахунок рядків і стовпців:


> Порівняння кількості рядків і стовпців у джерелі та призначенні з урахуванням усіх трансформацій.


*   Перевірка на null, порожні рядки, дублікати та значення за замовчуванням:


> Важливо перевіряти наявність відсутніх значень у стовпцях та рядках даних.


*   Перевірка точності даних:


> Порівняння значень даних з еталонним джерелом або попередньо визначеним правилом чи обмеженням.


*   Перевірка свіжості даних:

> Дані не повинні бути застарілими, оскільки це може призвести до неправильних висновків та поганих рішень.

Важливо домовитися про SLA для сховища даних, щоб визначити максимальний допустимий час затримки між джерелом та сховищем даних.

Наприклад, дані вважаються свіжими, якщо максимальна позначка часу в таблиці дорівнює поточному часу мінус один день.









In [1]:
from sqlalchemy import create_engine, text
import pandas as pd

# Підключення до бази даних через SQLAlchemy
engine = create_engine("postgresql://sql_engine_user:rzdZBwzXrwzvMAaepHFPMYXvYQQQ3431@dpg-cucb7n2j1k6c73b809lg-a.oregon-postgres.render.com/sql_engine")

# Завантаження даних у DataFrame для порівняння
employees = pd.read_sql("SELECT * FROM employees_cleaned;", engine)

# Очікувана кількість рядків та колонок
expected_rows = employees.shape[0]
expected_columns = employees.shape[1]

# 1. Перевірка кількості рядків та колонок
with engine.connect() as conn:
    result = conn.execute(text("SELECT COUNT(*) as row_count FROM employees_cleaned;"))
    db_row_count = result.scalar()

    result = conn.execute(text("SELECT COUNT(*) as col_count FROM information_schema.columns WHERE table_name = 'employees_cleaned';"))
    db_col_count = result.scalar()

print(f"Очікувана кількість рядків: {expected_rows}, Фактична: {db_row_count}")
print(f"Очікувана кількість колонок: {expected_columns}, Фактична: {db_col_count}")

# 2. Перевірка пропущених значень
with engine.connect() as conn:
    result = conn.execute(text("""
        SELECT COUNT(*) as null_count
        FROM employees_cleaned
        WHERE "Employee Name" IS NULL OR "Department" IS NULL OR "Hire Date" IS NULL;
    """))
    null_count = result.scalar()

print(f"Кількість рядків із пропущеними значеннями: {null_count}")

# 3. Перевірка на дублікати
with engine.connect() as conn:
    result = conn.execute(text("""
        SELECT COUNT(*) - COUNT(DISTINCT CONCAT("Employee Name", "Department", "Hire Date")) as duplicate_count
        FROM employees_cleaned;
    """))
    duplicate_count = result.scalar()

print(f"Кількість дублікованих записів: {duplicate_count}")

# 4. Перевірка свіжості даних
with engine.connect() as conn:
    result = conn.execute(text("""
        SELECT MAX("Hire Date") as max_date
        FROM employees_cleaned;
    """))
    max_date = result.scalar()

# Перевірка на різницю в днях
current_date = pd.Timestamp.now().normalize()
max_date = pd.Timestamp(max_date).normalize()
date_diff = (current_date - max_date).days

print(f"Максимальна дата: {max_date}, Відставання від поточної дати: {date_diff} днів")

if date_diff <= 1:
    print("Дані вважаються свіжими.")
else:
    print("Дані застарілі.")


Очікувана кількість рядків: 741, Фактична: 741
Очікувана кількість колонок: 9, Фактична: 9
Кількість рядків із пропущеними значеннями: 0
Кількість дублікованих записів: 0
Максимальна дата: 2012-12-19 00:00:00, Відставання від поточної дати: 4423 днів
Дані застарілі.


In [7]:
from sqlalchemy import create_engine, text
import pandas as pd

# Підключення до бази даних через SQLAlchemy
engine = create_engine("postgresql://sql_engine_user:rzdZBwzXrwzvMAaepHFPMYXvYQQQ3431@dpg-cucb7n2j1k6c73b809lg-a.oregon-postgres.render.com/sql_engine")

# 1. Перевірка консистентності даних
with engine.connect() as conn:
    # Перевірка на дублікати
    result = conn.execute(text("""
        SELECT COUNT(*) - COUNT(DISTINCT CONCAT("Employee Name", "Department", "Hire Date")) as duplicate_count
        FROM employees_cleaned;
    """))
    duplicate_count = result.scalar()

    # Перевірка на наявність значень у стовпці "Department"
    result = conn.execute(text("""
        SELECT COUNT(*) as invalid_departments
        FROM employees_cleaned
        WHERE "Department" IS NULL OR "Department" = '';
    """))
    invalid_departments = result.scalar()

print(f"Кількість дублікованих записів: {duplicate_count}")
print(f"Кількість співробітників із некоректними значеннями у стовпці 'Department': {invalid_departments}")

# 2. Перевірка на повноту
with engine.connect() as conn:
    result = conn.execute(text("""
        SELECT COUNT(*) as null_count
        FROM employees_cleaned
        WHERE "Employee Name" IS NULL OR "Department" IS NULL OR "Hire Date" IS NULL;
    """))
    null_count = result.scalar()

print(f"Кількість рядків із пропущеними значеннями: {null_count}")

# 3. Перевірка на коректність даних
with engine.connect() as conn:
    # Перевірка на коректність дати найму (наприклад, дата найму не може бути пізніше поточної дати)
    result = conn.execute(text("""
        SELECT COUNT(*) as invalid_hire_date_count
        FROM employees_cleaned
        WHERE "Hire Date" > CURRENT_DATE;
    """))
    invalid_hire_date_count = result.scalar()

    # Перевірка на коректність формату імені співробітника (наприклад, чи не містить спеціальних символів)
    result = conn.execute(text("""
        SELECT COUNT(*) as invalid_name_count
        FROM employees_cleaned
        WHERE "Employee Name" ~ '[^A-Za-z ]';
    """))
    invalid_name_count = result.scalar()

print(f"Кількість рядків із некоректною датою найму: {invalid_hire_date_count}")
print(f"Кількість рядків із некоректними іменами співробітників: {invalid_name_count}")

# 4. Перевірка на актуальність даних
with engine.connect() as conn:
    # Перевірка на свіжість даних (максимальна дата найму)
    result = conn.execute(text("""
        SELECT MAX("Hire Date") as max_date
        FROM employees_cleaned;
    """))
    max_date = result.scalar()

# Перевірка на різницю в днях
current_date = pd.Timestamp.now().normalize()
max_date = pd.Timestamp(max_date).normalize()
date_diff = (current_date - max_date).days

print(f"Максимальна дата найму: {max_date}, Відставання від поточної дати: {date_diff} днів")

if date_diff <= 1:
    print("Дані вважаються свіжими.")
else:
    print("Дані застарілі.")

# 5. Перевірка на відповідність метаданим
with engine.connect() as conn:
    # Перевірка на наявність всіх очікуваних колонок
    result = conn.execute(text("""
        SELECT column_name
        FROM information_schema.columns
        WHERE table_name = 'employees_cleaned';
    """))
    columns = [row[0] for row in result]

expected_columns = ["Employee Name", "Department", "Hire Date", "Employee ID", "Salary"]
missing_columns = [col for col in expected_columns if col not in columns]
print(f"Відсутні колонки: {missing_columns}")




Кількість дублікованих записів: 0
Кількість співробітників із некоректними значеннями у стовпці 'Department': 0
Кількість рядків із пропущеними значеннями: 0
Кількість рядків із некоректною датою найму: 0
Кількість рядків із некоректними іменами співробітників: 740
Максимальна дата найму: 2012-12-19 00:00:00, Відставання від поточної дати: 4423 днів
Дані застарілі.
Відсутні колонки: ['Employee ID']


**Тимчасова перевірка** допомагає виявити записи, які не відповідають певним умовам, наприклад, записи без дати або записи, де значення має бути числовим, але воно порожнє.


> Перевірка на наявність записів без дати:


*   Використовуйте SQL-запит для перевірки записів, де значення дати є NULL.


```
SELECT COUNT(*) as missing_dates
FROM employees_cleaned
WHERE "Hire Date" IS NULL;

```



> Перевірка на наявність записів, де значення має бути числовим, але воно порожнє:

*   Використовуйте SQL-запит для перевірки записів, де значення має бути числовим, але воно порожнє або NULL.



```
SELECT COUNT(*) as invalid_salaries
FROM employees_cleaned
WHERE "Salary" IS NULL OR "Salary" = '';

```
**Перевірка за допомогою Pandas у Jupyter Notebook:**

In [2]:
import pandas as pd
from sqlalchemy import create_engine

# Підключення до бази даних
engine = create_engine("postgresql://sql_engine_user:rzdZBwzXrwzvMAaepHFPMYXvYQQQ3431@dpg-cucb7n2j1k6c73b809lg-a.oregon-postgres.render.com/sql_engine")


# Завантаження даних з таблиці
employees = pd.read_sql_table('employees_cleaned', engine)

# Перевірка на наявність записів без дати
missing_dates = employees[employees['Hire Date'].isnull()]
missing_dates_count = missing_dates.shape[0]

print(f"Кількість записів без дати найму: {missing_dates_count}")

# Перевірка на наявність записів, де значення має бути числовим, але воно порожнє
invalid_salaries = employees[employees['Salary'].isnull() | (employees['Salary'] == '')]
invalid_salaries_count = invalid_salaries.shape[0]

print(f"Кількість записів із порожніми або недійсними значеннями зарплати: {invalid_salaries_count}")


Кількість записів без дати найму: 0
Кількість записів із порожніми або недійсними значеннями зарплати: 0
