In [1]:
import pandas as pd

In [2]:
# Шлях до вихідного файлу з даними
input_file_path = '../data/household_power_consumption.txt'

# Шлях, куди буде збережено очищений файл
output_file_path = '../data/household_power_consumption_cleaned.csv'

In [3]:
print("ЕТАП 1: Завантаження даних...")
# Завантажуємо дані з усіма необхідними параметрами
df = pd.read_csv(
    input_file_path,
    sep=';',
    parse_dates={'DateTime': ['Date', 'Time']},
    infer_datetime_format=True,
    na_values=['?'],
    low_memory=False
)
df.set_index('DateTime', inplace=True)
print(f"Дані завантажено. Початковий розмір: {df.shape[0]} рядків.")
print("-" * 30)


print("ЕТАП 2: Очищення від пропущених значень (NaN)...")
# Видаляємо всі рядки, де є пропущені значення
df.dropna(inplace=True)
print(f"Розмір після видалення NaN: {df.shape[0]} рядків.")
print("-" * 30)


print("ЕТАП 3: Фільтрація нульових значень в 'Global_active_power'...")
# Залишаємо тільки ті рядки, де активна потужність більша за нуль
df_filtered_step1 = df[df['Global_active_power'] > 0].copy()
print(f"Розмір після фільтрації 'Global_active_power': {df_filtered_step1.shape[0]} рядків.")
print("-" * 30)


print("ЕТАП 4: Фільтрація нульових значень в 'Sub_metering_1'...")
# Тепер з отриманого датасету прибираємо рядки, де Sub_metering_1 == 0
df_cleaned = df_filtered_step1[df_filtered_step1['Sub_metering_1'] > 0].copy()
print(f"Фінальний розмір після фільтрації 'Sub_metering_1': {df_cleaned.shape[0]} рядків.")
print("-" * 30)

print("Очищення завершено успішно!")

ЕТАП 1: Завантаження даних...


  df = pd.read_csv(
  df = pd.read_csv(


Дані завантажено. Початковий розмір: 2075259 рядків.
------------------------------
ЕТАП 2: Очищення від пропущених значень (NaN)...
Розмір після видалення NaN: 2049280 рядків.
------------------------------
ЕТАП 3: Фільтрація нульових значень в 'Global_active_power'...
Розмір після фільтрації 'Global_active_power': 2049280 рядків.
------------------------------
ЕТАП 4: Фільтрація нульових значень в 'Sub_metering_1'...
Фінальний розмір після фільтрації 'Sub_metering_1': 169105 рядків.
------------------------------
Очищення завершено успішно!


  df = pd.read_csv(


In [4]:
print(f"Збереження очищених даних у файл: {output_file_path}")

# Зберігаємо DataFrame у форматі CSV.
# index=True зберігає наш 'DateTime' індекс у файлі.
df_cleaned.to_csv(output_file_path, index=True)

print("Файл успішно збережено!")

Збереження очищених даних у файл: ../data/household_power_consumption_cleaned.csv
Файл успішно збережено!


In [5]:
print("Перевірка збереженого файлу...")
df_check = pd.read_csv(output_file_path, index_col='DateTime', parse_dates=True)

print("Перші 5 рядків з нового файлу:")
display(df_check.head())

print("\nІнформація про дані в новому файлі:")
df_check.info()

Перевірка збереженого файлу...
Перші 5 рядків з нового файлу:


Unnamed: 0_level_0,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
DateTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2006-12-17 10:23:00,2.242,0.162,237.33,10.0,1.0,7.0,17.0
2006-12-17 10:24:00,3.714,0.296,235.15,15.8,2.0,35.0,17.0
2006-12-17 10:25:00,3.212,0.304,235.99,14.2,1.0,26.0,17.0
2006-12-17 10:26:00,3.694,0.28,235.16,15.6,1.0,35.0,17.0
2006-12-17 10:27:00,3.204,0.292,236.08,14.0,1.0,27.0,17.0



Інформація про дані в новому файлі:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 169105 entries, 2006-12-17 10:23:00 to 2010-11-26 09:47:00
Data columns (total 7 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Global_active_power    169105 non-null  float64
 1   Global_reactive_power  169105 non-null  float64
 2   Voltage                169105 non-null  float64
 3   Global_intensity       169105 non-null  float64
 4   Sub_metering_1         169105 non-null  float64
 5   Sub_metering_2         169105 non-null  float64
 6   Sub_metering_3         169105 non-null  float64
dtypes: float64(7)
memory usage: 10.3 MB
