# Лабораторна робота №4. Аналіз даних (перший рівень)
## Аналіз електроспоживання домогосподарств з використанням pandas та numpy

In [48]:
import pandas as pd
import numpy as np
import time
from tabulate import tabulate
from datetime import time as dt_time


Setup ok


In [49]:
# Завантаження та підготовка даних
dtype = {
    'Global_active_power': 'float32',
    'Global_reactive_power': 'float32',
    'Voltage': 'float32',
    'Global_intensity': 'float32',
    'Sub_metering_1': 'float32',
    'Sub_metering_2': 'float32',
    'Sub_metering_3': 'float32'
}
na_values = ['?', 'NA', 'nan', '']

df = pd.read_csv('household_power_consumption.csv', sep=',', dtype=dtype, na_values=na_values)

df.dropna(inplace=True)
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')
df['Time'] = pd.to_datetime(df['Time'], format='%H:%M:%S').dt.time

np_arr = df.to_numpy()

print("DataFrame:")
print_head(df)

print("\nNumPy масив:")
print_head(np_arr)


DataFrame:
╒════╤═════════════════════╤══════════╤═══════════════════════╤═════════════════════════╤═══════════╤════════════════════╤══════════════════╤══════════════════╤══════════════════╕
│    │ Date                │ Time     │   Global_active_power │   Global_reactive_power │   Voltage │   Global_intensity │   Sub_metering_1 │   Sub_metering_2 │   Sub_metering_3 │
╞════╪═════════════════════╪══════════╪═══════════════════════╪═════════════════════════╪═══════════╪════════════════════╪══════════════════╪══════════════════╪══════════════════╡
│  0 │ 2006-12-16 00:00:00 │ 17:24:00 │                 4.216 │                   0.418 │    234.84 │               18.4 │                0 │                1 │               17 │
├────┼─────────────────────┼──────────┼───────────────────────┼─────────────────────────┼───────────┼────────────────────┼──────────────────┼──────────────────┼──────────────────┤
│  1 │ 2006-12-16 00:00:00 │ 17:25:00 │                 5.36  │                   0.436 │

In [50]:
def print_head(data, n=5):
    if isinstance(data, pd.DataFrame):
        print(tabulate(data.head(n), headers='keys', tablefmt='fancy_grid'))
    elif isinstance(data, np.ndarray):
        print(tabulate(data[:n], tablefmt='fancy_grid'))

### Завдання 1: активна потужність > 5 кВт

In [51]:
def high_power_filter(df):
    return df.query("Global_active_power > 5")

def high_power_filter_np(arr):
    return arr[arr[:, 2].astype(float) > 5]

print("\nЗавдання 1:")
start_pd = time.time()
result_pd = high_power_filter(df)
print_head(result_pd)
duration_pd = time.time() - start_pd

start_np = time.time()
result_np = high_power_filter_np(np_arr)
print_head(result_np)
duration_np = time.time() - start_np

print(f"Час виконання:\nPd: {duration_pd} Np:{duration_np} сек")



Завдання 1:
╒════╤═════════════════════╤══════════╤═══════════════════════╤═════════════════════════╤═══════════╤════════════════════╤══════════════════╤══════════════════╤══════════════════╕
│    │ Date                │ Time     │   Global_active_power │   Global_reactive_power │   Voltage │   Global_intensity │   Sub_metering_1 │   Sub_metering_2 │   Sub_metering_3 │
╞════╪═════════════════════╪══════════╪═══════════════════════╪═════════════════════════╪═══════════╪════════════════════╪══════════════════╪══════════════════╪══════════════════╡
│  1 │ 2006-12-16 00:00:00 │ 17:25:00 │                 5.36  │                   0.436 │    233.63 │               23   │                0 │                1 │               16 │
├────┼─────────────────────┼──────────┼───────────────────────┼─────────────────────────┼───────────┼────────────────────┼──────────────────┼──────────────────┼──────────────────┤
│  2 │ 2006-12-16 00:00:00 │ 17:26:00 │                 5.374 │                   0.498

### Завдання 2: напруга > 235 В

In [52]:
def voltage_over_threshold(df, threshold=235):
    return df[df['Voltage'] > threshold]

def voltage_over_threshold_np(arr, threshold=235):
    return arr[arr[:, 4].astype(float) > threshold]

print("\nЗавдання 2:")
start_pd = time.time()
result_pd = voltage_over_threshold(df)
print_head(result_pd)
duration_pd = time.time() - start_pd

start_np = time.time()
result_np = voltage_over_threshold_np(np_arr)
print_head(result_np)
duration_np = time.time() - start_np

print(f"Час виконання:\nPd: {duration_pd} Np:{duration_np} сек")



Завдання 2:
╒════╤═════════════════════╤══════════╤═══════════════════════╤═════════════════════════╤═══════════╤════════════════════╤══════════════════╤══════════════════╤══════════════════╕
│    │ Date                │ Time     │   Global_active_power │   Global_reactive_power │   Voltage │   Global_intensity │   Sub_metering_1 │   Sub_metering_2 │   Sub_metering_3 │
╞════╪═════════════════════╪══════════╪═══════════════════════╪═════════════════════════╪═══════════╪════════════════════╪══════════════════╪══════════════════╪══════════════════╡
│  4 │ 2006-12-16 00:00:00 │ 17:28:00 │                 3.666 │                   0.528 │    235.68 │               15.8 │                0 │                1 │               17 │
├────┼─────────────────────┼──────────┼───────────────────────┼─────────────────────────┼───────────┼────────────────────┼──────────────────┼──────────────────┼──────────────────┤
│  5 │ 2006-12-16 00:00:00 │ 17:29:00 │                 3.52  │                   0.522

### Завдання 3: сила струму 19-20 А і порівняння споживання

In [53]:
def current_range_filter(df):
    cond = (df['Global_intensity'].between(19, 20)) & (df['Sub_metering_2'] > df['Sub_metering_3'])
    return df[cond]

def current_range_filter_np(np_arr):
    cond = (np_arr[:, 5] >= 19) & (np_arr[:, 5] <= 20) & (np_arr[:, 7] > np_arr[:, 8])
    return np_arr[cond]

print("\nЗадача 3")
start_time = time.time()
filtered_df = current_range_filter(df)
print_head(filtered_df)
end_time = time.time() - start_time

start_time_np = time.time()
filtered_np = current_range_filter_np(np_arr)
print_head(filtered_np)
end_time_np = time.time() - start_time_np
print(f"Час виконання:\nPd: {end_time} Np:{end_time_np} сек")



Задача 3
╒═════╤═════════════════════╤══════════╤═══════════════════════╤═════════════════════════╤═══════════╤════════════════════╤══════════════════╤══════════════════╤══════════════════╕
│     │ Date                │ Time     │   Global_active_power │   Global_reactive_power │   Voltage │   Global_intensity │   Sub_metering_1 │   Sub_metering_2 │   Sub_metering_3 │
╞═════╪═════════════════════╪══════════╪═══════════════════════╪═════════════════════════╪═══════════╪════════════════════╪══════════════════╪══════════════════╪══════════════════╡
│  45 │ 2006-12-16 00:00:00 │ 18:09:00 │                 4.464 │                   0.136 │    234.66 │               19   │                0 │               37 │               16 │
├─────┼─────────────────────┼──────────┼───────────────────────┼─────────────────────────┼───────────┼────────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 460 │ 2006-12-17 00:00:00 │ 01:04:00 │                 4.582 │                   0.

### Завдання 4: випадкова вибірка 500000 записів

In [54]:
def random_sample_stats(df):
    sample_df = df.sample(n=500000, replace=False, random_state=1)
    means = sample_df[['Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']].mean()
    return means

def random_sample_stats_np(np_arr):
    indices = np.random.choice(np_arr.shape[0], 500000, replace=False)
    sample = np_arr[indices]
    means = np.mean(sample[:, 6:9].astype(float), axis=0)
    return means

print("\nЗадача 4")
start_time = time.time()
means_df = random_sample_stats(df)
print(means_df)
end_time = time.time() - start_time

start_time_np = time.time()
means_np = random_sample_stats_np(np_arr)
print(means_np)
end_time_np = time.time() - start_time_np
print(f"Час виконання:\nPd: {end_time} Np:{end_time_np} сек")



Задача 4
Sub_metering_1    1.124120
Sub_metering_2    1.301936
Sub_metering_3    6.465210
dtype: float32
[1.134764 1.303712 6.474682]
Час виконання:
Pd: 0.14987516403198242 Np:0.42276477813720703 сек


### Завдання 5: після 18:00 та подальший відбір

In [55]:

def evening_heavy_users_np(np_arr):
    times = np_arr[:, 1]
    
    if isinstance(times[0], str): 
        times = np.array([dt_time(*map(int, x.split(':'))) for x in times])

    cond = (times > dt_time(18, 0)) & \
           (np_arr[:, 2] > 6) & \
           (np_arr[:, 7] > np_arr[:, 6]) & \
           (np_arr[:, 7] > np_arr[:, 8])
    filtered = np_arr[cond]
    
    return filtered


print("\nЗадача 5")
start_time = time.time()
filtered_df = evening_heavy_users(df)
print_head(filtered_df)
end_time = time.time() - start_time

start_time_np = time.time()
filtered_np = evening_heavy_users_np(np_arr)
print_head(filtered_np)
end_time_np = time.time() - start_time_np
print(f"Час виконання:\nPd: {end_time} Np:{end_time_np} сек")



Задача 5
╒═══════╤═════════════════════╤══════════╤═══════════════════════╤═════════════════════════╤═══════════╤════════════════════╤══════════════════╤══════════════════╤══════════════════╕
│       │ Date                │ Time     │   Global_active_power │   Global_reactive_power │   Voltage │   Global_intensity │   Sub_metering_1 │   Sub_metering_2 │   Sub_metering_3 │
╞═══════╪═════════════════════╪══════════╪═══════════════════════╪═════════════════════════╪═══════════╪════════════════════╪══════════════════╪══════════════════╪══════════════════╡
│    41 │ 2006-12-16 00:00:00 │ 18:05:00 │                 6.052 │                   0.192 │    232.93 │               26.2 │                0 │               37 │               17 │
├───────┼─────────────────────┼──────────┼───────────────────────┼─────────────────────────┼───────────┼────────────────────┼──────────────────┼──────────────────┼──────────────────┤
│    44 │ 2006-12-16 00:00:00 │ 18:08:00 │                 6.308 │         