In [1]:
import pandas as pd
import numpy as np
import time
import seaborn as sns
import matplotlib.pyplot as plt

Завантанження та клінінг даних

In [2]:
# === pandas ===
start = time.time()
df = pd.read_csv("data.txt", sep=";", na_values="?", low_memory=False)
df.dropna(inplace=True)
end = time.time() - start
print(f"=== pandas === {end:.3f} с")

# === numpy ===
start = time.time()
types = [
    ("Date", "U10"),
    ("Time", "U8"),
    ("Global_active_power", "f8"),
    ("Global_reactive_power", "f8"),
    ("Voltage", "f8"),
    ("Global_intensity", "f8"),
    ("Sub_metering_1", "f8"),
    ("Sub_metering_2", "f8"),
    ("Sub_metering_3", "f8")
]

arr = np.genfromtxt(
    "data.txt", delimiter=";", dtype=types, names=True,
    missing_values="?", filling_values=np.nan, encoding="utf-8"
)
num_cols = arr.dtype.names[2:]
arr = arr[~np.any([np.isnan(arr[col]) for col in num_cols], axis=0)]
np_time = time.time() - start
print(f"=== numpy === {np_time:.3f} с")


=== pandas === 2.019 с
=== numpy === 10.332 с


In [3]:
df.head()

Unnamed: 0,Date,Time,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
0,16/12/2006,17:24:00,4.216,0.418,234.84,18.4,0.0,1.0,17.0
1,16/12/2006,17:25:00,5.36,0.436,233.63,23.0,0.0,1.0,16.0
2,16/12/2006,17:26:00,5.374,0.498,233.29,23.0,0.0,2.0,17.0
3,16/12/2006,17:27:00,5.388,0.502,233.74,23.0,0.0,1.0,17.0
4,16/12/2006,17:28:00,3.666,0.528,235.68,15.8,0.0,1.0,17.0


In [4]:
arr

array([('16/12/2006', '17:24:00', 4.216, 0.418, 234.84, 18.4, 0., 1., 17.),
       ('16/12/2006', '17:25:00', 5.36 , 0.436, 233.63, 23. , 0., 1., 16.),
       ('16/12/2006', '17:26:00', 5.374, 0.498, 233.29, 23. , 0., 2., 17.),
       ...,
       ('26/11/2010', '21:00:00', 0.938, 0.   , 239.82,  3.8, 0., 0.,  0.),
       ('26/11/2010', '21:01:00', 0.934, 0.   , 239.7 ,  3.8, 0., 0.,  0.),
       ('26/11/2010', '21:02:00', 0.932, 0.   , 239.55,  3.8, 0., 0.,  0.)],
      shape=(2049280,), dtype=[('Date', '<U10'), ('Time', '<U8'), ('Global_active_power', '<f8'), ('Global_reactive_power', '<f8'), ('Voltage', '<f8'), ('Global_intensity', '<f8'), ('Sub_metering_1', '<f8'), ('Sub_metering_2', '<f8'), ('Sub_metering_3', '<f8')])

Завдання №1. 
Записи, у яких Global_active_power > 5 кВт.

In [5]:
# === pandas ===
start = time.time()
df_t1 = df[df["Global_active_power"] > 5]
end = time.time() - start
print(f"=== pandas === {end:.3f} с")


# === numpy ===
start = time.time()
arr_t1 = arr[arr["Global_active_power"] > 5]
end = time.time() - start
print(f"=== numpy === {end:.3f} с")

=== pandas === 0.007 с
=== numpy === 0.022 с


In [6]:
df_t1.head()

Unnamed: 0,Date,Time,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
1,16/12/2006,17:25:00,5.36,0.436,233.63,23.0,0.0,1.0,16.0
2,16/12/2006,17:26:00,5.374,0.498,233.29,23.0,0.0,2.0,17.0
3,16/12/2006,17:27:00,5.388,0.502,233.74,23.0,0.0,1.0,17.0
11,16/12/2006,17:35:00,5.412,0.47,232.78,23.2,0.0,1.0,17.0
12,16/12/2006,17:36:00,5.224,0.478,232.99,22.4,0.0,1.0,16.0


In [7]:
arr_t1

array([('16/12/2006', '17:25:00', 5.36 , 0.436, 233.63, 23. , 0.,  1., 16.),
       ('16/12/2006', '17:26:00', 5.374, 0.498, 233.29, 23. , 0.,  2., 17.),
       ('16/12/2006', '17:27:00', 5.388, 0.502, 233.74, 23. , 0.,  1., 17.),
       ...,
       ('24/11/2010', '07:50:00', 5.172, 0.05 , 235.18, 22. , 0., 38., 17.),
       ('24/11/2010', '07:51:00', 5.75 , 0.   , 234.4 , 24.6, 0., 39., 17.),
       ('25/11/2010', '07:21:00', 5.074, 0.24 , 238.55, 21.4, 1.,  2., 18.)],
      shape=(17547,), dtype=[('Date', '<U10'), ('Time', '<U8'), ('Global_active_power', '<f8'), ('Global_reactive_power', '<f8'), ('Voltage', '<f8'), ('Global_intensity', '<f8'), ('Sub_metering_1', '<f8'), ('Sub_metering_2', '<f8'), ('Sub_metering_3', '<f8')])

Завдання №2. Записи, де Voltage > 235 В.

In [8]:
# === pandas ===
start = time.time()
df_t2 = df[df["Voltage"] > 235]
end = time.time() - start
print(f"=== pandas === {end:.3f} с")

# === numpy ===
start = time.time()
arr_t2 = arr[arr["Voltage"] > 235]
end = time.time() - start
print(f"=== numpy === {end:.3f} с")

=== pandas === 0.112 с
=== numpy === 0.160 с


In [9]:
df_t2.head()

Unnamed: 0,Date,Time,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
4,16/12/2006,17:28:00,3.666,0.528,235.68,15.8,0.0,1.0,17.0
5,16/12/2006,17:29:00,3.52,0.522,235.02,15.0,0.0,2.0,17.0
6,16/12/2006,17:30:00,3.702,0.52,235.09,15.8,0.0,1.0,17.0
7,16/12/2006,17:31:00,3.7,0.52,235.22,15.8,0.0,1.0,17.0
14,16/12/2006,17:38:00,4.054,0.422,235.24,17.6,0.0,1.0,17.0


In [10]:
arr_t2

array([('16/12/2006', '17:28:00', 3.666, 0.528, 235.68, 15.8, 0., 1., 17.),
       ('16/12/2006', '17:29:00', 3.52 , 0.522, 235.02, 15. , 0., 2., 17.),
       ('16/12/2006', '17:30:00', 3.702, 0.52 , 235.09, 15.8, 0., 1., 17.),
       ...,
       ('26/11/2010', '21:00:00', 0.938, 0.   , 239.82,  3.8, 0., 0.,  0.),
       ('26/11/2010', '21:01:00', 0.934, 0.   , 239.7 ,  3.8, 0., 0.,  0.),
       ('26/11/2010', '21:02:00', 0.932, 0.   , 239.55,  3.8, 0., 0.,  0.)],
      shape=(1952491,), dtype=[('Date', '<U10'), ('Time', '<U8'), ('Global_active_power', '<f8'), ('Global_reactive_power', '<f8'), ('Voltage', '<f8'), ('Global_intensity', '<f8'), ('Sub_metering_1', '<f8'), ('Sub_metering_2', '<f8'), ('Sub_metering_3', '<f8')])

Завдання №3. Записи, у яких сила струму лежить в межах 19-20 А, та, у яких пральна машина та холодильних
споживають більше, ніж бойлер та кондиціонер.

In [11]:
# === pandas ===
start = time.time()
df_t3 = df[(df["Global_intensity"] >= 19) & (df["Global_intensity"] <= 20)]
df_t3 = df_t3[df_t3["Sub_metering_2"] > df_t3["Sub_metering_3"]]
end = time.time() - start
print(f"=== pandas === {end:.3f} с")

# === numpy ===
start = time.time()
arr_t3 = (arr["Global_intensity"] >= 19) & (arr["Global_intensity"] <= 20)
arr_t32 = arr["Sub_metering_2"] > arr["Sub_metering_3"]
arr_t3 = arr[arr_t3 & arr_t32]
end = time.time() - start
print(f"=== numpy === {end:.3f} с")

=== pandas === 0.011 с
=== numpy === 0.047 с


In [12]:
df_t3.head()

Unnamed: 0,Date,Time,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
45,16/12/2006,18:09:00,4.464,0.136,234.66,19.0,0.0,37.0,16.0
460,17/12/2006,01:04:00,4.582,0.258,238.08,19.6,0.0,13.0,0.0
464,17/12/2006,01:08:00,4.618,0.104,239.61,19.6,0.0,27.0,0.0
475,17/12/2006,01:19:00,4.636,0.14,237.37,19.4,0.0,36.0,0.0
476,17/12/2006,01:20:00,4.634,0.152,237.17,19.4,0.0,35.0,0.0


In [13]:
arr_t3

array([('16/12/2006', '18:09:00', 4.464, 0.136, 234.66, 19. , 0., 37., 16.),
       ('17/12/2006', '01:04:00', 4.582, 0.258, 238.08, 19.6, 0., 13.,  0.),
       ('17/12/2006', '01:08:00', 4.618, 0.104, 239.61, 19.6, 0., 27.,  0.),
       ...,
       ('24/11/2010', '07:55:00', 4.602, 0.   , 237.08, 19.4, 0., 40., 17.),
       ('24/11/2010', '07:56:00', 4.536, 0.   , 237.03, 19. , 0., 39., 17.),
       ('24/11/2010', '07:57:00', 4.626, 0.   , 236.78, 19.4, 0., 39., 17.)],
      shape=(2509,), dtype=[('Date', '<U10'), ('Time', '<U8'), ('Global_active_power', '<f8'), ('Global_reactive_power', '<f8'), ('Voltage', '<f8'), ('Global_intensity', '<f8'), ('Sub_metering_1', '<f8'), ('Sub_metering_2', '<f8'), ('Sub_metering_3', '<f8')])

Завдання №4. Середні величини всіх 3-х груп споживання електричної енергії з випадково вибраних 500 000 записів  



In [14]:
# === pandas ===
start = time.time()
sample = df.sample(n=500_000, replace=False)
df_t4 = sample[["Sub_metering_1", "Sub_metering_2", "Sub_metering_3"]].mean()
end = time.time() - start
print(f"=== pandas === {end:.3f} с")

# === numpy ===
start = time.time()
random = np.random.choice(len(arr), size=500_000, replace=False)
arr_t4 = {
    col: np.mean(arr[col][random])
    for col in ["Sub_metering_1", "Sub_metering_2", "Sub_metering_3"]
}
end = time.time() - start
print(f"=== numpy === {end:.3f} с")


=== pandas === 0.223 с
=== numpy === 0.107 с


In [15]:
df_t4

Sub_metering_1    1.122770
Sub_metering_2    1.289156
Sub_metering_3    6.443364
dtype: float64

In [16]:
arr_t4

{'Sub_metering_1': np.float64(1.128898),
 'Sub_metering_2': np.float64(1.301314),
 'Sub_metering_3': np.float64(6.435456)}

Завдання №5. Записи, які:
- після 18-00 споживають більше 6 кВт за хвилину в середньому
- у яких основне споживання електроенергії у вказаний проміжок часу припадає на пральну машину, сушарку, холодильник та освітлення
- обраний кожен третій результат із першої половини та кожен четвертий результат із другої половини.

In [17]:
# === pandas ===
start = time.time()
evening = df[df["Time"] >= ("18:00:00")]
macarena = evening[evening["Global_active_power"] > 6]
combo = macarena[
    (macarena["Sub_metering_2"] > macarena["Sub_metering_1"]) &
    (macarena["Sub_metering_2"] > macarena["Sub_metering_3"])
]
mid = len(combo) // 2
df_3rd = combo[:mid][::3]
df_4rd = combo[mid:][::4]
df_t5 = pd.concat([df_3rd, df_4rd])
end = time.time() - start
print(f"=== pandas === {end:.3f} с")

# === numpy ===
start = time.time()
evening = arr["Time"] >= "18:00:00"
macarena = arr["Global_active_power"] > 6
combo = arr[evening & macarena]
group = combo[(
    (combo["Sub_metering_2"] > combo["Sub_metering_1"]) &
    (combo["Sub_metering_2"] > combo["Sub_metering_3"])
)]
mid = len(group) // 2
np_3rd = group[:mid][::3]
np_4rd = group[mid:][::4]
arr_t5 = np.concatenate([np_3rd, np_4rd])
end = time.time() - start
print(f"=== numpy === {end:.3f} с")


=== pandas === 0.126 с
=== numpy === 0.069 с


In [18]:
df_t5.head()

Unnamed: 0,Date,Time,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3
41,16/12/2006,18:05:00,6.052,0.192,232.93,26.2,0.0,37.0,17.0
44,16/12/2006,18:08:00,6.308,0.116,232.25,27.0,0.0,36.0,17.0
17494,28/12/2006,20:58:00,6.386,0.374,236.63,27.0,1.0,36.0,17.0
17498,28/12/2006,21:02:00,8.088,0.262,235.5,34.4,1.0,72.0,17.0
17501,28/12/2006,21:05:00,7.23,0.152,235.22,30.6,1.0,73.0,17.0


In [19]:
arr_t5[:5]

array([('16/12/2006', '18:05:00', 6.052, 0.192, 232.93, 26.2, 0., 37., 17.),
       ('16/12/2006', '18:08:00', 6.308, 0.116, 232.25, 27. , 0., 36., 17.),
       ('28/12/2006', '20:58:00', 6.386, 0.374, 236.63, 27. , 1., 36., 17.),
       ('28/12/2006', '21:02:00', 8.088, 0.262, 235.5 , 34.4, 1., 72., 17.),
       ('28/12/2006', '21:05:00', 7.23 , 0.152, 235.22, 30.6, 1., 73., 17.)],
      dtype=[('Date', '<U10'), ('Time', '<U8'), ('Global_active_power', '<f8'), ('Global_reactive_power', '<f8'), ('Voltage', '<f8'), ('Global_intensity', '<f8'), ('Sub_metering_1', '<f8'), ('Sub_metering_2', '<f8'), ('Sub_metering_3', '<f8')])

### Результати експерименту

| №  | Опис завдання| pandas Час (с) | numpy Час (с) | Оцінка pandas | Оцінка numpy | Коментар|
|-|-|-|-|-|-|-|
|1| Завантаження та очищення даних | 2.046 | 10.402 | 5 | 2 | pandas значно швидше і простіше для очищення |
|2| Відбір Global_active_power > 5 кВт | 0.006 | 0.019 | 5 | 4 | pandas зручніше, numpy трохи повільніше |
|3| Відбір Voltage > 235 В | 0.115 | 0.220 | 4 | 4 | обидві структури показали подібну ефективність |
|4| Струм 19–20 А, sub_metering_2 > sub_metering_3 | 0.010 | 0.049 | 5 | 4 | pandas простіше для комбінованих умов |
|5| Середні значення 3-х sub_metering для 500 000 випадкових записів | 0.194 | 0.088 | 4 | 5 | numpy швидший при числовій агрегації |
|6| Фільтрація за часом, потужністю, приладами, з вибіркою кожного 3-го/4-го запису | 0.126 | 0.070 | 4 | 5 | numpy значно швидший у складних умовах |
