In [None]:
%pip install numpy
%pip install pandas
%pip install scikit-learn
%pip install matplotlib

In [None]:
import numpy as np
import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, f1_score
import pickle
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

In [None]:
np.random.seed(42)
time_points = pd.date_range(start='2024-06-01', periods=1000, freq='T')

def create_node_data(node_id, ph_mean, ph_std, tds_mean, tds_std, ph_trend=0, tds_trend=0):
    return pd.DataFrame({
        'node_id': node_id,
        'time': time_points,
        'ph': np.random.normal(ph_mean, ph_std, 1000) + np.linspace(0, ph_trend, 1000),
        'tds': np.random.normal(tds_mean, tds_std, 1000) + np.linspace(0, tds_trend, 1000)
    })

nodes = []

# Node 1-7: bình thường, tương ứng với trung bình của sông Sài Gòn
for i in range(1, 8):
    nodes.append(create_node_data(node_id=i, ph_mean=7.0, ph_std=0.1, tds_mean=200, tds_std=20))

# Node 8: bị ảnh hưởng nhẹ (tăng dần ph và tds)
nodes.append(create_node_data(node_id=8, ph_mean=7.0, ph_std=0.1, tds_mean=200, tds_std=20, ph_trend=0.5, tds_trend=25))

# Node 9: bị ảnh hưởng nặng (tăng nhiều hơn ph và tds)
nodes.append(create_node_data(node_id=9, ph_mean=7.0, ph_std=0.1, tds_mean=200, tds_std=20, ph_trend=1.0, tds_trend=50))

# Node 10: bị ô nhiễm
nodes.append(create_node_data(node_id=10, ph_mean=10.0, ph_std=0.1, tds_mean=500, tds_std=20))

# Kết hợp dữ liệu của các node
df = pd.concat(nodes, ignore_index=True)

In [None]:
csv_file_path = 'node_data.csv'
df.to_csv(csv_file_path, index=False)