In [None]:
import pandas as pd
import numpy as np

# Ustawienia dla reprodukowalności
np.random.seed(42)

# Parametry
n_machines = 30  # Liczba maszyn
start_date = '2018-01-01'
end_date = '2024-10-31'

# Generowanie dat (codzienne dane)
dates = pd.date_range(start=start_date, end=end_date, freq='D')

# Generowanie danych
machine_ids = []

# Generowanie realistycznych identyfikatorów maszyn
models = ['M1000', 'M2000', 'M3000', 'M4000', 'M5000']  # Przykładowe modele
locations = ['L01', 'L02', 'L03', 'L04']  # Przykładowe lokalizacje
for i in range(n_machines):
    model = np.random.choice(models)  # Wybór losowego modelu
    location = np.random.choice(locations)  # Wybór losowej lokalizacji
    serial_number = np.random.randint(1000, 9999)  # Losowy numer seryjny
    machine_id = f'{model}_{location}_{serial_number}'  # Tworzenie identyfikatora maszyny
    machine_ids.append(machine_id)

# Nowe czujniki
data = []

for machine_id in machine_ids:
    machine_age_start_year = np.random.randint(2010, 2018)  # Wiek maszyny: maszyna zainstalowana między 2012 a 2021 rokiem
    machine_age = 2018 - machine_age_start_year  # Obliczanie wieku maszyny na początku 2022 roku

    # Obliczamy początkowy czas pracy maszyny
    days_in_service = machine_age * 365  # Liczba dni w pracy
    initial_working_hours = np.random.uniform(12, 16) * days_in_service  # Średnia liczba godzin pracy maszyny na dzień przez jej wiek

    total_working_hours = initial_working_hours  # Początkowy czas pracy maszyny

    for date in dates:
        # Losowe wartości dla czujników
        temperature = np.random.normal(loc=75, scale=5)  # Średnia temperatura 75°C z odchyleniem standardowym 5
        vibration = np.random.normal(loc=0.5, scale=0.1)  # Średnia wibracja 0.5 mm/s
        pressure = np.random.normal(loc=100, scale=10)  # Średnie ciśnienie 100 Pa
        rpm = np.random.normal(loc=1500, scale=50)  # Średnie obroty 1500 rpm
        humidity = np.random.normal(loc=50, scale=5)  # Średnia wilgotność 50%
        oil_level = np.random.normal(loc=80, scale=10)  # Średni poziom oleju 80%
        oil_pressure = np.random.normal(loc=200, scale=15)  # Średnie ciśnienie oleju 200 Pa
        # working_hours = np.random.normal(loc=1500, scale=100)  # Czas pracy maszyny w godzinach
        ambient_temp = np.random.normal(loc=22, scale=3)  # Temperatura otoczenia (w stopniach Celsjusza)
        load = np.random.normal(loc=70, scale=10)  # Obciążenie maszyny (%)

        # Codzienny czas pracy maszyny (np. losowo od 12 do 16 godzin dziennie)
        daily_working_hours = np.random.uniform(12, 16)
        total_working_hours += daily_working_hours  # Narastający czas pracy maszyny

        # Aktualizacja wieku maszyny na podstawie daty
        machine_age = 2018 - machine_age_start_year + (date.year - 2018)

        # Złożona logika generowania awarii
        failure_probability = (
                (temperature > 80) * 0.3 +
                (vibration > 0.6) * 0.2 +
                (oil_level < 60) * 0.1 +
                (humidity > 55) * 0.1 +
                (total_working_hours > 1000) * 0.15 +
                (ambient_temp > 30) * 0.05 +
                (load > 80) * 0.1
        )

        # Dodajemy element losowości do procesu
        failure_chance = np.random.random()
        failure = 1 if failure_probability > failure_chance else 0

        data.append([machine_id, date, temperature, vibration, pressure, rpm, humidity, oil_level, oil_pressure, total_working_hours, ambient_temp, load, machine_age, failure])

# Tworzenie DataFrame
df = pd.DataFrame(data, columns=['Machine_ID', 'Date', 'Temperature', 'Vibration', 'Pressure', 'RPM', 'Humidity', 'Oil_Level', 'Oil_Pressure', 'Working_Hours', 'Ambient_Temperature', 'Load', 'Machine_Age', 'Failure'])

# Zapisanie danych do pliku CSV
df.to_csv('machine_failure_data.csv', index=False)

df.head()
