In [1]:
import pandas as pd
import random
from faker import Faker

# Configure Faker to generate random names and data
# Configurar Faker para generar nombres y datos aleatorios
faker = Faker()

# Define the types of sensors and control panels
# Definir los tipos de sensores y centrales
sensor_types = ["Smoke Detector", "Motion Sensor", "Pressure Sensor", "Position Sensor"]
central_types = ["Fire Alarm Central A", "Fire Alarm Central B", "Fire Alarm Central C"]

# Define the steps of the process
# Definir los pasos del proceso
process_steps = [
    "Preparation", "Component Placement", "General Soldering", "Lacquering",
    "Calibration", "Functional Test", "Electrical Test", "Final Acceptance Test", "Packaging"
]

# Function to assign months in a balanced manner
# Función para asignar meses de forma balanceada
def assign_month(index):
    months = ["January", "February", "March", "April", "May", "June", 
              "July", "August", "September", "October", "November", "December"]
    return months[index % len(months)]

# Function to simulate an equipment
# Función para simular un equipo
def simulate_equipment(equipment_id, num_orders, is_central=False):
    data = []
    sensor_or_central = random.choice(central_types) if is_central else random.choice(sensor_types)
    for order_id in range(1, num_orders + 1):
        for step in random.sample(process_steps, random.randint(5, len(process_steps))):  # Elegir pasos aleatorios
            estimated_time = random.randint(5, 30)  # Tiempo estimado entre 5 y 30 minutos
            real_time = round(estimated_time * random.uniform(0.8, 1.3), 2)  # Tiempo real +/- 30%
            result = random.choices(["Pass", "Fail"], weights=[0.9, 0.1])[0]  # Resultado con 90% de éxito
            technician = faker.first_name()
            month = assign_month(order_id + equipment_id)  # Asignar meses balanceados

            data.append({
                "Equipment": f"{'Central' if is_central else 'Equipment'}_{equipment_id}",
                "Order_ID": f"Order_{equipment_id}_{order_id}",
                "Step": step,
                "Estimated_Time": estimated_time,
                "Real_Time": real_time,
                "Result": result,
                "Type": sensor_or_central,
                "Technician": technician,
                "Month": month
            })
    return data

# Simulate data for 100 devices and 3 alarm centers
# Simular datos para 100 equipos y 3 centrales de alarma
all_data = []
for i in range(1, 15):  # 15 equipos
    num_orders = random.randint(10, 400)  # Cada equipo tiene entre 10 y 400 órdenes
    all_data.extend(simulate_equipment(i, num_orders))

for i in range(1, 4):  # 3 centrales de alarma
    num_orders = random.randint(13, 457)  # Cada central tiene entre 13 y 457 órdenes
    all_data.extend(simulate_equipment(i, num_orders, is_central=True))

# Convert the data to a DataFrame
# Convertir los datos a un DataFrame
large_data = pd.DataFrame(all_data)

# Save simulated data
# Guardar los datos simulados
large_data.to_csv("C:/Digital_twins/data/large_simulated_equipment_data_with_centrals.csv", index=False)

# Display an organized summary
# Mostrar un resumen organizado
def display_summary(data):
    print("\nData Simulation Complete!")
    print(f"Total Rows: {len(data)}")
    print(f"Unique Equipment: {data['Equipment'].nunique()}")
    print(f"Unique Orders: {data['Order_ID'].nunique()}")
    print("\nSample Data:")
    print(data.head(10).to_string(index=False))

# Show summary of data
# Mostrar el resumen de los datos
display_summary(large_data)



Data Simulation Complete!
Total Rows: 29483
Unique Equipment: 17
Unique Orders: 3629

Sample Data:
  Equipment  Order_ID                  Step  Estimated_Time  Real_Time Result            Type Technician Month
Equipment_1 Order_1_1           Calibration              21      26.33   Pass Pressure Sensor       Ryan March
Equipment_1 Order_1_1           Preparation              20      18.42   Fail Pressure Sensor     Angela March
Equipment_1 Order_1_1            Lacquering              29      29.47   Pass Pressure Sensor    Allison March
Equipment_1 Order_1_1       Electrical Test              24      21.53   Fail Pressure Sensor     Daniel March
Equipment_1 Order_1_1       Functional Test              27      24.30   Pass Pressure Sensor     Gloria March
Equipment_1 Order_1_1   Component Placement              19      21.34   Pass Pressure Sensor    Kenneth March
Equipment_1 Order_1_1     General Soldering              21      26.70   Pass Pressure Sensor   Courtney March
Equipment_1 

In [2]:
import pandas as pd
# I check again and generate a report with file characteristics, check for duplicates, etc.
# Reviso nuevamente y genero  un reporte con las caracteristicas del archivo, revision de duplicados, etc

# Path of the file to be analyzed
# Ruta del archivo a analizar
file_to_analyze = r'C:/Digital_twins/data/large_simulated_equipment_data_with_centrals.csv'
report_file = r'C:/Digital_twins/reports/large_simulated_equipment_data_with_centrals_report.txt'

# Read the file
# Leer el archivo
print("Cargando el archivo para análisis...")
data = pd.read_csv(file_to_analyze, low_memory=False)

# Initialize report
# Inicializar reporte
report = []

# Step 1: General file information
# Paso 1: Información general del archivo
report.append("=== Información general ===")
report.append(f"Número de filas: {data.shape[0]}")
report.append(f"Número de columnas: {data.shape[1]}")

# Step 2: Data types and columns
# Paso 2: Tipos de datos y columnas
report.append("\n=== Tipos de datos y columnas ===")
report.append(data.dtypes.to_string())

# Step 3: Duplicates
# Paso 3: Duplicados
duplicates_count = data.duplicated().sum()
report.append(f"\n=== Duplicados ===")
report.append(f"Número de duplicados: {duplicates_count}")

# Step 4: Null values
# Paso 4: Valores nulos
null_summary = data.isnull().sum()
columns_with_nulls = null_summary[null_summary > 0]
report.append("\n=== Valores nulos ===")
if not columns_with_nulls.empty:
    report.append(columns_with_nulls.to_string())
else:
    report.append("No hay valores nulos.")

# Step 5: Descriptive statistics
# Paso 5: Estadísticas descriptivas
report.append("\n=== Estadísticas descriptivas ===")
report.append(data.describe(include='all', percentiles=[0.25, 0.5, 0.75]).to_string())

# Step 6: Unique values per column
# Paso 6: Valores únicos por columna
report.append("\n=== Valores únicos por columna ===")
unique_counts = data.nunique()
report.append(unique_counts.to_string())

# Step 7: File size
# Paso 7: Tamaño del archivo
file_size_mb = data.memory_usage(index=True).sum() / (1024 ** 2)
report.append("\n=== Tamaño del archivo ===")
report.append(f"Tamaño en memoria: {file_size_mb:.2f} MB")

# Save report
# Guardar reporte
print("Generando reporte...")
with open(report_file, 'w') as file:
    file.write("\n".join(report))

print(f"Reporte generado y guardado en {report_file}")

Cargando el archivo para análisis...
Generando reporte...
Reporte generado y guardado en C:/Digital_twins/reports/large_simulated_equipment_data_with_centrals_report.txt
