In [17]:
import numpy as np


In [18]:
data = np.genfromtxt('test.csv', delimiter=',', dtype=str, skip_header=1)
# Número de filas actuales
num_filas_actuales = data.shape[0]

# Generar 10,000 nuevas filas con valores aleatorios dentro de rangos coherentes
num_nuevas_filas = 25000

# Generar nuevos números para la columna '#' (contador de filas)
contador_filas = np.arange(num_filas_actuales + 1, num_filas_actuales + num_nuevas_filas + 1)

# Generar nuevos IDs secuenciales a partir del último ID
nuevos_ids = np.arange(num_filas_actuales + 1, num_filas_actuales + num_nuevas_filas + 1)

# 1. Generar 'Gender' aleatorio (0 para Male, 1 para Female)
genders = np.random.choice(['Male', 'Female'], size=num_nuevas_filas)

# 2. Generar 'Customer Type' aleatorio
customer_types = np.random.choice(['Loyal Customer', 'Disloyal Customer'], size=num_nuevas_filas)

# 3. Generar edades razonables (entre 18 y 80 años)
ages = np.random.randint(18, 81, size=num_nuevas_filas)

# 4. Generar 'Type of Travel'
types_of_travel = np.random.choice(['Business travel', 'Personal Travel'], size=num_nuevas_filas)

# 5. Generar 'Class' aleatorio
classes = np.random.choice(['Business', 'Eco', 'Eco Plus'], size=num_nuevas_filas, p=[0.5, 0.4, 0.1])


# 6. Generar 'Flight Distance' (entre 100 y 5000)
flight_distances = np.random.randint(100, 5001, size=num_nuevas_filas)

# 7. Generar valores de 'satisfaction'
satisfaction = np.random.choice(['satisfied', 'neutral or dissatisfied'], size=num_nuevas_filas)

# 8. Generar otros valores numéricos para las columnas restantes
wifi_services = np.random.randint(0, 6, size=num_nuevas_filas)
arrival_time_convenience = np.random.randint(0, 6, size=num_nuevas_filas)
online_booking_ease = np.random.randint(0, 6, size=num_nuevas_filas)
gate_location = np.random.randint(0, 6, size=num_nuevas_filas)
food_and_drink = np.random.randint(0, 6, size=num_nuevas_filas)
online_boarding = np.random.randint(0, 6, size=num_nuevas_filas)
seat_comfort = np.random.randint(0, 6, size=num_nuevas_filas)
inflight_entertainment = np.random.randint(0, 6, size=num_nuevas_filas)
onboard_service = np.random.randint(0, 6, size=num_nuevas_filas)
leg_room_service = np.random.randint(0, 6, size=num_nuevas_filas)
baggage_handling = np.random.randint(0, 6, size=num_nuevas_filas)
checkin_service = np.random.randint(0, 6, size=num_nuevas_filas)
inflight_service = np.random.randint(0, 6, size=num_nuevas_filas)
cleanliness = np.random.randint(0, 6, size=num_nuevas_filas)
departure_delay = np.random.randint(0, 101, size=num_nuevas_filas)
arrival_delay = np.random.randint(0, 101, size=num_nuevas_filas)

# 9. Generar nuevas columnas de datos

# 9.1 Crear la columna 'Customer Feedback' basada en la columna 'satisfaction'
feedback = np.where(satisfaction == 'satisfied', 'Positive experience', 'Neutral or Negative experience')

# 9.2 Crear la columna 'Requested Special Assistance' basada en la columna 'Age'
special_assistance = np.where(ages > 60, 'True', 'False')

# 9.3 Crear la columna 'Passenger Group' basada en la columna 'Flight Distance'
passenger_group = np.where(flight_distances < 500, 'Short Distance', 
                           np.where(flight_distances <= 1500, 'Medium Distance', 'Long Distance'))

# Crear las nuevas filas combinando las columnas (incluyendo la columna '#')
nuevas_filas = np.column_stack((
    contador_filas,  # Columna '#'
    nuevos_ids,  # IDs
    genders,
    customer_types,
    ages,
    types_of_travel,
    classes,
    flight_distances,
    wifi_services,
    arrival_time_convenience,
    online_booking_ease,
    gate_location,
    food_and_drink,
    online_boarding,
    seat_comfort,
    inflight_entertainment,
    onboard_service,
    leg_room_service,
    baggage_handling,
    checkin_service,
    inflight_service,
    cleanliness,
    departure_delay,
    arrival_delay,
    satisfaction,
    feedback,
    special_assistance,
    passenger_group
))

# Agregar columnas vacías para las nuevas columnas en el dataset original
feedback_original = np.where(data[:, -1] == 'satisfied', 'Positive experience', 'Neutral or Negative experience')
special_assistance_original = np.where(data[:, 4].astype(int) > 60, 'True', 'False')
flight_distance_original = data[:, 7].astype(float)
passenger_group_original = np.where(flight_distance_original < 500, 'Short Distance',
                                    np.where(flight_distance_original <= 1500, 'Medium Distance', 'Long Distance'))

# Añadir estas columnas al dataset original
data_modificado = np.column_stack((data, feedback_original, special_assistance_original, passenger_group_original))

# Ahora unir el dataset original modificado con las nuevas filas
dataset_ampliado = np.vstack((data_modificado, nuevas_filas))

# Guardar el nuevo dataset en un archivo CSV llamado 'dataset_sintetico_ampliado.csv'
np.savetxt('dataset_sintetico_ampliado.csv', dataset_ampliado, delimiter=',', fmt='%s', header=",".join(
    ['#', 'id', 'Gender', 'Customer Type', 'Age', 'Type of Travel', 'Class', 'Flight Distance', 
     'Inflight wifi service', 'Departure/Arrival time convenient', 'Ease of Online booking', 
     'Gate location', 'Food and drink', 'Online boarding', 'Seat comfort', 'Inflight entertainment', 
     'On-board service', 'Leg room service', 'Baggage handling', 'Checkin service', 'Inflight service', 
     'Cleanliness', 'Departure Delay in Minutes', 'Arrival Delay in Minutes', 'satisfaction', 
     'Customer Feedback', 'Requested Special Assistance', 'Passenger Group']), comments='')

print("El dataset ha sido ampliado con 10,000 filas adicionales y guardado como 'dataset_sintetico_ampliado.csv'.")


El dataset ha sido ampliado con 10,000 filas adicionales y guardado como 'dataset_sintetico_ampliado.csv'.
