In [1]:
import pandas as pd
import random
import datetime

# Configuración
num_entries = 5000
topics_config = {
    "Generación Z y Crisis de Sentido": {
        "weight": 0.5,
        "authors": ["Sartre", "Camus", "Lyotard", "Bauman", "Byung-Chul Han"],
        "concepts": [
            "vacío existencial", "metarrelatos", "identidad líquida", "sociedad del cansancio",
            "burnout", "narcisismo digital", "autenticidad", "ansiedad", "depresión",
            "algoritmos de TikTok", "inmediatez", "hiperconectividad", "falta de compromiso"
        ],
        "starts": [
            "A veces siento que", "La verdad es que", "¿Alguien más piensa que", "Leyendo a",
            "Es increíble cómo", "No sé si soy yo o", "La generación Z está atrapada en",
            "El problema de hoy es", "Vivimos en una época donde", "Sartre tenía razón:"
        ],
        "middles": [
            "la presión por ser productivo", "el scrolling infinito", "la falta de un futuro claro",
            "la búsqueda constante de validación", "el deseo de ser viral", "la pérdida de conexión real",
            "el exceso de opciones", "la vida editada en redes", "la cultura de la cancelación",
            "la identidad que cambia como tendencia"
        ],
        "ends": [
            "nos está consumiendo.", "es agotador.", "no tiene sentido.",
            "es lo que nos define.", "crea un vacío imposible de llenar.",
            "es la nueva forma de esclavitud.", "¿realmente nos hace felices?",
            "borra quiénes somos realmente.", "es el mito de Sísifo moderno.",
            "nos deja más solos que nunca."
        ]
    },
    "IA y Pérdida de Autonomía": {
        "weight": 0.5,
        "authors": ["Foucault", "Heidegger", "Habermas", "Orwell", "Huxley"],
        "concepts": [
            "biopoder", "vigilancia digital", "control algorítmico", "desocultamiento",
            "burbuja de filtros", "pensamiento crítico", "privacidad", "manipulación",
            "comodidad vs libertad", "predicción de comportamiento", "dataismo", "cajas negras"
        ],
        "starts": [
            "Me asusta pensar que", "Cada vez que Netflix elige por mí,", "Heidegger lo advirtió:",
            "¿Somos usuarios o", "La IA no es neutral,", "El algoritmo sabe más de mí que",
            "Estamos cediendo nuestra libertad a", "La eficiencia tecnológica",
            "En la era del Big Data,", "Foucault hablaría hoy de"
        ],
        "middles": [
            "nuestros deseos son manufacturados", "la autonomía es una ilusión",
            "somos simples recursos de datos", "la privacidad ha muerto",
            "nuestras decisiones están pre-programadas", "el espacio público se ha privatizado",
            "la manipulación es invisible", "vivimos en un panóptico digital",
            "la tecnología decide nuestro futuro", "perdemos la capacidad de elegir"
        ],
        "ends": [
            "a cambio de comodidad.", "y no nos damos cuenta.", "para maximizar el engagement.",
            "transformándonos en mercancía.", "sin ética alguna.",
            "¿dónde queda el humano?", "es el fin del libre albedrío.",
            "mientras scrolleamos sin fin.", "controlando nuestra conducta.",
            "y eso es terrorífico."
        ]
    }
}

sentiments = ["positivo", "negativo", "neutral"]
sentiment_weights = [0.15, 0.45, 0.40] 

def generate_date():
    start_date = datetime.date(2022, 1, 1)
    end_date = datetime.date(2024, 5, 30)
    time_between_dates = end_date - start_date
    days_between_dates = time_between_dates.days
    random_number_of_days = random.randrange(days_between_dates)
    return str(start_date + datetime.timedelta(days=random_number_of_days))

data = []

for i in range(1, num_entries + 1):
    # Elegir tema
    topic_choice = random.choices(
        list(topics_config.keys()), 
        weights=[topics_config[t]["weight"] for t in topics_config],
        k=1
    )[0]
    
    t_data = topics_config[topic_choice]
    
    # Generar Texto
    type_of_text = random.choice(["structure", "structure", "question", "quote_ref"])
    
    if type_of_text == "structure":
        start = random.choice(t_data["starts"])
        middle = random.choice(t_data["middles"])
        end = random.choice(t_data["ends"])
        text = f"{start} {middle} {end}"
    elif type_of_text == "question":
        concept = random.choice(t_data["concepts"])
        text = f"¿Es {concept} el mayor desafío de nuestra era? A veces parece que no tenemos salida."
    else: # quote_ref
        author = random.choice(t_data["authors"])
        concept = random.choice(t_data["concepts"])
        text = f"Como diría {author}, el concepto de {concept} explica perfectamente lo que estamos viviendo hoy."

    # Usuario
    user_id = random.randint(100, 99999)
    usuario = f"user_{user_id}"
    
    # Fecha
    fecha = generate_date()
    
    # Sentimiento y Métricas
    sentimiento = random.choices(sentiments, weights=sentiment_weights, k=1)[0]
    likes = random.randint(0, 50000)
    reposts = random.randint(0, int(likes/2)) if likes > 0 else 0
    
    data.append([i, fecha, usuario, text, topic_choice, sentimiento, likes, reposts])

df_new = pd.DataFrame(data, columns=["id", "fecha", "usuario", "texto", "tema", "sentimiento", "likes", "reposts"])

# Guardar CSV
df_new.to_csv("dataset_filosofico_genz_ia.csv", index=False)
print("Dataset generado exitosamente: dataset_filosofico_genz_ia.csv")

Dataset generado exitosamente: dataset_filosofico_genz_ia.csv
