In [1]:
import pandas as pd
import random
import datetime

# Configuración
num_entries = 5000
topics_config = {
    "Generación Z y Crisis de Sentido": {
        "weight": 0.5,
        "authors": ["Sartre", "Camus", "Lyotard", "Bauman", "Byung-Chul Han"],
        "concepts": [
            "vacío existencial", "metarrelatos", "identidad líquida", "sociedad del cansancio",
            "burnout", "narcisismo digital", "autenticidad", "ansiedad", "depresión",
            "algoritmos de TikTok", "inmediatez", "hiperconectividad", "falta de compromiso"
        ],
        "starts": [
            "A veces siento que", "La verdad es que", "¿Alguien más piensa que", "Leyendo a",
            "Es increíble cómo", "No sé si soy yo o", "La generación Z está atrapada en",
            "El problema de hoy es", "Vivimos en una época donde", "Sartre tenía razón:"
        ],
        "middles": [
            "la presión por ser productivo", "el scrolling infinito", "la falta de un futuro claro",
            "la búsqueda constante de validación", "el deseo de ser viral", "la pérdida de conexión real",
            "el exceso de opciones", "la vida editada en redes", "la cultura de la cancelación",
            "la identidad que cambia como tendencia"
        ],
        "ends": [
            "nos está consumiendo.", "es agotador.", "no tiene sentido.",
            "es lo que nos define.", "crea un vacío imposible de llenar.",
            "es la nueva forma de esclavitud.", "¿realmente nos hace felices?",
            "borra quiénes somos realmente.", "es el mito de Sísifo moderno.",
            "nos deja más solos que nunca."
        ]
    },
    "IA y Pérdida de Autonomía": {
        "weight": 0.5,
        "authors": ["Foucault", "Heidegger", "Habermas", "Orwell", "Huxley"],
        "concepts": [
            "biopoder", "vigilancia digital", "control algorítmico", "desocultamiento",
            "burbuja de filtros", "pensamiento crítico", "privacidad", "manipulación",
            "comodidad vs libertad", "predicción de comportamiento", "dataismo", "cajas negras"
        ],
        "starts": [
            "Me asusta pensar que", "Cada vez que Netflix elige por mí,", "Heidegger lo advirtió:",
            "¿Somos usuarios o", "La IA no es neutral,", "El algoritmo sabe más de mí que",
            "Estamos cediendo nuestra libertad a", "La eficiencia tecnológica",
            "En la era del Big Data,", "Foucault hablaría hoy de"
        ],
        "middles": [
            "nuestros deseos son manufacturados", "la autonomía es una ilusión",
            "somos simples recursos de datos", "la privacidad ha muerto",
            "nuestras decisiones están pre-programadas", "el espacio público se ha privatizado",
            "la manipulación es invisible", "vivimos en un panóptico digital",
            "la tecnología decide nuestro futuro", "perdemos la capacidad de elegir"
        ],
        "ends": [
            "a cambio de comodidad.", "y no nos damos cuenta.", "para maximizar el engagement.",
            "transformándonos en mercancía.", "sin ética alguna.",
            "¿dónde queda el humano?", "es el fin del libre albedrío.",
            "mientras scrolleamos sin fin.", "controlando nuestra conducta.",
            "y eso es terrorífico."
        ]
    }
}

sentiments = ["positivo", "negativo", "neutral"]
sentiment_weights = [0.15, 0.45, 0.40] 

def generate_date():
    start_date = datetime.date(2022, 1, 1)
    end_date = datetime.date(2024, 5, 30)
    time_between_dates = end_date - start_date
    days_between_dates = time_between_dates.days
    random_number_of_days = random.randrange(days_between_dates)
    return str(start_date + datetime.timedelta(days=random_number_of_days))

data = []

for i in range(1, num_entries + 1):
    # Elegir tema
    topic_choice = random.choices(
        list(topics_config.keys()), 
        weights=[topics_config[t]["weight"] for t in topics_config],
        k=1
    )[0]
    
    t_data = topics_config[topic_choice]
    
    # Generar Texto
    type_of_text = random.choice(["structure", "structure", "question", "quote_ref"])
    
    if type_of_text == "structure":
        start = random.choice(t_data["starts"])
        middle = random.choice(t_data["middles"])
        end = random.choice(t_data["ends"])
        text = f"{start} {middle} {end}"
    elif type_of_text == "question":
        concept = random.choice(t_data["concepts"])
        text = f"¿Es {concept} el mayor desafío de nuestra era? A veces parece que no tenemos salida."
    else: # quote_ref
        author = random.choice(t_data["authors"])
        concept = random.choice(t_data["concepts"])
        text = f"Como diría {author}, el concepto de {concept} explica perfectamente lo que estamos viviendo hoy."

    # Usuario
    user_id = random.randint(100, 99999)
    usuario = f"user_{user_id}"
    
    # Fecha
    fecha = generate_date()
    
    # Sentimiento y Métricas
    sentimiento = random.choices(sentiments, weights=sentiment_weights, k=1)[0]
    likes = random.randint(0, 50000)
    reposts = random.randint(0, int(likes/2)) if likes > 0 else 0
    
    data.append([i, fecha, usuario, text, topic_choice, sentimiento, likes, reposts])

df_new = pd.DataFrame(data, columns=["id", "fecha", "usuario", "texto", "tema", "sentimiento", "likes", "reposts"])

# Guardar CSV
df_new.to_csv("dataset_filosofico_genz_ia.csv", index=False)
print("Dataset generado exitosamente: dataset_filosofico_genz_ia.csv")

Dataset generado exitosamente: dataset_filosofico_genz_ia.csv


In [2]:
import pandas as pd
import random
import datetime

# Configuration
num_entries = 5000

# Expanded vocabulary and structures
# Topic 1: Gen Z and Crisis of Meaning
gen_z_concepts = [
    "la hiperconectividad", "el vacío existencial", "la tiranía del like", "el scroll infinito",
    "la identidad líquida", "la falta de compromiso", "el burnout generacional", "la ansiedad social",
    "la validación externa", "el miedo a perderse algo (FOMO)", "la precariedad emocional",
    "la cultura del rendimiento", "el narcisismo digital", "la soledad conectada", "la autoexplotación"
]

gen_z_authors = ["Sartre", "Camus", "Zygmunt Bauman", "Byung-Chul Han", "Lipovetsky", "Mark Fisher"]

gen_z_actions = [
    "nos está consumiendo", "define nuestra era", "ha reemplazado a la comunidad real",
    "es el nuevo opio del pueblo", "nos impide ser auténticos", "crea un abismo inmensurable",
    "es una trampa brillante", "nos roba el futuro", "es la enfermedad del siglo XXI",
    "convierte todo en mercancía", "nos deja exhaustos y vacíos"
]

gen_z_reflections = [
    "A veces siento que solo somos perfiles, no personas.",
    "¿De qué sirve estar conectado con mil personas si te sientes solo el viernes por la noche?",
    "La libertad de ser cualquiera en internet termina siendo la prisión de no ser nadie en la realidad.",
    "Vivimos editando nuestra vida para que encaje en 15 segundos.",
    "No es depresión, es la reacción lógica a un mundo sin propósito claro.",
    "El algoritmo no entiende de angustia existencial, solo de retención.",
    "Mi 'yo' digital es feliz y exitoso; mi 'yo' real está cansado.",
    "Hemos cambiado la eternidad por la viralidad momentánea.",
    "Buscar sentido en un feed de TikTok es como buscar agua en el desierto.",
    "La promesa de la tecnología era conectarnos, la realidad ha sido aislarnos."
]

# Topic 2: IA and Autonomy
ia_concepts = [
    "el biopoder", "la vigilancia algorítmica", "la pérdida de privacidad", "el dataismo",
    "la caja negra de la IA", "el determinismo tecnológico", "la manipulación conductual",
    "la servidumbre voluntaria", "el sesgo automatizado", "la tiranía de la conveniencia",
    "la predicción del comportamiento", "la externalización de la memoria", "el control social sutil"
]

ia_authors = ["Michel Foucault", "Heidegger", "Jürgen Habermas", "George Orwell", "Aldous Huxley", "Shoshana Zuboff"]

ia_actions = [
    "amenaza nuestro libre albedrío", "ya decidió por nosotros", "es el fin de la privacidad",
    "transforma al ciudadano en usuario", "mercantiliza nuestra experiencia",
    "reduce la complejidad humana a datos", "nos vigila sin descanso", "es el nuevo panóptico",
    "moldea nuestros deseos sin permiso", "socava la democracia silenciosamente"
]

ia_reflections = [
    "Si el algoritmo decide qué veo, ¿quién decide qué pienso?",
    "Ya no usamos la tecnología, la tecnología nos usa a nosotros.",
    "La comodidad de que Spotify elija mi música me está costando mi capacidad de descubrir.",
    "Nos vendieron libertad y compramos una jaula de oro digital.",
    "La IA no crea, solo recicla lo que ya fuimos. ¿Dónde queda la novedad humana?",
    "¿Es realmente una elección si tres opciones fueron preseleccionadas por un código?",
    "El problema no es que las máquinas piensen, sino que los humanos dejemos de hacerlo.",
    "Entregamos nuestros datos biométricos por un filtro de orejas de perro.",
    "La verdadera autonomía es poder desconectarse sin miedo a desaparecer.",
    "En el futuro, el acto más rebelde será ser impredecible para el algoritmo."
]

# Common structures
intros = [
    "Me preocupa que", "Es evidente que", "Nadie habla suficiente de cómo", "Leyendo sobre esto, pienso que",
    "Sinceramente,", "La verdad incómoda es que", "Desde una perspectiva filosófica,",
    "No sé si es paranoia, pero", "Lo más triste de hoy es que", "Irónicamente,"
]

def generate_varied_text(topic):
    # Determine structure type (1: Direct Reflection, 2: Concept + Action, 3: Author Reference, 4: Personal Observation, 5: Complex Question)
    structure = random.choice([1, 1, 2, 2, 3, 4, 4, 5]) 
    
    if topic == "Generación Z y Crisis de Sentido":
        concepts = gen_z_concepts
        authors = gen_z_authors
        actions = gen_z_actions
        reflections = gen_z_reflections
    else:
        concepts = ia_concepts
        authors = ia_authors
        actions = ia_actions
        reflections = ia_reflections
    
    if structure == 1:
        # Direct Reflection (pre-written varied sentences)
        return random.choice(reflections)
    
    elif structure == 2:
        # Concept + Action (The abstract construction)
        concept = random.choice(concepts)
        action = random.choice(actions)
        intro = random.choice(intros)
        if random.random() > 0.5:
            return f"{intro} {concept} {action}."
        else:
            return f"{concept.capitalize()} {action}. Es innegable."

    elif structure == 3:
        # Author Reference
        author = random.choice(authors)
        concept = random.choice(concepts)
        templates = [
            f"{author} ya lo anticipó: {concept} es el gran desafío.",
            f"Releyendo a {author}, entiendo mejor por qué {concept} nos afecta tanto.",
            f"Si {author} viera {concept} hoy, estaría aterrorizado.",
            f"Como diría {author}, estamos atrapados en {concept}.",
            f"{concept} es exactamente lo que {author} temía."
        ]
        return random.choice(templates)

    elif structure == 4:
        # Personal/Mixed Observation
        concept = random.choice(concepts)
        return f"{random.choice(intros)} {concept} está cambiando la forma en que nos relacionamos. Ya nada es igual."

    elif structure == 5:
        # Complex Question
        concept = random.choice(concepts)
        questions = [
            f"¿Hasta qué punto {concept} define quiénes somos?",
            f"¿Es {concept} el precio inevitable de la modernidad?",
            f"¿Podremos alguna vez escapar de {concept}?",
            f"¿Somos conscientes de {concept} o simplemente lo aceptamos?"
        ]
        return random.choice(questions)

def generate_date():
    start_date = datetime.date(2022, 1, 1)
    end_date = datetime.date(2024, 5, 30)
    days_between = (end_date - start_date).days
    return str(start_date + datetime.timedelta(days=random.randrange(days_between)))

# Generation Loop
data = []
topics = ["Generación Z y Crisis de Sentido", "IA y Pérdida de Autonomía"]
sentiments = ["positivo", "negativo", "neutral"]
sentiment_weights = [0.1, 0.5, 0.4] # Slightly adjusted weights

for i in range(1, num_entries + 1):
    topic = random.choice(topics)
    text = generate_varied_text(topic)
    
    # Randomize User
    user_id = random.randint(100, 99999)
    usuario = f"user_{user_id}"
    
    fecha = generate_date()
    sentimiento = random.choices(sentiments, weights=sentiment_weights, k=1)[0]
    likes = random.randint(0, 60000)
    reposts = random.randint(0, int(likes/2)) if likes > 0 else 0
    
    data.append([i, fecha, usuario, text, topic, sentimiento, likes, reposts])

df_varied = pd.DataFrame(data, columns=["id", "fecha", "usuario", "texto", "tema", "sentimiento", "likes", "reposts"])

# Save
output_filename_varied = "dataset_filosofico_genz_ia_v2_variado.csv"
df_varied.to_csv(output_filename_varied, index=False)

print(f"Generated {len(df_varied)} varied entries.")
print(df_varied[['texto', 'tema']].head(10))

Generated 5000 varied entries.
                                               texto  \
0  El algoritmo no entiende de angustia existenci...   
1  Leyendo sobre esto, pienso que la vigilancia a...   
2  Nos vendieron libertad y compramos una jaula d...   
3  Irónicamente, la precariedad emocional convier...   
4  ¿Es la precariedad emocional el precio inevita...   
5  No es depresión, es la reacción lógica a un mu...   
6  Irónicamente, la hiperconectividad está cambia...   
7  La precariedad emocional es una trampa brillan...   
8  Irónicamente, el biopoder reduce la complejida...   
9  Hemos cambiado la eternidad por la viralidad m...   

                               tema  
0  Generación Z y Crisis de Sentido  
1         IA y Pérdida de Autonomía  
2         IA y Pérdida de Autonomía  
3  Generación Z y Crisis de Sentido  
4  Generación Z y Crisis de Sentido  
5  Generación Z y Crisis de Sentido  
6  Generación Z y Crisis de Sentido  
7  Generación Z y Crisis de Sentido  
8         