# Ampliación del Dataset a 8000 Registros
## Estrategia híbrida: datos reales + datos sintéticos


In [3]:
import pandas as pd
import random
from datetime import timedelta
from textblob import TextBlob


In [4]:
df_original = pd.read_csv("dataset_sintetico_5000_ampliado.csv")
df_original.head()


Unnamed: 0.1,Unnamed: 0,fecha,usuario,texto,tema,sentimiento,likes,reposts
0,1,2022-05-01,user_44220,La presión por ser productivo todo el tiempo e...,Generación Z y crisis de sentido,neutral,1056,2652
1,2,2024-03-21,user_8463,Antes los proyectos de vida eran a largo plazo...,Cultura de lo efímero y proyectos de vida,neutral,4032,566
2,3,2022-12-21,user_26421,Cada vez que una app me recomienda qué ver o q...,Cultura de lo efímero y proyectos de vida,neutral,7884,1817
3,4,2022-09-04,user_24985,Todo se mueve tan rápido que incluso los recue...,Cultura de lo efímero y proyectos de vida,neutral,8695,3614
4,5,2022-01-15,user_71752,¿Seguimos siendo sujetos libres si los algorit...,Cultura de lo efímero y proyectos de vida,negativo,16384,2610


In [6]:
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
import pandas as pd
from textblob import TextBlob


In [7]:
API_KEY = "AIzaSyBIQb_DO5kyafSZbouzFdXkD_RbKcyKDKM"
youtube = build('youtube', 'v3', developerKey=API_KEY)


In [8]:
temas = [
    "tecnología",
    "educación",
    "inteligencia artificial"
]

data = []
MAX_COMENTARIOS = 1500


In [9]:
for tema in temas:
    print(f"Procesando tema: {tema}")

    search_request = youtube.search().list(
        q=tema,
        part="id",
        type="video",
        maxResults=5
    )
    search_response = search_request.execute()

    for item in search_response.get("items", []):

        # Validación defensiva
        if "videoId" not in item["id"]:
            continue

        video_id = item["id"]["videoId"]

        try:
            comments_request = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=100,
                textFormat="plainText"
            )
            comments_response = comments_request.execute()

        except HttpError:
            # Comentarios desactivados o restringidos
            continue

        for c in comments_response.get("items", []):
            snippet = c["snippet"]["topLevelComment"]["snippet"]
            texto = snippet.get("textDisplay", "")

            if texto.strip() == "":
                continue

            # Análisis de sentimiento
            polaridad = TextBlob(texto).sentiment.polarity
            if polaridad > 0:
                sentimiento = "positivo"
            elif polaridad < 0:
                sentimiento = "negativo"
            else:
                sentimiento = "neutral"

            data.append({
                "fecha": snippet.get("publishedAt"),
                "usuario": snippet.get("authorDisplayName"),
                "texto": texto,
                "tema": tema,
                "sentimiento": sentimiento,
                "likes": snippet.get("likeCount", 0),
                "reposts": 0
            })

            # Detener cuando lleguemos al límite
            if len(data) >= MAX_COMENTARIOS:
                break

        if len(data) >= MAX_COMENTARIOS:
            break

    if len(data) >= MAX_COMENTARIOS:
        break


Procesando tema: tecnología
Procesando tema: educación


In [10]:
df_youtube = pd.DataFrame(data)
df_youtube.shape


(1500, 7)

In [11]:
df_youtube.head()
df_youtube["sentimiento"].value_counts()
df_youtube.to_csv("datos_youtube_1500.csv", index=False)


In [12]:
import pandas as pd
import random
from datetime import timedelta


In [13]:
df_original = pd.read_csv("dataset_sintetico_5000_ampliado.csv")
df_original.shape


(5000, 8)

In [14]:
def parafrasear_texto(texto):
    reemplazos = {
        "muy": "bastante",
        "excelente": "muy bueno",
        "bueno": "adecuado",
        "malo": "poco favorable",
        "terrible": "muy negativo",
        "me encanta": "me gusta mucho",
        "no me gusta": "no es de mi agrado"
    }

    texto_nuevo = texto
    for original, reemplazo in reemplazos.items():
        texto_nuevo = texto_nuevo.replace(original, reemplazo)

    return texto_nuevo


In [15]:
synthetic_data = []

muestra = df_original.sample(1500, random_state=42)

for _, row in muestra.iterrows():

    texto_original = str(row["texto"])
    texto_sintetico = parafrasear_texto(texto_original)

    synthetic_data.append({
        "fecha": pd.to_datetime(row["fecha"]) + timedelta(days=random.randint(1, 30)),
        "usuario": f"{row['usuario']}_alt",
        "texto": texto_sintetico,
        "tema": row["tema"],
        "sentimiento": row["sentimiento"],
        "likes": max(0, int(row["likes"] * random.uniform(0.7, 1.3))),
        "reposts": max(0, int(row["reposts"] * random.uniform(0.5, 1.5)))
    })


In [16]:
df_sintetico = pd.DataFrame(synthetic_data)
df_sintetico.shape


(1500, 7)

In [None]:
df_sintetico.head()
df_sintetico["tema"].value_counts()
df_sintetico["sentimiento"].value_counts()

sentimiento
negativo    501
neutral     501
positivo    498
Name: count, dtype: int64

In [20]:
df_sintetico.to_csv("datos_sinteticos_1500.csv", index=False)

In [22]:
import pandas as pd


In [23]:
df_original = pd.read_csv("dataset_sintetico_5000_ampliado.csv")
df_youtube = pd.read_csv("datos_youtube_1500.csv")
df_sintetico = pd.read_csv("datos_sinteticos_1500.csv")


In [24]:
print(df_original.columns)
print(df_youtube.columns)
print(df_sintetico.columns)


Index(['Unnamed: 0', 'fecha', 'usuario', 'texto', 'tema', 'sentimiento',
       'likes', 'reposts'],
      dtype='object')
Index(['fecha', 'usuario', 'texto', 'tema', 'sentimiento', 'likes', 'reposts'], dtype='object')
Index(['fecha', 'usuario', 'texto', 'tema', 'sentimiento', 'likes', 'reposts'], dtype='object')


In [25]:
for df in [df_original, df_youtube, df_sintetico]:
    df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")
    df["likes"] = pd.to_numeric(df["likes"], errors="coerce").fillna(0).astype(int)
    df["reposts"] = pd.to_numeric(df["reposts"], errors="coerce").fillna(0).astype(int)


In [26]:
df_final = pd.concat(
    [df_original, df_youtube, df_sintetico],
    ignore_index=True
)


In [27]:
df_final.shape


(8000, 8)

In [28]:
df_final["tema"].value_counts()
df_final["sentimiento"].value_counts()


sentimiento
neutral     3600
positivo    2224
negativo    2176
Name: count, dtype: int64

In [29]:
df_final = df_final.drop_duplicates(subset=["texto"])
df_final.shape
df_final.to_csv("dataset_final_8000.csv", index=False)


## Corpus

In [30]:
df = pd.read_csv("dataset_final_8000.csv")

corpus = []

for _, row in df.iterrows():
    texto = f"""
    Fecha: {row['fecha']}
    Usuario: {row['usuario']}
    Tema: {row['tema']}
    Sentimiento: {row['sentimiento']}
    Texto: {row['texto']}

    Contexto interpretativo:
    Este fragmento refleja discursos contemporáneos relacionados con la identidad, la tecnología y la experiencia subjetiva en entornos digitales.
    """

    corpus.append(texto.strip())


In [31]:
with open("corpus_genz_tecnologia.txt", "w", encoding="utf-8") as f:
    for doc in corpus:
        f.write(doc + "\n\n---\n\n")
