# Extracción de Ideologías
En este notebook se entrenará un clasificador con oraciones de ejemplo para poder asignarle uno a cada página de cada libro de cada generación

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Ahora haremos un diccionario de ideologías con ejemplos

In [41]:
datos = {
    "Liberalismo": [
        "El liberalismo defiende la libertad individual y el libre mercado como pilares del desarrollo.",
        "Los gobiernos liberales suelen reducir la intervención estatal en la economía.",
        "La libertad de prensa y expresión son valores fundamentales del pensamiento liberal.",
        "El liberalismo económico promueve la competencia y la propiedad privada.",
        "Los derechos individuales son considerados sagrados por los liberales."
    ],
    "Socialismo": [
        "El socialismo busca la distribución equitativa de la riqueza entre todos los ciudadanos.",
        "En un sistema socialista, los medios de producción pertenecen al Estado o a la comunidad.",
        "La planificación central es una característica clave del modelo socialista.",
        "El objetivo del socialismo es eliminar las desigualdades sociales.",
        "Los partidos socialistas suelen impulsar políticas de bienestar social y servicios públicos gratuitos."
    ],
    "Nacionalismo": [
        "El nacionalismo exalta la identidad y los valores de la nación por encima de los intereses extranjeros.",
        "Los nacionalistas creen que cada nación debe tener su propio Estado soberano.",
        "Durante el siglo XIX, el nacionalismo fue un motor de los movimientos independentistas.",
        "El nacionalismo cultural promueve la preservación de tradiciones e idioma nacionales.",
        "Movimientos nacionalistas han surgido para defender la autonomía frente a potencias coloniales."
    ],
    "Conservadurismo": [
        "El conservadurismo busca preservar las instituciones tradicionales y los valores morales.",
        "Los conservadores tienden a rechazar los cambios sociales radicales.",
        "El respeto a la religión y a la familia es central en el pensamiento conservador.",
        "El conservadurismo defiende la continuidad histórica y la estabilidad del orden social.",
        "Las políticas conservadoras priorizan el orden, la autoridad y el deber."
    ],
    "Comunismo": [
        "El comunismo propone la abolición de la propiedad privada y la creación de una sociedad sin clases.",
        "Bajo el comunismo, los medios de producción son gestionados colectivamente.",
        "Karl Marx fue uno de los principales teóricos del comunismo moderno.",
        "La igualdad total es el fin último del sistema comunista.",
        "En el comunismo no existe el mercado libre ni la competencia capitalista."
    ],
    "Capitalismo": [
        "El capitalismo se basa en la propiedad privada y la libre competencia.",
        "Los inversores buscan maximizar su capital dentro del sistema capitalista.",
        "La lógica del mercado regula la producción y el consumo en el capitalismo.",
        "Las economías capitalistas fomentan la innovación y el emprendimiento privado.",
        "El éxito económico individual es altamente valorado en el capitalismo."
    ],
    "Fascismo": [
        "El fascismo exalta el nacionalismo extremo y la obediencia al Estado.",
        "Bajo el fascismo, los partidos únicos y el culto al líder son comunes.",
        "El fascismo rechaza la democracia liberal y promueve el autoritarismo.",
        "Los regímenes fascistas usan la propaganda y la censura para controlar a la sociedad.",
        "La violencia política y el militarismo son frecuentes en el fascismo."
    ],
    "Neoliberalismo": [
        "El neoliberalismo impulsa la privatización de empresas estatales.",
        "Reducir el gasto público y liberalizar el mercado son principios neoliberales.",
        "Los defensores del neoliberalismo promueven la competencia sin regulaciones.",
        "El FMI ha impulsado reformas neoliberales en países en crisis.",
        "El neoliberalismo limita el rol del Estado en la economía y favorece el libre comercio."
    ],
    "Populismo": [
        "El populismo enfrenta a un pueblo 'puro' contra una élite corrupta.",
        "Los líderes populistas apelan directamente a las emociones del electorado.",
        "El populismo suele criticar las instituciones establecidas y los partidos tradicionales.",
        "Un discurso populista simplifica los problemas sociales con soluciones inmediatas.",
        "El populismo utiliza la imagen del líder como portavoz único del pueblo."
    ],
    "Progresismo": [
        "El progresismo impulsa políticas a favor de los derechos civiles y el medio ambiente.",
        "Los progresistas apoyan el acceso universal a la educación y la salud.",
        "El progresismo promueve la equidad de género y la inclusión social.",
        "Las reformas sociales son una prioridad para los movimientos progresistas.",
        "El estado del bienestar es un componente central del progresismo moderno."
    ],
    "Autoritarismo": [
        "El autoritarismo concentra el poder en un líder o élite con escaso control institucional.",
        "En los regímenes autoritarios, las libertades civiles están severamente restringidas.",
        "El autoritarismo no tolera la oposición ni la crítica pública.",
        "Los gobiernos autoritarios gobiernan por decreto y reprimen la disidencia.",
        "La censura y la vigilancia son comunes bajo el autoritarismo."
    ],
    "Democracia": [
        "La democracia garantiza la participación ciudadana en la toma de decisiones.",
        "En una democracia, los gobernantes son elegidos mediante elecciones libres y justas.",
        "La separación de poderes es esencial para el buen funcionamiento de una democracia.",
        "La libertad de expresión y el pluralismo político son pilares de la democracia.",
        "Los ciudadanos ejercen sus derechos en una democracia mediante el voto."
    ],
    "Dictadura": [
        "La dictadura concentra el poder en un solo individuo sin controles efectivos.",
        "Las dictaduras suelen suprimir la libertad de prensa y los partidos políticos.",
        "Un golpe de Estado puede dar origen a una dictadura militar.",
        "Las dictaduras eliminan la división de poderes y prolongan su mandato indefinidamente.",
        "En una dictadura, la represión es una herramienta común para mantener el control."
    ]
}


Ahora entrenaremos el modelo

In [42]:
X = []  # oraciones
y = []  # etiquetas

# Extraemos las oraciones que están en nuestro diccionario
for ideologia, oraciones in datos.items():
    for oracion in oraciones:
        X.append(oracion)
        y.append(ideologia)

# Hacemos embedding a las frases
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
X_embeddings = model.encode(X)

In [43]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Aquí dividimos las dos partes del modelo: los train serán de entrenamiento y los test de prueba
# el 70% de datos serán de entrenamiento y 30% de prueba. random_state es para reproducibilidad
X_train, X_test, y_train, y_test = train_test_split(X_embeddings, y, test_size=0.3, random_state=42)

# Acá inicializamos un clasificador de regresión logística
clf = LogisticRegression(max_iter=1000)

# Lo entrenamos con los datos que habíamos dicho eran de prueba
clf.fit(X_train, y_train)


Ahora verificamos su performance con el conjunto de prueba

In [44]:
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

                 precision    recall  f1-score   support

  Autoritarismo       0.25      1.00      0.40         1
    Capitalismo       0.50      1.00      0.67         1
      Comunismo       0.00      0.00      0.00         0
Conservadurismo       1.00      1.00      1.00         2
     Democracia       0.00      0.00      0.00         0
      Dictadura       0.00      0.00      0.00         3
       Fascismo       1.00      0.67      0.80         3
    Liberalismo       1.00      0.50      0.67         2
   Nacionalismo       0.67      1.00      0.80         2
      Populismo       1.00      1.00      1.00         2
    Progresismo       1.00      1.00      1.00         1
     Socialismo       1.00      0.33      0.50         3

       accuracy                           0.65        20
      macro avg       0.62      0.62      0.57        20
   weighted avg       0.75      0.65      0.65        20



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Parece ser que es un buen clasificador

Entonces ya entrenamos un clasificador llamado $\texttt{clf}$, lo usaremos para nuestros textos e identificar tendencias de ideologías.

Primero haremos una función que arme data frames con la información de la generación, el libro y el texto que contiene

In [45]:
import pandas as pd
from pathlib import Path
import re

# Esta función es para hacer un data frame con columnas ['generacion', 'libro', 'pagina', 'texto']
ruta_base = "/content/drive/MyDrive/Proyecto_Text2KG/Texto"
def leer_textos_por_libro(generacion, libro):

    base_path = Path("/content/drive/MyDrive/Proyecto_Text2KG/Texto")
    carpeta = base_path / f"gen{generacion}libro{libro}_carpetatxt"

    # Aquí hacemos una lista de todos los archivos en orden
    paginas = sorted(carpeta.glob(f"gen{generacion}libro{libro}_page-*.txt"))

    # Hacemos una lista donde iremos guardando diccionarios de cada página
    datos = []
    for pagina in paginas:
      # Usamos regex para extraer el número de página
      match = re.search(r'page-(\d{4})\.txt$', pagina.name)
      if match:
        # Guardamos la página, el texto y lo almacenamos en un diccionario
        # que guardamos en la lista datos
          pagina = int(match.group(1))
          try:
              with open(pagina, encoding="utf-8") as f:
                  texto = f.read().strip()
              datos.append({
                  "generacion": generacion,
                  "libro": libro,
                  "pagina": pagina,
                  "texto": texto
              })
          except Exception as e:
            # Si hay error leyendo, se omite pero sin errores
              print(f"Error leyendo {pagina}: {e}")

    # Devolvemos el data frame de la lista de diccionarios
    return pd.DataFrame(datos)


Veamos si sirve nuestra función

In [52]:
df_textos = leer_textos_por_libro(1993, 2)
df_textos.head()

Unnamed: 0,generacion,libro,pagina,texto
0,1993,2,1,"El 15 de jullo de 1867, la capital de\nMéxico ..."
1,1993,2,2,ado MEKICaME s+eseseenses\niriato 1876-1910 u ...
2,1993,2,3,muchas veces. Su gobierno fue verdadera-\nment...
3,1993,2,4,troncar con la red ferrocarrilera de aquel\npa...
4,1993,2,5,En las casas de enganches se\ntrabajadores par...


Parece que va bien. Ahora aplicaremos nuestro clasificador

Ahora veamos si esto funciona correctamente

In [55]:
import pickle

# Guardamos el modelo de clasificación
with open('modelo_clf.pkl', 'wb') as f:
    pickle.dump(clf, f)
# Guardamos el modelo SentenceTransformer
model.save("sentence_transformer_model")


In [56]:
import pickle
import pandas as pd
from sentence_transformers import SentenceTransformer

# Cargamos el clasificador
with open("modelo_clf.pkl", "rb") as f:
    clf = pickle.load(f)

# Cargamos el modelo
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Esta función es para clasificar los textos, agrega la columna predicción al df
def clasificar_textos(df: pd.DataFrame, model, clf):

    # Generamos los embeddings para los textos
    X_embeddings = model.encode(df["texto"].tolist())

    # Clasificamos y agregamos una nueva columna al df
    df["prediccion"] = clf.predict(X_embeddings)

    return df

Veamos si funciona

In [62]:
df_textos = leer_textos_por_libro(2008, 1)
df_clasificados = clasificar_textos(df_textos, model, clf)
df_clasificados.head()

Unnamed: 0,generacion,libro,pagina,texto,prediccion
0,2008,1,1,El Porf\n\ndel pueblo y con alegorias de la me...,Nacionalismo
1,2008,1,2,"115 de julio de 1867,\n\nla capital de México\...",Comunismo
2,2008,1,3,"Sin embargo, consiguieron promulgar\nleyes que...",Comunismo
3,2008,1,4,Ferrocarril porfiriano con la\npirdmide de Cho...,Comunismo
4,2008,1,5,"1s Eee ona Ses ramiiones Visca\nel cine, las b...",Comunismo


Parece ser que todo funciona

Ahora haremos la clasificación para cada generación, cada libro y lo guardaremos en archivos csv

In [65]:
def automatizado(generacion, libro):
    df_textos = leer_textos_por_libro(generacion, libro)
    df_clasificados = clasificar_textos(df_textos, model, clf)
    return df_clasificados


i_g1960_l2 = automatizado(1960, 2)
i_g1960_l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1960_l2.csv", index=False)

In [66]:
i_g1960_l3 = automatizado(1960, 3)
i_g1960_l3.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1960_l3.csv", index=False)

i_1962_l1 = automatizado(1962, 1)
i_1962_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1962_l1.csv", index=False)

i_g1962_l2 = automatizado(1962, 2)
i_g1962_l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1962_l2.csv", index=False)

i_g1972_l1 = automatizado(1972, 1)
i_g1972_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1972_l1.csv", index=False)

i_g1982_l1 = automatizado(1982, 1)
i_g1982_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1982_l1.csv", index=False)

i_g1993_l1 = automatizado(1993, 1)
i_g1993_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1993_l1.csv", index=False)

i_g1993_l2 = automatizado(1993, 2)
i_g1993_l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g1993_l2.csv", index=False)

i_g2008_l1 = automatizado(2008, 1)
i_g2008_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g2008_l1.csv", index=False)

i_g2008_l2 = automatizado(2008, 2)
i_g2008_l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g2008_l2.csv", index=False)

i_g2011_l1 = automatizado(2011, 1)
i_g2011_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g2011_l1.csv", index=False)

i_g2014_l1 = automatizado(2014, 1)
i_g2014_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g2014_l1.csv", index=False)

i_g2019_l1 = automatizado(2019, 1)
i_g2019_l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/ideologias/i_g2019_l1.csv", index=False)