___

# **Analisis e Interpretacion**

En esta parte del esquema programatico vamos a definir los pasos necesarios para profundizar el analisis hecho, de forma exhaustiva, y, al mismo tiempo, lograr una interpretacion adecuada de los datos. Como mencionamos en la metodologia del presente proyecto [aplicaciones sociologicas con inteligencia artifical](inv_soc_1.ipynb), es necesario proceder a realizar un analisis de los temas extraidos asociados con el numero de likes y shares. Asimismo, incluir una interpretacion, luego de revisado los articulos pertinentes que nos ofreceran las perspectivas de nuestra interpretacion.

1. **Sexta Tarea: Analisis de influencia de los temas**

Lo primero sera la realizacion de un analisis del peso de los temas de acuerdo a los likes y shares asociados. Con esto, podremos conocer la influencia de determinados temas en la opinion general de la comunidad de Twitter.

Para este analisis, como se menciono en la metodo [metodologia del proyecto](inv_soc_1.ipynb), se usara el modelo **`"llama3-8b-8192"`** mediante la instanciacion con [Groq](https://console.groq.com/home). Transformamos datos crudos de engagement en una tabla resumida, se la presenta a un LLM con instrucciones claras y específicas, y luego captura las interpretaciones y respuestas del LLM para documentarlas.

Como detallaremos en la seccion correspondiente, en este analisis preparamos los datos de Engagement en forma tabular para que pudieran ser procesados por LLM.

- **Preparación de los Datos (El "Conteo" con Pandas)**: Primero, tus datos brutos de engagement se agregan y resumen en una tabla. Esto implica contar las apariciones de cada tema y sumar los likes y shares que recibieron. Pandas hace el trabajo pesado aquí, organizando toda esta información cuantitativa de manera eficiente. El resultado es una tabla de fácil lectura, lista para el siguiente paso.

- **El Modelo de Lenguaje Entra en Escena (Groq/LLaMA 3)**: Una vez que la tabla con los datos resumidos está lista, es el turno del Modelo de Lenguaje Grande (LLM), en este caso, LLaMA 3 de Groq. Su función no es realizar los cálculos que ya hizo Pandas, sino entender y razonar sobre la información que le presentas. El LLM "lee" la tabla y es capaz de interpretar sus patrones y responder a tus preguntas.

- **La Orquestación de LangChain**: Para que el LLM pueda entender tus inquietudes y usar la tabla de datos, necesitamos una plantilla de instrucciones (un prompt) que le diga cómo actuar (por ejemplo, como un experto en análisis de redes sociales). LangChain es el que orquesta todo:

  - Toma tu tabla de datos preparada y tu pregunta específica.
  - Combina esto con la plantilla de instrucciones.
  - Envía todo al LLM de Groq.
   Recibe la respuesta generada por el LLM.

De esta manera hicimos un conteo de los temas sumando los resultados de sus apariciones, conjuntamente con los likes y shares. Esto genera una agregacion de esos datos para que pueda ser procesado por nuesto modelo de lenguaje.

En resumen, Pandas se encarga del trabajo pesado y eficiente de la agregación cuantitativa (el "conteo"), y el LLM se encarga de la interpretación cualitativa y la extracción de insights en lenguaje natural a partir de esos resultados ya procesados.

2. **Septima Tarea: Interpretacion de los resultados**

Despues, empieza la fase final del proyecto. La fase final del proyecto se enfoca en derivar insights significativos del conjunto de datos procesado, ligando los hallazgos empíricos con un marco conceptual sólido. Para ello, se emplearon modelos avanzados de lenguaje de Mistral y Google Gemini, orquestados por LlamaIndex y LangChain, en un proceso de dos etapas: la caracterización conceptual de documentos y la interpretación contextualizada de la influencia de los temas.

La busqueda de los articulos cientificos es un paso necesario en la interpretacion de los reultados. Por dos razones, segun el articulo buscado crearemos un banco conceptual, con el cual, mediante el uso de documentos externos, el modelo de inteligencia artificial podra obtener los conocimientos especificos para nuestras interpretaciones.

Para ello vamos aplicar un modelo RAG (Retrieval-Augmented Generation). El modeo RAG permite que un LLM acceda a una base de conocimiento externa (los documentos seleccionados) y se use esa información para generar respuestas. El LLM no "aprende" los documentos en sus pesos, sino que los "consulta" en tiempo real cuando necesita responder a una pregunta.

Para este procesamiento utilizamos los modelos de [Mistral](https://docs.mistral.ai/api/.). Esta tarea se ejecutó de la siguiente forma:

- **Vectorización de Embeddings para Documentos**: la vectorizacion de las palabras y cadenas de texto para que sea crucial la interpretacion semantica de las palabras y las frases segun el propio contexto de los documentos. La vectorizacion es clave para la extraccion de los conceptos clave solicitados en nuestros prompts.

- **Caracterización Conceptual con LlamaIndex**: con la indexacion de los documentos externos mediante [LlamaIndex](https://www.llamaindex.ai/) pudimos realziar interacciones con el modelo **`"mistral-large-latest"`**, para conseguir la respuestas a nuestras consultas orientadas a la conceptualizacion clave de nuestras fuentes de informacion externa.

- **Extracción y Registro de Definiciones**: Finalmente, extrajimos las definiciones clave esenciales para las perspectivas sociológica y de marketing digital, registrándolas en un documento de texto (**`"informacion_extraida_de_pdfs.txt"`**).

Con este **banco conceptual** se pudo realizar las interpretaciones de la influencia de los temas. Es decir, interpretar los resultados de los analisis, unicamente con los conceptos claves esxtraidos de nuestros articulos cientificos.

Este procedimeinto nos permitio afianzar los avances de la inteligencia artificial complementando distintos modelos en un esquema programatico de investigacion e interpretacion.

- **Cadena RAG Orientada por Conceptos con LangChain**: En base a los conceptos y resúmenes clave obtenidos en la fase anterior, configuramos una cadena RAG (Generación Aumentada por Recuperación) utilizando [LangChain](https://www.langchain.com/). A esta cadena RAG se le suministraron las orientaciones interpretativas necesarias, basadas en nuestro marco conceptual, para analizar y contextualizar los resultados de nuestro estudio.

- **Embeddings para Consultas y Contexto**: Para la operación efectiva de la cadena RAG, fue indispensable generar los embeddings de nuestras consultas (las preguntas o solicitudes de interpretación que hacíamos al modelo) y del contexto relevante (fragmentos de nuestros resultados de análisis y los conceptos del marco conceptual). Para esta tarea, empleamos el modelo de embedding **`"models/embedding-001"`**. Estos embeddings permitieron a la cadena RAG identificar y recuperar la información más pertinente para cada solicitud.

- **Modelo de Interpretación**: La fase de interpretación se llevó a cabo con el modelo **`"gemini-1.5-flash-latest"`**. Dentro de la cadena RAG orquestada por [LangChain](https://www.langchain.com/), este modelo recibía los conceptos clave previamente definidos (en el marco_conceptual, **`"informacion_extraida_de_pdfs.txt"`**). De esta manera, el modelo interpretó los resultados registrados en nuestro documento de análisis (e.g.,**`"llm_responses_engagement_analysis.txt"`**), a la luz de los conceptos definidos en el paso previo (**`"informacion_extraida_de_pdfs.txt"`**). Este proceso garantiza una interpretación guiada y basada en el conocimiento específico del dominio.

El esquema programatico nos permitira hallar conclusiones sociologicas y de marketing digital en medio de la interaccion entre la inteligencia artifical y la experticie de las ciencias sociales.

## **Sexta Tarea: Analisis de influencia de los temas**

En esta parte detallaremos nuestras configuraciones del modelo de analisis y agregacion de datos para una interpretacion de Inteligencia Artificial sobre el peso de los temas de nuestro conjunto de datos.


La antesala de nuestra conversacion con el modelo de inteligencia artificial fue la agregacion de datos en un formato accesible para nuestro modelo **`"llama3-8b-8192"`**, y que esta agregacion de dato incluyera tanto el conteo de los temas como los likes o shares asociados.

La estructura de nuestra funcion se enfoco en operacionalizar las labores de conteo y agregacion de datos. Mediante funciones basicas de PANDAS.

- Se crea una columna para la agregacion del conteo por tema
- Se realizan el conteo de los temas que gracias a la operación explode(), cada fila de este DataFrame ya representa un único tema.
- Agregación de Métricas de Engagement para cada tema único identificado.
- El resultado final, engagement_by_topic, es una tabla limpia y resumida. Cada fila de esta tabla representa un tema único, y las columnas muestran el total de likes, el total de shares y el número total de posts asociados a ese tema, ordenados por popularidad. Esta es la tabla que, en un paso posterior, alimentarás a tu LLM para que la interprete.

Por este motivo, posteriormente definimos nuestro modelo de analista de datos de las redes sociales para que pudiera analizar la informacion segun las caracteristicas de la tabla de engagement previa, con la siguiente configuracion de la plantilla de instrucciones:

  >"Eres un analista de datos experto especializado en redes sociales.
   Te proporcionaré una tabla de engagement por tema,
   que incluye el total de likes,
   total de shares y el número de publicaciones para cada tema.
   Tu tarea es analizar esta tabla y responder preguntas específicas sobre los temas principales".

Con ese modelo buscabamos obtener un analisis de la influencia de los temas mediante la consulta a la tabla de Engagement por Tema segun el total de likes, total de shares, y el número de posts. Por esa razon, para obtener ua respuesta satisfactoria de nuestro  analisis de redes sociales especificamos las siguientes preguntas:
  
    ¿Cuáles son los 200 temas principales por número de likes? Para cada uno, indica su nombre,
    el total de likes y el total de shares,
    ¿Cuántos posts se asocian a los 200 temas más populares en términos de likes?,
    ¿Cuántos posts se asocian a los 200 temas más populares en términos de shares,
    ¿Cuál es el tema con menos shares entre los 200 temas principales por likes?
    Para cada uno, indica su nombre, el total de likes y el total de shares.

Las respuestas a estas solicitudes fueron registradas en un documento para que pudiera ser interpretada por nuestro agente final. Pero, claro esta, previamente, se requeriria de la construccion de nuestro **banco conceptual**

In [None]:
import pandas as pd
data=pd.read_csv('/content/antropic2.csv')

In [None]:
data.columns

Index(['author', 'content', 'country', 'date_time', 'id', 'language',
       'latitude', 'longitude', 'number_of_likes', 'number_of_shares',
       'hashtags', 'urls', 'temas'],
      dtype='object')

In [None]:
!pip install langchain-groq

Collecting langchain-groq
  Downloading langchain_groq-0.3.2-py3-none-any.whl.metadata (2.6 kB)
Collecting groq<1,>=0.4.1 (from langchain-groq)
  Downloading groq-0.26.0-py3-none-any.whl.metadata (15 kB)
Downloading langchain_groq-0.3.2-py3-none-any.whl (15 kB)
Downloading groq-0.26.0-py3-none-any.whl (129 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.6/129.6 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: groq, langchain-groq
Successfully installed groq-0.26.0 langchain-groq-0.3.2


###  Creacion de la funcion de agregacion y analisis de temas

In [None]:
df_completo = pd.DataFrame(data)


# --- Asegurar que la columna 'temas' contiene listas reales ---
# Es crucial que esta columna sea una lista de Python para el explode()
def safe_literal_eval(val):
    try:
        # Solo intentar evaluar si es una cadena y parece una lista
        if isinstance(val, str) and val.strip().startswith('[') and val.strip().endswith(']'):
            return ast.literal_eval(val)
        # Si ya es una lista, o no es una cadena que parezca lista, devolverla tal cual
        return val
    except (ValueError, SyntaxError):
        return [] # Retorna lista vacía para errores o si no es una lista válida

print("Asegurando que la columna 'temas' es una lista real...")
if 'temas' in df_completo.columns:
    df_completo['temas'] = df_completo['temas'].apply(safe_literal_eval)
else:
    print("Advertencia: La columna 'temas' no se encontró en el DataFrame.")
    # Si no existe, crea una columna vacía para evitar errores posteriores si el código lo espera
    df_completo['temas'] = [[] for _ in range(len(df_completo))]


# --- 1. Configurar la clave API de Groq ---
if 'GROQ_API_KEY' not in os.environ:
    try:
        groq_api_key = getpass.getpass('Introduce tu clave de la API de Groq: ')
        os.environ["GROQ_API_KEY"] = groq_api_key
    except Exception as e:
        print(f"No se pudo obtener la clave API de Groq: {e}")
        print("Por favor, configura la variable de entorno 'GROQ_API_KEY' o ingresa la clave manualmente.")
        exit()

# --- 2. Inicializar el modelo de Groq ---
llm_groq = ChatGroq(model_name="llama3-8b-8192", temperature=0.1)

# --- 3. Preparar los datos de engagement por tema usando Pandas (¡Crucial!) ---
# Este paso agrega los datos para que el LLM los pueda interpretar fácilmente.
print("\nPreparando datos de engagement por tema con Pandas...")

# Explota el DataFrame por la columna 'temas'
df_exploded_temas_engagement = df_completo.explode('temas')

# Limpia las filas donde 'temas' es nulo o una cadena vacía
df_exploded_temas_engagement = df_exploded_temas_engagement[
    df_exploded_temas_engagement['temas'].notna() &
    (df_exploded_temas_engagement['temas'] != '')
]

# AÑADE AQUÍ EL CONTEO DE PALABRAS PARA CADA TEMA INDIVIDUAL
print("Contando palabras en cada tema individual de la columna 'temas'...")
df_exploded_temas_engagement['word_count_per_topic'] = df_exploded_temas_engagement['temas'].apply(lambda x: len(str(x).split()))
print("Primeras filas del DataFrame explotado con el conteo de palabras por tema:")
print(df_exploded_temas_engagement[['temas', 'word_count_per_topic']].head().to_markdown(index=False))


# Agrupa por 'temas' y calcula las métricas de engagement
engagement_by_topic = df_exploded_temas_engagement.groupby('temas').agg(
    total_likes=('number_of_likes', 'sum'),
    total_shares=('number_of_shares', 'sum'),
    number_of_posts=('id', 'count')
    # Si quisieras la media de palabras por tema (aunque no tiene sentido aquí), la añadirías:
    # average_words_in_topic=('word_count_per_topic', 'mean')
).sort_values(by='total_likes', ascending=False)

# Tomamos los 20 temas principales para dar suficiente contexto al LLM,
# aunque la pregunta es por los 10 primeros. El LLM puede filtrar.
top_topics_data = engagement_by_topic.head(200) # Obtener más de 10 para dar margen al LLM
print("Datos de los temas principales (primeras 5 filas):")
print(top_topics_data.head().to_markdown(index=True)) # Imprime en formato Markdown para visualizar

# --- 4. Definir el prompt para el LLM ---
# Pasamos la tabla agregada al LLM en formato Markdown.
prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", """Eres un analista de datos experto especializado en redes sociales. Te proporcionaré una tabla de engagement por tema, que incluye el total de likes, total de shares y el número de publicaciones para cada tema. Tu tarea es analizar esta tabla y responder preguntas específicas sobre los temas principales.

          **Tabla de Engagement por Tema (total de likes, total de shares, número de posts):**
          {engagement_table}

          Responde a las siguientes preguntas basándote únicamente en la tabla proporcionada. Sé conciso y directo."""),
        ("human", "Pregunta: {question}"),
    ]
)

# --- 5. Crear la cadena LLM ---
llm_chain = prompt_template | llm_groq

# --- 6. Definir las preguntas específicas sobre el engagement por tema ---
questions = [
    "¿Cuáles son los 200 temas principales por número de likes? Para cada uno, indica su nombre, el total de likes y el total de shares.",
    "¿Cuántos posts se asocian a los 200 temas más populares en términos de likes?",
    "¿Cuántos posts se asocian a los 200 temas más populares en términos de shares?",
    "¿Cuál es el tema con menos shares entre los 200 temas principales por likes? Para cada uno, indica su nombre, el total de likes y el total de shares.",
    # Puedes añadir más preguntas que quieras hacer al LLM sobre esta tabla
]

# --- 7. Iterar a través de las preguntas y obtener las respuestas del LLM ---
llm_responses = {}

print("\n--- Haciendo preguntas a Groq sobre el engagement por tema ---")
for i, q in enumerate(questions):
    print(f"\nPregunta {i+1}: {q}")
    try:
        # Pasamos la tabla de engagement_by_topic convertida a Markdown como contexto.
        response = llm_chain.invoke({
            "engagement_table": top_topics_data.to_markdown(index=True), # 'index=True' para incluir el nombre del tema
            "question": q
        })
        llm_response_content = response.content
        llm_responses[q] = llm_response_content
        print(llm_response_content)
    except Exception as e:
        print(f"Error procesando la pregunta '{q}': {e}")
        llm_responses[q] = f"Error: {e}"

print("\n--- Todas las preguntas de engagement por tema respondidas por Groq. ---")

# --- 8. Guardar los resultados de las respuestas del LLM en un archivo TXT ---
output_filename = "llm_responses_engagement_analysis.txt"
try:
    with open(output_filename, 'w', encoding='utf-8') as f:
        for q, a in llm_responses.items():
            f.write(f"Pregunta: {q}\n")
            f.write(f"Respuesta: {a}\n")
            f.write("-" * 50 + "\n\n") # Separador para mejor lectura
    print(f"\nLas respuestas del LLM se han guardado exitosamente en '{output_filename}' en formato TXT.")
except Exception as e:
    print(f"\nError al guardar las respuestas del LLM en '{output_filename}': {e}")

# Puedes revisar el diccionario de respuestas:
# print("\nResumen de todas las respuestas del LLM:")
# for q, a in llm_responses.items():
#     print(f"P: {q}\nR: {a}\n---")


Asegurando que la columna 'temas' es una lista real...

Preparando datos de engagement por tema con Pandas...
Contando palabras en cada tema individual de la columna 'temas'...
Primeras filas del DataFrame explotado con el conteo de palabras por tema:
| temas        |   word_count_per_topic |
|:-------------|-----------------------:|
| friendship   |                      1 |
| social media |                      2 |
| fashion      |                      1 |
| television   |                      1 |
| social media |                      2 |
Datos de los temas principales (primeras 5 filas):
| temas         |   total_likes |   total_shares |   number_of_posts |
|:--------------|--------------:|---------------:|------------------:|
| social media  |   1.60262e+07 |    9.4255e+06  |              1350 |
| music         |   6.0706e+06  |    3.84532e+06 |               470 |
| love          |   4.8109e+06  |    2.3783e+06  |               230 |
| communication |   2.26858e+06 |    1.18134e+06

---
Resumen

En el anterior codigo se obtiene el analisis de texto mediante un registro en un documento txt. Con est documento vemos el tema anxiety con mayor peso, asi como la tabla de engagemente para los 200 temas principales de los cuales obtenemos las siguientes impresiones:

1. Social media - 16,026,200 likes - 9,425,000 shares
2. Music - 6,070,600 likes - 3,845,200 shares
3. Love - 4,810,900 likes - 2,378,300 shares
4. Communication - 2,268,580 likes - 1,181,340 shares
5. Gratitude - 1,796,760 likes - 1,089,380 shares
6. Entertainment - 1,723,750 likes - 1,001,850 shares
7. Fashion - 1,321,970 likes - 623,423 shares
8. Celebrity - 1,213,020 likes - 692,063 shares
9. Relationships - 1,132,930 likes - 704,245 shares
10. Relationship - 1,121,030 likes - 610,932 shares

De modo que, estos representan los temas con mayor peso en la opinion publica de las publicaciones observadas. Nuestro proximo paso sera realizar la interpretacion del analisis de influencia de temas segun las dos perspectivas de nuestro esquemas conceptuales

#### Importacion de las librerias necesarias

In [None]:
!pip install langchain-core langchain-community langchain-chroma



In [None]:
!pip install langchain-google-genai google-generativeai



In [None]:
!pip install mistralai



In [None]:
!pip install --upgrade mistralai



#### Visualizacion de los modelos gemini disponibles

In [None]:
import google.generativeai as genai
import os

# Configura tu clave de API.
# Es recomendable cargarla desde una variable de entorno para mayor seguridad.
# Por ejemplo: os.environ.get("GOOGLE_API_KEY")
# Asegúrate de que tu clave de API esté configurada correctamente.
# Puedes obtener una clave de API en: https://makersuite.google.com/keys
API_KEY = "GEMINI_API_KEY # ¡Reemplaza con tu clave de API real!
genai.configure(api_key=API_KEY)

# Lista todos los modelos disponibles
print("Modelos disponibles:")
for m in genai.list_models():
    # Filtra para mostrar solo los modelos que soportan el método "generateContent"
    # y que tienen un nombre que comienza con "models/" (modelos de uso general)
    if "generateContent" in m.supported_generation_methods and m.name.startswith("models/"):
        print(f"  Nombre: {m.name}")
        print(f"  Nombre a mostrar: {m.display_name}")
        print(f"  Descripción: {m.description}")
        print(f"  Métodos de generación soportados: {m.supported_generation_methods}")
        print(f"  Límite de tokens de entrada: {m.input_token_limit}")
        print(f"  Límite de tokens de salida: {m.output_token_limit}")
        print("-" * 30)

Modelos disponibles:
  Nombre: models/gemini-1.0-pro-vision-latest
  Nombre a mostrar: Gemini 1.0 Pro Vision
  Descripción: The original Gemini 1.0 Pro Vision model version which was optimized for image understanding. Gemini 1.0 Pro Vision was deprecated on July 12, 2024. Move to a newer Gemini version.
  Métodos de generación soportados: ['generateContent', 'countTokens']
  Límite de tokens de entrada: 12288
  Límite de tokens de salida: 4096
------------------------------
  Nombre: models/gemini-pro-vision
  Nombre a mostrar: Gemini 1.0 Pro Vision
  Descripción: The original Gemini 1.0 Pro Vision model version which was optimized for image understanding. Gemini 1.0 Pro Vision was deprecated on July 12, 2024. Move to a newer Gemini version.
  Métodos de generación soportados: ['generateContent', 'countTokens']
  Límite de tokens de entrada: 12288
  Límite de tokens de salida: 4096
------------------------------
  Nombre: models/gemini-1.5-pro-latest
  Nombre a mostrar: Gemini 1.5 Pro 

---
## **Septima Tarea: Interpretacion de los resultados**


Como mencionamos esta fase constituyo en varias tareas especificas:
- La busqueda de los documentos externos
- La creacion del banco conceptuall
- La interpretacion de los resultados de los analisis del peso de los temas basados en nuestro marco referencial

Cada una de estas tareas especificas las detallaremos en las subsecciones correspondientes.

En lineas generales, podemos mencionar que tuvimos que aplicar RAG (Retrieval-Augmented Generation). Esta estrategia de Inteligencia Artificial,nos permite que un LLM acceda a una base de conocimiento externa (tus documentos) y use esa información para generar respuestas. El LLM no "aprende" los documentos en sus pesos, sino que los "consulta" en tiempo real cuando necesita responder a nuestras solicitudes.

In [None]:
!pip install llama-index llama-index-llms-mistralai llama-index-embeddings-mistralai

Collecting llama-index
  Downloading llama_index-0.12.41-py3-none-any.whl.metadata (12 kB)
Collecting llama-index-llms-mistralai
  Downloading llama_index_llms_mistralai-0.5.0-py3-none-any.whl.metadata (3.2 kB)
Collecting llama-index-embeddings-mistralai
  Downloading llama_index_embeddings_mistralai-0.3.0-py3-none-any.whl.metadata (696 bytes)
Collecting llama-index-agent-openai<0.5,>=0.4.0 (from llama-index)
  Downloading llama_index_agent_openai-0.4.9-py3-none-any.whl.metadata (438 bytes)
Collecting llama-index-cli<0.5,>=0.4.2 (from llama-index)
  Downloading llama_index_cli-0.4.3-py3-none-any.whl.metadata (1.4 kB)
Collecting llama-index-core<0.13,>=0.12.41 (from llama-index)
  Downloading llama_index_core-0.12.41-py3-none-any.whl.metadata (2.4 kB)
Collecting llama-index-embeddings-openai<0.4,>=0.3.0 (from llama-index)
  Downloading llama_index_embeddings_openai-0.3.1-py3-none-any.whl.metadata (684 bytes)
Collecting llama-index-indices-managed-llama-cloud>=0.4.0 (from llama-index)
  

### **La creacion del banco conceptual**

Luego de la busqueda de los documentos externos, la creacion del banco conceptual se llevo a cabo con el siguiente procedimiento:

1.  **Extracción de Texto del PDF (`extraer_texto_pdf`):** Mantenemos tu función `fitz` para obtener el contenido de cada PDF como texto plano.
2.  **Carga de Documentos en LlamaIndex:** Cada texto de PDF se convierte en un `Document` de LlamaIndex.
3.  **`VectorStoreIndex` por PDF:** Creamos un `VectorStoreIndex` para *cada PDF*. Esto nos permite hacer preguntas directamente sobre el contenido de cada documento.
4.  **Prompt de Extracción Dirigida (`extraction_prompt_tmpl`):** Esta es la parte crucial. Creamos un `PromptTemplate` que le indica al LLM que su tarea es **extraer** información, definiciones y conceptos clave relacionados con un tema específico (`{topic}`, que será "marketing" o "sociología") *basándose solo en el contexto del documento*.
    * Le pedimos que sea explícito y que incluso indique si no encuentra información.
5.  **Consulta Específica (`query_engine.query`):** Para cada PDF, hacemos una consulta como "Extrae definiciones, conceptos clave e información fundamental sobre **marketing** en redes sociales" (o "sociología").
6.  **`partial_format` del Prompt:** Usamos `.partial_format(topic=doc_type.lower())` para insertar dinámicamente "marketing" o "sociología" en el prompt, personalizando la solicitud de extracción para cada documento.
7.  **Salida:** La información extraída se imprime en la consola y se guarda en un archivo `informacion_extraida_de_pdfs.txt`.

---

In [None]:
!pip install PyMuPDF



In [None]:
!pip install llama-index llama-index-llms-mistralai llama-index-embeddings-mistralai



De manera que el siguiente programa se encarga de la caracterización Conceptual con LlamaIndex y Mistral. El programa con LlamaIndex y Mistral se encarga de extraer texto de documentos PDF y luego utilizar LlamaIndex con modelos de Mistral AI para la identificacion y extraccion de definiciones y conceptos }relevantes para el marketing y la sociología, guardando estos hallazgos en un archivo de texto.

Para lograr este bano conceptos realizamos lo siguiente:

- **La Configuración Inicial**:

Aseguramos que la clave de API para Mistral AI esté configurada, lo cual es esencial para autenticarte y usar sus modelos. Luego hicimos la configuración de LlamaIndex para mistral-large-latest como el Modelo de Lenguaje Grande (LLM) principal para la comprel uso de la extensión y extracción de texto, configurado con una baja "temperatura" para respuestas más directas.

Luego, fue necesario el uso de mistral-embed como el modelo de embedding para convertir el texto en representaciones numéricas que LlamaIndex puede indexar y buscar eficientemente.

- **Extracción de Texto de PDFs**:

Definimos una función extraer_texto_pdf que utiliza la librería PyMuPDF (fitz) para leer un archivo PDF y extraer todo su contenido textual, página por página.
Procesamiento y Extracción por Documento: El script itera a través de las rutas de tus dos PDFs (uno de marketing y otro de sociología).

Para cada PDF extrajimos todo el texto usando la función extraer_texto_pdf.
Creamos un objeto Document de LlamaIndex a partir de este texto, añadiendo metadatos como la fuente.


- **Creación del Prompt (Plantilla de Instrucciones)**

Luego se construye un VectorStoreIndex de LlamaIndex con este documento. Este índice convierte el texto en embeddings (usando mistral-embed) y los almacena de forma que sean rápidamente recuperables.

Para que esto fuera posible creamos una plantilla de instrucciones. Definimos un PromptTemplate específico (extraction_prompt_tmpl). Este prompt le indica al LLM (Mistral-Large) que su tarea es extraer definiciones y conceptos clave exclusivamente del contexto proporcionado de las redes sociales, relacionado con el tipo de documento (marketing o sociología).


>" Eres un asistente experto en análisis de texto.
   Basándote EXCLUSIVAMENTE en el siguiente contexto extraído de un documento,
   identifica y extrae las definiciones clave, conceptos importantes o información fundamental
   relacionada con la "{topic}" de las redes sociales.
   Si no se encuentra información explícita sobre ello, indícalo.
   Contexto del documento:
   {context_str} Información clave extraída (Definiciones, conceptos, ideas principales sobre {topic})"

- **Configuración de la Cadena LLM (Conexión y Ejecución)**:

Luego de la creacion de la plantilla configuramos un query_engine (motor de consulta) que utiliza el VectorStoreIndex. Este motor es el que realizará la búsqueda y síntesis. Se le actualiza el prompt con la plantilla de extracción para guiar su respuesta.

La query consulta se construyo de la siguiente manera:

  >"Extrae definiciones, conceptos clave e información fundamental sobre {doc_type.lower()} en redes sociales."

La ejecucion de una query (consulta) contra el query_engine (ej. "Extrae definiciones... sobre marketing en redes sociales"), permitio que la cadena de LlamaIndex (índice -> recuperación -> LLM) buscara los fragmentos más relevantes del PDF (usando los embeddings), los pasa al mistral-large-latest junto con el prompt, y el LLM sintetiza la información clave. La información extraída se almacena en el diccionario extracted_info y, crucialmente, se guarda en el archivo informacion_extraida_de_pdfs.txt.

En todo el proceso se incluye un robusto manejo de errores (try-except) para capturar y reportar cualquier problema durante el procesamiento de un PDF.
En esencia, este código automatiza la lectura de tus artículos científicos en PDF, la creación de índices inteligentes de su contenido y la extracción dirigida de conceptos y definiciones relevantes para tu investigación sociológica y de marketing, creando así tu marco conceptual de referencia.


         
              -

In [None]:
import os
import fitz  # PyMuPDF para la extracción de texto de PDF
from llama_index.core import Document, Settings, VectorStoreIndex
from llama_index.llms.mistralai import MistralAI
from llama_index.embeddings.mistralai import MistralAIEmbedding
from llama_index.core.prompts import PromptTemplate
from llama_index.core.query_engine import RetrieverQueryEngine

# --- 0. Configuración de la Clave de API ---
# Asegúrate de que tu clave de API de Mistral AI esté configurada como variable de entorno
# export MISTRAL_API_KEY="TU_CLAVE_MISTRAL_AQUI"
# O, para una prueba rápida (NO recomendado para producción):
os.environ["MISTRAL_API_KEY"] = "MISTRAL_API_KEY" # ¡Reemplaza con tu clave real!

# --- 1. Definiciones Contextuales (opcionales para este flujo, pero útiles si quieres usarlas para guiar la extracción) ---
# En este escenario, estas definiciones no son estrictamente necesarias para la extracción del PDF,
# pero podrían usarse en prompts más avanzados si el PDF es ambiguo.
# Por simplicidad, las mantendremos al margen por ahora, ya que el objetivo es extraer directamente del PDF.
# Si los PDFs no son claros, podemos reintroducirlas para "guiar" la extracción.

# --- 2. Configurar Ajustes de LlamaIndex (LLM y Embeddings) ---
# Usamos mistral-large-latest para una mejor comprensión y extracción.
Settings.llm = MistralAI(model="mistral-large-latest", temperature=0.1)
Settings.embed_model = MistralAIEmbedding(model_name="mistral-embed")

# --- 3. Función para Extraer Texto de PDF (de tu código) ---
def extraer_texto_pdf(ruta_pdf):
    """Extrae el texto completo de un documento PDF."""
    doc = fitz.open(ruta_pdf)
    texto_completo = ""
    for pagina in doc:
        texto_completo += pagina.get_text()
    return texto_completo

# --- 4. Rutas a tus PDFs ---
# IMPORTANTE: Asegúrate de que estas rutas sean correctas.
ruta_pdf_marketing = "/content/maketing article.pdf" # Reemplaza con la ruta real de tu PDF de marketing
ruta_pdf_sociologia = "/content/sevignani-2024-communicative-activity-social-theoretical-foundations-for-critical-materialist-media-and-communication.pdf" # Reemplaza con la ruta real de tu PDF de sociología


# --- 5. Procesar cada PDF y Extraer Información Específica ---

extracted_info = {}
output_filename = "informacion_extraida_de_pdfs.txt"

with open(output_filename, "w", encoding="utf-8") as f_out:
    for doc_type, path in [("Marketing", ruta_pdf_marketing), ("Sociología", ruta_pdf_sociologia)]:
        print(f"\n--- Procesando PDF de {doc_type} ---")
        f_out.write(f"\n--- INFORMACIÓN EXTRAÍDA DE {doc_type} ---\n\n")

        try:
            texto_pdf = extraer_texto_pdf(path)
            pdf_document_llama_index = Document(text=texto_pdf, metadata={"source": f"pdf_{doc_type.lower()}"})

            # Crear un VectorStoreIndex para cada PDF para poder hacer consultas sobre su contenido
            current_index = VectorStoreIndex.from_documents([pdf_document_llama_index])
            query_engine = current_index.as_query_engine(similarity_top_k=3) # Recupera los 3 fragmentos más relevantes

            # Prompt para extraer información o definiciones clave
            extraction_prompt_tmpl = PromptTemplate("""
                Eres un asistente experto en análisis de texto.
                Basándote EXCLUSIVAMENTE en el siguiente contexto extraído de un documento,
                identifica y extrae las definiciones clave, conceptos importantes o información fundamental
                relacionada con la "{topic}" de las redes sociales.
                Si no se encuentra información explícita sobre ello, indícalo.

                Contexto del documento:
                {context_str}

                Información clave extraída (Definiciones, conceptos, ideas principales sobre {topic}):
                """)

            # La consulta específica para extraer la información
            query_str = f"Extrae definiciones, conceptos clave e información fundamental sobre {doc_type.lower()} en redes sociales."

            # Actualiza el prompt del motor de consulta para esta tarea de extracción
            query_engine.update_prompts({"response_synthesizer:text_qa_template": extraction_prompt_tmpl.partial_format(topic=doc_type.lower())})

            # Realizar la consulta de extracción
            response = query_engine.query(query_str)
            extracted_text = str(response).strip()

            extracted_info[doc_type] = extracted_text

            print(f"Información extraída de {doc_type}:\n{extracted_text[:1000]}...\n")
            f_out.write(extracted_text + "\n\n")

        except Exception as e:
            error_message = f"Error al procesar el PDF de {doc_type}: {e}"
            extracted_info[doc_type] = error_message
            print(error_message)
            f_out.write(error_message + "\n\n")

print("\n" + "="*80 + "\n")
print(f"Proceso de extracción completado. Consulta el archivo '{output_filename}' para ver los resultados.")




--- Procesando PDF de Marketing ---
Información extraída de Marketing:
Basándome exclusivamente en el contexto proporcionado, he identificado y extraído las definiciones clave, conceptos importantes e información fundamental relacionada con el marketing en redes sociales:

1. **IMI (Instant Marketing Interactions)**:
   - **Definición**: Aunque no se proporciona una definición explícita de IMI en el texto, se infiere que se refiere a interacciones de marketing instantáneas, especialmente en el contexto de redes sociales como Twitter.
   - **Impacto**: Los IMI pueden influir en métricas perceptuales como la viralidad y en métricas objetivas como los rendimientos de las acciones de una empresa.

2. **Viralidad**:
   - **Definición**: Número de veces que se comparte un mensaje de marketing, específicamente el volumen de retweets de un tweet.
   - **Medición**: Se mide a través del número de retweets.

3. **Rendimiento de las Acciones**:
   - **Definición**: Los rendimientos anómalos del 

Luego, en el siguiente codigo separamos cada una de las definiciones y perspectivas de la sociologia y el marketing digital, buscando aplicar separadamente estos conceptos con el documento de analisis de temas.

La eleccion metodologica para la separacion de temas se debe a la intencion de mantener separadas las posibles interpretaciones de nuestro modelo de lenguaje con respecto a la aplicacion conceptual. Para ello, de forma general caracterizamos un patron escrito en el documento, y, luego, almacenamos los documentos en dos variables vacias definidas previamente.

In [None]:
import os
import re

# Define la ruta al archivo de entrada
nombre_archivo_entrada = "informacion_extraida_de_pdfs.txt"

# Inicializa las variables para almacenar el contenido extraído
documento_marketing_str = ""
documento_sociologia_str = ""

try:
    # Lee el contenido completo del archivo si existe
    if os.path.exists(nombre_archivo_entrada):
        with open(nombre_archivo_entrada, "r", encoding="utf-8") as f:
            contenido_completo_txt = f.read()
        print(f"Archivo '{nombre_archivo_entrada}' leído con éxito.\n")
    else:
        # Si el archivo no existe, lanza una excepción para ser capturada
        raise FileNotFoundError(f"El archivo '{nombre_archivo_entrada}' no se encontró.")

    # --- Expresiones Regulares para Extraer Secciones ---
    # Patrón para la sección de Marketing
    pattern_marketing = r"--- INFORMACIÓN EXTRAÍDA DE Marketing ---\n\n(.*?)(?=\n--- INFORMACIÓN EXTRAÍDA DE Sociología ---|\Z)"
    match_marketing = re.search(pattern_marketing, contenido_completo_txt, re.DOTALL)
    # Asignación concisa: si hay coincidencia, toma el grupo 1, si no, una cadena vacía
    documento_marketing_str = match_marketing.group(1).strip() if match_marketing else ""

    # Patrón para la sección de Sociología
    pattern_sociologia = r"--- INFORMACIÓN EXTRAÍDA DE Sociología ---\n\n(.*?)(?=\Z)"
    match_sociologia = re.search(pattern_sociologia, contenido_completo_txt, re.DOTALL)
    # Asignación concisa: si hay coincidencia, toma el grupo 1, si no, una cadena vacía
    documento_sociologia_str = match_sociologia.group(1).strip() if match_sociologia else ""

    # Impresión de confirmación (opcional)
    if documento_marketing_str:
        print("--- Contenido de Marketing Extraído (primeros 500 caracteres) ---\n")
        print(documento_marketing_str[:100000] + "...\n")
    else:
        print("No se pudo extraer la sección 'Marketing'.")

    if documento_sociologia_str:
        print("--- Contenido de Sociología Extraído (primeros 500 caracteres) ---\n")
        print(documento_sociologia_str[:100000] + "...\n")
    else:
        print("No se pudo extraer la sección 'Sociología'.")

except FileNotFoundError as e:
    print(f"Error: {e}")
    print("Asegúrate de que el script y el archivo .txt estén en la misma carpeta, o proporciona la ruta completa.")
except Exception as e:
    # Captura cualquier otro error que pueda ocurrir durante la lectura o el procesamiento
    print(f"Ocurrió un error inesperado al procesar el archivo: {e}")

# Ahora, documento_marketing_str y documento_sociologia_str contienen la información segmentada.
# Puedes usarlas en tu pipeline RAG como `page_content`.
# Por ejemplo:
# from langchain_core.documents import Document
# docs = [
#     Document(page_content=documento_marketing_str, metadata={"source": "extracted_marketing"}),
#     Document(page_content=documento_sociologia_str, metadata={"source": "extracted_sociology"})
# ]

Archivo 'informacion_extraida_de_pdfs.txt' leído con éxito.

--- Contenido de Marketing Extraído (primeros 500 caracteres) ---

Basándome exclusivamente en el contexto proporcionado, he identificado y extraído las definiciones clave, conceptos importantes e información fundamental relacionada con el marketing en redes sociales:

1. **IMI (Instant Marketing Interactions)**:
   - **Definición**: Aunque no se proporciona una definición explícita de IMI en el texto, se infiere que se refiere a interacciones de marketing instantáneas, especialmente en el contexto de redes sociales como Twitter.
   - **Impacto**: Los IMI pueden influir en métricas perceptuales como la viralidad y en métricas objetivas como los rendimientos de las acciones de una empresa.

2. **Viralidad**:
   - **Definición**: Número de veces que se comparte un mensaje de marketing, específicamente el volumen de retweets de un tweet.
   - **Medición**: Se mide a través del número de retweets.

3. **Rendimiento de las Accione

### Visualizacion del documento de marketing

In [None]:
print(documento_marketing_str)

Basándome exclusivamente en el contexto proporcionado, he identificado y extraído las definiciones clave, conceptos importantes e información fundamental relacionada con el marketing en redes sociales:

1. **IMI (Instant Marketing Interactions)**:
   - **Definición**: Aunque no se proporciona una definición explícita de IMI en el texto, se infiere que se refiere a interacciones de marketing instantáneas, especialmente en el contexto de redes sociales como Twitter.
   - **Impacto**: Los IMI pueden influir en métricas perceptuales como la viralidad y en métricas objetivas como los rendimientos de las acciones de una empresa.

2. **Viralidad**:
   - **Definición**: Número de veces que se comparte un mensaje de marketing, específicamente el volumen de retweets de un tweet.
   - **Medición**: Se mide a través del número de retweets.

3. **Rendimiento de las Acciones**:
   - **Definición**: Los rendimientos anómalos del mercado de valores de una empresa se calculan utilizando el modelo de ci

###  Visualizacion del documento de sociologia

In [None]:
print(documento_sociologia_str)

Basándome exclusivamente en el contexto proporcionado, he identificado y extraído las definiciones clave, conceptos importantes e información fundamental relacionada con la "sociología" de las redes sociales:

1. **Comunicación y Producción**:
   - **Definición**: La comunicación es una forma de trabajo productivo y es el aspecto de la actividad humana que crea significado en las relaciones sociales. La producción humana es social y, por lo tanto, una relación comunicativa.
   - **Concepto**: La comunicación no solo es un medio de transmisión de información, sino también una actividad productiva que crea y reproduce significados y relaciones sociales.

2. **Control y Diseño de Medios de Comunicación**:
   - **Preguntas Clave**: ¿Quién controla los medios de comunicación y para qué se utilizan? ¿Cómo afecta el diseño de los medios de comunicación al desarrollo de habilidades comunicativas y al aprendizaje político?
   - **Concepto**: El control y el diseño de los medios de comunicación 

----
Resumen

Con la visualizacion de los dos documentos se observa la caracterizacion de las perspectiva de la sociologia centrada en la comunicacion y produccion, el control y diseño de los medios de comunicacion, los algoritmos y la tecnologia, asi como la teoria de la actividad. En el otro caso, desde la perspectiva del marketing digital, se observa conceptos como IMI, viralidad, Rendimiento de acciones, humor, Imprevisibilidad, oportunidad, y reputacion de marca. Con estos dos documentos conceptuales podremos aplicar operativamente nuestros hallazgos con este esquema de referencia teorico.

### **Aplicacion operativa de nuestro banco conceptual**

En lineas generales el procedimeinto a continuacion se enfoca en:

1.  **Preparacion los PDFs:** Colocamos los archivos PDF reales (`documento_marketing_redes_sociales.pdf` y `documento_sociologia_redes_sociales.pdf`) en la ruta especificada en el código (por ejemplo, en el directorio `/content/` porque en este caso usamos Google Colab).
2.  **Ejecucion de este script:** Obtendremos un archivo de texto con las definiciones o información que el modelo haya podido extraer de cada PDF sobre marketing y sociología.
3.  **Alimentammos el "código de Gemini":** Una vez con la informacion extraida en `extracted_info["Marketing"]` y `extracted_info["Sociología"]` (el texto que se guarda en el archivo), usamos esas cadenas de texto como el `texto_largo_a_analizar` resultante del primer código de análisis de palabras clave con Gemini/Mistral.

Este enfoque da un control mucho mayor sobre qué partes de los PDFs se utilizan para el análisis posterior. Con esto el modelo Llm podra interpretar el analisis de influencia de los temas aplicando nuestros conceptos de marketing y sociologia.

De modo que, posteriormente de instalar las librerias necesarias para acceder a los documentos externos mediante Langchain, y la visualizacion del documento de analisis de influencia creamos nuestro agente de interpretacion conceptual.

In [None]:
!pip install langchain-core langchain-community langchain-chroma



In [None]:
!pip install langchain-google-genai google-generativeai



In [None]:
try:
    with open("/content/llm_responses_engagement_analysis.txt", 'r', encoding='utf-8') as file:
        content = file.read()
        print(content)
except FileNotFoundError:
    print("Error: The file was not found at /content/llm_responses_engagement_analysis.txt.")
except Exception as e:
    print(f"An error occurred while reading the file: {e}")

Pregunta: ¿Cuáles son los 200 temas principales por número de likes? Para cada uno, indica su nombre, el total de likes y el total de shares.
Respuesta: Después de analizar la tabla, he identificado los 200 temas principales por número de likes. A continuación, te proporciono la lista con el nombre del tema, el total de likes y el total de shares:

**Nota:** La tabla se ordena por el número de likes en orden descendente.

1. Social media - 16,026,200 likes - 9,425,000 shares
2. Music - 6,070,600 likes - 3,845,200 shares
3. Love - 4,810,900 likes - 2,378,300 shares
4. Communication - 2,268,580 likes - 1,181,340 shares
5. Gratitude - 1,796,760 likes - 1,089,380 shares
6. Entertainment - 1,723,750 likes - 1,001,850 shares
7. Fashion - 1,321,970 likes - 623,423 shares
8. Celebrity - 1,213,020 likes - 692,063 shares
9. Relationships - 1,132,930 likes - 704,245 shares
10. Relationship - 1,121,030 likes - 610,932 shares
... (continúa)

**200.** Patriotism - 121,795 likes - 66,615 shares

**Ob

In [None]:
texto_plano=content
print(texto_plano)

Pregunta: ¿Cuáles son los 200 temas principales por número de likes? Para cada uno, indica su nombre, el total de likes y el total de shares.
Respuesta: Después de analizar la tabla, he identificado los 200 temas principales por número de likes. A continuación, te proporciono la lista con el nombre del tema, el total de likes y el total de shares:

**Nota:** La tabla se ordena por el número de likes en descenso.

1. Social media - 16,026,200 likes - 9,425,000 shares
2. Music - 6,070,600 likes - 3,845,200 shares
3. Love - 4,810,900 likes - 2,378,300 shares
4. Communication - 2,268,580 likes - 1,181,340 shares
5. Gratitude - 1,796,760 likes - 1,089,380 shares
6. Entertainment - 1,723,750 likes - 1,001,850 shares
7. Fashion - 1,321,970 likes - 623,423 shares
8. Celebrity - 1,213,020 likes - 692,063 shares
9. Relationships - 1,132,930 likes - 704,245 shares
10. Relationship - 1,121,030 likes - 610,932 shares
... (y así sucesivamente hasta el tema 200)

**200.** Patriotism - 121,795 likes -

### Análisis e Interpretación con Cadena RAG y Gemini

Este código implementa una cadena RAG (Generación Aumentada por Recuperación) utilizando LangChain y modelos de Google Gemini para realizar un análisis profundo e interpretativo de un "conjunto de palabras" basándose en conceptos clave de marketing y sociología extraídos de documentos externos.

Para ello realizamos los siguientes pasos:

- **Preparación del Conocimiento Externo**:
Se cargan dos documentos (uno de marketing y otro de sociología) que contienen las definiciones y conceptos clave. Estos documentos se dividen en fragmentos más pequeños ("chunking") para una gestión eficiente. Se utilizan embeddings de Google Gemini (models/embedding-001) para convertir estos fragmentos de texto en representaciones numéricas (embeddings), capturando su significado semántico.
Estos embeddings se almacenan en una base de datos vectorial (Chroma), que actúa como tu "biblioteca de conocimiento" para búsquedas rápidas.
Configuración del Modelo de Interpretación:

Se inicializa el modelo **`"gemini-1.5-flash-latest"`** de Google a través de LangChain, el cual será el encargado de la interpretación final.
Diseño del Prompt Experto:

 - **Creación del Prompt (Plantilla de Instrucciones)**:
Se crea una plantilla de prompt detallada. Esta plantilla instruye a Gemini para que actúe como un "analista experto en marketing y sociología". Le exige basar su análisis EXCLUSIVAMENTE en el "contexto" proporcionado (los conceptos extraídos de tus documentos) y en el "conjunto de palabras a interpretar".

El prompt guía a Gemini para que estructure su respuesta en un "informe" con secciones de "Análisis de Marketing" y "Análisis Sociológico", relacionando las palabras con los conceptos y explicando la conexión.

 definimos la estructura y el contenido de las instrucciones que le enviarás al modelo de lenguaje (LLM) de la siguiente forma:

>"Eres un analista experto en marketing y sociología.
Basándote EXCLUSIVAMENTE en la información de las secciones de marketing y sociología del contexto,
realiza un análisis profundo del conjunto de palabras.
Contexto Detallado (Conceptos Clave de Marketing y Sociología):
{context} Conjunto de palabras a interpretar:
"{palabras_a_interpretar}"

Luego de la construccion de la plantilla se procedio a la creacion de la cadena RAG. La construccion de la cadena RAG permitiria la interaccion del modelo con nuestros documentos extenos para ofrecernos las respuestas de nnuestras solicitudes segun esos conocimientos especificos.

- **Construcción de la Cadena RAG**: La construccion de la cadena RAG seguia las siguientes operaciones. LangChain orquesta la cadena RAG. La cadena se construye para que:

- Primero, un retriever (conectado a tu base de datos vectorial) recupera los fragmentos de contexto más relevantes del conocimiento externo (los documentos de marketing y sociología) según el "conjunto de palabras a interpretar".
- Luego, este contexto recuperado y las "palabras a interpretar" se pasan al prompt.El prompt se envía al llm (Gemini).
- Finalmente, la respuesta del LLM se procesa con un StrOutputParser para obtener el texto final.

La cadena RAG se invoca con el "conjunto de palabras" que deseas analizar (texto_plano).  Conjuntamente con esta definicion del modelo empleamos la estructura de prompt ya preparada (prompt_template) y la conectamos con un Modelo de Lenguaje Grande real para crear una secuencia ejecutable, lo que se llama una "cadena" otorgandole las siguientes instrucciones:

>INSTRUCCIONES DE ANÁLISIS
Proporciona un informe estructurado que relacione las palabras con los conceptos claves de cada una de las subsecciones de marketing y sociología de la INFORMACIÓN EXTRAÍDA. Para cada concepto o conclusión, **indica explícitamente qué palabra(s) del "Conjunto de palabras a interpretar" te llevaron a esa conexión.**

La respuesta generada por Gemini, que contiene el análisis y la interpretación, se imprime en la consola y se guarda en un archivo de texto (analisis_final.txt) para su documentación. Las instrucciones de analisis se aplico tanto para el analisis de marketing como para el analisis sociologico. En ambos analisis se preciso la instruccion de aplicar la informacion del contexto del documento con las definiciones y la identificacion operativa de acuerdo a su frecuencia, shares y likes, y aplica los conceptos relacionados en una conclusion.

In [None]:
import os
from langchain_core.documents import Document
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# --- 0. Configuración de API Key (¡DE FORMA SEGURA!) ---
# Asegúrate de haber configurado tu API key como una variable de entorno
# En tu terminal, antes de ejecutar el script, haz:
# export GOOGLE_API_KEY="AIza..."
# El script la leerá automáticamente. NO la pongas directamente en el código.
os.environ["GOOGLE_API_KEY"] = "GOOGLE_API_KEY" # <-- No hagas esto en producción

docs = [
    Document(page_content=documento_marketing_str, metadata={"source": "marketing_definition"}),
    Document(page_content=documento_sociologia_str, metadata={"source": "sociology_definition"})
]

# --- 2. Procesamiento de Documentos (Chunking) ---
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
splits = text_splitter.split_documents(docs)

# --- 3. Embeddings (Usando GoogleGenerativeAIEmbeddings) ---
# CORRECCIÓN 1: Usar el modelo específico para embeddings.
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

# --- 4. Vector Store (Chroma) ---
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

# --- 5. Configuración del Retriever ---
retriever = vectorstore.as_retriever()

# --- 6. Creación de la Cadena RAG (Usando ChatGoogleGenerativeAI) ---
# CORRECCIÓN 2: Usar un modelo de chat moderno y soportado como gemini-1.5-flash.
llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash-latest", temperature=0)

# Diseño del Prompt que guía al LLM.
template = """
Eres un analista experto en marketing y sociología.
Basándote EXCLUSIVAMENTE en la información de las secciones de marketing y sociología del contexto, realiza un análisis profundo del conjunto de palabras.

Contexto Detallado (Conceptos Clave de Marketing y Sociología):
{context}

Conjunto de palabras a interpretar:
"{palabras_a_interpretar}"

---
**INSTRUCCIONES DE ANÁLISIS:**

Proporciona un informe estructurado que relacione las palabras con los conceptos claves de cada una de las subsecciones de marketing y sociología de la INFORMACIÓN EXTRAÍDA.
Para cada concepto o conclusión, **indica explícitamente qué palabra(s) del "Conjunto de palabras a interpretar" te llevaron a esa conexión.**

**1. Análisis de Marketing:**
    * **Conceptos Relacionados:** aplica la información de marketing del contexto que son directamente relevantes para las palabras proporcionadas de acuerdo a . Asegúrate de mencionar qué palabras de la lista original ("{palabras_a_interpretar}") te hicieron establecer cada relación.
    * **Identificacion operativa:** identifica las palabras mas importantes de acuerdo a su frecuencia, shares y likes, y aplica los conceptos relacionados en una conclusion.
**2. Análisis Sociológico:**
    * **Conceptos Relacionados:** aplica la información sociológica del contexto que son directamente relevantes para las palabras proporcionadas. Asegúrate de mencionar qué palabras de la lista original ("{palabras_a_interpretar}") te hicieron establecer cada relación.
    * **Identificacion operativa:** identifica las palabras mas importantes de acuerdo a su frecuencia, shares y likes, y aplica los conceptos relacionados en una conclusion.
"""

prompt = ChatPromptTemplate.from_template(template)

# Construcción de la cadena RAG.
rag_chain = (
    {"context": retriever, "palabras_a_interpretar": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# --- 7. Interpretación de Conjuntos de Palabras ---
print("--- ANÁLISIS CON GEMINI ---")

# Creamos una lista para guardar todos los resultados
resultados_completos = []

print(f"\nAnalizando: '{texto_plano}'")
# Ahora que texto_plano está definido, esta llamada funcionará como se espera.
respuesta_1 = rag_chain.invoke(texto_plano)
print(respuesta_1)
# Añadimos el resultado a nuestra lista
resultados_completos.append(f"Análisis para: '{texto_plano}'\n{respuesta_1}\n")


print("\n" + "="*50 + "\n")


# --- NUEVO: Guardar todo en un archivo ---
print("\nGuardando resultados en 'analisis_final.txt'...")
with open("analisis_final.txt", "w", encoding="utf-8") as f:
    f.write("--- ANÁLISIS COMPLETOS DE GEMINI ---\n\n")
    # Une todos los resultados con una línea de separación
    f.write(("\n" + "="*50 + "\n").join(resultados_completos))

print("¡Resultados guardados con éxito!")


--- ANÁLISIS CON GEMINI ---

Analizando: 'Pregunta: ¿Cuáles son los 200 temas principales por número de likes? Para cada uno, indica su nombre, el total de likes y el total de shares.
Respuesta: Después de analizar la tabla, he identificado los 200 temas principales por número de likes. A continuación, te proporciono la lista con el nombre del tema, el total de likes y el total de shares:

**Nota:** La tabla se ordena por el número de likes en descenso.

1. Social media - 16,026,200 likes - 9,425,000 shares
2. Music - 6,070,600 likes - 3,845,200 shares
3. Love - 4,810,900 likes - 2,378,300 shares
4. Communication - 2,268,580 likes - 1,181,340 shares
5. Gratitude - 1,796,760 likes - 1,089,380 shares
6. Entertainment - 1,723,750 likes - 1,001,850 shares
7. Fashion - 1,321,970 likes - 623,423 shares
8. Celebrity - 1,213,020 likes - 692,063 shares
9. Relationships - 1,132,930 likes - 704,245 shares
10. Relationship - 1,121,030 likes - 610,932 shares
... (y así sucesivamente hasta el tema 2

# **Conclusión: La Intersección de Marketing y Sociología en el Engagement Digital**

El análisis de los 200 temas más populares, vistos a través del lente del marketing y la sociología, revela una imagen multifacética de la dinámica de engagement en la plataforma online. Esta doble perspectiva no solo identifica lo que capta la atención del público, sino que también desentraña las razones subyacentes de esa interacción, uniendo el "qué funciona" con el "por qué funciona".

Desde una óptica de marketing, los datos subrayan el poder innegable de ciertos temas para generar engagement masivo. Palabras clave como "Social media," "Music," "Love," "Entertainment," "Fashion," y "Communication" emergen como catalizadores de interacciones, evidenciando su alto potencial para campañas dirigidas y la resonancia con amplios segmentos de la audiencia. La preponderancia de "Social media" como el tema más popular reafirma la eficacia de las estrategias de marketing digital, mientras que la fuerza de "Communication" subraya que el engagement efectivo se cimienta en mensajes claros y significativos. Estos hallazgos proporcionan una hoja de ruta invaluable para optimizar futuras estrategias de contenido y campañas publicitarias.

Complementariamente, el análisis sociológico profundiza en la naturaleza de la interacción humana en el espacio digital. Conceptos como "Communication," "Relationships," "Love," "Gratitude," y "Anxiety" resaltan la función de la plataforma como un vasto entramado de relaciones sociales. La alta relevancia de la "Comunicación" valida la premisa de que la interacción social es una forma de trabajo productivo que genera significado. La resonancia de temas como "Relationships" y "Love" subraya que la plataforma es un espacio vital para la conexión interpersonal y la expresión de emociones y valores compartidos, mientras que la presencia de "Anxiety" indica su rol como foro para la vulnerabilidad y el apoyo mutuo.

En síntesis, este estudio conjunto ilustra cómo el éxito de marketing está intrínsecamente ligado a la comprensión sociológica de la interacción humana. Los temas que generan alto engagement no son meros puntos de datos para los mercadólogos; son reflejos de la comunicación, los valores y las relaciones que definen a una comunidad online. La plataforma se consolida así como un ecosistema dinámico donde las estrategias de marketing más efectivas son aquellas que resuenan con las necesidades sociales y emocionales de sus usuarios, construyendo así una comunidad participativa y significativa.