<a href="https://colab.research.google.com/github/coderoycc/notebooks-openai/blob/main/text_analize.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Cargar API key

In [None]:
OPENAI_API_KEY = input("Please enter your OpenAI API key: ")
print("OpenAI API key loaded.")

## Inicializar cliente openai

In [11]:
import openai

client = openai.OpenAI(api_key=OPENAI_API_KEY)

print("OpenAI client initialized.")

OpenAI client initialized.


## Explicación de comparación de texto con openai embeddings

### Análisis de Similitud de Texto con Embeddings de OpenAI

Los embeddings de texto son representaciones numéricas vectoriales (listas de números) que capturan el significado semántico de una palabra, frase o documento. Textos con significados similares se mapean a vectores que están cerca uno del otro en un espacio de alta dimensión.

Para analizar la similitud entre dos textos, se pueden seguir estos pasos:
1. **Obtener Embeddings:** Utilizar un modelo de embedding para generar el vector numérico para cada texto.
2. **Calcular Similitud:** Calcular la similitud entre los vectores resultantes. Una métrica común es la **similitud del coseno**, que mide el coseno del ángulo entre dos vectores. Un valor cercano a 1 indica alta similitud, mientras que un valor cercano a 0 (o negativo) indica baja similitud.

Los modelos de embedding de OpenAI son adecuados para esta tarea porque han sido entrenados en vastos conjuntos de datos de texto, lo que les permite generar embeddings de alta calidad que capturan relaciones semánticas complejas.

**Modelo Recomendado para su Caso de Uso:**

Para comparar la similitud de frases cortas o descripciones de productos como "Cepillo de dientes 3mm cerdas flexibles" y "Dentista", el modelo `text-embedding-ada-002` es una excelente opción.

**¿Por qué `text-embedding-ada-002` es óptimo?**

*   **Calidad del Embedding:** Este modelo genera embeddings de alta dimensión que son muy efectivos para capturar matices semánticos, incluso en frases cortas. Esto es crucial para distinguir entre conceptos relacionados pero distintos.
*   **Eficiencia y Costo:** `text-embedding-ada-002` ofrece un buen equilibrio entre la calidad del embedding, la velocidad de procesamiento y el costo, lo que lo hace ideal para aplicaciones prácticas y de mayor escala.
*   **Casos de Uso Similares:** Ha demostrado un rendimiento sólido en una amplia gama de tareas de similitud de texto, incluyendo la comparación de términos y descripciones en contextos de búsqueda y recomendación.

Al utilizar `text-embedding-ada-002` y calcular la similitud del coseno entre los embeddings de "Cepillo de dientes 3mm cerdas flexibles" y "Dentista", se obtendrá una puntuación numérica que indica cuán semánticamente similares son estas frases según el modelo. Esperaríamos una puntuación de similitud baja, ya que los conceptos son bastante diferentes.

In [None]:
texts = [
    "Cepillo de dientes 3mm cerdas flexibles",
    "Dentista",
    "Este es el primer texto.",
    "Este es el segundo texto, muy similar al primero.",
    "Una frase completamente diferente sobre coches."
]

# Get embeddings using the OpenAI client
response = client.embeddings.create(
    input=texts,
    model="text-embedding-ada-002"
)

# Extract the embedding vectors from the response
embeddings = [data.embedding for data in response.data]

print(f"Generated {len(embeddings)} embeddings.")
print(f"Shape of the first embedding: {len(embeddings[0])}")

Generated 5 embeddings.
Shape of the first embedding: 1536


### Cálculo del coseno

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Convert the list of embeddings to a NumPy array
embeddings_array = np.array(embeddings)

# Calculate the cosine similarity matrix
similarity_matrix = cosine_similarity(embeddings_array)

print("Cosine similarity matrix calculated.")
print(similarity_matrix)

Cosine similarity matrix calculated.
[[1.         0.82850072 0.73061055 0.72918274 0.75368885]
 [0.82850072 1.         0.74835752 0.74004313 0.75264993]
 [0.73061055 0.74835752 1.         0.89784768 0.8104893 ]
 [0.72918274 0.74004313 0.89784768 1.         0.81662499]
 [0.75368885 0.75264993 0.8104893  0.81662499 1.        ]]


## Proporcionar ejemplos explicativos.

Ejemplos que demuestren el análisis de similitud de textos con explicaciones de los resultados en español.

In [None]:
import numpy as np

texts = [
    "Cepillo de dientes 3mm cerdas flexibles",
    "Dentista",
    "Este es el primer texto.",
    "Este es el segundo texto, muy similar al primero.",
    "Una frase completamente diferente sobre coches."
]

# Assuming 'similarity_matrix' and 'texts' are available from previous steps

print("### Resultados del Análisis de Similitud de Texto\n")

for i in range(len(texts)):
    for j in range(i + 1, len(texts)):
        text1 = texts[i]
        text2 = texts[j]
        similarity_score = similarity_matrix[i, j]

        print(f"**Textos:**\n- \"{text1}\"\n- \"{text2}\"")
        print(f"**Similitud del Coseno:** {similarity_score:.4f}")

        # Explanation based on similarity score
        if similarity_score > 0.7:
            explanation = "Estos textos son muy similares semánticamente."
        elif similarity_score > 0.4:
            explanation = "Estos textos tienen cierta similitud semántica."
        elif similarity_score > 0.1:
             explanation = "Estos textos tienen baja similitud semántica."
        else:
            explanation = "Estos textos son semánticamente muy diferentes."

        # Specific explanation for "Cepillo de dientes 3mm cerdas flexibles" vs "Dentista"
        if (text1 == "Cepillo de dientes 3mm cerdas flexibles" and text2 == "Dentista") or \
           (text1 == "Dentista" and text2 == "Cepillo de dientes 3mm cerdas flexibles"):
            explanation += " En este caso particular, la baja similitud indica que, según el modelo, un cepillo de dientes y un dentista son conceptos semánticamente distintos, lo cual es esperado."


        print(f"**Explicación:** {explanation}\n")

# Ejemplo real usando chatgpt embeddings

In [51]:
categorias = {
    "Dispositivos y Artículos Médicos": "OTROS ARTÍCULOS PARA FINES MÉDICOS O QUIRÚRGICOS",
    "Fármacos": "PRODUCTOS FARMACÉUTICOS",
    "Fármacos y Medicina Veterinaria": "PRODUCTOS FARMACÉUTICOS, MEDICINALES Y VETERINARIOS",
    "Medicamentos Terapéuticos": "MEDICAMENTOS PARA USOS TERAPÉUTICOS O PROFILÁCTICOS",
    "Fármacos, Veterinaria y Cosméticos": "PRODUCTOS FARMACÉUTICOS, MEDICINALES, VETERINARIOS, COSMÉTICOS Y ARTÍCULOS DE TOCADOR",
    "Venta al por Menor de Limpieza": "SERVICIOS DE COMERCIO AL POR MENOR DE MATERIALES DE LIMPIEZA EN TIENDAS ESPECIALIZADAS",
    "Venta al por Menor de Cosméticos y Tocador": "SERVICIOS DE COMERCIO AL POR MENOR DE ARTÍCULOS DE PERFUMERÍA, COSMÉTICOS Y JABONES DE TOCADOR EN TIENDAS ESPECIALIZADAS",
    "Artículos de Limpieza Especializados": "OTROS PRODUCTOS DE LIMPIEZA ESPECIALIZADOS EN TIENDAS",
    "Indefinido": "",
}
productos = ["COMPRESA 10 CM X 10 CM",
"INTIBON GEL 150 ML",
"ACETILCISTEINA 200 MG COF",
"ACTILAB COMPRIMIDO",
"SUCRASTEVIA 150",
"INDOLAB SUP ADULTO",
"ALCODERM 10 G",
"ALCOLAX COMP",
"CLAUSIMUS",
"CEPILLO TWISTER  MEDIO X 2",
"ALERGIN COMP",
"AZITROALCOS 200 MG SUSP",
"BEBIDOL JARABE",
"CALMADOLCITO",
"PVM SIN LACTOSA CHOCOLATE",
"CLINDALCOS CREMA",
"CREMA DE ALMENDRAS 24 G",
"CURADIL 75 250 ML",
"LEVOALCOS IV 500 MG 100 ML",
"LEVOALCOS 500 MG COMP","COCHE A CONTROL REMOTO"]

### Definición de funciones para procesar datos

In [43]:
import numpy as np

def embed_text(text: str):
  resp = client.embeddings.create(
    model="text-embedding-3-small",
    input=[text]
  )
  # print(resp.data[0].embedding)
  return resp.data[0].embedding

def cosine_similarity(a: np.ndarray, b: np.ndarray):
  return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

In [44]:
cats_embeds = {category: embed_text(category) for category in categorias.keys() }

In [47]:
def classify(prodName: str):
  emb = embed_text(prodName)
  # calcular similitudes con las categorias
  similitudes = { category: cosine_similarity(np.array(emb), np.array(c_emb)) for category, c_emb in cats_embeds.items() }

  mayorAprox = max(similitudes, key=similitudes.get)
  return mayorAprox

In [52]:
dict_productos = {producto: classify(producto) for producto in productos}

In [None]:
dict_productos