# Guideline for Prompt engineering (Cont.)

Nuestro objetivo es generar embeddings de un texto para despues poder buscar cosas dentro de este texto por medio de preguntas en lenguaje natural.

## Word embeddings

* Word embeddings o simplemente embeddings son el resultado de un proceso mediante el cual se utiliza alguna tecnica/algoritmo que sea capaz de convertir palabras o texto a vectores de N dimensiones. 

* Estos vectores contienen cierto nivel de información semantica sobre el texto o palabra. 

* Por ejemplo, palabras que son muy similares van a tener valores cercanos en sus representaciones en vectores. 

* Existen diversos modelos que son capaces de hacer un embedding de un texto, en este caso utilizaremos el embedding de OpenAI, el cual tiene la capacidad de posicionas muy bien palabras o textos segun su semantica. 

* Este es el mismo embedding que utiliza GPT3.

* ¿Cómo definir cercanía? --> Métrica Coseno

<img src="Cosine.png" alt="Cosine" width="200" height="150">


In [1]:
# Importamos todas las dependencias requeridas
import gradio as gr # Para desarrollar la interfaz grafica
import openai
import pandas as pd

from openai.embeddings_utils import get_embedding
from openai.embeddings_utils import cosine_similarity

# Definimos la API key
openai.api_key  = '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'

### Que es y cómo usar embeddings

Al hacer embedding de un texto/dato, lo convertimos en un vector numérico.

Recordemos que datos similares estarán más cercanos entre si cuando semanticamente son similares.

In [14]:
# Se puede hacer embeeding de palabras o cadenas de texto
palabras = ["casa", "perro", "gato", "lobo", "leon", "zebra", "tigre"]

In [15]:
# Usemos una consulta a Open AI para generar embaddings

diccionario = {}

for i in palabras:
    diccionario[i] = get_embedding( i , engine = "text-embedding-ada-002" )
    # See: https://platform.openai.com/docs/guides/embeddings/what-are-embeddings, for other options
    
#diccionario

In [16]:
# Resultado:
diccionario["perro"][:10] # En general la dimensión del vector es 1536

[-0.006988260429352522,
 -0.01821703463792801,
 -0.01121556293219328,
 -0.017543306574225426,
 -0.009775638580322266,
 0.022074447944760323,
 -0.009438774548470974,
 -0.010119106620550156,
 -0.004511324688792229,
 -0.0182434543967247]

### Operando con embeddings

* Debido a que los embeddings son una representacion vectorial de los datos en un espacio latente, podemos medir la distancia entre dos vectores y asi obtener que tan similares son. 

* Podemos comparar una palabra nueva o alguna de las que ya fueron embebidas y que estan contenidas en el objeto _diccionario_

Obs.: No necesariamente es similitud de objetos. Ejemplo, perro y gato aun siendo "opuestos" están cerca pues tienen una relación.

In [17]:
# Ejemplo: Comparación

n_palabra = "agujero negro" # Palabra nueva a comparar

palabra_comparar = "perro" # Palabra del diccionario

n_palabra_embed = get_embedding( n_palabra, engine = "text-embedding-ada-002" )

similitud = cosine_similarity( diccionario[palabra_comparar], n_palabra_embed )

print(similitud)

0.8161583033483782


In [18]:
# Ejemplo: Suma

pd.DataFrame( diccionario["leon"] ) 

Unnamed: 0,0
0,0.024300
1,0.006057
2,0.013718
3,-0.035409
4,-0.021940
...,...
1531,0.037988
1532,-0.009556
1533,-0.014011
1534,0.008647


In [19]:
#
sumados = ( pd.DataFrame( diccionario["leon"] ) ) + ( pd.DataFrame( diccionario["zebra"] ) )

sumados

Unnamed: 0,0
0,-0.006841
1,-0.009169
2,0.001479
3,-0.053077
4,-0.034059
...,...
1531,0.060315
1532,-0.026812
1533,-0.027292
1534,0.018238


In [20]:
# ¿A qué se parece más la suma de un león y una zebra?

for key, value in diccionario.items():
    print(key , ":" , cosine_similarity( diccionario[key], sumados ) )

casa : [0.82823695]
perro : [0.85057702]
gato : [0.85632269]
lobo : [0.85625446]
leon : [0.95314411]
zebra : [0.95314412]
tigre : [0.88068785]
cat : [0.84996086]


# Procesar datos de un PDF

Haremos ahora un ejemplo donde leemos un PDF para poder hacer preguntas y traer un exctracto del PDF.

In [24]:
# pip install langchain #pypdf
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter

In [25]:
#
loader = PyPDFLoader("ENIGH2022.pdf")
pages = loader.load_and_split()

In [26]:
# Un elemento por cada página
pages[3].page_content

'COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE JULIO  DE 2023  \nPÁGINA  4/32 \n \n \nCOMUNICACIÓN SOCIAL   \nPersonas con hijas e hijos  \n \nEl mayor ingreso promedio trimestral monetario para los hombres se presentó entre quienes \ntienen dos hijas o hijos: el monto fue de 38 168 pesos. En contraste, el menor ingreso se \npresentó entre los hombres sin hijas o hi jos y fue de 25 096 pesos.  \n \nPara las mujeres, el mayor ingreso promedio trimestral monetario fue entre quienes tenían una \nhija o hijo con un monto de 22 504 pesos. Por otra parte, el menor ingreso lo percibieron las \nmujeres con cuatro hijas o hijos, o más y fue de 13 583 pesos.  \n \nGrupos de edad  \n \nEl mayor ingreso promedio trimestral monetario, para la ENIGH 2022, correspondió al grupo \nde 40 a 49 años, con 31 694 pesos. El menor ingreso se presentó en el grupo de 12 a 19 años \ncon un monto de 6 532 pesos.  \n \nNivel de escolaridad  \n \nPor nivel de escolaridad, el ingreso promedio trimestral monetario má

In [27]:
# Objeto que va a hacer los cortes en el texto
split = CharacterTextSplitter( chunk_size = 300, separator = '.\n')

In [28]:
textos = split.split_documents(pages) # Lista de textos

In [29]:
print(textos[0].page_content)
#print(textos[0])

COMUNICADO  DE PRENSA  NÚM. 42 0/23 
 26 DE JULIO  DE 2023  
PÁGINA  1/32 
 
 
COMUNICACIÓN SOCIAL  EL INEGI PRESENTA LOS RESULTADOS DE LA ENCUESTA NACIONAL DE 
INGRESOS Y GASTOS DE LOS HOGARES (ENIGH) 2022  
 
• En 2022, el promedio del ingreso corriente trimestral por hogar fue de 63 695 
pesos, un aumento del 11 % respecto a 2020, 4.6 % con relación a 2018 y         
0.2 % respecto a 2016. La principal fuente fue el trabajo  que para 2022 
representó el 65.7 %.  
• El ingreso promedio trimestral monetario de los hombres fue de 29 285 pesos y 
el de las mujeres de 19 081, una brecha de 10 204 pesos al trimestre en 2022.  
• En 2022, los hogares del decil I representan el 2.1 % del ingreso corriente total, 
mientras que los del  decil X concentran el 31.5 %.   
• En 2022, las personas que se consideran indígenas o hablan alguna lengua 
indígena tienen un ingreso promedio trimestral monetario de 18 428 pesos,     
24.5 % menos que el promedio nacional. En el caso de las personas que so

In [30]:
# Extraemos la parte de page_content de cada texto y lo pasamos a un dataframe
textos = [str(i.page_content) for i in textos] #Lista de parrafos
parrafos = pd.DataFrame(textos, columns=["texto"])
print(parrafos)

                                                texto
0   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
1   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
2   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
3   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
4   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
5   COMUNICADO  DE PRENSA  NÚM. 42 0/23 \n 26 DE J...
6   COMUNICACIÓN SOCIAL   \nENCUESTA NACIONAL DE I...
7   COMUNICACIÓN SOCIAL   \nLa población nacional ...
8   COMUNICACIÓN SOCIAL  Cuadro  2  \nCARACTERÍSTI...
9   COMUNICACIÓN SOCIAL   \nGráfica  1 \nINGRESO  ...
10  COMUNICACIÓN SOCIAL   \nLo anterior significar...
11  COMUNICACIÓN SOCIAL   \nIngreso corriente prom...
12  COMUNICACIÓN SOCIAL   \nIngreso corriente prom...
13  COMUNICACIÓN SOCIAL   \nEn la ENIGH 2022 se ob...
14  COMUNICACIÓN SOCIAL   \nCoeficiente de  Gini \...
15  COMUNICACIÓN SOCIAL  Cuadro  8 \n INGRESO  PRO...
16  COMUNICACIÓN SOCIAL   \nEn contraste, la pobla...
17  COMUNICACIÓN SOCIAL  En 

In [31]:
# Generamos embedings y guardamos los datos
parrafos['Embedding'] = parrafos["texto"].apply( lambda x: get_embedding( x, engine = 'text-embedding-ada-002' ) ) 
                        # Nueva columna con los embeddings de los parrafos
parrafos.to_csv('ENIGH2022.csv')

In [32]:
# Función de preguntas y respuestas

def buscar( busqueda, datos, n_resultados=5):
    busqueda_embed = get_embedding(busqueda, engine="text-embedding-ada-002")
    datos["Similitud"] = datos['Embedding'].apply(lambda x: cosine_similarity(x, busqueda_embed))
    datos = datos.sort_values("Similitud", ascending=False)
    return datos.iloc[:n_resultados][["texto", "Similitud", "Embedding"]]

In [33]:
# App
texto_emb = parrafos

with gr.Blocks() as demo:
    busqueda = gr.Textbox(label="Buscar")
    output = gr.DataFrame(headers=['texto'])
    greet_btn = gr.Button("Preguntar")
    greet_btn.click(fn=buscar, inputs=[busqueda, gr.DataFrame(texto_emb)], outputs=output)

demo.launch()


# resp = buscar("Con cuanta vida empiezo?", parrafos, 5) # Reutilizamos la funcion de "buscar" del app de gradio

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


