# Notebook del Curso completo de NLP Parte 7
Link al video de youtube:
https://youtu.be/9x1QtYNLJRY?si=QWEZPzKL5JlYXx2o&t=7474

# Entrenamiento de vectores
## Word2vect

El algoritmo Word2vec utiliza un modelo de red neuronal para aprender asociaciones de palabras a partir de un gran corpus de texto. Una vez entrenado, dicho modelo puede detectar palabras sinónimas o sugerir palabras adicionales para una frase sin terminar. Como su nombre indica, Word2vec representa cada palabra distinta con una lista particular de números llamada vector. Los vectores están escogidos cuidadosamente de forma que una función matemática sencilla (la similitud coseno entre los vectores) indica el nivel de la similitud semántica entre las palabras representada por dichos vectores.

## Instalación e importación de librerías

In [1]:
!pip install pypdf2 -q
!pip install gensim -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m76.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
import string
from gensim.models import Word2Vec
import PyPDF2

## Carga del documento


In [3]:
with open('inteligencia-artificial.txt', 'r', encoding='utf-8') as file:
    documento = file.read()

In [4]:
len(documento)

4685

## Preprocesamiento de datos
El objetivo del preprocesameinto es convertir el documento en una lista de frases, y cada frase en una lista de palabras, eliminando signos de puntuación y convirtiendo todo a minúsculas.

### Separar en oraciones

In [5]:
oraciones = documento.split('.')
print("Cantidad de oraciones obtenidas:", len(oraciones))

print("Contenido oracion posicion [1]:", oraciones[1])

Cantidad de oraciones obtenidas: 30
Contenido oracion posicion [1]:  

La IA es un campo amplio que incluye muchas disciplinas, como la informática, el análisis y la estadística de datos, la ingeniería de hardware y software, la lingüística, la neurociencia y hasta la filosofía y la psicología


In [6]:

def limpiar_texto(oraciones):
    oraciones_limpias = []

    for oracion in oraciones:
        # Eliminar puntuacion y dividir por espacios
        tokens = oracion.translate(str.maketrans('', '', string.punctuation)).split()
        tokens = [ word.lower() for word in tokens if word.isalpha() ]
        if tokens:
            oraciones_limpias.append(tokens)
    return oraciones_limpias

oraciones_limpias = limpiar_texto(oraciones)

## Entrenamiento del modelo Word2Vec

In [7]:
model = Word2Vec(sentences=oraciones_limpias,
                 vector_size=500,
                 window=5,
                 min_count=1,
                 workers=8)

In [8]:
vector = model.wv["artificial"]
vector

array([-5.03680203e-04,  1.68795488e-03,  6.79629622e-04,  6.37081394e-04,
       -4.03335929e-04, -2.30818824e-03,  3.53547395e-04,  8.27233423e-04,
       -2.02124449e-03, -8.33423517e-04, -5.72297897e-04, -8.97280173e-04,
        7.70803250e-04,  4.55548434e-04,  8.72476259e-04, -1.51618558e-03,
       -1.41414802e-03,  8.74900899e-04,  1.35118526e-03,  1.05257821e-03,
        1.05795043e-03, -1.44897564e-03,  1.74585031e-03, -1.48173736e-03,
       -1.54282223e-03,  1.78061379e-03, -4.51624539e-04, -1.86695787e-03,
       -8.33515660e-04,  1.14860549e-03, -5.53788559e-04,  9.33697447e-04,
        7.81929557e-05,  7.09962856e-04,  3.90140776e-04, -1.81765715e-03,
       -6.55900221e-04,  1.67271262e-03,  2.46379233e-04, -1.39140361e-03,
        1.33943895e-03,  1.46069855e-03,  1.13676453e-03,  5.01319082e-05,
       -1.96113903e-03, -8.02908093e-04,  8.91570351e-04, -1.13247870e-03,
        1.91840867e-03, -1.92825624e-03, -1.76178978e-03, -1.15181878e-03,
        1.26016000e-03, -

model.wv devuelve los vectores similares al valor ingresado ["inteligencia"]  

In [9]:
palabras_cercanas = model.wv.most_similar("inteligencia", topn=10)
palabras_cercanas

[('tipos', 0.14414383471012115),
 ('los', 0.1172613874077797),
 ('igual', 0.11158894002437592),
 ('emociones', 0.10328206419944763),
 ('y', 0.09937033802270889),
 ('muchas', 0.09799721837043762),
 ('acciones', 0.09574439376592636),
 ('limitada', 0.09528326243162155),
 ('un', 0.09282881021499634),
 ('relaciones', 0.09098181128501892)]

In [10]:
palabras_cercanas = model.wv.most_similar("artificial", topn=10)
palabras_cercanas

[('las', 0.1348695158958435),
 ('la', 0.12669235467910767),
 ('profundo', 0.12364712357521057),
 ('capacidades', 0.11325466632843018),
 ('vuelven', 0.10815006494522095),
 ('varían', 0.10674668848514557),
 ('tiempo', 0.10176125168800354),
 ('permite', 0.09468192607164383),
 ('aprendizaje', 0.09430713951587677),
 ('igual', 0.09399570524692535)]

## Consideraciones
En el caso de que se produzca un error, puede deberse a que el modelo no contiene esa palabra

In [11]:
# palabras_cercanas = model.wv.most_similar("minecraft", topn=10)
# palabras_cercanas

KeyError: "Key 'minecraft' not present in vocabulary"

## Guardar e importar el modelo

In [12]:
model.save("inteligencia_artificial.model")
modelo_cargado = Word2Vec.load("inteligencia_artificial.model")


In [13]:
palabras_cercanas = modelo_cargado.wv.most_similar("aprendizaje", topn=10)
palabras_cercanas

[('profundo', 0.13417738676071167),
 ('pueden', 0.11584588140249252),
 ('otro', 0.11111535876989365),
 ('realiza', 0.1061473935842514),
 ('sería', 0.10193673521280289),
 ('el', 0.101066954433918),
 ('reactivas', 0.1004742681980133),
 ('artificial', 0.09430711716413498),
 ('sociales', 0.09354642033576965),
 ('adicional', 0.08543664962053299)]

## Guardar embeddings

Los archivos cambian según la necesidad, en caso de guardar en formato texto el archivo es legible y puede ser modificado, en cmabio en el caso de los archivos alamcenados en binario no son legibles pero su ventaja es que tienen mayor velocidad de carga

In [14]:
model.wv.save_word2vec_format('mine_emb.txt', binary=False)
model.wv.save_word2vec_format('mine_emb.bin', binary=True)


Importar archivo de embeddings

In [15]:
from gensim.models import KeyedVectors
embeddings_cargados = KeyedVectors.load_word2vec_format('mine_emb.txt', binary=False)
embeddings_cargados

<gensim.models.keyedvectors.KeyedVectors at 0x7a769d94d1f0>

In [16]:
def analogias(palabra1, palabra2, palabra3):
  similitud = embeddings_cargados.most_similar(positive=[palabra1, palabra3], negative=[palabra2] )
  print(f"{palabra1} es a {palabra2} como {similitud[0][0]} es a {palabra3}")

In [17]:
analogias("datos", "ia", "inteligencia" )

datos es a ia como sentir es a inteligencia


# Procesar Archivo PDF


In [18]:
def extraer_texto_desde_pdf(ruta_archivo):
    with open(ruta_archivo, 'rb') as archivo:
        lector = PyPDF2.PdfReader(archivo)
        texto = ""
        for pagina in range( len(lector.pages)):
            texto += lector.pages[pagina].extract_text()
    return texto

documento = extraer_texto_desde_pdf("cien-anios-soledad.pdf")
documento

"          \nGabriel García Márquez \nCien años de soledad \nPara Jomi García Ascot \ny María Luisa Elio Cien años de soledad \nGabriel  García Márquez \n 3  \nI \n \nMuchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía había de \nrecordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces \nuna aldea de veinte casas de barro y cañabrava construidas a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas carecían de nombre, y para \nmencionarlas había que señalarías con el dedo. Todos los años, por el mes de marzo, una familia \nde gitanos desarrapados plantaba su carpa cerca de la aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos. Primero llevaron el imán. Un gitano corpulento, de \nbarba montaraz y manos de gorrión, que se presentó con el nombre de Melquia

In [19]:
len(documento)

823728

In [20]:
oraciones = documento.split(".")
len(oraciones)

8006

In [21]:
oraciones[20]

' Mediante el \npago de cinco reales, la gente se asomaba al catalejo y veía a la gitana al alcance de su mano'

## Procesar textos

In [22]:
oraciones_limpias = limpiar_texto(oraciones)
oraciones_limpias[0]

['gabriel',
 'garcía',
 'márquez',
 'cien',
 'años',
 'de',
 'soledad',
 'para',
 'jomi',
 'garcía',
 'ascot',
 'y',
 'maría',
 'luisa',
 'elio',
 'cien',
 'años',
 'de',
 'soledad',
 'gabriel',
 'garcía',
 'márquez',
 'i',
 'muchos',
 'años',
 'después',
 'frente',
 'al',
 'pelotón',
 'de',
 'fusilamiento',
 'el',
 'coronel',
 'aureliano',
 'buendía',
 'había',
 'de',
 'recordar',
 'aquella',
 'tarde',
 'remota',
 'en',
 'que',
 'su',
 'padre',
 'lo',
 'llevó',
 'a',
 'conocer',
 'el',
 'hielo']

## Entrenamiento del modelo

In [23]:
modelo_pdf = Word2Vec(sentences=oraciones_limpias, vector_size=500, window=5, min_count=1, workers=8)

In [24]:
palabras_cercanas = modelo_pdf.wv.most_similar("buendía", topn=10)
palabras_cercanas

[('segundo', 0.9951850771903992),
 ('josé', 0.9942051768302917),
 ('tío', 0.9927895069122314),
 ('seminario', 0.9874423146247864),
 ('aureliano', 0.9857880473136902),
 ('buendia', 0.9832370281219482),
 ('arcadio', 0.9798001050949097),
 ('inmutarse', 0.9782329201698303),
 ('promovió', 0.9750788807868958),
 ('centeno', 0.9741928577423096)]

In [25]:
modelo_pdf.wv.save_word2vec_format('100as_emb.txt', binary=False)

# Procesar múltiples archivos PDFs

## Descargar archivos de URL

Mediante el link a la pagina se descargan los archivos

In [69]:
import os
import requests
from tqdm import tqdm
from typing import List

def descargar_pdfs_desde_urls(urls_pdfs: List[str], directorio_destino: str = 'pdfs_descargados') -> List[str]:
    """
    Descarga archivos PDF desde una lista de URLs a un directorio local.

    Args:
        urls_pdfs (List[str]): Lista de URLs que apuntan a archivos PDF.
        directorio_destino (str): El directorio donde se guardarán los archivos.

    Returns:
        List[str]: Una lista de las rutas de archivo locales de los PDFs descargados exitosamente.
    """

    # 1. Crear el directorio de destino si no existe
    os.makedirs(directorio_destino, exist_ok=True)
    rutas_archivos_descargados = []

    print(f"Comenzando la descarga de {len(urls_pdfs)} archivos PDF...")

    # 2. Iterar sobre las URLs con barra de progreso
    for url in tqdm(urls_pdfs, desc="Descargando PDFs"):
        try:
            # Obtener el nombre de archivo a partir de la URL (si es posible)
            nombre_archivo = url.split('/')[-1]
            if not nombre_archivo.endswith('.pdf'):
                # Si la URL termina de forma ambigua, le asignamos un nombre genérico
                nombre_archivo = f"archivo_{tqdm.n}.pdf"

            ruta_completa = os.path.join(directorio_destino, nombre_archivo)

            # 3. Realizar la solicitud GET y guardar el contenido
            response = requests.get(url, stream=True, timeout=30)
            response.raise_for_status() # Lanza un error para códigos de estado HTTP malos (4xx o 5xx)

            with open(ruta_completa, 'wb') as f:
                # Usamos response.iter_content para manejar archivos grandes
                for chunk in response.iter_content(chunk_size=8192):
                    f.write(chunk)

            rutas_archivos_descargados.append(ruta_completa)

        except requests.exceptions.RequestException as e:
            print(f"\n[ERROR] No se pudo descargar {url}: {e}")
        except Exception as e:
            print(f"\n[ERROR] Ocurrió un error inesperado al procesar {url}: {e}")

    print(f"\nDescarga finalizada. Total descargados: {len(rutas_archivos_descargados)}")
    return rutas_archivos_descargados

def extraer_documentos_multiples_pdfs(rutas_archivos):
    todos_los_documentos = []

    for ruta_archivo in rutas_archivos:
        try:
            documento = extraer_texto_desde_pdf(ruta_archivo)
            todos_los_documentos.append(documento)
        except Exception as e:
            print(f"Error al procesar {ruta_archivo}")
    return todos_los_documentos

def texto_unificado_limpio(lista_documentos):
    oraciones_totales = []
    for documento in todos_los_documentos:
        oraciones = documento.split(".")
        oraciones_limpias = limpiar_texto(oraciones)
        oraciones_totales.extend(oraciones_limpias)

    return oraciones_totales



In [60]:
lista_urls = ["http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1654.pdf",
              "https://rodin.uca.es/bitstream/handle/10498/33882/2018 Libro LOS ARBOLES DE DECISION.pdf",
              "http://bibliotecadigital.econ.uba.ar/download/apuntes/Parras_Machine-learning.pdf",
              "https://cimat.repositorioinstitucional.mx/jspui/bitstream/1008/1129/1/TE%20835.pdf",
              "https://oa.upm.es/74985/1/TFG_ALONSO_GARCIA_VELASCO.pdf",
              "https://dn790006.ca.archive.org/0/items/fundamentosdesistemasdebasesdedatos/Fundamentos-de-Sistemas-de-Bases-de-Datos.pdf"]


rutas_archivos = descargar_pdfs_desde_urls(lista_urls)

Comenzando la descarga de 6 archivos PDF...


Descargando PDFs: 100%|██████████| 6/6 [00:17<00:00,  2.85s/it]


Descarga finalizada. Total descargados: 6





## Procesar textos

In [61]:
todos_los_documentos = extraer_documentos_multiples_pdfs(rutas_archivos)

todas_oraciones_limpias = texto_unificado_limpio(rutas_archivos)

# todas_oraciones_limpias[3]

In [62]:
print(f"Procesando archivos\nCantidad de archivos: {len(rutas_archivos)}\nDocumentos a procesar: {len(todos_los_documentos)}")
print(f"Oraciones a ser procesadas: {len(todas_oraciones_limpias)}")

Procesando archivos
Cantidad de archivos: 6
Documentos a procesar: 6
Oraciones a ser procesadas: 35553


## Entrenamiento del modelo

In [70]:
model_ia = Word2Vec(sentences=todas_oraciones_limpias, vector_size=500, window=10, min_count=1, workers=12)
palabras_cercanas = model_ia.wv.most_similar("aprendizaje", topn=10)
palabras_cercanas

[('concepto', 0.9433088302612305),
 ('método', 0.9432518482208252),
 ('automático', 0.9418330192565918),
 ('rendimiento', 0.9413475394248962),
 ('utilizado', 0.9398696422576904),
 ('entorno', 0.9368985891342163),
 ('problema', 0.9351728558540344),
 ('contexto', 0.9327536225318909),
 ('equilibrado', 0.9308627843856812),
 ('cliente', 0.9279317855834961)]

In [71]:
palabras_cercanas = model_ia.wv.most_similar("árboles", topn=10)
palabras_cercanas

[('finales', 0.9491286277770996),
 ('términos', 0.9487132430076599),
 ('procederemos', 0.948034405708313),
 ('necesarios', 0.9386225938796997),
 ('índices', 0.9377744197845459),
 ('experimentos', 0.9368643164634705),
 ('componentes', 0.9285317659378052),
 ('resultados', 0.9273450970649719),
 ('pasos', 0.9270059466362),
 ('muestran', 0.922551691532135)]

In [72]:
palabras_cercanas = model_ia.wv.most_similar("mlops", topn=10)
palabras_cercanas

[('buena', 0.9907044172286987),
 ('encargada', 0.9866886734962463),
 ('lograr', 0.9853089451789856),
 ('conseguir', 0.9848710894584656),
 ('ayuda', 0.9834845066070557),
 ('ofreciendo', 0.9830947518348694),
 ('transparencia', 0.9828370809555054),
 ('tenido', 0.9820064306259155),
 ('convolucionales', 0.98199862241745),
 ('reconstrucción', 0.9816734194755554)]

In [73]:
palabras_cercanas = model_ia.wv.most_similar("sql", topn=10)
palabras_cercanas

[('vimos', 0.919394850730896),
 ('optimización', 0.9162411093711853),
 ('consultas', 0.9101976156234741),
 ('heurística', 0.9052541255950928),
 ('comentaremos', 0.9002076983451843),
 ('optimizadores', 0.9001611471176147),
 ('veremos', 0.8959599137306213),
 ('introducción', 0.8939341902732849),
 ('adecua', 0.8926129937171936),
 ('ilustrar', 0.8909662365913391)]

In [74]:
model_ia.wv.save_word2vec_format('embedding_ia.txt', binary=False)

In [76]:
from gensim.models import KeyedVectors

embeddings_cargados = KeyedVectors.load_word2vec_format('embedding_ia.txt', binary=False)

In [None]:
def analogias(modelo_emb, palabra1, palabra2, palabra3):
    similitud = modelo_emb.most_similar(positive=[palabra1, palabra3], negative=[palabra2] )
    print(f"{palabra1} es a {palabra2} como {similitud[0][0]} es a {palabra3}")

In [78]:
analogias(embeddings_cargados, "dato", "información", "árbol")

dato es a información como nodo es a árbol
