<figure>
    <img src="../../../figures/logo_ap.png"  width="80" height="80" align="left"/>
</figure>

# <span style="color:blue"><blue><br><br><br><br><center>&nbsp;&nbsp;&nbsp;Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Biblioteca Alejandría</center></span>

## <span style="color:green"><center>Definición de Tópicos en AI</center></span>

## <span style="color:blue">Autores</span>

1. Álvaro Montenegro, alvaro.montenegro@aprendizajeprofundo.ai
1. Daniel Montenegro, daniel.montenegro@aprendizajeprofundo.ai

## <span style="color:blue">Contenido</span>

* [Obtención de Conocimiento en Autoaprendizaje](#Obtención-de-Conocimiento-en-Autoaprendizaje)
    * [Fases del Autoaprendizaje](#Fases-del-Autoaprendizaje)
    * [Beneficios de Comenzar con Recursos Simples](#Beneficios-de-Comenzar-con-Recursos-Simples)
    * [Aspectos Cognitivos del Autoaprendizaje](#Aspectos-Cognitivos-del-Autoaprendizaje)
* [Extracción de Blogs en Towards Data Science](#Extracción-de-Blogs-en-Towards-Data-Science)
* [Convertir en DataFrame](#Convertir-en-DataFrame)
    * [Subsección X](#Subsección-X)
* [Automatización](#Automatización)
* [Conclusiones](#Conclusiones)
* [Recomendaciones](#Recomendaciones)

## <span style="color:blue">Librerías Necesarias</span>

In [11]:
import os
import re
import json
import requests
import pandas as pd
from openai import OpenAI
from bs4 import BeautifulSoup
from dotenv import load_dotenv

load_dotenv("../../../.env")

True

[[Volver]](#Contenido)

## <span style="color:blue">Obtención de Conocimiento en Autoaprendizaje</span>

El proceso de autoaprendizaje comienza de manera natural con una exploración inicial en recursos accesibles como blogs, libros introductorios y videos. Este enfoque permite al cerebro asimilar nueva información de manera progresiva y efectiva. A continuación, describimos las fases principales de este proceso, con ejemplos aplicados al aprendizaje de inteligencia artificial.

[[Volver]](#Contenido)

### <span style="color:#4CC9F0">Fases del Autoaprendizaje</span>

1. **Exploración Inicial (Curiosidad e Inmersión)**

   - En esta etapa, buscamos recursos sencillos y atractivos para familiarizarnos con los conceptos básicos.
   - Ejemplos: 
     - Blogs como *Towards Data Science* en Medium. Algunas palabras clave podrían ser:
         - Aprendizaje automático (Machine Learning)
         - Aprendizaje profundo (Deep Learning)
         - Procesamiento de lenguaje natural (Natural Language Processing)
         - Visión por computadora (Computer Vision)
         - Robótica
         - Sistemas multiagente
         - Representación del conocimiento y razonamiento
     - Videos de canales educativos como *DeepLearning.AI* en YouTube.
   - Objetivo: Despertar el interés y obtener una visión general.

2. **Construcción de un Marco Mental (Organización Básica)**
   - A medida que adquirimos conceptos iniciales, nuestro cerebro organiza la información en un esquema básico.
   - Recurso ideal: Libros introductorios como [*Artificial Intelligence: A Modern Approach*](https://aima.cs.berkeley.edu/index.html).
   - Objetivo: Establecer una estructura mental para conectar temas y subtemas.

3. **Ampliación y Profundización (Aprendizaje Guiado)**
   - Esta fase implica profundizar en áreas específicas utilizando recursos más estructurados, como cursos en línea (Coursera, edX).
   - Ejemplo: Un curso introductorio en Machine Learning utilizando Python y bibliotecas como scikit-learn.
   - Objetivo: Consolidar y ampliar el conocimiento adquirido.

4. **Validación y Especialización (Aplicación y Práctica)**
   - El aprendizaje activo se refuerza mediante la práctica y la interacción con comunidades en línea.
   - Ejemplo: Implementar un modelo básico en Python y participar en discusiones en foros como Reddit o Stack Overflow.
   - Objetivo: Validar lo aprendido y adaptar el conocimiento a aplicaciones reales.

5. **Retroalimentación e Iteración (Perfeccionamiento)**
   - La revisión constante de lo aprendido, junto con la búsqueda de nuevas fuentes, permite refinar y expandir el conocimiento.
   - Ejemplo: Leer artículos científicos, asistir a conferencias y explorar tendencias emergentes en inteligencia artificial, de fuentes como ArXiv, Google Scholar, etc.

[[Volver]](#Contenido)

### <span style="color:#4CC9F0">Beneficios de Comenzar con Recursos Simples</span>

- **Facilidad de Comprensión**: Blogs y videos simplifican conceptos complejos, haciéndolos accesibles para principiantes.
- **Motivación**: Entender lo básico rápidamente refuerza la confianza y mantiene el interés.
- **Accesibilidad**: Están diseñados para ser atractivos y adaptables a diferentes niveles de conocimiento.

[[Volver]](#Contenido)

### <span style="color:#4CC9F0">Aspectos Cognitivos del Autoaprendizaje</span>


- **Activación de Esquemas Previos**: El cerebro conecta la nueva información con conocimientos previos para facilitar la comprensión.
- **División en "Bloques Manejables"**: Las fuentes introductorias fragmentan conceptos complejos, haciendo el aprendizaje menos abrumador.
- **Construcción de Modelos Mentales**: Se desarrollan esquemas que organizan la información en estructuras lógicas y coherentes.
- **Consolidación mediante Práctica**: Aplicar el conocimiento refuerza las conexiones neuronales, facilitando el aprendizaje duradero.

[[Volver]](#Contenido)

Siguiendo esta línea argumentativa, lo esencial es comenzar desde un contenido amigable como lo es Towards Data Science y otros blogs.

## <span style="color:blue">Extracción de Blogs en Towards Data Science</span>

Una excelente forma de iniciar el aprendizaje sobre inteligencia artificial y análisis de datos es a través de blogs especializados que presentan conceptos de manera accesible y orientada a la práctica.

Uno de los recursos más recomendados es *Towards Data Science*, una plataforma en Medium donde expertos y profesionales comparten conocimientos, casos de estudio, y guías prácticas sobre temas como:

- **Inteligencia Artificial (IA)**
- **Aprendizaje Automático (Machine Learning)**
- **Aprendizaje Profundo (Deep Learning)**
- **Procesamiento de Lenguaje Natural (NLP)**
- **Visualización de Datos**
- **Herramientas y Bibliotecas de Python**

El contenido de *Towards Data Science* se destaca por su enfoque directo, ejemplos aplicados y explicaciones claras, lo que lo convierte en una fuente ideal para investigadores y profesionales en formación. La plataforma también permite filtrar publicaciones por temas específicos y seguir autores reconocidos, facilitando la personalización del aprendizaje.

En esta sección, exploraremos cómo extraer contenido relevante de blogs como *Towards Data Science* y utilizarlos como puntos de partida para profundizar en temas de interés. Además, aprenderemos a identificar palabras clave y temas relacionados que pueden ser útiles para búsquedas más avanzadas en literatura académica y proyectos de investigación.

[[Volver]](#Contenido)

### <span style="color:#4CC9F0">Realizar Consultas en Towards Data Science</span>

Para obtener información desde Towards Data Science, podemos hacer la consulta directa por petición desde python:

In [31]:
# Se generan de manera manual las palabras claves que inician el proceso de descubrimiento
queries_priori = [
    "Machine Learning",
    "Deep Learning",
    "Natural Language Processing (NLP)",
    "Computer Vision",
    "Robotics",
    "Multi-Agent Systems",
    "Knowledge Representation and Reasoning"]

for query in queries_priori[1:]:
    url = f"https://towardsdatascience.com/search?q={query}"
    resp = requests.get(url)
    html_content = resp.text
    break

Luego de esto, es posible utilizar Beautiful Soup para obtener la información de metadata relevante de los blogs:

In [32]:
# Analizar el HTML
soup = BeautifulSoup(html_content, "html.parser")

# Buscar el JSON dentro de la etiqueta <script>
script_tag = soup.find("script", string=lambda t: t and "window.__APOLLO_STATE__" in t)

# Extraer el contenido JSON
if script_tag:
    script_content = script_tag.string
    # Dividir y limpiar el JSON
    json_start = script_content.find("{")  # Encontrar el inicio del JSON
    json_content = script_content[json_start:]  # Extraer el JSON
    try:
        data = json.loads(json_content)
        #print(data)  # Ahora tienes un diccionario en Python
    except json.JSONDecodeError as e:
        print("Error al decodificar el JSON:", e)

keys_to_search = [re.search("Post.*", key).group() for key in data.keys() if re.search("Post.*", key)]
#keys_to_search

data_json = []
for ks in keys_to_search:

    try:
        title = data[ks]["title"]
        published = data[ks]["firstPublishedAt"]
        updated = data[ks]["latestPublishedAt"]
        creator = data[ks]["creator"]["__ref"]
        link_article = data[ks]["mediumUrl"]
        reading_time = data[ks]["readingTime"]
        clap_count = data[ks]["clapCount"]
        data_json.append({"published": published, 
                          "updated": updated, 
                          "title": title, 
                          "authors": creator, 
                          "link_article": link_article, 
                          "reading_time": reading_time, 
                          "clap_count":clap_count})
    except:
        pass

[[Volver]](#Contenido)

### <span style="color:#4CC9F0">Convertir en DataFrame en TDS</span>

Texto de la sección X

In [33]:
data_df = pd.DataFrame.from_dict(data_json)
columns_to_convert = ['published', 'updated']
data_df[columns_to_convert] = data_df[columns_to_convert].apply(pd.to_datetime, unit='ms')
data_df.info()
data_df.sort_values(by="published", ascending=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   published     10 non-null     datetime64[ns]
 1   updated       10 non-null     datetime64[ns]
 2   title         10 non-null     object        
 3   authors       10 non-null     object        
 4   link_article  10 non-null     object        
 5   reading_time  10 non-null     float64       
 6   clap_count    10 non-null     int64         
dtypes: datetime64[ns](2), float64(1), int64(1), object(3)
memory usage: 688.0+ bytes


Unnamed: 0,published,updated,title,authors,link_article,reading_time,clap_count
0,2024-10-22 11:02:16.434,2024-10-22 11:02:16.434,Deep Learning vs Data Science: Who Will Win?,User:fed347b7eebd,https://towardsdatascience.com/deep-learning-v...,11.48805,1838
1,2024-08-15 15:19:50.250,2024-08-15 15:19:50.250,A Fresh Look at Nonlinearity in Deep Learning,User:eb1320a8b904,https://towardsdatascience.com/a-fresh-look-at...,7.050314,428
2,2024-06-20 17:10:08.636,2024-06-20 17:10:08.636,Why You (Currently) Do Not Need Deep Learning ...,User:9f4927da760a,https://towardsdatascience.com/why-you-current...,10.603774,1028
3,2024-05-11 16:51:47.422,2024-05-30 06:49:35.526,N-BEATS — The First Interpretable Deep Learnin...,User:9f4927da760a,https://towardsdatascience.com/n-beats-the-fir...,10.691509,696
4,2024-05-11 05:33:02.273,2024-08-31 02:25:39.153,"Deep Learning Illustrated, Part 3: Convolution...",User:99b63de2f2c3,https://towardsdatascience.com/deep-learning-i...,14.264151,629
5,2024-04-17 17:34:35.416,2024-04-24 16:46:40.344,Why Deep Learning Models Run Faster on GPUs: A...,User:7149b141467c,https://towardsdatascience.com/why-deep-learni...,14.550943,1452
6,2024-02-08 20:15:15.532,2024-11-18 01:38:04.341,"Deep Learning Illustrated, Part 2: How Does a ...",User:99b63de2f2c3,https://towardsdatascience.com/deep-learning-i...,13.112264,682
7,2024-01-31 22:02:59.854,2024-12-01 05:44:59.463,"Deep Learning Illustrated, Part 1: How Does a ...",User:99b63de2f2c3,https://towardsdatascience.com/neural-networks...,14.936792,1464
8,2023-12-30 16:44:16.926,2023-12-30 16:44:16.926,Understanding Deep Learning Optimizers: Moment...,User:c8a0ca9d85d8,https://towardsdatascience.com/understanding-d...,7.154717,456
9,2023-12-08 18:28:35.759,2024-04-29 20:46:10.259,Exploding & Vanishing Gradient Problem in Deep...,User:1cac491223b2,https://towardsdatascience.com/vanishing-explo...,8.271698,262


In [34]:
data_df["link_article"].values

array(['https://towardsdatascience.com/deep-learning-vs-data-science-who-will-win-103bfbad0a65',
       'https://towardsdatascience.com/a-fresh-look-at-nonlinearity-in-deep-learning-a79b6955d2ad',
       'https://towardsdatascience.com/why-you-currently-do-not-need-deep-learning-for-time-series-forecasting-0de57f2bc0ed',
       'https://towardsdatascience.com/n-beats-the-first-interpretable-deep-learning-model-that-worked-for-time-series-forecasting-06920daadac2',
       'https://towardsdatascience.com/deep-learning-illustrated-part-3-convolutional-neural-networks-96b900b0b9e0',
       'https://towardsdatascience.com/why-deep-learning-models-run-faster-on-gpus-a-brief-introduction-to-cuda-programming-035272906d66',
       'https://towardsdatascience.com/deep-learning-illustrated-part-2-how-does-a-neural-network-learn-481f70c1b474',
       'https://towardsdatascience.com/neural-networks-illustrated-part-1-how-does-a-neural-network-work-c3f92ce3b462',
       'https://towardsdatascience.c

[[Volver]](#Contenido)

## <span style="color:blue">Obtención de Palabras Clave</span>

In [None]:
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

## TODO: HAY QUE TRABAJAR TODAVIA EN EL PROMPT
syst_prompt = """Eres un asistente que sabe transformar textos en JSON según la información que requiera el usuario y que le ayuda a guiar al usuario para construir consultas que le sirvan para generar material educativo técnico guiado hacia el ámbito de la programación y conceptos innovadores o en marcha. Ejemplos son RAG, grafos semánticos, agentes, etc."""
user_prompt = f"""Dame en un JSON las palabras clave (que pueden ser listas en los valores de las llaves) que debería hacer a un buscador académico para construir materiales educativos tipo notebook sobre los nuevos avances en AI partir del siguiente texto: {text}. No des explicaciones adicionales, sólo el diccionario y recuerda que debe ser útil para hacer búsquedads en buscadores de artículos científicos como ArXiv, Scielo, Google Scholar, etc. Agrega AI a las palabras claves si no las tienen para asegurarse que el buscador busque correctamente. Las llaves del JSON deben ser las áreas de la IA que se desarrollan en la actualidad."""

completion = client.chat.completions.create(messages=[
        {"role": "system", "content": syst_prompt},
        {"role": "user", "content": user_prompt}
    ],
    model="gpt-4o")

areas_str = completion.choices[0].message.content
areas_cln = areas_str.replace("```json","").replace("```","").strip()
areas = eval(areas_cln)
areas

{'Generative AI': ['Generative Algorithms',
  'Generative Content Creation',
  'DALL-E',
  'ChatGPT',
  '3D Printing',
  'Generative AI in Healthcare',
  'Generative AI Trends 2024'],
 'Conversational AI': ['Chatbots',
  'Conversational AI Trends',
  'Customer Experience',
  'Product Efficiency'],
 'Predictive Analytics': ['Predictive Maintenance',
  'Predictive Analytics in Manufacturing',
  'AI in Inventory Management',
  'AI in Business Operations'],
 'Explainable AI': ['AI Transparency',
  'AI Black Box Problem',
  'Explainability in AI',
  'Explainable AI Systems'],
 'Multi-Modal AI': ['Multi-Modal Systems',
  'Natural Language Understanding',
  'Visual Perception',
  'Voice Recognition',
  'Google DeepMind Gato'],
 'Digital Twins': ['Digital Twin Technology',
  'Virtual Replicas',
  'Industry 4.0',
  'NVIDIA and Siemens'],
 'Collaborative Robots (Cobots)': ['Human-Robot Synergy',
  'COBOT Applications',
  'AI-Powered Cobots',
  'AI in Manufacturing'],
 'AI-powered Cybersecurity':

[[Volver]](#Contenido)

In [39]:
from openai import OpenAI

llm_client = OpenAI(base_url="http://localhost:11434/v1",
                                      api_key="ollama")

resp = llm_client.chat.completions.create(messages=[
        {"role": "system", "content": "Eres un asistente cool"},
        {"role": "user", "content": "¿Cuánto es 2+2?"}
    ],
    model="llama3.2:latest")

print(resp.choices[0].message.content)

¡Fácil!

La respuesta es: 4
