<a href="https://colab.research.google.com/github/jcmachicao/intro_ia_maestrias_espana/blob/main/intro_IA___Regex_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 0. Filosof√≠a del notebook (Markdown)
Este notebook no pretende ense√±ar programaci√≥n avanzada.



Su objetivo es:
- Entender qu√© son las expresiones regulares (Regex)
- Entender qu√© es el Procesamiento de Lenguaje Natural (NLP)
- Ver qu√© tareas son "mec√°nicas" y cu√°les requieren contexto

Pensaremos siempre en la pregunta:
¬øQu√© hace aqu√≠ un humano y qu√© hace la m√°quina?

1. ¬øQu√© es Regex? (intuici√≥n humana)
### ¬øQu√© es Regex?

Un humano reconoce patrones en texto todo el tiempo:

- Correos electr√≥nicos
- N√∫meros de tel√©fono
- Fechas
- Palabras clave

Ejemplo humano:
"Esto parece un email"
"Esto parece un n√∫mero de tel√©fono"

Regex es la forma en que le decimos a la computadora:
üëâ ‚ÄúBusca este patr√≥n exacto‚Äù


üëâ Idea clave:
Regex NO entiende el significado, solo la forma.

## 2. Primer ejemplo de Regex (muy simple)
C√≥digo (m√≠nimo)

In [1]:
import re

texto = "Mi correo es ejemplo@gmail.com y mi n√∫mero es 555-1234"
texto

emails = re.findall(r"\S+@\S+", texto)
emails

['ejemplo@gmail.com']

### ¬øQu√© pas√≥ aqu√≠?

- `\S+` significa: "cualquier cosa que no sea espacio"
- `@` es literalmente el s√≠mbolo @

La computadora no sabe qu√© es un email.
Solo reconoce la forma.


üß† Comparaci√≥n cognitiva

Humano: reconoce significado

Regex: reconoce estructura

## 3. Regex como cognici√≥n r√≠gida
### Limitaci√≥n importante de Regex

Regex funciona bien cuando:
- El patr√≥n es claro
- El formato es estable

Regex falla cuando:
- El lenguaje es ambiguo
- El contexto importa


Ejemplo:

In [2]:
texto = "Escr√≠beme a soporte@empresa.com o visita nuestra web"
re.findall(r"\S+@\S+", texto)

['soporte@empresa.com']

üëâ Funciona‚Ä¶ pero no sabe qu√© hacer con intenci√≥n, iron√≠a o contexto.

## 4. Transici√≥n: ¬øpor qu√© necesitamos NLP?
### Problema

Los humanos no solo reconocen formas.
Reconocen:

- Palabras
- Roles (sujeto, verbo, objeto)
- Entidades (personas, empresas, lugares)
- Intenciones

Para eso existe el NLP (Natural Language Processing).

## 5. ¬øQu√© es NLP? (intuici√≥n)
### NLP en una frase

NLP intenta que la computadora:
- No solo vea texto
- Sino que lo analice como lenguaje

No es comprensi√≥n humana,
pero es una aproximaci√≥n estad√≠stica y estructural.

## 6. Instalaci√≥n y carga de spaCy
C√≥digo (Colab-friendly)

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

In [None]:
import spacy
nlp = spacy.load("es_core_news_sm")

## 7. Procesar un texto con spaCy

Ahora spaCy ha convertido el texto en un objeto ling√º√≠stico.

In [None]:
texto = "Apple lanz√≥ un nuevo producto en Europa en 2024"
doc = nlp(texto)

## 8. Tokenizaci√≥n (algo que humanos hacen sin pensar)

Un humano no separa palabras conscientemente.
La m√°quina s√≠ necesita hacerlo.

In [None]:
for token in doc:
    print(token.text)

## 9. Partes de la oraci√≥n (POS tagging)

spaCy etiqueta cada palabra:

- SUSTANTIVO
- VERBO
- ADJETIVO

Esto es estructura, no comprensi√≥n.

In [None]:
for token in doc:
    print(token.text, "‚Üí", token.pos_)

## 10. Entidades nombradas (NER)

Resultado t√≠pico:

Apple ‚Üí ORG
Europa ‚Üí LOC
2024 ‚Üí DATE

Aqu√≠ la m√°quina empieza a parecer "inteligente",
pero sigue sin entender causalidad o intenci√≥n.

In [None]:
for ent in doc.ents:
    print(ent.text, "‚Üí", ent.label_)

## 11. Comparaci√≥n directa: Regex vs NLP
### Regex
- R√°pido
- Determinista
- Fr√°gil
- Sin contexto

### NLP (spaCy)
- M√°s flexible
- Usa modelos estad√≠sticos
- Reconoce estructura ling√º√≠stica
- Sigue sin "entender" como un humano

## 12. Mini experimento cognitivo

Pregunta para humanos:
¬øEst√° afirmando algo o dudando?

La m√°quina no puede responder eso.

In [None]:
texto = "Ma√±ana quiz√° Apple no lance nada, pero los rumores son fuertes"
doc = nlp(texto)

for ent in doc.ents:
    print(ent.text, ent.label_)

## 13. Conexi√≥n con LLMs (cierre conceptual)
Regex ‚Üí reglas r√≠gidas  
spaCy ‚Üí modelos ling√º√≠sticos cl√°sicos  
LLMs ‚Üí modelos probabil√≠sticos a gran escala  

Cada paso:
- Aumenta flexibilidad
- Aumenta costo
- Reduce interpretabilidad

Pero ninguno reemplaza el juicio humano.



## 14. Frase final para el notebook
Regex reconoce formas.  
NLP reconoce estructura.  
Los humanos reconocen sentido.