## 1. Conceptos Básicos de NLP

#1.1 Configuración del entorno
Primero, instalamos las bibliotecas necesarias y cargamos los datos.

In [None]:
# Instalar bibliotecas necesarias
!pip install nltk spacy

# Descargar recursos de NLTK
import nltk
nltk.download('punkt_tab')  # Para tokenización
nltk.download('stopwords')  # Para stopwords
nltk.download('averaged_perceptron_tagger')  # Para POS tagging

# Cargar modelo de spaCy para español
!python -m spacy download es_core_news_sm
import spacy
nlp = spacy.load("es_core_news_sm")



[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m69.4 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


#1.2 Corpus
Un corpus es una colección grande y estructurada de textos. Es la base para entrenar modelos de NLP.

In [None]:
# Ejemplo de un corpus simple
corpus = [
    "El procesamiento de lenguaje natural es fascinante.",
    "La inteligencia artificial está transformando el mundo.",
    "Los modelos de lenguaje son cada vez más avanzados."
]

# Mostrar el corpus
for i, texto in enumerate(corpus):
    print(f"Texto {i+1}: {texto}")

Texto 1: El procesamiento de lenguaje natural es fascinante.
Texto 2: La inteligencia artificial está transformando el mundo.
Texto 3: Los modelos de lenguaje son cada vez más avanzados.


#1.3 Tokenización
La tokenización divide un texto en unidades más pequeñas, como palabras o símbolos.

In [None]:
from nltk.tokenize import word_tokenize

# Texto de ejemplo
texto = "¡Hola, mundo! ¿Cómo estás?"
Texto=corpus

# Tokenización por palabras
for i, texto in enumerate(Texto):
  tokens = word_tokenize(Texto[i], language='spanish')
  print("Tokens:", tokens)

Tokens: ['El', 'procesamiento', 'de', 'lenguaje', 'natural', 'es', 'fascinante', '.']
Tokens: ['La', 'inteligencia', 'artificial', 'está', 'transformando', 'el', 'mundo', '.']
Tokens: ['Los', 'modelos', 'de', 'lenguaje', 'son', 'cada', 'vez', 'más', 'avanzados', '.']


#1.4 Normalización
La normalización convierte el texto a un formato estándar, como minúsculas y sin puntuación.

In [None]:
# Convertir a minúsculas y eliminar puntuación
import string
corpus = [
    "El procesamiento de lenguaje natural es fascinante.",
    "La inteligencia artificial está transformando el mundo.",
    "Los modelos de lenguaje son cada vez más avanzados."
]
texto = "¡Hola, Mundo! ¿Cómo Estás?"

corpus_lower = [elemento.upper() for elemento in corpus]  # Usando list comprehension para mayor concisión
corpus = corpus_lower  # Reemplazar el corpus original con la versión en minúsculas
print(corpus)

for i, texto in enumerate(corpus):
  texto = corpus[i].translate(str.maketrans('', '', '¿?!¡.'))  # Eliminar puntuación
  print("Texto normalizado:", texto)

['EL PROCESAMIENTO DE LENGUAJE NATURAL ES FASCINANTE.', 'LA INTELIGENCIA ARTIFICIAL ESTÁ TRANSFORMANDO EL MUNDO.', 'LOS MODELOS DE LENGUAJE SON CADA VEZ MÁS AVANZADOS.']
Texto normalizado: EL PROCESAMIENTO DE LENGUAJE NATURAL ES FASCINANTE
Texto normalizado: LA INTELIGENCIA ARTIFICIAL ESTÁ TRANSFORMANDO EL MUNDO
Texto normalizado: LOS MODELOS DE LENGUAJE SON CADA VEZ MÁS AVANZADOS


#1.5 Bag of Words (BoW)
El bag of words es una representación numérica de un texto, donde se cuenta la frecuencia de cada palabra.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Corpus de ejemplo
corpus = [
    "El gato está en la casa y el gato es amigo del perro.",
    "El perro está en el jardín.",
    "El gato y el perro son amigos."
]

# Crear el modelo Bag of Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# Mostrar las palabras y sus frecuencias
print("Palabras:", vectorizer.get_feature_names_out())
print("Frecuencias:\n", X.toarray())

Palabras: ['amigo' 'amigos' 'casa' 'del' 'el' 'en' 'es' 'está' 'gato' 'jardín' 'la'
 'perro' 'son']
Frecuencias:
 [[1 0 1 1 2 1 1 1 2 0 1 1 0]
 [0 0 0 0 2 1 0 1 0 1 0 1 0]
 [0 1 0 0 2 0 0 0 1 0 0 1 1]]


#1.6 Stopwords
Las stopwords son palabras comunes que no aportan significado (por ejemplo, "el", "de", "y").

In [None]:
from nltk.corpus import stopwords

# Obtener stopwords en español
stop_words = set(stopwords.words('spanish'))

# Filtrar stopwords de un texto
Texto = [
    "El gato está en la casa y el gato es amigo del perro.",
    "El perro está en el jardín.",
    "El gato y el perro son amigos."
]

# Tokenización por palabras
tokens_filtrados=[]
for i, texto in enumerate(Texto):
  tokens = word_tokenize(Texto[i], language='spanish')
  #print("Tokens:", tokens)
  tokens = word_tokenize(texto, language='spanish')
  tokens_filtrados.append([word for word in tokens if word.lower() not in stop_words])
print("Tokens sin stopwords:", tokens_filtrados)




Tokens sin stopwords: [['gato', 'casa', 'gato', 'amigo', 'perro', '.'], ['perro', 'jardín', '.'], ['gato', 'perro', 'amigos', '.']]


#1.7 Stemming
El stemming reduce las palabras a su raíz, aunque no siempre sea una palabra válida.

In [None]:
from nltk.stem import SnowballStemmer

# Crear un stemmer para español
stemmer = SnowballStemmer('spanish')

# Aplicar stemming a una lista de palabras
palabras = ["corriendo", "correr", "corrió","correría","correcaminos","corres","correló"]
raices = [stemmer.stem(palabra) for palabra in palabras]
print("Raíces:", raices)

Raíces: ['corr', 'corr', 'corr', 'corr', 'correcamin', 'corr', 'correl']


#1.8 Lematización
La lematización reduce las palabras a su forma base (lema), que sí es una palabra válida.

In [None]:
# Texto de ejemplo
texto = "La"

# Procesar el texto con spaCy
doc = nlp(texto)

# Obtener los lemas
lemas = [token.lemma_ for token in doc]
print("Lemas:", lemas)

Lemas: ['el']


#1.9. Part-of-Speech (POS) Tagging
El POS tagging asigna a cada palabra una etiqueta gramatical (sustantivo, verbo, adjetivo, etc.).

In [None]:
# Texto de ejemplo
texto = "El gato está durmiendo en el sofá."

# Procesar el texto con spaCy
doc = nlp(texto)

# Obtener las etiquetas POS
for token in doc:
    print(f"Palabra: {token.text}, POS: {token.pos_}, Etiqueta: {token.tag_}")

Palabra: El, POS: DET, Etiqueta: DET
Palabra: gato, POS: NOUN, Etiqueta: NOUN
Palabra: está, POS: AUX, Etiqueta: AUX
Palabra: durmiendo, POS: VERB, Etiqueta: VERB
Palabra: en, POS: ADP, Etiqueta: ADP
Palabra: el, POS: DET, Etiqueta: DET
Palabra: sofá, POS: NOUN, Etiqueta: NOUN
Palabra: ., POS: PUNCT, Etiqueta: PUNCT


#1.10 N-gramas
Los n-gramas son secuencias de "n" palabras consecutivas. Son útiles para capturar el contexto.

In [None]:
from nltk.util import ngrams

# Texto de ejemplo
texto = "El gato está durmiendo en el sofá."

# Tokenizar el texto
tokens = word_tokenize(texto, language='spanish')

# Generar bigramas (n=2)
bigramas = list(ngrams(tokens, 2))
print("Bigramas:", bigramas)

Bigramas: [('El', 'gato'), ('gato', 'está'), ('está', 'durmiendo'), ('durmiendo', 'en'), ('en', 'el'), ('el', 'sofá'), ('sofá', '.')]


#Resumen de Conceptos
1. **Corpus**: Colección de textos.

2. **Tokenización**: Dividir texto en palabras o símbolos.

3. **Normalización**: Convertir texto a un formato estándar.

4. **Bag of Words**: Representación numérica de un texto.

5. **Stopwords**: Palabras comunes sin significado.

6. **Stemming**: Reducir palabras a su raíz.

7. **Lematización**: Reducir palabras a su forma base (lema).

8. **Part-of-Speech (POS)**: Etiquetado gramatical.

9. **N-gramas**: Secuencias de "n" palabras consecutivas.

## Ejercicio

Crear sus propios:

1. Corpus
2. Tokenización
3. Normalización
4. Bag of Words
5. Stop Words
6. Stemming
7. Lematización
8. POS
9. N-Gramas