# **Módulo 5 - Clase 1: Procesamiento Básico de Texto con Python**

**Duración total:** 3 horas

**Asignatura:** Ciencia de Datos e Inteligencia Artificial

**Unidad:** Procesamiento Básico de Texto: Limpieza, Tokenización y Análisis Exploratorio

**Herramientas:** Python, NLTK, pandas, matplotlib, WordCloud, TextBlob (para el ejercicio de análisis de sentimientos)

---


### 1. Introducción al Procesamiento de Lenguaje Natural (PLN)

**Objetivo:** Brindar el contexto y la motivación del procesamiento de texto en proyectos de Ciencia de Datos e Inteligencia Artificial.

### Teoría:

El Procesamiento de Lenguaje Natural (PLN) es una rama de la IA que **se encarga de la interacción entre las computadoras y el lenguaje humano. Su objetivo es permitir que las máquinas entiendan, interpreten y generen lenguaje humano.**

**Aplicaciones del PLN:**


---

### **1. Análisis de sentimientos**

**Definición:**
El análisis de sentimientos (también llamado minería de opiniones) es una técnica del PLN que consiste en identificar, extraer y clasificar automáticamente emociones expresadas en un texto. Su objetivo principal es determinar si el sentimiento detrás de un texto es **positivo**, **negativo** o **neutro**.

**Aplicaciones comunes:**

* Opiniones de clientes en productos y servicios (por ejemplo, reseñas de Amazon o TripAdvisor).
* Análisis de reputación en redes sociales (tweets, comentarios).
* Estudios de mercado y marketing.

**En la práctica:**
Se basa en técnicas de aprendizaje supervisado (entrenar modelos con textos etiquetados) o en enfoques léxicos (uso de diccionarios de palabras positivas/negativas). Herramientas comunes: `TextBlob`, `VADER`, modelos BERT.


| Característica             | Descripción                                                                     |
| -------------------------- | ------------------------------------------------------------------------------- |
| **Objetivo**               | Determinar si un texto expresa un sentimiento positivo, negativo o neutro.      |
| **Entrada**                | Texto libre (comentarios, reseñas, publicaciones en redes, etc.).               |
| **Salida**                 | Etiqueta de sentimiento o puntuación de polaridad (por ejemplo, de -1 a 1).     |
| **Técnicas comunes**       | Léxicas (diccionarios), aprendizaje automático supervisado, redes neuronales.   |
| **Bibliotecas frecuentes** | `TextBlob`, `VADER`, `NLTK`, `transformers (BERT, RoBERTa)`                     |
| **Aplicaciones prácticas** | Marketing, análisis reputacional, política, e-commerce, experiencia de usuario. |
| **Ventaja principal**      | Permite obtener insights emocionales masivos sin análisis manual.               |

---

### **2. Clasificación de textos**

**Definición:**
La clasificación de textos es la tarea de asignar una o varias categorías predefinidas a un fragmento de texto. Es una de las tareas más fundamentales en PLN.

**Tipos comunes:**

* **Binaria**: texto spam o no spam.
* **Multiclase**: clasificar noticias por secciones (deportes, política, salud).
* **Multietiqueta**: un texto puede pertenecer a varias categorías.

**Aplicaciones comunes:**

* Filtros de spam en correo electrónico.
* Moderación de contenido en redes sociales.
* Clasificación automática de documentos legales o médicos.

**En la práctica:**
Se puede implementar con algoritmos como Naïve Bayes, SVM, redes neuronales o transformers, utilizando TF-IDF o representaciones vectoriales modernas como Word2Vec, BERT.


| Característica             | Descripción                                                             |
| -------------------------- | ----------------------------------------------------------------------- |
| **Objetivo**               | Asignar categorías predefinidas a un texto.                             |
| **Tipos de clasificación** | Binaria (spam/no spam), multiclase, multietiqueta.                      |
| **Entrada**                | Texto sin estructura (mensajes, artículos, correos).                    |
| **Salida**                 | Categoría o grupo al que pertenece el texto.                            |
| **Técnicas comunes**       | Naïve Bayes, SVM, Random Forest, redes neuronales, transformers.        |
| **Bibliotecas frecuentes** | `scikit-learn`, `spaCy`, `fastText`, `transformers`                     |
| **Aplicaciones prácticas** | Moderación de contenido, filtros de spam, categorización de documentos. |
| **Ventaja principal**      | Automatiza la organización de grandes volúmenes de texto.               |

---

### **3. Traducción automática**

**Definición:**
La traducción automática (Machine Translation, MT) es el proceso mediante el cual un sistema convierte texto de un idioma a otro sin intervención humana.

**Aplicaciones comunes:**

* Traductores en línea (Google Translate, DeepL).
* Plataformas educativas multilingües.
* Comunicación en aplicaciones y servicios internacionales.

**Técnicas:**

* Sistemas basados en reglas (en desuso).
* Sistemas estadísticos (SMT, como el antiguo Google Translate).
* **Traducción automática neuronal** (NMT): modelos de deep learning como seq2seq, transformers (Ej: Google Neural Machine Translation, OpenNMT).

**En la práctica:**
Se utilizan redes neuronales profundas entrenadas con grandes corpus paralelos (texto equivalente en dos idiomas). Requiere procesamiento y alineación gramatical compleja.


| Característica             | Descripción                                                                  |
| -------------------------- | ---------------------------------------------------------------------------- |
| **Objetivo**               | Convertir texto de un idioma origen a un idioma destino de forma automática. |
| **Entrada**                | Texto en idioma A.                                                           |
| **Salida**                 | Traducción equivalente en idioma B.                                          |
| **Técnicas principales**   | SMT (traducción estadística), NMT (traducción automática neuronal).          |
| **Modelos populares**      | seq2seq con LSTM, Transformer, MarianMT, GPT, mBART.                         |
| **Bibliotecas frecuentes** | `OpenNMT`, `Hugging Face Transformers`, `MarianNMT`, `fairseq`               |
| **Aplicaciones prácticas** | Traducción web, contenido multilingüe, e-learning, comercio internacional.   |
| **Ventaja principal**      | Ahorra tiempo y recursos en contextos multilingües.                          |

---

### **4. Sistemas de recomendación basados en texto**

**Definición:**
Son sistemas que sugieren contenido a los usuarios a partir del análisis semántico y contextual del texto (descripciones, títulos, reseñas, etc.).

**Aplicaciones comunes:**

* Recomendación de artículos o noticias según intereses.
* Sugerencia de productos basada en opiniones escritas.
* Plataformas educativas que recomiendan recursos personalizados.

**En la práctica:**

* **Sistemas content-based:** usan características textuales del ítem (título, descripción) y las comparan con los intereses del usuario.
* **Técnicas:** TF-IDF, embeddings, análisis semántico latente (LSA), Word2Vec, BERT.

**Ejemplo:** Un usuario que lee muchas reseñas de libros de ciencia ficción recibirá sugerencias de libros con textos similares.


| Característica             | Descripción                                                                |
| -------------------------- | -------------------------------------------------------------------------- |
| **Objetivo**               | Sugerir contenidos, productos o servicios en función del análisis textual. |
| **Entrada**                | Texto relacionado al producto/usuario (reseñas, descripciones, títulos).   |
| **Salida**                 | Lista personalizada de recomendaciones.                                    |
| **Técnicas comunes**       | TF-IDF, Word Embeddings (Word2Vec, GloVe), modelos semánticos (BERT).      |
| **Modelos frecuentes**     | Sistemas content-based o híbridos (con filtrado colaborativo).             |
| **Bibliotecas útiles**     | `scikit-learn`, `gensim`, `spaCy`, `transformers`, `LightFM`.              |
| **Aplicaciones prácticas** | Recomendaciones de libros, películas, cursos, productos.                   |
| **Ventaja principal**      | Mejora la experiencia del usuario con contenido relevante.                 |

---

### **5. Chatbots y asistentes virtuales**

**Definición:**
Son sistemas automáticos que interactúan con humanos en lenguaje natural, comprendiendo, procesando y generando respuestas adecuadas a entradas textuales o de voz.

**Tipos:**

* **Basados en reglas:** flujos predefinidos y scripts condicionales.
* **Basados en IA:** utilizan PLN y modelos de aprendizaje profundo.

**Aplicaciones comunes:**

* Servicio al cliente automatizado (bancos, comercios).
* Asistentes personales (Siri, Alexa, Google Assistant).
* Plataformas de educación, salud y e-commerce.

**En la práctica:**
Involucran tareas complejas del PLN como:

* Reconocimiento de intenciones (intent classification)
* Extracción de entidades (NER)
* Generación de lenguaje natural (NLG)

**Frameworks populares:** Rasa, Dialogflow, Microsoft Bot Framework.


| Característica             | Descripción                                                                   |
| -------------------------- | ----------------------------------------------------------------------------- |
| **Objetivo**               | Simular conversaciones humanas para brindar asistencia automatizada.          |
| **Entrada**                | Pregunta o instrucción escrita o hablada.                                     |
| **Salida**                 | Respuesta en lenguaje natural o ejecución de una acción.                      |
| **Componentes clave**      | Detección de intención, extracción de entidades, generación de respuestas.    |
| **Técnicas comunes**       | Reglas + PLN clásico o modelos de deep learning (BERT, GPT).                  |
| **Frameworks populares**   | `Rasa`, `Dialogflow`, `Botpress`, `Microsoft Bot Framework`, `ChatGPT API`    |
| **Aplicaciones prácticas** | Soporte al cliente, asistentes personales, automatización de tareas.          |
| **Ventaja principal**      | Escalabilidad y disponibilidad continua de servicios sin intervención humana. |

---



### **Flujo General del Procesamiento Textual**

El **procesamiento textual** es una secuencia estructurada de etapas que transforman texto sin procesar (ruidoso y complejo) en datos útiles para modelos de inteligencia artificial. Este flujo es fundamental en cualquier aplicación de PLN (Procesamiento de Lenguaje Natural) y permite extraer valor semántico, sintáctico y estadístico del lenguaje humano.

---

### 1. **Recolección de datos**

**¿Qué es?**
Es la fase en la que se obtienen los datos textuales que se van a procesar y analizar.

**Fuentes comunes:**

* **Scraping web:** automatización para extraer texto de páginas web (por ejemplo, reseñas de productos, noticias, redes sociales).
* **APIs:** como las de Twitter, Reddit o IMDb, que permiten consultar textos en tiempo real de forma estructurada.
* **Archivos:** documentos planos como `.txt`, `.csv`, `.json`, PDFs, entre otros.

**Consideraciones:**

* Ética y legalidad del acceso a datos (respetar políticas de privacidad).
* Formato y codificación (UTF-8 es el más común).

---



#### **Ejercicio**

Construir una **capa de extracción de texto** desde:

1. Sitios web mediante scraping (`requests + BeautifulSoup`)
2. APIs públicas (ejemplo: Reddit con `praw`)
3. Archivos locales (`.txt`, `.csv`, `.json`)

Todo dentro de una arquitectura extensible como una capa que puedes integrar en una aplicación mayor (por ejemplo, usando FastAPI o Streamlit).

---

### **Ejercicio**

#### Requisitos

Instala los paquetes necesarios:

```bash
pip install requests beautifulsoup4 praw pandas praw

```

1. `requests`
2. `beautifulsoup4`
3. Crear una cuenta gratuita en [https://newsdata.io/](https://newsdata.io/) y obtener tu `API_KEY`.


---



### **Script Python - `data_collector.py`**



In [None]:
# data_collector.py

import requests
from bs4 import BeautifulSoup
import pandas as pd
import json
import os

# -------------------------------
# Scraping Web
# -------------------------------

def extraer_texto_web(url: str) -> str:
    """
    Extrae el texto visible de los <p> de una página web.
    """
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, "html.parser")
        parrafos = soup.find_all('p')
        texto = ' '.join([p.get_text(strip=True) for p in parrafos if p.get_text(strip=True)])
        return texto if texto else "No se encontró texto en la página."
    except Exception as e:
        return f"Error en scraping: {e}"

# -------------------------------
# API de Noticias (NewsData.io)
# -------------------------------

def extraer_noticias_newsdata(api_key: str, categoria: str = "technology", idioma: str = "es", limite=5) -> list:
    """
    Extrae titulares recientes de noticias utilizando NewsData.io API gratuita.
    """
    url = f"https://newsdata.io/api/1/news?apikey={api_key}&language={idioma}&category={categoria}"
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        data = response.json()
        articulos = data.get("results", [])[:limite]
        return [art["title"] for art in articulos if "title" in art]
    except Exception as e:
        return [f"Error en API de noticias: {e}"]

# -------------------------------
# Lectura de archivos locales
# -------------------------------

def leer_archivo(path: str) -> str:
    """
    Lee archivos .txt, .csv o .json y devuelve su contenido como string.
    """
    if not os.path.exists(path):
        return f"Archivo no encontrado: {path}"

    ext = os.path.splitext(path)[1].lower()
    try:
        if ext == '.txt':
            with open(path, encoding='utf-8') as f:
                return f.read()
        elif ext == '.csv':
            df = pd.read_csv(path)
            return df.to_string(index=False)
        elif ext == '.json':
            with open(path, encoding='utf-8') as f:
                data = json.load(f)
                return json.dumps(data, indent=2, ensure_ascii=False)
        else:
            return f"Formato no soportado: {ext}"
    except Exception as e:
        return f"Error leyendo archivo: {e}"

# -------------------------------
# Ejemplo de uso local
# -------------------------------

if __name__ == "__main__":
    print("\n--- SCRAPING WEB ---")
    url = "https://www.bbc.com/mundo"
    texto_web = extraer_texto_web(url)
    print(texto_web[:500], "...\n")

    print("--- API DE NOTICIAS ---")
    api_key = os.getenv("NEWSDATA_API_KEY", "pub_2ac1dbe13deb4121913ac355f9da375d")
    noticias = extraer_noticias_newsdata(api_key)
    for title in noticias:
        print("-", title)

    print("\n--- ARCHIVOS LOCALES ---")
    ruta_archivo = "ejemplo.txt"

    # Crear archivo si no existe (para prueba)
    if not os.path.exists(ruta_archivo):
        with open(ruta_archivo, "w", encoding="utf-8") as f:
            f.write("Este es un archivo de prueba para análisis de texto. Contiene varias frases útiles.")

    print(leer_archivo(ruta_archivo)[:300], "...\n")


### 2. **Limpieza de texto**

**¿Qué es?**
Consiste en eliminar elementos innecesarios o ruidosos del texto para facilitar su análisis y representación.

**Operaciones comunes:**

* Pasar todo a minúsculas
* Eliminar signos de puntuación y caracteres especiales
* Eliminar números irrelevantes
* Quitar palabras vacías (stopwords) como “el”, “la”, “de”
* Corregir errores ortográficos (opcional)
* Eliminar URLs, etiquetas HTML, menciones o hashtags

**Objetivo:**
Obtener un texto limpio y homogéneo que facilite el procesamiento posterior.

---

### **Script Python - Limpieza de texto básica**




In [None]:
# limpieza_texto.py

import re
import string
import nltk
from bs4 import BeautifulSoup
from nltk.corpus import stopwords

# Descargar stopwords si aún no están
nltk.download('stopwords', quiet=True)

def limpiar_texto(texto: str) -> str:
    """
    Limpia texto eliminando HTML, menciones, hashtags, emojis,
    URLs, correos electrónicos, puntuación, números y stopwords.
    """
    if not isinstance(texto, str):
        raise ValueError("La entrada debe ser una cadena de texto.")

    # Si contiene tags HTML, procesamos con BeautifulSoup
    if '<' in texto and '>' in texto:
        texto = BeautifulSoup(texto, features="html.parser").get_text()

    # Eliminar correos electrónicos
    texto = re.sub(r'\S+@\S+', '', texto)

    # Eliminar URLs
    texto = re.sub(r'http\S+|www\.\S+', '', texto)

    # Eliminar menciones y hashtags
    texto = re.sub(r'[@#]\w+', '', texto)

    # Eliminar emojis y caracteres no alfanuméricos (excepto espacios)
    texto = re.sub(r'[^\w\s]', '', texto, flags=re.UNICODE)

    # Convertir a minúsculas
    texto = texto.lower()

    # Eliminar números
    texto = re.sub(r'\d+', '', texto)

    # Eliminar signos de puntuación restantes
    texto = texto.translate(str.maketrans("", "", string.punctuation))

    # Eliminar espacios múltiples
    texto = re.sub(r'\s+', ' ', texto).strip()

    # Eliminar stopwords
    stop_words = set(stopwords.words('spanish'))
    palabras = [p for p in texto.split() if p not in stop_words]

    return ' '.join(palabras)

# -------------------------------
# Ejemplo de uso
# -------------------------------

if __name__ == "__main__":
    texto_original = """
    ¡Hola! Me llamo Luis y este es mi correo: luis@email.com.
    #NLP es increíble. Visita https://example.com para más información.
    """
    texto_limpio = limpiar_texto(texto_original)
    print("Texto limpio:\n", texto_limpio)


### 3. **Tokenización y normalización**

**¿Qué es?**
Es la fragmentación del texto y la reducción de sus palabras a formas base para unificar variaciones gramaticales.

**Tokenización:**

* Divide el texto en unidades mínimas como palabras o frases (tokens).
  Ejemplo: “Estoy feliz” → \[“Estoy”, “feliz”]

**Normalización:**

* **Stemming:** Reduce palabras a su raíz (ej: “jugando” → “jug”)
* **Lematización:** Reduce palabras a su forma base (ej: “jugando” → “jugar”)

**Objetivo:**
Reducir la complejidad del lenguaje natural sin perder significado.

---

### Instalar `spaCy`

Ejecuta esto en tu terminal o consola (no en Jupyter):

```bash
pip install spacy
python -m spacy download es_core_news_sm
```



### **Script Python – Tokenización y normalización**



In [None]:
# tokenizacion_spacy.py

import spacy

# Cargar modelo en español
try:
    nlp = spacy.load("es_core_news_sm")
except OSError:
    print("El modelo 'es_core_news_sm' no está instalado. Ejecuta esto en consola:")
    print("    python -m spacy download es_core_news_sm")
    exit()

def tokenizar_y_lematizar_spacy(texto: str) -> list:
    """
    Tokeniza y lematiza un texto en español usando spaCy.
    """
    doc = nlp(texto)
    return [token.lemma_ for token in doc if not token.is_punct and not token.is_stop]

# -------------------------------
# Ejemplo de uso
# -------------------------------

if __name__ == "__main__":
    texto = "Los estudiantes estaban estudiando intensamente y luego descansaron un poco."

    print("Texto original:")
    print(texto)

    print("\nTokenización + Lematización (con spaCy):")
    print(tokenizar_y_lematizar_spacy(texto))


### **Nota técnica importante:**

Para **lematización real en español**, 
[`spaCy`](https://spacy.io/) con el modelo `es_core_news_sm`, ya que `nltk` no ofrece lematización precisa en este idioma.


---

### 4. **Análisis exploratorio de texto (EDA textual)**

**¿Qué es?**
Es una revisión visual y estadística del contenido textual para entender su estructura, frecuencia y distribución.

**Técnicas comunes:**

* Conteo de palabras y n-gramas frecuentes
* Nube de palabras (WordCloud)
* Distribución de longitud de textos
* Frecuencia de aparición de ciertos términos
* Análisis de coocurrencia

**Objetivo:**
Descubrir patrones, outliers y relaciones antes de aplicar modelos de aprendizaje automático.

---


### **Ejercicio**

Realizar un análisis exploratorio básico de un corpus textual usando:

* Conteo de palabras
* Frecuencia de términos
* Longitud de textos
* Nube de palabras
* (Opcional) Coocurrencia simple

---

### **Instala primero estas bibliotecas si aún no las tienes:**

```bash
pip install pandas matplotlib wordcloud nltk seaborn spacy
python -m spacy download es_core_news_sm

```

---

### **Script Python – `eda_textual.py`**



In [None]:
# eda_textual.py

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from collections import Counter
import spacy

# -------------------------------
# Cargar modelo de spaCy en español
# -------------------------------
nlp = spacy.load("es_core_news_sm")

# -------------------------------
# Preprocesamiento y tokenización
# -------------------------------

def limpiar_y_tokenizar(texto: str) -> list:
    """
    Limpia, lematiza y tokeniza un texto en español usando spaCy.
    Filtra stopwords, puntuación y símbolos.
    """
    doc = nlp(texto.lower())
    tokens = [
        token.lemma_ for token in doc
        if not token.is_stop and not token.is_punct and token.is_alpha
    ]
    return tokens

# -------------------------------
# Conteo de palabras más frecuentes
# -------------------------------

def contar_palabras(lista_textos: list) -> Counter:
    """
    Cuenta palabras más frecuentes en una lista de textos.
    """
    tokens = []
    for texto in lista_textos:
        tokens.extend(limpiar_y_tokenizar(texto))
    return Counter(tokens)

# -------------------------------
# Nube de palabras
# -------------------------------

def generar_nube_palabras(textos: list):
    """
    Genera una nube de palabras a partir de una lista de textos.
    """
    texto_unido = " ".join(textos)
    tokens_limpios = limpiar_y_tokenizar(texto_unido)
    texto_limpio = " ".join(tokens_limpios)

    nube = WordCloud(width=800, height=400, background_color='white').generate(texto_limpio)
    plt.figure(figsize=(10, 5))
    plt.imshow(nube, interpolation='bilinear')
    plt.axis('off')
    plt.title("Nube de palabras")
    plt.show()

# -------------------------------
# Distribución de longitud de textos
# -------------------------------

def graficar_longitud_textos(textos: list):
    """
    Grafica la distribución de longitud de textos en número de palabras.
    """
    longitudes = [len(limpiar_y_tokenizar(t)) for t in textos]
    sns.histplot(longitudes, bins=10, kde=True)
    plt.title("Distribución de longitud de textos")
    plt.xlabel("Cantidad de palabras")
    plt.ylabel("Frecuencia")
    plt.show()

# -------------------------------
# Ejecución principal
# -------------------------------

if __name__ == "__main__":
    # Simulación de dataset
    datos = {
        'id': [1, 2, 3],
        'texto': [
            "¡Me encantó este producto! Lo recomiendo totalmente.",
            "La calidad no era la esperada. Muy decepcionado.",
            "Buen precio, entrega rápida, volveré a comprar."
        ]
    }

    df = pd.DataFrame(datos)

    print("Análisis exploratorio básico del texto:\n")

    # Conteo de palabras
    conteo = contar_palabras(df['texto'].tolist())
    print("Top 10 palabras más comunes:")
    for palabra, frecuencia in conteo.most_common(10):
        print(f"  {palabra}: {frecuencia}")

    # Nube de palabras
    generar_nube_palabras(df['texto'].tolist())

    # Distribución de longitud
    graficar_longitud_textos(df['texto'].tolist())


### 5. **Representación vectorial del texto**

**¿Qué es?**
Es la conversión de texto a una estructura numérica (vectores) que los algoritmos de IA pueden procesar.

**Métodos principales:**

* **Bag of Words (BoW):** Representa la frecuencia de palabras.
* **TF-IDF:** Ajusta la importancia de palabras según su frecuencia en documentos.
* **Embeddings:** Capturan significado semántico y contexto (Word2Vec, GloVe, FastText, BERT).

**Objetivo:**
Transformar lenguaje natural en datos numéricos útiles para el modelado.

---

### Ejercicio con los tres enfoques de **representación vectorial de texto**:

* **Bag of Words (BoW)**
* **TF-IDF**
* **Word Embeddings** (con `spaCy` para simplificar).

### `representacion_vectorial.py`




In [None]:
# representacion_vectorial.py

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import spacy
import os

# ---------------------------------------
# Cargar modelo spaCy si está disponible
# ---------------------------------------
def cargar_spacy():
    try:
        return spacy.load("es_core_news_md")  # Modelo con vectores preentrenados
    except OSError:
        print("Modelo 'es_core_news_md' no encontrado.")
        print("Para usar Word Embeddings, instala con:")
        print("   python -m spacy download es_core_news_md")
        return None

nlp = cargar_spacy()

# ---------------------------------------
# Corpus de ejemplo
# ---------------------------------------
corpus = [
    "Me encanta el aprendizaje automático",
    "El aprendizaje profundo es una subárea del aprendizaje automático",
    "Las redes neuronales son fundamentales en el aprendizaje profundo"
]

# ---------------------------------------
# 1. Bag of Words (BoW)
# ---------------------------------------
print("Representación: Bag of Words (BoW)\n")

bow_vectorizer = CountVectorizer()
X_bow = bow_vectorizer.fit_transform(corpus)
df_bow = pd.DataFrame(X_bow.toarray(), columns=bow_vectorizer.get_feature_names_out())
print(df_bow)

# ---------------------------------------
# 2. TF-IDF
# ---------------------------------------
print("\nRepresentación: TF-IDF\n")

tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(corpus)
df_tfidf = pd.DataFrame(X_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
print(df_tfidf.round(2))

# ---------------------------------------
# 3. Word Embeddings con spaCy (si está disponible)
# ---------------------------------------
if nlp:
    print("\nRepresentación: Word Embeddings (spaCy)\n")

    def vector_promedio(texto):
        doc = nlp(texto)
        return doc.vector

    embedding_vectors = [vector_promedio(texto) for texto in corpus]

    print(f"Vector de dimensión: {embedding_vectors[0].shape}")
    print("Primeros 10 valores del vector 1:", embedding_vectors[0][:10])
else:
    print("\nWord Embeddings desactivado. spaCy 'es_core_news_md' no está disponible.")


### 6. **Modelado (aprendizaje supervisado o no supervisado)**

**¿Qué es?**
Aplicación de algoritmos de aprendizaje automático para resolver tareas específicas usando la representación vectorial del texto.

**Tipos de aprendizaje:**

| Tipo               | Descripción                                                                      |
| ------------------ | -------------------------------------------------------------------------------- |
| **Supervisado**    | Requiere datos etiquetados. Ej: clasificación de sentimientos, spam/no spam      |
| **No supervisado** | No requiere etiquetas. Ej: agrupación de documentos (clustering), topic modeling |

**Modelos comunes:**

* Naïve Bayes, SVM, Logistic Regression
* Random Forest, redes neuronales, transformers

**Objetivo:**
Extraer conocimiento útil del texto procesado, como predicciones, clasificaciones o agrupaciones.

---


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.exceptions import UndefinedMetricWarning
import warnings

# ---------------------------------------
# Configuraciones iniciales
# ---------------------------------------
warnings.filterwarnings("ignore", category=UndefinedMetricWarning)
sns.set(style="whitegrid")

# ---------------------------------------
# Datos simulados
# ---------------------------------------
corpus = [
    "Me encanta este producto, es excelente",
    "Es una porquería, lo odio totalmente",
    "Muy satisfecho con la compra, lo recomiendo",
    "No me gustó, es una pérdida de dinero",
    "Funciona bien, pero esperaba más",
    "Terrible calidad, no lo recomiendo",
    "Es justo lo que necesitaba, me encantó",
    "Mala experiencia, no volveré a comprar"
]
etiquetas = [1, 0, 1, 0, 1, 0, 1, 0]  # 1: Positivo, 0: Negativo

# ---------------------------------------
# Vectorización
# ---------------------------------------
vectorizador = TfidfVectorizer()
X = vectorizador.fit_transform(corpus)
y = etiquetas

# ---------------------------------------
# División de datos
# ---------------------------------------
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

# ---------------------------------------
# Modelado Supervisado
# ---------------------------------------
def evaluar_modelo(nombre, modelo):
    modelo.fit(X_train, y_train)
    pred = modelo.predict(X_test)

    print(f"\nModelo: {nombre}")
    print(classification_report(y_test, pred, target_names=["Negativo", "Positivo"], zero_division=0))

    matriz = confusion_matrix(y_test, pred)
    sns.heatmap(matriz, annot=True, fmt="d", cmap="Blues", xticklabels=["Neg", "Pos"], yticklabels=["Neg", "Pos"])
    plt.title(f"Matriz de confusión - {nombre}")
    plt.xlabel("Predicción")
    plt.ylabel("Real")
    plt.show()

modelos = {
    "Naïve Bayes": MultinomialNB(),
    "SVM": LinearSVC(),
    "Logistic Regression": LogisticRegression(max_iter=1000)
}

print("Clasificación Supervisada\n")
for nombre, modelo in modelos.items():
    evaluar_modelo(nombre, modelo)

# ---------------------------------------
# Clustering No Supervisado (KMeans)
# ---------------------------------------
print("\nClustering (No Supervisado): KMeans\n")

num_clusters = 2
kmeans = KMeans(n_clusters=num_clusters, random_state=42, n_init=10)
etiquetas_clusters = kmeans.fit_predict(X)

df_resultado = pd.DataFrame({
    "Texto": corpus,
    "Cluster": etiquetas_clusters
})
print(df_resultado)

# ---------------------------------------
# Visualización 2D de Clusters con PCA
# ---------------------------------------
try:
    pca = PCA(n_components=2)
    X_2D = pca.fit_transform(X.toarray())

    plt.figure(figsize=(8, 5))
    palette = sns.color_palette("Set2", num_clusters)
    for i in range(num_clusters):
        puntos = X_2D[df_resultado["Cluster"] == i]
        plt.scatter(puntos[:, 0], puntos[:, 1], s=100, label=f"Cluster {i}", color=palette[i])

    for i, txt in enumerate(df_resultado["Texto"]):
        plt.annotate(i, (X_2D[i, 0] + 0.02, X_2D[i, 1] + 0.02), fontsize=8)

    plt.title("Agrupación de textos con KMeans + PCA")
    plt.xlabel("PCA 1")
    plt.ylabel("PCA 2")
    plt.legend()
    plt.grid(True)
    plt.tight_layout()
    plt.show()
except Exception as e:
    print(f"Error en visualización con PCA: {e}")


## 5. Ejercicio Práctico: Análisis de Sentimientos 
**Objetivo:** Integrar las técnicas aprendidas para analizar sentimientos en un conjunto de reseñas reales. 


## Estructura del proyecto

```
analisis_sentimientos/
│
├── main.py                        # Punto de entrada principal
│
├── datos/
│   └── recoleccion.py            # Capa 1: Recolección de datos
│
├── procesamiento/
│   ├── limpieza.py               # Capa 2: Limpieza de texto
│   ├── exploracion.py            # Capa 3: Análisis exploratorio
│   └── vectorizacion.py          # Capa 4: Representación vectorial
│
├── modelo/
│   └── entrenamiento.py          # Capa 5: Entrenamiento y evaluación
│
└── utils/
    └── __init__.py               # (opcional) Utilidades comunes o configuraciones
```

---


### 1. `datos/recoleccion.py`



In [None]:
# Capa 1: Recolección de datos

# Importamos la biblioteca pandas, utilizada para trabajar con estructuras de datos como DataFrames.
import pandas as pd

# Definimos una función llamada 'cargar_datos' que simula la recolección de reseñas.
def cargar_datos():
    """
    Simula la carga de reseñas de productos.
    Retorna un DataFrame con texto y su respectiva etiqueta de sentimiento.
    """

    # Lista de cadenas de texto que representan reseñas de usuarios sobre productos.
    reseñas = [
        "Me encantó el producto, lo recomiendo totalmente",            # Positiva
        "Es una pérdida de dinero, muy malo",                          # Negativa
        "Excelente calidad y entrega rápida",                          # Positiva
        "Horrible, llegó dañado y sin caja",                           # Negativa
        "Producto decente, aunque esperaba más",                       # Positiva
        "Muy contento con la compra, funciona perfecto",               # Positiva
        "No sirve, se rompió el primer día",                           # Negativa
        "Satisfecho con la calidad, lo usaré nuevamente"              # Positiva
    ]

    # Lista de etiquetas correspondientes a cada reseña.
    # 1 representa sentimiento positivo y 0 representa sentimiento negativo.
    etiquetas = [1, 0, 1, 0, 1, 1, 0, 1]

    # Creamos un DataFrame de pandas a partir de las reseñas y etiquetas.
    # El DataFrame tendrá dos columnas: 'texto' y 'sentimiento'.
    return pd.DataFrame({'texto': reseñas, 'sentimiento': etiquetas})


### 2. `procesamiento/limpieza.py`



In [None]:
# Capa 2: Limpieza de texto

# Importamos el módulo 'string' que nos da acceso a caracteres especiales como puntuación.
import string

# Importamos el módulo 're' para expresiones regulares (no usado en esta versión, pero útil si se amplía).
import re

# Definimos una función que recibe como entrada una cadena de texto.
def limpiar_texto(texto):
    """
    Convierte texto a minúsculas, elimina puntuación y palabras cortas.
    Retorna el texto limpio como una sola cadena.
    """

    # Validación: si la entrada no es una cadena de texto, devolvemos una cadena vacía.
    if not isinstance(texto, str):
        return ""
    
    # 1. Convertimos todo el texto a minúsculas para unificar comparaciones.
    texto = texto.lower()
    
    # 2. Eliminamos los signos de puntuación utilizando 'translate' y 'string.punctuation'.
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    
    # 3. Separamos el texto en palabras usando espacios como separador (tokenización básica).
    tokens = texto.split()
    
    # 4. Eliminamos palabras muy cortas (menores o iguales a un carácter, como 'a', 'y', etc.).
    tokens_limpios = [t for t in tokens if len(t) > 1]
    
    # 5. Unimos los tokens limpios de nuevo en una sola cadena separada por espacios.
    return ' '.join(tokens_limpios)


### 3. `procesamiento/exploracion.py`



In [None]:
# Capa 3: Análisis exploratorio

# Importamos matplotlib para graficar
import matplotlib.pyplot as plt

# Importamos seaborn, una librería que facilita gráficos estadísticos con estilo
import seaborn as sns

# Función que recibe un DataFrame con una columna llamada 'sentimiento'
def graficar_distribucion(df):
    """
    Muestra la distribución de clases de sentimiento (0 = Negativo, 1 = Positivo).
    """

    # Creamos un gráfico de barras con conteo por clase usando seaborn.
    # 'x' es la columna del DataFrame que contiene las etiquetas.
    # 'hue' es igual a 'x' para mostrar diferente color por clase.
    # 'palette' define los colores del gráfico.
    # 'legend=False' oculta la leyenda adicional.
    sns.countplot(data=df, x='sentimiento', hue='sentimiento', palette='Set2', legend=False)

    # Título del gráfico
    plt.title("Distribución de sentimientos")

    # Etiqueta del eje X
    plt.xlabel("Sentimiento")

    # Etiqueta del eje Y
    plt.ylabel("Cantidad")

    # Cambiamos los valores del eje X: 0 → "Negativo", 1 → "Positivo"
    plt.xticks([0, 1], ['Negativo', 'Positivo'])

    # Mostramos el gráfico en pantalla
    plt.show()


### 4. `procesamiento/vectorizacion.py`



In [None]:
# Capa 4: Representación vectorial

# Importamos el vectorizador TF-IDF desde sklearn
from sklearn.feature_extraction.text import TfidfVectorizer

# Definimos una función que recibe un corpus de texto como lista de frases
def vectorizar_texto(corpus):
    """
    Convierte texto en vectores TF-IDF.
    Retorna: 
      - la matriz resultante (X),
      - el objeto vectorizador para futuras transformaciones.
    """

    # Creamos una instancia del vectorizador TF-IDF, que convierte texto en vectores numéricos
    vectorizador = TfidfVectorizer()

    # Ajustamos el vectorizador al corpus y transformamos el texto en una matriz dispersa
    X = vectorizador.fit_transform(corpus)

    # Retornamos la matriz TF-IDF y el vectorizador por separado
    return X, vectorizador


### 5. `modelo/entrenamiento.py`



In [None]:
# Capa 5: Modelado y evaluación

# Importamos el modelo de regresión logística para clasificación
from sklearn.linear_model import LogisticRegression

# Importamos herramienta para dividir el dataset en entrenamiento y prueba
from sklearn.model_selection import train_test_split

# Importamos métricas de evaluación: reporte de clasificación y matriz de confusión
from sklearn.metrics import classification_report, confusion_matrix

# Importamos bibliotecas de visualización para graficar la matriz de confusión
import seaborn as sns
import matplotlib.pyplot as plt

# Definimos una función que entrena y evalúa un modelo usando los datos vectorizados y las etiquetas
def entrenar_y_evaluar(X, y):
    """
    Entrena un modelo y evalúa su desempeño usando Regresión Logística.
    """

    # Se divide el dataset en 75% para entrenamiento y 25% para prueba
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.25, random_state=42
    )

    # Se crea una instancia del modelo de Regresión Logística con hasta 1000 iteraciones
    modelo = LogisticRegression(max_iter=1000)

    # Se entrena el modelo con los datos de entrenamiento
    modelo.fit(X_train, y_train)

    # Se hacen predicciones sobre los datos de prueba
    pred = modelo.predict(X_test)

    # Se imprime el reporte de clasificación: precisión, recall y f1-score
    print("\nReporte de clasificación:")
    print(classification_report(
        y_test, pred,
        target_names=["Negativo", "Positivo"],  # Nombres para las clases
        zero_division=0  # Evita errores si hay división por cero
    ))

    # Se genera la matriz de confusión para evaluar el rendimiento del modelo
    matriz = confusion_matrix(y_test, pred)

    # Visualiza la matriz de confusión como un mapa de calor
    sns.heatmap(
        matriz, annot=True, fmt="d", cmap="Blues",
        xticklabels=["Neg", "Pos"], yticklabels=["Neg", "Pos"]
    )

    # Se agregan etiquetas y título al gráfico
    plt.title("Matriz de Confusión")
    plt.xlabel("Predicción")
    plt.ylabel("Real")
    plt.show()


### 6. `main.py`



In [None]:
# Punto de entrada: ensamblaje de las capas

# Importamos la función para cargar los datos (Capa 1: Recolección)
from datos.recoleccion import cargar_datos

# Importamos la función para limpiar el texto (Capa 2: Limpieza)
from procesamiento.limpieza import limpiar_texto

# Importamos la función para graficar la distribución de clases (Capa 3: Exploración)
from procesamiento.exploracion import graficar_distribucion

# Importamos la función para vectorizar el texto (Capa 4: Representación vectorial)
from procesamiento.vectorizacion import vectorizar_texto

# Importamos la función para entrenar y evaluar el modelo (Capa 5: Modelado)
from modelo.entrenamiento import entrenar_y_evaluar

# Verificamos que este script se esté ejecutando directamente (no importado)
if __name__ == "__main__":

    # 1. Recolección de datos: carga un conjunto de reseñas simuladas con sus etiquetas
    df = cargar_datos()

    # 2. Limpieza del texto: se aplica la limpieza a cada reseña
    df['texto_limpio'] = df['texto'].apply(limpiar_texto)

    # 3. Análisis exploratorio: muestra la cantidad de reseñas positivas vs negativas
    graficar_distribucion(df)

    # 4. Vectorización del texto: convierte las reseñas limpias en vectores numéricos (TF-IDF)
    X, _ = vectorizar_texto(df['texto_limpio'])

    # 5. Modelado: se entrena el modelo con los vectores y las etiquetas, y se evalúa
    y = df['sentimiento']
    entrenar_y_evaluar(X, y)


### 6. `requirements.txt`



In [None]:
# Dependencias para análisis de sentimientos
pandas>=1.5.0
numpy>=1.21.0
scikit-learn>=1.1.0
matplotlib>=3.5.0
seaborn>=0.11.0
datasets
snscrape

# Para procesamiento de texto
regex>=2022.0.0

# Para visualizaciones
plotly>=5.0.0

# Para manejo de datos
openpyxl>=3.0.0
xlrd>=2.0.0 


---

### Cambio de la capa de recolección

#### 1. Reemplazar el contenido de `recoleccion.py` por esto:



In [None]:
# Capa 1: Recolección de datos desde Hugging Face

# Importamos la librería pandas para manipular estructuras de datos tipo DataFrame
import pandas as pd

# Importamos la función 'load_dataset' desde la librería 'datasets' de Hugging Face
# Esta función permite acceder a miles de datasets públicos para tareas de NLP y ML
from datasets import load_dataset

# Definimos la función principal para cargar los datos
def cargar_datos(n=100):
    """
    Carga reseñas reales de productos desde el dataset 'amazon_polarity'.
    Devuelve un DataFrame con columnas 'texto' y 'sentimiento'.
    1 = positivo, 0 = negativo
    """
    
    # Usamos 'load_dataset' para cargar el conjunto de datos llamado 'amazon_polarity'
    # 'split="train"' indica que queremos la partición de entrenamiento del dataset
    dataset = load_dataset("amazon_polarity", split="train")

    # Extraemos las primeras 'n' reseñas de la columna 'content' (el texto de la reseña)
    textos = dataset[:n]["content"]

    # Extraemos las primeras 'n' etiquetas de la columna 'label' (0 = negativo, 1 = positivo)
    etiquetas = dataset[:n]["label"]

    # Creamos un DataFrame de pandas con dos columnas: 'texto' y 'sentimiento'
    df = pd.DataFrame({
        "texto": textos,
        "sentimiento": etiquetas
    })

    # Retornamos el DataFrame para ser usado por las siguientes capas del sistema
    return df


### Para ejecutarlo

Desde consola:

```bash
pip install -r requirements.txt
cd analisis_sentimientos
python main.py
```

---



### Conclusión

Cada una de estas etapas forma parte de una **cadena crítica** en el procesamiento textual. Omitir una etapa o realizarla de forma incorrecta puede llevar a malos resultados o interpretaciones erróneas. Por eso, la calidad y seguridad del código en cada paso es tan importante como la técnica misma.

---
