<a href="https://colab.research.google.com/github/Kevin2558/Data_Science/blob/main/02_Preprocesamiento/Texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Preprocesamiento de Texto**

In [1]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import re

Antes de aplicar técnicas de modelado de tópicos, es fundamental preparar el texto para que los algoritmos trabajen con datos limpios y consistentes. El preprocesamiento típico incluye varios pasos:

1. **Conversión a minúsculas**

  Convierte todo el texto a minúsculas para evitar que palabras iguales en diferentes formatos (ej. "Apple" y "apple") se traten como distintas.

2. **Eliminación de números**

  Se eliminan dígitos numéricos, que normalmente no aportan significado semántico para los temas, a menos que sean relevantes para el análisis.

3. **Eliminación de signos de puntuación y caracteres especiales**
  
  Se remueven símbolos como comas, puntos, signos de interrogación, etc., que no contribuyen al significado del texto.

4. **Tokenización**

  Se divide el texto en palabras o tokens individuales para analizarlos por separado.

5. **Eliminación de stopwords**

  Las stopwords son palabras muy comunes (como "the", "and", "is" en inglés; como "él", "y", "es" en español) que no aportan información significativa sobre los temas.

6. **Lematización**

  La lematización reduce las palabras a su forma base o raíz (por ejemplo, “running”, “ran” → “run”; por ejemplo, "panadería" → "pan"), para tratar variantes de la misma palabra como una sola entidad.

In [None]:
# Descargar recursos NLTK (una sola vez)
nltk.download('stopwords')
nltk.download('wordnet')

In [8]:
# Dataset ejemplo: colección de textos (puede ser un csv con reviews, noticias, etc.)
texts = [
    "Natural language processing enables computers to understand human language.",
    "Topic modeling helps find hidden themes in a collection of documents.",
    "Machine learning and AI are rapidly advancing fields."
]

# Funciones limpieza y lematización
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'\d+', '', text)  # quitar números
    text = re.sub(r'\W+', ' ', text) # quitar signos de puntuación
    tokens = text.split()
    stop_words = set(stopwords.words('english'))
    tokens = [t for t in tokens if t not in stop_words]
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(t) for t in tokens]
    return ' '.join(tokens)

texts_clean = [preprocess_text(t) for t in texts]

# Vectorización
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts_clean)
print("Features:", vectorizer.get_feature_names_out())
print()
print("Matriz documento-término:")
print(X.toarray())

Features: ['advancing' 'ai' 'collection' 'computer' 'document' 'enables' 'field'
 'find' 'help' 'hidden' 'human' 'language' 'learning' 'machine' 'modeling'
 'natural' 'processing' 'rapidly' 'theme' 'topic' 'understand']

Matriz documento-término:
[[0 0 0 1 0 1 0 0 0 0 1 2 0 0 0 1 1 0 0 0 1]
 [0 0 1 0 1 0 0 1 1 1 0 0 0 0 1 0 0 0 1 1 0]
 [1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0]]
