# Teoría: CountVectorizer para convertir textos a representaciones de conteo

## Importación del módulo
```python
from sklearn.feature_extraction.text import CountVectorizer
```

---

## Paso 1: Crear el vectorizador
```python
vectorizer = CountVectorizer()
```
**Qué hace:**
- Crea un objeto `CountVectorizer`, que es una herramienta que convierte texto en una representación numérica llamada **bolsa de palabras** (*bag of words*). En esta técnica:
  - Se genera un vocabulario de palabras únicas basado en los textos de entrada.
  - Cada palabra del vocabulario se asocia con un índice único.

**Propósito:**
- Preparar la transformación de texto a vectores que representen las frecuencias de las palabras.

---

## Paso 2: Ajustar con datos de entrenamiento y transformar
```python
X_train_vectorized = vectorizer.fit_transform(X_train)
```
**`fit`:**
- Aprende el vocabulario de las palabras a partir de los textos de entrada (`X_train`).
- Esto significa:
  - Identificar todas las palabras únicas en `X_train`.
  - Asignar un índice a cada palabra.

**`transform`:**
- Convierte los textos de `X_train` en vectores basados en el vocabulario aprendido.
- Genera una **matriz dispersa** (eficiente en memoria) donde:
  - Cada fila representa un texto.
  - Cada columna representa una palabra del vocabulario.
  - Los valores son las frecuencias de las palabras.

**Salida (`X_train_vectorized`):**
- Una matriz dispersa donde:
  - Cada fila representa un texto de `X_train`.
  - Cada columna representa una palabra del vocabulario.
  - Los valores son las frecuencias de las palabras.

**Propósito:**
- Crear una representación numérica de los textos para usarlos como entrada en algoritmos de aprendizaje automático.

**Ejemplo de Entrada `X_train`:**
```python
X_train = ["Buy cheap products now", "Limited time offer", "Meeting at 5 PM"]
```
**Vocabulario generado:**
```python
{"buy": 0, "cheap": 1, "products": 2, "now": 3, "limited": 4, "time": 5, "offer": 6, "meeting": 7, "at": 8, "pm": 9}
```
**Matriz dispersa (`X_train_vectorized`):**
```
[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0],  # "Buy cheap products now"
 [0, 0, 0, 0, 1, 1, 1, 0, 0, 0],  # "Limited time offer"
 [0, 0, 0, 0, 0, 0, 0, 1, 1, 1]]  # "Meeting at 5 PM"
```

---

## Paso 3: Transformar los textos de prueba
```python
X_test_vectorized = vectorizer.transform(X_test)
```
**Qué hace:**
- Usa el vocabulario aprendido en el paso anterior (`fit`) para transformar nuevos textos (`X_test`).
- Nota importante: No se crea un nuevo vocabulario aquí; solo se utiliza el existente. Si una palabra en `X_test` no está en el vocabulario aprendido, se ignora.

**Salida (`X_test_vectorized`):**
- Una matriz dispersa similar a `X_train_vectorized`, pero con los textos de prueba (`X_test`).

**Ejemplo de Entrada `X_test`:**
```python
X_test = ["Special offer just for you", "Meeting tomorrow"]
```
**Matriz dispersa (`X_test_vectorized`):**
```
[[0, 0, 0, 0, 0, 0, 1, 0, 0, 0],  # "Special offer just for you"
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0]]  # "Meeting tomorrow"
```

---

## Resumen Teórico
1. **`fit`:**
   - Aprende el vocabulario basado en los textos de entrenamiento.
   - Es un proceso que solo se realiza con los datos de entrenamiento.

2. **`transform`:**
   - Convierte textos en vectores numéricos basados en el vocabulario aprendido.
   - Se aplica tanto a los datos de entrenamiento (`X_train`) como a los de prueba (`X_test`).

3. **Matriz dispersa:**
   - Representación eficiente de vectores que contienen muchos ceros, ya que no todas las palabras aparecen en cada texto.

4. **Propósito general:**
   - Estas líneas convierten datos de texto sin procesar en una forma numérica que los modelos de aprendizaje automático (como Naive Bayes) puedan usar para entrenarse o hacer predicciones.

---

## Código Completo de Ejemplo
```python
from sklearn.feature_extraction.text import CountVectorizer

# Datos de entrenamiento y prueba
X_train = ["Buy cheap products now", "Limited time offer", "Meeting at 5 PM"]
X_test = ["Special offer just for you", "Meeting tomorrow"]

# Crear el vectorizador
vectorizer = CountVectorizer()

# Ajustar con datos de entrenamiento y transformar
X_train_vectorized = vectorizer.fit_transform(X_train)

# Transformar los textos de prueba
X_test_vectorized = vectorizer.transform(X_test)

# Imprimir resultados
print("Vocabulario:", vectorizer.vocabulary_)
print("X_train_vectorized:", X_train_vectorized.toarray())
print("X_test_vectorized:", X_test_vectorized.toarray())
```
