# Ejercicio 1: Carga de datos desde un archivo CSV

Carga el conjunto de datos llamado `textos_multiple.csv`. Este archivo contiene una columna de texto y otra de etiquetas, asociadas a cada grupo de frases. Se separa por `;` Las columnas son:

- **texto:** Texto compuesto por varias oraciones.
- **etiqueta:** Categoría asignada al grupo de oraciones (por ejemplo: deportes, política, tecnología, etc.).



In [19]:
import pandas as pd
import pandas as pd
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk



# Cargar el archivo CSV
df = pd.read_csv("textos_multiple.csv", sep=";")


# Ejercicio 2: Mostrar las primeras filas del DataFrame

Muestra las primeras 5 filas para verificar que los datos se hayan cargado correctamente. Observa cómo se presentan los textos y asegúrate de que las etiquetas estén correctamente alineadas.

In [8]:
# Ver las primeras filas para comprobar que se cargó bien
print(df.head(5))

                                               frase  etiqueta
0  El jugador marcó un gol decisivo. El jugador f...  deportes
1  El estadio vibró con cada gol del equipo. El e...  deportes
2  La selección nacional ganó el partido con un r...  deportes
3  El estadio vibró con cada gol del equipo. El e...  deportes
4  El jugador marcó un gol decisivo. El jugador f...  deportes


# Ejercicio 3: Preprocesamiento básico de texto

Realiza el siguiente preprocesamiento sobre la columna `texto`:

- Convierte todo el texto a minúsculas.
- Elimina signos de puntuación.
- Tokeniza las oraciones en palabras.

Muestra un ejemplo del resultado para la primera fila.

In [20]:
df = pd.read_csv("textos_multiple.csv", sep=";")

def preprocesar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar signos de puntuación (todo lo que no sea letra, número o espacio)
    texto = re.sub(r"[^\w\s]", "", texto)
    # Tokenizar en "palabras" separando por espacios
    tokens = texto.split()

# Ejercicio 4: Eliminación de stopwords

Crea un nuevo DataFrame con la columna `texto`.

Para cada frase del DataFrame:

- Convierte la frase a minúsculas utilizando el método `.lower()`.
- Divide la frase en palabras usando el método `.split()`.
- Elimina las palabras vacías (stopwords) usando una lista de stopwords en español (puedes usar la lista de `nltk.corpus.stopwords` o definir una manualmente).

Muestra el resultado de las primeras 3 filas con las stopwords eliminadas.

In [30]:
stopwords_manual = [
'a', 'acá', 'ahí', 'ajena', 'ajeno', 'ajenos', 'al', 'algo', 'algún', 'alguna', 'algun', 'algunao', 'alguno', 'algunos', 'allá', 'alí',
'ambos', 'ante', 'antes', 'aquel', 'aquella', 'aquello', 'aquellos', 'aquí', 'arriba', 'así', 'atrás', 'aun', 'aunque', 'bajo', 'bastante',
'bien', 'cabe', 'cada', 'casi', 'cierto', 'cierta', 'ciertos', 'como', 'con', 'conmigo', 'conseguimos', 'conseguir', 'consigo', 'consigue',
'consiguen', 'consigues', 'contigo', 'contra', 'cual', 'cuales', 'cualquier', 'cualquiera', 'cuan', 'cuando', 'cuanto', 'cuanta', 'cuantos',
'de', 'dejar', 'del', 'demás', 'demasiada', 'demasiado', 'demasiados', 'dentro', 'desde', 'donde', 'dos', 'el', 'él', 'ella', 'ellos', 'empleáis',
'emplean', 'emplear', 'empleas', 'empleo', 'en', 'encima', 'entonces', 'entre', 'era', 'eras', 'eramos', 'eran', 'eres', 'es', 'esa', 'ese', 'eso',
'esas', 'esta', 'estas', 'estaba', 'estado', 'estáis', 'estamos', 'están', 'estar', 'este', 'estos', 'estoy', 'etc', 'fin', 'fue', 'fueron', 'fui',
'fuimos', 'gueno', 'ha', 'hace', 'haces', 'hacéis', 'hacemos', 'hacen', 'hacer', 'hacia', 'hago', 'hasta', 'incluso', 'intenta', 'intentas', 'intentáis',
'intentamos', 'intentan', 'intentar', 'intento', 'ir', 'jamás', 'junto', 'juntos', 'la', 'las', 'lo', 'largo', 'más', 'me', 'menos', 'mi', 'mis', 'mía',
'mías', 'mientras', 'mío', 'míos', 'misma', 'mismo', 'mismas', 'modo', 'mucha', 'muchísima', 'muchísimo', 'mucho', 'muchos', 'muy', 'nada', 'ni', 'ningún',
'ninguna', 'ninguno', 'ningunos', 'no', 'nos', 'nosotras', 'nosotros', 'nuestra', 'nuestro', 'nuestras', 'nuestros', 'nunca', 'os', 'otra', 'otro', 'otras',
'para', 'parecer', 'pero', 'poca', 'pocas', 'podéis', 'podemos', 'poder', 'podría', 'podrías', 'podríais', 'podríamos', 'podrían', 'por', 'por qué', 'porque',
'primero', 'puede', 'pueden', 'puedo', 'pues', 'que', 'qué', 'querer', 'quién', 'quiénes', 'quienesquiera', 'quienquiera', 'quizá', 'quizás', 'sabe', 'sabes',
'sabéis', 'sabemos', 'saber', 'se', 'según', 'ser', 'si', 'sí', 'siempre', 'siendo', 'sin', 'sino', 'so', 'sobre', 'sois', 'solamente', 'solo', 'sólo', 'somos',
'soy', 'sr', 'sra', 'sres', 'sta', 'su', 'sus', 'suya', 'suyo', 'suyos', 'tal', 'tales', 'también', 'tampoco', 'tan', 'tanta', 'tanto', 'te', 'tenéis', 'tenemos',
'tener', 'tengo', 'ti', 'tiempo', 'tiene', 'tienen', 'toda', 'todo', 'todos', 'tomar', 'trabaja', 'trabajáis', 'trabajamos', 'trabajan', 'trabajar', 'trabajas',
'tras', 'tú', 'tu', 'tus', 'tuya', 'tuyo', 'tuyos', 'último', 'ultimo', 'un', 'una', 'uno', 'unas', 'usa', 'usas', 'usáis', 'usamos', 'usan', 'usar', 'uso',
"usted", "ustedes", 'va', 'van', 'vais', 'valor', 'vamos', 'varias', 'varios', 'vaya', 'verdadera', 'vosotras', 'vosotros', 'voy', 'vuestra', 'vuestro', 'vuestros',
'y', 'ya', 'yo'
]

In [31]:
def eliminar_stopwords(texto):
    texto = re.sub(r"[^\w\s]", "", texto)  # eliminar signos de puntuación primero
    palabras = texto.lower().split()       # luego pasar a minúsculas y dividir
    palabras_limpias = [p for p in palabras if p not in stopwords_manual]
    return palabras_limpias

df_filtrado = df[["frase"]].copy()
df_filtrado["frase_sin_stopwords"] = df_filtrado["frase"].apply(eliminar_stopwords)
print(df_filtrado.head(3))


                                               frase  \
0  El jugador marcó un gol decisivo. El jugador f...   
1  El estadio vibró con cada gol del equipo. El e...   
2  La selección nacional ganó el partido con un r...   

                                 frase_sin_stopwords  
0  [jugador, marcó, gol, decisivo, jugador, héroe...  
1  [estadio, vibró, gol, equipo, equipo, aprovech...  
2  [selección, nacional, ganó, partido, resultado...  


# Ejercicio 5: Crear el vocabulario

A partir del texto preprocesado y sin stopwords, crea un vocabulario con todas las palabras únicas presentes en el corpus.

Para ello:

- Recorre todas las frases ya tokenizadas y limpias.
- Extrae las palabras únicas y almacénalas en un conjunto (`set`).
- Ordena el vocabulario alfabéticamente y conviértelo en una lista.

Muestra las primeras 20 palabras del vocabulario resultante.

# Ejercicio 6: Representación Bag-of-Words

Utiliza el vocabulario creado en el ejercicio anterior para representar cada frase como un vector numérico utilizando el modelo **Bag-of-Words**.

Para ello:

- Crea un vector para cada frase, con tantas posiciones como palabras haya en el vocabulario.
- Cada posición del vector debe contener la cantidad de veces que aparece esa palabra en la frase correspondiente.
- Puedes usar una estructura como un diccionario para mapear palabras a índices.

Muestra los vectores resultantes para las primeras 3 frases del DataFrame.

# Ejercicio 7: Generación de n-gramas

Extiende la representación Bag-of-Words utilizando **n-gramas** en lugar de palabras individuales.

Para ello:

- Crea una función que, dado un valor de `n`, genere los **n-gramas** para cada frase del corpus ya preprocesado y sin stopwords.
- Aplica esta función a cada frase con `n=2` (bigramas) y `n=3` (trigramas).
- Crea el vocabulario de n-gramas y construye los vectores correspondientes para cada frase, tal como se hizo con palabras individuales.

Muestra los bigramas generados para las primeras 2 frases y el vocabulario total de bigramas.