# Proyecto de Machine Learning de Extremo a Extremo - Parte I

Este cuaderno es la primera parte de un proyecto completo de Machine Learning.
Aquí aprenderemos a detectar comentarios tóxicos usando código y explicaciones sencillas.

## ¿Qué son los Proyectos de Machine Learning (ML) de Extremo a Extremo?
Imagina que quieres construir un robot que pueda reconocer si una flor es roja o azul.
Un proyecto de Machine Learning de extremo a extremo es como hacer todo el trabajo para ese robot, desde enseñarle a mirar las flores hasta ponerlo a trabajar en tu jardín para que las identifique.
Cubre cada paso, desde que tienes una idea hasta que el robot está funcionando de verdad.
Estos proyectos son muy completos y te enseñan todo lo que necesitas saber sobre cómo hacer que una computadora aprenda.

## ¿Por qué son necesarios los Proyectos de ML de Extremo a Extremo?
- Aprendes de forma completa: Ves todo el camino, desde que juntas la información (las fotos de las flores) hasta que el robot está listo para usar.
- Desarrollas habilidades importantes: Te vuelves bueno resolviendo problemas, usando herramientas especiales y organizando tu trabajo.
- Creas soluciones reales: Tu robot puede ayudar en la vida real, ¡identificando flores para ti!
- Construyes un portafolio fuerte: Si quieres trabajar con esto, puedes mostrar lo que has hecho.
- Ayudas a cumplir objetivos: Si una empresa quiere que un robot clasifique flores, este proyecto asegura que el robot realmente haga lo que la empresa necesita.

En esta primera parte, nos enfocaremos en hacer experimentos en este cuaderno, como si fuera nuestro laboratorio.

---

## PARTE I: Configuración del Cuaderno
Empezaremos trayendo todas las herramientas que necesitamos. Piensa en esto como preparar tu caja de herramientas antes de empezar a construir algo.

### Importación de Librerías Esenciales
Este código nos ayuda a traer las herramientas que vamos a necesitar para nuestro proyecto.

**Índice de Pasos en este Código:**
1. Importar herramientas para números (NumPy).
2. Importar herramientas para tablas de datos (Pandas).
3. Importar herramientas para dibujar gráficos (Matplotlib y Seaborn).
4. Importar herramientas para trabajar con texto especial (re).
5. Importar herramientas para crear nubes de palabras (WordCloud).
6. Importar herramientas para construir modelos de aprendizaje (Scikit-learn).
7. Importar herramientas para redes neuronales (TensorFlow y Keras).

In [None]:
import numpy as np # Esto es como traer una calculadora superpotente al cuaderno. La usaremos para hacer cálculos grandes con números, como sumar muchas cosas a la vez. Es muy útil cuando tenemos muchos datos.
import pandas as pd # Esto es como traer una libreta mágica donde podemos organizar información en tablas, como si fueran hojas de cálculo. Es perfecta para guardar y ordenar los comentarios y para saber si son tóxicos o no. La usaremos mucho para ver nuestros datos.
from matplotlib import pyplot as plt # Esto es como traer lápices de colores y papel para dibujar. Nos ayudará a hacer dibujos bonitos con nuestros datos, como barras o líneas, para entenderlos mejor. Así podemos ver si hay muchos comentarios tóxicos o pocos.
 # Este es un truco especial para que los dibujos que hagamos con Matplotlib aparezcan justo aquí, en nuestro cuaderno, sin tener que ir a otro lugar a verlos. Es como dibujar directamente en nuestra hoja de trabajo.
import seaborn as sns # Esto es como traer otro juego de lápices y pinceles para dibujar, pero aún más bonitos. Seaborn nos ayuda a hacer gráficos más elaborados y con colores más agradables que Matplotlib, haciendo que nuestros datos se vean mejor.
import re # Esto es como traer una lupa mágica para buscar y cambiar letras o palabras en los comentarios. Nos sirve para limpiar el texto y quitar cosas que no necesitamos, como signos de puntuación extraños o errores.
from wordcloud import WordCloud # Esto es como traer un juguete que hace nubes con palabras. Con esto, podemos ver las palabras más grandes y populares en los comentarios, como si fueran nubes formadas por palabras. Las palabras más usadas aparecerán más grandes.
from sklearn.feature_extraction.text import TfidfVectorizer # Esta es una herramienta de un kit de construcción (Scikit-learn) que nos ayuda a convertir las palabras en números. Imagina que cada palabra tiene un número secreto y esta herramienta lo descubre para que la computadora pueda entenderlas y aprender de ellas.
from sklearn.model_selection import train_test_split # Esta es otra herramienta del kit que nos ayuda a dividir nuestros datos. Es como si tuviéramos un montón de juguetes y los separamos en dos grupos: uno para que nuestro modelo practique (entrenamiento) y otro para ver si lo que aprendió funciona bien con juguetes que nunca ha visto (prueba).
from sklearn.metrics import classification_report # Esta herramienta del kit nos ayuda a saber qué tan bien le fue a nuestro modelo. Es como un boletín de calificaciones para nuestro modelo, diciéndonos si hizo un buen trabajo o si necesita mejorar al clasificar los comentarios.
import tensorflow as tf # Esto es como traer un cerebro gigante al cuaderno. TensorFlow es una herramienta muy avanzada que nos permite construir "cerebritos" artificiales, llamados redes neuronales, que aprenden a reconocer patrones, como si un comentario es tóxico. Es el motor principal de nuestro modelo.
from tensorflow.keras.models import Sequential # Esto es como elegir un tipo de caja para construir nuestro cerebrito artificial. "Sequential" significa que el cerebrito va a aprender paso a paso, como una cadena donde la información fluye de una capa a la siguiente.
from tensorflow.keras.layers import Dense, Dropout # Estas son las piezas que ponemos dentro de la caja de nuestro cerebrito.
# 'Dense' es como una capa de neuronas (pequeñas celdas que aprenden) donde cada neurona está conectada con todas las neuronas de la capa anterior. Es como si todas las ideas de un paso se compartieran con el siguiente, ayudando al modelo a entender relaciones complejas.
# 'Dropout' es una pieza que ayuda a que el cerebrito no "memorice" demasiado. Imagina que a veces, algunas neuronas se toman un descanso (se apagan un rato), para que el cerebrito aprenda de muchas maneras diferentes y no se vuelva flojo. Esto previene que el modelo se "sobreajuste" a los datos de entrenamiento.
from tensorflow.keras.optimizers import Adam # Esto es como el entrenador de nuestro cerebrito. Adam es un tipo especial de entrenador que le enseña al cerebrito cómo aprender más rápido y mejor, ajustando las conexiones entre las neuronas para que cometa menos errores y mejore su precisión con el tiempo.

In [None]:
%matplotlib inline

### Herramientas y su función

| Herramienta | Función Principal | ¿Para qué sirve? |
|-------------|------------------|------------------|
| numpy | Cálculos numéricos y arreglos | Realizar operaciones matemáticas eficientes con grandes conjuntos de datos, como sumar miles de números. |
| pandas | Manipulación y análisis de datos | Organizar datos en tablas (como hojas de cálculo) para facilitar su lectura, limpieza y análisis. |
| matplotlib.pyplot | Visualización de datos básica | Crear gráficos simples como barras o líneas para ver cómo se distribuyen los datos. |
| %matplotlib inline | Integración de gráficos en Jupyter | Hace que los gráficos que dibujamos aparezcan justo aquí, en nuestro cuaderno. |
| seaborn | Visualización de datos avanzada | Crear gráficos estadísticos más complejos y bonitos para explorar relaciones entre variables. |
| re | Expresiones regulares (texto) | Buscar, reemplazar y manipular patrones de texto de forma avanzada, útil para limpiar comentarios. |
| WordCloud | Visualización de nubes de palabras | Generar imágenes donde las palabras más usadas aparecen más grandes. |
| TfidfVectorizer | Vectorización de texto (TF-IDF) | Convertir las palabras de los comentarios en números (vectores) que los modelos de ML pueden entender. |
| train_test_split | División de datos | Separar nuestros datos en dos grupos: uno para que el modelo aprenda y otro para ver si aprendió bien. |
| classification_report | Evaluación del modelo | Generar un informe detallado que nos dice qué tan bien el modelo clasifica los comentarios. |
| tensorflow | Plataforma de ML/DL | Proporcionar las herramientas para construir y entrenar redes neuronales profundas. |
| Sequential | Tipo de modelo Keras | Definir nuestro "cerebro" artificial (red neuronal) de una manera sencilla. |
| Dense | Capa de red neuronal | Son las "neuronas" de nuestro "cerebro". Cada una aprende algo y pasa su conocimiento a la siguiente capa. |
| Dropout | Regularización de red neuronal | Desactivar aleatoriamente algunas "neuronas" durante el entrenamiento para que el "cerebro" no se vuelva perezoso. |
| Adam | Optimizador de red neuronal | Es el "entrenador" de nuestro "cerebro". Le enseña cómo ajustar sus conexiones para cometer menos errores. |

### Cuento para niños: Las Herramientas del Detective de Palabras Mágicas

En un pueblo muy especial, la gente se comunicaba con palabras que aparecían en una pantalla mágica. La mayoría de las palabras eran brillantes y amables, pero a veces, aparecían palabras con pequeñas espinas, que hacían que los demás se sintieran tristes o molestos. Esas eran las "palabras tóxicas".

Un día, el Detective de Palabras Mágicas decidió que quería ayudar a mantener el pueblo feliz. Para eso, necesitaba construir un asistente muy inteligente que pudiera encontrar las palabras tóxicas. Abrió su gran caja de herramientas, ¡y esto es lo que encontró!

(Lee el cuento completo en la celda original para más detalles sobre cada herramienta y su función.)

### Añadiendo Conjuntos de Datos

Usaremos dos colecciones de comentarios para este proyecto:
1. Desafío de Clasificación de Comentarios Tóxicos (¡una colección grande!)
2. Comentarios tóxicos de Youtube (¡una colección más pequeña pero también útil!)

Vamos a añadir estos datos a nuestro cuaderno. Imagina que son dos cajas llenas de notas con comentarios.

*(Aquí iría la imagen que mencionas en el texto original, pero como no puedo generar imágenes, se omite.)*

Ahora, vamos a importar (traer) estos conjuntos de datos a nuestras tablas de `pandas`.

In [None]:
# Título del Bloque de Código: Cargar y Combinar Conjuntos de Datos de Comentarios

# Índice de Pasos en este Código:
# 1. Cargar el primer conjunto de datos (comentarios de Kaggle).
# 2. Cargar el segundo conjunto de datos (comentarios de YouTube).
# 3. Procesar el primer conjunto de datos para que tenga solo el texto y si es tóxico.
# 4. Procesar el segundo conjunto de datos para que tenga solo el texto y si es tóxico.
# 5. Unir los dos conjuntos de datos procesados en una sola tabla grande.
# 6. Mostrar las primeras filas de la tabla combinada para ver cómo quedó.

# Paso 1: Cargar el primer conjunto de datos (comentarios de Kaggle)
df1 = pd.read_csv('/kaggle/input/jigsaw-toxic-comment-classification-challenge/train.csv.zip')

# Paso 2: Cargar el segundo conjunto de datos (comentarios de YouTube)
df2 = pd.read_csv('/kaggle/input/youtube-toxicity-data/youtoxic_english_1000.csv')

# Paso 3: Procesar df1 (el primer conjunto de datos)
df1['Toxic'] = df1.iloc[:, 2:].any(axis=1)
df1_processed = df1[['comment_text', 'Toxic']].rename(columns={'comment_text': 'Text'})

# Paso 4: Procesar df2 (el segundo conjunto de datos)
df2['Toxic'] = df2.iloc[:, 3:].any(axis=1)
df2_processed = df2[['Text', 'Toxic']]

# Paso 5: Combinar df1_processed y df2_processed
df = pd.concat([df1_processed, df2_processed], ignore_index=True)

# Paso 6: Mostrar las primeras filas de final_df
print(df.head())

### Herramientas clave en la carga y combinación de datos

| Herramienta | Función Principal | ¿Para qué sirve? |
|-------------|------------------|------------------|
| pd.read_csv() | Cargar datos de archivos CSV | Traer la información de los comentarios que tenemos guardados en archivos a nuestro cuaderno para poder trabajar con ellos. |
| df.iloc[:, 2:].any(axis=1) | Simplificar etiquetas de toxicidad | Unificar varias categorías de toxicidad en una sola etiqueta "Tóxico" (Verdadero/Falso). |
| df[['comment_text', 'Toxic']] | Seleccionar columnas específicas | Quedarnos solo con las columnas importantes que necesitamos: el texto del comentario y su nueva etiqueta de toxicidad. |
| .rename(columns={'comment_text': 'Text'}) | Renombrar columnas | Cambiar el nombre de una columna para que sea más fácil de entender o para que coincida con otros datos. |
| pd.concat([...], ignore_index=True) | Combinar tablas de datos | Unir dos o más tablas de comentarios en una sola tabla grande para tener toda la información junta. |
| df.head() | Visualizar las primeras filas | Mostrar las primeras filas de la tabla combinada para comprobar que la unión se hizo correctamente. |

### Cuento para niños: Uniendo las Cajas de Comentarios

Imagina que nuestro Detective de Palabras Mágicas tiene dos cajas llenas de notas. Una caja es muy grande y tiene Notas de Desafío (el primer dataset), y la otra es más pequeña y tiene Notas de YouTube (el segundo dataset). Dentro de cada nota, hay un comentario.

El Detective quería juntar todas las notas en una sola caja gigante para que su asistente inteligente aprendiera de todas a la vez.

Primero, el Detective usó su "Cargador de Cajas" (pd.read_csv). Con él, abrió la Caja de Desafío y la Caja de YouTube, y las puso sobre la mesa, listas para trabajar.

Pero las notas de la Caja de Desafío eran un poco complicadas. Algunas decían "esta palabra es fea", otras "esta palabra es grosera", y otras "esta palabra amenaza". El Detective pensó: "¡Uhm, demasiadas etiquetas! Mejor que solo diga si es 'espinosa' o no". Así que usó su "Simplificador de Etiquetas" (.iloc[:, 2:].any(axis=1)). Este simplificador miraba todas esas etiquetas y, si alguna era "sí", ponía un gran "SÍ, ES ESPINOSA" en la nota. Si todas eran "no", entonces ponía "NO ES ESPINOSA".

Además, las notas de la Caja de Desafío tenían una parte que decía "Texto del Comentario", y las de la Caja de YouTube solo decían "Texto". Para que todo fuera igual, el Detective usó su "Renombrador Mágico" (.rename(columns={'comment_text': 'Text'})) para que en todas las notas, la parte del comentario se llamara simplemente "Texto". ¡Así era más ordenado!

Una vez que todas las notas estaban simplificadas y con nombres iguales, el Detective usó su "Pegamento de Cajas" (pd.concat). Con este pegamento especial, ¡unió todas las notas de la Caja de Desafío y la Caja de YouTube en una sola Caja Gigante de Comentarios! Asegurándose de que cada nota tuviera un número único para que no se mezclaran.

Finalmente, para ver si todo había quedado bien, el Detective miró las primeras cinco notas de la Caja Gigante (df.head()). ¡Y sí! Todo estaba perfecto, con cada comentario y su etiqueta de "espinoso" o "no espinoso". Ahora, el asistente inteligente tenía una gran colección de notas para empezar a aprender.

### Explorando y Limpiando los Datos

Ahora que tenemos nuestro conjunto de datos combinado, vamos a hacer lo que a la mayoría de los científicos de datos les gusta hacer con los datos: ¡jugar con ellos!

A continuación, realizaremos un resumen estadístico, revisaremos tipos de datos, eliminaremos duplicados y veremos la distribución de clases.

In [None]:
# Título del Bloque de Código: Exploración y Limpieza Inicial de Datos

# 1. Obtener un resumen estadístico de los datos
print(df.describe())

# 2. Verificar tipos de datos y valores faltantes
print(df.dtypes)
print(df.isnull().sum())

# 3. Verificar comentarios duplicados
print("Duplicate rows based on 'Text' column:")
duplicate_rows = df[df.duplicated(subset=['Text'], keep=False)]
print(duplicate_rows)

# 4. Eliminar comentarios duplicados
df.drop_duplicates(subset=['Text'], keep='first', inplace=True)

# 5. Confirmar que los duplicados fueron eliminados y reindexar
print("Number of rows after removing duplicates:", len(df))
df.reset_index(drop=True, inplace=True)

# 6. Distribución de la columna 'Toxic'
toxic_distribution = df['Toxic'].value_counts()
print(toxic_distribution)

# 7. Guardar nuestra tabla limpia en un nuevo archivo CSV
df.to_csv("Toxic_Comments_dataset.csv")

### Herramientas clave en la limpieza y exploración de datos

| Herramienta | Función Principal | ¿Para qué sirve? |
|-------------|------------------|------------------|
| df.describe() | Resumen estadístico | Obtener rápidamente información sobre la cantidad de datos, promedios, etc. |
| df.dtypes | Comprobar tipos de datos | Verificar si las columnas tienen el tipo de información correcto. |
| df.isnull().sum() | Contar valores nulos | Saber cuántas "casillas vacías" o datos faltantes hay en cada columna. |
| df.duplicated() y drop_duplicates() | Identificar y eliminar duplicados | Encontrar comentarios que están repetidos y borrarlos. |
| df.reset_index() | Reindexar el DataFrame | Volver a numerar las filas de nuestra tabla de datos de forma consecutiva. |
| df['Toxic'].value_counts() | Contar la distribución de clases | Saber cuántos comentarios son tóxicos y cuántos no lo son. |
| df.to_csv() | Guardar datos en archivo CSV | Guardar la tabla de datos ya limpia y procesada en un nuevo archivo. |

### Limpiando el Texto de los Comentarios
Ahora que tenemos los datos limpios y sin duplicados, es hora de limpiar el texto de los comentarios. Esto significa quitar cosas que no ayudan a nuestro modelo a aprender, como signos de puntuación, números, o palabras muy comunes que no aportan mucho significado (como "el", "la", "de").
También convertiremos todo a minúsculas para que la computadora no piense que "Hola" y "hola" son palabras diferentes.

#### ¿Por qué limpiar el texto?
Imagina que tu asistente inteligente está aprendiendo a leer. Si le das libros llenos de garabatos, errores y palabras repetidas, ¡le costará mucho aprender! Limpiar el texto es como darle libros bien escritos y ordenados.

A continuación, crearemos una función para limpiar el texto y la aplicaremos a todos los comentarios.

### Limpieza de Texto: ¿Por qué es importante?

Los comentarios pueden tener errores, símbolos raros, mayúsculas, emojis, URLs, menciones y muchas cosas que no ayudan a nuestro modelo a aprender. Limpiar el texto es como preparar los ingredientes antes de cocinar: si quitamos lo que no sirve, el platillo (nuestro modelo) saldrá mucho mejor.

**¿Qué vamos a limpiar?**
- Convertir todo a minúsculas (para que 'Hola' y 'hola' sean lo mismo).
- Quitar URLs (enlaces a páginas web).
- Quitar menciones (@usuario).
- Quitar signos de puntuación y caracteres especiales.
- Quitar números.
- Quitar espacios extra.
- (Opcional) Quitar palabras vacías (stopwords) y lematizar (convertir palabras a su forma base).

¡Vamos a crear una función mágica para limpiar los comentarios!

In [None]:
import re
import string
import unicodedata
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Descargamos recursos necesarios de NLTK (solo la primera vez)
import nltk
nltk.download('stopwords')
nltk.download('wordnet')

# Creamos la función de limpieza de texto
def limpiar_texto(texto):
    """
    Función para limpiar comentarios de texto.
    - Convierte a minúsculas
    - Elimina URLs, menciones, signos de puntuación, números y espacios extra
    - Elimina stopwords y lematiza las palabras
    """
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar URLs
    texto = re.sub(r'http\S+|www\S+', '', texto)
    # Eliminar menciones (@usuario)
    texto = re.sub(r'@\w+', '', texto)
    # Eliminar signos de puntuación
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    # Eliminar números
    texto = re.sub(r'\d+', '', texto)
    # Eliminar caracteres especiales y tildes
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto)
                    if unicodedata.category(c) != 'Mn')
    # Eliminar espacios extra
    texto = re.sub(r'\s+', ' ', texto).strip()
    # Eliminar stopwords y lematizar
    stop_words = set(stopwords.words('english'))
    lemmatizer = WordNetLemmatizer()
    palabras = texto.split()
    palabras = [lemmatizer.lemmatize(palabra) for palabra in palabras if palabra not in stop_words]
    texto_limpio = ' '.join(palabras)
    return texto_limpio

# Ejemplo de uso:
ejemplo = "@usuario ¡Hola! Visita https://www.ejemplo.com para más info. #NLP 2023"
print("Original:", ejemplo)
print("Limpio:", limpiar_texto(ejemplo))

### Aplicando la función de limpieza a todos los comentarios

Ahora que tenemos nuestra función mágica, la aplicaremos a todos los comentarios del dataset. Esto puede tardar un poco si hay muchos datos, ¡pero el resultado será un texto mucho más limpio y fácil de analizar!

**¿Qué logramos con esto?**
- Reducimos el ruido en los datos.
- Hacemos que el modelo aprenda mejor.
- Preparamos el texto para la siguiente etapa: vectorización.

In [None]:
# Suponiendo que el DataFrame combinado se llama 'df' y la columna de texto es 'comment_text'
# Si tu columna tiene otro nombre, cámbialo aquí

df['comment_text_limpio'] = df['comment_text'].apply(limpiar_texto)

# Veamos algunos ejemplos antes y después
df[['comment_text', 'comment_text_limpio']].head(10)

| Función / Herramienta         | ¿Para qué sirve?                                               | Ejemplo de uso                  |
|------------------------------|----------------------------------------------------------------|---------------------------------|
| `re.sub`                     | Buscar y reemplazar patrones en texto (regex)                  | Quitar URLs, menciones          |
| `str.lower()`                | Convertir texto a minúsculas                                   | 'Hola' → 'hola'                 |
| `str.translate`              | Eliminar signos de puntuación                                  | '¡Hola!' → 'Hola'               |
| `unicodedata.normalize`      | Quitar tildes y caracteres especiales                          | 'acción' → 'accion'             |
| `stopwords.words`            | Lista de palabras vacías (stopwords)                           | 'the', 'and', 'is', ...         |
| `WordNetLemmatizer`          | Lematizar palabras (forma base)                                | 'running' → 'run'               |
| `apply` de pandas            | Aplicar una función a cada elemento de una columna             | Limpiar todos los comentarios    |

#### Cuento: "La escoba mágica de los comentarios"

Había una vez un reino donde los comentarios eran muy desordenados. Algunos tenían palabras raras, otros estaban llenos de símbolos y algunos hablaban en mayúsculas todo el tiempo. Los sabios del reino querían entender qué decían los comentarios, pero no podían porque había mucho ruido.

Un día, llegó una escoba mágica llamada `limpiar_texto`. Esta escoba barría todo lo que no servía: URLs, menciones, signos de puntuación, números y hasta palabras que no decían nada importante. Cuando los sabios usaron la escoba mágica, los comentarios quedaron limpios y ordenados, listos para ser analizados por el gran oráculo (el modelo de machine learning).

Desde entonces, cada vez que alguien quería entender los comentarios, primero usaba la escoba mágica. Y así, el reino pudo descubrir cuáles comentarios eran tóxicos y cuáles no, ¡y todos vivieron más felices y menos ofendidos!

### Vectorización de Texto: ¿Cómo convertimos palabras en números?

Las computadoras no entienden palabras, ¡entienden números! Para que nuestro modelo pueda aprender de los comentarios, necesitamos transformar el texto en una matriz de números.

**¿Cómo lo hacemos?**
Usaremos una técnica llamada **TF-IDF (Term Frequency - Inverse Document Frequency)**. Esta técnica nos ayuda a saber qué palabras son importantes en cada comentario, dándoles un peso especial según cuántas veces aparecen y si son raras o comunes en el conjunto de datos.

**Ventajas de TF-IDF:**
- Da más importancia a palabras únicas de cada comentario.
- Reduce el peso de palabras muy comunes.
- Es fácil de usar y funciona bien para muchos problemas de texto.

¡Vamos a vectorizar nuestros comentarios limpios!

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Creamos el vectorizador TF-IDF
tfidf = TfidfVectorizer(max_features=5000)  # Puedes ajustar el número de características

# Ajustamos y transformamos los comentarios limpios
tfidf_matrix = tfidf.fit_transform(df['comment_text_limpio'])

# Convertimos la matriz a un DataFrame para verla mejor
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())
tfidf_df.head()

| Función / Herramienta         | ¿Para qué sirve?                                               | Ejemplo de uso                  |
|------------------------------|----------------------------------------------------------------|---------------------------------|
| `TfidfVectorizer`            | Convierte texto en una matriz de pesos TF-IDF                  | Vectorizar comentarios          |
| `fit_transform`              | Ajusta el vectorizador y transforma el texto                   | Crear matriz numérica           |
| `get_feature_names_out`      | Obtiene los nombres de las palabras (features)                 | Ver columnas del DataFrame      |
| `pd.DataFrame`               | Convierte la matriz a un DataFrame de pandas                   | Visualizar la matriz            |

#### Cuento: "El traductor de palabras mágicas"

En el reino de los comentarios limpios, los sabios querían que el oráculo (la computadora) entendiera los mensajes. Pero el oráculo solo hablaba en números, no en palabras.

Entonces, inventaron un traductor mágico llamado **TF-IDF**. Este traductor tomaba cada palabra y le daba un número especial: si la palabra era muy común, recibía un número pequeño; si era rara y especial, recibía un número grande.

Así, cada comentario se transformó en una fila de números, y el oráculo pudo empezar a aprender y a predecir cuáles comentarios eran tóxicos y cuáles no. ¡El reino estaba cada vez más cerca de resolver el misterio de la toxicidad!

# ADVERTENCIA DE ALGO QUE NO SE DEBE HACER 

No es lo ideal vectorizar y tokenizar **antes** de dividir en train y test. Te explico por qué:

### ¿Por qué es un error vectorizar antes de dividir?
Cuando aplicas `TfidfVectorizer` (o cualquier vectorizador/tokenizador) **antes** de dividir los datos, el vectorizador "ve" todo el texto, incluyendo los datos de test. Esto significa que:
- El vocabulario y los pesos TF-IDF se calculan usando información de los datos de test.
- El modelo puede aprender palabras o patrones que solo existen en el test, lo que genera **fugas de información** (data leakage).
- Las métricas de evaluación serán demasiado optimistas y no reflejarán el rendimiento real en datos nuevos.

### ¿Cuál es la forma correcta?
1. **Divide** primero el dataset en train y test (`train_test_split`).
2. **Ajusta** (`fit`) el vectorizador **solo** con los datos de entrenamiento.
3. **Transforma** (`transform`) tanto el train como el test usando ese vectorizador ya ajustado.

#### Ejemplo correcto:
```python
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. Divide primero
X_train, X_test, y_train, y_test = train_test_split(df['Text'], df['Toxic'], test_size=0.2, random_state=42)

# 2. Ajusta solo con train
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')
X_train_tfidf = vectorizer.fit_transform(X_train)

# 3. Transforma test con el mismo vectorizador
X_test_tfidf = vectorizer.transform(X_test)
```

### Resumen
- **No** vectorices/tokenices antes de dividir.
- **Sí** divide primero, luego ajusta el vectorizador solo con train, y después transforma ambos conjuntos.

Esto evita fugas de información y asegura una evaluación justa y realista de tu modelo.

### Balanceo de Clases: ¿Qué pasa si hay pocos comentarios tóxicos?

En muchos problemas de clasificación, como la detección de comentarios tóxicos, suele haber muchos más ejemplos de una clase que de otra (por ejemplo, muchos comentarios no tóxicos y pocos tóxicos). Esto puede hacer que el modelo aprenda a ignorar la clase minoritaria.

**¿Cómo lo solucionamos?**
Usaremos una técnica llamada **SMOTE (Synthetic Minority Over-sampling Technique)**, que crea ejemplos sintéticos de la clase minoritaria para balancear el dataset.

**Ventajas de SMOTE:**
- Ayuda a que el modelo no se sesgue hacia la clase mayoritaria.
- Mejora la capacidad de detectar comentarios tóxicos.
- Es fácil de aplicar después de vectorizar los datos.

¡Vamos a balancear nuestras clases!

In [None]:
from imblearn.over_sampling import SMOTE

# Definimos las variables X (características) e y (etiqueta)
X = tfidf_df
# Suponiendo que la columna de la etiqueta es 'toxic' (ajusta si tu columna tiene otro nombre)
y = df['toxic']

# Creamos el objeto SMOTE
smote = SMOTE(random_state=42)

# Aplicamos SMOTE para balancear las clases
X_res, y_res = smote.fit_resample(X, y)

# Veamos la nueva distribución de clases
import matplotlib.pyplot as plt
import seaborn as sns
sns.countplot(x=y_res)
plt.title('Distribución de clases después de SMOTE')
plt.show()

| Función / Herramienta         | ¿Para qué sirve?                                               | Ejemplo de uso                  |
|------------------------------|----------------------------------------------------------------|---------------------------------|
| `SMOTE`                      | Genera ejemplos sintéticos de la clase minoritaria             | Balancear clases                |
| `fit_resample`               | Ajusta y aplica el balanceo a los datos                        | Obtener X_res, y_res            |
| `sns.countplot`              | Grafica la distribución de clases                              | Visualizar balanceo             |

#### Cuento: "El mago que clonaba comentarios"

En el reino de los comentarios, había un problema: los comentarios tóxicos eran muy pocos y los no tóxicos eran muchísimos. El oráculo (modelo) solo aprendía de los no tóxicos y se olvidaba de los tóxicos.

Un día, llegó un mago llamado **SMOTE**. Este mago tenía el poder de crear clones mágicos de los comentarios tóxicos, para que hubiera la misma cantidad que de los no tóxicos. Así, el oráculo pudo aprender de ambos por igual y se volvió mucho más justo y sabio.

Desde entonces, cada vez que había un desequilibrio, llamaban al mago SMOTE para que ayudara a balancear el reino.

### Construcción y Entrenamiento del Modelo: ¡Hora de predecir!

Ahora que tenemos nuestros datos limpios, vectorizados y balanceados, ¡es momento de construir nuestro modelo! Usaremos una **red neuronal simple** para predecir si un comentario es tóxico o no.

**¿Por qué una red neuronal?**
- Puede aprender patrones complejos en los datos.
- Es flexible y se adapta a diferentes problemas.
- Aunque es simple, puede lograr buenos resultados en tareas de texto.

¡Vamos a construir y entrenar nuestro modelo!

In [None]:
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# Dividimos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_res, y_res, test_size=0.2, random_state=42)

# Definimos la arquitectura de la red neuronal
modelo = Sequential()
modelo.add(Dense(128, activation='relu', input_shape=(X_train.shape[1],)))
modelo.add(Dropout(0.5))
modelo.add(Dense(64, activation='relu'))
modelo.add(Dropout(0.3))
modelo.add(Dense(1, activation='sigmoid'))  # Salida binaria

# Compilamos el modelo
modelo.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Definimos early stopping para evitar sobreajuste
early_stop = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)

# Entrenamos el modelo
historial = modelo.fit(X_train, y_train, epochs=20, batch_size=32, validation_split=0.2, callbacks=[early_stop])

| Función / Herramienta         | ¿Para qué sirve?                                               | Ejemplo de uso                  |
|------------------------------|----------------------------------------------------------------|---------------------------------|
| `Sequential`                 | Crear un modelo de red neuronal secuencial                     | Definir la arquitectura         |
| `Dense`                      | Capa densa (totalmente conectada)                              | Añadir capas al modelo          |
| `Dropout`                    | Evitar sobreajuste eliminando neuronas aleatoriamente          | Regularización                  |
| `compile`                    | Configurar el modelo (optimizador, función de pérdida, métrica)| Preparar para entrenar          |
| `fit`                        | Entrenar el modelo con los datos                               | Ajustar pesos                   |
| `EarlyStopping`              | Detener el entrenamiento si no mejora                          | Evitar sobreajuste              |

#### Cuento: "El aprendiz que aprendía de ejemplos"

En el reino, los sabios construyeron un aprendiz especial llamado **Red Neuronal**. Este aprendiz tenía muchas neuronas (pequeños ayudantes) que se pasaban mensajes entre sí para aprender a distinguir comentarios tóxicos de los que no lo eran.

Cada vez que el aprendiz veía un ejemplo, ajustaba sus conexiones para mejorar. Si se equivocaba, aprendía del error y lo intentaba de nuevo. Así, poco a poco, se volvió muy bueno prediciendo la toxicidad de los comentarios.

Y así, el reino pudo confiar en su aprendiz para mantener la paz y la armonía en los comentarios.

### Evaluación del Modelo: ¿Qué tan bien predice?

Después de entrenar nuestro modelo, es importante saber qué tan bien funciona. Para eso, evaluaremos su desempeño usando el conjunto de prueba y diferentes métricas.

**¿Qué vamos a ver?**
- Precisión (accuracy)
- Matriz de confusión
- Curva ROC y AUC
- Gráficas de la historia de entrenamiento

¡Vamos a evaluar a nuestro aprendiz!

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_curve, auc

# Predicciones sobre el conjunto de prueba
y_pred_prob = modelo.predict(X_test)
y_pred = (y_pred_prob > 0.5).astype(int)

# Precisión
acc = accuracy_score(y_test, y_pred)
print(f"Precisión (accuracy): {acc:.4f}")

# Matriz de confusión
cmp = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:\n", cmp)

# Reporte de clasificación
print(classification_report(y_test, y_pred))

# Curva ROC y AUC
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
roc_auc = auc(fpr, tpr)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()

# Gráficas de la historia de entrenamiento
plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
plt.plot(historial.history['accuracy'], label='Entrenamiento')
plt.plot(historial.history['val_accuracy'], label='Validación')
plt.title('Precisión durante el entrenamiento')
plt.xlabel('Época')
plt.ylabel('Precisión')
plt.legend()

plt.subplot(1,2,2)
plt.plot(historial.history['loss'], label='Entrenamiento')
plt.plot(historial.history['val_loss'], label='Validación')
plt.title('Pérdida durante el entrenamiento')
plt.xlabel('Época')
plt.ylabel('Pérdida')
plt.legend()
plt.show()

| Función / Herramienta         | ¿Para qué sirve?                                               | Ejemplo de uso                  |
|------------------------------|----------------------------------------------------------------|---------------------------------|
| `accuracy_score`             | Calcula la precisión del modelo                                | Medir desempeño                 |
| `confusion_matrix`           | Muestra aciertos y errores por clase                           | Ver errores del modelo          |
| `classification_report`      | Resumen de métricas (precision, recall, f1)                    | Evaluar a fondo                 |
| `roc_curve`, `auc`           | Calcular y graficar la curva ROC y el área bajo la curva       | Medir discriminación            |
| `plt.plot`                   | Graficar resultados y evolución del entrenamiento              | Visualizar desempeño            |

#### Cuento: "El examen del aprendiz"

Después de mucho entrenamiento, el aprendiz (red neuronal) tuvo que presentar un examen. Los sabios le dieron comentarios que nunca había visto y observaron cómo respondía.

Algunas veces acertó, otras se equivocó, pero cada resultado fue anotado en una gran pizarra (la matriz de confusión). También midieron qué tan bien distinguía entre tóxicos y no tóxicos usando una cuerda mágica llamada **curva ROC**.

Gracias a este examen, los sabios supieron si el aprendiz estaba listo para ayudar en el reino o si necesitaba más práctica.

### Guardando el Modelo y el Vectorizador: ¡Para usarlo después!

Una vez que tenemos un modelo entrenado y un vectorizador TF-IDF, es muy útil guardarlos para poder usarlos en el futuro sin tener que volver a entrenar todo desde cero.

**¿Qué vamos a guardar?**
- El modelo de red neuronal (en formato HDF5 o SavedModel de Keras).
- El vectorizador TF-IDF (con pickle).

¡Vamos a guardar nuestro trabajo!

In [None]:
import pickle

# Guardar el modelo de Keras
modelo.save('../models/modelo_red_neuronal.h5')

# Guardar el vectorizador TF-IDF
with open('../data/processed/tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(tfidf, f)

print("Modelo y vectorizador guardados correctamente.")

### Usando el Modelo Guardado: ¡Predice nuevos comentarios!

Ahora que tenemos nuestro modelo y vectorizador guardados, podemos cargarlos en cualquier momento y usarlos para predecir si un nuevo comentario es tóxico o no.

**¿Cómo lo hacemos?**
- Cargamos el modelo y el vectorizador.
- Limpiamos el nuevo comentario.
- Lo transformamos con el vectorizador.
- Usamos el modelo para predecir.

¡Vamos a probarlo con un ejemplo!

In [None]:
from tensorflow.keras.models import load_model
import pickle

# Cargar el modelo y el vectorizador
tfidf_loaded = None
with open('../data/processed/tfidf_vectorizer.pkl', 'rb') as f:
    tfidf_loaded = pickle.load(f)
modelo_loaded = load_model('../models/modelo_red_neuronal.h5')

# Nuevo comentario para predecir
nuevo_comentario = "You are so stupid and ugly!"

# Limpiar el comentario
comentario_limpio = limpiar_texto(nuevo_comentario)

# Vectorizar
comentario_vectorizado = tfidf_loaded.transform([comentario_limpio])

# Predecir
prediccion = modelo_loaded.predict(comentario_vectorizado)
if prediccion[0][0] > 0.5:
    print("El comentario es TÓXICO")
else:
    print("El comentario NO es tóxico")

---

## ¡Felicidades! Has completado un proyecto de Machine Learning de Extremo a Extremo

En este cuaderno aprendiste a:
- Cargar y combinar datos de diferentes fuentes.
- Limpiar y preparar texto para análisis.
- Vectorizar texto con TF-IDF.
- Balancear clases con SMOTE.
- Construir, entrenar y evaluar una red neuronal simple.
- Guardar y reutilizar tu modelo y vectorizador.
- Predecir la toxicidad de nuevos comentarios.

### Recuerda:
Cada paso es importante y, aunque aquí usamos ejemplos sencillos y cuentos, ¡estos conceptos se aplican en proyectos reales!

Sigue practicando, experimenta con otros modelos y datasets, y conviértete en un gran detective de palabras mágicas.

¡Gracias por aprender y construir juntos! 🚀