# 02 ‚Äì Preprocesamiento de texto para detecci√≥n de toxicidad

En este notebook vamos a construir el pipeline de **preprocesamiento de texto** sobre el dataset
`youtoxic_english_1000.csv` para dejarlo listo de cara a modelos **cl√°sicos** (TF-IDF + clasificadores).

Concretamente:

1. Cargaremos el dataset original.
2. Definiremos una funci√≥n de limpieza b√°sica:
   - Conversi√≥n de emojis a texto en ingl√©s.
   - Paso a min√∫sculas.
   - Eliminaci√≥n de URLs, menciones, hashtags, saltos de l√≠nea y espacios extra.
3. Implementaremos un pipeline cl√°sico de NLP en ingl√©s:
   - Tokenizaci√≥n.
   - Eliminaci√≥n de stopwords.
   - Lematizaci√≥n.
4. Crearemos:
   - `text_basic`: texto con limpieza ligera (apto tanto para modelos cl√°sicos como modernos).
   - `text_classic`: texto procesado (tokenizado, sin stopwords, lematizado) para modelos cl√°sicos.
5. Guardaremos un CSV preprocesado que se usar√° en el notebook de modelado.

> Nota: la vectorizaci√≥n (TF-IDF, Bag-of-Words, etc.) se har√° en el notebook de modelado,
> a partir de la columna `text_classic`.

## Paso 1: Importar librer√≠as y configurar el entorno

Importamos las librer√≠as necesarias para el preprocesamiento y definimos las rutas del fichero de entrada y de salida.


In [1]:
# Paso 1: Import libraries for preprocessing

import pandas as pd                      # Data manipulation with DataFrames
import numpy as np                       # Numerical utilities (if needed)
import re                                # Regular expressions for text cleaning and tokenization
import emoji                             # Emoji handling: convert emojis to text
import nltk                              # Classic NLP library: stopwords, lemmatization, etc.
from nltk.corpus import stopwords        # Stopword lists for multiple languages (we use English)
from nltk.stem import WordNetLemmatizer  # Lemmatizer based on WordNet (English)
from IPython.display import Markdown, display  # Display Markdown explanations from code cells

# Paths for input (original dataset) and output (preprocessed dataset)
INPUT_PATH = "../../data/youtoxic_english_1000.csv"
OUTPUT_PATH = "../../data/youtoxic_english_1000_clean.csv"

display(Markdown(
"""
**Salida:**

Esta celda importa las librer√≠as necesarias para el preprocesamiento y define las rutas
del fichero de entrada y de salida. Todav√≠a no se ha cargado ni transformado el dataset.
"""
))



**Salida:**

Esta celda importa las librer√≠as necesarias para el preprocesamiento y define las rutas
del fichero de entrada y de salida. Todav√≠a no se ha cargado ni transformado el dataset.


## Paso 2: Descargar recursos de NLTK (si es necesario)

NLTK necesita descargar algunos recursos la primera vez:

- `stopwords` ‚Üí lista de stopwords en ingl√©s.
- `wordnet`, `omw-1.4` ‚Üí recursos para lematizaci√≥n.

Esta celda se ejecuta normalmente una sola vez por entorno.


In [2]:
# Paso 2: Download required NLTK resources (run once per environment)

nltk.download("stopwords")   # English stopwords list
nltk.download("wordnet")     # WordNet lexical database for lemmatization
nltk.download("omw-1.4")     # Additional WordNet data

display(Markdown(
"""
**Explicaci√≥n de la salida:**

Esta celda descarga (si es necesario) los recursos de NLTK que se usar√°n para:

- Obtener la lista de stopwords en ingl√©s.
- Lematizar palabras mediante WordNet.

Si ya estaban descargados, NLTK los reutiliza y la descarga ser√° muy r√°pida.
"""
))


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\alfbb\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\alfbb\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\alfbb\AppData\Roaming\nltk_data...



**Explicaci√≥n de la salida:**

Esta celda descarga (si es necesario) los recursos de NLTK que se usar√°n para:

- Obtener la lista de stopwords en ingl√©s.
- Lematizar palabras mediante WordNet.

Si ya estaban descargados, NLTK los reutiliza y la descarga ser√° muy r√°pida.


## Paso 3: Configurar stopwords y lematizador

En esta celda:

- Creamos el conjunto de stopwords en ingl√©s.
- Instanciamos el lematizador de WordNet.


In [3]:
# Paso 3: Configure English stopwords and lemmatizer

# English stopwords set (e.g. "the", "is", "at", "which", "on", ...)
stopwords_en = set(stopwords.words("english"))

# WordNet-based lemmatizer for English
lemmatizer = WordNetLemmatizer()

display(Markdown(
"""
**Explicaci√≥n de la salida:**

- `stopwords_en` contiene la lista de stopwords en ingl√©s, que utilizaremos para
  eliminar palabras muy frecuentes y poco informativas.
- `lemmatizer` nos permitir√° obtener el **lema** (forma base) de cada palabra
  en ingl√©s (por ejemplo, *running* ‚Üí *run*).

Estas herramientas se usar√°n dentro del pipeline de preprocesamiento cl√°sico.
"""
))



**Explicaci√≥n de la salida:**

- `stopwords_en` contiene la lista de stopwords en ingl√©s, que utilizaremos para
  eliminar palabras muy frecuentes y poco informativas.
- `lemmatizer` nos permitir√° obtener el **lema** (forma base) de cada palabra
  en ingl√©s (por ejemplo, *running* ‚Üí *run*).

Estas herramientas se usar√°n dentro del pipeline de preprocesamiento cl√°sico.


## Paso 4: Cargar el dataset original

Vamos a cargar el CSV original con comentarios y etiquetas, tal y como viene de origen.


In [4]:
# Paso 4: Load the original dataset

df = pd.read_csv(INPUT_PATH)  # Load CSV with comments and labels

display(df.head())
print(f"\nN√∫mero de filas: {df.shape[0]}")
print(f"N√∫mero de columnas: {df.shape[1]}")

display(Markdown(
"""
**Explicaci√≥n de la salida:**

- Se muestran las primeras filas del dataset original.
- Se confirma el n√∫mero de filas y columnas.

Este ser√° el punto de partida para aplicar el preprocesamiento de texto.
"""
))


Unnamed: 0,CommentId,VideoId,Text,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
0,Ugg2KwwX0V8-aXgCoAEC,04kJtp6pVXI,If only people would just take a step back and...,False,False,False,False,False,False,False,False,False,False,False,False
1,Ugg2s5AzSPioEXgCoAEC,04kJtp6pVXI,Law enforcement is not trained to shoot to app...,True,True,False,False,False,False,False,False,False,False,False,False
2,Ugg3dWTOxryFfHgCoAEC,04kJtp6pVXI,\r\nDont you reckon them 'black lives matter' ...,True,True,False,False,True,False,False,False,False,False,False,False
3,Ugg7Gd006w1MPngCoAEC,04kJtp6pVXI,There are a very large number of people who do...,False,False,False,False,False,False,False,False,False,False,False,False
4,Ugg8FfTbbNF8IngCoAEC,04kJtp6pVXI,"The Arab dude is absolutely right, he should h...",False,False,False,False,False,False,False,False,False,False,False,False



N√∫mero de filas: 1000
N√∫mero de columnas: 15



**Explicaci√≥n de la salida:**

- Se muestran las primeras filas del dataset original.
- Se confirma el n√∫mero de filas y columnas.

Este ser√° el punto de partida para aplicar el preprocesamiento de texto.


## Paso 5: Definir limpieza b√°sica de texto (incluyendo emojis)

Definiremos una funci√≥n `basic_clean` que haga:

1. Conversi√≥n de emojis a texto en ingl√©s (`emoji.demojize`).
2. Paso a min√∫sculas.
3. Eliminaci√≥n de:
   - URLs.
   - Menciones (`@usuario`) y hashtags (`#tema`).
   - Saltos de l√≠nea.
4. Normalizaci√≥n de espacios (evitar espacios m√∫ltiples).

El resultado ser√° la columna `text_basic`, que es una versi√≥n del texto con ruido reducido
y que puede ser com√∫n tanto para modelos cl√°sicos como para modelos modernos.


In [5]:
# Paso 5: Define a basic text cleaning function (including emojis)

# Regular expression patterns for cleaning
url_pattern = r"http\S+|www\S+"            # URLs (http://, https://, www.)
mention_hashtag_pattern = r"(@\w+)|(#\w+)" # Mentions (@user) and hashtags (#topic)
newline_pattern = r"[\r\n]+"               # Newline characters

def basic_clean(text: str) -> str:
    """
    Apply basic cleaning to a text comment:
    1. Convert emojis to text (in English).
    2. Convert to lowercase.
    3. Remove URLs.
    4. Remove mentions and hashtags.
    5. Remove newlines.
    6. Normalize multiple spaces.
    """
    # Ensure we work with a string
    if not isinstance(text, str):
        text = str(text)

    # 1) Convert emojis to text, e.g. "I ‚ù§Ô∏è you" -> "I :red_heart: you"
    text = emoji.demojize(text, language="en")

    # 2) Convert to lowercase
    text = text.lower()

    # 3) Remove URLs
    text = re.sub(url_pattern, " ", text)

    # 4) Remove mentions and hashtags
    text = re.sub(mention_hashtag_pattern, " ", text)

    # 5) Remove newline characters
    text = re.sub(newline_pattern, " ", text)

    # 6) Normalize whitespace (collapse multiple spaces into one)
    text = re.sub(r"\s+", " ", text).strip()

    return text

display(Markdown(
"""
**Explicaci√≥n de la salida:**

No se muestra nada todav√≠a, pero hemos definido `basic_clean`, una funci√≥n que:

- Convierte emojis a texto (en ingl√©s), preservando la informaci√≥n emocional.
- Normaliza el texto a min√∫sculas.
- Elimina URLs, menciones, hashtags y saltos de l√≠nea.
- Limpia espacios extra.

Esta limpieza es relativamente ligera y puede usarse tanto antes de modelos cl√°sicos como modernos.
"""
))



**Explicaci√≥n de la salida:**

No se muestra nada todav√≠a, pero hemos definido `basic_clean`, una funci√≥n que:

- Convierte emojis a texto (en ingl√©s), preservando la informaci√≥n emocional.
- Normaliza el texto a min√∫sculas.
- Elimina URLs, menciones, hashtags y saltos de l√≠nea.
- Limpia espacios extra.

Esta limpieza es relativamente ligera y puede usarse tanto antes de modelos cl√°sicos como modernos.


## Paso 6: Tokenizaci√≥n, eliminaci√≥n de stopwords y lematizaci√≥n (pipeline cl√°sico)

Ahora definiremos funciones para el preprocesamiento cl√°sico:

1. `tokenize(text)`  
   - Convierte un string en una lista de tokens (palabras) usando una expresi√≥n regular simple.
2. `remove_stopwords(tokens)`  
   - Elimina stopwords en ingl√©s.
3. `lemmatize_tokens(tokens)`  
   - Aplica lematizaci√≥n para reducir cada palabra a su forma base.

Estas funciones ser√°n espec√≠ficas para el pipeline de **modelos cl√°sicos**.


In [6]:
# Paso 6: Define tokenization, stopword removal, and lemmatization functions (classic NLP pipeline)

def tokenize(text: str) -> list[str]:
    """
    Tokenize text into a list of word tokens using a simple regex.
    Only alphabetic characters and apostrophes are kept (English-focused).
    """
    tokens = re.findall(r"[a-zA-Z']+", text)
    return tokens

def remove_stopwords(tokens: list[str]) -> list[str]:
    """
    Remove English stopwords from the list of tokens.
    """
    filtered_tokens = [t for t in tokens if t not in stopwords_en]
    return filtered_tokens

def lemmatize_tokens(tokens: list[str]) -> list[str]:
    """
    Lemmatize tokens using WordNet lemmatizer.
    (Simple version: no POS tagging, assumes default part-of-speech.)
    """
    lemmatized = [lemmatizer.lemmatize(t) for t in tokens]
    return lemmatized

display(Markdown(
"""
**Explicaci√≥n de la salida:**

Hemos definido tres funciones clave para el pipeline cl√°sico:

1. `tokenize(text)`  
   - Tokeniza el texto en una lista de palabras usando una expresi√≥n regular orientada a ingl√©s.

2. `remove_stopwords(tokens)`  
   - Elimina las stopwords en ingl√©s (the, is, at, which, on, ...).

3. `lemmatize_tokens(tokens)`  
   - Aplica lematizaci√≥n para convertir cada palabra a su forma base usando WordNet.

Estas funciones se encadenar√°n en un pipeline que generar√° un texto preparado
para modelos cl√°sicos (TF-IDF, BoW, etc.).
"""
))



**Explicaci√≥n de la salida:**

Hemos definido tres funciones clave para el pipeline cl√°sico:

1. `tokenize(text)`  
   - Tokeniza el texto en una lista de palabras usando una expresi√≥n regular orientada a ingl√©s.

2. `remove_stopwords(tokens)`  
   - Elimina las stopwords en ingl√©s (the, is, at, which, on, ...).

3. `lemmatize_tokens(tokens)`  
   - Aplica lematizaci√≥n para convertir cada palabra a su forma base usando WordNet.

Estas funciones se encadenar√°n en un pipeline que generar√° un texto preparado
para modelos cl√°sicos (TF-IDF, BoW, etc.).


## Paso 7: Definir el pipeline completo para modelos cl√°sicos

Crearemos una funci√≥n `preprocess_text_classic` que aplique, en este orden:

1. `basic_clean` ‚Üí limpieza ligera (emojis, min√∫sculas, URLs, menciones...).
2. `tokenize` ‚Üí transformar texto en lista de palabras.
3. `remove_stopwords` ‚Üí eliminar palabras poco informativas.
4. `lemmatize_tokens` ‚Üí normalizar palabras a su lema.
5. Unir los tokens resultantes en un string final (`"token1 token2 ..."`).

Esta funci√≥n generar√° la columna `text_classic`, pensada para vectorizaci√≥n cl√°sica.


In [7]:
# Paso 7: Define full preprocessing pipeline function for classic models

def preprocess_text_classic(text: str) -> str:
    """
    Apply the full preprocessing pipeline for classic models:
    1. Basic cleaning (emojis -> text, lowercase, URLs/mentions removal, etc.).
    2. Tokenization.
    3. English stopword removal.
    4. Lemmatization.
    5. Join processed tokens into a single string.
    """
    # 1) Basic cleaning
    cleaned = basic_clean(text)

    # 2) Tokenization
    tokens = tokenize(cleaned)

    # 3) Stopword removal
    tokens_no_stop = remove_stopwords(tokens)

    # 4) Lemmatization
    tokens_lemma = lemmatize_tokens(tokens_no_stop)

    # 5) Join tokens back into a single string
    processed_text = " ".join(tokens_lemma)

    return processed_text

display(Markdown(
"""
**Explicaci√≥n de la salida:**

La funci√≥n `preprocess_text_classic` encadena todo el pipeline cl√°sico:

1. Limpieza b√°sica (`basic_clean`).
2. Tokenizaci√≥n (`tokenize`).
3. Eliminaci√≥n de stopwords (`remove_stopwords`).
4. Lematizaci√≥n (`lemmatize_tokens`).
5. Uni√≥n de tokens en un texto procesado.

Este texto procesado es ideal para vectorizadores como `CountVectorizer` o `TfidfVectorizer`
en el notebook de modelado.
"""
))



**Explicaci√≥n de la salida:**

La funci√≥n `preprocess_text_classic` encadena todo el pipeline cl√°sico:

1. Limpieza b√°sica (`basic_clean`).
2. Tokenizaci√≥n (`tokenize`).
3. Eliminaci√≥n de stopwords (`remove_stopwords`).
4. Lematizaci√≥n (`lemmatize_tokens`).
5. Uni√≥n de tokens en un texto procesado.

Este texto procesado es ideal para vectorizadores como `CountVectorizer` o `TfidfVectorizer`
en el notebook de modelado.


## Paso 8: Aplicar el preprocesamiento al dataset

Vamos a crear dos columnas:

- `text_basic` ‚Üí resultado de aplicar `basic_clean` (limpieza ligera).
- `text_classic` ‚Üí resultado de aplicar `preprocess_text_classic` (pipeline cl√°sico completo).

Luego mostraremos algunos ejemplos comparando:

- `Text` (original).
- `text_basic`.
- `text_classic`.


In [8]:
# Paso 8: Apply preprocessing to the whole dataset

# Light-cleaned text (shared baseline)
df["text_basic"] = df["Text"].apply(basic_clean)

# Fully processed text for classic models
df["text_classic"] = df["Text"].apply(preprocess_text_classic)

# Show a few random examples to inspect the transformations
examples = df[["Text", "text_basic", "text_classic"]].sample(5, random_state=42)
display(examples)

display(Markdown(
"""
**Explicaci√≥n de la salida:**

La tabla muestra, para varios comentarios:

- `Text`: texto original sin preprocesar.
- `text_basic`: texto tras la limpieza b√°sica (emojis a texto, min√∫sculas, sin URLs ni menciones).
- `text_classic`: texto tras el pipeline cl√°sico completo (limpieza b√°sica + tokenizaci√≥n + stopwords + lemas).

Esto permite comprobar visualmente que el preprocesamiento es razonable y que el texto
sigue siendo interpretable despu√©s de las transformaciones.
"""
))


Unnamed: 0,Text,text_basic,text_classic
521,You call yourself an anarchist but defend a co...,you call yourself an anarchist but defend a co...,call anarchist defend cop shooting unarmed civ...
737,My mother told me the same thing.¬† God Bless t...,my mother told me the same thing. god bless th...,mother told thing god bless woman
740,Love it I same the saem thing Go Peggy! #stup...,love it i same the saem thing go peggy! ya kil...,love saem thing go peggy ya killing ya self qu...
660,"Next time they do that, line up some cars and ...","next time they do that, line up some cars and ...",next time line car start making burnout smoke ...
411,He was Robbing the Store and Being a Big Man ....,he was robbing the store and being a big man ....,robbing store big man play fire get burnt poli...



**Explicaci√≥n de la salida:**

La tabla muestra, para varios comentarios:

- `Text`: texto original sin preprocesar.
- `text_basic`: texto tras la limpieza b√°sica (emojis a texto, min√∫sculas, sin URLs ni menciones).
- `text_classic`: texto tras el pipeline cl√°sico completo (limpieza b√°sica + tokenizaci√≥n + stopwords + lemas).

Esto permite comprobar visualmente que el preprocesamiento es razonable y que el texto
sigue siendo interpretable despu√©s de las transformaciones.


## Paso 9 (opcional): Longitud del texto preprocesado

Podemos a√±adir:

- `text_len_classic`: longitud en caracteres de `text_classic`.
- `word_count_classic`: n√∫mero de palabras en `text_classic`.

Estas columnas pueden servir como features adicionales o para an√°lisis posterior.


In [9]:
# Paso 9: Compute length metrics on processed text (optional)

df["text_len_classic"] = df["text_classic"].str.len()
df["word_count_classic"] = df["text_classic"].str.split().str.len()

display(df[["text_classic", "text_len_classic", "word_count_classic"]].head())

display(Markdown(
"""
**Explicaci√≥n de la salida:**

- `text_len_classic`: n√∫mero de caracteres del texto ya preprocesado.
- `word_count_classic`: n√∫mero de palabras del texto preprocesado.

Estas columnas ayudan a entender c√≥mo el pipeline de preprocesamiento ha afectado
a la longitud de los comentarios y pueden utilizarse como variables adicionales
en los modelos si se considera √∫til.
"""
))


Unnamed: 0,text_classic,text_len_classic,word_count_classic
0,people would take step back make case anyone e...,840,127
1,law enforcement trained shoot apprehend traine...,90,13
2,dont reckon 'black life matter' banner held wh...,256,40
3,large number people like police officer called...,339,49
4,arab dude absolutely right shot extra time sho...,135,22



**Explicaci√≥n de la salida:**

- `text_len_classic`: n√∫mero de caracteres del texto ya preprocesado.
- `word_count_classic`: n√∫mero de palabras del texto preprocesado.

Estas columnas ayudan a entender c√≥mo el pipeline de preprocesamiento ha afectado
a la longitud de los comentarios y pueden utilizarse como variables adicionales
en los modelos si se considera √∫til.


## Paso 10: Guardar el dataset preprocesado

Guardaremos un nuevo CSV con:

- Columnas originales.
- Columnas de preprocesamiento:
  - `text_basic`
  - `text_classic`
  - `text_len_classic`
  - `word_count_classic`

Este fichero ser√° el punto de partida en el notebook de modelado.


In [10]:
# Paso 10: Save preprocessed dataset to CSV

df.to_csv(OUTPUT_PATH, index=False)
print(f"Dataset preprocesado guardado en: {OUTPUT_PATH}")

display(Markdown(
f"""
**Explicaci√≥n de la salida:**

Se ha guardado el dataset preprocesado en:

`{OUTPUT_PATH}`

El fichero contiene:
- Todas las columnas originales (texto, IDs y etiquetas `Is...`).
- `text_basic`: texto con limpieza ligera (√∫til para pipelines cl√°sicos y modernos).
- `text_classic`: texto preprocesado para modelos cl√°sicos (tokenizaci√≥n + stopwords + lemas).
- `text_len_classic` y `word_count_classic`: m√©tricas de longitud del texto procesado.

El siguiente paso ser√° usar este fichero en el notebook de **modelado**,
donde aplicaremos vectorizaci√≥n (TF-IDF, BoW, etc.) y entrenaremos modelos de clasificaci√≥n.
"""
))


Dataset preprocesado guardado en: ../../data/youtoxic_english_1000_clean.csv



**Explicaci√≥n de la salida:**

Se ha guardado el dataset preprocesado en:

`../../data/youtoxic_english_1000_clean.csv`

El fichero contiene:
- Todas las columnas originales (texto, IDs y etiquetas `Is...`).
- `text_basic`: texto con limpieza ligera (√∫til para pipelines cl√°sicos y modernos).
- `text_classic`: texto preprocesado para modelos cl√°sicos (tokenizaci√≥n + stopwords + lemas).
- `text_len_classic` y `word_count_classic`: m√©tricas de longitud del texto procesado.

El siguiente paso ser√° usar este fichero en el notebook de **modelado**,
donde aplicaremos vectorizaci√≥n (TF-IDF, BoW, etc.) y entrenaremos modelos de clasificaci√≥n.


# Resumen del notebook de preprocesamiento

En este notebook hemos:

1. Cargado el dataset original de comentarios de YouTube.
2. Definido una funci√≥n de **limpieza b√°sica** (`basic_clean`) que:
   - Convierte emojis a texto en ingl√©s.
   - Pasa a min√∫sculas.
   - Elimina URLs, menciones, hashtags y saltos de l√≠nea.
   - Normaliza espacios.
3. Configurado un pipeline cl√°sico de NLP en ingl√©s:
   - `tokenize` ‚Üí tokeniza el texto.
   - `remove_stopwords` ‚Üí elimina stopwords en ingl√©s.
   - `lemmatize_tokens` ‚Üí lematiza las palabras usando WordNet.
4. Implementado `preprocess_text_classic` para encadenar todos los pasos y obtener:
   - `text_classic`: texto limpio, tokenizado, sin stopwords y lematizado.
5. Creado una versi√≥n de limpieza ligera (`text_basic`) que puede servir tambi√©n como entrada
   para modelos modernos si en el futuro se usan transformers.
6. A√±adido columnas de longitud sobre el texto procesado.
7. Guardado un CSV preprocesado (`youtoxic_english_1000_clean.csv`) listo para el notebook de modelado.

---

## Pr√≥ximos pasos

En el notebook de **modelado** (por ejemplo, `4.3-modeling-baseline.ipynb`):

1. Cargar `youtoxic_english_1000_clean.csv`.
2. Elegir la etiqueta objetivo (p. ej. `IsToxic`).
3. Hacer un **train/test split**.
4. Vectorizar `text_classic` con:
   - `CountVectorizer` o `TfidfVectorizer`.
5. Entrenar modelos cl√°sicos:
   - Logistic Regression, Linear SVM, Naive Bayes, etc.
6. Calcular m√©tricas (accuracy, precision, recall, F1, matriz de confusi√≥n).
7. Comparar modelos y, a partir de ah√≠, avanzar a ensembles, tuning o incluso modelos modernos.

Con estos dos notebooks (4.2-eda y 4.2-preprocessing) ya tienes la base s√≥lida de datos listos para modelar. üí™
