# Proyecto: Clasificaci√≥n de Noticias BBC con Redes Neuronales

Objetivo general

Construir un modelo de red neuronal capaz de clasificar noticias en cinco categor√≠as (business, entertainment, politics, sport, tech) utilizando t√©cnicas de procesamiento de lenguaje natural (NLP) y aprendizaje profundo.

**Objetivos espec√≠ficos**

Adquirir y preparar un conjunto de datos real con noticias categorizadas.

Preprocesar texto crudo para convertirlo en un formato que pueda ser entendido por una red neuronal.

Codificar las etiquetas de clasificaci√≥n de texto en valores num√©ricos.

Vectorizar el texto mediante tokenizaci√≥n y embeddings.

Construir y entrenar una red neuronal usando Keras/TensorFlow.

Evaluar el rendimiento del modelo en datos no vistos.

Analizar los errores y posibles mejoras del modelo de clasificaci√≥n.

üß©
**üîπ 1. Recolecci√≥n de datos**

Se seleccion√≥ el dataset BBC News Classification, el cual contiene noticias en ingl√©s clasificadas en cinco categor√≠as.

Debido a la indisponibilidad temporal de Kaggle, se propuso una descarga alternativa desde GitHub:


**2. Carga y exploraci√≥n de datos**

Se utiliza pandas para cargar y visualizar los datos.

In [None]:
import pandas as pd

df = pd.read_csv("/content/sample_data/bbc-text.csv")
#print(df.head())
#print(df['category'].value_counts())
df.info()
df.head(5)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2225 entries, 0 to 2224
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  2225 non-null   object
 1   text      2225 non-null   object
dtypes: object(2)
memory usage: 34.9+ KB


Unnamed: 0,category,text
0,tech,tv future in the hands of viewers with home th...
1,business,worldcom boss left books alone former worldc...
2,sport,tigers wary of farrell gamble leicester say ...
3,sport,yeading face newcastle in fa cup premiership s...
4,entertainment,ocean s twelve raids box office ocean s twelve...


### **3. Preprocesamiento de texto**

Limpieza b√°sica del texto (min√∫sculas, eliminaci√≥n de s√≠mbolos).

Eliminaci√≥n de stopwords si se desea.

Codificaci√≥n de etiquetas con LabelEncoder:

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['label'] = le.fit_transform(df['category'])

 **4. Vectorizaci√≥n del texto**

Uso de Tokenizer de Keras para convertir palabras en enteros.

Aplicaci√≥n de pad_sequences para normalizar la longitud de las noticias.

** ¬øQu√© es la vectorizaci√≥n del texto?**

La vectorizaci√≥n convierte el texto (cadenas de palabras) en secuencias num√©ricas que pueden ser interpretadas por un modelo de red neuronal.

Por ejemplo:

Texto original: "England beat Australia"
‚Üí Tokenizaci√≥n ‚Üí [34, 120, 99]
‚Üí Padding (relleno) ‚Üí [34, 120, 99, 0, 0, ..., 0]

 Tokenizaci√≥n con Keras

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer(num_words=5000, oov_token="<OOV>")
tokenizer.fit_on_texts(df['text'])

sequences = tokenizer.texts_to_sequences(df['text'])
padded_sequences = pad_sequences(sequences, padding='post', maxlen=200)

**5. Construcci√≥n del modelo de red neuronal**

Se dise√±√≥ un modelo secuencial sencillo con Embedding, GlobalAveragePooling1D y capas densas:

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, GlobalAveragePooling1D, Dense

model = Sequential([
    Embedding(input_dim=5000, output_dim=64, input_length=200),
    GlobalAveragePooling1D(),
    Dense(32, activation='relu'),
    Dense(5, activation='softmax')
])

model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])




### **6. Entrenamiento y evaluaci√≥n**

Separaci√≥n del conjunto de entrenamiento y prueba:

In [None]:
from sklearn.model_selection import train_test_split

X = padded_sequences
y = df['label'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Entrenamiento

In [None]:
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))


Epoch 1/10
[1m56/56[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m2s[0m 13ms/step - accuracy: 0.3448 - loss: 1.5891 - val_accuracy: 0.6112 - val_loss: 1.4798
Epoch 2/10
[1m56/56[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m1s[0m 8ms/step - accuracy: 0.7025 - loss: 1.4058 - val_accuracy: 0.7955 - val_loss: 1.1525
Epoch 3/10
[1m56/56[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m1s[0m 12ms/step - accuracy: 0.8524 - loss: 1.0058 - val_accuracy: 0.8562 - val_loss: 0.7629
Epoch 4/10
[1m56/56[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m1s[0m 12ms/step - accuracy: 0.9213 - loss: 0.5934 - val_accuracy: 0.8921 - val_loss: 0.5054
Epoch 5/10
[1m56/56[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m1s[0m 13ms/step - accuracy: 0.9644 - loss: 0.3410 - val_accuracy: 0.9124 - val_loss: 0.3

<keras.src.callbacks.history.History at 0x7d0fa0fa8210>

Evaluaci√≥n del modelo:

In [None]:
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Test Accuracy: {accuracy:.4f}")

[1m14/14[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.9452 - loss: 0.2080 
Test Accuracy: 0.9393
