In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('lemma_tc_classifier_corpus.csv')
data.head()

Unnamed: 0,features,section
0,Récord de 96 mil asistente para pelea Dubois c...,Deportes
1,"América no estar para formar jugador , decir J...",Deportes
2,"Fátima Herrera , sin miedo a nada , hacer hist...",Deportes
3,Pumas femenil dejar escapar el tres punto en c...,Deportes
4,Cae dupla Zverev-Alcaraz él dupla Carlos Alcar...,Deportes


In [3]:
data['section'].value_counts()

section
Economía                172
Ciencia y Tecnología     90
Deportes                 73
Cultura                  49
Name: count, dtype: int64

In [4]:
X_train, X_test, y_train, y_test = train_test_split(data['features'], data['section'], test_size=0.2, random_state=42)

## Logistic Regresion

### TF-IDF Vectorizer

In [5]:
pipe_tf_idf_log = Pipeline([
                                ('text_representation', TfidfVectorizer()), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))


Scores de F1 por fold en entrenamiento: [0.81348578 0.8217481  0.83336854 0.8851931  0.76409055]
F1 promedio: 0.8235772151495289
F1 desviación estándar: 0.03882327495059958
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.78      0.86      0.82        21
             Cultura       0.80      0.67      0.73         6
            Deportes       0.93      1.00      0.96        13
            Economía       0.89      0.84      0.86        37

            accuracy                           0.86        77
           macro avg       0.85      0.84      0.84        77
        weighted avg       0.86      0.86      0.86        77



### Binary Vectorizer

In [6]:
pipe_bin_log = Pipeline([
                                ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.76908978 0.71138283 0.69107235 0.78546299 0.71043571]
F1 promedio: 0.7334887342302491
F1 desviación estándar: 0.03684567891079506
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.70      0.90      0.79        21
             Cultura       0.80      0.67      0.73         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.94      0.81      0.87        37

            accuracy                           0.86        77
           macro avg       0.86      0.85      0.85        77
        weighted avg       0.87      0.86      0.86        77



### Frequency Vectorizer

In [7]:
pipe_frec_log = Pipeline([
                                ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Scores de F1 por fold en entrenamiento: [0.77201601 0.77226085 0.83420122 0.77326426 0.71979389]
F1 promedio: 0.7743072440741817
F1 desviación estándar: 0.036247813851581455
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.71      0.81      0.76        21
             Cultura       0.56      0.83      0.67         6
            Deportes       0.92      0.92      0.92        13
            Economía       0.87      0.73      0.79        37

            accuracy                           0.79        77
           macro avg       0.76      0.82      0.78        77
        weighted avg       0.81      0.79      0.80        77



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Random Forest

###  TF-IDF Vectorizer

In [8]:

# Definición del pipeline con Random Forest
pipe_tf_idf_rf = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.5344086  0.67114821 0.6383464  0.53932498 0.54616048]
F1 promedio: 0.5858777336839939
F1 desviación estándar: 0.05730219072328221
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.75      0.57      0.65        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.68      0.92      0.78        37

            accuracy                           0.74        77
           macro avg       0.86      0.61      0.65        77
        weighted avg       0.78      0.74      0.72        77



### Binary Vectorizer

In [9]:

# Definición del pipeline con Random Forest
pipe_bin_rf = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.48712802 0.64408088 0.59438255 0.64823123 0.58385374]
F1 promedio: 0.5915352834665742
F1 desviación estándar: 0.05821247253165629
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.71      0.81      0.76        21
             Cultura       0.50      0.17      0.25         6
            Deportes       0.91      0.77      0.83        13
            Economía       0.80      0.86      0.83        37

            accuracy                           0.78        77
           macro avg       0.73      0.65      0.67        77
        weighted avg       0.77      0.78      0.77        77



### Frequency Vectorizer

In [10]:

# Definición del pipeline con Random Forest
pipe_frec_rf = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.51704788 0.7061946  0.65491316 0.6328892  0.63631224]
F1 promedio: 0.6294714148794341
F1 desviación estándar: 0.06201815431600479
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.80      0.76      0.78        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.85      0.92        13
            Economía       0.76      0.92      0.83        37

            accuracy                           0.81        77
           macro avg       0.89      0.67      0.70        77
        weighted avg       0.83      0.81      0.79        77



## Multinomial Naive Bayes

### TF-IDF Vectorizer

In [11]:
pipe_bin_nb = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.32559987 0.26422617 0.33413213 0.27160954 0.3049963 ]
F1 promedio: 0.30011280230496923
F1 desviación estándar: 0.02803940227309834
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       1.00      0.05      0.09        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.38      0.56        13
            Economía       0.52      1.00      0.69        37

            accuracy                           0.56        77
           macro avg       0.63      0.36      0.33        77
        weighted avg       0.69      0.56      0.45        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Binary Vectorizer

In [12]:
pipe_bin_nb = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.77715124 0.74005203 0.7445484  0.74126539 0.70963016]
F1 promedio: 0.7425294409834583
F1 desviación estándar: 0.021414215400764842
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.89      0.76      0.82        21
             Cultura       1.00      0.33      0.50         6
            Deportes       0.87      1.00      0.93        13
            Economía       0.86      0.97      0.91        37

            accuracy                           0.87        77
           macro avg       0.90      0.77      0.79        77
        weighted avg       0.88      0.87      0.86        77



### Frequency Vectorizer

In [13]:
pipe_frec_nb = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.6679385  0.77235835 0.6924315  0.75548068 0.68439478]
F1 promedio: 0.7145207643222344
F1 desviación estándar: 0.041444707541880114
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.93      0.67      0.78        21
             Cultura       0.75      0.50      0.60         6
            Deportes       0.93      1.00      0.96        13
            Economía       0.80      0.95      0.86        37

            accuracy                           0.84        77
           macro avg       0.85      0.78      0.80        77
        weighted avg       0.85      0.84      0.84        77



## KNN


### TF-IDF Vectorizer

In [14]:
# Definición del pipeline con KNeighborsClassifier
pipe_tf_idf_knn = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.75564133 0.83702087 0.76183489 0.76028234 0.72830058]
F1 promedio: 0.7686160014114425
F1 desviación estándar: 0.03629968378857995
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.70      0.67      0.68        21
             Cultura       0.50      0.67      0.57         6
            Deportes       0.71      0.92      0.80        13
            Economía       0.81      0.70      0.75        37

            accuracy                           0.73        77
           macro avg       0.68      0.74      0.70        77
        weighted avg       0.74      0.73      0.73        77



### Binary Vectorizer

In [15]:
# Definición del pipeline con KNeighborsClassifier
pipe_bin_knn = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.21584101 0.32459909 0.40233857 0.51435766 0.2219804 ]
F1 promedio: 0.33582334552063975
F1 desviación estándar: 0.11294311338879534
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.80      0.38      0.52        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.19      0.92      0.31        13
            Economía       1.00      0.08      0.15        37

            accuracy                           0.30        77
           macro avg       0.50      0.35      0.24        77
        weighted avg       0.73      0.30      0.27        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


###  Frequency Vectorizer

In [16]:
# Definición del pipeline con KNeighborsClassifier
pipe_frec_knn = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.43617512 0.47320014 0.48047966 0.52363071 0.36740928]
F1 promedio: 0.45617898109870875
F1 desviación estándar: 0.05236448111477808
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.50      0.48      0.49        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.33      0.15      0.21        13
            Economía       0.55      0.76      0.64        37

            accuracy                           0.52        77
           macro avg       0.35      0.35      0.33        77
        weighted avg       0.46      0.52      0.47        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## SVC

### TF-IDF Vectorizer

In [17]:
# Definición del pipeline con SVC
pipe_tf_idf_svc = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.69337379 0.75820276 0.72177003 0.67496305 0.69111517]
F1 promedio: 0.7078849607946522
F1 desviación estándar: 0.02932687873598235
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.83      0.71      0.77        21
             Cultura       0.75      0.50      0.60         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.79      0.89      0.84        37

            accuracy                           0.83        77
           macro avg       0.84      0.78      0.80        77
        weighted avg       0.83      0.83      0.83        77



### Binary Vectorizer

In [18]:
# Definición del pipeline con SVC
pipe_bin_svc = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.54814272 0.62254321 0.66208873 0.66156518 0.56112412]
F1 promedio: 0.6110927926331197
F1 desviación estándar: 0.048453565652234756
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.56      0.95      0.70        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.91      0.77      0.83        13
            Economía       0.90      0.73      0.81        37

            accuracy                           0.74        77
           macro avg       0.59      0.61      0.59        77
        weighted avg       0.74      0.74      0.72        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Frequency Vectorizer

In [19]:
# Definición del pipeline con SVC
pipe_frec_svc = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.68676765 0.50172859 0.64415912 0.60236925 0.59714249]
F1 promedio: 0.6064334191168996
F1 desviación estándar: 0.06155121191822226
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.53      0.86      0.65        21
             Cultura       0.44      0.67      0.53         6
            Deportes       0.67      0.77      0.71        13
            Economía       0.84      0.43      0.57        37

            accuracy                           0.62        77
           macro avg       0.62      0.68      0.62        77
        weighted avg       0.70      0.62      0.62        77

