In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('sw_tc_classifier_corpus.csv')
data.head()

Unnamed: 0,features,section
0,Récord 96 mil asistentes pelea Dubois Joshua h...,Deportes
1,América no está formar jugadores dice Jardine ...,Deportes
2,Fátima Herrera miedo nada hizo historia ring P...,Deportes
3,Pumas femenil deja escapar tres puntos CU Pese...,Deportes
4,Cae dupla Zverev-Alcaraz dupla Carlos Alcaraz-...,Deportes


In [3]:
data['section'].value_counts()

section
Economía                172
Ciencia y Tecnología     90
Deportes                 73
Cultura                  49
Name: count, dtype: int64

In [4]:
X_train, X_test, y_train, y_test = train_test_split(data['features'], data['section'], test_size=0.2, random_state=42)

## Logistic Regresion

### TF-IDF Vectorizer

In [5]:
pipe_tf_idf_log = Pipeline([
                                ('text_representation', TfidfVectorizer()), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))


Scores de F1 por fold en entrenamiento: [0.74673894 0.79670166 0.86137032 0.83156091 0.79816159]
F1 promedio: 0.8069066841652773
F1 desviación estándar: 0.0384054571811839
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.74      0.81      0.77        21
             Cultura       0.62      0.83      0.71         6
            Deportes       0.93      1.00      0.96        13
            Economía       0.91      0.78      0.84        37

            accuracy                           0.83        77
           macro avg       0.80      0.86      0.82        77
        weighted avg       0.84      0.83      0.83        77



### Binary Vectorizer

In [6]:
pipe_bin_log = Pipeline([
                                ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.70192143 0.76080274 0.72579483 0.79681203 0.75622458]
F1 promedio: 0.7483111194995876
F1 desviación estándar: 0.03234188640931781
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.66      0.90      0.76        21
             Cultura       0.80      0.67      0.73         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.93      0.76      0.84        37

            accuracy                           0.83        77
           macro avg       0.85      0.83      0.83        77
        weighted avg       0.86      0.83      0.83        77



### Frequency Vectorizer

In [7]:
pipe_frec_log = Pipeline([
                                ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.70192143 0.76080274 0.75255545 0.77087506 0.77255512]
F1 promedio: 0.7517419568862409
F1 desviación estándar: 0.02593880462758936
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.62      0.86      0.72        21
             Cultura       0.60      0.50      0.55         6
            Deportes       1.00      0.85      0.92        13
            Economía       0.81      0.70      0.75        37

            accuracy                           0.75        77
           macro avg       0.76      0.73      0.73        77
        weighted avg       0.78      0.75      0.76        77



## Random Forest

###  TF-IDF Vectorizer

In [8]:

# Definición del pipeline con Random Forest
pipe_tf_idf_rf = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.50870933 0.64778814 0.62654176 0.57589623 0.54459016]
F1 promedio: 0.5807051264835537
F1 desviación estándar: 0.05120925505550253
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.64      0.67      0.65        21
             Cultura       0.50      0.17      0.25         6
            Deportes       0.89      0.62      0.73        13
            Economía       0.68      0.81      0.74        37

            accuracy                           0.69        77
           macro avg       0.68      0.56      0.59        77
        weighted avg       0.69      0.69      0.68        77



### Binary Vectorizer

In [9]:

# Definición del pipeline con Random Forest
pipe_bin_rf = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.49274194 0.66322148 0.64077156 0.62550339 0.63359423]
F1 promedio: 0.6111665186979576
F1 desviación estándar: 0.06052950932106708
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.62      0.86      0.72        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.81      0.81      0.81        37

            accuracy                           0.77        77
           macro avg       0.86      0.65      0.67        77
        weighted avg       0.81      0.77      0.76        77



### Frequency Vectorizer

In [10]:

# Definición del pipeline con Random Forest
pipe_frec_rf = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.5054649  0.64719112 0.65874251 0.59355071 0.64933056]
F1 promedio: 0.6108559609881052
F1 desviación estándar: 0.057446338607673855
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.67      0.86      0.75        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.85      0.92        13
            Economía       0.76      0.78      0.77        37

            accuracy                           0.77        77
           macro avg       0.86      0.66      0.68        77
        weighted avg       0.80      0.77      0.75        77



## Multinomial Naive Bayes

### TF-IDF Vectorizer

In [11]:
pipe_bin_nb = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.35086272 0.4874552  0.48729508 0.39383294 0.38290398]
F1 promedio: 0.42046998381133144
F1 desviación estándar: 0.056424322439732555
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       1.00      0.19      0.32        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.62      0.76        13
            Economía       0.57      1.00      0.73        37

            accuracy                           0.64        77
           macro avg       0.64      0.45      0.45        77
        weighted avg       0.72      0.64      0.56        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Binary Vectorizer

In [12]:
pipe_bin_nb = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.75687212 0.80932328 0.80728214 0.81554982 0.76242486]
F1 promedio: 0.790290444109894
F1 desviación estándar: 0.02522806965832811
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.83      0.71      0.77        21
             Cultura       0.80      0.67      0.73         6
            Deportes       0.87      1.00      0.93        13
            Economía       0.85      0.89      0.87        37

            accuracy                           0.84        77
           macro avg       0.84      0.82      0.82        77
        weighted avg       0.84      0.84      0.84        77



### Frequency Vectorizer

In [13]:
pipe_frec_nb = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.75550847 0.83179194 0.79014654 0.83248124 0.81042878]
F1 promedio: 0.8040713942114127
F1 desviación estándar: 0.02887290775659102
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.84      0.76      0.80        21
             Cultura       0.67      0.67      0.67         6
            Deportes       0.87      1.00      0.93        13
            Economía       0.86      0.86      0.86        37

            accuracy                           0.84        77
           macro avg       0.81      0.82      0.82        77
        weighted avg       0.84      0.84      0.84        77



## KNN


### TF-IDF Vectorizer

In [14]:
# Definición del pipeline con KNeighborsClassifier
pipe_tf_idf_knn = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.66598339 0.73294123 0.81471013 0.83126464 0.73380819]
F1 promedio: 0.7557415152842515
F1 desviación estándar: 0.06039616726665966
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.83      0.71      0.77        21
             Cultura       0.80      0.67      0.73         6
            Deportes       0.91      0.77      0.83        13
            Economía       0.77      0.89      0.82        37

            accuracy                           0.81        77
           macro avg       0.83      0.76      0.79        77
        weighted avg       0.81      0.81      0.80        77



### Binary Vectorizer

In [15]:
# Definición del pipeline con KNeighborsClassifier
pipe_bin_knn = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.09373987 0.06277245 0.33519769 0.4746333  0.17675539]
F1 promedio: 0.22861974088636156
F1 desviación estándar: 0.15509309799005505
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.60      0.14      0.23        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.17      0.92      0.28        13
            Economía       0.00      0.00      0.00        37

            accuracy                           0.19        77
           macro avg       0.19      0.27      0.13        77
        weighted avg       0.19      0.19      0.11        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


###  Frequency Vectorizer

In [16]:
# Definición del pipeline con KNeighborsClassifier
pipe_frec_knn = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.197646   0.169439   0.54020714 0.43967691 0.09403847]
F1 promedio: 0.288201504717954
F1 desviación estándar: 0.17114657875552503
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.40      0.10      0.15        21
             Cultura       1.00      0.17      0.29         6
            Deportes       0.17      0.85      0.28        13
            Economía       0.40      0.05      0.10        37

            accuracy                           0.21        77
           macro avg       0.49      0.29      0.20        77
        weighted avg       0.41      0.21      0.16        77



## SVC

### TF-IDF Vectorizer

In [17]:
# Definición del pipeline con SVC
pipe_tf_idf_svc = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.61804179 0.70859311 0.70597237 0.62053705 0.63887373]
F1 promedio: 0.6584036116558184
F1 desviación estándar: 0.04056141740042692
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.88      0.67      0.76        21
             Cultura       1.00      0.33      0.50         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.71      0.95      0.81        37

            accuracy                           0.79        77
           macro avg       0.90      0.68      0.74        77
        weighted avg       0.83      0.79      0.78        77



### Binary Vectorizer

In [18]:
# Definición del pipeline con SVC
pipe_bin_svc = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.49193548 0.58209586 0.51856808 0.58581083 0.41930096]
F1 promedio: 0.5195422435164858
F1 desviación estándar: 0.06183183334220597
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.47      0.95      0.62        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.69      0.82        13
            Economía       0.84      0.57      0.68        37

            accuracy                           0.65        77
           macro avg       0.58      0.55      0.53        77
        weighted avg       0.70      0.65      0.63        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Frequency Vectorizer

In [19]:
# Definición del pipeline con SVC
pipe_frec_svc = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.60229717 0.53727599 0.59964337 0.5981294  0.42273003]
F1 promedio: 0.5520151916263416
F1 desviación estándar: 0.06907262473678806
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.50      0.95      0.66        21
             Cultura       0.50      0.33      0.40         6
            Deportes       0.82      0.69      0.75        13
            Economía       0.91      0.54      0.68        37

            accuracy                           0.66        77
           macro avg       0.68      0.63      0.62        77
        weighted avg       0.75      0.66      0.66        77

