In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('sw_lemm_tc_classifier_corpus.csv')
data.head()

Unnamed: 0,features,section
0,Récord 96 mil asistente pelea Dubois Joshua ho...,Deportes
1,América no estar formar jugador decir Jardine ...,Deportes
2,Fátima Herrera miedo nada hacer historia ring ...,Deportes
3,Pumas femenil dejar escapar tres punto cu pese...,Deportes
4,Cae dupla Zverev-Alcaraz dupla Carlos Alcaraz-...,Deportes


In [3]:
data['section'].value_counts()

section
Economía                172
Ciencia y Tecnología     90
Deportes                 73
Cultura                  49
Name: count, dtype: int64

In [4]:
X_train, X_test, y_train, y_test = train_test_split(data['features'], data['section'], test_size=0.2, random_state=42)

## Logistic Regresion

### TF-IDF Vectorizer

In [5]:
pipe_tf_idf_log = Pipeline([
                                ('text_representation', TfidfVectorizer()), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))


Scores de F1 por fold en entrenamiento: [0.76622698 0.8018698  0.83537708 0.86766242 0.81849253]
F1 promedio: 0.8179257612055238
F1 desviación estándar: 0.03379101113673131
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.73      0.90      0.81        21
             Cultura       0.43      0.50      0.46         6
            Deportes       0.92      0.92      0.92        13
            Economía       0.90      0.76      0.82        37

            accuracy                           0.81        77
           macro avg       0.75      0.77      0.75        77
        weighted avg       0.82      0.81      0.81        77



### Binary Vectorizer

In [6]:
pipe_bin_log = Pipeline([
                                ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.73033377 0.76080274 0.73877833 0.83267477 0.74100737]
F1 promedio: 0.7607193945561723
F1 desviación estándar: 0.0373385690197926
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.68      0.90      0.78        21
             Cultura       0.80      0.67      0.73         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.94      0.78      0.85        37

            accuracy                           0.84        77
           macro avg       0.85      0.84      0.84        77
        weighted avg       0.87      0.84      0.85        77



### Frequency Vectorizer

In [7]:
pipe_frec_log = Pipeline([
                                ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.77063887 0.77542162 0.75466857 0.81576699 0.78118601]
F1 promedio: 0.779536412284938
F1 desviación estándar: 0.020148863996800624
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.68      0.90      0.78        21
             Cultura       0.60      0.50      0.55         6
            Deportes       0.92      0.92      0.92        13
            Economía       0.90      0.76      0.82        37

            accuracy                           0.81        77
           macro avg       0.78      0.77      0.77        77
        weighted avg       0.82      0.81      0.81        77



## Random Forest

###  TF-IDF Vectorizer

In [8]:

# Definición del pipeline con Random Forest
pipe_tf_idf_rf = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.54252199 0.7351668  0.65502723 0.65659714 0.61762266]
F1 promedio: 0.641387165286402
F1 desviación estándar: 0.06253173479256333
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.76      0.62      0.68        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.69      0.92      0.79        37

            accuracy                           0.75        77
           macro avg       0.86      0.62      0.66        77
        weighted avg       0.79      0.75      0.74        77



### Binary Vectorizer

In [9]:

# Definición del pipeline con Random Forest
pipe_bin_rf = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.56277891 0.70621036 0.69547858 0.68296442 0.6462406 ]
F1 promedio: 0.6587345753844176
F1 desviación estándar: 0.05206677770013981
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.68      0.81      0.74        21
             Cultura       0.75      0.50      0.60         6
            Deportes       1.00      0.62      0.76        13
            Economía       0.78      0.84      0.81        37

            accuracy                           0.77        77
           macro avg       0.80      0.69      0.73        77
        weighted avg       0.79      0.77      0.76        77



### Frequency Vectorizer

In [10]:

# Definición del pipeline con Random Forest
pipe_frec_rf = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.51413833 0.68829423 0.65327869 0.62088435 0.6309699 ]
F1 promedio: 0.6215131014177253
F1 desviación estándar: 0.05846013953187974
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.70      0.76      0.73        21
             Cultura       1.00      0.50      0.67         6
            Deportes       1.00      0.69      0.82        13
            Economía       0.74      0.84      0.78        37

            accuracy                           0.77        77
           macro avg       0.86      0.70      0.75        77
        weighted avg       0.79      0.77      0.77        77



## Multinomial Naive Bayes

### TF-IDF Vectorizer

In [11]:
pipe_bin_nb = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.34383302 0.45708567 0.48729508 0.43780292 0.44003451]
F1 promedio: 0.4332102392572715
F1 desviación estándar: 0.048064867614742504
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       1.00      0.29      0.44        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.62      0.76        13
            Economía       0.59      1.00      0.74        37

            accuracy                           0.66        77
           macro avg       0.65      0.48      0.49        77
        weighted avg       0.72      0.66      0.61        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Binary Vectorizer

In [12]:
pipe_bin_nb = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.77547307 0.76562954 0.85077    0.78003963 0.73564224]
F1 promedio: 0.7815108948314434
F1 desviación estándar: 0.03792517390758043
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.89      0.81      0.85        21
             Cultura       0.80      0.67      0.73         6
            Deportes       0.93      1.00      0.96        13
            Economía       0.87      0.92      0.89        37

            accuracy                           0.88        77
           macro avg       0.87      0.85      0.86        77
        weighted avg       0.88      0.88      0.88        77



### Frequency Vectorizer

In [13]:
pipe_frec_nb = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.74182217 0.83179194 0.79972408 0.81554982 0.77648016]
F1 promedio: 0.7930736323933344
F1 desviación estándar: 0.03146607668334896
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.80      0.76      0.78        21
             Cultura       0.80      0.67      0.73         6
            Deportes       0.87      1.00      0.93        13
            Economía       0.86      0.86      0.86        37

            accuracy                           0.84        77
           macro avg       0.83      0.82      0.83        77
        weighted avg       0.84      0.84      0.84        77



## KNN


### TF-IDF Vectorizer

In [14]:
# Definición del pipeline con KNeighborsClassifier
pipe_tf_idf_knn = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.7296069  0.75849819 0.81845944 0.85073207 0.76382998]
F1 promedio: 0.7842253141489574
F1 desviación estándar: 0.0439457612609496
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.71      0.71      0.71        21
             Cultura       0.50      0.50      0.50         6
            Deportes       0.77      0.77      0.77        13
            Economía       0.81      0.81      0.81        37

            accuracy                           0.75        77
           macro avg       0.70      0.70      0.70        77
        weighted avg       0.75      0.75      0.75        77



### Binary Vectorizer

In [15]:
# Definición del pipeline con KNeighborsClassifier
pipe_bin_knn = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.15395338 0.23138515 0.4748637  0.51984374 0.20718441]
F1 promedio: 0.31744607551829335
F1 desviación estándar: 0.14969241655633492
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.64      0.33      0.44        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.18      0.92      0.30        13
            Economía       0.00      0.00      0.00        37

            accuracy                           0.25        77
           macro avg       0.20      0.31      0.19        77
        weighted avg       0.20      0.25      0.17        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


###  Frequency Vectorizer

In [16]:
# Definición del pipeline con KNeighborsClassifier
pipe_frec_knn = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.2283317  0.23480255 0.51130323 0.45444515 0.13257055]
F1 promedio: 0.31229063603176443
F1 desviación estándar: 0.14502877881481427
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.67      0.19      0.30        21
             Cultura       1.00      0.17      0.29         6
            Deportes       0.17      0.85      0.29        13
            Economía       0.50      0.08      0.14        37

            accuracy                           0.25        77
           macro avg       0.58      0.32      0.25        77
        weighted avg       0.53      0.25      0.22        77



## SVC

### TF-IDF Vectorizer

In [17]:
# Definición del pipeline con SVC
pipe_tf_idf_svc = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.71036502 0.73500791 0.75180664 0.64238084 0.72177986]
F1 promedio: 0.7122680555230477
F1 desviación estándar: 0.03757318225506371
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.80      0.76      0.78        21
             Cultura       0.75      0.50      0.60         6
            Deportes       1.00      0.85      0.92        13
            Economía       0.79      0.89      0.84        37

            accuracy                           0.82        77
           macro avg       0.83      0.75      0.78        77
        weighted avg       0.82      0.82      0.82        77



### Binary Vectorizer

In [18]:
# Definición del pipeline con SVC
pipe_bin_svc = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.52665991 0.65046706 0.63572354 0.67284173 0.59427949]
F1 promedio: 0.615994346784247
F1 desviación estándar: 0.051500313938496065
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.50      0.95      0.66        21
             Cultura       1.00      0.33      0.50         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.92      0.62      0.74        37

            accuracy                           0.71        77
           macro avg       0.85      0.67      0.69        77
        weighted avg       0.83      0.71      0.72        77



### Frequency Vectorizer

In [19]:
# Definición del pipeline con SVC
pipe_frec_svc = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.62503838 0.57360158 0.66452419 0.68570064 0.49868952]
F1 promedio: 0.6095108616556193
F1 desviación estándar: 0.06729531625748757
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.53      0.95      0.68        21
             Cultura       0.43      0.50      0.46         6
            Deportes       0.83      0.77      0.80        13
            Economía       1.00      0.54      0.70        37

            accuracy                           0.69        77
           macro avg       0.70      0.69      0.66        77
        weighted avg       0.80      0.69      0.69        77

