In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('raw_classifier_corpus.csv')
data.head()

Unnamed: 0,features,section
0,Récord de 96 mil asistentes para pelea Dubois ...,Deportes
1,"América no está para formar jugadores, dice ...",Deportes
2,"Fátima Herrera, sin miedo a nada, hizo histor...",Deportes
3,Pumas femenil deja escapar los tres puntos en ...,Deportes
4,Cae dupla Zverev-Alcaraz La dupla Carlos Alcar...,Deportes


In [3]:
data['section'].value_counts()

section
Economía                172
Ciencia y Tecnología     90
Deportes                 73
Cultura                  49
Name: count, dtype: int64

In [4]:
X_train, X_test, y_train, y_test = train_test_split(data['features'], data['section'], test_size=0.2, random_state=42)

## Logistic Regresion

### TF-IDF Vectorizer

In [5]:
pipe_tf_idf_log = Pipeline([
                                ('text_representation', TfidfVectorizer()), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))


Scores de F1 por fold en entrenamiento: [0.79763574 0.81759917 0.93334534 0.83396865 0.76453269]
F1 promedio: 0.8294163213044916
F1 desviación estándar: 0.05688848860324489
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.74      0.81      0.77        21
             Cultura       0.71      0.83      0.77         6
            Deportes       0.87      1.00      0.93        13
            Economía       0.91      0.78      0.84        37

            accuracy                           0.83        77
           macro avg       0.81      0.86      0.83        77
        weighted avg       0.84      0.83      0.83        77



### Binary Vectorizer

In [6]:
pipe_bin_log = Pipeline([
                                ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.71880146 0.74754945 0.71916337 0.77116383 0.6677012 ]
F1 promedio: 0.7248758618145811
F1 desviación estándar: 0.03462698441351446
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.69      0.86      0.77        21
             Cultura       1.00      0.67      0.80         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.91      0.84      0.87        37

            accuracy                           0.86        77
           macro avg       0.90      0.84      0.86        77
        weighted avg       0.87      0.86      0.86        77



### Frequency Vectorizer

In [7]:
pipe_frec_log = Pipeline([
                                ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
                                ('classifier', LogisticRegression(class_weight='balanced'))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_log, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_log.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_log.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.70374537 0.7163612  0.7826006  0.80340479 0.72870871]
F1 promedio: 0.74696413368015
F1 desviación estándar: 0.03896964722918719
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.75      0.86      0.80        21
             Cultura       0.67      0.67      0.67         6
            Deportes       0.81      1.00      0.90        13
            Economía       0.90      0.76      0.82        37

            accuracy                           0.82        77
           macro avg       0.78      0.82      0.80        77
        weighted avg       0.83      0.82      0.82        77



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

## Random Forest

###  TF-IDF Vectorizer

In [8]:

# Definición del pipeline con Random Forest
pipe_tf_idf_rf = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.53488964 0.58967256 0.52669677 0.54054953 0.56607604]
F1 promedio: 0.5515769070168218
F1 desviación estándar: 0.02315423207644862
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.67      0.29      0.40        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.60      0.95      0.74        37

            accuracy                           0.66        77
           macro avg       0.57      0.50      0.50        77
        weighted avg       0.64      0.66      0.61        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Binary Vectorizer

In [9]:

# Definición del pipeline con Random Forest
pipe_bin_rf = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.4579486  0.64523032 0.5764455  0.53598667 0.50144648]
F1 promedio: 0.5434115140364525
F1 desviación estándar: 0.0641535884671712
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.73      0.76      0.74        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.62      0.76        13
            Economía       0.72      0.89      0.80        37

            accuracy                           0.75        77
           macro avg       0.86      0.61      0.65        77
        weighted avg       0.79      0.75      0.74        77



### Frequency Vectorizer

In [10]:

# Definición del pipeline con Random Forest
pipe_frec_rf = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', RandomForestClassifier(class_weight='balanced', random_state=42))
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_rf, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_rf.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_rf.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.49528536 0.67367376 0.6314598  0.58973909 0.56713857]
F1 promedio: 0.5914593139653173
F1 desviación estándar: 0.06033761816626693
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.93      0.62      0.74        21
             Cultura       1.00      0.17      0.29         6
            Deportes       0.91      0.77      0.83        13
            Economía       0.71      0.97      0.82        37

            accuracy                           0.78        77
           macro avg       0.89      0.63      0.67        77
        weighted avg       0.82      0.78      0.76        77



## Multinomial Naive Bayes

### TF-IDF Vectorizer

In [11]:
pipe_bin_nb = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.32559987 0.26422617 0.33413213 0.30533258 0.3049963 ]
F1 promedio: 0.30685741062673977
F1 desviación estándar: 0.024159477193668403
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       1.00      0.05      0.09        21
             Cultura       0.00      0.00      0.00         6
            Deportes       1.00      0.23      0.38        13
            Economía       0.51      1.00      0.67        37

            accuracy                           0.53        77
           macro avg       0.63      0.32      0.28        77
        weighted avg       0.69      0.53      0.41        77



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Binary Vectorizer

In [12]:
pipe_bin_nb = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.65640409 0.72375367 0.68944508 0.69930849 0.63414653]
F1 promedio: 0.6806115707891882
F1 desviación estándar: 0.03172963149555861
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.93      0.67      0.78        21
             Cultura       1.00      0.33      0.50         6
            Deportes       0.92      0.92      0.92        13
            Economía       0.77      0.97      0.86        37

            accuracy                           0.83        77
           macro avg       0.91      0.72      0.76        77
        weighted avg       0.86      0.83      0.82        77



### Frequency Vectorizer

In [13]:
pipe_frec_nb = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', MultinomialNB())
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_nb, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_nb.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_nb.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.62970983 0.70342131 0.71397193 0.68567356 0.61949232]
F1 promedio: 0.6704537898655392
F1 desviación estándar: 0.038650920307811844
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       1.00      0.52      0.69        21
             Cultura       1.00      0.50      0.67         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.74      1.00      0.85        37

            accuracy                           0.83        77
           macro avg       0.94      0.76      0.80        77
        weighted avg       0.88      0.83      0.82        77



## KNN


### TF-IDF Vectorizer

In [14]:
# Definición del pipeline con KNeighborsClassifier
pipe_tf_idf_knn = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.72422924 0.8370875  0.88205225 0.80003455 0.67613176]
F1 promedio: 0.7839070605496359
F1 desviación estándar: 0.07469630442417866
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.71      0.71      0.71        21
             Cultura       0.71      0.83      0.77         6
            Deportes       0.93      1.00      0.96        13
            Economía       0.83      0.78      0.81        37

            accuracy                           0.81        77
           macro avg       0.80      0.83      0.81        77
        weighted avg       0.81      0.81      0.80        77



### Binary Vectorizer

In [15]:
# Definición del pipeline con KNeighborsClassifier
pipe_bin_knn = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.16912505 0.17577852 0.36169532 0.47063847 0.09407601]
F1 promedio: 0.25426267372498895
F1 desviación estándar: 0.13959097699031997
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.75      0.14      0.24        21
             Cultura       1.00      0.17      0.29         6
            Deportes       0.19      1.00      0.32        13
            Economía       1.00      0.08      0.15        37

            accuracy                           0.26        77
           macro avg       0.73      0.35      0.25        77
        weighted avg       0.79      0.26      0.21        77



###  Frequency Vectorizer

In [16]:
# Definición del pipeline con KNeighborsClassifier
pipe_frec_knn = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', KNeighborsClassifier(n_neighbors=5))  # Ajusta 'n_neighbors' según lo necesario
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_knn, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_knn.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_knn.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.29520031 0.29890029 0.36640605 0.3869679  0.2857723 ]
F1 promedio: 0.3266493719390874
F1 desviación estándar: 0.04159064445951241
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.28      0.33      0.30        21
             Cultura       0.00      0.00      0.00         6
            Deportes       0.19      0.23      0.21        13
            Economía       0.51      0.49      0.50        37

            accuracy                           0.36        77
           macro avg       0.25      0.26      0.25        77
        weighted avg       0.36      0.36      0.36        77



## SVC

### TF-IDF Vectorizer

In [17]:
# Definición del pipeline con SVC
pipe_tf_idf_svc = Pipeline([
    ('text_representation', TfidfVectorizer()), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_tf_idf_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_tf_idf_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_tf_idf_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.64822955 0.67067486 0.75627906 0.64238084 0.6384042 ]
F1 promedio: 0.6711937015823399
F1 desviación estándar: 0.043982887352853425
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.80      0.57      0.67        21
             Cultura       1.00      0.33      0.50         6
            Deportes       1.00      1.00      1.00        13
            Economía       0.72      0.92      0.81        37

            accuracy                           0.79        77
           macro avg       0.88      0.71      0.74        77
        weighted avg       0.81      0.79      0.78        77



### Binary Vectorizer

In [18]:
# Definición del pipeline con SVC
pipe_bin_svc = Pipeline([
    ('text_representation', CountVectorizer(binary=True, ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_bin_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_bin_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_bin_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.55008129 0.57429504 0.59860756 0.54331951 0.41540984]
F1 promedio: 0.5363426485786228
F1 desviación estándar: 0.06352869537274147
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.51      0.95      0.67        21
             Cultura       1.00      0.17      0.29         6
            Deportes       1.00      0.77      0.87        13
            Economía       0.85      0.62      0.72        37

            accuracy                           0.70        77
           macro avg       0.84      0.63      0.64        77
        weighted avg       0.80      0.70      0.70        77



### Frequency Vectorizer

In [19]:
# Definición del pipeline con SVC
pipe_frec_svc = Pipeline([
    ('text_representation', CountVectorizer(ngram_range=(1, 1))), 
    ('classifier', SVC(class_weight='balanced', random_state=42))  # Añadido class_weight='balanced' para manejar desbalance de clases
])

# Configuración de StratifiedKFold para validación cruzada
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada en el conjunto de entrenamiento
cv_scores = cross_val_score(pipe_frec_svc, X_train, y_train, cv=kf, scoring='f1_weighted', n_jobs=-1)

print("Scores de F1 por fold en entrenamiento:", cv_scores)
print("F1 promedio:", cv_scores.mean())
print("F1 desviación estándar:", cv_scores.std())

# Entrenamiento final en el conjunto de entrenamiento completo
pipe_frec_svc.fit(X_train, y_train)

# Evaluación en el conjunto de prueba
y_pred = pipe_frec_svc.predict(X_test)
print("Reporte en el conjunto de prueba:")
print(classification_report(y_test, y_pred))

Scores de F1 por fold en entrenamiento: [0.63461938 0.51471425 0.65851825 0.58398278 0.54233071]
F1 promedio: 0.5868330740616887
F1 desviación estándar: 0.05405923803218022
Reporte en el conjunto de prueba:
                      precision    recall  f1-score   support

Ciencia y Tecnología       0.51      0.86      0.64        21
             Cultura       0.29      0.33      0.31         6
            Deportes       0.60      0.69      0.64        13
            Economía       0.80      0.43      0.56        37

            accuracy                           0.58        77
           macro avg       0.55      0.58      0.54        77
        weighted avg       0.65      0.58      0.58        77

