# 🟥 Ejercicios Tarea
## **Tarea de clasificación con el corpus `20newsgroups`**. Probar las siguientes estrategias y en cada caso medir el F1 score:

### (En cada uno de los modelos BOW/TF-IDF que construyas puedes ajustar el hiperparámetro `max_features`)

### 1. Todas las clases, sin quitar *headers*, *quotes*, *footers*. Comparar:
 #### **BOW**

In [1]:
# Importar librerías
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, f1_score
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

In [17]:
# Cargar el corpus de 20newsgroups con todas las clases y sin quitar headers, quotes, footers
newsgroups = fetch_20newsgroups(subset='all', remove=())

# Separar los datos en características y labels
X = newsgroups.data
y = newsgroups.target

# Conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42)

In [18]:
# Convertir los textos a representaciones BOW
vectorizer = CountVectorizer(max_features=1000, stop_words='english')  # Se puede ajustar max_features según sea necesario
X_train_bow = vectorizer.fit_transform(X_train)
X_test_bow = vectorizer.transform(X_test)

# Entrenar modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow, y_train)

# Predecir con el conjunto de prueba
y_pred = lr.predict(X_test_bow)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
#print(f"F1 score: {f1_score(y_test, y_pred)}")
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.71      0.69      0.70       108
           1       0.59      0.58      0.59       148
           2       0.68      0.72      0.70       156
           3       0.47      0.52      0.49       136
           4       0.70      0.63      0.66       160
           5       0.70      0.68      0.69       168
           6       0.75      0.69      0.72       149
           7       0.69      0.75      0.72       149
           8       0.82      0.79      0.80       127
           9       0.78      0.81      0.79       160
          10       0.84      0.83      0.84       145
          11       0.86      0.83      0.84       152
          12       0.66      0.65      0.66       152
          13       0.74      0.74      0.74       151
          14       0.80      0.85      0.82       126
          15       0.80      0.88      0.84       147
          16       0.80      0.77      0.79       140
          17       0.87    

 #### **TF-IDF**


In [21]:
# Convertir los textos a representaciones TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Entrenar modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf, y_train)

# Predecir con el conjunto de prueba
y_pred = lr.predict(X_test_tfidf)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.70      0.75      0.73       108
           1       0.63      0.65      0.64       148
           2       0.74      0.75      0.74       156
           3       0.54      0.58      0.56       136
           4       0.73      0.65      0.69       160
           5       0.72      0.71      0.72       168
           6       0.78      0.69      0.73       149
           7       0.74      0.81      0.77       149
           8       0.88      0.84      0.86       127
           9       0.80      0.82      0.81       160
          10       0.86      0.84      0.85       145
          11       0.92      0.85      0.88       152
          12       0.63      0.69      0.66       152
          13       0.77      0.83      0.80       151
          14       0.78      0.84      0.81       126
          15       0.79      0.88      0.83       147
          16       0.86      0.85      0.85       140
          17       0.93    

#### **BOW + PCA**

In [22]:
# Dimensiones de los datos BOW
print(f"Dimensiones de X_train (BOW): {X_train_bow.shape}")
print(f"Dimensiones de X_test (BOW): {X_test_bow.shape}")

Dimensiones de X_train (BOW): (16019, 1000)
Dimensiones de X_test (BOW): (2827, 1000)


In [23]:
#¿Cuántos componentes principales utilizar?
pca = PCA(n_components=300)
pca.fit(X_train_bow.toarray())
print(sum(pca.explained_variance_ratio_))  # Porcentaje de la varianza total retenida por los componentes

0.997812962458167


In [24]:
# Aplicar PCA sobre los datos BOW
pca = PCA(n_components=300)  # Puedes ajustar n_components para reducir más o menos dimensiones
X_train_bow_pca = pca.fit_transform(X_train_bow.toarray())  # Convertir a array para PCA
X_test_bow_pca = pca.transform(X_test_bow.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por PCA
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_pca, y_train)

# Predecir en el conjunto de prueba con BOW + PCA
y_pred = lr.predict(X_test_bow_pca)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")


              precision    recall  f1-score   support

           0       0.65      0.69      0.67       108
           1       0.58      0.58      0.58       148
           2       0.70      0.72      0.71       156
           3       0.48      0.50      0.49       136
           4       0.71      0.62      0.67       160
           5       0.72      0.69      0.71       168
           6       0.70      0.67      0.69       149
           7       0.70      0.74      0.72       149
           8       0.85      0.78      0.81       127
           9       0.76      0.81      0.78       160
          10       0.81      0.81      0.81       145
          11       0.87      0.80      0.84       152
          12       0.57      0.60      0.59       152
          13       0.67      0.72      0.69       151
          14       0.72      0.79      0.75       126
          15       0.79      0.78      0.79       147
          16       0.74      0.74      0.74       140
          17       0.86    

 #### **TF-IDF + PCA**

In [25]:
# Dimensiones de los datos TF-IDF
print(f"Dimensiones de X_train (TF-IDF): {X_train_tfidf.shape}")
print(f"Dimensiones de X_test (TF-IDF): {X_test_tfidf.shape}")

Dimensiones de X_train (TF-IDF): (16019, 1000)
Dimensiones de X_test (TF-IDF): (2827, 1000)


In [26]:
#¿Cuántos componentes principales utilizar?
pca = PCA(n_components=200)
pca.fit(X_train_tfidf.toarray())
print(sum(pca.explained_variance_ratio_))  # Porcentaje de la varianza total retenida por los componentes

0.48026393135871365


In [27]:
# Aplicar PCA sobre los datos TF-IDF
pca = PCA(n_components=200)  # Ajustar n_components para reducir a las dimensiones que prefieras
X_train_tfidf_pca = pca.fit_transform(X_train_tfidf.toarray())  # Convertir a array para PCA
X_test_tfidf_pca = pca.transform(X_test_tfidf.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por PCA
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_pca, y_train)

# Predecir en el conjunto de prueba con TF-IDF + PCA
y_pred = lr.predict(X_test_tfidf_pca)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.65      0.74      0.69       108
           1       0.60      0.60      0.60       148
           2       0.69      0.69      0.69       156
           3       0.53      0.57      0.55       136
           4       0.70      0.61      0.65       160
           5       0.68      0.65      0.66       168
           6       0.72      0.67      0.69       149
           7       0.74      0.76      0.75       149
           8       0.79      0.78      0.79       127
           9       0.79      0.82      0.80       160
          10       0.81      0.81      0.81       145
          11       0.91      0.80      0.85       152
          12       0.52      0.61      0.56       152
          13       0.66      0.75      0.70       151
          14       0.76      0.81      0.78       126
          15       0.76      0.85      0.80       147
          16       0.81      0.80      0.81       140
          17       0.90    

 #### **BOW + t-SNE**

Con n_components=2

In [28]:
# Aplicar t-SNE sobre los datos BOW
tsne = TSNE(n_components=2, random_state=42) 
X_train_bow_tsne = tsne.fit_transform(X_train_bow.toarray())  # Convertir a array para t-SNE
X_test_bow_tsne = tsne.fit_transform(X_test_bow.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_tsne, y_train)

# Predecir en el conjunto de prueba con BOW + t-SNE
y_pred = lr.predict(X_test_bow_tsne)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.00      0.00      0.00       108
           1       0.15      0.04      0.06       148
           2       0.05      0.01      0.01       156
           3       0.04      0.04      0.04       136
           4       0.00      0.00      0.00       160
           5       0.06      0.04      0.05       168
           6       0.00      0.00      0.00       149
           7       0.05      0.06      0.05       149
           8       0.04      0.17      0.06       127
           9       0.05      0.09      0.06       160
          10       0.08      0.26      0.13       145
          11       0.03      0.03      0.03       152
          12       0.06      0.04      0.05       152
          13       0.09      0.14      0.11       151
          14       0.16      0.24      0.19       126
          15       0.15      0.25      0.18       147
          16       0.00      0.00      0.00       140
          17       0.00    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Con n_components=3

In [29]:
# Aplicar t-SNE sobre los datos BOW
tsne = TSNE(n_components=3, random_state=42) 
X_train_bow_tsne = tsne.fit_transform(X_train_bow.toarray())  # Convertir a array para t-SNE
X_test_bow_tsne = tsne.fit_transform(X_test_bow.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_tsne, y_train)

# Predecir en el conjunto de prueba con BOW + t-SNE
y_pred = lr.predict(X_test_bow_tsne)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")


              precision    recall  f1-score   support

           0       0.05      0.03      0.04       108
           1       0.05      0.04      0.04       148
           2       0.03      0.01      0.01       156
           3       0.06      0.01      0.01       136
           4       0.03      0.01      0.01       160
           5       0.02      0.02      0.02       168
           6       0.00      0.00      0.00       149
           7       0.00      0.00      0.00       149
           8       0.02      0.05      0.03       127
           9       0.02      0.03      0.02       160
          10       0.04      0.09      0.06       145
          11       0.02      0.05      0.03       152
          12       0.05      0.02      0.03       152
          13       0.06      0.01      0.02       151
          14       0.08      0.23      0.12       126
          15       0.00      0.01      0.00       147
          16       0.04      0.08      0.05       140
          17       0.01    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### **TF-IDF + t-SNE**

Con n_components=2

In [30]:
# Importar la librería para t-SNE
from sklearn.manifold import TSNE

# Aplicar t-SNE sobre los datos TF-IDF
tsne = TSNE(n_components=2, random_state=42) 
X_train_tfidf_tsne = tsne.fit_transform(X_train_tfidf.toarray())  # Convertir a array para t-SNE
X_test_tfidf_tsne = tsne.fit_transform(X_test_tfidf.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_tsne, y_train)

# Predecir en el conjunto de prueba con TF-IDF + t-SNE
y_pred = lr.predict(X_test_tfidf_tsne)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")


              precision    recall  f1-score   support

           0       0.00      0.00      0.00       108
           1       0.03      0.02      0.02       148
           2       0.00      0.00      0.00       156
           3       0.00      0.00      0.00       136
           4       0.00      0.00      0.00       160
           5       0.00      0.00      0.00       168
           6       0.01      0.01      0.01       149
           7       0.02      0.04      0.03       149
           8       0.20      0.25      0.22       127
           9       0.06      0.01      0.02       160
          10       0.04      0.12      0.06       145
          11       0.13      0.17      0.15       152
          12       0.08      0.09      0.08       152
          13       0.04      0.06      0.05       151
          14       0.24      0.44      0.31       126
          15       0.00      0.00      0.00       147
          16       0.01      0.01      0.01       140
          17       0.00    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Con n_components=3

In [31]:
# Aplicar t-SNE sobre los datos TF-IDF
tsne = TSNE(n_components=3, random_state=42) 
X_train_tfidf_tsne = tsne.fit_transform(X_train_tfidf.toarray())  # Convertir a array para t-SNE
X_test_tfidf_tsne = tsne.fit_transform(X_test_tfidf.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_tsne, y_train)

# Predecir en el conjunto de prueba con TF-IDF + t-SNE
y_pred = lr.predict(X_test_tfidf_tsne)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))
print(f"F1 score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.00      0.00      0.00       108
           1       0.04      0.01      0.01       148
           2       0.00      0.00      0.00       156
           3       0.00      0.00      0.00       136
           4       0.00      0.00      0.00       160
           5       0.06      0.07      0.06       168
           6       0.01      0.01      0.01       149
           7       0.10      0.19      0.13       149
           8       0.33      0.31      0.32       127
           9       0.07      0.01      0.01       160
          10       0.07      0.17      0.10       145
          11       0.06      0.05      0.06       152
          12       0.24      0.03      0.06       152
          13       0.03      0.01      0.02       151
          14       0.03      0.09      0.05       126
          15       0.00      0.01      0.01       147
          16       0.01      0.02      0.02       140
          17       0.00    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


### 2. Las mismas 6 estrategias del paso anterior, quitando *headers*, *quotes*, *footers*.

In [32]:
# Cargar el corpus de 20newsgroups quitando headers, quotes, y footers
newsgroups_clean = fetch_20newsgroups(subset='all', remove=('headers', 'quotes', 'footers'))

# Separar los datos en características (X) y etiquetas (y)
X_clean = newsgroups_clean.data
y_clean = newsgroups_clean.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train_clean, X_test_clean, y_train_clean, y_test_clean = train_test_split(X_clean, y_clean, test_size=0.3, random_state=42)



#### **BOW**

In [33]:
# Convertir los textos a representaciones BOW
vectorizer_clean = CountVectorizer(max_features=1000, stop_words='english')  # Se puede ajustar max_features según sea necesario
X_train_bow_clean = vectorizer_clean.fit_transform(X_train_clean)
X_test_bow_clean = vectorizer_clean.transform(X_test_clean)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_clean = lr.predict(X_test_bow_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_clean, average='weighted')}")

              precision    recall  f1-score   support

           0       0.40      0.41      0.40       236
           1       0.52      0.47      0.50       287
           2       0.55      0.53      0.54       290
           3       0.47      0.46      0.47       285
           4       0.53      0.47      0.50       312
           5       0.65      0.59      0.62       308
           6       0.62      0.62      0.62       276
           7       0.52      0.47      0.49       304
           8       0.28      0.57      0.37       279
           9       0.54      0.54      0.54       308
          10       0.72      0.67      0.69       309
          11       0.63      0.62      0.62       290
          12       0.38      0.38      0.38       304
          13       0.52      0.57      0.54       300
          14       0.61      0.56      0.58       297
          15       0.61      0.54      0.58       292
          16       0.55      0.49      0.52       270
          17       0.76    

 #### **TF-IDF**


In [34]:
# Convertir los textos a representaciones TF-IDF
tfidf_vectorizer_clean = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf_clean = tfidf_vectorizer_clean.fit_transform(X_train_clean)
X_test_tfidf_clean = tfidf_vectorizer_clean.transform(X_test_clean)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_clean = lr.predict(X_test_tfidf_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_clean, average='weighted')}")

              precision    recall  f1-score   support

           0       0.43      0.45      0.44       236
           1       0.60      0.53      0.56       287
           2       0.60      0.59      0.59       290
           3       0.50      0.54      0.52       285
           4       0.60      0.52      0.56       312
           5       0.68      0.63      0.66       308
           6       0.66      0.65      0.66       276
           7       0.61      0.52      0.56       304
           8       0.31      0.57      0.41       279
           9       0.59      0.56      0.57       308
          10       0.75      0.70      0.72       309
          11       0.69      0.59      0.64       290
          12       0.42      0.47      0.44       304
          13       0.49      0.66      0.56       300
          14       0.67      0.60      0.63       297
          15       0.60      0.66      0.63       292
          16       0.58      0.58      0.58       270
          17       0.77    

#### **BOW + PCA**

In [35]:
# Aplicar PCA sobre los datos BOW ya limpios
pca = PCA(n_components=300)  # Puedes ajustar n_components para reducir más o menos dimensiones
X_train_bow_pca_clean = pca.fit_transform(X_train_bow_clean.toarray())  # Convertir a array para PCA
X_test_bow_pca_clean = pca.transform(X_test_bow_clean.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por PCA
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_pca_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_pca_clean = lr.predict(X_test_bow_pca_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_pca_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_pca_clean, average='weighted')}")

              precision    recall  f1-score   support

           0       0.40      0.40      0.40       236
           1       0.55      0.47      0.51       287
           2       0.54      0.51      0.53       290
           3       0.46      0.48      0.47       285
           4       0.58      0.49      0.53       312
           5       0.65      0.60      0.63       308
           6       0.64      0.63      0.64       276
           7       0.52      0.51      0.52       304
           8       0.27      0.59      0.37       279
           9       0.51      0.55      0.53       308
          10       0.69      0.65      0.67       309
          11       0.67      0.61      0.64       290
          12       0.41      0.38      0.40       304
          13       0.49      0.57      0.53       300
          14       0.64      0.57      0.60       297
          15       0.62      0.56      0.59       292
          16       0.55      0.50      0.52       270
          17       0.76    

 #### **TF-IDF + PCA**

In [36]:
# Aplicar PCA sobre los datos TF-IDF ya limpios
pca = PCA(n_components=200)  # Puedes ajustar n_components para reducir más o menos dimensiones
X_train_tfidf_pca_clean = pca.fit_transform(X_train_tfidf_clean.toarray())  # Convertir a array para PCA
X_test_tfidf_pca_clean = pca.transform(X_test_tfidf_clean.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por PCA
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_pca_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_tfidf_pca_clean = lr.predict(X_test_tfidf_pca_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_tfidf_pca_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_tfidf_pca_clean, average='weighted')}")


              precision    recall  f1-score   support

           0       0.37      0.40      0.39       236
           1       0.55      0.54      0.55       287
           2       0.60      0.56      0.57       290
           3       0.47      0.52      0.49       285
           4       0.64      0.46      0.54       312
           5       0.65      0.64      0.64       308
           6       0.65      0.62      0.64       276
           7       0.62      0.50      0.55       304
           8       0.29      0.57      0.39       279
           9       0.55      0.48      0.52       308
          10       0.65      0.66      0.66       309
          11       0.72      0.60      0.65       290
          12       0.42      0.48      0.45       304
          13       0.43      0.65      0.52       300
          14       0.69      0.57      0.62       297
          15       0.59      0.66      0.63       292
          16       0.58      0.55      0.56       270
          17       0.75    

 #### **BOW + t-SNE**

In [37]:
# Aplicar t-SNE sobre los datos BOW ya limpios
tsne = TSNE(n_components=2, random_state=42) 
X_train_bow_tsne_clean = tsne.fit_transform(X_train_bow_clean.toarray())  # Convertir a array para t-SNE
X_test_bow_tsne_clean = tsne.fit_transform(X_test_bow_clean.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_tsne_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_bow_tsne_clean = lr.predict(X_test_bow_tsne_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_bow_tsne_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_bow_tsne_clean, average='weighted')}")


              precision    recall  f1-score   support

           0       0.00      0.00      0.00       236
           1       0.00      0.00      0.00       287
           2       0.02      0.04      0.02       290
           3       0.03      0.01      0.02       285
           4       0.00      0.00      0.00       312
           5       0.00      0.00      0.00       308
           6       0.05      0.17      0.08       276
           7       0.04      0.01      0.01       304
           8       0.03      0.10      0.05       279
           9       0.07      0.03      0.04       308
          10       0.04      0.02      0.02       309
          11       0.07      0.05      0.06       290
          12       0.04      0.01      0.02       304
          13       0.00      0.00      0.00       300
          14       0.06      0.03      0.04       297
          15       0.04      0.13      0.06       292
          16       0.01      0.02      0.02       270
          17       0.09    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### **TF-IDF + t-SNE**

In [38]:
# Aplicar t-SNE sobre los datos TF-IDF ya limpios
tsne = TSNE(n_components=2, random_state=42)  # Puedes cambiar a 3 si prefieres visualización en 3D
X_train_tfidf_tsne_clean = tsne.fit_transform(X_train_tfidf_clean.toarray())  # Convertir a array para t-SNE
X_test_tfidf_tsne_clean = tsne.fit_transform(X_test_tfidf_clean.toarray())

# Entrenar el modelo de regresión logística con los datos reducidos por t-SNE
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_tsne_clean, y_train_clean)

# Predecir en el conjunto de prueba
y_pred_tfidf_tsne_clean = lr.predict(X_test_tfidf_tsne_clean)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_clean, y_pred_tfidf_tsne_clean))
print(f"F1 score weighted: {f1_score(y_test_clean, y_pred_tfidf_tsne_clean, average='weighted')}")


              precision    recall  f1-score   support

           0       0.00      0.00      0.00       236
           1       0.00      0.00      0.00       287
           2       0.09      0.01      0.02       290
           3       0.03      0.03      0.03       285
           4       0.00      0.00      0.00       312
           5       0.00      0.00      0.00       308
           6       0.00      0.00      0.00       276
           7       0.04      0.02      0.03       304
           8       0.05      0.61      0.09       279
           9       0.10      0.02      0.03       308
          10       0.00      0.00      0.00       309
          11       0.05      0.24      0.09       290
          12       0.00      0.00      0.00       304
          13       0.00      0.00      0.00       300
          14       0.00      0.00      0.00       297
          15       0.08      0.05      0.06       292
          16       0.00      0.00      0.00       270
          17       0.00    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


### 3. Escoge dos clases que crees que se diferencien muy bien entre sí con estos modelos. ¿Qué clases escogiste y por qué? Compara BOW y TF-IDF para la clasificación binaria.

In [39]:
# Listar las clases disponibles
print(newsgroups.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


#### Seleccionamos las clases *sci.electronics* y *talk.religion.misc*. Considero que la electrónica maneja un vocabulario muy específico que dificilmente coincidirá con el vocabulario empleado en la jerga religiosa. 

In [40]:
# Escoger dos clases: sci.electronics y talk.religion.misc
categories = ['sci.electronics', 'talk.religion.misc']

# Cargar el corpus con solo las dos clases seleccionadas, quitando headers, quotes, footers
newsgroups_binary = fetch_20newsgroups(subset='all', categories=categories, remove=('headers', 'quotes', 'footers'))

# Separar los datos en características (X) y etiquetas (y)
X_binary = newsgroups_binary.data
y_binary = newsgroups_binary.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train_binary, X_test_binary, y_train_binary, y_test_binary = train_test_split(X_binary, y_binary, test_size=0.15, random_state=42)

#### **BOW**

In [70]:
# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score (BOW): {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted (BOW): {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")


              precision    recall  f1-score   support

           0       0.89      0.96      0.93       299
           1       0.93      0.82      0.87       185

    accuracy                           0.90       484
   macro avg       0.91      0.89      0.90       484
weighted avg       0.91      0.90      0.90       484

F1 score (BOW): 0.867816091954023
F1 score weighted (BOW): 0.9036407149664304


#### **TF-IDF**

In [72]:
# Convertir los textos a representaciones TF-IDF
vectorizer_binary_tfidf = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf_binary = vectorizer_binary_tfidf.fit_transform(X_train_binary)
X_test_tfidf_binary = vectorizer_binary_tfidf.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_tfidf_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_tfidf_binary = lr.predict(X_test_tfidf_binary)

# Evaluar el rendimiento del modelo
print(classification_report(y_test_binary, y_pred_tfidf_binary))
print(f"F1 score (TF-IDF): {f1_score(y_test_binary, y_pred_tfidf_binary)}")
print(f"F1 score weighted (TF-IDF): {f1_score(y_test_binary, y_pred_tfidf_binary, average='weighted')}")


              precision    recall  f1-score   support

           0       0.88      0.99      0.94       299
           1       0.99      0.79      0.88       185

    accuracy                           0.92       484
   macro avg       0.94      0.89      0.91       484
weighted avg       0.92      0.92      0.91       484

F1 score (TF-IDF): 0.8768768768768769
F1 score weighted (TF-IDF): 0.9130510545685921


### 4. Compara tu clasificador de la tarea pasada con el mejor clasificador del paso 3.


In [74]:
from sentiment_model import SentimentModel

# 1. Cargar las clases 'sci.electronics' y 'talk.religion.misc' del corpus 20newsgroups
categories = ['sci.electronics', 'talk.religion.misc']

# Remover headers, footers y quotes
newsgroups = fetch_20newsgroups(subset='all', categories=categories, remove=('headers', 'footers', 'quotes'))

# Crear un DataFrame con los datos cargados
df = pd.DataFrame({
    'Text': newsgroups.data,
    'Label': newsgroups.target  # target será 0 o 1 dependiendo de la categoría
})

# 2. Dividir los datos en conjunto de entrenamiento y prueba
train_data, test_data = train_test_split(df, test_size=0.15, random_state=42)

# 3. Crear el modelo de SentimentModel
model = SentimentModel()

# 4. Entrenar el modelo con los datos de entrenamiento
model.fit(train_data)

# 5. Predecir la polaridad para los datos de prueba
y_pred = model.predict(test_data)

# 6. Evaluar el modelo utilizando classification_report y f1_score
print(classification_report(test_data['Label'], y_pred))
print(f"F1 Score: {f1_score(test_data['Label'], y_pred)}")
print(f"F1 Score weighted: {f1_score(test_data['Label'], y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.95      0.71      0.81       159
           1       0.63      0.93      0.75        83

    accuracy                           0.79       242
   macro avg       0.79      0.82      0.78       242
weighted avg       0.84      0.79      0.79       242

F1 Score: 0.7475728155339806
F1 Score weighted: 0.7905270103102305


### 5. Escoge ahora dos clases que crees que no se diferencien entre sí con estos modelos. ¿Qué clases escogiste y por qué? Compara BOW y TF-IDF para la clasificación binaria. ¿Qué tanto bajó el rendimiento respecto al paso 3?

#### Seleccionamos las clases *comp.sys.ibm.pc.hardware* y *comp.sys.mac.hardware*. Ambas clases tratan sobre hardware, la única diferencia es que están enfocadas en distintas plataformas, lo que podría dificultar la clasificación debido a que comparten mucha terminología técnica.

In [46]:
# Escoger dos clases que podrían no diferenciarse bien: comp.sys.ibm.pc.hardware y comp.sys.mac.hardware
categories = ['comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware']

# Cargar el corpus con las dos clases seleccionadas
newsgroups_similar = fetch_20newsgroups(subset='all', categories=categories, remove=('headers', 'quotes', 'footers'))

# Separar los datos en características (X) y etiquetas (y)
X_similar = newsgroups_similar.data
y_similar = newsgroups_similar.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train_similar, X_test_similar, y_train_similar, y_test_similar = train_test_split(X_similar, y_similar, test_size=0.15, random_state=42)

#### **BOW**

In [75]:
# Convertir los textos a representaciones BOW
vectorizer_similar_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow_similar = vectorizer_similar_bow.fit_transform(X_train_similar)
X_test_bow_similar = vectorizer_similar_bow.transform(X_test_similar)

# Entrenar el modelo de regresión logística
lr_similar_bow = LogisticRegression(max_iter=1000)
lr_similar_bow.fit(X_train_bow_similar, y_train_similar)

# Predecir en el conjunto de prueba
y_pred_bow_similar = lr_similar_bow.predict(X_test_bow_similar)

# Evaluar el rendimiento del modelo BOW
print("Clasificación BOW (clases similares):\n")
print(classification_report(y_test_similar, y_pred_bow_similar))
print(f"F1 score (BOW): {f1_score(y_test_similar, y_pred_bow_similar)}")
print(f"F1 score weighted (BOW): {f1_score(y_test_similar, y_pred_bow_similar, average='weighted')}")

Clasificación BOW (clases similares):

              precision    recall  f1-score   support

           0       0.85      0.81      0.83       155
           1       0.79      0.84      0.82       137

    accuracy                           0.82       292
   macro avg       0.82      0.82      0.82       292
weighted avg       0.82      0.82      0.82       292

F1 score (BOW): 0.8156028368794326
F1 score weighted (BOW): 0.8220850922281779


#### **TF-IDF**

In [77]:
# Convertir los textos a representaciones TF-IDF
vectorizer_similar_tfidf = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf_similar = vectorizer_similar_tfidf.fit_transform(X_train_similar)
X_test_tfidf_similar = vectorizer_similar_tfidf.transform(X_test_similar)

# Entrenar el modelo de regresión logística
lr_similar_tfidf = LogisticRegression(max_iter=1000)
lr_similar_tfidf.fit(X_train_tfidf_similar, y_train_similar)

# Predecir en el conjunto de prueba
y_pred_tfidf_similar = lr_similar_tfidf.predict(X_test_tfidf_similar)

# Evaluar el rendimiento del modelo TF-IDF
print("Clasificación TF-IDF (clases similares):\n")
print(classification_report(y_test_similar, y_pred_tfidf_similar))
print(f"F1 score (TF-IDF): {f1_score(y_test_similar, y_pred_tfidf_similar)}")
print(f"F1 score weighted (TF-IDF): {f1_score(y_test_similar, y_pred_tfidf_similar, average='weighted')}")


Clasificación TF-IDF (clases similares):

              precision    recall  f1-score   support

           0       0.85      0.82      0.83       155
           1       0.80      0.83      0.82       137

    accuracy                           0.83       292
   macro avg       0.82      0.83      0.82       292
weighted avg       0.83      0.83      0.83       292

F1 score (TF-IDF): 0.8172043010752689
F1 score weighted (TF-IDF): 0.8254758782891322


In [50]:
print("En BOW\n")
print(f"El accuracy bajó {round(0.91 - 0.81, 3)}")
print(f"El f1-score bajó {round(0.9076918657797048 - 0.8133150933317171, 3)}\n")


En BOW

El accuracy bajó 0.1
El f1-score bajó 0.094



In [51]:
print("En TF-IDF\n")
print(f"El accuracy bajó {round(0.90 - 0.84, 3)}")
print(f"El f1-score bajó {round(0.9023588506528845 - 0.8441895050476068, 3)}\n")

En TF-IDF

El accuracy bajó 0.06
El f1-score bajó 0.058



### 6. En tu mejor clasificador del paso 3, prueba bajando y subiendo el parámetro `max_features` ¿qué efecto tiene esto en la tarea de clasificación?


In [79]:
# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=100, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo
print("Clasificación BOW (max_features=100):\n")
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score: {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted: {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")

Clasificación BOW (max_features=100):

              precision    recall  f1-score   support

           0       0.85      0.94      0.89       299
           1       0.88      0.73      0.80       185

    accuracy                           0.86       484
   macro avg       0.86      0.83      0.84       484
weighted avg       0.86      0.86      0.85       484

F1 score: 0.7964601769911505
F1 score weighted: 0.854432749397493


In [81]:
# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=500, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo
print("Clasificación BOW (max_features=500):\n")
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score: {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted: {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")

Clasificación BOW (max_features=500):

              precision    recall  f1-score   support

           0       0.88      0.96      0.92       299
           1       0.93      0.79      0.86       185

    accuracy                           0.90       484
   macro avg       0.91      0.88      0.89       484
weighted avg       0.90      0.90      0.90       484

F1 score: 0.8571428571428571
F1 score weighted: 0.8969624557260921


In [83]:
# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo
print("Clasificación BOW (max_features=1000):\n")
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score: {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted: {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")

Clasificación BOW (max_features=1000):

              precision    recall  f1-score   support

           0       0.89      0.96      0.93       299
           1       0.93      0.82      0.87       185

    accuracy                           0.90       484
   macro avg       0.91      0.89      0.90       484
weighted avg       0.91      0.90      0.90       484

F1 score: 0.867816091954023
F1 score weighted: 0.9036407149664304


In [85]:
# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=2000, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo
print("Clasificación BOW (max_features=2000):\n")
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score: {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted: {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")

Clasificación BOW (max_features=2000):

              precision    recall  f1-score   support

           0       0.90      0.97      0.93       299
           1       0.94      0.83      0.88       185

    accuracy                           0.92       484
   macro avg       0.92      0.90      0.91       484
weighted avg       0.92      0.92      0.91       484

F1 score: 0.8825214899713467
F1 score weighted: 0.9141775872310337


#### El incremento de max_features parece incrementar de manera asíntotica el rendimiento del modelo en términos de su f1-score. Notamos un claro incremento al pasar de 100 a 500 y luego de 500 a 1000. Sin embargo, al pasar de 1000 a 2000 el incremento es mínimo, casi imperceptible. Aunque el accuracy parece seguir el mismo comportamiento al pasar de 100 a 500 y de 500 a 1000, mostró un descenso al pasar de 1000 a 2000. 

### 7. **Crédito extra**: ¿Qué efecto tiene lematizar el texto en la tarea de clasificación? Prueba con tu mejor clasificador binario.


In [56]:
# Importar librerías para lematizar
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

In [57]:
# Descargar recursos necesarios de nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')

# Inicializar el lematizador
lemmatizer = WordNetLemmatizer()

# Función para lematizar los documentos
def lemmatize_text(text):
    words = nltk.word_tokenize(text)
    return ' '.join([lemmatizer.lemmatize(word) for word in words if word.isalnum()])


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\jcbar\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\jcbar\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jcbar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [87]:
# Escoger dos clases: sci.electronics y talk.religion.misc
categories = ['sci.electronics', 'talk.religion.misc']

# Cargar el corpus con solo las dos clases seleccionadas, quitando headers, quotes, footers
newsgroups_binary = fetch_20newsgroups(subset='all', categories=categories, remove=('headers', 'quotes', 'footers'))

# Separar los datos en características (X) y etiquetas (y)
X_binary = newsgroups_binary.data
y_binary = newsgroups_binary.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train_binary, X_test_binary, y_train_binary, y_test_binary = train_test_split(X_binary, y_binary, test_size=0.3, random_state=42)

# Convertir los textos a representaciones BOW
vectorizer_binary_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow_binary = vectorizer_binary_bow.fit_transform(X_train_binary)
X_test_bow_binary = vectorizer_binary_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_bow_binary, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_binary = lr.predict(X_test_bow_binary)

# Evaluar el rendimiento del modelo BOW sin lematización
print("Clasificación BOW sin lematización:\n")
print(classification_report(y_test_binary, y_pred_bow_binary))
print(f"F1 score (BOW sin lematización): {f1_score(y_test_binary, y_pred_bow_binary)}")
print(f"F1 score weighted (BOW sin lematización): {f1_score(y_test_binary, y_pred_bow_binary, average='weighted')}")


Clasificación BOW sin lematización:

              precision    recall  f1-score   support

           0       0.89      0.97      0.93       299
           1       0.94      0.82      0.87       185

    accuracy                           0.91       484
   macro avg       0.92      0.89      0.90       484
weighted avg       0.91      0.91      0.91       484

F1 score (BOW sin lematización): 0.8728323699421965
F1 score weighted (BOW sin lematización): 0.9076918657797048


In [88]:
# Escoger dos clases: sci.electronics y talk.religion.misc
categories = ['sci.electronics', 'talk.religion.misc']

# Cargar el corpus con las dos clases seleccionadas
newsgroups_binary = fetch_20newsgroups(subset='all', categories=categories, remove=('headers', 'quotes', 'footers'))

# Aplicar lematización al texto
X_binary_lemmatized = [lemmatize_text(text) for text in newsgroups_binary.data]
y_binary = newsgroups_binary.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train_binary, X_test_binary, y_train_binary, y_test_binary = train_test_split(X_binary_lemmatized, y_binary, test_size=0.3, random_state=42)

# Convertir los textos a representaciones BOW
vectorizer_lemmatized_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow_lemmatized = vectorizer_lemmatized_bow.fit_transform(X_train_binary)
X_test_bow_lemmatized = vectorizer_lemmatized_bow.transform(X_test_binary)

# Entrenar el modelo de regresión logística
lr_bow_lemmatized = LogisticRegression(max_iter=1000)
lr_bow_lemmatized.fit(X_train_bow_lemmatized, y_train_binary)

# Predecir en el conjunto de prueba
y_pred_bow_lemmatized = lr_bow_lemmatized.predict(X_test_bow_lemmatized)

# Evaluar el rendimiento del modelo BOW con lematización
print("Clasificación BOW con lematización:\n")
print(classification_report(y_test_binary, y_pred_bow_lemmatized))
print(f"F1 score (BOW con lematización): {f1_score(y_test_binary, y_pred_bow_lemmatized)}")
print(f"F1 score weighted (BOW con lematización): {f1_score(y_test_binary, y_pred_bow_lemmatized, average='weighted')}")

Clasificación BOW con lematización:

              precision    recall  f1-score   support

           0       0.89      0.96      0.93       299
           1       0.93      0.82      0.87       185

    accuracy                           0.90       484
   macro avg       0.91      0.89      0.90       484
weighted avg       0.91      0.90      0.90       484

F1 score (BOW con lematización): 0.867816091954023
F1 score weighted (BOW con lematización): 0.9036407149664304


#### La lematización parece reducir levemente el rendimiento del modelo BOW

In [60]:
print(f"El accuracy bajó {round(0.91 - 0.90, 3)}")
print(f"El f1-score bajó {round(0.9076918657797048 - 0.9036407149664304, 3)}\n")

El accuracy bajó 0.01
El f1-score bajó 0.004



### **Information Retrieval con el corpus `20newsgroups`** Entrena un modelo BOW y un TF-IDF con todos los documentos juntos de `train` y `test`. Realiza algunas consultas al modelo para obtener los documentos más relevantes para tu busqueda. Reporta algunos casos que creas interesantes y explica porque los consideras interesantes.

In [61]:
# Importar librerías
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [62]:
# Cargar todo el corpus 20newsgroups (tanto train como test)
newsgroups = fetch_20newsgroups(subset='all')

# Separar los datos en características y labels
X = newsgroups.data
y = newsgroups.target

# Entrenar el modelo BOW (Bag of Words)
vectorizer_bow = CountVectorizer(max_features=1000, stop_words='english')
X_bow = vectorizer_bow.fit_transform(X)

# Entrenar el modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer(max_features=1000, stop_words='english')
X_tfidf = vectorizer_tfidf.fit_transform(X)

In [63]:
# Definir una función para realizar consultas
def retrieve_documents(query, vectorizer, X_corpus):
    # Convertir la consulta en un vector
    query_vec = vectorizer.transform([query])
    
    # Calcular la similitud coseno entre la consulta y todos los documentos
    cosine_similarities = cosine_similarity(query_vec, X_corpus).flatten()
    
    # Ordenar los documentos por similitud (de mayor a menor)
    most_similar_docs = cosine_similarities.argsort()[::-1]
    
    # Retornar los índices de los documentos más similares
    return most_similar_docs, cosine_similarities

In [64]:
# Definir una consulta de ejemplo
query = "space exploration and technology"

# Recuperar los documentos más relevantes usando BOW
docs_bow, similarities_bow = retrieve_documents(query, vectorizer_bow, X_bow)

# Recuperar los documentos más relevantes usando TF-IDF
docs_tfidf, similarities_tfidf = retrieve_documents(query, vectorizer_tfidf, X_tfidf)

In [65]:
# Función modificada para mostrar la información solicitada
def show_top_documents(docs, similarities, num_docs=5):
    for i in range(num_docs):
        doc_index = docs[i]
        doc_text = newsgroups.data[doc_index]

        # Extraer el 'Subject' del documento si está presente
        subject_line = ""
        for line in doc_text.split('\n'):
            if line.lower().startswith("subject:"):
                subject_line = line
                break
        
        # Mostrar la información solicitada
        print(f"Documento {i + 1}:")
        print(f"Índice del documento: {doc_index}")
        print(f"{subject_line}")
        print(f"Similitud coseno: {similarities[doc_index]:.4f}")
        print("-" * 80)



In [66]:
# Mostrar los 5 documentos más relevantes usando BOW
print("Resultados usando BOW:\n")
show_top_documents(docs_bow, similarities_bow)

Resultados usando BOW:

Documento 1:
Índice del documento: 15147
Subject: End of the Space Age
Similitud coseno: 0.6729
--------------------------------------------------------------------------------
Documento 2:
Índice del documento: 10867
Subject: Space FAQ 13/15 - Interest Groups & Publications
Similitud coseno: 0.6292
--------------------------------------------------------------------------------
Documento 3:
Índice del documento: 5513
Subject: Space FAQ 05/15 - References
Similitud coseno: 0.5401
--------------------------------------------------------------------------------
Documento 4:
Índice del documento: 10571
Subject: Space FAQ 02/15 - Network Resources
Similitud coseno: 0.5161
--------------------------------------------------------------------------------
Documento 5:
Índice del documento: 16258
Subject: Tsniimach Enterprise
Similitud coseno: 0.5108
--------------------------------------------------------------------------------


In [67]:
# Mostrar los 5 documentos más relevantes usando TF-IDF
print("\nResultados usando TF-IDF:\n")
show_top_documents(docs_tfidf, similarities_tfidf)



Resultados usando TF-IDF:

Documento 1:
Índice del documento: 15147
Subject: End of the Space Age
Similitud coseno: 0.6750
--------------------------------------------------------------------------------
Documento 2:
Índice del documento: 10867
Subject: Space FAQ 13/15 - Interest Groups & Publications
Similitud coseno: 0.6329
--------------------------------------------------------------------------------
Documento 3:
Índice del documento: 5513
Subject: Space FAQ 05/15 - References
Similitud coseno: 0.5283
--------------------------------------------------------------------------------
Documento 4:
Índice del documento: 10571
Subject: Space FAQ 02/15 - Network Resources
Similitud coseno: 0.5224
--------------------------------------------------------------------------------
Documento 5:
Índice del documento: 16258
Subject: Tsniimach Enterprise
Similitud coseno: 0.5119
--------------------------------------------------------------------------------


### **Análisis de sentimientos con BOW/TFIDF**. Usando el corpus de la tarea anterior (el de turismo), entrena un clasificador de Machine Learning con los embeddings BOW/TF-IDF, ¿mejora el rendimiento respecto al que presentaste en clase?

In [3]:
# Cargar los datos de turismo
turismo_df = pd.read_csv('Datos/train_turismo.csv')

# Crear una columna con el texto concatenado de 'Title' y 'Opinion'
turismo_df['Text'] = turismo_df['Title'].astype(str) + " " + turismo_df['Opinion'].astype(str)
turismo_df = turismo_df.dropna()

# Separar los datos en características (X) y etiquetas (y)
X = turismo_df['Text']
y = turismo_df['Label']  # Asumiendo que 'Label' contiene la clasificación de sentimientos

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42)

In [7]:
# **BOW** - Convertir los textos a representaciones Bag of Words
vectorizer_bow = CountVectorizer(max_features=1000, stop_words='english')
X_train_bow = vectorizer_bow.fit_transform(X_train)
X_test_bow = vectorizer_bow.transform(X_test)

# **TF-IDF** - Convertir los textos a representaciones TF-IDF
vectorizer_tfidf = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf = vectorizer_tfidf.fit_transform(X_train)
X_test_tfidf = vectorizer_tfidf.transform(X_test)

# Entrenar un modelo de regresión logística con **BOW**
model_bow = LogisticRegression(max_iter=1000)
model_bow.fit(X_train_bow, y_train)
y_pred_bow = model_bow.predict(X_test_bow)

# Entrenar un modelo de regresión logística con **TF-IDF**
model_tfidf = LogisticRegression(max_iter=1000)
model_tfidf.fit(X_train_tfidf, y_train)
y_pred_tfidf = model_tfidf.predict(X_test_tfidf)

# Evaluar los modelos
print("Resultados del modelo BOW:\n")
print(classification_report(y_test, y_pred_bow))
print(f"F1 score (BOW): {f1_score(y_test, y_pred_bow)}")
print(f"F1 score weighted (BOW): {f1_score(y_test, y_pred_bow, average='weighted')}")

print("\nResultados del modelo TF-IDF:\n")
print(classification_report(y_test, y_pred_tfidf))
print(f"F1 score (TF-IDF): {f1_score(y_test, y_pred_tfidf)}")
print(f"F1 score weighted (TF-IDF): {f1_score(y_test, y_pred_tfidf, average='weighted')}")


Resultados del modelo BOW:

              precision    recall  f1-score   support

           0       0.64      0.51      0.57       122
           1       0.89      0.94      0.91       541

    accuracy                           0.86       663
   macro avg       0.77      0.72      0.74       663
weighted avg       0.85      0.86      0.85       663

F1 score (BOW): 0.9141824751580849
F1 score weighted (BOW): 0.8501513493684769

Resultados del modelo TF-IDF:

              precision    recall  f1-score   support

           0       0.80      0.37      0.51       122
           1       0.87      0.98      0.92       541

    accuracy                           0.87       663
   macro avg       0.84      0.67      0.71       663
weighted avg       0.86      0.87      0.85       663

F1 score (TF-IDF): 0.9233449477351916
F1 score weighted (TF-IDF): 0.8464781447709888


In [4]:
# Importar el modelo de análisis de sentimientos
from sentiment_model import SentimentModel

# Crear el modelo de SentimentModel con los parámetros deseados
model = SentimentModel()

# Entrenar el modelo
model.fit(X_train, y_train)

# Predecir las etiquetas para el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo utilizando classification_report y f1_score
print(classification_report(y_test, y_pred))
print(f"F1 Score: {f1_score(y_test, y_pred)}")
print(f"F1 Score weighted: {f1_score(y_test, y_pred, average='weighted')}")

              precision    recall  f1-score   support

           0       0.71      0.48      0.58       122
           1       0.89      0.96      0.92       541

    accuracy                           0.87       663
   macro avg       0.80      0.72      0.75       663
weighted avg       0.86      0.87      0.86       663

F1 Score: 0.9223907225691347
F1 Score weighted: 0.858578840352646
