### Consigna del desafío 1

**1**. Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido
la similaridad según el contenido del texto y la etiqueta de clasificación.

**2**. Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación
(f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros
de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial
y ComplementNB.

**3**. Transponer la matriz documento-término. De esa manera se obtiene una matriz
término-documento que puede ser interpretada como una colección de vectorización de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares.

### Vectorización de texto y modelo de clasificación Naïve Bayes con el dataset 20 newsgroups

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

from sklearn.datasets import fetch_20newsgroups
import numpy as np

## Carga de datos

In [2]:
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorización con TfidfVectorizer

In [5]:
tfidfvect = TfidfVectorizer()


In [6]:
newsgroups_train.data[0]

'I was wondering if anyone out there could enlighten me on this car I saw\nthe other day. It was a 2-door sports car, looked to be from the late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. In addition,\nthe front bumper was separate from the rest of the body. This is \nall I know. If anyone can tellme a model name, engine specs, years\nof production, where this car is made, history, or whatever info you\nhave on this funky looking car, please e-mail.'

In [7]:
X_train = tfidfvect.fit_transform(newsgroups_train.data)
# `X_train` la podemos denominar como la matriz documento-término

In [8]:
print(type(X_train))
print(f'shape: {X_train.shape}')
print(f'cantidad de documentos: {X_train.shape[0]}')
print(f'tamaño del vocabulario (dimensionalidad de los vectores): {X_train.shape[1]}')

<class 'scipy.sparse._csr.csr_matrix'>
shape: (11314, 101631)
cantidad de documentos: 11314
tamaño del vocabulario (dimensionalidad de los vectores): 101631


In [9]:
tfidfvect.vocabulary_['car']

25775

In [19]:
idx2word = {v: k for k,v in tfidfvect.vocabulary_.items()}

In [20]:
y_train = newsgroups_train.target
y_train[:10]

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

In [21]:
print(f'clases {np.unique(newsgroups_test.target)}')
newsgroups_test.target_names

clases [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

## Similaridad de documentos

In [32]:
# Tomar 5 documentos al azar
indices_documentos_aleatorios = np.random.choice(range(X_train.shape[0]), size=5, replace=False)
print(indices_documentos_aleatorios
documentos_aleatorios = [X_train[i] for i in indices_documentos_aleatorios]

# Calcular la similitud entre los documentos aleatorios y todos los documentos
similarity_matrix = cosine_similarity(X_train[indices_documentos_aleatorios], X_train)

# Encontrar los 5 documentos más similares para cada uno de los documentos aleatorios
for i, doc_index in enumerate(indices_documentos_aleatorios):
    # Excluir el propio documento de la lista de documentos similares
    similar_indices = np.argsort(similarity_matrix[i])[::-1][1:6]
    original_class_label = newsgroups_train.target_names[y_train[doc_index]]

    print(f"Document {i+1} (Index: {doc_index}, Class: {original_class_label})")
    print("Top 5 most similar documents:")
    for j, similar_index in enumerate(similar_indices):
        similar_class_label = newsgroups_train.target_names[y_train[similar_index]]
        print(f"Similar Document {j+1} (Index: {similar_index}, Class: {similar_class_label})")

    print()


Document 1 (Index: 4655, Class: alt.atheism)
Top 5 most similar documents:
Similar Document 1 (Index: 5200, Class: alt.atheism)
Similar Document 2 (Index: 10924, Class: alt.atheism)
Similar Document 3 (Index: 10836, Class: alt.atheism)
Similar Document 4 (Index: 7539, Class: alt.atheism)
Similar Document 5 (Index: 2095, Class: alt.atheism)

Document 2 (Index: 5727, Class: misc.forsale)
Top 5 most similar documents:
Similar Document 1 (Index: 8972, Class: sci.med)
Similar Document 2 (Index: 5010, Class: sci.electronics)
Similar Document 3 (Index: 6874, Class: comp.sys.ibm.pc.hardware)
Similar Document 4 (Index: 4271, Class: talk.politics.misc)
Similar Document 5 (Index: 6731, Class: sci.crypt)

Document 3 (Index: 2443, Class: rec.motorcycles)
Top 5 most similar documents:
Similar Document 1 (Index: 6115, Class: rec.motorcycles)
Similar Document 2 (Index: 4263, Class: rec.motorcycles)
Similar Document 3 (Index: 2063, Class: rec.motorcycles)
Similar Document 4 (Index: 2130, Class: comp.os

### Modelo de clasificación Naïve Bayes

In [14]:
# es muy fácil instanciar un modelo de clasificación Naïve Bayes y entrenarlo con sklearn
clf = MultinomialNB()
clf.fit(X_train, y_train)

In [15]:
# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target
y_pred =  clf.predict(X_test)

In [None]:
# el F1-score es una metrica adecuada para reportar desempeño de modelos de claificación
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena métrica cuando los datasets son desbalanceados
f1_score(y_test, y_pred, average='macro')

0.5854345727938506

### Consigna del desafío 1

**1**. Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido
la similaridad según el contenido del texto y la etiqueta de clasificación.

**2**. Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación
(f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros
de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial
y ComplementNB.

**3**. Transponer la matriz documento-término. De esa manera se obtiene una matriz
término-documento que puede ser interpretada como una colección de vectorización de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares.


### Vectorizacion Count Vectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Crear un objeto CountVectorizer
count_vectorizer = CountVectorizer()

# Vectorizar los documentos
X_count = count_vectorizer.fit_transform(documentos)

### Hashing Vectorizer

In [None]:
from sklearn.feature_extraction.text import HashingVectorizer

# Create a HashingVectorizer object
hash_vectorizer = HashingVectorizer(n_features=10000)

# Vectorize the documents
X_hash = hash_vectorizer.fit_transform(documentos)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Supongamos que X_tfidf es la matriz TF-IDF de tus documentos
# X_tfidf = tfidf_vectorizer.fit_transform(documentos)

# Tomar 5 documentos al azar
indices_documentos_aleatorios = np.random.choice(range(len(documentos)), size=5, replace=False)
documentos_aleatorios = [documentos[i] for i in indices_documentos_aleatorios]

# Calcular la similitud entre los documentos aleatorios y todos los documentos
similarity_matrix = cosine_similarity(X_tfidf[indices_documentos_aleatorios], X_tfidf)

# Encontrar los 5 documentos más similares para cada uno de los documentos aleatorios
for i, doc_index in enumerate(indices_documentos_aleatorios):
    # Excluir el propio documento de la lista de documentos similares
    similar_indices = np.argsort(similarity_matrix[i])[::-1][1:6]
    # Imprimir los documentos más similares
    print(f"Documentos similares al documento aleatorio {i+1}:")
    for j, similar_index in enumerate(similar_indices):
        print(f"Documento {similar_index}: {documentos[similar_index]}")
        # También puedes imprimir la similitud si lo deseas
        # print(f"Similarity Score: {similarity_matrix[i][similar_index]}")
    print()

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Supongamos que X_count es la matriz de conteo de tus documentos
# X_count = count_vectorizer.fit_transform(documentos)

# Tomar 5 documentos al azar
indices_documentos_aleatorios = np.random.choice(range(len(documentos)), size=5, replace=False)
documentos_aleatorios = [documentos[i] for i in indices_documentos_aleatorios]

# Calcular la similitud entre los documentos aleatorios y todos los documentos
similarity_matrix = cosine_similarity(X_count[indices_documentos_aleatorios])

# Encontrar los 5 documentos más similares para cada uno de los documentos aleatorios
for i, doc_index in enumerate(indices_documentos_aleatorios):
    # Excluir el propio documento de la lista de documentos similares
    similar_indices = np.argsort(similarity_matrix[i])[::-1][1:6]
    # Imprimir los documentos más similares
    print(f"Documentos similares al documento aleatorio {i+1}:")
    for j, similar_index in enumerate(similar_indices):
        print(f"Documento {similar_index}: {documentos[similar_index]}")
        # También puedes imprimir la similitud si lo deseas
        # print(f"Similarity Score: {similarity_matrix[i][similar_index]}")
    print()


In [None]:
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Supongamos que X_hash es la matriz obtenida con HashingVectorizer
# hash_vectorizer = HashingVectorizer(n_features=10000)
# X_hash = hash_vectorizer.fit_transform(documentos)

# Tomar 5 documentos al azar
indices_documentos_aleatorios = np.random.choice(range(len(documentos)), size=5, replace=False)
documentos_aleatorios = [documentos[i] for i in indices_documentos_aleatorios]

# Calcular la similitud entre los documentos aleatorios y todos los documentos
similarity_matrix = cosine_similarity(X_hash[indices_documentos_aleatorios])

# Encontrar los 5 documentos más similares para cada uno de los documentos aleatorios
for i, doc_index in enumerate(indices_documentos_aleatorios):
    # Excluir el propio documento de la lista de documentos similares
    similar_indices = np.argsort(similarity_matrix[i])[::-1][1:6]
    # Imprimir los documentos más similares
    print(f"Documentos similares al documento aleatorio {i+1}:")
    for j, similar_index in enumerate(similar_indices):
        print(f"Documento {similar_index}: {documentos[similar_index]}")
        # También puedes imprimir la similitud si lo deseas
        # print(f"Similarity Score: {similarity_matrix[i][similar_index]}")
    print()


### Naive

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

# Cargar los datos
newsgroups_data = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)

# Vectorizar los documentos
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(newsgroups_data.data)
y = newsgroups_data.target

# División de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamiento de modelos de Naïve Bayes
models = {
    "MultinomialNB": MultinomialNB(),
    "ComplementNB": ComplementNB()
}

for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    f1 = f1_score(y_test, y_pred, average='macro')
    print(f"{model_name} - f1-score macro: {f1}")


In [None]:
#Traspose 

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Supongamos que X_count es la matriz de conteo de tus documentos
# X_count = count_vectorizer.fit_transform(documentos)

# Transponer la matriz documento-término para obtener una matriz término-documento
X_term_doc = X_count.T

# Obtener los nombres de las palabras
feature_names = count_vectorizer.get_feature_names_out()

# Tomar 5 palabras al azar
indices_palabras_aleatorias = np.random.choice(range(len(feature_names)), size=5, replace=False)
palabras_aleatorias = [feature_names[i] for i in indices_palabras_aleatorias]

# Calcular la similitud entre las palabras aleatorias y todas las demás palabras
similarity_matrix = cosine_similarity(X_term_doc[indices_palabras_aleatorias])

# Encontrar las 5 palabras más similares para cada una de las palabras aleatorias
for i, palabra_index in enumerate(indices_palabras_aleatorias):
    # Excluir la propia palabra de la lista de palabras similares
    similar_indices = np.argsort(similarity_matrix[i])[::-1][1:6]
    # Imprimir las palabras más similares
    print(f"Palabras similares a la palabra '{palabras_aleatorias[i]}':")
    for j, similar_index in enumerate(similar_indices):
        print(f"Palabra {feature_names[similar_index]}")
    print()
